Posedness of an inverse problem of reconstructing the multidimensional function through neural network model in tax administration
Table of contents
Share
Metrics
Posedness of an inverse problem of reconstructing the multidimensional function through neural network model in tax administration
Annotation
PII
S207751800000026-7-4
Publication type
Article
Статус публикации
Published
Authors
Alexandr Biryukov 
Affiliation: Sterlitamak branch of the Bashkir state University
Address: Russian Federation, ,
Abstract
The object of this paper is to consider a very deep penetration of the requirements of effective learning algorithms of neural networks in predprotsessornoy processing. Developed a method for assessing the adequacy of neural network models in the absence of any a priori information about the distribution of noise in the data. This method allowed us to control quality predprotsessornoy interconnected data processing and quality of their approximation to the neural network
Keywords
neural network, neural network model, tax administration, multidimensional function
Received
29.08.2015
Date of publication
30.09.2015
Number of characters
20753
Number of purchasers
2
Views
12982
Readers community rating
0.0 (0 votes)
Cite Download pdf

To download PDF you should sign in

1

Общий регуляризирующий оператор Тихонова

2

В работе [1] для задач интерпретации (восстановления) показано, что задача о минимизации стабилизатора на множестве с ограничениями типа неравенств может быть редуцирована к классической задаче на условный экстремум с ограничением вида равенств (метод Лагранжа). Такая задача, значительно более удобная для численного решения на ЭВМ, формулируется следующим образом. Пусть λ>0 числовой параметр. Выражение:

3

(1)

4

называется сглаживающим функционалом Тихонова для задачи интерпретации. Рассмотрим задачу:

5

(2)

6

где второе условие служит для алгоритмического выбора λ.

7

Задача (2), в самом деле, допускает более простой алгоритм решения. Для всякого λ>0 элемент z (λ) может быть (обычно однозначным образом) найден каким-либо прямым методом безусловной минимизации Jλ; уравнение (2) есть обычное трансцендентное уравнение φ(λ) - δ2 = 0 с алгоритмически определенной левой частью, и оно может быть решено любым из известных методов на ЭВМ; определив отсюда λ= λ(δ), находим и zδ= z(λ(δ)) . Использование указанного уравнения для определения значения параметра (λ) обычно называют методом «невязки» (невязка φ(λ)). Этот метод подробно изучался в работе [1].

8 Для замыкания задачи восстановления гиперповерхности Г(х) с использованием сглаживающего функционала Тихонова применительно к нейросетевому моделированию «ядра» модели следует определить δ. В качестве δ предлагается выбирать константу Липшица L как меру неоднородности данных косвенно зависящую от меры зашумления:
9 (3)
10 где – две достаточно близкие точки в базе данных, а y1, y2 – соответствующие им значения выхода модели:
11 (4)
12 Как показано, некоторые обобщенно-корректные постановки обратных задач при самых общих предположениях относительно оператора А и искомого решения z и независимо от класса задачи связаны с конструкцией сглаживающего функционала Тихонова. Оказывается, что задача о минимизации этого параметрического функционала порождает целое семейство регуляризирующих операторов (РО), зависящих от выбора параметра λ.
13 В частности, для задач интерпретации (восстановления), описываемых операторным уравнением Az=u, существует семейство функций λ= λ(δ), таких, что экстремаль сглаживающего функционала zλ(δ) сходится в метрике пространства Z при λ→0 к единственному точному решению операторного уравнения.
14 Если решение соответствующего операторного уравнения не единственно, то для любой из указанных зависимостей λ= λ(δ) имеет место сходимость zλ(δ) к Ω-нормальному решению [1].
15 Определение. Любой алгоритм минимизации сглаживающего функционала, построенного для обратной задачи, при заданном значении меры погрешности (или допуска) δ и каком-либо выборе зависимости λ= λ(δ), удовлетворяющей принципу регуляризации (или обеспечивающей принадлежность zλ(δ) множеству допустимых значений), называется общим регуляризирующий оператором (РО) Тихонова.
16 Для реализации общего регуляризирующего оператора Тихонова нужно решить следующие задачи.
17 1. Сформулировать алгоритм вычисления «прямых эффектов» т.е. невязки . Для обратных задач это функционал качества, вообще говоря, более общего вида, чем невязка. Отметим, что расчет прямых эффектов осуществляется многократно в ходе решения обратной задачи и занимает обычно основную долю времени ЭВМ. Ввиду этого следует позаботиться о том, чтобы соответствующий алгоритм был по возможности максимально экономичным.
18 2. Выбрать стабилизатор Ω(z), учитывая имеющуюся априорную информацию о решении.
19 3. Следует выбрать способ согласования параметра λ с δ: λ= λ(δ) в соответствии с принципом регуляризации.
20 4. Выбрать стратегию минимизации сглаживающего функционала. Отметим, что в этом отношении РО не отличается от алгоритмов, вытекающих из других корректных вариационных постановок и связан с использованием известных алгоритмов минимизации; вместе с тем структура сглаживающего функционала приводит к достаточно экономичной для ряда задач стратегии.
21 Один из способов согласования параметра λ с величиной δ по невязке был, упомянут, и он является элементом постановки задачи (2). Поскольку задача решается на алгоритмически вводимом множестве корректности, о близости zλ(δ) к точному решению можно судить по близости наблюдаемого и рассчитанного эффектов, что и делают при таком выборе регуляризованного приближения. Этот алгоритм является общим для задач всех типов, если для них известна величина δ.
22 2. Регуляризация RBF-сетей
23 В теории регуляризации RBF-сетей используются специфические свойства этих сетей [2]:
24
  • Имеется только один скрытый слой (рис. 1.), число нейронов, в котором равно числу сигналов, т.е. числу N примеров в данных.
  • Активационные функции в узлах скрытого слоя – это функции Грина либо их частный случай – радиальные базисные функции , где – центр для функций Грина; - текущее значение её аргумента.
  • Выходной слой в случае одномерного выхода () представляет собой нейрон, выходом которого служит линейная взвешенная сумма всех выходов узлов промежуточного слоя.
  • В случае если в качестве функции Грина используется многомерная функция Гаусса (33), то она обладает нужным для регуляризации свойством непрерывной дифференцируемости, включая вторые производные по своим аргументам.
25 Запишем функционал сглаживания А.Н.Тихонова (1) в виде:
26 Fλ(z) = Es(z) + Ec(z). (5)
27 Здесь первое слагаемое, обозначаемое Es(F), описывает стандартную ошибку (расстояние между желаемым откликом di и фактическим выходным сигналом нейросети yi, для примера обучения i=1,2,…, N). В частности, можно определить:
28 (6)
29 где нейросетевое отображение в задаче интерполяции.
30 Второе слагаемое, обозначенное , в классической записи функционала А.Н.Тихонова равно:
31 (7)
32 должно зависеть от «геометрических» свойств функции аппроксимации нейросети . Учитывая свойства гладкости функции Грина , упомянутые выше, можно положить:
33 (8)
34 где D – линейный дифференциальный оператор. Априорная информация о форме решения (т.е. о функции отображения ), включенная в дифференциальный оператор D, обеспечивает его зависимость от конкретной задачи. Оператор D иногда еще называют стабилизатором, так как в задаче регуляризации он стабилизирует решение, делая его гладким и, таким образом, удовлетворяющим свойству непрерывности.
35 Символ ||•|| в выражении (8) обозначает норму в функциональном пространстве, к которому принадлежит . При обычных условиях используемое здесь функциональное пространство является гильбертовым пространством L2 , состоящим из всех действительных функций , для которых норма является интегрируемой по Лебегу. Используемая здесь функция обозначает фактическую функцию, описывающую моделируемый экономичный процесс, отвечающий за генерацию пар примеров обучения .
36 Величиной, которую требуется минимизировать в теории регуляризации, является
37 (9)
38 где λ – положительное действительное число, называемое параметром регуляризации; E(F) – функционал Тихонова. Функционал отображает функции (определенные в соответствующем функциональном пространстве) на ось действительных чисел.
39 E(F) : L2 → R1(10)
40

Аргминимум функционала Тихонова E(F) (т.е. решение задачи регуляризации) обозначается

41 (11)
42 В некотором смысле параметр регуляризации λ можно рассматривать как индикатор достаточности данного набора данных для определения решения . В частности, крайний случай, λ→0, означает, что задача является безусловной и имеет решение , целиком зависящее от примеров. Другой крайний случай, λ→∞, предполагает, что самого априорного ограничения на гладкость, представленного дифференциальным оператором D, достаточно для определения решения . Это может указывать также на недостаточное количество примеров. В практических приложениях параметр регуляризации λ принимает некоторое среднее значение между этими двумя крайними случаями. Этим определяется влияние на решение, как априорной информации, так и данных обучающей выборки. Таким образом, слагаемое регуляризации Ec(F) представляет собой функцию штрафа за сложность модели, влияние которой на окончательное решение определяется параметром регуляризации λ.
43 В [2] показано, что с помощью применения тождества Грина к выражению дифференциала Фреше dEc(F,h) из (9) и затем использования уравнения Эйлера-Лагранжа и функции Грина , можно получить уравнение для выбора аппроксимирующего восстанавливающего оператора многомерную функцию :
44 (12)
45 где непрерывная или кусочно-непрерывная функция аргумента ; L – линейный дифференциальный оператор. Решением дифференциального уравнения (12) является непрерывная или кусочно-непрерывная функция аргумента :
46 (13)
47 где – функция Грина для линейного оператора дифференцирования L [2]; ξ – переменная интегрирования.
48 Теперь оговорим свойства функции Грина , которая в RBF-сетях используется в качестве активационной:
  1. Для фиксированного аргумента является функцией от и удовлетворяет граничным условиям.
  2. Во всех точках, исключая , все производные от по переменной являются непрерывными, количество производных определяется порядком оператора L.
  3. По переменной функция удовлетворяет уравнению в частных производных:
49 (14)
50 всюду, кроме точки , где имеет особенность. Это значит, что функция удовлетворяет уравнению в частных производных в смысле распределения , где – дельта-функция Дирака с центром в точке .
51 Решение задачи регуляризации.
52 Следуя [2], запишем уравнение Эйлера-Лагранжа для функционала Тихонова . Оно является необходимым условием существования экстремума функционала Тихонова в точке :
53 (15)
54 Здесь – оператор, сопряженный с D.
55 Тогда с учетом и (12) можно записать решение уравнения Эйлера-Лагранжа в виде [2]:
56 (16)
57 Выражение (16) означает, что аргминимум функционала Тихонова регуляризации является линейной суперпозицией N функций Грина. Векторы , представляют собой центры разложения, а веса - коэффициенты разложения решения по базисным функциям Грина. Другими словами, решение задачи регуляризации лежит в N-мерном подпространстве пространства гладких функций, а множество функций Грина, с центром в , i = 1, 2,…, N, определяется базис этого подпространства [2].
58 Коэффициенты разложения в (16) являются, во-первых, линейными относительно ошибки оценки, определенной как разность между желаемым откликом di и соответствующим выходным сигналом нейросети , и, во-вторых, обратно пропорциональными параметру регуляризации λ.
Алгоритм определения коэффициентов разложения
59 Следующим вопросом является определение коэффициентов разложения в выражении (16). Положим синоптические веса нейронов положить равными:
60 (17)
61 Тогда выражение минимизирующего решения (16) можно упростить, т.е. явно выразить через функции Грина:
62 (18)
63 Вычисляя в точке , j=1,2,…,N, получим:
64 (19)
65 Введем следующие обозначения:
66 (20)
67 (21)
68 (22)
69 (23)
70 Теперь (17) и (18) можно переписать в матричной форме:
71 (24)
72 (25)
73 Подставляя выражение для из (25) и (24) и переставляя слагаемые, получим:
74 (26)
75 где I – единичная матрица размерности N×N. Матрица G называется матрицей Грина. Оператор дифференцирования L, определяемый выражением , является самосопряженным. Это значит, что оператор, сопряженный L, равен ему самому. Отсюда следует, что ассоциированная функция Грина является симметричной, т.е.
76 (27)
77 Уравнение (27) означает, что позиции двух точек и можно поменять местами, при этом значение функции Грина не изменится. Аналогично, матрица Грина, определяемая выражением (22), является симметричной, т.е.
78 GT = G(28)
79 Теперь можно применить теорему Мичелли [4] об интерполяции, в контексте матрицы интерполяции B. Во-первых, заметим, что матрица Грина G играет в теории регуляризации роль, аналогичную той, которую матрица B играет в теории интерполяции на основе сетей RBF. Обе матрицы, B и G, являются симметричными и имеют размерность N × N. Следовательно, можно утверждать. Что матрица G для некоторых классов функций Грина также, как и матрица J, является положительно определенной при условии, что точки различны. Классы функций Грина, охватываемые теоремой Мичелли [2], включают обратные параболические функции и функции Гаусса, но не включают параболические функции. На практике всегда можно выбрать значение λ, достаточно большое для обеспечения положительной определенности матрицы (G + λI) и, таким образом, для возможности ее обращения. А это, в свою очередь, значит, что система линейных уравнений (26) имеет единственное решение, определяемое следующим образом [2]:
80 (29)
81 Таким образом, выбрав оператор дифференцирования D и имея набор функций Грина , где i=1,2,…,N, соотношение (29) можно использовать для получения вектора весов , соответствующего вектору желаемого отклика и данному значению параметра регуляризации λ.
82 В заключение можно утверждать, что решение задачи регуляризации для RBF-сетей задается разложением (18), где функция Грина для самосопряженного оператора; wi i-й элемент вектора весов . Уравнение (18) означает следующее [2]:
83
  • Регуляризационный подход эквивалентен разложению решений в терминах множества функций Грина, характеристики которых зависят от принятой формы оператора дифференцирования D в стабилизаторе Тихонова и соответствующих граничных условий.
  • Количество функций Грина, используемых в разложении, равно количеству примеров, используемых при обучении.
84 Характеристика функции Грина для заданного центра зависит только от формы стабилизатора D (согласно априорному предложению касательно искомого отображения «вход-выход»). Если стабилизатор D является инвариантным к преобразованиям, то функция Грина с центром в xi будет зависеть только от разности между аргументами и,т.е.
85 (30)
86 Если же стабилизатор D инвариантен как к преобразованиям, так и к поворотам, то функция Грина будет зависеть только евклидовой нормы вектора разности , т.е.:
87 (31)
88 При этих условиях функция Грина должна быть радиальной базисной функцией. В таком случае решение задачи регуляризации (18) принимает следующую частную форму [2]:
89 (32)
90 Решение (32) определяется пространство линейных функций, зависящее от известных точек данных и с учетом евклидова расстояния.
91 Решение, описанное выражением (32), называется строгой интерполяцией, так как для интерполяции функции используются все N точек, доступных для обучения. Однако при этом важно отметить, что это решение регуляризировано с помощью определения (29) для вектора весов . Только при достижении параметров регуляризации значения, равного нулю, эти два решения становятся идентичными.
92 Многомерные функции Гаусса
93 Функция Грина, линейный дифференциальный оператор D, которой инвариантен к трансформациям и вращению и удовлетворяет условию (31), представляют на практике большой интерес. Примером такой функции Грина является многомерная функция Гаусса, определяемая следующим образом [2]:
94 (33)
95

Определяя функцию Грина в специальном виде (33), регуляризируемое решение (32) принимает форму линейной суперпозиции многомерных функций Гаусса:

96

(34)

97

где сами линейные веса wiопределяются по формуле (17).

98

В выражении (34) отдельные слагаемые функции Гаусса, определяющие функцию аппроксимации , в качестве аргументов содержат разные переменные. Для упрощения изложения в часто принимается условие σi= σ для всех i, несмотря на то, что определенные таким образом функции имеют несколько ограниченный вид, они остаются универсальными аппроксиматорами [2].

99

Таким образом, можно сделать обобщающий вывод по методологии обеспечения устойчивости задачи восстановления гиперповерхности с помощью нейросетей RBF-типа для прикладных задач с наиболее сложными условиями моделирования – сильным зашумлением данных, отягченным дефицитом наблюдений.

100

Целесообразно ставить задачу восстановления как задачу строгой интерполяции с использованием N доступных обучению примеров и выбору RBF-сетей с радиальными базисными функциями, удовлетворяющими методу регуляризации Тихонова. При этом интерполирующий оператор находится в виде линейной комбинации (разложения) базисных функций Грина, в частности, многомерных функций Гаусса, а существование решения матричного уравнения (29) для синоптических весов гарантируется положительной определенностью матрицы Грина G и, соответственно матрицы (G+λI),где λ – параметр регуляризации (λ > 0). Число радиальных базисных функций в разложении, и соответственно число нейронов скрытого слоя равно числу N примеров, т.е. векторов в данных, что важно в условиях дефицита наблюдений.

101

Оценивание параметров регуляризации

102

Оценивание параметра регуляризации λ для построения регуляризированного решения является нетривиальной задачей [3]. Прежде всего, нужно выбрать числовую меру для качества оценки λ, т.е. нахождения оптимального значения λ* либо, чтобы сполна использовать возможности теории регуляризации, необходимо применить столь же принципиальный подход к оценке λ. Общая идея оценки параметра регуляризации, состоит в минимизации среднеквадратической ошибки S(λ) между восстанавливаемой нелинейной многомерной функцией , «зашитой» в зашумленной базе данных, и расчетными значениями регуляризированного решения на множестве точек .

103

Главная трудность здесь состоит в том, что восстанавливаемая функция априори неизвестна. Эту трудность можно обойти, если в задаче минимизации для определения λ* заменить теоретическое значение S(λ) на некоторую приближенную статическую оценку , удовлетворяющую требованиями состоятельности и несмещенности:

104

(34)

105

где P(•) – вероятность; η>0 – сколь угодно малое число; М(•) – оператор математического ожидания.

106 Отметим одну общую особенность выбора λ, который является нетривиальной задачей, ибо этот выбор должен обеспечить компромисс между следующими двумя противоречивыми моментами:
107
  • Грубость (roughness) решения, определяемая стабилизатором Тихонова .
  • Недостоверность (infidelity) данных, определяемая слагаемым стандартной ошибки .
108

В данной работе высказывается гипотеза: определение λ можно осуществить на основе байесовского подхода, т.е. связать выбор λ с максимизацией Evidence (знаменателя формулы Байеса).

109

Для реализации разложения регуляризованной функции аппроксимации , предоставленной в (32) в терминах функции Грина с центром в точке , можно использовать нейросетевую структуру, показанную на рис. 1. Такие сети называются сетями регуляризации. Эта сеть имеет три слоя. Входной слой состоит из входных узлов, количество которых равно размерности n0 вектора входного сигнала (т.е. количеству независимых переменных в задаче). Второй слой является скрытым. Он состоит из нелинейных элементов, которые непосредственно связаны со всеми узлами входного слоя. Для каждой точки данных (i = 1,2,…,N, где N – размер множества примеров обучения) существует свой скрытый узел. Функциями активации отдельных узлов скрытого слоя являются функции Грина. Следовательно, выходной сигнал i-го нейрона скрытого слоя определяется как. Выходной слой состоит из единственного линейного нейрона, связанного со всеми узлами скрытого слоя. Под «линейностью» подразумевается то, что его выход является линейно-взвешенной суммой всех выходных сигналов скрытого слоя согласно (29). Веса выходного слоя являются неизвестными коэффициентами разложения, определяемого в терминах функций Грина и параметра регуляризации λ. На рис.1 и на рис. 2 показана архитектура сети регуляризации с одним выходом. На рисунке видно, что такая архитектура может быть расширена для выходного сигнала любой размерности.

110

В сети регуляризации, показанной на рис. 2., предполагается, что функция Грина является положительно-определенной для всех . При выполнении этого условия (например, если функция Грина имеет вид функции Гаусса (33)) решение, генерируемое сетью, будет являться оптимальной интерполяцией в смысле минимизации функционала . Более того, с точки зрения теории аппроксимации сети регуляризации обладают следующими положительными свойствами.

111

1. Сеть регуляризации является универсальным аппроксиматором в том смысле, что при большом количестве скрытых элементов она способна довольно хорошо аппроксимировать любую непрерывную функцию на компактном подмножестве из Rn.

112

2. Так как схема аппроксимации, вытекающая из теории регуляризации, является линейной относительно неизвестных коэффициентов, то сети регуляризации обладают свойством наилучшей аппроксимации. Это значит, что для неизвестной линейной функции f всегда существует такой набор коэффициентов, который аппроксимирует функцию f лучше любого другого набора.

113

3. Решение, обеспечиваемое сетью регуляризации, является оптимальным. Под оптимальностью здесь понимается то, что сеть минимизирует функционал, измеряющий удаленность решения от своего истинного значения, представленного примерами обучения.

114

RBF-сети регуляризации

115

Рис. 1. Сеть регуляризации в терминах функции Грина

116

Рис. 2. Сеть регуляризации в терминах радиальных базисных функций (RBF-сети)