Neural network clustering methods to evaluate the totality of taxpayers according to their degree of creditworthiness
Table of contents
Share
Metrics
Neural network clustering methods to evaluate the totality of taxpayers according to their degree of creditworthiness
Annotation
PII
S207751800000103-2-1
DOI
10.18254/S0000103-2-1
Publication type
Article
Статус публикации
Published
Authors
Alexandr Biryukov 
Affiliation: Sterlitamak branch of the Bashkir state University
Address: Russian Federation,
Abstract
Describes an original method: the Bayesian iterative method of clustering on the basis of feature selection. The comparison of clustering results obtained using kazimierzowska method with the results of applying the classical k-means. As clusterization used neural network self-organizing maps (SOM), i.e. of the neural network Kohonen. Based on real data applied neural network model for clustering with individual in-depth assessment of the solvency of enterprises – taxpayers
Keywords
neural networks, Kohonen self-organizing maps, kazimierzowski method, k - means, clustering, synaptic weight of the topological neighborhood
Received
22.07.2017
Date of publication
14.09.2017
Number of characters
43249
Number of purchasers
2
Views
1054
Readers community rating
0.0 (0 votes)
Cite Download pdf

To download PDF you should sign in

1 1. Нейросетевой метод самоорганизующихся карт Кохонена
2 Сети Кохонена (Kohonen T.) относятся к самоорганизующимся нейронным сетям. Самоорганизующаяся сеть позволяет выявлять кластеры (группы) входных векторов, обладающих некоторыми общими свойствами. При этом выделяют сети с неупорядоченными нейронами (часто называемые слоями Кохонена) и сети с упорядочением нейронов (часто называемые самоорганизующимися картами, или SOM - self-organizing map). Карты Кохонена наглядно отражают на двумерной карте объекты с близкими свойствами. В сетях Кохонена используется обучение без учителя.
3 В исследованиях метод самоорганизующихся карт Кохонена (selforganizing map) (далее «SOM – карт») используется для двух типов задач:
4
  • В составе гибридного метода вложенных математических моделей (МВММ) – метода как инструмент кластеризации вектор-строк данных при повышении однородности данных для построения динамической модели ранжирования.
  • В качестве классического метода кластеризации экономических объектов в прикладных задачах.
5 При произвольном распределения плотности точек (вектор-строк) в (n+p) – мерном пространстве «сырых» (неочищенных) данных D задача кластеризации, является достаточно сложной, несмотря на то, что имеется целый ряд методов ее решения.
6 В методах кластеризации можно выделить три группы:
7
  1. методы прикладной статистики [3,4], в частности популярный метод k - средних (k - means);
  2. метод карт Кохонена [7,8,10], ставший к настоящему времени классическим методом построения самоорганизующейся карты, которая представляет собой отражение многомерного распределения точек на двумерную решетку с регулярным соседством между узлами. При этом близким узлам на карте отвечают близкие векторы в исходном многомерном пространстве, т.е. сохраняется не только структура разбиения точек на кластеры, но и отношения топологической близости между ними;
  3. если для приложения достаточно только оценки плотности распределения точек по кластерам с сохранением лишь ближнего порядка в кластеризации, то такое разбиение может быть выполнено эффективно на основе модели «нейронного газа» [11,12], в которой соседство узлов не фиксировано, а динамически меняется по мере улучшения кластеризации. В относительно недавней модификации метода, получившей название «расширяющийся нейронный газ», переменными являются не только отношения соседства, но и нейронов - кластеров.
8 При выборе метода кластеризации отдается предпочтение методу карт Кохонена, поскольку он позволяет наглядно визуализировать результаты кластеризации.
9 В прикладном аспекте сети Кохонена применяются в основном для трех типов задач:
10
  • распознавания образов;
  • классификация (кластеризации) данных;
  • сжатие данных (кодирование векторов).
11 Принцип работы нейросети Кохонена
12

Задача распознавания образов ставится в следующем. Обученной нейросети Кохонена предъявляется образ данных - n – мерный вектор . Сеть должна отнести этот вектор к определенному номеру нейрона в топографической решетке, символизирующему номер кластера с соответствующим набором признаков. Например, по значениям компонент предъявляемого вектора = (х1, х2,…., хj,…xn), нейросеть должна распознать образ назревающего банкротства налогоплательщика.

13 Задача кластеризации состоит в том, что нейросети Кохонена предъявляется для обучения выборка данных, состоящих из совокупности n – мерных векторов . Структура данных, т.е. число кластеров и «зашитые» в данные, экономические закономерности неизвестны. После обучения нейросеть должна разбить данные на непересекающиеся классы (кластеры) и отобразить элементы кластеров на двух- или трехмерную решетку (топографическую карту) так, чтобы близким точкам в данных соответствовали близкие нейроны решетки.
14 Задача сжатия данных реализуется путем кодирования (квантования) векторов. После обучения сети вместо базы данных очень большой размерности (как по размерности n входных векторов , так и по числу наблюдений ) каждый входной вектор может быть представлен либо номером k выходного нейрона в решетке, либо вектором его синаптических весов. Степень сжатия данных доходит до 1000 и более.
15 В алгоритмическом аспекте основной целью карт самоорганизации (SOM) является преобразование поступающих векторов сигналов , имеющих произвольную размерность n, в одно- или двухмерную дискретную топографическую карту. Такая карта позволяет достигать сжатие (компрессию) входной информации и ее наглядную визуализацию: как уже отмечалось, близким (в смысле евклидова расстояния) во входном пространстве Rn , должны соответствовать близкие узлы SOM. При этом преобразование в SOM осуществляется адаптивно, в топологически упорядоченной форме, что можно пояснить на рис. 1.
16

Рис.1. Двумерная решетка нейронов

17 Сеть Кохонена (SOM) относится к типу нейросетей без учителя в том смысле, что предъявляемые на входе сети векторы данных не имеют меток классов и в алгоритме отсутствуют желаемые значения выходов обучаемых нейронов. Другими словами, роль «учителя» играют сами входные векторы.
18 Как видно из рис. 1, все нейроны этой решетки связаны со всеми узлами входного слоя. Эта сеть имеет структуру прямого распространения сигнала (от входа к выходу) с одним вычислительным слоем, состоящим из выходных нейронов, упорядоченных в столбцы и строки в решетке. Для правильного развития процесса самоорганизации требуется, чтобы все нейроны сети были обеспечены достаточным количеством различных реализаций входных образов, т.е. обучающих примеров.
19 Алгоритм формирования SOM начинается с инициализации синаптических весов сети {wk}, - им присваиваются малые значения, сформированные генератором случайных чисел. При таком формировании весов карта признаков {Yk} изначально не имеет какого-либо порядка признаков: их распределение по выходным нейронам случайно.
20 В алгоритме SOM можно выделить три следующих основных процесса:
21

1. Конкуренция (соревнования) нейронов, в котором для каждого входного образа, где N-количество подаваемых на вход примеров, нейроны сети вычисляют относительные значения дискриминантной функции. Эта функция и выявляет нейрон - победитель (winning).

22 2. Кооперации (cooperation). Победивший нейрон определяет вокруг себя пространственное положение топологической окрестности нейронов, обеспечивая тем самым базис для кооперации между этими нейронами.
23 3. Синаптической адаптации (sinaptik adaptation). Этот механизм позволяет возбужденным нейронам увеличивать свои значения дискриминантных функций по отношению к входным образам путем соответствующих корректировок синаптических весов. Корректировки производятся таким образом, чтобы отклик нейрона - победителя на последующее применение аналогичных примеров усиливался.
24 Детализируем указанные три процесса.
25 Процесс конкуренции
26

Вектор синаптических весов каждого k-го нейрона должен иметь ту же размерность n, что и размерность  :

27

, где l - общее количество нейронов в решетке сети.

28

Для того, чтобы подобрать наилучший вектор весов , соответствующий в k - ом нейроне входному вектору, нужно сравнить скалярное произведение для всех конкурирующих нейронов и выбрать наибольшее значение. Таким образом, выбирая нейрон - победитель с наибольшим скалярным произведением , в итоге определяется местоположение в выходном слое, которое должно стать центром топологической окрестности возбужденного нейрона.

29 Заметим, что максимизация скалярного произведения соответствует минимизации евклидова расстояния между векторами и. Если ввести индекс для идентификации того нейрона, который лучше всего соответствует входному сигналу , то получим правило конкурентного обучения, впервые введенное Гроссбергом [8]:
30 (1)
31

Правило Гроссберга осуществляет отображение непрерывного входного пространства образов активации нейронов в дискретное выходное пространство 

32

В зависимости от контекста решаемой задачи откликом (выходом) сети на предъявленный на входе, сигнал может быть либо индекс победившего нейрона , либо вектор синаптических весов, , являющийся наиболее близким к входному вектору по евклидовому расстоянию .

33 Процесс кооперации нейронов
34 Нейрон - победитель находится в центре топологической окрестности сотрудничающих (кооперирующихся) с ним нейронов. Для описания ширины этой окрестности лучше всего [8] подходит функция Гаусса (рис. 2):
35 (2)
36 где.- топологическая окрестность (зона взаимодействия) с центром в победившем нейроне; q - номер другого нейрона в этой зоне, находящегося на латеральном расстоянии от нейрона - победителя по эвклидовой мере; σ - параметр распределения, т.е. эффективная ширина колоколообразной кривой (2) (рис.2).
37

Рис.2. Гауссова функция окрестности

38 Заметим, что распределение (2) имеет два важных свойства:
39 • окрестность , симметрична относительно точки максимума, соответствующей , в нейроне - победителе;
40 • амплитуда монотонно уменьшается при удалении соседнего нейрона q от нейрона-победителя, т.е. при .
41 Для обеспечения кооперации между соседними нейронами необходимо, чтобы топологическая окрестность была зависимой от латерального расстояния между победившим k* и возбуждаемым q нейроном в выходном пространстве R2, а не от какой – либо меры длины в исходном входном пространстве Rn. Именно это свойство отражено в выражении (2).
42 В случае двухмерной решетки это расстояние определяется выражением:
43 (3)
44 где дискретный вектор определяет позицию возбуждаемого нейрона q, а победившего нейрона k*. Оба этих измерения проводятся в дискретном выходном пространстве.
45 В случае итерационного обучения SOM, уникальным их свойством является то, что размер топологической окрестности со временем уменьшается. Это требование удовлетворяется за счет постепенного уменьшения ширины σ функции топологической окрестности функции. Одним из вариантов зависимостиот дискретного времени (или шага итерации) t является экспоненциальное убывание:
46 (4)
47 где σ0 - начальное значение величины σ в алгоритме SOM; τ1-некоторая временная константа. Тогда топологическая окрестность становится функцией времени (шага итераций):
48 (5)
49 Таким образом, при увеличении количества итераций t ширина σ(t) экспоненциально убывает, а вместе с ней соответственно сжимается и топологическая окрестность взаимодействия кооперирующих нейронов.
50 Процесс адаптации
51 Для того чтобы сеть могла самоорганизовываться, вектор синаптических весов нейрона k должен изменяться в соответствии с входным вектором , т.е. подстраиваться к нему. Вопрос сводится к тому, каким должно быть это изменение. В постулате обучения Хебба [8], в его основной форме, синаптический вес усиливается при одновременном возникновении предсинаптической и постсинаптической активности. При этом изменения в связях нейронной сети происходят только в одном направлении, что, в конечном счете, приводит все синаптические веса к точке насыщения. Для того, чтобы обойти эту проблему Ойя [7,8] предложил модифицировать правило обучения Хебба. В алгоритме изменения синаптических весов Ойя предложил ввести слагаемые забывания (forgetting term) , где вектор синаптических весов нейрона k; некоторая положительная скалярная функция отклика yk. Единственным ограничивающим требованием, налагаемым на функцию , является равенство нулю постоянного слагаемого разложения в ряд Тейлора функции , что приводит к условию:
52

= 0 при yk = 0 (6)

53 Тогда правило изменения (модификации) весов при обучении приобретает вид:
54 (7)
55 где η - параметр скорости обучения (learning-rate parametr) алгоритма SOM. Слагаемые η yk в правой части соответствуют правилу Хебба, т.е. изменение вектора весов должно быть пропорционально произведению выхода k-го нейрона yk и предъявленного вектора на входе этого нейрона. Второе слагаемое является слагаемым забывания. Обычно для удовлетворения (6) выбирается линейная функция:
56

ξ(yk)= η yk    (8)

57

а в качестве аргумента  yk для упрощения в (8) принимается yk= 

58 Подставляя (6) в правило Ойя (7), получим:
59

(9)

60 Правило Ойя (9) максимизирует чувствительность выхода обучаемого нейрона k при ограниченной амплитуде весов.
61 В динамической SOM для данного вектора синаптических весов в момент времени t обновленный вектор в момент времени (t+1) можно определить так:
62 (10)
63 Это выражение применяется ко всем нейронам решетки, которые лежат в топологической окрестности победившего нейрона . Выражение (10) характеризует эффект перемещения вектора синаптических связей победившего нейрона k* в сторону входного вектора . При периодическом представлении данных обучения, благодаря коррекции в окрестности победившего нейрона, векторы синаптических весов будут стремиться следовать распределению входных векторов.
64 Таким образом, представленный алгоритм приводит к топологическому упорядочиванию (topouogyk ordering) пространства признаков во входном пространстве в том смысле, что нейроны, корректируемые в решетке, будут стремиться иметь одинаковые синаптические веса.
65

Равенство (10) является формулой вычисления синаптических весов карты признаков. В дополнении к этому равенству для выбора функции окрестности требуется учитывать эвристику (4).

66

Еще одна эвристика необходима для выбора параметра скорости обучения η(t), который согласно (10) должен зависеть от времени. Например, можно выбрав начальное значение η, затем с увеличением времени t уменьшать его. Это требование можно выполнить, выбрав экспоненциальную функцию η(t): 

67

    (11)

68 где τ2 - еще одна константа алгоритма SOM. Заметим, что приведенные формулы (11) экспоненциального убывания скорости обучения η(t) и ширины функции окрестности σ(t) (4) могут быть в конкретной задаче не оптимальными. Они просто адекватны процессу самоорганизующегося формирования карты признаков.
69 Два этапа адаптивного процесса: упорядочивание и сходимость. Рекомендации по численной реализации
70 Условно, можно сделать декомпозицию процесса адаптации синаптических весов сети, корректируемых по формуле (10), на два этапа: самоорганизации и затем сходимости.
71

1). Этап самоорганизации или упорядочивания. Во время этого этапа происходит топологическое упорядочивание векторов весов. В алгоритме SOM этот этап может занять 1000 и более итераций. При этом, важное значение имеют выбор параметра скорости обучения η(t) и функции окрестности hk,q (t). Начальное значение η0 выбирается порядка 0,1. Затем η(t) должна убывать, оставаясь больше 0,01, т.е.:

72 0.01≤ η(t) ≤ 0.1
73 Это можно реализовать, если в формуле (11) принять η0=0,1; r2=1000.
74 Функция окрестности должна быть такой, чтобы изначально охватывать практически все нейроны сети и иметь центр в победившем нейроне k*. По ходу итераций, т.е. с ростом t, ширина σ(t) функции окрестности должна уменьшаться и в итоге этапа упорядочивания содержать в себе только ближайших соседей победившего нейрона, а возможно, только его самого. Для двухмерной решетки нейронов можно установить начальное значение σ0 функции окрестности, равное «радиусу» решетки. Соответственно, константу τ1 в (4) можно определить по формуле:
75 (12)
76 2). Этап сходимости. Второй этап адаптивного процесса требуется для точной подстройки карты признаков, т.е. для точного квантования входного пространства . Как правило, количество итераций, достаточное для этапа сходимости, в сотни раз превышает число нейронов решетки и может доходить до десятков тысяч.
77 На этом этапе параметр скорости обучения должен быть достаточно малым (η(t) ~ 0,01). Однако его нельзя снижать менее 0,01, иначе сеть может застопориться в так называемом метаустойчивом (metastable) состоянии, которое соответствует конфигурации карты признаков с топологическим дефектом. Экспоненциальное уменьшение η(t) по (11) гарантирует невозможность попадания сети в метаустойчивое состояние.
78 Краткое описание алгоритма SOM Кохонена
79 Сущность алгоритма SOM состоит в простом геометрическом вычислении свойств Хеббовского правила обучения и латеральных взаимодействий, которое представлено на рис. 3.
80

Рис.3. Алгоритм сети Кохонена

81 В блоке 2 «инициализация» для искомых векторов синаптических весов выбираются случайные значения. Единственным требованием здесь является различие векторов для разных значений k =1,2,…, ℓ нейронов решетки. При этом лучше выбирать малые значения .
82

В блоке 3 «подвыборка» случайным образом в соответствии с заданным законом распределения векторов в исходных данных выбирается вектор и подается на вход сети Кохонена. 

83 В блоке 4 реализуется по правилу (1) «поиск» нейрона - победителя с номером k*.
84 В блоке 5 алгоритм SOM «продолжается», т.е. реализуются процессы кооперации нейронов по формулам (2) –(5) и затем их адаптация по (10).
85 В блоке 6 проверяется условие «стабилизации состояния» решетки, например по формуле достижения малой величины невязки для векторов весов:
86

(13) где ε – экспертно задаваемый уровень стабилизации (малое число, например ε= 10 –3…10 –5).

87 Норма вектора в (13) выбирается евклидовой, т.е.:
88

(14)

89

Если условие стабилизации не выполнено, то случайным образом предъявляется другой вектор из выборки и т.д., пока условие (13) не выполнится. 

90 Количественные оценки
91 В качестве примера рассмотрена задача кластеризации для группы из 24 однородных (отраслевых) предприятий – налогоплательщиков региона. Данные являются реальными и выборка Z II, номера предприятий закодированы [5,6].
92 Прикладная цель решения задачи кластеризации – это группировка совокупности налогоплательщиков по степени их кредитоспособности, т.е. получения модели поддержки принятия решений лицом принимающим решение (ЛПР) по налоговому регулированию.
93 Теоретический аспект примера задачи кластеризации – это количественная апробация предложенной на основе морфологического принципа концепции агрегирования переменных с использованием реальных данных деклараций налогоплательщиков. Важно, что в реальных, сильно зашумленных данных, зашумление (вплоть до сознательного искажения) носит естественный характер, свойственный для моделируемой группы объектов. Введены обозначения: Х1 – первоначальная стоимость основных средств, тыс.руб.; Х2 – износ (амортизационные отчисления) за квартал, тыс.руб.; Х3 – оборотные активы, тыс.руб.; Х4 – запасы, тыс.руб.; Х5 – среднесписочная численность работающих, человек; Х6 – дебиторская задолженность, тыс.руб.; Х8 – себестоимость реализации товаров за квартал, тыс.руб.; Y – выручка предприятия, тыс.руб.
94

Идея морфологического метода свертки показателей применительно к рассматриваемому примеру кластеризации состоит в том, что в качестве «осей» морфологического ящика экспертно выделяются агрегаты - аддитивные свертки показателей (признаков), которые затем сворачиваются мультипликативно. Конкретно в нашей задаче кластеризации налогоплательщиков главная полезная функция (обобщенный критерий эффективности) Ф( (t),t) имеет вид: 

95

,    (15)

96 где, – вектор входных факторов; t - время; Ф1(,t) – частный критерий, характеризующий эффективность производственного процесса; Ф2(,t) – частный критерий финансового состояния предприятия; Ф3(,t) – организационный структурный показатель; Ф4(,t) – частный критерий состояния внешней экономической среды.
97 Перемножение частных критериев {Фk} в (15) отражает взаимосвязь всех показателей в обобщенном критерии Ф эффективности работы предприятия: этот показатель будет максимальным, если одновременно будут максимальными все агрегаты Ф1,….,Фр.
98 Кластеризация проведена по пяти переменным: агрегатам (сверткам) Ф1, Ф2, Ф3, Ф4 и обобщенному критерию Ф согласно(15). В качестве показателей {Фkг}, входящих в свертки Ф1, Ф2, Ф3, Ф4, использовались:
99 Агрегат Ф1 из показателей эффективности производства и ресурсных переменных:
100 . (16)
101 Здесь: Ф11 – рентабельность производства (чистая прибыль приходящаяся, на единицу затрат):
102 , (17)
103 где в числителе стоит чистая прибыль.
104 Ф13 – удельные основные средства:
105 Ф13= Х1/ Х8 ; (18)
106 Ф2 - показатель финансового состояния предприятия:
107 Ф, br >0, (19)
108 Ф21 – чистая маржа:
109 Ф21 = (Y-Xs)/Y (20)
110 В знаменателе (20) стоит среднее значение Y за предшествующий период наблюдений.
111 Ф24 – индекс роста объема продаж:
112

   (21)

113 Здесь i – текущий номер наблюдений, упорядоченных для каждого предприятия в порядке возрастания времени (квартала) в данных панельного типа [3]. Показатель Ф24 характеризует динамику объема продаж и показывает: во сколько раз возрос этот объем по отношению к среднему значению за предшествующий период.
114

Все показатели Ф11, Ф13, Ф21, Ф24, Ф определялись в выборке ZII как среднее значение по всем кварталам

115 Исходные данные для сформированных показателей агрегатов Ф1, Ф2 и обобщенного критерия Ф по (15), усредненные по кварталам в таблице (1).
116 Таблица 1
117

Данные для кластеризации

Код предприятия Ф11 Ф13 Ф21 Ф24 Ф1 Ф2 Ф
1 1,085608 0,320537 0,147356 0,734811 0,703072619 0,441083 0,310113696
24 1,83482 0,453922 0,277557 2,573148 1,144371306 1,425352 1,63113222
118 2. Квазибайесовский метод регуляризации нейросетевого кластеризатора
119

Термин «квазибайесовский», здесь означает, что в квазибайесовском методе (КБМ) формула Байеса непосредственно не используется для опостериорной оценки вероятностей Р(Ωi)│. Эти вероятности оцениваются косвенно – через критерий качества разбиения: 

120

, S=1,2,… , (22)

121 где sm - кластер с номером m; - точка центра кластера sm в n – мерном пространстве признаков; d (,) – евклидово расстояние от объекта до центра m –го кластера:
122

(23)

123 Используем главные идеи байесовского подхода, это выполнение кластеризации на байесовском ансамбле модели на s-ом шаге внешних итераций:
124 1. Выбор ансамбля нейросетей – гипотез из фиксированного класса (семейства) Н метагипотез.
125 2. Фильтрация обученных нейросетей-гипотез по критерию, оценивающему качество кластеризации, например (22).
126 3. Усреднение критерия качества разбиения векторов (объектов) на кластеры по (22) на отфильтрованном ансамбле нейросетей-гипотез.
127 Оговорим теперь формализацию опостериорной фильтрации обученных нейросетей в байесовском ансамбле. Здесь могут иметь место два случая:
128

1). Сети Кохонена в ансамбле имеют в своем составе, как сети с высоким качеством разбиения , так и с низким качеством по (22). Другими словами результаты кластеризации могут иметь как плотную группировку объектов вокруг центров кластеров , m = 1,2,..М, так и «рыхлую» группировку. 

129 2). Сети Кохонена в ансамбле имеют небольшой разброс по критерию качества разбиения , q = 1,2,...,Q, т.е. квадраты расстояний между объектами и центрами кластеров примерно однородны в смысле критерия Кочрена [2,3].
130 Согласно квазибайесовскому методу регуляризации нейросетевого кластеризатора был сформирован байесовский ансамбль априорных гипотез – нейросетей , q=1,2,..,9. В качестве метагипотезы H была выбрана парадигма нейросети – самоорганизующиеся карты Кохонена. В нейросетях - гипотезах варьировались две эвристики – параметры SOM – карты τ1, формирующего ширину функции окрестности G(t) в итерационном процессе обучения SOM и τ2 в (11), формирующего скорость обучения, которая должна уменьшаться в итерационной процедуре модификации синаптических весов, t=0,1,2,…
131 Параметр {τ1} варьировался дискретно на трех уровнях:
132 τ1= 140; 280; 700.
133 Параметр {τ2} варьировался дискретно также на трех уровнях:
134 τ2 = 125; 250; 625.
135 Уровни указанных параметров подбирались путем предварительных вычислительных экспериментов.
136 Следовательно, в различных сочетаниях уровней τ1 и τ2 было образовано в байесовском ансамбле Q = 9 сетей Кохонена (таблица 2).
137 Таблица 2
138

Оценка качества разбиения на кластеры по всем априорным гипотезам-нейросетям Кохонена для трех дублирующих планируемых расчетов

параметр τ1 Конец параметр τ2

Скорость обучения

η(t) Конец

Дублирующие расчёты (u=1,2,3)

Средний критерий

качества

(H1) (H2) (H3)
140 0,112463 125 0,005495 4,287331 4,423753 4,41812 4,376401
140 0,112463 250 0,040601 5,178297 5,153547 5,147964 5,159936
140 0,112463 625 0,134799 4,159279 4,143047 4,18744 4,163256
280 0,670709 125 0,005495 4,998259 4,952466 5,035015 4,995247
280 0,670709 250 0,040601 4,237562 4,254069 4,342794 4,278142
280 0,670709 625 0,134799 5,11923 5,124837 5,210387 5,151485
700 1,958167 125 0,005495 2,986739 2,985659 3,099081 3,023827
700 1,958167 250 0,040601 3,352318 3,364145 3,555097 3,423853
700 1,958167 625 0,134799 3,538056 3,467494 3,531898 3,512482
139

Для каждой q-ой сети проводилось по 3 дублирующих расчета обучения (и=1,2,3), что позволило в итоге оценить однородность дисперсий критериев качества кластеризации , рассчитанных по формуле (22) (номер внешних операции, s фиксировался, s=1). Таким образом, матрица планирования расчетных опытов представляла собой эксперимент [1,3] типа 3 с дублирующими опытами в каждой его точке, т.е. всего было построено 9*3=27 SOM – карт Кохонена ( табл. 2 и 3).

140 3. Метод кластеризации k- средних
141

Название метода связано с тем, что здесь число образуемых кластеров задается априори и равно K. Термин «средних» означает, что алгоритм разбиения точек в многомерном пространстве на кластеры определяются через центры тяжести кластеров, т.е. по средним значениям координат объектов . При этом в качестве меры удаления точек (векторов многомерных наблюдений) , друг от друга и от центра кластера используется евклидово расстояние по (23). 

142

Смысл алгоритма k-средних состоит в последовательном уточнении эталонных точек , где v- номер итерации, v = 0,1,2,…k - число эталонов, равное числу образуемых кластеров, q – номер образуемого кластера. Эталоны играют роль «зародышей» (центров) будущих кластеров. На начальном шаге итераций (v=0) в качестве эталонов можно принять случайно выбранные k точек в n-мерном признаковом пространстве . Смысл уточнения состоит в том, чтобы на каждом очередном шаге итераций = 0,1,2,… расстояния между точками и центром внутри кластера по выбранной числовой мере, например евклидовой, сокращалось, а расстояния между образуемыми кластерами по одной из числовых мер междуклассового расстояния - увеличивалось 2,3.

143 Обычно в программных продуктах пользователю предлагается несколько типов междуклассовых расстояний: «ближнего соседа», по «центрам тяжести», по принципу «средней связи», степенного среднего, предложенного А.Н. Колмогоровым и др.
144

В алгоритме k - средних на каждом шаге производится пересчет приписываемых эталонам весов: 

145

Ω(υ) = {ω1(υ), ω2(υ), … , ωq(υ), ωk(υ)} (24)

146

При этом на нулевом шаге веса всех выбранных эталонов равны 1, т.е. ωq(0) = 1,

147 Затем на 1-ом шаге «извлекается» из базы данных очередная точка и выясняется, к какому из эталонов она оказалась ближе всего. Именно этот, самый близкий к эталон, заменяется эталоном, определяемым как центр тяжести старого эталона и присоединенной к нему точки (с увеличением на единицу соответствующего ему веса), а все другие эталоны остаются неизменными (с прежними весами) и т.д. Таким образом, пересчет эталонов и весов на υ-ом шаге итераций, т.е. при извлечении из данных очередной точки , происходит по следующему правилу:
148

149 (25)
150 Здесь i- номер наблюдения; N- число наблюдений.
151 Если при этом обнаруживается несколько по q одинаковых минимальных расстояний d(i=k+υ, q(υ-1)), то можно условно относить предъявляемую точку i=k+υ к эталону с наименьшим порядковым номером.
152

Недостатком данного алгоритма является зависимость результата кластеризация от начального положения эталонов {q (0)}, q = в n-мерном признаковом пространстве {Xj}, j=. Однако, этот недостаток слабо проявляется даже при весьма широких ограничениях на природу исследуемых наблюдений, если соблюдены два условия:

153

а) при достаточно большом объеме классифицируемых наблюдений (i = ); 

154 б) при большом числе итераций υ.
155 Другими словами, условия а) и б) обеспечивают сходимость эталонов в определенном смысле (по выбранной числовой мере качества кластеризации) к некоторому пределу {q*} при υ→∞. В этом случае пересчет эталонных точек (центров образованных кластеров) не требуется.
156

Если же в какой-то конкретной задаче алгоритм «не успел добраться» до практически устойчивых (по υ) значений эталонов {q(υ)}, то можно воспользоваться одним из приемов: 

157

1) либо «зациклить» алгоритм, прогоняя его после рассмотрения последней точки и снова предъявляя уже полученным эталонам все точки данных 1, 2, … , Nи т.д.;

158

2) либо произвести многократное повторение алгоритма, используя в качестве начальных эталонов {q(0)} различные комбинации из k-точек исследуемой совокупности и выбрать наиболее повторяющийся финальный эталон .

159 Теперь остановимся на оценке качества проведенной кластеризации при заданном числе кластеров [2,3]. Пусть исследователем уже выбрана метрика d в пространстве признаков {Xj}, и пусть S=(S1,S2,…S,…, Sk) – некоторые фиксированное разбиение наблюдений 1, 2, … , N на заданное число k кластеров. За функционалы качества кластеризации часто берутся следующие характеристики:
160

1. Cумма внутрикластерных дисперсий, где центром рассеяния служит «центр тяжести» кластера  

161

(26)

162

2. Сумма попарных внутрикластерных расстояний между объектами

163

   (27) 

164 либо:
165

   (28)

166 3. Обобщенная внутрикластерная дисперсия:
167 (29) где det (•) – символ определителя матрицы;
168 - выборочная ковариационная матрица по наблюдениям, попавшим в какой-то один кластер Sm; элементы выборочной ковариационной матрицы кластера S подсчитываются по формуле:
169 , j=1,2,…, n, (30)
170 где xpj – j-ая компонента многомерного наблюдения (вектора) ; – среднее значение j-ой компоненты, по всем точкам в -ом кластере.
171 4. Мультипликативная обобщенная внутрикластерная дисперсия:
172

(31)

173 Как видно из формулы (31), обобщенная внутрикластерная дисперсия Θ3(S) является одной из характеристик рассеивания многомерных наблюдений одного фиксированного m-го кластера около своего «центра тяжести». При этом функционал Θ3(S) является среднеарифметической (по всем классам) характеристикой обобщенной внутриклассовой дисперсии, в то время как функционал Θ4(S) в (31) пропорционален средней геометрической характеристикой тех же величин [2,3].
174 Для расчетов использовался модифицированный программный продукт Deductor, Studio 4.4 (демоверсия, ограниченная числом записей 150) для аналитической платформы Deductor Life.
175

Проводились предварительные вычислительные эксперименты по выбору параметров адаптивного процесса обучения сети Кохонена по алгоритму (4,10, 11): начальной ширины G0 функции топологической окрестности ; начальной скорости обучения η0; числа эпох Т (итераций) процесса модификации весов (10). 

176 Таблица 3
177

Результаты кластеризации в 27 расчетных опытах

ς Кластерообразующие критерии HC1,1 HC1,2 HC1,3 HC2,1
Ф11 Ф13 Ф21 Ф24 Ф k m k m k m k m
1 1,0856 0,32053 0,14735 0,73481 0,31011 72 2 7 2 7 2 71 2
24 1,8348 0,4539 0,2775 2,5731 1,631 95 1 95 1 95 1 95 1
178

Продолжение таблицы 3

ς HC2,2 HC2,3 HC3,1 HC3,2 HC3,3 HC4,1 HC4,2 HC4,3 HC5,1 HC5,2 HC5,3
k m k m k m k m k m k m k m k m k m k m k m
1 54 2 72 2 23 2 7 2 8 2 6 2 8 2 24 2 7 2 6 2 6 2
24 79 1 95 1 95 1 95 1 95 1 95 1 95 1 95 1 95 1 95 1 95 1
179

Продолжение таблицы 3

ς HC6,1 HC6,2 HC6,3 HC7,1 HC7,2 HC7,3 HC8,1 HC8,2 HC8,3 HC9,1 HC9,2 HC9,3
k m k m k m k m k m k m k m k m k m k M k m k m
1 7 2 72 2 8 2 5 2 5 2 5 2 6 2 6 2 188 2 6 2 6 2 6 2
24 95 1 95 1 95 1 78 1 78 1 78 1 78 1 78 1 61 1 78 1 95 1 95 1
180 Таблица 4
181

Результаты кластеризации для нейросети Кохонена HC1,1: информация о компактизации объектов внутри кластеров

Код предприятия

ς

Кластерообразующие

обобщенные признаки (критерии)

Номер ячейки

топологической решетки

Внутрикластерные расстояния

Расстояния от объектов

до центров ячеек d(,Yl)

Расстояния от объектов до

центров кластеров d(,)

Номер кластера m,

Ф11 Ф13 Ф21 Ф24 Ф K      
1 1,0856 0,32053 0,14735 0,7348 0,31011 72 0,0000273 0,3222 2
24 1,8348 0,4539 0,2775 2,573 1,631 95 0,0000016 0,7779 1
Q1(s) =4,287
182 Эти параметры варьировались в пределах:
183 0.3 ≤ 4.45; 0.296 ≤ η0 ≤ 0.3; 500 ≤ T ≤ 1000.
184 Были выбраны следующие параметры, которые затем фиксировались во всех 27 сетях Кохонена в таблице 3:
185 Т =500; G0=4; η0= 0,3.
186 Остальные результаты процесса кластеризации приведены в таблицах 2 –5.
187

В таблице 3 введены обозначения: Q=- номера кластеризуемых предприятий-налогоплательщиков; - совокупность нейросетей Кохонена (первый индекс равен номеру гипотезы – нейросети в байесовском ансамбле (q = 1,2,…,9), а второй индекс – номеру дублирующего расчета (u = 1,2,3). Для каждой сети Hq, u указаны две колонки: первая обозначена буквой k – это номер ячейки топографической двумерной решетки (рис. 1), на которую отображаются входные объекты (векторы), а вторая колонка обозначена буквой v- это номер образованного кластера. В двумерной решетке по оси абсцисс выбиралось 16, а по оси ординат 12 ячеек, т.е. общее число ячеек составляла 16*12=192.

188

Таким образом, таблица 3 в компактной форме дает информацию о разбиении на кластеры всех 24 предприятий во всех 27 нейросетевых моделях байесовского ансамбля, а также об отображении входных векторов: 

189

,    (32)

190 описывающих предприятия на соответствующие ячейки {km} топологической решетки.
191

Табл. 3 позволяет также получить оценку апостериорных вероятностей разбиения на кластеры входных объектов и, следовательно, провести процедуру апостериорной фильтрации байесовских гипотез для квазибайесовского метода кластеризации. 

192 Анализ результатов моделирования
193 Результаты кластеризации. Из таблицы 3 следует:
194 – в кластер с номером «2» включено наибольшее число предприятий:
195 - (№ 1…6); № 8; (№ 10…12); № 14 с вероятностью оценки, равной 1,0 на всем множестве , т.е. отнесение этих предприятий кластеру 2 совпало для всех 27 моделей;
196 - (№ 16…23) с вероятностью оценки, равной 26/27=0,963.
197 Среднее значение обобщенного критерия Ф в кластере 2 равно:
198

= 1,6038/19 =0,0844.

199

– в кластер с номером «0» попало предприятие №7 с вероятностью оценки, равной 1,0 при = 3,384; 

200

– в кластер с номером «1» попали предприятия № 9 и № 13, и № 15 с вероятностью оценки, равной 1,0 и средним значением =1,965/3=0,655. 

201

Рис.4. Топологические двумерные решетки карт Кохонена для нейросети НСиз табл. 2 (данные о внутрикластерных расстояниях табл. 4)

202

Рис.5. Топологические двумерные решетки карт Кохонена для нейросети НС

203 Таким образом, разбиение предприятий на 3 кластера можно считать достаточно достоверным (вероятность оценки не хуже 26/27=0,963), кроме предприятия № 7, имеющего низкую вероятность оценки разбиения, равную 0,481 и «аномально высокое» значение обобщенного критерия Ф=3,3843.
204 Информацию о компактности группировки объектов вокруг центров в кластере и внутри ячеек дают, евклидовы расстояния, указанные в табл. 4, полученные для каждой , q=; u=1,2,3. Из табл.4, а также из рис.4 и рис. 5 видно, что кластеризуемые объекты компактно располагаются вокруг центров кластеров и между собой, разделение на кластеры достаточно четкое. Обобщенная информация по качеству кластеризации показана в табл. 2 и 5.
205 Таблица 5
206

Дисперсия Sq2 для критериев качества (Hq), вычисленные по дублирующим расчетам (u=1,2,3)

Номер сети Кохонена в ансамбле q=

Дисперсия расстояний d(); i=;m=

от объектов до центров кластеров

1 2
1 0,005956
2 0,000261
3 0,000505
4 0,00171
5 0,003203
6 0,00261
7 0,004248
8 0,012954
9 0,001527
207 Апостериорные оценки качества нейросетей – гипотез {hq} на байесовском ансамбле
208 Непосредственно найти апостериорную оценку вероятности гипотез , используя функцию правдоподобия и применив формулу Байеса Р(Ωi)│) =можно заменить эту оценку на косвенную, что и сделано в квазибайесовском методе регуляризации нейросетевого классификатора. В этом методе в качестве критерия опостериорной оценки качества разбиения данных на кластеры предложен критерий Θ по (22), т.е. сумма квадратов внутрикластерных евклидовых расстояний (табл.4) между объектами и центрами кластеров.
209 Критерий качества кластеризации Θ характеризует компактность группировки объектов вокруг центров образуемых кластеров: чем меньше этот критерий, тем лучше качество кластеризации. В этом аспекте, возможна минимизация критерия путем вариации числа образуемых кластеров. Критерий хорошо соответствует целям разработки нейросетевой модели кластеризации, как модели поддержки принятия решений по налоговому регулированию. Для примерно однородных объектов в кластере (в рассматриваемом примере – это предприятия) в первом приближении, т.е. без применения процедуры углубленного индивидуального анализа, можно принимать аналогичные решения по налоговым льготам либо санкциям.
210 Из табл. 2, 4 и рис. 4, 5 можно сделать следующие выводы по квазибайесовскому методу кластеризации:
211 1). Применительно к условиям моделирования в рассматриваемом примере (сильное зашумление данных и их дефицит) проявляется заметное расслоение результатов разбиения на кластеры в зависимости от параметров адаптивного обучения сети Кохонена τ1 и τ2, которые в широких пределах (на 500%) варьировались в ансамбле сетей. Следовательно, идея о необходимости регуляризации нейросетевого классификатора подтвердилась в вычислительных экспериментах.
212 Обобщенный показатель Θ по (22), оценивающий косвенно апостериорную вероятность нейросетей – гипотез , изменяется в табл. 2 на множестве из 27 сетей ансамбля в довольно широких пределах: от =2,99 для HC7.1 до =5,21 для HC6..3, т.е. на 174%.
213 2). Состоятельной задачей является апостериорная фильтрация нейросетевых классификаторов Кохонена на байесовском ансамбле: не все имеются одинаково хорошее качество разбиения объектов на кластеры. Согласно квазибайесовскому методу было использовано правило фильтрации:
214 (33)
215 где q*= 1,2,…,; - число сетей в отфильтрованном ансамбле (табл.5): G = 0.398
216 Таким образом, уже на первой итерации фильтрации установлено, что все сравниваемые дисперсии {Sq2} для критериев качества кластеризации , q= однородны. Следовательно, все 9 нейросетей - гипотез прошли условия отбора (33) и оставлены в апостериорном (отфильтрованном) ансамбле.
217 Усредненное значение обобщенного критерия качества разбиения равно (табл.5):
218 (34)
219 Такое качество разбиения на кластеры вполне приемлемо, что визуально хорошо видно на рис. 4 и 5.
220 4. Рекомендации по принятию управленческих решений по налоговому регулированию на основе решения задачи кластеризации
221 В аспекте принятия решений по налоговому регулированию кластер «2», имеющий наименьшее среднее значение обобщенного показателя =0,0844 следует признать как имеющий неудовлетворительное финансово-экономическое состояние, и в рамках налогового законодательства ЛПР рекомендуется принять «щадящие» налоговые регулирующие воздействия для предприятий этого кластера.
222 Предприятия кластера «1» функционируют успешно: = 0,655, что в 7,76 раза превышает средний обобщенный критерий для кластера «2». Здесь никаких льгот по налоговому регулированию не требуется.
223 Предприятие № 7 образует отдельный кластер «О» с очень высоким значением обобщенного показателя = 3,384, что в 40,1 раза превышает этот показатель для основного кластера «2». Поэтому целесообразен отдельный углубленный анализ платежеспособности этого предприятия.
224 Предприятие № 24 является «пограничным» между кластерами «0» и «1», т.е. практически равновероятно попадает в эти кластеры ( табл. 3), причем кластеры «0» и «1» сильно различаются по значению обобщенного показателя Ф. Для предприятия № 24 Ф = 1,631, что близко к среднему значению этого критерия для кластеров «0» т «1», равного 2,019.Предприятие № 24 тоже целесообразно подвергнуть углубленному анализу, как и предприятие № 7.
225 5. Сравнение результатов кластеризации, полученные с помощью квазибайесовского метода, с результатами применения классического метода k-средних
226 Для любого нового метода интересно его сравнение с классическими методами, если они применимы для исследуемого класса задач. Результаты кластеризации показаны в табл. 6.
227 Таблица 6
228

Результаты сравнения кластеризации для двух методов (k- средних и КБМ )

код предприятия

номер кластера по

методу К-средних

Расстояние от

центра кластера

Обобщенный

критерий Ф

Номер кластера по

квазибайесовскому методу

1 2 1,0 0,31010 2
2 2 0,623 0,07189 2
3 2 0,594 0,07351 2
4 2 0,682 0,08879 2
5 2 0,433 0,07747 2
6 2 0,689 0,14030 2
8 2 2,243 0,17700 2
9 2 1,226 0,60950 1
10 2 1,174 0,15607 2
11 2 0,990 0,07785 2
12 2 0,552 0,10705 2
13 2 1,681 0,59610 1
14 2 0,746 0,02195 2
15 2 1,024 0,7594 1
16 2 0,603 0,04605 2
18 2 2,712 0,21725 2
19 2 0,914 0,03485 2
20 2 2,610 -0,01315 2
21 2 0,449 0,07833 2
22 2 1,696 0,01400 2
23 2 1,900 0,09504 2
24 2 2,239 1,631 2
17 1 0,000 -0,1232 2
7 0 0,000 3,3843 0
229 Из этой таблицы видно, что по 20 объектам из 24 разбиения, полученные по предлагаемому квазибайесовскому методу (КБМ) и классическому методу k - средних, совпадают с вероятностью (20/24) = 0,833, что вполне приемлемо.
230 Предлагаемый метод превосходит метод k-средних в двух аспектах:
231 1. Обобщенный критерий качества разбиения для КБМ, усредненный на отфильтрованном ансамбле составляет = 3,68 , что в 10,55 раз меньше, чем для метода k-средних, где = 38,82. Значит, КБМ дает более компактную группировку объектов вокруг центров кластеров.
232 2. Достоверность оценки, полученная на ансамбле из 9 априорных гипотез - нейросетей Кохонена, естественно, выше, чем в одной модели метода k-средних. В этом и заключается ключевая идея байесовского подхода [9].
233 Таким образом, предложенный квазибайесовский метод кластеризации может рассматриваться как альтернатива для известных методов k - средних и самоорганизующихся карт Кохонена.