Neural network clustering algorithm with selection of features and bayesian regularization for problems of bankruptcies
Table of contents
Share
Metrics
Neural network clustering algorithm with selection of features and bayesian regularization for problems of bankruptcies
Annotation
PII
S207751800000016-6-2
DOI
10.18254/S0000016-6-1
Publication type
Article
Статус публикации
Published
Authors
Alexandr Biryukov 
Liana Kasimova
Abstract
The development of a Bayesian iterative method of clustering on the basis of feature selection allows you to filter the aggregate of cluster-forming characteristics according to their information content and, consequently, produce a "thin" adjustments to the initial partitioning of objects into clusters. The efficiency of the proposed method of feature selection for clustering, expressed in a significant reduction of their number, for modeling decision-making in credit banking technologies.
Keywords
neural network model, clustering, Bayesian approach, selection of characteristics, clusters, and loan technology
Received
18.11.2016
Date of publication
29.12.2016
Number of characters
24873
Number of purchasers
5
Views
1747
Readers community rating
0.0 (0 votes)
Previous versions
Cite Download pdf

To download PDF you should sign in

1

Актуальность задач кластеризации в скоринговых технологиях

2

Актуальность задачи кластеризации в скоринговых кредитных банковских технологиях обусловлена следующими соображениями. Решение о выдаче кредита и схеме кредитования принимается на основе оценки кредитоспособности заемщика на базе построенной ранее (по ретроспективным данным) модели для совокупности «подобных» заемщиков. Термин «подобных» здесь интерпретируется как сходственность заемщиков в кластере по виду деятельности, финансово-экономическому состоянию, поведенческим качественным показателям в отношении дисциплины погашения кредита. Источником информации для построения ретроспективной логистической модели вида: при этом служит база данных из Российского национального бюро кредитных историй, а также стандартная публично доступная бухгалтерская отчетность.

3

Функция вычисляется по известным своим аргументам и с помощью адаптивной (обучаемой на примерах для различных объектов – корпораций) нейросетевой модели типа «Многослойный персептрон» (Multi Lаuеr Реrsерtrоn (MLР)) [8]: где оператор нейросетевого отображения «вход-выход»; – матрица настраиваемых в процессе обучения сети на примерах синаптических весов связей между нейронами. При этом в каждом обучающем примере должны быть известны как значения входных переменных где – дискретное время («временные срезы» наблюдений), так и значения выходной переменной число «временных срезов» наблюдений.

4

Банки занимаются кредитованием корпораций из различных отраслей экономики. Следовательно, для повышения объективности и качества принимаемых решений о кредитовании банки должны иметь спектр ретроспективных кластерных моделей оценки кредитоспособности заемщиков: для строительной отрасли, торговли, машиностроения, сельского хозяйства, транспортных компаний и др.

5

Особенности постановки задач классификации и кластеризации в аспекте байесовского подхода

6

Задача классификации ставится так. Имеется обучающая выборка данных где вектор - строки (объекты) снабжены метками (прецедентами) о принадлежности объектов к классам: . При этом число классов априори известно. Модель должна разбивать объекты на непересекающихся множеств (классов) оптимальным по выбранному критерию способом. Критерий разбиения должен быть построен так, чтобы расстояния, в частности евклидовы, между объектами внутри классов были как можно меньше, а из разных классов – как можно больше. Новый вектор , предъявленный обученной модели, должен быть отнесен к одному наиболее вероятному из классов .

7

Задачи кластеризации являются частным случаем задач классификации: в данных нет меток о принадлежности объектов к определенным классам и априори неизвестно число классов . Разбиение осуществляется на основе выбранного критерия, выражающегося через те или иные внутриклассовые и междуклассовые расстояния. При предъявлении новых объектов модель кластеризации перестраивается, и анализируемые объекты относятся к соответствующим кластерам.

8

Модели классификации и кластеризации могут строиться на основе традиционных методов параметрической статистики. Данная группа методов позволяет строить обоснованные модели кластеризации систем в случае большого набора экспериментальных данных (достаточного для доказательства статических гипотез о характере закона распределения) и при относительно равномерном их распределении в пространстве параметров. Однако при высокой стоимости экспериментальных данных, или невозможности получении достаточного их количества, их высокой зашумленностью, неполноте и противоречивости, нейросетевые модели оказываются более предпочтительными. Нейронная сеть как инструмент кластеризации оказывается избирательно чувствительной в областях скопления данных.

9 Эта особенность нейросетевых моделей основывается на более общем принципе – адаптивной кластеризации данных. Одной из первых сетей, обладающих свойствами адаптивной кластеризации, была карта самоорганизации Т. Кохонена [11]. Задачей нейросети Кохонена является автоматизированное построение отображения набора входных векторов высокой размерности в карту кластеров меньшей размерности, причем, таким образом, что близким кластерам на карте отвечают близкие друг к другу входные векторы в исходном пространстве. Таким образом, при значительном уменьшении размерности пространства сохраняется топологический порядок расположения данных. При замене всех векторов каждого кластера его центром достигается высокая степень сжатия информации при сохранении ее структуры в целом.
10

Карты Кохонена применяются в основном для двух целей. Первая из них – наглядное упорядочивание многопараметрической информации. На практике обычно используется одномерная и двумерная карты. Кластеры, задаваемые узлами карты, содержат группы в некотором смысле похожих наблюдений, которым может быть приписан групповой семантический смысл.

11

Применительно к моделированию экономических систем, карты Кохонена могут использоваться для выявления различий в режимах поведения системы. При этом могут выявляться аномальные режимы. Важно, что при этом могут быть обнаружены неожиданные скопления близких данных, последующая интерпретация которых пользователем может привести к получению нового знания об исследуемой системе.

12

Акцентируем внимание на общей постановке задачи кластеризации многомерных данных, особенно на двух ее особенностях: В данных в вектор-строках наблюдений, переменные (кластеризующие признаки) не разделяются на объясняющие и результативные. Соответственно не выделяются шумовая составляющая η в записи: , (1) где - измеренное значение результативного признака в i-ом наблюдении; - регулярная часть случайной величины Y в i-ом измерении; - функция шума; β – амплитуда шума.

13

Наиболее полным статистическим описанием наблюдаемых многомерных данных является совместная плотность распределения вероятности в n-мерном пространстве признаков.

14

Эти две особенности значительно расширяют возможности различных аналитических построений в рамках байесовского подхода к решению задачи кластеризации. Например, не надо делать никаких предположений о законе распределения шумовой составляющей в измерениях. Если дополнительно ввести допущение о гауссовом распределении векторов, то можно воспользоваться результатами теории байесовской кластеризации из [10].

15

Элементы теории классификации на основе байесовского подхода к принятию решений

16 В монографии [1] рассмотрены как задачи классификации, так и задачи кластеризации, которые являются частным случаем задач классификации: в задачах кластеризации отсутствуют «метки» (преценденты), т.е. достоверная априорная информация о принадлежности векторов данных к тем или иным классам, а также о числе М классов.
17 Рассмотрим вначале общие идеи классификации на основе байесовской теории решений [6,7]. Байесовский подход к задачам классификации исходит из статистической природы измеренных значений вектора {}, содержащихся в данных D. За основу берется предположение о существовании вероятностной меры на пространстве распознаваемых образов, которая либо известна, либо может быть оценена. Цель состоит в подборе такого классификатора, который будет определять правильно наиболее вероятный класс для нового предъявляемого образа.
18 Байесовское правило классификации
19 Пусть задано М классов. Будем также считать известными априорные вероятности классов Р (), которые могут быть легко оценены по прецендентам (меткам): , (2) где - число прецендентов из класса; N – общее число прецендентов в данных.
20 Для расчета по формуле Байеса нам потребуется также знание функции распределения вектора признаков для каждого класса, которые называются функциями правдоподобия (Likelihood) по отношению к классу. Если плотность вероятности распределения векторов в классах соответствует совместному нормальному закону, то для функции правдоподобия можно получить аналитическое выражение. В противном случае можно приближенно оценить гистограммой распределения векторов признаков для процентов из класса.
21 Предлагается связать оценку функции правдоподобия с качеством объяснения вспомогательной нейросетевой моделью (НССМ) данных.
22 Определение 1. Величина вероятности того, что новый предъявляемый вектор будет отнесен к классу, называется апостериорной вероятностью, поскольку задает распределение индекса класса после эксперимента (Posterior).
23 Величина может быть вычислена по формуле Байеса [2], полученной им в 1763 году, через априорные вероятности и функции правдоподобия .
24 Классическая формула Байеса выведена им при следующих условиях: пусть - полная группа несовместных событий: . (3)
25 Тогда апостериорная вероятность события: , (4) где– априорная вероятность события; – условная вероятность события В при условии, что произошло событие.
26 В работе [6] показано, что если Р(А) и Р(А│В) описываются плотностями и , то применительно к задаче классификации из формулы Байеса вытекает соотношение: . (5)
27 Здесь в числителе - плотность описывающая функцию правдоподобия, а - плотность, описывающая полную вероятность в знаменателе (5) (Evidence).
28 Для двух непересекающихся классов Байесовское правило классификации заключается в том, что предъявляемый объект (образ) относится к тому классу, у которого апостериорная вероятность выше, т.е. если, то относится к , иначе в.
29 При проверке классификации сравнение и эквивалентно сравнению и.
30 Таким образом, задача сравнения по апостериорной вероятности сводится к вычислению величин. Об оценке этих величин говорилось выше.
31 Недостатком данного байесовского подхода к задачам классификации является необходимость постулирования как существования априорного распределения вектора признаков в пространстве признаков X, так и знания формы этого распределения.
32 Оценка ошибки классификации
33 Определение. Вероятность: (6) где ; (7) , (8) называется ошибкой классификации.
34 Здесь в (6) первый член в правой части есть вероятность ошибочного отнесения объекта к классу, когда байесовское правило (область предпочтения) соответствует классификации данного объекта в .
35 Второй член в правой части (6) есть вероятность ошибочной классификации объекта в по правилу, которое должно относить к.
36 В [6] доказана теорема, что Байесовский классификатор является оптимальным по отношению к минимизации вероятности ошибки классификации.
37 Средний риск и его минимизация
38 Вероятность ошибки классификации – не всегда лучший критерий проверки классификатора, когда цена ошибок различного типа (отнесения к и) существенно различается. В этом случае лучше подходит другой критерий качества классификации – минимум среднего риска.
39 Рассмотрим задачу классификации объектов по М классам. Пусть, j =1.2…, М–области предпочтения классов согласно (7), (8). Предположим, что вектор из класса лежит в, ,т.е. классификация происходит с ошибкой. Введем штраф, который называется потерями в результате того, что объект из класса был принят за объект из класса. Обозначим через L=[] «матрицу потерь».
40 Определение. Выражение: , (9) называется риском при классификации объекта класса.
41 Если просуммировать все, то получим общий средний риск: ,(10) т.е. риски здесь суммируются с весами.
42 В выражении (9) сумма берется по - индексу классов, а интеграл по векторам, поэтому оператор суммирования и интегрирования можно менять, местами и выразить общий средний риск следующим образом: . (11)
43 Исходя из этого выражения, можно сделать вывод, что риск будет минимален, т.е., если, при ij, где: (12) . (13)
44 Определение. Выражение: , (14) в двухклассовой задаче классификации называется отношением правдоподобия.
45 Дискриминантные функции и поверхности решения
46 Минимизация риска и вероятности ошибки эквивалентны разделению пространства признаков на М областей. Если области предпочтения классов смежные, то они разделены поверхностью решения в многомерном пространстве. Для случая минимизации вероятности ошибки поверхность решения задается уравнением: .
47 Иногда вместо вероятностей удобнее оперировать с некоторыми монотонно возрастающими функциями от них, которые называются дискриминантными функциями: .(15)
48 Чаще всего применяется логарифмическая дискриминантная функция. В этом случае поверхность решения задачи классификации будет задаваться уравнением: ;. (16)
49 Для задачи классификации по вероятности ошибки или риска не всегда удается вычислить вероятности. В этом случае можно попытаться получить так называемое «субоптимальные» решения по отношению к Байесовской классификации.
50 Байесовский классификатор для нормального распределения признаков
51

Распределение Гаусса очень широко используется в связи с его вычислительным удобством и адекватностью во многих случаях. Рассмотрим многомерную плотность распределения вектора признаков : ,i=1, , (17) где - математическое ожидание случайного вектора в классе ;- матрица ковариации размерности для класса: ; (18) - определитель матрицы ковариации; здесь, - это векторы – столбцы, а - векторы-строки.

52

Требуется построить байесовский классификатор, если плотность распределения описывается (17). Рассмотрим логарифмическую дискриминантную функцию: . (19)

53

Подставляя в правую часть (19) выражение плотности вероятности согласно многомерному нормальному закону (17) и логарифмируя, получим ;

54

(20)

55

Таким образом, дискриминантная функция представляет собой квадратичную форму, т.е. разделяющая поверхность является гиперповерхностью второго порядка. Поэтому Байесовский классификатор для гауссовской смеси распределений вектора является квадратичным классификатором.

56

4.Оригинальный байесовский итерационный метод кластеризации на основе селекции признаков

57 В прикладных задачах кластеризации и ранжирования, вектор признаков может содержать большое число компонент (до нескольких десятков и даже сотен). Например, в методике оценки кредитоспособности предприятий [9] размерность вектора. Часть из этих компонент имеют высокую информативность в аспекте разделения векторов (объектов) на классы, а часть малоинформативна. В результате качество кластеризации может оказаться неудовлетворительным и требуется коррекция первоначального разбиения данных на кластеры. Это первая причина неудовлетворительной кластеризации.
58 Вторая причина неудовлетворительного качества разбиения полученного с помощью нейросетевых инструментариев – это возможная сильная зависимость результатов кластеризации от параметров настройки сети. Например, если в качестве нейросетевого кластеризатора используются самонастраивающиеся карты Кохонена (SOM), т.е. когда нейросеть недостаточно устойчива.
59 В предлагаемом в данной работе байесовском итерационном методе кластеризации первая причина плохого качества кластеризации парируется путем введения итерационного процесса коррекции первоначального разбиения с селекцией признаков – компонент вектора.
60 Вторая причина – возможная неустойчивость нейросетевого кластеризатора по вариации параметров настройки – парируется на основе байесовской процедуры регуляризации нейросети, в частности сети Кохонена.
61 4.1. Алгоритм метода
62

Алгоритм метода (рис.1) содержит основную итерационную процедуру коррекции кластеризации, шаги которой обозначим верхним индексом S=1,2,…, и инициирующую эту процедуру селекцию признаков – компонент, j=1,2,…,n вектора по их информативности в аспекте различения законов распределения прецендентов в образованных кластерах. При этом внутри каждой s-ой внешней итерации коррекции разбиения при скалярной селекции признаков осуществляется перебор всех парных сочетаний классов и внутри каждого сочетания перебор всех признаков.

63

Опишем подробно все операции алгоритма на рис.1:

64

Рис.1. Логическая схема алгоритма метода коррекции разбиения данных на кластеры на основе селекции признаков

65

Шаг 1. На первом шаге внешних итераций (S=1) для исходных данных n-мерных векторов (объектов) {}, проводится кластеризация с помощью одного из методов: самоорганизующихся карт Кохонена (SOM)[4,12]; k –средних (k-means) [3]; байесовского метода из [10] для случаев, когда плотность вероятностей распределения векторов в классах можно приближенно рассматривать как гауссовские смеси распределений и др.[3].

66

Шаг 2. Пусть на первом шаге итерации S=1 образовано М кластеров (классов). Для каждого кластера вычислим критерий качества разбиения, например: , S=1,2,… , (21) где - кластер с номером m; - точка центра кластера в n – мерном пространстве признаков; d (,) – евклидово расстояние от объекта до центра m –го кластера.

67

Шаг 3.Производим сравнение критерия с желаемым экспертно заданным числом: (22) Пусть нас не устраивает полученное разбиение, т.е. неравенство (22) не выполняется, и мы желаем улучшить качество разбиения данных на кластеры.

68

Шаг. 4. Поскольку на первом шаге итерации (S=1) кластеры уже образованы, то принадлежность каждого объекта {}, к соответствующему кластеру (классу) определена, следовательно, возможна селекция признаков с целью уменьшения размерности вектора, в которой должны быть известны «метки» классов.

69

Определение. Процедура выделения из множества признаков меньшего подмножества с наилучшим сохранением информативности для классификации называется селекцией признаков [6].

70

Суть выбора признаков – это выделение признаков, которые приводят к большим расстояниям между классами и к малым внутри классов, т.е. минимизация критерия в (22).

71

Различают скалярную и векторную селекцию признаков. При скалярной селекции рассматривается отдельно один признак из данного множества – получим одномерную задачу. При векторной селекции одновременно исследуются свойства группы признаков. В предлагаемом методе используется только скалярная селекция признаков.

72

4.2. Скалярная селекция признаков

73

Суть метода скалярной селекции признаков [6] состоит в оценке дискриминантной способности каждого отдельного признака путем проверки соответствующих статистических гипотез о законах распределения плотности вероятности анализируемого признака в разных классах для содержащихся в них прецендентов. Если распределения плотности , совпадает для разных классов () при назначенной мере сходства, то признак не различает эти классы. Такова суть метода селекции на основе проверки статистических гипотез.

74

Теперь приведем количественные соотношения для алгоритма скалярной селекции. Для наглядности взято всего два класса:, хотя все соотношения, приводимые ниже, справедливы для любого конечного числа классов.

75

Примем следующие обозначения: пусть - анализируемый признак. Пусть известны прецеденты для этого признака, т.е. случайные его реализации из класса ; и для класса;, где - числа прецендентов в классах и. Методами математической статистики [3] оцениваются законы распределения плотности вероятности для и. Обозначим через две гипотезы: - значения признаков отличаются существенно в класса х и - значения признаков отличаются несущественно – нуль гипотеза.

76

Примем соглашение о том, что признаки при селекции нормализованы стандартным способом, т.е.: ; ; .(23)

77

Нормализация признаков преследует две цели: 1). Признаки, имеющие большие значения, могут влиять на классификатор сильнее остальных, что искажает правильность, классификации. Поэтому необходимо уменьшить их влияние путем нормализации. 2). Дисперсия нормализованных признаков равна 1, т.е. при проверке статистических гипотез она оказывается известной.

78

Итак, пусть известны дисперсии для нормированных прецендентов в классах. Тогда при селекции основная задача – проверить отличие средних значений признаков в двух классах и. Соответствующие гипотезы имеют вид: .(24)

79

Рассмотрим вначале общий случай нормирования признаков не стандартным способом. Соответствующие приемы нормирования описаны в [5]. Тогда задача проверки различия средних распадается на две задачи:

80

а). Проверки однородности двух дисперсий как мер рассеяния исследуемого признака внутри классов и. Здесь можно использовать критерий Фишера: ; ; (25) . (26) . (27)

81

Полученное значение критерия Фишера F сравнивается с табличным (критическим) значением, где - число степеней свободы числителя в (26); (k=1 если и k=2 в противном случае); - число степеней свободы знаменателя ( k =2, если); - принятый при проверке гипотезы уровень значимости. Если, то для данных условий проверки делается вывод об однородности дисперсий и их можно использовать далее в расчете критерия Стьюдента в задаче б).

82

б). В задаче о значимости различия средних используется критерий Стьюдента с числом степеней свободы: ;.(28)

83

Обоснованием к использованию t – распределения Стьюдента для проверки этой гипотезы служит центральная предельная теорема теории вероятностей Ляпунова [2], согласно которой закон распределение суммы конечного числа случайных величин (в нашей задаче) стремиться к нормальному закону распределения. Проверяем нуль-гипотезу: , (29) где - табличное значение критерия Стьюдента с принятым уровнем значимости - число степеней свободы для статистики Стьюдента.

84

Если неравенство (29) выполнено, то делается вывод о том, что статистически значимого различия в средних нет. Следовательно, анализируемый признак неинформативен в аспекте разделения данных на классы (кластеры) с принятым уровнем значимости и при имеющихся объемах прецендентов в двух классах. При конечном числе классов m; m=1,2,…,M. Описанная процедура селекции признаков проводится последовательно попарно для классов.

85 Признак {} считается неинформативным в целом для разбиения на шаге S=1, если он не различает распределения этого признака во всех сочетаниях классов.
86 Шаг 5. Неинформативный признак исключается из компонент вектора и, соответственно, снижается размерность вектора. В итоге, подвергнув селекции все признаки – компоненты вектора, либо часть из них, получаем решение задачи селекции на первом (s=1) шаге рассматриваемого итерационного метода коррекции разбиения объектов на кластеры, т.е. получаем «усеченный» вектор - число отсеянных признаков на s-ом шаге итерации.
87

Шаг 6. На втором шаге итерации s=2 повторяем шаги 1…4 с использованием вектора признаков сокращенной размерности s=1.

88

Шаг 7. Контролируем качество нового разбиения для вектора размерности по критерию, s=2 по (21).

89

Если выполняется условие:,(30) то селекцию признаков на шагах 1- 4 считаем успешной.

90

Шаг 8. Для нового (скорректированного) разбиения признаков на кластеры (классы) повторяем процедуру селекции признаков j=1,2,…,() по алгоритму шага 4, т.е. получаем новый усеченный вектор признак, (s=2).

91

Шаг 9. Находим новое разбиение на кластеры (классы) с использованием вектора признаков, (s=2) и т.д.

92

Критерием остановки итераций коррекции разбиения, связанной с селекцией признаков, служит условие: .(31)

93

Фильтрация критериев качества разбиения объектов на кластеры по (21) – (31) с последующим осреднением этих критериев на отфильтрованном ансамбле (14) дает более достоверную оценку по сравнению с одной нейросетью, даже лучшей в ансамбле, по этому критерию. Следовательно, данная процедура ускоряет сходимость процесса внешних итераций коррекции разбиения на кластеры с селекцией признаков по схеме рис. 1, а также повышает устойчивость этого процесса в аспекте селекции признаков. Последнее означает, что на шагах 7 - 9 алгоритма коррекции разбиения (1) - (13) следует использовать усредненный на байесовском ансамбле критерий качества , по (14).

94

4.3. Оптимизация числа образуемых кластеров

95

Совершенно очевидно, что качество разбиения объектов на кластеры сильно зависят от числа М образуемых кластеров. Следовательно, задаваемое число кластеров обусловлено контекстом постановки задачи кластеризации. Применительно к банковским скоринговым технологиям задача оптимизации числа образуемых кластеров имеет смысл, если разбивать спектр кластерных моделей по отраслям экономики на подмодели и соответственно кластеры на подкластеры.

96

Например, для целей оценок кредитным аналитиком удобно задавать порядка 3…5 соответственно группирующих корпорации по градациям их финансово - экономического состояния (очень хорошее, хорошее, пограничное, близкое к банкротству, очень плохое).