Основные методологические подходы для извлечения данных с целью обучения интеллектуальных агентов
Основные методологические подходы для извлечения данных с целью обучения интеллектуальных агентов
Аннотация
Код статьи
S207751800005736-8-1
Тип публикации
Статья
Статус публикации
Опубликовано
Авторы
Ковалев Максим Александрович 
Аффилиация: IQSystems
Адрес: Российская Федерация, Москва
Аннотация

В статье приведен краткий анализ основных проблем, возникающих при подготовке обучающих выборок, необходимых для обучения интеллектуальных агентов. Произведен обзор преимуществ и недостатков статистических и лингвистических методов анализа текстов. Представлен сравнительный анализ возможностей статистических и лингвистических методов анализа текстов. 

Ключевые слова
семантический анализ, прагматический анализ, полнотекстовый поиск, извлечение данных, интеллектуальные агенты
Классификатор
Получено
22.06.2019
Дата публикации
08.07.2019
Всего подписок
92
Всего просмотров
2056
Оценка читателей
0.0 (0 голосов)
Цитировать Скачать pdf
Доступ к дополнительным сервисам
Дополнительные сервисы только на эту статью
Дополнительные сервисы на все выпуски за 2019 год
1 Практически все существующие на сегодняшний день определения интеллектуальных агентов подразумевают наличие базы знаний и достоверных фактов, необходимой как для первичного обучения интеллектуального агента, так и для его дальнейшего функционирования. Несмотря на лавинообразный рост данных, подготовка качественных обучающих выборок, необходимых для задания релевантной картины мира интеллектуальному агенту является все более возрастающей проблемой. Ввиду того, что большинство наиболее ценной информации представлено, прежде всего, в текстовой или аудио (с последующим распознаванием и переводом в текстовую) форме, проблема извлечения знаний становится особо острой.
2

По утверждению ряда источников, таких как IBM [2], Gatner [3] и других доля «темных», то есть неструктурированных и неразмеченных данных достигает 60 и более процентов. Одним из основных подходов и связанных с этим проблем является привлечение большого количества низкоквалифицированных операторов, необходимых для разметки или извлечения данных. Но такой подход имеет ряд недостатков как с экономической и социальной, так и с технической точки зрения [1]. И не обеспечивает высокой надежности ввиду таких факторов, как ограниченность знаний операторов, человеческого фактора, связанного с возникновением ошибок и ряда других. Процент ошибок может достигать от 10 и выше процентов (данные получены путем статистического анализа как отечественных, так и зарубежных клиентских данных поступающих на обработку с использованием сервисов IQDQ.RU). Таким образом, без решения вопросов, связанных с решением задачи автоматизации процессов извлечения и очистки (проверки релевантности и стандартизации) данных говорить об использовании BigData не приходится, за исключением довольно ограниченных предметных областей и задач.

3 Анализ текста представляет собой процесс поиска и интерпретации лексических единиц, с целью извлечения знаний, например, именованных сущностей. Основными вариантами анализа можно считать или перевод текста на метаязык лингвистических единиц или поиск соответствия его некой теоретической модели [4]. К основным проблемам, с которыми приходится сталкиваться в ходе решения задач по извлечению данных из разного рода текстов, можно отнести следующие:
4
  1. Миграционные потоки. По данным ООН общий рост миграционных потоков с 2000 по 2015 год вырос на 41 процент и составил в 2015 году 244 миллиона человек [4]. В результате имеем такие проблемы, как большое различие трактовок одних и тех же лексических единиц, различный характер грамматических ошибок, связанных с различием культур, уровнем общей грамотности и знанием грамматики языка, на котором приходится писать.
  2. Различие в фонемных рядах разных языков. Ввиду того, что не представляется возможным определить истинную национальность пишущего и его родной язык, становится невозможным предсказывать опечатки, а значит, невозможно создать «полную» базу вариантов написаний.
  3. «Гаджетизация». На сегодняшний день смартфоны и планшеты являются одними из основных инструментов генерации текстов. В результате развитой системы подсказок и исправлений текстов возникает новый класс ошибок: появляются «выпадающие» из контекста слова.
  4. Синонимия и полисемия понятий. Ярким примером данной проблемы является портал «Государственных услуг». Одной из проблем является тот факт, что наименования одних и тех же, по сути, услуг даются совершенно различными способами, имеется одновременно как сильная синонимия, так и полисемия понятий.
  5. Превалирующее влияние английского языка и возникновение его упрощенного и усредненного варианта, что приводит к появлению большого количества заимствованных и искаженных как в написании, так и с точки зрения смысла лингвистических единиц в большинстве языков.
5 В качестве примера приведем следующую фразу: «Московский водопроводный кОнал находЕтся по адресу МАсква УЛИЙ (авто-подстановка вместо «УЛ») Земляной Вал. Обращаться с жалобами, за исключением вопросов, связанных с подключением в окно №3». В данной фразе наличествует одновременно несколько «сущностей» таких как адрес, наименование организации, подразделения, а также указано свойство присутствия данной организации-объекта по указанному объекту-адресу. Кроме того, указана цель публикации и дан список целей и исключений. Анализ подобных текстов (различного рода массивы объявлений, клиентские базы данных и т.п.) является довольно распространенной практической задачей.
6 В общем виде можно выделить два основных класса технологических подходов анализа текстов: статистический и лингвистический. К первому подходу относятся технологии, основанные на статистическом анализе какой-либо базы фактов и попытка его применения для анализа новых ситуаций. К этому типу следует отнести технологии «обучения» системы путем создания баз статистически значимых вариантов и суперпозиций написания одних и тех же «сущностей» в различных текстах. Вариациями являются различные частотные алгоритмы, такие как латентно-семантический анализ, нейронные сети и так далее. 90% всех публикаций о примерах конкретных реализаций различными группами разработчиков (как отечественных, так и зарубежных) программного обеспечения относятся именно к этому технологическому подходу.
7 Ко второму подходу относятся технологии развития аналитических возможностей машины за счет развития алгоритмов выстраивания логических связей без предварительного «обучения» на примерах. К данному типу относятся такие технологии как SVM-анализ, «перенос-свертка», построение грамматик.
8

К сожалению, несмотря на наличие большого количества фундаментальных исследований, посвященных анализу текстов, современные исследователи и практики сталкиваются с рядом трудностей, главным образом связанных с недостаточным вниманием, в частности, к развитию семиотики как теории знаковых систем [9]. Большая часть исследований, которые создавались не позднее 60-х годов 20-го века, носили умозрительный характер и были связаны с изучением мышления как такового. Сегодня в рамках задач анализа текстов необходимо решать проблему различия в ассоциативных рядах представителей разных культур, учитывать устойчивые выражения, эмоциональные оттенки речи, недостаточность знания автором языка, на котором пишется та или иная работа и так далее.

9 На сегодняшний день, в рамках решения задач связанных с анализом текстов необходимо разрешить проблему различия в ассоциативных рядах разных культур, учесть устойчивые выражения, эмоциональные оттенки. Прежде чем мы перейдём к краткому сравнению технологических подходов, полагаем необходимым сделать несколько принципиальных замечаний:
10
  1. Сравнение носит чисто прикладной характер, и имеет направленность, не связанную с задачами перевода. Анализ производится для решения задач извлечения и поиска данных.
  2. В статье представлено сравнение самого принципа и возможностей тех или иных технологических подходов.
11 Статистические методы
12 Основная масса алгоритмов базируется на предварительно размеченных онтологиях, обогащенных алгоритмами нечеткого сравнения и вариантами написаний, такими как сокращения, типовые опечатки и т.д. Другими словами, анализ производится путем сопоставления текста с теоретической моделью. В качестве модели чаще всего используются разного рода онтологии, наиболее типичными из них являются эталонные справочники. Основными родовыми чертами данного класса методов являются:
13
  1. Широкое использование алгоритмов полнотекстового поиска.
  2. Использование разного рода n-грамм.
  3. Хеширование данных.
  4. Норма вариантов написания одной и той же сущности составляет в среднем от 10 до 50. В качестве примера можно привести решения в области очистки адресных данных, где один из наиболее часто используемых сервисов указывает, что его «обучающая выборка» состоит из 50 миллионов вариантов при размере эталонной базы 1,2 миллиона вариантов.
  5. Анализ производится путем прямого сравнения подстрок на полное соответствие с эталоном.
  6. Требуется отдельная процедура верификации результатов для принятия окончательного решения.
14 Преимуществами данного метода являются:
15
  • Относительная простота реализации.
  • Высокая скорость перебора вариантов.
16 К недостаткам метода можно отнести следующее:
17
  • Лавинообразный рост размера базы из-за необходимости хранения вариантов написаний отдельных сущностей.
  • Сложность контроля непротиворечивости соответствия тому или иному варианту написания конкретному элементу эталонного справочника, что приводит к росту вероятности появления полисемии и синонимии вариантов написаний лексических единиц.
  • Невозможность или сильная ограниченность анализа частичных совпадений и учета морфологии.
  • Высокая стоимость первоначального создания алгоритмов, из-за необходимости накопления базы вариантов написаний. Это отражается, например, в сложности подключения новых стран при разборе адресов, поскольку для каждой страны необходимо создавать свою базу вариантов написаний.
  • Невозможность применения эвристических подходов для анализа ситуаций за рамками известных вариантов.
18 Лингвистические методы
19 Если не брать во внимание специфические задачи, такие как анализ эмоциональной окрашенности, фонетический анализ и так далее, то можно сделать утверждение о том, что данного рода алгоритмы опираются прежде всего на синтаксический, семантический и прагматический виды анализа. Анализ производится как за счет сопоставления с теоретическими моделями, так и путем перевода на метаязык лингвистических единиц. Синтаксический анализ линейной последовательности слов с целью построения дерева зависимостей. Цель – анализ структуры предложения и отношения его компонентов. Основой анализа являются разного рода грамматики.
20

Семантический анализ зависимости слова или фразы от общего контекста. Разрешение проблем полисемии, синонимии и т.д. Основой являются разного рода языковые корпуса, созданные в рамках целей корпусной лингвистики. Отдельно следует упомянуть исследования в области ассоциативной семантики, такие как теория неоднородных семантических сетей [7]. Основой являются лексические единицы, объединяемые по значениям (семантический принцип) или по выполняемым функциям (функциональный принцип). Методология ассоциативной семантики служит для сокращения семантической многозначности путем формирования семантической модели, позволяющей восстановить общий смысл текста в условиях многозначности его фрагментов, вычислить и оценить степень ее адекватности той цели, с которой̆ текст написан [5].

21

Прагматический анализ [11] смысла текста с учетом, иносказательностей, «ошибок перевода» связанных с разными культурологическими ассоциациями, понятиями и принятыми устойчивыми выражениями в контексте среды рассказчика. В настоящее время данная область является наименее изученной с точки зрения формализации. На сегодняшний день какого-либо рода «корпуса», аналогично языковым нет. С этой точки зрения одной из перспективных областей исследований было бы создание корпусов ассоциативных полей, напоминающих политические, с временными (историческими) и территориальными границами культур. Построение такого рода полей является естественным развитием теорий ассоциативной семантики. Главным различием является то, что в случае семантического подхода ассоциации строятся главным образом на анализе баз ассоциаций лингвистических единиц или (в соответствии с терминами Лемова [6]) экспонентов, а прагматический – на основе баз ассоциаций сигнификатов и денотатов. Хорошие результаты в этом случае получены, например, с использованием нейронных сетей как инструмента кластеризации различного рода устойчивых выражений, описаний и выявления устойчивых ассоциаций. Такого рода подход был реализован в рамках реализации новой системы машинного перевода Google, созданный с использованием нейронных сетей [10].

22 Родовыми чертами данного подхода можно считать:
23
  1. Наличие тем или иным способом размеченных корпусов, эталонных справочников и онтологий. Например, «Лексикограф» ВНИИТИ, национальный корпус русского языка, ФИАС и др.
  2. Наличие правил, объединенных в грамматики. Грамматики могут быть реализованы в форме связанных шаблонов, искусственных предикативных языков.
  3. Анализ производится путем последовательного сравнения слов. Допускаются перестановки и учет сокращений и словоформ, если такое предусмотрено грамматикой.
  4. Не требуется отдельная процедура верификации для принятия окончательного результата.
24 Преимуществами подхода являются:
25
  • Более высокая точность
  • Хорошая переносимость при работе с разными онтологиями.
  • Возможность использования эвристических подходов для анализа ситуаций за рамками знаний, упакованных в корпуса.
  • Возможность анализа и принятия решения в ситуациях сильного «загрязнения» данных, связанных с разного рода ошибками и избыточным контентом.
26 К недостаткам данного подхода можно отнести:
27
  • Сложность реализации грамматик из-за отсутствия готовых инструментов.
  • Более низкая скорость работы.
  • Сложность контроля непротиворечивости правил
  • Сложность построения предварительно размеченных и логически увязанных корпусов баз знаний.
28 Таким образом применение как статистических, так и лингвистических методов может быть оправданным в разных задачах, с учетом их особенностей и экономической оправданностью затрат на их реализацию. Так подготовка небольших обучающих выборок, насчитывающих несколько десятков тысяч сущностей, в узко терминированной области экономически обоснована с использованием статистических методов. В этом случае качество работ по извлечению данных будет соизмеримо с лингвистическими методами. В тоже время обработка действительно больших и разнородных данных невозможна без использования лингвистических методов, где рост ошибок в процессе извлечения данных может достигать десятков процентов.

Библиография

1. Hao K. The AI gig economy is coming for you // MIT Technology Review Magazine https://www.technologyreview.com/s/613606/the-ai-gig-economy-is-coming-for-you/?utm_campaign=site_visitor.unpaid.engagement&utm_source=facebook&utm_medium=social_share&utm_content=2019-06-29&fbclid=IwAR0qn9U6YZBG8AaCKFTHRnhqaaRLQBGnr4fiTsXSA4ucSPNHXJeWoYDuWH8

2. Johnson H. Digging up dark data: What puts IBM at the forefront of insight economy // https://siliconangle.com/2015/10/30/ibm-is-at-the-forefront-of-insight-economy-ibminsight/

3. Shetty S. How to Tackle Dark Data // https://www.gartner.com/smarterwithgartner/how-to-tackle-dark-data/

4. Генеральный секретарь ООН. «Международная миграция и развитие» // Семьдесят первая сессия Пункт 21(b) первоначального перечня, «Глобализация и взаимозависимость», 2016

5. Кучуганов В.Н. Элементы теории ассоциативной семантики // Управление большими системами. Выпуск 40. М.: ИПУ РАН, 2012, С.30-48.

6. Лемов А.В. Система, структура и функционирование научного термина (на материале русскои? лингвистическои? терминологии) // Саранск: Изд-во Мордов. ун-та, 2000, 192 с.

7. Лотман Ю.М. Люди и знаки. // В кн. Лотман Ю. М. Семиосфера.  СПб.: Искусство-СПБ, 2010,  С. 6.

8. Митина О.В., Евдокименко А.С. Методы анализа текста: методологические основания и программная реализация // Вестник Южно-Уральского государственного университета. Серия Психология. 2010, № 40 (216), С. 29–38.

9. Осипов Г.С. Приобретение знании интеллектуальными системами: Основы теории и технологии. // М.: Наука. Физматлит, 1997.  

10. Официальный блог Google https://blog.google/products/translate/higher-quality-neural-translations-bunch-more-languages/

11. Тён ван Дейк. Язык. Познание. Коммуникация. // М: ЛЕНАНД, 2015.

Комментарии

Сообщения не найдены

Написать отзыв
Перевести