Comparison of Technological approaches in the context of tasks related to Data Extraction
Table of contents
Share
Metrics
Comparison of Technological approaches in the context of tasks related to Data Extraction
Annotation
PII
S207751800005736-8-1
DOI
10.18254/S207751800005736-8
Publication type
Article
Статус публикации
Published
Authors
Maksim Kovalev 
Affiliation: IQSystems
Address: Russian Federation, Moscow
Abstract

The article provides a brief analysis of the main problems arising in the preparation of training selections necessary for the training of intelligent agents. A review of the advantages and disadvantages of statistical and linguistic text analysis methods was made. A comparative analysis of the possibilities of statistical and linguistic text analysis methods is presented.

Keywords
semantic analysis, pragmatic analysis, full-text search, data extraction, intelligent agents
Received
22.06.2019
Date of publication
08.07.2019
Number of characters
13966
Number of purchasers
22
Views
358
Readers community rating
0.0 (0 votes)
Cite Download pdf

To download PDF you should sign in

1 Практически все существующие на сегодняшний день определения интеллектуальных агентов подразумевают наличие базы знаний и достоверных фактов, необходимой как для первичного обучения интеллектуального агента, так и для его дальнейшего функционирования. Несмотря на лавинообразный рост данных, подготовка качественных обучающих выборок, необходимых для задания релевантной картины мира интеллектуальному агенту является все более возрастающей проблемой. Ввиду того, что большинство наиболее ценной информации представлено, прежде всего, в текстовой или аудио (с последующим распознаванием и переводом в текстовую) форме, проблема извлечения знаний становится особо острой.
2

По утверждению ряда источников, таких как IBM [2], Gatner [3] и других доля «темных», то есть неструктурированных и неразмеченных данных достигает 60 и более процентов. Одним из основных подходов и связанных с этим проблем является привлечение большого количества низкоквалифицированных операторов, необходимых для разметки или извлечения данных. Но такой подход имеет ряд недостатков как с экономической и социальной, так и с технической точки зрения [1]. И не обеспечивает высокой надежности ввиду таких факторов, как ограниченность знаний операторов, человеческого фактора, связанного с возникновением ошибок и ряда других. Процент ошибок может достигать от 10 и выше процентов (данные получены путем статистического анализа как отечественных, так и зарубежных клиентских данных поступающих на обработку с использованием сервисов IQDQ.RU). Таким образом, без решения вопросов, связанных с решением задачи автоматизации процессов извлечения и очистки (проверки релевантности и стандартизации) данных говорить об использовании BigData не приходится, за исключением довольно ограниченных предметных областей и задач.

3 Анализ текста представляет собой процесс поиска и интерпретации лексических единиц, с целью извлечения знаний, например, именованных сущностей. Основными вариантами анализа можно считать или перевод текста на метаязык лингвистических единиц или поиск соответствия его некой теоретической модели [4]. К основным проблемам, с которыми приходится сталкиваться в ходе решения задач по извлечению данных из разного рода текстов, можно отнести следующие:
4
  1. Миграционные потоки. По данным ООН общий рост миграционных потоков с 2000 по 2015 год вырос на 41 процент и составил в 2015 году 244 миллиона человек [4]. В результате имеем такие проблемы, как большое различие трактовок одних и тех же лексических единиц, различный характер грамматических ошибок, связанных с различием культур, уровнем общей грамотности и знанием грамматики языка, на котором приходится писать.
  2. Различие в фонемных рядах разных языков. Ввиду того, что не представляется возможным определить истинную национальность пишущего и его родной язык, становится невозможным предсказывать опечатки, а значит, невозможно создать «полную» базу вариантов написаний.
  3. «Гаджетизация». На сегодняшний день смартфоны и планшеты являются одними из основных инструментов генерации текстов. В результате развитой системы подсказок и исправлений текстов возникает новый класс ошибок: появляются «выпадающие» из контекста слова.
  4. Синонимия и полисемия понятий. Ярким примером данной проблемы является портал «Государственных услуг». Одной из проблем является тот факт, что наименования одних и тех же, по сути, услуг даются совершенно различными способами, имеется одновременно как сильная синонимия, так и полисемия понятий.
  5. Превалирующее влияние английского языка и возникновение его упрощенного и усредненного варианта, что приводит к появлению большого количества заимствованных и искаженных как в написании, так и с точки зрения смысла лингвистических единиц в большинстве языков.
5 В качестве примера приведем следующую фразу: «Московский водопроводный кОнал находЕтся по адресу МАсква УЛИЙ (авто-подстановка вместо «УЛ») Земляной Вал. Обращаться с жалобами, за исключением вопросов, связанных с подключением в окно №3». В данной фразе наличествует одновременно несколько «сущностей» таких как адрес, наименование организации, подразделения, а также указано свойство присутствия данной организации-объекта по указанному объекту-адресу. Кроме того, указана цель публикации и дан список целей и исключений. Анализ подобных текстов (различного рода массивы объявлений, клиентские базы данных и т.п.) является довольно распространенной практической задачей.
6 В общем виде можно выделить два основных класса технологических подходов анализа текстов: статистический и лингвистический. К первому подходу относятся технологии, основанные на статистическом анализе какой-либо базы фактов и попытка его применения для анализа новых ситуаций. К этому типу следует отнести технологии «обучения» системы путем создания баз статистически значимых вариантов и суперпозиций написания одних и тех же «сущностей» в различных текстах. Вариациями являются различные частотные алгоритмы, такие как латентно-семантический анализ, нейронные сети и так далее. 90% всех публикаций о примерах конкретных реализаций различными группами разработчиков (как отечественных, так и зарубежных) программного обеспечения относятся именно к этому технологическому подходу.
7 Ко второму подходу относятся технологии развития аналитических возможностей машины за счет развития алгоритмов выстраивания логических связей без предварительного «обучения» на примерах. К данному типу относятся такие технологии как SVM-анализ, «перенос-свертка», построение грамматик.
8

К сожалению, несмотря на наличие большого количества фундаментальных исследований, посвященных анализу текстов, современные исследователи и практики сталкиваются с рядом трудностей, главным образом связанных с недостаточным вниманием, в частности, к развитию семиотики как теории знаковых систем [9]. Большая часть исследований, которые создавались не позднее 60-х годов 20-го века, носили умозрительный характер и были связаны с изучением мышления как такового. Сегодня в рамках задач анализа текстов необходимо решать проблему различия в ассоциативных рядах представителей разных культур, учитывать устойчивые выражения, эмоциональные оттенки речи, недостаточность знания автором языка, на котором пишется та или иная работа и так далее.

9 На сегодняшний день, в рамках решения задач связанных с анализом текстов необходимо разрешить проблему различия в ассоциативных рядах разных культур, учесть устойчивые выражения, эмоциональные оттенки. Прежде чем мы перейдём к краткому сравнению технологических подходов, полагаем необходимым сделать несколько принципиальных замечаний:
10
  1. Сравнение носит чисто прикладной характер, и имеет направленность, не связанную с задачами перевода. Анализ производится для решения задач извлечения и поиска данных.
  2. В статье представлено сравнение самого принципа и возможностей тех или иных технологических подходов.
11 Статистические методы
12 Основная масса алгоритмов базируется на предварительно размеченных онтологиях, обогащенных алгоритмами нечеткого сравнения и вариантами написаний, такими как сокращения, типовые опечатки и т.д. Другими словами, анализ производится путем сопоставления текста с теоретической моделью. В качестве модели чаще всего используются разного рода онтологии, наиболее типичными из них являются эталонные справочники. Основными родовыми чертами данного класса методов являются:
13
  1. Широкое использование алгоритмов полнотекстового поиска.
  2. Использование разного рода n-грамм.
  3. Хеширование данных.
  4. Норма вариантов написания одной и той же сущности составляет в среднем от 10 до 50. В качестве примера можно привести решения в области очистки адресных данных, где один из наиболее часто используемых сервисов указывает, что его «обучающая выборка» состоит из 50 миллионов вариантов при размере эталонной базы 1,2 миллиона вариантов.
  5. Анализ производится путем прямого сравнения подстрок на полное соответствие с эталоном.
  6. Требуется отдельная процедура верификации результатов для принятия окончательного решения.
14 Преимуществами данного метода являются:
15
  • Относительная простота реализации.
  • Высокая скорость перебора вариантов.
16 К недостаткам метода можно отнести следующее:
17
  • Лавинообразный рост размера базы из-за необходимости хранения вариантов написаний отдельных сущностей.
  • Сложность контроля непротиворечивости соответствия тому или иному варианту написания конкретному элементу эталонного справочника, что приводит к росту вероятности появления полисемии и синонимии вариантов написаний лексических единиц.
  • Невозможность или сильная ограниченность анализа частичных совпадений и учета морфологии.
  • Высокая стоимость первоначального создания алгоритмов, из-за необходимости накопления базы вариантов написаний. Это отражается, например, в сложности подключения новых стран при разборе адресов, поскольку для каждой страны необходимо создавать свою базу вариантов написаний.
  • Невозможность применения эвристических подходов для анализа ситуаций за рамками известных вариантов.
18 Лингвистические методы
19 Если не брать во внимание специфические задачи, такие как анализ эмоциональной окрашенности, фонетический анализ и так далее, то можно сделать утверждение о том, что данного рода алгоритмы опираются прежде всего на синтаксический, семантический и прагматический виды анализа. Анализ производится как за счет сопоставления с теоретическими моделями, так и путем перевода на метаязык лингвистических единиц. Синтаксический анализ линейной последовательности слов с целью построения дерева зависимостей. Цель – анализ структуры предложения и отношения его компонентов. Основой анализа являются разного рода грамматики.
20

Семантический анализ зависимости слова или фразы от общего контекста. Разрешение проблем полисемии, синонимии и т.д. Основой являются разного рода языковые корпуса, созданные в рамках целей корпусной лингвистики. Отдельно следует упомянуть исследования в области ассоциативной семантики, такие как теория неоднородных семантических сетей [7]. Основой являются лексические единицы, объединяемые по значениям (семантический принцип) или по выполняемым функциям (функциональный принцип). Методология ассоциативной семантики служит для сокращения семантической многозначности путем формирования семантической модели, позволяющей восстановить общий смысл текста в условиях многозначности его фрагментов, вычислить и оценить степень ее адекватности той цели, с которой̆ текст написан [5].

21

Прагматический анализ [11] смысла текста с учетом, иносказательностей, «ошибок перевода» связанных с разными культурологическими ассоциациями, понятиями и принятыми устойчивыми выражениями в контексте среды рассказчика. В настоящее время данная область является наименее изученной с точки зрения формализации. На сегодняшний день какого-либо рода «корпуса», аналогично языковым нет. С этой точки зрения одной из перспективных областей исследований было бы создание корпусов ассоциативных полей, напоминающих политические, с временными (историческими) и территориальными границами культур. Построение такого рода полей является естественным развитием теорий ассоциативной семантики. Главным различием является то, что в случае семантического подхода ассоциации строятся главным образом на анализе баз ассоциаций лингвистических единиц или (в соответствии с терминами Лемова [6]) экспонентов, а прагматический – на основе баз ассоциаций сигнификатов и денотатов. Хорошие результаты в этом случае получены, например, с использованием нейронных сетей как инструмента кластеризации различного рода устойчивых выражений, описаний и выявления устойчивых ассоциаций. Такого рода подход был реализован в рамках реализации новой системы машинного перевода Google, созданный с использованием нейронных сетей [10].

22 Родовыми чертами данного подхода можно считать:
23
  1. Наличие тем или иным способом размеченных корпусов, эталонных справочников и онтологий. Например, «Лексикограф» ВНИИТИ, национальный корпус русского языка, ФИАС и др.
  2. Наличие правил, объединенных в грамматики. Грамматики могут быть реализованы в форме связанных шаблонов, искусственных предикативных языков.
  3. Анализ производится путем последовательного сравнения слов. Допускаются перестановки и учет сокращений и словоформ, если такое предусмотрено грамматикой.
  4. Не требуется отдельная процедура верификации для принятия окончательного результата.
24 Преимуществами подхода являются:
25
  • Более высокая точность
  • Хорошая переносимость при работе с разными онтологиями.
  • Возможность использования эвристических подходов для анализа ситуаций за рамками знаний, упакованных в корпуса.
  • Возможность анализа и принятия решения в ситуациях сильного «загрязнения» данных, связанных с разного рода ошибками и избыточным контентом.
26 К недостаткам данного подхода можно отнести:
27
  • Сложность реализации грамматик из-за отсутствия готовых инструментов.
  • Более низкая скорость работы.
  • Сложность контроля непротиворечивости правил
  • Сложность построения предварительно размеченных и логически увязанных корпусов баз знаний.
28 Таким образом применение как статистических, так и лингвистических методов может быть оправданным в разных задачах, с учетом их особенностей и экономической оправданностью затрат на их реализацию. Так подготовка небольших обучающих выборок, насчитывающих несколько десятков тысяч сущностей, в узко терминированной области экономически обоснована с использованием статистических методов. В этом случае качество работ по извлечению данных будет соизмеримо с лингвистическими методами. В тоже время обработка действительно больших и разнородных данных невозможна без использования лингвистических методов, где рост ошибок в процессе извлечения данных может достигать десятков процентов.

References

1. https://siliconangle.com/2015/10/30/ibm-is-at-the-forefront-of-insight-economy-ibminsight/

2. https://www.gartner.com/smarterwithgartner/how-to-tackle-dark-data/

3. https://www.technologyreview.com/s/613606/the-ai-gig-economy-is-coming-for-you/?utm_campaign=site_visitor.unpaid.engagement&utm_source=facebook&utm_medium=social_share&utm_content=2019-06-29&fbclid=IwAR0qn9U6YZBG8AaCKFTHRnhqaaRLQBGnr4fiTsXSA4ucSPNHXJeWoYDuWH8

4. General'nyj sekretar' OON. «Mezhdunarodnaya migratsiya i razvitie» // Sem'desyat pervaya sessiya Punkt 21(b) pervonachal'nogo perechnya, «Globalizatsiya i vzaimozavisimost'», 2016

5. Kuchuganov V.N. Ehlementy teorii assotsiativnoj semantiki // Upravlenie bol'shimi sistemami. Vypusk 40. M.: IPU RAN, 2012, S.30-48.

6. Lemov A.V. Sistema, struktura i funktsionirovanie nauchnogo termina (na materiale russkoi? lingvisticheskoi? terminologii) // Saransk: Izd-vo Mordov. un-ta, 2000, 192 s.

7. Lotman Yu.M. Lyudi i znaki. // V kn. Lotman Yu. M. Semiosfera.  SPb.: Iskusstvo-SPB, 2010,  S. 6.

8. Mitina O.V., Evdokimenko A.S. Metody analiza teksta: metodologicheskie osnovaniya i programmnaya realizatsiya // Vestnik Yuzhno-Ural'skogo gosudarstvennogo universiteta. Seriya Psikhologiya. 2010, № 40 (216), S. 29–38.

9. Osipov G.S. Priobretenie znanii intellektual'nymi sistemami: Osnovy teorii i tekhnologii. // M.: Nauka. Fizmatlit, 1997.  

10. Ofitsial'nyj blog Google https://blog.google/products/translate/higher-quality-neural-translations-bunch-more-languages/

11. Tyon van Dejk. Yazyk. Poznanie. Kommunikatsiya. // M: LENAND, 2015.