Comparison of Technological approaches  in the context of tasks related to Data  Extraction

Kovalev, Maksim

doi:10.18254/S207751800005736-8

English

Home>Issue 2>Comparison of Technological approaches in the context of tasks related to Data Extraction

Comparison of Technological approaches in the context of tasks related to Data Extraction

Table of contents

Annotation Estimate Publication content

References Comments

Comparison of Technological approaches in the context of tasks related to Data Extraction

Annotation

PII

S207751800005736-8-1

DOI

10.18254/S207751800005736-8

Publication type

Article

Статус публикации

Published

Authors

Maksim Kovalev Send message

Affiliation: IQSystems
Address: Russian Federation, Moscow

Edition

Volume 14 Issue 2

Abstract

The article provides a brief analysis of the main problems arising in the preparation of training selections necessary for the training of intelligent agents. A review of the advantages and disadvantages of statistical and linguistic text analysis methods was made. A comparative analysis of the possibilities of statistical and linguistic text analysis methods is presented.

Keywords

semantic analysis, pragmatic analysis, full-text search, data extraction, intelligent agents

Received

22.06.2019

Date of publication

08.07.2019

Number of purchasers

Views

2057

Readers community rating

0.0 (0 votes)

Cite Download pdf

GOST	Kovalev M. Comparison of Technological approaches in the context of tasks related to Data Extraction // Artificial societies. – 2019. – V. 14. – Issue 2. URL: https://artsoc.jes.su/s207751800005736-8-1/. DOI: 10.18254/S207751800005736-8
MLA	Kovalev, Maksim "Comparison of Technological approaches in the context of tasks related to Data Extraction." Artificial societies. 14.2 (2019). DOI: 10.18254/S207751800005736-8
APA	Kovalev M. (2019). Comparison of Technological approaches in the context of tasks related to Data Extraction. Artificial societies. vol. 14, no. 2 DOI: 10.18254/S207751800005736-8

Additional services access

Additional services for the article

Services benefits

100 RUB / 1.0 SU

Additional services for all issues for 2019

Services benefits

1500 RUB / 15.0 SU

References

1. https://siliconangle.com/2015/10/30/ibm-is-at-the-forefront-of-insight-economy-ibminsight/

2. https://www.gartner.com/smarterwithgartner/how-to-tackle-dark-data/

3. https://www.technologyreview.com/s/613606/the-ai-gig-economy-is-coming-for-you/?utm_campaign=site_visitor.unpaid.engagement&utm_source=facebook&utm_medium=social_share&utm_content=2019-06-29&fbclid=IwAR0qn9U6YZBG8AaCKFTHRnhqaaRLQBGnr4fiTsXSA4ucSPNHXJeWoYDuWH8

4. General'nyj sekretar' OON. «Mezhdunarodnaya migratsiya i razvitie» // Sem'desyat pervaya sessiya Punkt 21(b) pervonachal'nogo perechnya, «Globalizatsiya i vzaimozavisimost'», 2016

5. Kuchuganov V.N. Ehlementy teorii assotsiativnoj semantiki // Upravlenie bol'shimi sistemami. Vypusk 40. M.: IPU RAN, 2012, S.30-48.

6. Lemov A.V. Sistema, struktura i funktsionirovanie nauchnogo termina (na materiale russkoi? lingvisticheskoi? terminologii) // Saransk: Izd-vo Mordov. un-ta, 2000, 192 s.

7. Lotman Yu.M. Lyudi i znaki. // V kn. Lotman Yu. M. Semiosfera. SPb.: Iskusstvo-SPB, 2010, S. 6.

8. Mitina O.V., Evdokimenko A.S. Metody analiza teksta: metodologicheskie osnovaniya i programmnaya realizatsiya // Vestnik Yuzhno-Ural'skogo gosudarstvennogo universiteta. Seriya Psikhologiya. 2010, № 40 (216), S. 29–38.

9. Osipov G.S. Priobretenie znanii intellektual'nymi sistemami: Osnovy teorii i tekhnologii. // M.: Nauka. Fizmatlit, 1997.

10. Ofitsial'nyj blog Google https://blog.google/products/translate/higher-quality-neural-translations-bunch-more-languages/

11. Tyon van Dejk. Yazyk. Poznanie. Kommunikatsiya. // M: LENAND, 2015.

Comments

No posts found

Write a review

Translate

ISSN 2079-8784

Founder

State Academic University for the Humanities
119049, Moscow, Maronovsky st., 26<

gaugn.ru

Founder / Publisher

Central Economics and Mathematics Institute RAS
117418, Moscow, Nachimovky prospect 47

cemi.rssi.ru


1	Практически все существующие на сегодняшний день определения интеллектуальных агентов подразумевают наличие базы знаний и достоверных фактов, необходимой как для первичного обучения интеллектуального агента, так и для его дальнейшего функционирования. Несмотря на лавинообразный рост данных, подготовка качественных обучающих выборок, необходимых для задания релевантной картины мира интеллектуальному агенту является все более возрастающей проблемой. Ввиду того, что большинство наиболее ценной информации представлено, прежде всего, в текстовой или аудио (с последующим распознаванием и переводом в текстовую) форме, проблема извлечения знаний становится особо острой.	Практически все существующие на сегодняшний день определения интеллектуальных агентов подразумевают наличие базы знаний и достоверных фактов, необходимой как для первичного обучения интеллектуального агента, так и для его дальнейшего функционирования. Несмотря на лавинообразный рост данных, подготовка качественных обучающих выборок, необходимых для задания релевантной картины мира интеллектуальному агенту является все более возрастающей проблемой. Ввиду того, что большинство наиболее ценной информации представлено, прежде всего, в текстовой или аудио (с последующим распознаванием и переводом в текстовую) форме, проблема извлечения знаний становится особо острой. Практически все существующие на сегодняшний день определения интеллектуальных агентов подразумевают наличие базы знаний и достоверных фактов, необходимой как для первичного обучения интеллектуального агента, так и для его дальнейшего функционирования. Несмотря на лавинообразный рост данных, подготовка качественных обучающих выборок, необходимых для задания релевантной картины мира интеллектуальному агенту является все более возрастающей проблемой. Ввиду того, что большинство наиболее ценной информации представлено, прежде всего, в текстовой или аудио (с последующим распознаванием и переводом в текстовую) форме, проблема извлечения знаний становится особо острой.

2	По утверждению ряда источников, таких как IBM [2], Gatner [3] и других доля «темных», то есть неструктурированных и неразмеченных данных достигает 60 и более процентов. Одним из основных подходов и связанных с этим проблем является привлечение большого количества низкоквалифицированных операторов, необходимых для разметки или извлечения данных. Но такой подход имеет ряд недостатков как с экономической и социальной, так и с технической точки зрения [1]. И не обеспечивает высокой надежности ввиду таких факторов, как ограниченность знаний операторов, человеческого фактора, связанного с возникновением ошибок и ряда других. Процент ошибок может достигать от 10 и выше процентов (данные получены путем статистического анализа как отечественных, так и зарубежных клиентских данных поступающих на обработку с использованием сервисов IQDQ.RU). Таким образом, без решения вопросов, связанных с решением задачи автоматизации процессов извлечения и очистки (проверки релевантности и стандартизации) данных говорить об использовании BigData не приходится, за исключением довольно ограниченных предметных областей и задач.	<p>По утверждению ряда источников, таких как IBM [2], Gatner [3] и других доля «темных», то есть неструктурированных и неразмеченных данных достигает 60 и более процентов. Одним из основных подходов и связанных с этим проблем является привлечение большого количества низкоквалифицированных операторов, необходимых для разметки или извлечения данных. Но такой подход имеет ряд недостатков как с экономической и социальной, так и с технической точки зрения [1]. И не обеспечивает высокой надежности ввиду таких факторов, как ограниченность знаний операторов, человеческого фактора, связанного с возникновением ошибок и ряда других. Процент ошибок может достигать от 10 и выше процентов (данные получены путем статистического анализа как отечественных, так и зарубежных клиентских данных поступающих на обработку с использованием сервисов IQDQ.RU). Таким образом, без решения вопросов, связанных с решением задачи автоматизации процессов извлечения и очистки (проверки релевантности и стандартизации) данных говорить об использовании BigData не приходится, за исключением довольно ограниченных предметных областей и задач.</p> <p>По утверждению ряда источников, таких как IBM [2], Gatner [3] и других доля «темных», то есть неструктурированных и неразмеченных данных достигает 60 и более процентов. Одним из основных подходов и связанных с этим проблем является привлечение большого количества низкоквалифицированных операторов, необходимых для разметки или извлечения данных. Но такой подход имеет ряд недостатков как с экономической и социальной, так и с технической точки зрения [1]. И не обеспечивает высокой надежности ввиду таких факторов, как ограниченность знаний операторов, человеческого фактора, связанного с возникновением ошибок и ряда других. Процент ошибок может достигать от 10 и выше процентов (данные получены путем статистического анализа как отечественных, так и зарубежных клиентских данных поступающих на обработку с использованием сервисов IQDQ.RU). Таким образом, без решения вопросов, связанных с решением задачи автоматизации процессов извлечения и очистки (проверки релевантности и стандартизации) данных говорить об использовании BigData не приходится, за исключением довольно ограниченных предметных областей и задач.</p>

3	Анализ текста представляет собой процесс поиска и интерпретации лексических единиц, с целью извлечения знаний, например, именованных сущностей. Основными вариантами анализа можно считать или перевод текста на метаязык лингвистических единиц или поиск соответствия его некой теоретической модели [4]. К основным проблемам, с которыми приходится сталкиваться в ходе решения задач по извлечению данных из разного рода текстов, можно отнести следующие:	Анализ текста представляет собой процесс поиска и интерпретации лексических единиц, с целью извлечения знаний, например, именованных сущностей. Основными вариантами анализа можно считать или перевод текста на метаязык лингвистических единиц или поиск соответствия его некой теоретической модели [4]. К основным проблемам, с которыми приходится сталкиваться в ходе решения задач по извлечению данных из разного рода текстов, можно отнести следующие: Анализ текста представляет собой процесс поиска и интерпретации лексических единиц, с целью извлечения знаний, например, именованных сущностей. Основными вариантами анализа можно считать или перевод текста на метаязык лингвистических единиц или поиск соответствия его некой теоретической модели [4]. К основным проблемам, с которыми приходится сталкиваться в ходе решения задач по извлечению данных из разного рода текстов, можно отнести следующие:

4	Миграционные потоки. По данным ООН общий рост миграционных потоков с 2000 по 2015 год вырос на 41 процент и составил в 2015 году 244 миллиона человек [4]. В результате имеем такие проблемы, как большое различие трактовок одних и тех же лексических единиц, различный характер грамматических ошибок, связанных с различием культур, уровнем общей грамотности и знанием грамматики языка, на котором приходится писать. Различие в фонемных рядах разных языков. Ввиду того, что не представляется возможным определить истинную национальность пишущего и его родной язык, становится невозможным предсказывать опечатки, а значит, невозможно создать «полную» базу вариантов написаний. «Гаджетизация». На сегодняшний день смартфоны и планшеты являются одними из основных инструментов генерации текстов. В результате развитой системы подсказок и исправлений текстов возникает новый класс ошибок: появляются «выпадающие» из контекста слова. Синонимия и полисемия понятий. Ярким примером данной проблемы является портал «Государственных услуг». Одной из проблем является тот факт, что наименования одних и тех же, по сути, услуг даются совершенно различными способами, имеется одновременно как сильная синонимия, так и полисемия понятий. Превалирующее влияние английского языка и возникновение его упрощенного и усредненного варианта, что приводит к появлению большого количества заимствованных и искаженных как в написании, так и с точки зрения смысла лингвистических единиц в большинстве языков.	<ol> <li>Миграционные потоки. По данным ООН общий рост миграционных потоков с 2000 по 2015 год вырос на 41 процент и составил в 2015 году 244 миллиона человек [4]. В результате имеем такие проблемы, как большое различие трактовок одних и тех же лексических единиц, различный характер грамматических ошибок, связанных с различием культур, уровнем общей грамотности и знанием грамматики языка, на котором приходится писать.</li> <li>Различие в фонемных рядах разных языков. Ввиду того, что не представляется возможным определить истинную национальность пишущего и его родной язык, становится невозможным предсказывать опечатки, а значит, невозможно создать «полную» базу вариантов написаний.</li> <li>«Гаджетизация». На сегодняшний день смартфоны и планшеты являются одними из основных инструментов генерации текстов. В результате развитой системы подсказок и исправлений текстов возникает новый класс ошибок: появляются «выпадающие» из контекста слова.</li> <li>Синонимия и полисемия понятий. Ярким примером данной проблемы является портал «Государственных услуг». Одной из проблем является тот факт, что наименования одних и тех же, по сути, услуг даются совершенно различными способами, имеется одновременно как сильная синонимия, так и полисемия понятий.</li> <li>Превалирующее влияние английского языка и возникновение его упрощенного и усредненного варианта, что приводит к появлению большого количества заимствованных и искаженных как в написании, так и с точки зрения смысла лингвистических единиц в большинстве языков.</li> </ol> <ol> <li>Миграционные потоки. По данным ООН общий рост миграционных потоков с 2000 по 2015 год вырос на 41 процент и составил в 2015 году 244 миллиона человек [4]. В результате имеем такие проблемы, как большое различие трактовок одних и тех же лексических единиц, различный характер грамматических ошибок, связанных с различием культур, уровнем общей грамотности и знанием грамматики языка, на котором приходится писать.</li> <li>Различие в фонемных рядах разных языков. Ввиду того, что не представляется возможным определить истинную национальность пишущего и его родной язык, становится невозможным предсказывать опечатки, а значит, невозможно создать «полную» базу вариантов написаний.</li> <li>«Гаджетизация». На сегодняшний день смартфоны и планшеты являются одними из основных инструментов генерации текстов. В результате развитой системы подсказок и исправлений текстов возникает новый класс ошибок: появляются «выпадающие» из контекста слова.</li> <li>Синонимия и полисемия понятий. Ярким примером данной проблемы является портал «Государственных услуг». Одной из проблем является тот факт, что наименования одних и тех же, по сути, услуг даются совершенно различными способами, имеется одновременно как сильная синонимия, так и полисемия понятий.</li> <li>Превалирующее влияние английского языка и возникновение его упрощенного и усредненного варианта, что приводит к появлению большого количества заимствованных и искаженных как в написании, так и с точки зрения смысла лингвистических единиц в большинстве языков.</li> </ol>

5	В качестве примера приведем следующую фразу: «Московский водопроводный кОнал находЕтся по адресу МАсква УЛИЙ (авто-подстановка вместо «УЛ») Земляной Вал. Обращаться с жалобами, за исключением вопросов, связанных с подключением в окно №3». В данной фразе наличествует одновременно несколько «сущностей» таких как адрес, наименование организации, подразделения, а также указано свойство присутствия данной организации-объекта по указанному объекту-адресу. Кроме того, указана цель публикации и дан список целей и исключений. Анализ подобных текстов (различного рода массивы объявлений, клиентские базы данных и т.п.) является довольно распространенной практической задачей.	В качестве примера приведем следующую фразу: «Московский водопроводный кОнал находЕтся по адресу МАсква УЛИЙ (авто-подстановка вместо «УЛ») Земляной Вал. Обращаться с жалобами, за исключением вопросов, связанных с подключением в окно №3». В данной фразе наличествует одновременно несколько «сущностей» таких как адрес, наименование организации, подразделения, а также указано свойство присутствия данной организации-объекта по указанному объекту-адресу. Кроме того, указана цель публикации и дан список целей и исключений. Анализ подобных текстов (различного рода массивы объявлений, клиентские базы данных и т.п.) является довольно распространенной практической задачей. В качестве примера приведем следующую фразу: «Московский водопроводный кОнал находЕтся по адресу МАсква УЛИЙ (авто-подстановка вместо «УЛ») Земляной Вал. Обращаться с жалобами, за исключением вопросов, связанных с подключением в окно №3». В данной фразе наличествует одновременно несколько «сущностей» таких как адрес, наименование организации, подразделения, а также указано свойство присутствия данной организации-объекта по указанному объекту-адресу. Кроме того, указана цель публикации и дан список целей и исключений. Анализ подобных текстов (различного рода массивы объявлений, клиентские базы данных и т.п.) является довольно распространенной практической задачей.

6	В общем виде можно выделить два основных класса технологических подходов анализа текстов: статистический и лингвистический. К первому подходу относятся технологии, основанные на статистическом анализе какой-либо базы фактов и попытка его применения для анализа новых ситуаций. К этому типу следует отнести технологии «обучения» системы путем создания баз статистически значимых вариантов и суперпозиций написания одних и тех же «сущностей» в различных текстах. Вариациями являются различные частотные алгоритмы, такие как латентно-семантический анализ, нейронные сети и так далее. 90% всех публикаций о примерах конкретных реализаций различными группами разработчиков (как отечественных, так и зарубежных) программного обеспечения относятся именно к этому технологическому подходу.	В общем виде можно выделить два основных класса технологических подходов анализа текстов: статистический и лингвистический. К первому подходу относятся технологии, основанные на статистическом анализе какой-либо базы фактов и попытка его применения для анализа новых ситуаций. К этому типу следует отнести технологии «обучения» системы путем создания баз статистически значимых вариантов и суперпозиций написания одних и тех же «сущностей» в различных текстах. Вариациями являются различные частотные алгоритмы, такие как латентно-семантический анализ, нейронные сети и так далее. 90% всех публикаций о примерах конкретных реализаций различными группами разработчиков (как отечественных, так и зарубежных) программного обеспечения относятся именно к этому технологическому подходу. В общем виде можно выделить два основных класса технологических подходов анализа текстов: статистический и лингвистический. К первому подходу относятся технологии, основанные на статистическом анализе какой-либо базы фактов и попытка его применения для анализа новых ситуаций. К этому типу следует отнести технологии «обучения» системы путем создания баз статистически значимых вариантов и суперпозиций написания одних и тех же «сущностей» в различных текстах. Вариациями являются различные частотные алгоритмы, такие как латентно-семантический анализ, нейронные сети и так далее. 90% всех публикаций о примерах конкретных реализаций различными группами разработчиков (как отечественных, так и зарубежных) программного обеспечения относятся именно к этому технологическому подходу.

7	Ко второму подходу относятся технологии развития аналитических возможностей машины за счет развития алгоритмов выстраивания логических связей без предварительного «обучения» на примерах. К данному типу относятся такие технологии как SVM-анализ, «перенос-свертка», построение грамматик.	Ко второму подходу относятся технологии развития аналитических возможностей машины за счет развития алгоритмов выстраивания логических связей без предварительного «обучения» на примерах. К данному типу относятся такие технологии как SVM-анализ, «перенос-свертка», построение грамматик. Ко второму подходу относятся технологии развития аналитических возможностей машины за счет развития алгоритмов выстраивания логических связей без предварительного «обучения» на примерах. К данному типу относятся такие технологии как SVM-анализ, «перенос-свертка», построение грамматик.

8	К сожалению, несмотря на наличие большого количества фундаментальных исследований, посвященных анализу текстов, современные исследователи и практики сталкиваются с рядом трудностей, главным образом связанных с недостаточным вниманием, в частности, к развитию семиотики как теории знаковых систем [9]. Большая часть исследований, которые создавались не позднее 60-х годов 20-го века, носили умозрительный характер и были связаны с изучением мышления как такового. Сегодня в рамках задач анализа текстов необходимо решать проблему различия в ассоциативных рядах представителей разных культур, учитывать устойчивые выражения, эмоциональные оттенки речи, недостаточность знания автором языка, на котором пишется та или иная работа и так далее.	<p>К сожалению, несмотря на наличие большого количества фундаментальных исследований, посвященных анализу текстов, современные исследователи и практики сталкиваются с рядом трудностей, главным образом связанных с недостаточным вниманием, в частности, к развитию семиотики как теории знаковых систем [9]. Большая часть исследований, которые создавались не позднее 60-х годов 20-го века, носили умозрительный характер и были связаны с изучением мышления как такового. Сегодня в рамках задач анализа текстов необходимо решать проблему различия в ассоциативных рядах представителей разных культур, учитывать устойчивые выражения, эмоциональные оттенки речи, недостаточность знания автором языка, на котором пишется та или иная работа и так далее.</p> <p>К сожалению, несмотря на наличие большого количества фундаментальных исследований, посвященных анализу текстов, современные исследователи и практики сталкиваются с рядом трудностей, главным образом связанных с недостаточным вниманием, в частности, к развитию семиотики как теории знаковых систем [9]. Большая часть исследований, которые создавались не позднее 60-х годов 20-го века, носили умозрительный характер и были связаны с изучением мышления как такового. Сегодня в рамках задач анализа текстов необходимо решать проблему различия в ассоциативных рядах представителей разных культур, учитывать устойчивые выражения, эмоциональные оттенки речи, недостаточность знания автором языка, на котором пишется та или иная работа и так далее.</p>

9	На сегодняшний день, в рамках решения задач связанных с анализом текстов необходимо разрешить проблему различия в ассоциативных рядах разных культур, учесть устойчивые выражения, эмоциональные оттенки. Прежде чем мы перейдём к краткому сравнению технологических подходов, полагаем необходимым сделать несколько принципиальных замечаний:	На сегодняшний день, в рамках решения задач связанных с анализом текстов необходимо разрешить проблему различия в ассоциативных рядах разных культур, учесть устойчивые выражения, эмоциональные оттенки. Прежде чем мы перейдём к краткому сравнению технологических подходов, полагаем необходимым сделать несколько принципиальных замечаний: На сегодняшний день, в рамках решения задач связанных с анализом текстов необходимо разрешить проблему различия в ассоциативных рядах разных культур, учесть устойчивые выражения, эмоциональные оттенки. Прежде чем мы перейдём к краткому сравнению технологических подходов, полагаем необходимым сделать несколько принципиальных замечаний:

10	Сравнение носит чисто прикладной характер, и имеет направленность, не связанную с задачами перевода. Анализ производится для решения задач извлечения и поиска данных. В статье представлено сравнение самого принципа и возможностей тех или иных технологических подходов.	<ol> <li>Сравнение носит чисто прикладной характер, и имеет направленность, не связанную с задачами перевода. Анализ производится для решения задач извлечения и поиска данных.</li> <li>В статье представлено сравнение самого принципа и возможностей тех или иных технологических подходов.</li></ol> <ol> <li>Сравнение носит чисто прикладной характер, и имеет направленность, не связанную с задачами перевода. Анализ производится для решения задач извлечения и поиска данных.</li> <li>В статье представлено сравнение самого принципа и возможностей тех или иных технологических подходов.</li></ol>

11	Статистические методы	<strong>Статистические методы</strong> <strong>Статистические методы</strong>

12	Основная масса алгоритмов базируется на предварительно размеченных онтологиях, обогащенных алгоритмами нечеткого сравнения и вариантами написаний, такими как сокращения, типовые опечатки и т.д. Другими словами, анализ производится путем сопоставления текста с теоретической моделью. В качестве модели чаще всего используются разного рода онтологии, наиболее типичными из них являются эталонные справочники. Основными родовыми чертами данного класса методов являются:	Основная масса алгоритмов базируется на предварительно размеченных онтологиях, обогащенных алгоритмами нечеткого сравнения и вариантами написаний, такими как сокращения, типовые опечатки и т.д. Другими словами, анализ производится путем сопоставления текста с теоретической моделью. В качестве модели чаще всего используются разного рода онтологии, наиболее типичными из них являются эталонные справочники. Основными родовыми чертами данного класса методов являются: Основная масса алгоритмов базируется на предварительно размеченных онтологиях, обогащенных алгоритмами нечеткого сравнения и вариантами написаний, такими как сокращения, типовые опечатки и т.д. Другими словами, анализ производится путем сопоставления текста с теоретической моделью. В качестве модели чаще всего используются разного рода онтологии, наиболее типичными из них являются эталонные справочники. Основными родовыми чертами данного класса методов являются:

13	Широкое использование алгоритмов полнотекстового поиска. Использование разного рода n-грамм. Хеширование данных. Норма вариантов написания одной и той же сущности составляет в среднем от 10 до 50. В качестве примера можно привести решения в области очистки адресных данных, где один из наиболее часто используемых сервисов указывает, что его «обучающая выборка» состоит из 50 миллионов вариантов при размере эталонной базы 1,2 миллиона вариантов. Анализ производится путем прямого сравнения подстрок на полное соответствие с эталоном. Требуется отдельная процедура верификации результатов для принятия окончательного решения.	<ol> <li>Широкое использование алгоритмов полнотекстового поиска.</li> <li>Использование разного рода n-грамм.</li> <li>Хеширование данных.</li> <li>Норма вариантов написания одной и той же сущности составляет в среднем от 10 до 50. В качестве примера можно привести решения в области очистки адресных данных, где один из наиболее часто используемых сервисов указывает, что его «обучающая выборка» состоит из 50 миллионов вариантов при размере эталонной базы 1,2 миллиона вариантов.</li> <li>Анализ производится путем прямого сравнения подстрок на полное соответствие с эталоном. </li> <li>Требуется отдельная процедура верификации результатов для принятия окончательного решения.</li></ol> <ol> <li>Широкое использование алгоритмов полнотекстового поиска.</li> <li>Использование разного рода n-грамм.</li> <li>Хеширование данных.</li> <li>Норма вариантов написания одной и той же сущности составляет в среднем от 10 до 50. В качестве примера можно привести решения в области очистки адресных данных, где один из наиболее часто используемых сервисов указывает, что его «обучающая выборка» состоит из 50 миллионов вариантов при размере эталонной базы 1,2 миллиона вариантов.</li> <li>Анализ производится путем прямого сравнения подстрок на полное соответствие с эталоном. </li> <li>Требуется отдельная процедура верификации результатов для принятия окончательного решения.</li></ol>

14	Преимуществами данного метода являются:	Преимуществами данного метода являются: Преимуществами данного метода являются:

15	Относительная простота реализации. Высокая скорость перебора вариантов.	<ul class="docx-publication-list"> <li>Относительная простота реализации.</li> <li>Высокая скорость перебора вариантов.</li></ul> <ul class="docx-publication-list"> <li>Относительная простота реализации.</li> <li>Высокая скорость перебора вариантов.</li></ul>

16	К недостаткам метода можно отнести следующее:	К недостаткам метода можно отнести следующее: К недостаткам метода можно отнести следующее:

17	Лавинообразный рост размера базы из-за необходимости хранения вариантов написаний отдельных сущностей. Сложность контроля непротиворечивости соответствия тому или иному варианту написания конкретному элементу эталонного справочника, что приводит к росту вероятности появления полисемии и синонимии вариантов написаний лексических единиц. Невозможность или сильная ограниченность анализа частичных совпадений и учета морфологии. Высокая стоимость первоначального создания алгоритмов, из-за необходимости накопления базы вариантов написаний. Это отражается, например, в сложности подключения новых стран при разборе адресов, поскольку для каждой страны необходимо создавать свою базу вариантов написаний. Невозможность применения эвристических подходов для анализа ситуаций за рамками известных вариантов.	<ul class="docx-publication-list"> <li>Лавинообразный рост размера базы из-за необходимости хранения вариантов написаний отдельных сущностей.</li> <li>Сложность контроля непротиворечивости соответствия тому или иному варианту написания конкретному элементу эталонного справочника, что приводит к росту вероятности появления полисемии и синонимии вариантов написаний лексических единиц.</li> <li>Невозможность или сильная ограниченность анализа частичных совпадений и учета морфологии.</li> <li>Высокая стоимость первоначального создания алгоритмов, из-за необходимости накопления базы вариантов написаний. Это отражается, например, в сложности подключения новых стран при разборе адресов, поскольку для каждой страны необходимо создавать свою базу вариантов написаний. </li> <li>Невозможность применения эвристических подходов для анализа ситуаций за рамками известных вариантов.</li></ul> <ul class="docx-publication-list"> <li>Лавинообразный рост размера базы из-за необходимости хранения вариантов написаний отдельных сущностей.</li> <li>Сложность контроля непротиворечивости соответствия тому или иному варианту написания конкретному элементу эталонного справочника, что приводит к росту вероятности появления полисемии и синонимии вариантов написаний лексических единиц.</li> <li>Невозможность или сильная ограниченность анализа частичных совпадений и учета морфологии.</li> <li>Высокая стоимость первоначального создания алгоритмов, из-за необходимости накопления базы вариантов написаний. Это отражается, например, в сложности подключения новых стран при разборе адресов, поскольку для каждой страны необходимо создавать свою базу вариантов написаний. </li> <li>Невозможность применения эвристических подходов для анализа ситуаций за рамками известных вариантов.</li></ul>

18	Лингвистические методы	<strong>Лингвистические</strong><strong> методы</strong> <strong>Лингвистические</strong><strong> методы</strong>

19	Если не брать во внимание специфические задачи, такие как анализ эмоциональной окрашенности, фонетический анализ и так далее, то можно сделать утверждение о том, что данного рода алгоритмы опираются прежде всего на синтаксический, семантический и прагматический виды анализа. Анализ производится как за счет сопоставления с теоретическими моделями, так и путем перевода на метаязык лингвистических единиц. Синтаксический анализ линейной последовательности слов с целью построения дерева зависимостей. Цель – анализ структуры предложения и отношения его компонентов. Основой анализа являются разного рода грамматики.	Если не брать во внимание специфические задачи, такие как анализ эмоциональной окрашенности, фонетический анализ и так далее, то можно сделать утверждение о том, что данного рода алгоритмы опираются прежде всего на синтаксический, семантический и прагматический виды анализа. Анализ производится как за счет сопоставления с теоретическими моделями, так и путем перевода на метаязык лингвистических единиц. Синтаксический анализ линейной последовательности слов с целью построения дерева зависимостей. Цель – анализ структуры предложения и отношения его компонентов. Основой анализа являются разного рода грамматики. Если не брать во внимание специфические задачи, такие как анализ эмоциональной окрашенности, фонетический анализ и так далее, то можно сделать утверждение о том, что данного рода алгоритмы опираются прежде всего на синтаксический, семантический и прагматический виды анализа. Анализ производится как за счет сопоставления с теоретическими моделями, так и путем перевода на метаязык лингвистических единиц. Синтаксический анализ линейной последовательности слов с целью построения дерева зависимостей. Цель – анализ структуры предложения и отношения его компонентов. Основой анализа являются разного рода грамматики.

20	Семантический анализ зависимости слова или фразы от общего контекста. Разрешение проблем полисемии, синонимии и т.д. Основой являются разного рода языковые корпуса, созданные в рамках целей корпусной лингвистики. Отдельно следует упомянуть исследования в области ассоциативной семантики, такие как теория неоднородных семантических сетей [7]. Основой являются лексические единицы, объединяемые по значениям (семантический принцип) или по выполняемым функциям (функциональный принцип). Методология ассоциативной семантики служит для сокращения семантической многозначности путем формирования семантической модели, позволяющей восстановить общий смысл текста в условиях многозначности его фрагментов, вычислить и оценить степень ее адекватности той цели, с которой̆ текст написан [5].	<p>Семантический анализ зависимости слова или фразы от общего контекста. Разрешение проблем полисемии, синонимии и т.д. Основой являются разного рода языковые корпуса, созданные в рамках целей корпусной лингвистики. Отдельно следует упомянуть исследования в области ассоциативной семантики, такие как теория неоднородных семантических сетей [7]. Основой являются лексические единицы, объединяемые по значениям (семантический принцип) или по выполняемым функциям (функциональный принцип). Методология ассоциативной семантики служит для сокращения семантической многозначности путем формирования семантической модели, позволяющей восстановить общий смысл текста в условиях многозначности его фрагментов, вычислить и оценить степень ее адекватности той цели, с которой̆ текст написан [5].</p> <p>Семантический анализ зависимости слова или фразы от общего контекста. Разрешение проблем полисемии, синонимии и т.д. Основой являются разного рода языковые корпуса, созданные в рамках целей корпусной лингвистики. Отдельно следует упомянуть исследования в области ассоциативной семантики, такие как теория неоднородных семантических сетей [7]. Основой являются лексические единицы, объединяемые по значениям (семантический принцип) или по выполняемым функциям (функциональный принцип). Методология ассоциативной семантики служит для сокращения семантической многозначности путем формирования семантической модели, позволяющей восстановить общий смысл текста в условиях многозначности его фрагментов, вычислить и оценить степень ее адекватности той цели, с которой̆ текст написан [5].</p>

References

Comments

Via social network