Ontology of Big Data Information Systems for Assessing the Scientific Level of Development of the Regions of the Russian Federation
Table of contents
Share
QR
Metrics
Ontology of Big Data Information Systems for Assessing the Scientific Level of Development of the Regions of the Russian Federation
Annotation
PII
S207751800010914-4-1
Publication type
Article
Статус публикации
Published
Authors
Munavir Zakirov 
Affiliation: Institute of Management, Economics and Innovation
Address: Russian Federation, Moscow
Abstract

The article is devoted to the problems of creating systems for assessing the level of scientific research and development projects for the regions of the Russian Federation based on new information platforms based on the ontology of large structured data and unstructured text documents.

Keywords
big data ontology, structured text documents, unstructured text documents, agent-based models, cognitive models, conceptual models, simulation models
Received
14.07.2020
Date of publication
05.09.2020
Number of purchasers
25
Views
1464
Readers community rating
0.0 (0 votes)
Cite Download pdf
Additional services access
Additional services for the article
Additional services for all issues for 2020
1 Современный этап развития Российской Федерации зависит от огромного количества взаимозависимых факторов. К настоящему времени созданы обширные базы данных по реализации различных технологий в регионах Российской Федерации. Наиболее существенным фактором является выбор перспективных технологий в промышленных и непромышленных отраслях регионов. Как показывает анализ, развитие каждой отрасли в настоящее время влияет на развитие других отраслей. Выросла также межрегиональная зависимость из-за интеграционных социально-экономических процессов в стране, что привело к лавинообразному росту обрабатываемой информации. Нужно было создать новую платформу, обеспечивающую информационную поддержку развития промышленных и непромышленных отраслей всех регионов Российской Федерации. Данная платформа должна обеспечивать оценку научного уровня промышленных и непромышленных отраслей с учетом структурных факторов их предметных областей и поиск инновационного развития той отрасли, которая обеспечит ускоренное развитие региона.
2 Решение этих задач нашло отражение в проекте «Информационная система оценки научно-технологического уровня и определения перспективных научных исследований в регионах Российской Федерации» («ИСНТУ РФ 2020»). Основной целью проекта является создание системы, предназначенной для информационной поддержки социально-экономических реформ, проводимых в нашей стране. В связи с этим потребовалась оценка научно-технологического уровня промышленных и непромышленных отраслей Российской Федерации (ИСНТУ РФ) на основе новой информационной платформы. Информационная платформа должна была осуществлять поиск и анализ больших структурированных данных и неструктурированных текстовых документов для выявления наиболее переспективных научно-технических направлений развития промышленных и непромышленных отраслей РФ, и проведение научных исследований на базе концептуальных, информационных программно-предметных, когнитивно- симуляционных моделей с элементами активного искусственного интеллекта и повышения научного и интеллектуального уровня региональных научных исследований. Потребовалось создание такой информационной платформы, которая обеспечивала бы не только поиск и анализ больших данных, но и глубокое исследование всех факторов влияющих на достижение высоких социально-экономических результатов.
3 Поиск и анализ должен охватить все отрасли , так как только в единстве развития всех промышленных и непромышленных отраслей в настоящее время возможно успешное развитие экономики Российской Федерации. Данный проект также может быть ориентирован и на проведение научной экспертизы всех национальных проектов на базе единой цифровой платформы и глубокого анализа и учета факторов, влияющих на выбор эффективных решений в каждом регионе Российской Федерации .
4 Необходимо было также оценить влияние сектора науки и образования инновационно-активных предприятий на основные макроэкономические показатели Российской Федерации. Данная платформа объединяет большие структурированные данные и неструктурированные текстовые документы и обеспечивает онтологическую целостность их сущностей, что является концептуально важнейшим свойством больших данных [1]. Так при проведении научных исследований всеми видами моделирования промышленных и непромышленных отраслей контроль выполненния этого свойства должен осуществляться на всех этапах исследования на базе концептуальных, информационных программно-предметных, когнитивно- симуляционных и агент-ориентированных моделей с элементами активного искусственного интеллекта. Моделирование с элементами активного искусственного интеллекта применяется при проведении глубокого анализа влияния взаимодействия промышленных и непромышленных сущностей благодаря применению поиска и анализа больших текстовых документов.
5 Как показали исследования, из-за отсутствия полноты учета существенных факторов при проектировании промышленных и непромышленных отраслевых проектов и из-за отсутствия соответствующих механизмов проведения глубоких исследований, более 50% проектов терпят неудачу. Наиболее ценные сведения, необходимые для проектирования сложных проектов можно было бы найти в текстовых документах. Они до сих пор практически не используются и не доступны специалистам проектных и научно-исследовательских организаций. Вместе с тем в последнее время за рубежом и в нашей стране начали разрабатывать поиcковые интеллектуальные аналитические системы обработки неструктированных и структурированных текстовых документов, раскрывающих онтологические взаимозависимости факторов сущностей промышленных и непромышленных отраслей, влияющих на социально и экономический уровень развития регионов. Такая платформа объединяет результаты полученных знаний путем поиска и анализа больших текстовых документов и данных, полученных путем моделирования. В нашем проекте для этой цели выбрана отечественная мощная поисково-аналитическая система обработки больших текстовых документов TextAppliance[2].
6 При помощи TextAppliance можно автоматизировать широкий спектр бизнес-процессов и решить ряд задач, которые в настоящее время решаются с применением большого числа аналитиков и различных инструментов. TextAppliance разработан для сегментов B2B/B2G и предназначен для клиентов, обладающих или имеющих доступ к большим массивам текстовых документов. TextAppliance интегрируется в инфраструктуру организации и предоставляет различные сервисы по работе с коллекциями заказчика. TextAppliance имеет демонстрационный веб-интерфейс и API. Программные обращения к TextAppliance осуществляются по протоколу JSON/XML-RPC. TextAppliance поддерживает все распространенные форматы электронных документов, содержит средства распознавания PDF без текстового слоя, работает с документами на русском и английском языках, а также документами, написанными сразу на двух языках.
7 На одном сервере TextApplianceможет быть проиндексировано до 2 млн. документов, при этом TextAppliance имеет возможность прозрачного масштабирования с 1 сервера до нескольких сотен или тысяч серверов. Основным конкурентным преимуществом TextAppliance является уникальный набор сервисов, который не имеет аналогов в мире. Не требуются установка и настройка многих приложений по распознаванию, поиску, анализу текстовых заимствований и ряда других сервисов – все это интегрировано в TextAppliance и работает на одной информационной базе.
8 Подробнее о функциональных возможностях TextAppliance и условиях его распространения можно узнать на сайте >>>> Демонстрационная версия TextAppliance доступна по адресу >>>> С ее помощью можно опробовать основные функции на тестовых коллекциях, в которые входят российские и зарубежные научные журналы, труды конференций, патенты и авторефераты диссертаций На следуюшем этапе исследований на основе концептуального, информационного, математического, имитационно-симуляционного, когнитивного и агент-ориентированного моделирования осуществляется поиск социально-экономически эффективных методов разития каждого региона [3].
9 К главным функциям TextAppliance относятся разные виды поиска (фасетный, поиск по текстовым и нетекстовым метаданным, семантический, вопросно-ответный, эксплоративный поиск, поиск по ключевым словам), реферирование, семантический поиск плагиата (с учётом парафраза), поиск похожих (в том числе на других языках), кластеризация текстов, анализ публикационной активности.
10 Задачу поиска и обработки текстовой информации решают многие системы. Ближайшим аналогом TextAppliance является Google Search Appliance [GSA, 2016]. TextAppliance выгодно отличается от GSA применением полного лингвистического анализа, в том числе семантического. Google Search Appliance и другие аналоги предназначены для решения отдельных задач поиска и анализа текстов, в то время как TextAppliance объединяет множество функций на одной платформе.
11 Существует также множество работ по применению лингвистического анализа для поиска и обработки текстовой информации. Например, применение синтаксического парсера в поисковой машине [Ohta et al., 2006], семантического анализа для вопросно-ответного поиска [Pizzato and Moll´a, 2008] и поиска плагиата [Osman et al., 2012]. Все известные работы представляют в основном исследовательские проекты, результаты которых получены на экспериментальных базах данных и не используются широко в промышленных системах, обрабатывающих большие массивы данных из разных областей. Поисково-аналитические системы (как Solr, Sphinx и др.), как правило, не используют синтаксическую и семантическую информацию.
12 Демо-интерфейс TextAppliance доступен по адресу >>>> . Он уже сегодня доступен многим исследователям. Процесс обработки текста в рамках TextAppliance включает морфологический анализ, распознавание именованных сущностей, синтаксический и семантический анализ. Для обработки текста на английском языке используются компоненты, находящиеся в свободном доступе, а для русского – оригинальные, разработанные авторами [Shelmanov and Smirnov, 2014]. Лежащая в основе модель реляционно-ситуационного анализа [Osipov et al., 2010; Osipov et al., 2013] оперирует синтаксемами (минимальными синтактико-семантическими единицами) и бинарными отношениями на них. Таким образом, текст представляется в виде неоднородной семантической сети. Особенностью алгоритмов, применяемых в TextAppliance для поиска текстов, является нечёткое сравнение таких семантических сетей.
13 Оригинальный алгоритм обеспечивает быстрое сравнение синтактико-семантических структур текстов для оценки их семантической близости. Для эффективной работы используются специальные индексные структуры данных, обладающие практически такой же эффективностью, что и простые обратные лексические индексы, но при этом хранящие синтаксическую и семантическую информацию. Кроме лингвистической информации, у словоупотреблений в индексе могут быть установлены любые другие признаки. Например, помечаются слова, указывающие на разделы в тексте, на определения терминов и др. За такой структурный анализ отвечает отдельный сервис. Это дает дополнительную информацию, полезную для решения практических задач. Другой особенностью используемых индексных структур является их универсальность: одни и те же индексы могут использоваться для разных целей, в том числе для информационного поиска, поиска похожих документов, поиска плагиата, кластеризации и др.
14

Стандартная архитектура поисково-аналитической системы на основе TextAppliance представлена на рисунке 1. Доступ к функциям возможен посредством API. Система на основе TextAppliance состоит из набора серверов, на которых запущены специальные сервисы. Минимальная конфигурация состоит из одного сервера с полноценным набором сервисов. TextAppliance реализует параллелизм на всех стадиях обработки информации и запросов. В распределенной среде на каждом узле может быть запущено несколько экземпляров модулей, обеспечивая тем самым параллелизм по данным, балансировку нагрузки и отказоустойчивость.

15

Рисунок 1. Архитектура поисково-аналитической системы на основе TextAppliance

16 Стандартный поток информации в системе, основанной на TextAppliance, близок к классическому потоку в поисковых системах. Документы-источники и их метаданные скачиваются и перерабатываются краулерами. Извлеченные тексты помещаются в хранилища (если владельцы документов не дают на это разрешение, то помещаются во временный кэш) и отправляются в очередь на индексацию. Процессор для обработки документов берет тексты из внутренней очереди и проводит их лингвистический анализ. Метаданные считаются частью документа и представляются таким же образом, как и разметка HTML-тегов. После лингвистического анализа документов, процессоры запускают извлечение информации, настроенное на определенный тип документов еще на стадии краулинга. Таким способом извлекаются ссылки и цитаты из научно-технической литературы. Эта информация хранится в индексе документа как дополнительная разметка, и в индексе метаданных как библиографическая запись. После анализа процессор по обработке документов отправляет индексы документов в программное обеспечение хранения (ПО хранения). ПО хранения содержит следующие типы индексов, обеспечивающие полный набор функций и сервисов TextAppliance:
17
  • Индексы метаданных это распределенное хранилище, которое обеспечивает функции анализа структурированной информации.
  • Инвертированный поисковый индекс представляет информацию о встречаемости слов в текстах. В пост-листе хранится не только базовая информация (TF-веса, позиция в тексте, формы слова, теги метаданных и др.), но также и синтаксические ссылки (в настоящий момент только для именных групп) и соответствующая семантическая информация (синтаксемы и отношения). Синтаксические связи хранятся в виде относительной позиции главного слова в именной конструкции. В процессе поиска по концептам эта информация используется для того, чтобы отфильтровать концепты и конструкции, имеющие такие же синтаксические связи, как и пользовательский запрос. Не все слова становятся аргументами после семантического анализа, таким образом, поля для хранения информации о синтаксемах и семантических отношениях чаще остаются пустыми. Поэтому были введены разные типы хранимых в пост-листе данных. Ячейки памяти для хранения разных типов данных имеют одинаковый объем, но разный набор полей. Последовательность таких ячеек информации (сгруппированных по типу) используется для представления информации об одном появлении слова в списке употреблений. Ячейки с семантической информацией находятся в конце последовательности и являются опциональными. Последовательность сгруппирована по стандартному порядку (по идентификатору документа, а затем по позиции в документе). Такая схема эффективна с точки зрения использования памяти и обеспечивает быстрый поиск соответствий.
  • Прямой индекс содержит информацию, необходимую для генерации поисковых сниппетов, представляющих собой короткую аннотацию по запросу с фрагментами текста-источника.
  • Инвертированный спектральный индекс – это классический инвертированный индекс, содержащий накопленную информацию о частоте терминов в документах. Термины (имеется в виду отдельное слово или именное словосочетание) – ключи этого индекса. Инвертированный спектральный индекс является основным компонентом в поиске тематически похожих документов для загружаемого пользователем текста. Этот тип поиска широко используется в ключевых функциях TextAppliance, таких как эксплоративный поиск, поиск плагиата (на стадии предварительного поиска источников) и кластеризация.
  • Прямой спектральный индекс представляет информацию о частоте терминов в заданном документе. Данные прямого спектрального индекса применяются для поиска тематически похожих документов внутри проиндексированных коллекций.
  • Прямой поисковый индекс используется при поиске плагиата для выравнивания текста. Он содержит такую же информацию, как и инвертированный поисковый индекс. Таким образом, идентификатор документа является ключевым для этого индекса. Для нескольких наиболее важных предложений проверяемого документа ищутся соответствия в наиболее тематически близких документах.
18 Все вышеописанные индексы (кроме индекса метаданных) – это важные базы данных, обеспечивающие быстрой поиск. Для эффективного пошагового обновления инвертированных индексов активно используется буферизация в памяти. Эти буферы и главные индексы также доступны для поиска во время индексирования.
19 Программно-аппаратный комплекс снабжен модулем сбора документов из сети Интернет, а также интерфейсами к десяткам популярных баз данных. Краулер скачивает документ и извлекает из него текст и метаданные (заголовок, авторов, DOI, год публикации и др.). Краулер поддерживает все стандартные форматы документов, включая HTML, PDF, PS, DOC, DOCX и картинки. Для картинок и некоторых PDF-документов, в которых нет текстового слоя, TextAppliance выполняет оптическое распознавание символов. Извлеченные тексты и метаданные направляются на индексацию.
20 TextAppliance обеспечивает поиск тематически похожих документов путем сравнения их ключевых слов и словосочетаний. Ключевые словосочетания – это пары синтаксически связанных слов, извлеченных из синтаксических деревьев, построенных парсером. Ключевые слова и словосочетания из документов хранятся в так называемом спектральном индексе, представляющем собой инвертированный индекс с мерой значимости слова в документах. Оценка сходства документов также учитывает частотное распределение лексических элементов в фоновой текстовой коллекции. Кроме того, в TextAppliance возможен поиск похожих документов на других языках, который отрабатывает по сходной процедуре.
21 Семантический поиск плагиата. Поиск плагиата заключается в поиске схожих фраз в анализируемом тексте и большой коллекции документов. В TextAppliance используется следующий метод: для анализируемого документа находится список наиболее тематически похожих документов. Далее более точными синтактико-семантическими методами измеряется сходство между предложениями из анализируемого текста и документов, найденных на предыдущем этапе. Сходство предложений определяется на основе сравнения двух неоднородных семантических сетей, представляющих синтаксическую и семантическую структуру документов. Применяемый метод дает высокое качество: на соревновании PAN CLEF 2014 он показал лучшее соотношение качества и скорости в задаче поиска источника плагиата и второй результат по F-мере [Denis Zubarev and Ilya Sochenkov, 2014].
22 TextAppliance может обрабатывать большие документы, такие как тексты диссертаций, размер которых достигает нескольких сотен страниц. Скорость системы на демонстрационных индексах превышает 1 миллион символов в минуту. Среднее время проверки документа – 20 секунд.
23 Семантический поиск. Семантический поиск использует всю лингвистическую информацию, хранящуюся в индексе: морфологические признаки слов, синтаксические и семантические отношения. Эта информация нужна для улучшения ранжирования документов. Во-первых, это помогает найти документы семантически близкие к запросам пользователя и выполнить простой вопросно-ответный поиск (для русского языка). Во-вторых, это позволяет создавать более сложные языки запросов. Например, используемый в демонстрационном интерфейсе язык запросов, помимо стандартных возможностей, поддерживает фразовый поиск. Это означает, что пользователь может искать синтаксически связанные фразы, вне зависимости от порядка слов и расстояния между словами. Фразовый поиск особенно эффективен для работы с языками, где порядок слов строго не фиксирован. Стоит также отметить, что метаданные и специальные пометки слов позволяют сузить область поиска.
24 Анализ научных текстов является очень важной функцией для нашей информационной системы оценки уровня научных исследований. Система автоматически определяет, соответствует ли документ формальным требованиям, предъявляемым к научным публикациям, содержит ли он формулировки целей и результатов исследования, список литературы, нет ли в нем нарушений семантической и синтаксической связности, ненаучной лексики и др. В основе метода проверки грамотности текста лежит автоматизированное построение правил, с помощью которых выявляются нарушения. Для оценки лексики применяется специальный словарь общенаучных словосочетаний, который позволяет автоматически отличить научный текст от научно-популярного и ненаучного [Швец А.В., 2015]. На основе такого анализа система ставит документу, загруженному пользователем, оценку по пятибалльной шкале (от «нейтральный» до «научный») и выводит отчет о содержании речевых дефектов в тексте документа и соответствии его формальным требованиям.
25 Рассмотрим другие важные функции, реализованные в системе –это функции тематического анализа и создание пользовательских коллекций. С помощью функции тематического анализа возможно исследовать публикационную активность в некоторой области за заданный промежуток времени. Тема определяется запросом. TextAppliance анализирует документы, соответствующие запросу, и строит диаграммы, отражающие статистику по каждому году из выбранного интервала. Эта функция помогает исследовать эволюцию тематик во времени и оценить перспективность каждого научного направления.
26 Результаты семантического поиска или поиска похожих документов могут быть сохранены в пользовательские коллекции. Коллекции можно кластеризовать и сравнивать между собой в режиме реального времени, а для отдельных документов просматривать похожие документы, краткую аннотацию и ключевые слова. При сравнении коллекций система выделяет их самые значимые ключевые слова и визуализирует в виде облака, какими ключевыми словами коллекции пересекаются, а какими отличаются друг от друга.
27 Функция кластеризации в режиме настоящего времени реализована на базе оригинального метода, основанного на выявлении центроидов с помощью функции поиска похожих документов. Функция обеспечивает навигацию пользователя по темам его коллекций. Система автоматически группирует документы по тематическому сходству и описывает каждый кластер облаком ключевых слов. Пользователь может регулировать строгость кластеризации коллекции ползунком, запускающим быструю перекластеризацию.
28 На сегодняшний день TextAppliance используется во многих научных и образовательных учреждениях для анализа документов, особенно в системах поддержки библиотечных систем [Osipov et al., 2012; Osipov et al., 2016]. На данный момент список клиентов насчитывает более 90 организаций, включая Российскую государственную библиотеку, Государственную публичную научно-техническую библиотеку, Министерство образования и науки РФ, Российский фонд фундаментальных исследований.
29 Демо-интерфейс TextAppliance доступен любому желающему и предназначен только для демонстрации перечисленных выше функций. Здесь пользователи могут загрузить в систему документ в одном из стандартных текстовых форматов и найти список похожих на разных языках, отранжированных по убыванию степени сходства с эталоном; а также получить отчет о содержании плагиата в загруженном тексте и список источников заимствований. Кроме того, демо-интерфейс позволяет автоматически сгенерировать реферат найденного документа, выделить ключевые слова, оценить соответствие загруженного документа формальным требованиям, предъявляемым к научным публикациям. Использование таких функциональных возможностей TextAppliance в информационной системе наделило новыми свойствами ИСНТУ РФ.
30 Самым важным свойством ИСНТУ РФ является то, что система предоставляет мощное средство анализа структурированных данных и неструктурированных текстовых документов для формирования объективных показателей, которые будут использованы научными и научно-образовательными, производственными и управленческими организациями и экспертами регионов при выявлении наиболее инновационных научно-технических заделов в научных, образовательных и производственных учреждениях региона.
31 В отличие от ныне существующих информационных систем оценки научно-технического уровня проектов, предложенная информационная система обеспечивает:
32
  • поиск и анализ зарубежных и отечественных научных исследований и проектов по заданной теме по всем промышленным и непромышленным отраслям и выбрать наиболее инновационный вариант проекта.
  • обработку огромного объема структурированных и неструктурированных текстовых отраслевых документов и создание базы знаний для использования всеми научно-образовательными, производственными, медицинскими, общественными, социально-экономическими, юридическими, управленческими и др. учреждениями региона.
33 Система реализует отечественный и мировой опыт поиска и обработки больших массивов данных, в том числе:
34
  1. Выявление направлений исследований на основе анализа полнотекстовых коллекций научно-технических документов.
  2. Выявление научных коллективов в соответствующих отраслях и оценки их научно-технического задела.
  3. Анализ графа связности научно-технических документов.
  4. Ознакомление с направлениями исследований отдельных ученых и коллективов.
  5. Определение связности научных коллективов региона.
  6. Определение связности региональных научных направлений.
  7. Определение уровня готовности промышленных и непромышленных отраслей к внедрению цифровых технологий.
  8. Определение уровня готовности руководства региона и отрасли к выполнению нормативно-правовых документов по внедрению инновационных проектов в промышленных и непромышленных отраслях региона.
  9. Выявление центров компетенции по научно-техническим направлениям.
  10. Оценка ресурсного потенциала по научно-техническим направлениям, в том числе в части руководства промышленными и непромышленными отраслями, а также научными и научно-образовательными учреждениями региона.
  11. Определение динамики правовой охраны интеллектуальной собственности по научным направлениям и коллективам, а также возможных конфликтов между участниками проекта при правовой охране, в том числе на зарубежных рынках.
  12. Определение меры ответственности всех участников инновационного развития региона.
  13. Проведение научных исследований на базе концептуальных, информаөионных, программно-предметных, когнитивно-симуляционных, имитационных и математических моделей с элементами активного искусственного интеллекта.
  14. Оценка выполнения национальных проектов во всех отраслях региона.
  15. Детально структура информационной систмы ИСНТУ РФ представлена в Проекте технического задания ИСНТУ РФ
35 Проект разработан с участием ведущих специалистов научных и научно-образовательных учреждений, основные компоненты программных блоков прошли регистрацию и постоянно совершенствуются с учетом развития научно образовательного и производственного потенциала Российской Федерации. Необходимо отметить, что проект обеспечивает создание базы знаний по управлению всеми отраслями Российской Федерации на базе единой информационно платформы и станет коллективным интеллектуальным системным инструментом поиска и выбора инновационного развития каждого региона и Российской Федерации в целом. Без использования такой интеллектуальной управленческой аналитической системы на современном этапе развития страны невозможно выбрать оптимальные проектные решения ни в одной отрасли и ни одном регионе. Такой подход обеспечит экономию не только больших финансовых и людских ресурсов, но и станет платформой внедрения цифровых технологий в каждой отрасли и откроет рабочие места специалистам по информационным технологиям. Самое важное то, что повсеместное внедрение этой технологии устранит десятилетиями устоявшееся информационное неравенство регионов в доступе к научным результатам отечественных и зарубежных ученых и показ своих достижений. Необходимо отметить, что нескончаемый отток молодых специалистов из регионов в центры научных учреждений и зарубежные организации объясняется еще и этим фактором.

References

1. Zakirov M.Z. Ontologiya issledovanij informatsionnykh sistem ob'ektov sotsial'noj zaschity. // M.:2014.

2. Zakirov M.Z. Ontologiya kontseptual'nykh modelej sotsial'no-ehkonomicheskikh, nauchno-obrazovatel'nykh i proizvodstvennykh klasterov: Sb. materialov XII Mezhdunarodnoj nauchnoj konferentsii: Modernizatsiya Rossii. Klyuchevye problemy i resheniya. // M.: INION, 2012.

3. Osipov G.S., Smirnov I.V., Tikhomirov I.A. Relyatsionno-situatsionnyj metod poiska i analiza tekstov i ego prilozheniya // Iskusstvennyj intellekt i prinyatie reshenij. 2008, № 2

Comments

No posts found

Write a review
Translate