Исследование возможности применения открытых данных, полученных методом веб-скрапинга для описания поведения агентов при построении агентно-ориентированных моделей
Исследование возможности применения открытых данных, полученных методом веб-скрапинга для описания поведения агентов при построении агентно-ориентированных моделей
Аннотация
Код статьи
S207751800032965-0-1
Тип публикации
Тезисы
Статус публикации
Опубликовано
Авторы
Бурилина Мария Алексеевна 
Должность: научный сотрудник
Аффилиация: Центральный экономико-математический институт РАН
Адрес: Российская Федерация, Москва
Аникин Евгений Андреевич
Должность: младший научный сотрудник
Аффилиация: Центральный экономико-математический институт РАН
Адрес: Российская Федерация, Москва
Аннотация

С каждым годом растет потребность в данных для создания различных предсказательных и поведенческих моделей, включая агентно-ориентированное моделирование (АОМ). Для построения когнетивных и сложных моделей, связанных с поведением агентов, необходимо применять как можно более точную базу знаний об этих агентах, зачастую среднестатистические данные из официальных источников остаются недостаточными при построении поведения агентов и их тонкой настройкой. Примером здесь может служить такое поведение, когда заданный агент уже обладает разумом и может строить оптимизационные задачи, руководствуясь не только экономической выгодой, но и чувствами. Именно такие данные можно получить благодаря инструменту- скрапингу. Однако, пока не существует законодательной базы, по которой можно разрешить или запретить использовать эти данные в науке. Помимо этого, большие корпорации, такие как Apple, Google, Яндекс используют пользовательские данные внутри корпораций, юридически это закреплено пользовательским соглашением. Одновременно усложняется законодательное регулирование и техническая реализация одного из наиболее распространенных методов сбора открытых данных — веб-скрапинга (далее-скрапинга). В данной работе рассматриваются критерии применимости метода скрапинга для сбора данных, необходимых для построения АОМ, а также приводятся примеры источников данных и способов их сбора.

Ключевые слова
АОМ, агентно-ориентированное моделирования, парсинг, скрапинг, открытые данные
Источник финансирования
Работа выполнена при поддержке Министерства науки и высшего образования Российской Федерации в рамках проекта № 075-15-2024-525 от 23.04.2024.
Классификатор
Получено
27.09.2024
Дата публикации
12.11.2024
Всего подписок
0
Всего просмотров
20
Оценка читателей
0.0 (0 голосов)
Цитировать Скачать pdf
Доступ к дополнительным сервисам
Дополнительные сервисы только на эту статью
1

Введение

Метод скрапинга открытых данных позволяет быстро и эффективно собирать информацию из различных источников, таких как веб-сайты, социальные сети и публичные базы данных. Это способствует формированию обширных и актуальных наборов данных, необходимых для обучения моделей искусственного интеллекта и проведения агентно-ориентированного моделирования. Однако при использовании скрапинга необходимо учитывать правовые и этические аспекты, связанные с использованием данных, включая вопросы конфиденциальности и соблюдения авторских прав. Кроме того, собранные данные часто требуют предварительной обработки и структурирования, чтобы обеспечить их качество и пригодность для анализа. Таким образом, скрапинг открытых данных становится ключевым инструментом в современном мире, позволяя организациям и исследователям извлекать ценные сведения из большого объема информации и применять их для инноваций и принятия обоснованных решений.
2 Суть скрапинга заключается в написании программистами бота, который по заданному алгоритму, в той или иной степени имитируя действия реального пользователя, отправляет запросы к одному или сразу нескольким интернет-ресурсам с целью извлечения из него определенной информации. Боты условно делят на «плохих» и «хороших». Любая поисковая система типа Bing, Яндекс или Google Search работают за счет «хороших» ботов, которые заходят на все доступные им сайты в интернете с целью их анализа и определения оптимальной позиции в поисковой выдаче в зависимости от различных запросов. В то же время «плохие» боты могут нагружать интернет-ресурсы вплоть до ограничения их работоспособности (DDOS-атака), «спамить» заявки в открытом доступе и скликивать рекламу в Google Ads.
3

Количество ботов в глобальном и российском интернет-трафике занимает значительную долю. По оценкам [2] в 2023 году доля интернет-трафика в мире, приходящегося на боты, составляла 49,6% (из них 32% «плохих ботов» и 17,6% плохих ботов). Количество ботов растет из-за повышения интереса к сбору открытых данных вследствие постоянного увеличения объема этих данных и ценности их сбора.

4

В работе [3] веб-скрапинг использовался для сбора данных с веб-сайтов, таких как Airbnb, для оценки влияния аренды на туристическую деятельность и цены на жилье. Полученные данные были применены в агентной модели для анализа последствий регулирования рынка недвижимости и краткосрочной аренды жилья.

5

В работе [7] отмечается, что агентно-ориентированное моделирование (AОM) требует информации о компонентах системы и их взаимодействиях. Качественные описания содержат контекстуально богатую информацию о системе, полезную для концептуализации ABM. Традиционная качественная обработка данных осуществляется вручную, что является сложным, трудоемким и затратным процессом. Более того, ручная обработка данных часто сопряжена с предвзятостью и может приводить к сомнительным и ненадежным моделям. Возможной альтернативой является использование автоматизированных подходов, заимствованных из искусственного интеллекта.

6

В агентно-ориентированном моделировании данные играют ключевую роль, так как именно на основе данных имитируется поведение агентов и их взаимодействие с окружающей средой. В статье [17] подчеркивается, что агент-ориентированные модели позволяют учитывать дифференциацию реакций различных групп населения на внешние воздействия, вплоть до имитации индивидуальной реакции людей, что делает возможным моделирование ситуаций, ранее не наблюдавшихся. Это особенно важно для повышения точности и правдоподобия результатов моделирования, что позволяет использовать эти модели для стратегического и оперативного планирования и принятия решений в различных областях, включая демографические и экономические процессы.

7 Цель данной работы – рассмотреть возможность сбора открытых данных методом скрапинга с точки зрения законодательства США, ЕС и Российской Федерации, мировых практик и возможности применения этих данных для построения агентно-ориентированных моделей (АОМ).
8

Правовой аспект скрапинга данных

Законодательство разных стран выдвигает разные требования к легальности скрапинга открытых данных и регулируется разными законами. Он может быть полностью разрешен, запрещен или разрешен с ограничениями. Часто правоприменение зависит от судебной практики в конкретной стране. В статье [10] отмечается, что в ЕС правовая ситуация остается неопределенной. Основные выводы включают следующие моменты:

  1. Роль законодательства. Европейское законодательство играет как ограничивающую, так и поддерживающую роль в доступе к данным платформ. В частности, такие законы, как GDPR, могут затруднить скрапинг, но также и предоставить возможности для получения доступа к данным в интересах общественности.
  2. Закон о цифровых услугах (DSA). Недавно принятый Digital Services Act предпринимает шаги к урегулированию программного доступа к данным через API, что может облегчить доступ для исследователей. Однако многое остается неясным, включая статус проектов по скрапингу, направленных на общественные интересы.
  3. Препятствия и недостатки. Частные компании, управляющие платформами, часто ограничивают доступ, используя как правовые, так и технические методы. Платформы могут блокировать плагины или применять технические меры для предотвращения скрапинга, что осложняет возможность защиты прав исследователей.
9 Таким образом, хотя предпринимаются шаги к урегулированию и обеспечению правомерного доступа, остаются значительные препятствия и правовая неопределенность в вопросах скрапинга для научных исследований. Например, в США вопрос легальности веб-скрапинга в значительной степени зависит от того, является ли информация общедоступной и как используются методы скрапинга. В США нет федерального закона, прямо запрещающего веб-скрапинг. Однако нарушения могут подпадать под действие федерального Закона о компьютерных мошенничествах и злоупотреблениях (CFAA) и авторских прав. Например, если данные защищены паролем, скрапинг без разрешения может быть незаконным, в то время как сбор общедоступных данных обычно считается законным.
10

Одним из ключевых прецедентов является дело hiQ Labs против LinkedIn [8], в котором суд постановил, что сбор общедоступных данных с публичных страниц LinkedIn не нарушает CFAA, так как эти страницы не имеют ограничений на доступ. Это подтвердило легальность скрапинга публичных данных, если они не защищены авторизацией. Аналогично в деле Meta против Bright Data суд постановил, что скрапинг общедоступных данных (без входа в систему) с Facebook и Instagram не является нарушением, так как пользователи не обязаны соглашаться с условиями использования платформы до регистрации [3].

11 Сбор общедоступных данных, как правило, признаётся законным в США, однако важно учитывать использование технологий для обхода мер защиты, таких как CAPTCHA, что может быть спорным. Важно также учитывать условия использования сайта, поскольку нарушение этих условий может привести к судебным искам. Таким образом, в США веб-скрапинг общедоступных данных часто считается законным, однако необходимо избегать нарушений пользовательских соглашений и ограничений на доступ.
12

В Российской Федерации согласно Федеральному закону от 27 июня 2006 г. №149 «Об информации, информационных технологиях и о защите информации», а именно ст. 3, 5, 7 и 8 физические и юридические лица могут свободно пользоваться и распоряжаться информацией, которая принадлежит к категории «общедоступная информация» и не нарушает неприкосновенность частной жизни. Согласно работе [11] для соблюдения требований законодательства РФ выделяются следующие критерии к собираемой в информации:

  • не является государственной, коммерческой, профессиональной тайной;
  • не нарушает авторское право;
  • не ограничивает здоровую коммерческую конкуренцию;
  • не является информацией с закрытым или ограниченным доступом.
13 Также для соблюдения легальности к методам скрапинга предъявляется требование минимализации нагрузки на целевые интернет-ресурсы, с которых собирается информация. То есть скрапер не должен приводить к сбоям в работе интернет-ресурсов в результате повышения количества запросов. Иначе это порча чужого имущества и недополученная выгода в случае отключения или замедления работы интернет-ресурса. Таким образом можно сделать вывод, что США и РФ во многих случаях допускается использование веб-скрапинга, в отличие от ЕС.
14

Другой вопрос касается этической стороны, который заключается в использовании скрапинга при отсутствии ограничений на законодательном уровне, но их присутствии на уровне правил использования конкретных интернет-ресурсов. В то же время этот фактор не мешает таким компаниям из США как Apollo и ZoomInfo достигать суммарной капитализации более 10 млрд. долларов США и привлекать крупные раунды инвестиций от именитых венчурных фондов таких как Sequoia Capital, Andreessen Horowitz и т.д. [14]. Так же регулярно появляются компании такие как SocLeads и Apify, предлагающие универсальные скраперы из нескольких источников. Этот факт говорит об игнорировании данного фактора со стороны рынка венчурных инвестиций.

15

Методы принятия и ограничения скрапинга

В данный момент не существует технических средств способных полностью заблокировать возможность скрапинга открытых данных. ИТ-компании используют следующие методы ограничения скрапинга:
  • внесение ограничений в файл robots.txt;
  • каптча (CloudFlare, reCAPTCHA, Яндекс Каптча и т.д);
  • блокировка доступа по IP;
  • поведенческая аналитика (например, авторитетность конкретного аккаунта и количество запросов от него).
16 Разработчики ПО имеют возможность обходить каждый из этих методов ограничений. Например, можно просто игнорировать ограничения, прописанные в robots.txt. Практически любая капчта решается за 3–10 секунд сервисами по автоматическому решению каптч, блокировка по IP обходится постоянной сменой IP адреса через использование мобильных прокси.
17 Поведенческая аналитика гораздо более сложный инструмент, который позволяет блокировать доступы определенным аккаунтам в зависимости от их «авторитетности», которая может выражаться в сроке, прошедшем с момента регистрации аккаунта, или в количестве запросов к целевому интернет-ресурсу. По данным параметрам система поведенческой аналитики может определять управляет ли аккаунтом в данный момент времени реальный человек или бот. У этого подхода есть существенное ограничение, который состоит в ложном срабатывании, из-за которого страдают реальные пользователи.
18 В итоге все методы ограничения скрапинга со стороны интернет-ресурсов не делает их скрапинг невозможным, а лишь делает его более долгим и дорогим в реализации. Так же от введения ограничений часто страдают реальные пользователи.
19 Каждый интернет-ресурс вырабатывает свою позицию относительно скрапинга. Некоторые компании публикуют свои API, позволяющие легально и без технический ограничений скрапить их интернет-ресурсы на коммерческой основе. Некоторые компании позволяют скрапить свои интернет-ресурсы другим компаниям. Например, Meta (запрещенная в РФ) разрешает поисковым сервисам Google, Bing и Yahoo скрапить свои интернет-ресурсы для поисковой выдачи.
20

Применение для АОМ

Методом скрапинга представляется возможным собирать данные для построения агентно-ориентированных моделей. Скрапинг открытых источников может использоваться для сбора данных о поведении и характеристиках агентов в системе, сбора информации о среде, в которой действуют агенты, калибровки параметров агентно-ориентированных моделей. Ключевым преимуществом метода скрапинга перед использованием статических баз данных является возможность обновления и переобучения моделей в реальном времени на актуальных на данный момент времени данных.
21 Приведем примеры АОМ, которые можно построить на основе скрапинга открытых данных (все модели подразумевают возможность калибровки в реальном времени):
  1. На данных из социальных сетей, новостных сайтах и форумах возможно построить модель прогнозирования реакции человек (агента) на заданную новость.
  2. На основе данных о загруженности дорог представляется возможным построить модель для анализа и прогнозирования транспортных потоков.
  3. На данных картографических сервисов возможно построить «тепловые модели», которые позволяют офлайн бизнесам определять наиболее выгодную локацию для расположения.
22 Например, это может быть агентно-ориентированная модель, направленна на разработку оптимальных стратегий размещения автозаправочных станций (АЗС) в городском окружении. Агентами в этой модели являются водители и АЗС. Каждый водитель выбирает оптимальную для него АЗС исходя из своих приоритетов (стоимость топлива, дополнительные услуги, расстояние и т. д.), в свою очередь АЗС могут влияет на критерии выбора, изменяя стоимость топлива и спектр дополнительных услуг. В то же время сразу на двух агентов влияют внешние факторы такие как: текущая дорожная ситуация, погодные условия, расстояние от водителя до заправки. Как раз методом скрапинга открытых данных можно получить необходимые данные для построения такой модели.
23

Выводы

В большинстве стран мира метод скрапинга открытых данных находится в «серой» правовой зоне. Однако, согласно законодательству Российской Федерации и США мы определили ограничения, а, значит, и критерии легальности применения данного метода сбора информации. Рассмотрели особенности использования собранных методом скрапинга данных для построения агентно-ориентированных моделей с учетом законодательных и этический ограничений. Привели примеры моделей АОМ, которые возможно построить на основе скрапленных открытых данных.

Библиография

1. Дятлова Е.В., Янгличева Ю.Р. Парсинг и закон // Вестник экономики, права и социологии. 2022, № 2. С. 49-52.

2. Макаров В.Л., Бахтизин А.Р., Эпштейн Дж. Агент-ориентированное моделирование для сложного мира. Центральный экономико-математический институт РАН. – Москва: ООО "МАКС Пресс", 2022. 88 с. ISBN 978-5-317-06764-9.

3. Макаров В.Л., Бахтизин А.Р., Сушко Е.Д. [и др.]. Суперкомпьютерные технологии в общественных науках – Москва : Федеральное государственное бюджетное образовательное учреждение высшего образования «Государственный академический университет гуманитарных наук», 2022. 387 с. ISBN 978-5-6048042-7-8. DOI 10.18254/978-5-604-80427-8.

4. Сушко Е.Д. «Агент-ориентированное моделирование и имитация поведения человека с учетом памяти» доклад на конференции Дискуссионная панель «Моделирование искусственных сообществ: доказательный подход к принятию решений о реализации больших проектов» 47-ое заседание международной научной конференции-Школы-семинара «Системное моделирование социально-экономических процессов» // URL: https://www.smsep.ru/2024/main

5. Федеральный закон от 27.07.2006 №149-ФЗ «Об информации, информационных технологиях и о защите информации» // URL: https://www.consultant.ru/document/cons_doc_LAW_61798/

6. Ozon запустил сервис аналитики продаж для внешнего рынка // URL: https://www.forbes.ru/tekhnologii/497555-ozon-zapustil-servis-analitiki-prodaz-dla-vnesnego-rynka

7. Bianchi T. "Global share of human and bot web traffic 2013-2023." Statista, 10 Apr. 2024 // URL: https://www.statista.com/statistics/1264226/human-and-bot-web-traffic-share/.

8. hiQ Labs, Inc v. LinkedIn Corporation, "US Ninth Circuit on Scraping Public Data," *The Register*, 2024. // URL: https://www.theregister.com

9. Leerssen P., Heldt A.P., Kettemann M.C. "Scraping By? Europe's law and policy on social media research access," in *Challenges and Perspectives of Hate Speech Research*, Eds. Berlin, Germany: Digital Communication Research, 2023, pp. 405-425.

10. Makarov V.L., Bakhtizin A.R., Sushko E.D., Sushko G.B. "Creation of a Supercomputer Simulation of Society with Active Agents of Different Types and Its Testing," Central Economic and Mathematical Institute of the Russian Academy of Sciences, Moscow, Russia, EDN: OTVZYC, DOI: 10.31857/S0869587322050115, Jun. 2021, revised Jun. 2021, accepted Sep. 2021.

11. Paudel R., Ligmann-Zielinska A. "Data Extraction Approach for Empirical Agent-Based Model Development," *Encyclopedia* // URL: https://encyclopedia.pub/entry/49786

12. Perez S. "Meta drops lawsuit against web-scraping firm Bright Data that sold millions of Instagram records," *TechCrunch* // URL: https://techcrunch.com.

13. Regulation (EU) 2022/2065 of the European Parliament and of the Council of 19 October 2022 on a Single Market for Digital Services and amending Directive 2000/31/EC // URL: http://data.europa.eu/eli/reg/2022/2065/oj

14. Sales Tech Startup Apollo.io Reaches $1.6B Valuation After $100M Series D // URL: https://news.crunchbase.com/sales-marketing/apollo-io-funding-sales-tech-unicorn/

15. Skiera B., Miller K., Jin Y., Kraft L., Laub R., Schmitt J. The impact of the GDPR on the online advertising market. 2022, Frankfurt am Main. ISBN 978-3-9824173-0-1. OCLC 1303894344.

16. Twitter was once an indispensable resource for academic research. That’s changed under Elon Musk. // URL: https://www.theverge.com/2023/5/31/23739084/twitter-elon-musk-api-policy-chilling-academic-research

17. Vinogradov E., Leick B., Kivedal B.K. An agent-based modelling approach to housing market regulations and Airbnb-induced tourism // Tourism Management. 2020, vol. 77. p. 104004 doi: 10.1016/j.tourman.2019.104004

Комментарии

Сообщения не найдены

Написать отзыв
Перевести