Research on the Possibility of Applying Web Scraping Methods for Open Data to Build Agent-Based Models
Table of contents
Share
QR
Metrics
Research on the Possibility of Applying Web Scraping Methods for Open Data to Build Agent-Based Models
Annotation
PII
S207751800032965-0-1
Publication type
Theses
Статус публикации
Published
Authors
Maria Burilina 
Occupation: Researcher
Affiliation: Central Economics and Mathematics Institute of the RAS
Address: Russian Federation, Moscow
Evgeniy Anikin
Occupation: Junior Researcher
Affiliation: Central Economics and Mathematics Institute of the RAS
Address: Russian Federation, Mosocw
Abstract

The demand for data to create various predictive and behavioral models, including agent-based modeling (ABM), is growing every year. At the same time, legal regulation and the technical implementation of one of the most common methods for collecting open data—web scraping—are becoming more complicated. This paper examines the applicability criteria of the scraping method for collecting data needed to build ABM models and provides examples of data sources and methods for collecting them.

An example here is the behavior when a given agent already possesses intelligence and can construct optimization problems guided not only by economic benefit, but also by feelings. This is exactly the kind of data that can be obtained through the scraping tool. However, there is still no legal framework to authorize or prohibit the use of this data in science. In addition, large corporations such as Apple, Google, Yandex use user data within corporations, legally it is fixed by the user agreement.

At the same time, the legal regulation and technical implementation of one of the most common methods of collecting open data - web scraping (hereinafter-scraping) - is becoming more complicated. This paper discusses the applicability criteria of the scraping method for collecting data necessary for the construction of ASM, and provides examples of data sources and methods of data collection.

Keywords
ABM, agent-based modeling, parsing, scraping, open data
Acknowledgment
The work was carried out with the support of the Ministry of Science and Higher Education of the Russian Federation within the framework of project No. 075-15-2024-525 dated 04/23/2024.
Received
27.09.2024
Date of publication
12.11.2024
Number of purchasers
0
Views
24
Readers community rating
0.0 (0 votes)
Cite Download pdf
Additional services access
Additional services for the article
1

Введение

Метод скрапинга открытых данных позволяет быстро и эффективно собирать информацию из различных источников, таких как веб-сайты, социальные сети и публичные базы данных. Это способствует формированию обширных и актуальных наборов данных, необходимых для обучения моделей искусственного интеллекта и проведения агентно-ориентированного моделирования. Однако при использовании скрапинга необходимо учитывать правовые и этические аспекты, связанные с использованием данных, включая вопросы конфиденциальности и соблюдения авторских прав. Кроме того, собранные данные часто требуют предварительной обработки и структурирования, чтобы обеспечить их качество и пригодность для анализа. Таким образом, скрапинг открытых данных становится ключевым инструментом в современном мире, позволяя организациям и исследователям извлекать ценные сведения из большого объема информации и применять их для инноваций и принятия обоснованных решений.
2 Суть скрапинга заключается в написании программистами бота, который по заданному алгоритму, в той или иной степени имитируя действия реального пользователя, отправляет запросы к одному или сразу нескольким интернет-ресурсам с целью извлечения из него определенной информации. Боты условно делят на «плохих» и «хороших». Любая поисковая система типа Bing, Яндекс или Google Search работают за счет «хороших» ботов, которые заходят на все доступные им сайты в интернете с целью их анализа и определения оптимальной позиции в поисковой выдаче в зависимости от различных запросов. В то же время «плохие» боты могут нагружать интернет-ресурсы вплоть до ограничения их работоспособности (DDOS-атака), «спамить» заявки в открытом доступе и скликивать рекламу в Google Ads.
3

Количество ботов в глобальном и российском интернет-трафике занимает значительную долю. По оценкам [2] в 2023 году доля интернет-трафика в мире, приходящегося на боты, составляла 49,6% (из них 32% «плохих ботов» и 17,6% плохих ботов). Количество ботов растет из-за повышения интереса к сбору открытых данных вследствие постоянного увеличения объема этих данных и ценности их сбора.

4

В работе [3] веб-скрапинг использовался для сбора данных с веб-сайтов, таких как Airbnb, для оценки влияния аренды на туристическую деятельность и цены на жилье. Полученные данные были применены в агентной модели для анализа последствий регулирования рынка недвижимости и краткосрочной аренды жилья.

5

В работе [7] отмечается, что агентно-ориентированное моделирование (AОM) требует информации о компонентах системы и их взаимодействиях. Качественные описания содержат контекстуально богатую информацию о системе, полезную для концептуализации ABM. Традиционная качественная обработка данных осуществляется вручную, что является сложным, трудоемким и затратным процессом. Более того, ручная обработка данных часто сопряжена с предвзятостью и может приводить к сомнительным и ненадежным моделям. Возможной альтернативой является использование автоматизированных подходов, заимствованных из искусственного интеллекта.

6

В агентно-ориентированном моделировании данные играют ключевую роль, так как именно на основе данных имитируется поведение агентов и их взаимодействие с окружающей средой. В статье [17] подчеркивается, что агент-ориентированные модели позволяют учитывать дифференциацию реакций различных групп населения на внешние воздействия, вплоть до имитации индивидуальной реакции людей, что делает возможным моделирование ситуаций, ранее не наблюдавшихся. Это особенно важно для повышения точности и правдоподобия результатов моделирования, что позволяет использовать эти модели для стратегического и оперативного планирования и принятия решений в различных областях, включая демографические и экономические процессы.

7 Цель данной работы – рассмотреть возможность сбора открытых данных методом скрапинга с точки зрения законодательства США, ЕС и Российской Федерации, мировых практик и возможности применения этих данных для построения агентно-ориентированных моделей (АОМ).
8

Правовой аспект скрапинга данных

Законодательство разных стран выдвигает разные требования к легальности скрапинга открытых данных и регулируется разными законами. Он может быть полностью разрешен, запрещен или разрешен с ограничениями. Часто правоприменение зависит от судебной практики в конкретной стране. В статье [10] отмечается, что в ЕС правовая ситуация остается неопределенной. Основные выводы включают следующие моменты:

  1. Роль законодательства. Европейское законодательство играет как ограничивающую, так и поддерживающую роль в доступе к данным платформ. В частности, такие законы, как GDPR, могут затруднить скрапинг, но также и предоставить возможности для получения доступа к данным в интересах общественности.
  2. Закон о цифровых услугах (DSA). Недавно принятый Digital Services Act предпринимает шаги к урегулированию программного доступа к данным через API, что может облегчить доступ для исследователей. Однако многое остается неясным, включая статус проектов по скрапингу, направленных на общественные интересы.
  3. Препятствия и недостатки. Частные компании, управляющие платформами, часто ограничивают доступ, используя как правовые, так и технические методы. Платформы могут блокировать плагины или применять технические меры для предотвращения скрапинга, что осложняет возможность защиты прав исследователей.
9 Таким образом, хотя предпринимаются шаги к урегулированию и обеспечению правомерного доступа, остаются значительные препятствия и правовая неопределенность в вопросах скрапинга для научных исследований. Например, в США вопрос легальности веб-скрапинга в значительной степени зависит от того, является ли информация общедоступной и как используются методы скрапинга. В США нет федерального закона, прямо запрещающего веб-скрапинг. Однако нарушения могут подпадать под действие федерального Закона о компьютерных мошенничествах и злоупотреблениях (CFAA) и авторских прав. Например, если данные защищены паролем, скрапинг без разрешения может быть незаконным, в то время как сбор общедоступных данных обычно считается законным.
10

Одним из ключевых прецедентов является дело hiQ Labs против LinkedIn [8], в котором суд постановил, что сбор общедоступных данных с публичных страниц LinkedIn не нарушает CFAA, так как эти страницы не имеют ограничений на доступ. Это подтвердило легальность скрапинга публичных данных, если они не защищены авторизацией. Аналогично в деле Meta против Bright Data суд постановил, что скрапинг общедоступных данных (без входа в систему) с Facebook и Instagram не является нарушением, так как пользователи не обязаны соглашаться с условиями использования платформы до регистрации [3].

11 Сбор общедоступных данных, как правило, признаётся законным в США, однако важно учитывать использование технологий для обхода мер защиты, таких как CAPTCHA, что может быть спорным. Важно также учитывать условия использования сайта, поскольку нарушение этих условий может привести к судебным искам. Таким образом, в США веб-скрапинг общедоступных данных часто считается законным, однако необходимо избегать нарушений пользовательских соглашений и ограничений на доступ.
12

В Российской Федерации согласно Федеральному закону от 27 июня 2006 г. №149 «Об информации, информационных технологиях и о защите информации», а именно ст. 3, 5, 7 и 8 физические и юридические лица могут свободно пользоваться и распоряжаться информацией, которая принадлежит к категории «общедоступная информация» и не нарушает неприкосновенность частной жизни. Согласно работе [11] для соблюдения требований законодательства РФ выделяются следующие критерии к собираемой в информации:

  • не является государственной, коммерческой, профессиональной тайной;
  • не нарушает авторское право;
  • не ограничивает здоровую коммерческую конкуренцию;
  • не является информацией с закрытым или ограниченным доступом.
13 Также для соблюдения легальности к методам скрапинга предъявляется требование минимализации нагрузки на целевые интернет-ресурсы, с которых собирается информация. То есть скрапер не должен приводить к сбоям в работе интернет-ресурсов в результате повышения количества запросов. Иначе это порча чужого имущества и недополученная выгода в случае отключения или замедления работы интернет-ресурса. Таким образом можно сделать вывод, что США и РФ во многих случаях допускается использование веб-скрапинга, в отличие от ЕС.
14

Другой вопрос касается этической стороны, который заключается в использовании скрапинга при отсутствии ограничений на законодательном уровне, но их присутствии на уровне правил использования конкретных интернет-ресурсов. В то же время этот фактор не мешает таким компаниям из США как Apollo и ZoomInfo достигать суммарной капитализации более 10 млрд. долларов США и привлекать крупные раунды инвестиций от именитых венчурных фондов таких как Sequoia Capital, Andreessen Horowitz и т.д. [14]. Так же регулярно появляются компании такие как SocLeads и Apify, предлагающие универсальные скраперы из нескольких источников. Этот факт говорит об игнорировании данного фактора со стороны рынка венчурных инвестиций.

15

Методы принятия и ограничения скрапинга

В данный момент не существует технических средств способных полностью заблокировать возможность скрапинга открытых данных. ИТ-компании используют следующие методы ограничения скрапинга:
  • внесение ограничений в файл robots.txt;
  • каптча (CloudFlare, reCAPTCHA, Яндекс Каптча и т.д);
  • блокировка доступа по IP;
  • поведенческая аналитика (например, авторитетность конкретного аккаунта и количество запросов от него).
16 Разработчики ПО имеют возможность обходить каждый из этих методов ограничений. Например, можно просто игнорировать ограничения, прописанные в robots.txt. Практически любая капчта решается за 3–10 секунд сервисами по автоматическому решению каптч, блокировка по IP обходится постоянной сменой IP адреса через использование мобильных прокси.
17 Поведенческая аналитика гораздо более сложный инструмент, который позволяет блокировать доступы определенным аккаунтам в зависимости от их «авторитетности», которая может выражаться в сроке, прошедшем с момента регистрации аккаунта, или в количестве запросов к целевому интернет-ресурсу. По данным параметрам система поведенческой аналитики может определять управляет ли аккаунтом в данный момент времени реальный человек или бот. У этого подхода есть существенное ограничение, который состоит в ложном срабатывании, из-за которого страдают реальные пользователи.
18 В итоге все методы ограничения скрапинга со стороны интернет-ресурсов не делает их скрапинг невозможным, а лишь делает его более долгим и дорогим в реализации. Так же от введения ограничений часто страдают реальные пользователи.
19 Каждый интернет-ресурс вырабатывает свою позицию относительно скрапинга. Некоторые компании публикуют свои API, позволяющие легально и без технический ограничений скрапить их интернет-ресурсы на коммерческой основе. Некоторые компании позволяют скрапить свои интернет-ресурсы другим компаниям. Например, Meta (запрещенная в РФ) разрешает поисковым сервисам Google, Bing и Yahoo скрапить свои интернет-ресурсы для поисковой выдачи.
20

Применение для АОМ

Методом скрапинга представляется возможным собирать данные для построения агентно-ориентированных моделей. Скрапинг открытых источников может использоваться для сбора данных о поведении и характеристиках агентов в системе, сбора информации о среде, в которой действуют агенты, калибровки параметров агентно-ориентированных моделей. Ключевым преимуществом метода скрапинга перед использованием статических баз данных является возможность обновления и переобучения моделей в реальном времени на актуальных на данный момент времени данных.
21 Приведем примеры АОМ, которые можно построить на основе скрапинга открытых данных (все модели подразумевают возможность калибровки в реальном времени):
  1. На данных из социальных сетей, новостных сайтах и форумах возможно построить модель прогнозирования реакции человек (агента) на заданную новость.
  2. На основе данных о загруженности дорог представляется возможным построить модель для анализа и прогнозирования транспортных потоков.
  3. На данных картографических сервисов возможно построить «тепловые модели», которые позволяют офлайн бизнесам определять наиболее выгодную локацию для расположения.
22 Например, это может быть агентно-ориентированная модель, направленна на разработку оптимальных стратегий размещения автозаправочных станций (АЗС) в городском окружении. Агентами в этой модели являются водители и АЗС. Каждый водитель выбирает оптимальную для него АЗС исходя из своих приоритетов (стоимость топлива, дополнительные услуги, расстояние и т. д.), в свою очередь АЗС могут влияет на критерии выбора, изменяя стоимость топлива и спектр дополнительных услуг. В то же время сразу на двух агентов влияют внешние факторы такие как: текущая дорожная ситуация, погодные условия, расстояние от водителя до заправки. Как раз методом скрапинга открытых данных можно получить необходимые данные для построения такой модели.
23

Выводы

В большинстве стран мира метод скрапинга открытых данных находится в «серой» правовой зоне. Однако, согласно законодательству Российской Федерации и США мы определили ограничения, а, значит, и критерии легальности применения данного метода сбора информации. Рассмотрели особенности использования собранных методом скрапинга данных для построения агентно-ориентированных моделей с учетом законодательных и этический ограничений. Привели примеры моделей АОМ, которые возможно построить на основе скрапленных открытых данных.

References

1. Dyatlova E.V., Yanglicheva Yu.R. Parsing i zakon // Vestnik ehkonomiki, prava i sotsiologii. 2022, № 2. S. 49-52.

2. Makarov V.L., Bakhtizin A.R., Ehpshtejn Dzh. Agent-orientirovannoe modelirovanie dlya slozhnogo mira. Tsentral'nyj ehkonomiko-matematicheskij institut RAN. – Moskva: OOO "MAKS Press", 2022. 88 s. ISBN 978-5-317-06764-9.

3. Makarov V.L., Bakhtizin A.R., Sushko E.D. [i dr.]. Superkomp'yuternye tekhnologii v obschestvennykh naukakh – Moskva : Federal'noe gosudarstvennoe byudzhetnoe obrazovatel'noe uchrezhdenie vysshego obrazovaniya «Gosudarstvennyj akademicheskij universitet gumanitarnykh nauk», 2022. 387 s. ISBN 978-5-6048042-7-8. DOI 10.18254/978-5-604-80427-8.

4. Sushko E.D. «Agent-orientirovannoe modelirovanie i imitatsiya povedeniya cheloveka s uchetom pamyati» doklad na konferentsii Diskussionnaya panel' «Modelirovanie iskusstvennykh soobschestv: dokazatel'nyj podkhod k prinyatiyu reshenij o realizatsii bol'shikh proektov» 47-oe zasedanie mezhdunarodnoj nauchnoj konferentsii-Shkoly-seminara «Sistemnoe modelirovanie sotsial'no-ehkonomicheskikh protsessov» // URL: https://www.smsep.ru/2024/main

5. Federal'nyj zakon ot 27.07.2006 №149-FZ «Ob informatsii, informatsionnykh tekhnologiyakh i o zaschite informatsii» // URL: https://www.consultant.ru/document/cons_doc_LAW_61798/

6. Ozon zapustil servis analitiki prodazh dlya vneshnego rynka // URL: https://www.forbes.ru/tekhnologii/497555-ozon-zapustil-servis-analitiki-prodaz-dla-vnesnego-rynka

7. Bianchi T. "Global share of human and bot web traffic 2013-2023." Statista, 10 Apr. 2024 // URL: https://www.statista.com/statistics/1264226/human-and-bot-web-traffic-share/.

8. hiQ Labs, Inc v. LinkedIn Corporation, "US Ninth Circuit on Scraping Public Data," *The Register*, 2024. // URL: https://www.theregister.com

9. Leerssen P., Heldt A.P., Kettemann M.C. "Scraping By? Europe's law and policy on social media research access," in *Challenges and Perspectives of Hate Speech Research*, Eds. Berlin, Germany: Digital Communication Research, 2023, pp. 405-425.

10. Makarov V.L., Bakhtizin A.R., Sushko E.D., Sushko G.B. "Creation of a Supercomputer Simulation of Society with Active Agents of Different Types and Its Testing," Central Economic and Mathematical Institute of the Russian Academy of Sciences, Moscow, Russia, EDN: OTVZYC, DOI: 10.31857/S0869587322050115, Jun. 2021, revised Jun. 2021, accepted Sep. 2021.

11. Paudel R., Ligmann-Zielinska A. "Data Extraction Approach for Empirical Agent-Based Model Development," *Encyclopedia* // URL: https://encyclopedia.pub/entry/49786

12. Perez S. "Meta drops lawsuit against web-scraping firm Bright Data that sold millions of Instagram records," *TechCrunch* // URL: https://techcrunch.com.

13. Regulation (EU) 2022/2065 of the European Parliament and of the Council of 19 October 2022 on a Single Market for Digital Services and amending Directive 2000/31/EC // URL: http://data.europa.eu/eli/reg/2022/2065/oj

14. Sales Tech Startup Apollo.io Reaches $1.6B Valuation After $100M Series D // URL: https://news.crunchbase.com/sales-marketing/apollo-io-funding-sales-tech-unicorn/

15. Skiera B., Miller K., Jin Y., Kraft L., Laub R., Schmitt J. The impact of the GDPR on the online advertising market. 2022, Frankfurt am Main. ISBN 978-3-9824173-0-1. OCLC 1303894344.

16. Twitter was once an indispensable resource for academic research. That’s changed under Elon Musk. // URL: https://www.theverge.com/2023/5/31/23739084/twitter-elon-musk-api-policy-chilling-academic-research

17. Vinogradov E., Leick B., Kivedal B.K. An agent-based modelling approach to housing market regulations and Airbnb-induced tourism // Tourism Management. 2020, vol. 77. p. 104004 doi: 10.1016/j.tourman.2019.104004

Comments

No posts found

Write a review
Translate