Методики измерения и сбора данных

Комплекс обеспечивает сбор и обработку данных из следующих источников:

  • социальные сети;
  • глобальные поисковики;
  • новостные источники (rss feed);
  • геоинформационные системы;
  • тематические агрегаторы:
    • транспорт (билеты, движение);
    • интернет-магазины;
    • учреждения (“желтые страницы”…);
    • объявления;
    • туризм;
    • форумы;
  • персональные страницы людей, сайты учреждений;
  • открытые городские данные.

Комплекс осуществляет сбор и обработку данных сети Интернет, исходя из следующих способов обхода сетевых ресурсов:

  • полностью случайный обход; 
  • взвешенный случайный обход (для разных языковых групп, государств и пр.); 
  • топологический обход в ширину и в глубину (по ссылкам, по друзьям, по репостам); 
  • гнездовой обход (для отдельных сообществ).

Сбор осуществляется через стандартные API провайдера данных в рамках исключительно в рамках установленных им правил доступа и использования данных. В процессе обхода осуществляется сбор данных, определяемых заранее заданным шаблоном профиля субъекта или явления. В качестве вариантов задания шаблонов профиля используются:

  • наборы ключевых слов и тематические словари (учитывающие семантическую связность понятий); 
  • агрегированные метрики сходства или различия профиля с заранее заданным эталоном (по текстовым сообщениям, фотоизображением и пр.); 
  • агрегированные поведенческие метрики (степень активности и роль в Интернет-сообществе). 

Способ организации сбора данных и оценки соответствия собранных данных запросу пользователя адаптируется для разных прикладных задач. Примеры методик измерений и сбора данных можно посмотреть здесь:

  1. Nasonov D., Nikitin N.O., Butakov N.A., Kalyuzhnaya A.V. /Precedent-based approach for the identification of deviant behavior in social media // Lecture Notes in Computer Science. — 2018. — Vol. 10862. — pp. 846-852.
  2. Bochenina K., Voloshin D.V., Guleva V., Vaganov D. /Topology of thematic communities in online social networks: a comparative study // Lecture Notes in Computer Science. — 2018. — Vol. 10860. — pp. 260–273.
  3. Butakov N., Voloshin D.V., Fatkulin T., Dzhafarov B., Petrov M. /An Approach to Location Extraction from Russian Online Social Networks: Road Accidents Use Case // Advances in Intelligent Systems and Computing. — 2018. — Vol. 649. — pp. 147-156.
  4. Kovalchuk S.V., Nasonov D., Butakov N.A., Petrov M.V., Mukhina K.D. /Unified domain-specific language for collecting and processing data of social media // Journal of Intelligent Information Systems. — 2018. — pp. 1-26.
  5. Voloshin D.V., Krikunov A.V., Bukhanov N.V., Fatkulin T. /Accident monitoring framework based on online social network sensing // Procedia Computer Science. — 2017. — Vol. 119. — pp. 278–287.
  6. Mukhina K., Visheratin A., Rakitin S.V. /Detection of tourists attraction points using Instagram profiles // Procedia Computer Science. — 2017. — Vol. 108. — pp. 2378–2382.
Оборудование и программное обеспечение
Типовые работы, выполняемые на объекте инфраструктуры
План работы инфраструктуры
Регламент доступа
Расчет стоимости и оформление договора