Аналитическая платформа выявления и прогнозирования девиантного поведения пользователей социальных сетей на основе композиции и сопоставления неструктурированных данных различных медиаресурсов

В ходе выполнения проекта по Соглашению о предоставлении субсидии от 03.10.2016 г. № 14.578.21.0196 с Минобрнауки России в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2014-2020 годы» на этапе № 1 в период с 03.10.2016 г. по 31.12.2016 г. выполнялись следующие работы:


  1. Выполнен аналитический обзор современной научно-технической, нормативной, методической литературы, затрагивающей научно-техническую проблему, исследуемую в рамках ПНИЭР, в том числе обзор научных информационных источников: статьи в ведущих зарубежных и (или) российских научных журналах, монографии и (или) патенты) – не менее 25 научно-информационных источников за период 2012-2016 гг.
  2. Проведены патентные исследования в соответствии с ГОСТ Р 15.011-96.
  3. Выполнено исследование существующих подходов к решению задачи обнаружения девиантного поведения пользователей социальных медиа, выбор и обоснование оптимальной конфигурации объекта исследований и разработки.
  4. Выполнено исследование существующих информационных и математических моделей, описывающих поведение пользователей социальных медиа.
  5. Выполнено исследование существующих методов выявления потенциально девиантного поведения пользователей социальных медиа.
  6. Разработан набор математических соотношений - формальных критериев и методов их проверки на основе данных для оценивания и классификации форм девиантного поведения пользователей с использованием различных социальных медиа.
  7. Выполнено обоснование выбора информационных технологий для выполнения разработки и требований к организации распределенной вычислительной инфраструктуры для хранения и обработки данных.
  8. Разработан экспериментальный стенд для проведения экспериментальных исследований.

На первом этапе проведены работы по обоснованию выбора направления исследований, что включает в себя подготовку аналитического обзора, проведение патентных исследований, а также осуществлен выбор и обоснование оптимальной конфигурации объекта исследований и разработки. Выполнено исследование существующих моделей поведения пользователя социальных медиа и методов выявления девиантного поведения, а также проведена разработка формальных критериев классификации форм девиантного поведения в социальных медиа. 


Получены следующие результаты:

- на основе проведенного анализа работ, посвященных исследованию отдельных разновидностей девиантного поведения была построена таксономия форм девиантного поведения;

- были разработаны критерии для идентификации проявления отдельных форм девиантного поведения на основе набора правил и сравнения отдельных характеристик событий активности пользователя в социальных медиа с заданными эталонными значениями

- разработаны требования к организации вычислительной инфраструктуры с учетом необходимости обеспечения одновременного функционирования всех основных вычислительных процессов: сбора данных из социальных медиа, обслуживанию запросов на чтение и запись данных к хранилищу; обработку поступающих данных и вычислительно-интенсивное моделирование для обработки отдельных ситуаций;

- был предложен метод балансировки нагрузки по сбору данных для множества используемых аккаунтов социальных сетей, который позволяет оптимизировать равнодоступность использования ресурсов краулера для обеспечения их эффективного разделения между различными запроса или приложениями, которым требуется информация из социальных медиа для осуществления анализа;

- подготовлен экспериментальный стенд.

Назначение и область применения результатов проекта. Разрабатываемая технология позволит обеспечить решение задач по унифицированному сбору данных, обеспечению их обработки, за счет управления предоставляемыми вычислительными ресурсами, построению агрегированных профилей пользователей и идентификации различных форм девиантного поведения у отдельных пользователей. На основе данной инструментальной платформы возможна разработка прикладного программного обеспечения для потребителей, деятельность которых непосредственно связана с человеческим капиталом.

Эффекты от внедрения результатов проекта. На текущем этапе внедрение результатов проекта не предполагается. Однако, в будущем ожидается, что первичными потребителями разрабатываемой инструментальной платформы будут HR-службы, кадровые агенства, службы безопасности финансовых учреждений, а также органы государственной власти.

Формы и объемы коммерциализации результатов проекта. На основе разработок данного проекта будет создано промежуточное программное обеспечение, доступное в виде набора программных библиотек. Основным потребителем будут организации, специализирующиеся на разработке программного обеспечения, а также системные интеграторы. Их клиентами могут быть различные группы компаний, деятельность которых непосредственно связана с человеческим капиталом или оказанием услуг частным лицам.

Наличие соисполнителей. Общество с ограниченной ответственностью «Сириус-Самара» (ООО «Сириус-С»), 2016 г.

Комиссия Минобрнауки России признала обязательства по Соглашению на отчетном этапе исполненными надлежащим образом.

На втором этапе проекта были получены следующие результаты:

а. Разработан программный комплекс сбора, агрегации, и анализа больших объемов данных в социальных сетях и иных медийных ресурсах, в том числе VK, Instagram и Twitter

б. Проведены экспериментальные исследования созданного комплекса в рамках определения характеристик производительности.

в. Создана информационная модель агрегированного профиля пользователя медиа ресурсов в Интернете, учитывающая блок персональной статической информации – ФИО, пол, возраст, интересы, группы друзей, группы подписчиков, а также блок динамического контента, имеющего событийную природу – фотографии, посты, комментарии, лайки.

г. Создана параметрическая математическая модель агрегированного профиля пользователя на основании информационной модели, предусматривающая возможность выявления особенностей пользователя, как пространственно-временных, так и эмоциональных.

д. Разработаны методы идентификации параметров модели для различной специфики применения, в зависимости от формируемых целей.

е. Разработан подход построения и идентификации эталонных агрегированных профилей пользователей и методов выявления девиантного поведения, на основе оценки меры сходства и различия с построенными эталонами.

В рамках этапа была разработана информационная модель агрегированного пространственно-временного профиля пользователя социальных медиа на основе различных социальных сетей (Vkontakte, Instagram, и др.). На базе информационной модели создана математическая модель, которая включает в себя учет персональной и контактной информации пользователя, геопозиционирование пользователя и его контекстно-событийное и эмоциональное состояние во времени. Были разработаны различные методы идентификации параметров модели (методы агрегации, сопоставления, выявления определенных признаков) 1 и получены эталонные классы пользователей. Также разработана схема организации методов выявления потенциального девиантного поведения. Для обеспечения практической оценки применимости созданных методов и моделей был разработан программный комплекс с возможностью сбора данных из различных медиаресурсов и интегрированной вычислительной средой. Также по разработанной программе и методике проведены экспериментальные исследования характеристик производительности системы. Подготовлены контрольные примеры предметных словарей для выполнения экспериментальных исследований. Проведены эксперименты стресс-тестирования ЭО ПК.

Комиссия Минобрнауки России признала обязательства по Соглашению на отчетном этапе исполненными надлежащим образом.