Исследования и разработка быстродействующей кластерной системы хранения и обработки сверхбольших объемов данных

В ходе выполнения проекта по Соглашению о предоставлении субсидии от 24.11.2014 г. № 14.578.21.0077 с Минобрнауки России в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2014-2020 годы» на этапе № 4 в период с 01.01.2016 г. по 30.06.2016 г. выполнялись следующие работы:

  1. Выполнена интеграция (включая разработку интерфейсов) и настройка ЭО ПК в составе телемедицинской системы для апробации разработанных методов и алгоритмов.
  2. Выполнена разработка ПМЭИ для апробации разработанных методов и алгоритмов на реальных данных.
  3. Проведены экспериментальные исследования ЭО ПК в составе телемедицинской системы для апробации разработанных методов и алгоритмов на основе ПМЭИ.
  4. Выполнена подготовка экспериментального стенда на основе телемедицинской системы.
  5. Выполнена подготовка тестовых массивов сверхбольших данных ведения хронических пациентов (кардиология) и их размещение на экспериментальном стенде.
  6. Выполнена разработка нагрузочных тестов для проведения стресс-тестирования ЭО ПК в составе телемедицинской системы.

В ходе выполнения предыдущих этапов проекта были проведены исследования в части разработки программных алгоритмов оптимизации размещения больших данных, а также алгоритмы оптимизации вычисления процессов обработки данных поверх хранилищ самих данных с использованием технологий виртуализации. В основе первого семейства алгоритмов лежат коэволюционные схемы метаэвристических подходов (генетический, роевой, гравитационный), в основе второго класса алгоритмов лежит схема перераспределения данных, основанная на категоризации данных с использованием генетического алгоритма и адаптированных эвристик.  Данные алгоритмы были основаны на разработанных моделях производительности как для потоковой обработки данных, так и для комплексных задач пакетного выполнения, также алгоритмы были встроены в созданную интеллектуальную процедуру оптимизации всего инфраструктурного комплекса в целом.

В ходе выполнения предыдущих этапов был разработан ЭО ПК DAPRIS (Data PRocessing Intelligent System), который совмещает в себе и интегрированную интеллектуальную процедуру с созданными алгоритмами, и компоненты вычислительного блока, позволяющие эффективно совмещать технологии виртуализации ресурсов с распределенными вычислениями. На основе разработанной ПМЭИ были проведены экспериментальные исследования, которые продемонстрировали в рамках распределенных расчетов прирост доступа к данных на 20%, а прирост скорости обработки данных на 80%.

На отчетном (четвертом) этапе выполнена интеграция с телемедицинской системой, в рамках данной интеграции был разработан интерфейс прикладного программирования Façade API, позволяющий удаленно вызывать все функциональные возможности ЭО ПК DAPRIS в унифицированном стандартизованном виде, в том числе и выполнять расчеты в Apache Spark по обработке данных размещенных в DCStorage.

Также был реализован симулятор данных артериального давления для генерации больших объемов данных в рамках выполнения нагрузочных тестов для проведения стресс-тестирования. В дополнение была разработана ПМЭИ для апробации методов и алгоритмов с интегрированной телемедицинской системой.

Соответствие полученных результатов требованиям к выполняемому проекту подтверждается как соблюдением формальных требований технического задания, так и результатами экспериментальных исследований, демонстрирующих целесообразность использования выбранных подходов, путем:

- интеграции возможностей использования общепризнанных решений, таких как Apache Spark, Apache Storm;

- демонстрации значительного прироста в сравнительном анализе с решениями, используемыми в телемедицинских системах, в частности Автоматизированной системой дистанционного медицинского обслуживания.

Комиссия Минобрнауки России признала обязательства по Соглашению на отчетном этапе исполненными надлежащим образом.