• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Разработка симулятора распределенной обработки данных на кластере

ФИО студента: Гороховский Максим Андреевич

Руководитель: Сухорослов Олег Викторович

Кампус/факультет: Факультет компьютерных наук

Программа: Современные компьютерные науки (Магистратура)

Год защиты: 2024

На данный момент во многих областях существуют задачи, требующие проведения сложных вычислений над большим набором данных. Многие такие задачи можно сформулировать в терминах модели программирования MapReduce или Spark. А именно, представить вычисления в виде ориентированного ацикличного графа этапов, где каждый этап состоит из десятков или сотен однотипных задач. При этом возникает задача создания расписания выполнения такого графа, учитывающего все зависимости и минимизирующего суммарное время выполнения графа. Дополнительная сложность заключается в том, что требуется выполнить не один граф, а множество графов, поступающих на кластер непрерывным потоком. Для упрощения разработки таких алгоритмов, улучшения скорости проверки гипотез и воспроизводимости полученных результатов зачастую используются симуляторы. В данной статье описана разработка симулятора распределенной обработки данных на кластере, позволяющего реализовывать, запускать и сравнивать результаты различных алгоритмов планирования графов, а также стратегий управления данными. В данной работе также реализованы инструменты для упрощения анализа результатов экспериментов, такие как генерация входных данных на основе трейсов компании Alibaba, построение графиков утилизации ресурсов кластера и запуск множества экспериментов на декартовом произведении конфигураций систем, алгоритмов планирования и планов поступления задач на кластер. Для демонстрации разработанного симулятора в работе реализовано несколько существующих алгоритмов планирования и проведен их сравнительный анализ, показывающий работоспособность симулятора и инструментов для обработки результатов симуляции. Ключевые слова: распределенные системы, имитационное моделирование распределенных систем, алгоритмы планирования графов, распределенное хранилище данных, распределенная обработка данных на кластере

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ