• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Исследование и разработка метода ускорения операции соединения распределенных массивов данных по заданному критериюResearch and development of a method for accelerating the operation of joining distributed datasets according to a given criterion

Соискатель:
Тырышкина Евгения Сергеевна
Члены комитета:
Иванов Федор Ильич (Московский институт электроники и математики им. А.Н. Тихонова, Национальный исследовательский университет «Высшая школа экономики», д.н.п-м, председатель комитета), Аксенов Виталий Евгеньевич (Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, PhD, член комитета), Афанасьев Александр Петрович (Центр распределённых вычислений Института проблем передачи информации имени А. А. Харкевича РАН, д. ф.-м. н., член комитета), Крук Евгений Аврамович (Московский институт электроники и математики им. А.Н. Тихонова, Национальный исследовательский университет «Высшая школа экономики», д.т.н, член комитета), Стегайлов Владимир Владимирович (Московский физико-технический институт, д. ф.-м. н., член комитета)
Диссертация принята к предварительному рассмотрению:
4/4/2024
Диссертация принята к защите:
6/18/2024
Дисс. совет:
Совет по инженерным наукам и прикладной математике
Дата защиты:
9/16/2024
Диссертационное исследование посвящено разработке метода ускорения операции соединения (слияния) данных по заданному критерию, которая представляет собой одну из тяжелых аналитических вычислительных задач. Выявлены две ранее до конца не изученные лимитирующие стадии выполнения операции соединения распределенных массивов данных по заданному критерию: стадия сортировки и стадия перемещения данных по вычислительному кластеру. Разработан метод ускорения операции соединения массивов данных отличающийся от известных тем, что данные одного из объединяемых наборов данных не сортируются и не перемещаются внутри кластера. Для подтверждения работоспособности разработанного метода создана методика, отличающаяся от известных тем, что использует приемы партиционирования и частичной передачи наборов на вычислительные узлы кластера. Выполнены компьютерные эксперименты, показавшие адекватность и эффективность разработанного метода ускорения операции соединения распределенных массивов данных. Алгоритм, разработанный на основе предлагаемого в работе метода, был разработан во фреймворке Apache Spark.
Диссертация [*.pdf, 4.10 Мб] (дата размещения 7/1/2024)
Резюме [*.pdf, 1.48 Мб] (дата размещения 7/1/2024)
Summary [*.pdf, 916.34 Кб] (дата размещения 7/1/2024)