Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.

  • A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Исследование и разработка метода ускорения операции соединения распределенных массивов данных по заданному критериюResearch and development of a method for accelerating the operation of joining distributed datasets according to a given criterion

Соискатель:
Тырышкина Евгения Сергеевна
Члены комитета:
Иванов Федор Ильич (Московский институт электроники и математики им. А.Н. Тихонова, Национальный исследовательский университет «Высшая школа экономики», д.н.п-м, председатель комитета), Аксенов Виталий Евгеньевич (Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, PhD, член комитета), Афанасьев Александр Петрович (Центр распределённых вычислений Института проблем передачи информации имени А. А. Харкевича РАН, д. ф.-м. н., член комитета), Крук Евгений Аврамович (Московский институт электроники и математики им. А.Н. Тихонова, Национальный исследовательский университет «Высшая школа экономики», д.т.н, член комитета), Стегайлов Владимир Владимирович (Московский физико-технический институт, д. ф.-м. н., член комитета)
Диссертация принята к предварительному рассмотрению:
4.04.2024
Диссертация принята к защите:
18.06.2024
Дисс. совет:
Совет по инженерным наукам и прикладной математике
Дата защиты:
16.09.2024
Диссертационное исследование посвящено разработке метода ускорения операции соединения (слияния) данных по заданному критерию, которая представляет собой одну из тяжелых аналитических вычислительных задач. Выявлены две ранее до конца не изученные лимитирующие стадии выполнения операции соединения распределенных массивов данных по заданному критерию: стадия сортировки и стадия перемещения данных по вычислительному кластеру. Разработан метод ускорения операции соединения массивов данных отличающийся от известных тем, что данные одного из объединяемых наборов данных не сортируются и не перемещаются внутри кластера. Для подтверждения работоспособности разработанного метода создана методика, отличающаяся от известных тем, что использует приемы партиционирования и частичной передачи наборов на вычислительные узлы кластера. Выполнены компьютерные эксперименты, показавшие адекватность и эффективность разработанного метода ускорения операции соединения распределенных массивов данных. Алгоритм, разработанный на основе предлагаемого в работе метода, был разработан во фреймворке Apache Spark.
Диссертация [*.pdf, 4.72 Мб] (дата размещения 1.07.2024)
Резюме [*.pdf, 1.48 Мб] (дата размещения 1.07.2024)
Summary [*.pdf, 916.34 Кб] (дата размещения 1.07.2024)

Отзывы
Отзыв научного руководителя
Сведения о результатах защиты:
Комитет по диссертации рекомедовал диссертационному совету присудить ученую степень кандидата наук (Протокол №2 от 16.09.2024). Решением диссертационного совета присуждена ученая степень кандидата технических наук (Протокол № 29 от 30.09.2024 г.)