Методы машинного обучения для контроля качества данных в научных экспериментахMachine learning methods for data quality monitoring in natural sciences
Соискатель:
Борисяк Максим Александрович
Руководитель:
Устюжанин Андрей Евгеньевич (др. работы под рук-вом)
Члены комитета:
Игнатов Дмитрий Игоревич (Национальный исследовательский университет "Высшая школа экономики" (Нижний Новгород), кандидат технических наук, председатель комитета), Артемов Алексей Валерьевич (Сколковский институт науки и технологий, кандидат физико-математических наук, член комитета), Атилим Гунеш Байдин (Университет Оксфорда, PhD, член комитета), Бурцев Михаил Сергеевич (Московский физико-технический институт (национальный исследовательский университет), кандидат физико-математических наук, член комитета), Жиль Лупп (Университет Льежа, PhD, член комитета)
Диссертация принята к предварительному рассмотрению:
8/7/2020
Диссертация принята к защите:
9/22/2020 (протокол №12)
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
10/15/2020
В современных экспериментах контроль качества данных играет ключевую роль. С ростом сложности экспериментальных установок контроль качества данных все сильнее и сильнее опирается на методы машинного обучения. В данной диссертации рассматриваются главные свойства систем контроля качества данных и связанные с ними задачи машинного обучения. Во-первых, рассматривается краеугольный камень контроля качества данных - детектирование аномалий. Показано, что существующие методы не полностью покрывают весь спектр задач детектирования аномалий и предлагается новое семейство методов, которые устойчивы к новым видам аномалий и несбалансированным обучающим выборкам. Во-вторых, предлагается алгоритм определения источников аномалий, который увеличивает возможности систем контроля качества данных. Дополнительно рассматриваются задачи сбора обучающих выборок для тренировки алгоритмов контроля качества данных, а именно: ручная разметка и генерация данных средствами компьютерных симуляций. Продемонстрировано, что активное обучение способно значительно снизить нагрузку на экспертов при ручной разметке данных. Чтобы гарантировать корректность обучения на сгенерированных данных, рассматривается задача тонкой настройки компьютерных симуляций и предлагается новое семейство состязательных дивергенций, позволяющих значительно ускорить процедуры тонкой настройки.
Диссертация [*.pdf, 6.77 Мб] (дата размещения 8/7/2020)
Резюме [*.pdf, 3.93 Мб] (дата размещения 8/7/2020)
Summary [*.pdf, 3.88 Мб] (дата размещения 8/7/2020)
Публикации, в которых излагаются основные результаты диссертации
Отзывы
Отзыв научного руководителя
- Отзыв научного руководителя (дата размещения 8/7/2020)
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень кандидата наук (протокол № 2 от 15.10.2020). Решением диссертационного совета (протокол № 15 от 26.10.2020) присуждена ученая степень кандидата компьютерных наук.