Динамика обучения и ландшафт функции потерь нейронных сетей с масштабно-инвариантными параметрамиTraining dynamics and loss landscape of neural networks with scale-invariant parameters
Соискатель:
Руководитель:
Члены комитета:
Деркач Денис Александрович (НИУ ВШЭ, PhD, председатель комитета), Ли Чжиюань (Toyota Technological Institute at Chicago (TTIC), PhD, член комитета), Тараканов Александр Александрович (НИУ ВШЭ, PhD, член комитета), Устюжанин Андрей Евгеньевич ( Acronis SG, к.ф.-м.н., член комитета), Фламмарион Николас (Ecole polytechnique fédérale de Lausanne (EPFL), PhD, член комитета)
Диссертация принята к предварительному рассмотрению:
9/8/2023
Диссертация принята к защите:
11/24/2023
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
1/23/2024
Большинство современных нейронных сетей используют в своей архитектуре те или иные техники нормализации, к примеру, пакетную нормализацию (batch normalization), что эмпирически позволяет стабилизировать обучение и добиться лучшего качества. Главным следствием нормализации является масштабная инвариантность параметров, предшествующих слоям нормализации. В данной работе приводится подробное экспериментальное и теоретическое исследование влияния свойства масштабной инвариантности на динамику обучения и ландшафт функции потерь нормализованных нейросетевых моделей. В первой части работы раскрывается эффект периодического поведения динамики обучения с использованием нормализации и сокращения веса. Во второй части работы анализируются три режима обучения масштабно-инвариантных нейронных сетей на сфере, что позволяет выделить ряд особенностей внутреннего устройства ландшафта функции потерь.
Диссертация [*.pdf, 60.61 Мб] (дата размещения 9/15/2023)
Резюме [*.pdf, 5.69 Мб] (дата размещения 9/15/2023)
Summary [*.pdf, 5.56 Мб] (дата размещения 9/15/2023)
Публикации, в которых излагаются основные результаты диссертации
Kodryan, M. , Lobacheva, E. , Nakhodnov, M. , Vetrov, D. Training Scale-Invariant Neural Networks on the Sphere Can Happen in Three Regimes (смотреть на сайте журнала)
Nakhodnov, M.S. , Kodryan, M.S. , Lobacheva, E.M. , Vetrov, D.S. Loss Function Dynamics and Landscape for Deep Neural Networks Trained with Quadratic Loss (смотреть на сайте журнала)
Lobacheva, E. , Kodryan, M. , Chirkova, N. , Malinin, A. , Vetrov, D. On the Periodic Behavior of Neural Network Training with Batch Normalization and Weight Decay (смотреть на сайте журнала)
Отзывы
Отзыв научного руководителя
- Ветров Дмитрий Петрович (дата размещения 9/8/2023)
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень кандидата наук (протокол №2 от 23.01.2024). Решением диссертационного совета (протокол №1 от 06.03.2024) присуждена ученая степень кандидата компьютерных наук.
См. на ту же тему
Приложение машинного обучения к теоретико-игровым задачам: аукционы и марковские игрыКандидатская диссертация
Соискатель: Иванов Дмитрий Игоревич
Руководитель: Нестеров Александр Сергеевич
Исследование универсальности моделей статистической механики методами машинного обученияКандидатская диссертация
Соискатель: Чертенков Владислав Игоревич
Руководитель: Щур Лев Николаевич
Дата защиты: 11/5/2024
Новые представления для изображений и 3D сценКандидатская диссертация
Соискатель: Хахулин Тарас Андреевич
Руководитель: Лемпицкий Виктор Сергеевич
Дата защиты: 10/28/2024