Генеративные модели для улучшения речиGenerative models for speech enhancement
Соискатель:
Андреев Павел Константинович
Руководитель:
Члены комитета:
Каледин Максим Львович (НИУ ВШЭ, к.комп.н., председатель комитета), Бурнаев Евгений Владимирович (Сколковский институт науки и технологий, д.ф.-м.н., член комитета), Кипяткова Ирина Сергеевна (Спб ФИЦ РАН, к.т.н, член комитета), Кудинов Михаил Сергеевич (Huawei, к.т.н., член комитета), Рюмин Дмитрий Александрович (Спб ФИЦ РАН, к.т.н., член комитета)
Диссертация принята к предварительному рассмотрению:
8/29/2024
Диссертация принята к защите:
9/19/2024
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
12/16/2024
В диссертации рассматриваются современные методы улучшения речи с использованием генеративных моделей для преодоления ограничений регрессионных методов, которые часто приводят к чрезмерному сглаживанию сигнала и потере важных частотных компонент. В работе исследуется использование генеративно-состязательных сетей (GAN) для улучшения речи и предлагаются новые нейросетевые архитектуры для этой задачи. Также рассматривается новая методика обучения авторегрессионных моделей для улучшения речи с низкой задержкой в потоковых приложениях. В заключительной части работы разработана диффузионная вероятностная модель, позволяющая решать задачи инверсии деградаций речевых сигналов без точного знания модели деградации во время обучения. Диссертация включает как теоретические выводы, так и практические результаты, демонстрирующие повышение качества улучшения речи в различных сценариях.
Диссертация [*.pdf, 6.37 Мб] (дата размещения 10/4/2024)
Резюме [*.pdf, 1.93 Мб] (дата размещения 10/4/2024)
Summary [*.pdf, 1.89 Мб] (дата размещения 10/4/2024)
Публикации, в которых излагаются основные результаты диссертации
Shchekotov I., Andreev P., Ivanov O., Alanov A., Vetrov D. FFC-SE: Fast Fourier Convolution for Speech Enhancement (смотреть на сайте журнала)
Iashchenko A., Andreev P., Shchekotov I., Babaev N., Vetrov D. UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion Model (смотреть на сайте журнала)
Andreev P., Babaev N., Shchekotov I., Saginbaev A., Alanov A. Iterative autoregression: a novel trick to improve your low-latency speech enhancement model (смотреть на сайте журнала)
Andreev P., Alanov A., Ivanov O., Vetrov D. HIFI++: A Unified Framework for Bandwidth Extension and Speech Enhancement (смотреть на сайте журнала)
Отзывы
Отзыв научного руководителя
- Конушин Антон Сергеевич (дата размещения 9/2/2024)
См. на ту же тему
Применение методов машинного обучения к идентификации частиц в детекторе LHCbКандидатская диссертация
Соискатель: Казеев Никита Александрович
Руководитель: Устюжанин Андрей Евгеньевич
Дата защиты: 10/21/2020