Генеративные модели для улучшения речиGenerative models for speech enhancement

Соискатель:

Андреев Павел Константинович

Руководитель:

Конушин Антон Сергеевич (др. работы под рук-вом)

Члены комитета:

Каледин Максим Львович (НИУ ВШЭ, к.комп.н., председатель комитета), Бурнаев Евгений Владимирович (Сколковский институт науки и технологий, д.ф.-м.н., член комитета), Кипяткова Ирина Сергеевна (Спб ФИЦ РАН, к.т.н, член комитета), Кудинов Михаил Сергеевич (Huawei, к.т.н., член комитета), Рюмин Дмитрий Александрович (Спб ФИЦ РАН, к.т.н., член комитета)

Диссертация принята к предварительному рассмотрению:

29.08.2024

Диссертация принята к защите:

19.09.2024

Дисс. совет:

Совет по компьютерным наукам

Дата защиты:

16.12.2024

В диссертации рассматриваются современные методы улучшения речи с использованием генеративных моделей для преодоления ограничений регрессионных методов, которые часто приводят к чрезмерному сглаживанию сигнала и потере важных частотных компонент. В работе исследуется использование генеративно-состязательных сетей (GAN) для улучшения речи и предлагаются новые нейросетевые архитектуры для этой задачи. Также рассматривается новая методика обучения авторегрессионных моделей для улучшения речи с низкой задержкой в потоковых приложениях. В заключительной части работы разработана диффузионная вероятностная модель, позволяющая решать задачи инверсии деградаций речевых сигналов без точного знания модели деградации во время обучения. Диссертация включает как теоретические выводы, так и практические результаты, демонстрирующие повышение качества улучшения речи в различных сценариях.

Диссертация [*.pdf, 6.37 Мб] (дата размещения 4.10.2024)

Резюме [*.pdf, 1.93 Мб] (дата размещения 4.10.2024)

Summary [*.pdf, 1.89 Мб] (дата размещения 4.10.2024)

Публикации, в которых излагаются основные результаты диссертации

Shchekotov I., Andreev P., Ivanov O., Alanov A., Vetrov D. FFC-SE: Fast Fourier Convolution for Speech Enhancement (смотреть на сайте журнала)

Iashchenko A., Andreev P., Shchekotov I., Babaev N., Vetrov D. UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion Model (смотреть на сайте журнала)

Andreev P., Babaev N., Shchekotov I., Saginbaev A., Alanov A. Iterative autoregression: a novel trick to improve your low-latency speech enhancement model (смотреть на сайте журнала)

Andreev P., Alanov A., Ivanov O., Vetrov D. HIFI++: A Unified Framework for Bandwidth Extension and Speech Enhancement (смотреть на сайте журнала)

Отзывы

Отзыв научного руководителя

Конушин Антон Сергеевич (дата размещения 2.09.2024)

Отзыв члена Комитета

Кудинов Михаил Сергеевич (дата размещения 28.11.2024)
Рюмин Дмитрий Александрович (дата размещения 28.11.2024)
Каледин Максим Львович (дата размещения 28.11.2024)
Бурнаев Евгений Владимирович (дата размещения 28.11.2024)
Кипяткова Ирина Сергеевна (дата размещения 28.11.2024)

Сведения о результатах защиты:

Комитет по диссертации рекомендовал присудить ученую степень кандидата наук (протокол № 2 от 16.12.2024) ;Решением диссертационного совета (протокол № 13 от 26.12.2024) присуждена ученая степень кандидата компьютерных наук.

Ключевые слова:

генеративно-состязательные сети, генеративные модели, диффузионные модели, удаление шума в аудио, улучшение речи

См. на ту же тему

Применение методов машинного обучения к идентификации частиц в детекторе LHCbКандидатская диссертация

Соискатель: Казеев Никита Александрович
Руководитель: Устюжанин Андрей Евгеньевич
Дата защиты: 21.10.2020