Бакалавриат
2024/2025
Глубинное обучение в обработке звука
Статус:
Курс по выбору (Прикладная математика и информатика)
Направление:
01.03.02. Прикладная математика и информатика
Где читается:
Факультет компьютерных наук
Когда читается:
4-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Аланов Айбек,
Гринберг Петр Маркович,
Каледин Максим Львович,
Федоров Григорий Валерьевич
Язык:
русский
Кредиты:
5
Программа дисциплины
Аннотация
Задача обработки звука, в частности человеческого голоса, представляет большой интерес в индустрии. В данном курсе будут рассмотрены в основном современные нейросетевые подходы для таких фундаментальных задач как распознавание и генерация голоса. Так же будут рассмотрены такие задачи как распознавание ключевых слов, голосовая биометрия, определение тишины, audio style transfer и генерация музыки.
Цель освоения дисциплины
- Понимать как физически устроен звук, его характеристики и разные цифровые представления
- Разбираться в современных подходах распознавания речи
- Уметь написать и обучить нейронную сеть для распознавания речи и детекции ключевых слов
Планируемые результаты обучения
- Знать про верификацию и идентификацию голоса
- Разбираться в современных подходах синтеза речи.
- Уметь написать и обучить нейронную сеть для синтеза голоса из текста
Содержание учебной дисциплины
- Задачи обработки звука и проектирование решений
- Цифровое представление звука
- Распознавание речи (ASR) I
- Распознавание речи (ASR) II
- Выделение отдельных источников звука (Source Separation) I
- Выделение отдельных источников звука (Source Separation) II
- Синтез голоса (TTS)
- Синтез голоса (Vocoders)
- Верификация и идентификация голоса I (Speaker Verification)
- Верификация и идентификация голоса II (Anti-Spoofing)
- Генерация музыки
- Гостевые лекции
Элементы контроля
- ДЗ1 - Распознавание речи
- Проект: программный код
- Проект: отчёт
- ДЗ-2 Синтез речи
- Экзамен
Промежуточная аттестация
- 2024/2025 2nd moduleОитог = 0.7*Онакоп + 0.3Оэкз Онакоп = 0.3*ОДЗ1 + 0.25Опр(код) + 0.25Опр(отчёт) + 0.2ОДЗ2
Список литературы
Рекомендуемая основная литература
- Chan, W., Jaitly, N., Le, Q. V., & Vinyals, O. (2015). Listen, Attend and Spell.
- Hannun, A., Case, C., Casper, J., Catanzaro, B., Diamos, G., Elsen, E., Prenger, R., Satheesh, S., Sengupta, S., Coates, A., & Ng, A. Y. (2014). Deep Speech: Scaling up end-to-end speech recognition.
Рекомендуемая дополнительная литература
- Graves, A., Fernàndez, S., Gomez, F., & Schmidhuber, J. (2017). Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.163BBE7B