• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Deep Learning for Sound Processing

2024/2025
Academic Year
RUS
Instruction in Russian
5
ECTS credits
Course type:
Elective course
When:
4 year, 1, 2 module

Instructors


Гринберг Петр Маркович

Программа дисциплины

Аннотация

Задача обработки звука, в частности человеческого голоса, представляет большой интерес в индустрии. В данном курсе будут рассмотрены в основном современные нейросетевые подходы для таких фундаментальных задач как распознавание и генерация голоса. Так же будут рассмотрены такие задачи как распознавание ключевых слов, голосовая биометрия, определение тишины, audio style transfer и генерация музыки.
Цель освоения дисциплины

Цель освоения дисциплины

  • Понимать как физически устроен звук, его характеристики и разные цифровые представления
  • Разбираться в современных подходах распознавания речи
  • Уметь написать и обучить нейронную сеть для распознавания речи и детекции ключевых слов
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать про верификацию и идентификацию голоса
  • Разбираться в современных подходах синтеза речи.
  • Уметь написать и обучить нейронную сеть для синтеза голоса из текста
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Задачи обработки звука и проектирование решений
  • Цифровое представление звука
  • Распознавание речи (ASR) I
  • Распознавание речи (ASR) II
  • Выделение отдельных источников звука (Source Separation) I
  • Выделение отдельных источников звука (Source Separation) II
  • Синтез голоса (TTS)
  • Синтез голоса (Vocoders)
  • Верификация и идентификация голоса I (Speaker Verification)
  • Верификация и идентификация голоса II (Anti-Spoofing)
  • Генерация музыки
  • Гостевые лекции
Элементы контроля

Элементы контроля

  • неблокирующий ДЗ1 - Распознавание речи
  • неблокирующий Проект: программный код
  • неблокирующий Проект: отчёт
  • неблокирующий ДЗ-2 Синтез речи
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 2nd module
    Оитог = 0.7*Онакоп + 0.3Оэкз Онакоп = 0.3*ОДЗ1 + 0.25Опр(код) + 0.25Опр(отчёт) + 0.2ОДЗ2
Список литературы

Список литературы

Рекомендуемая основная литература

  • Chan, W., Jaitly, N., Le, Q. V., & Vinyals, O. (2015). Listen, Attend and Spell.
  • Hannun, A., Case, C., Casper, J., Catanzaro, B., Diamos, G., Elsen, E., Prenger, R., Satheesh, S., Sengupta, S., Coates, A., & Ng, A. Y. (2014). Deep Speech: Scaling up end-to-end speech recognition.

Рекомендуемая дополнительная литература

  • Graves, A., Fernàndez, S., Gomez, F., & Schmidhuber, J. (2017). Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.163BBE7B

Авторы

  • Сысоева Алевтина Александровна
  • Маркович Александр