2024/2025
Генеративные модели в машинном обучении
Статус:
Маго-лего
Когда читается:
1 модуль
Охват аудитории:
для своего кампуса
Преподаватели:
Гущин Михаил Иванович
Язык:
русский
Кредиты:
3
Программа дисциплины
Аннотация
Данный курс является идейным продолжением модульного курса по Глубинному обучению. В нём студентам предстоит изучить принципиально важные (прежде всего) для задачи генерации текста трансформерные модели, а также семейство генеративных моделей широкого применения: генеративно-состязательные сети, вариационные автокодировщики, нормализующие потоки и диффузию, SoTa в задаче генерации реалистичных изображений. В последнем блоке курса дается обзор подходов к построению мультимодальных генеративных моделей (преимущественно для доменов text и image), синтезу речи, а также оптимизации инференса
Цель освоения дисциплины
- Глубокое понимание студентами архитектуры трансформера и механизма внимания, их применимости в различных задачах;
- Знание студентом разницы между моделями BERT, GPT и T5; границами их применимости;
- Умение написать и обучить свою модель GAN//VAE//NF//Diffusion применительно к данным из домена изображений; знание различий между классами генеративных моделей, их достоинств и недостатков;
- Способность решать задачи генерации текстового описания к картинкам и, наоборот, изображения по его текстовому описанию;
- Понимание устройства нейросетей для синтеза речи, особенностей домена;
- Возможность эффективного использования моделей для инференса (техники дистилляции знаний, прунинга, квантизации и пр.)
Планируемые результаты обучения
- Глубокое понимание студентами архитектуры трансформера и механизма внимания, их применимости в различных задачах;
- Знание студентом разницы между моделями BERT, GPT и T5; границами их применимости;
- Умение написать и обучить свою модель GAN на pytorch применительно к данным из домена изображений;
- знание достоинств и недостатков генеративно-состязательных сетей и тонкостей их обучения;
- Умение написать и обучить свою модель VAE и Normalizing Flows применительно к данным из домена изображений;
- понимание достоинств и недостатков обеих моделей, разницы между работой моделей на инференсе и обучении;
- Умение написать и обучить свою модель Diffusion для генерации фотореалистичных изображений;
- Способность решать задачи генерации текстового описания к картинкам и, наоборот, изображения по его текстовому описанию;
- Понимание устройства нейросетей для синтеза речи, особенностей домена
- Возможность эффективного использования моделей для инференса (техники дистилляции знаний, прунинга, квантизации и пр.)
Содержание учебной дисциплины
- Трансформеры и их архитектуры
- Генеративно-состязательные сети (GANs)
- Вариационные автокодировщики (VAE) и нормализующие потоки (Normalizing Flows)
- Диффузионные модели
- CLIP и ViT
- Синтез речи (Text-to-Speech, TTS)
- Оптимизация моделей
Промежуточная аттестация
- 2024/2025 1st moduleОбщая оценка: 0.5*ДЗ + 0.15*Тесты + 0.25*Экз. + 0.1*Stepik
Список литературы
Рекомендуемая основная литература
- Глубокое обучение, Гудфеллоу, Я., 2018
Рекомендуемая дополнительная литература
- Знакомство с PyTorch: глубокое обучение при обработке естественного языка - 978-5-4461-1241-8 - Брайан Макмахан, Делип Рао - 2021 - Санкт-Петербург: Питер - https://ibooks.ru/bookshelf/374453 - 374453 - iBOOKS