Генеративные модели в машинном обучении

2024/2025

Статус: Маго-лего

Кто читает: Департамент больших данных и информационного поиска

Когда читается: 1 модуль

Охват аудитории: для своего кампуса

Преподаватели: Гущин Михаил Иванович

Язык: русский

Кредиты: 3

Полная версия программы учебной дисциплины Задать вопрос

Аннотация

Данный курс является идейным продолжением модульного курса по Глубинному обучению. В нём студентам предстоит изучить принципиально важные (прежде всего) для задачи генерации текста трансформерные модели, а также семейство генеративных моделей широкого применения: генеративно-состязательные сети, вариационные автокодировщики, нормализующие потоки и диффузию, SoTa в задаче генерации реалистичных изображений. В последнем блоке курса дается обзор подходов к построению мультимодальных генеративных моделей (преимущественно для доменов text и image), синтезу речи, а также оптимизации инференса

Цель освоения дисциплины

Глубокое понимание студентами архитектуры трансформера и механизма внимания, их применимости в различных задачах;
Знание студентом разницы между моделями BERT, GPT и T5; границами их применимости;
Умение написать и обучить свою модель GAN//VAE//NF//Diffusion применительно к данным из домена изображений; знание различий между классами генеративных моделей, их достоинств и недостатков;
Способность решать задачи генерации текстового описания к картинкам и, наоборот, изображения по его текстовому описанию;
Понимание устройства нейросетей для синтеза речи, особенностей домена;
Возможность эффективного использования моделей для инференса (техники дистилляции знаний, прунинга, квантизации и пр.)

Планируемые результаты обучения

Глубокое понимание студентами архитектуры трансформера и механизма внимания, их применимости в различных задачах;
Знание студентом разницы между моделями BERT, GPT и T5; границами их применимости;
Умение написать и обучить свою модель GAN на pytorch применительно к данным из домена изображений;
знание достоинств и недостатков генеративно-состязательных сетей и тонкостей их обучения;
Умение написать и обучить свою модель VAE и Normalizing Flows применительно к данным из домена изображений;
понимание достоинств и недостатков обеих моделей, разницы между работой моделей на инференсе и обучении;
Умение написать и обучить свою модель Diffusion для генерации фотореалистичных изображений;
Способность решать задачи генерации текстового описания к картинкам и, наоборот, изображения по его текстовому описанию;
Понимание устройства нейросетей для синтеза речи, особенностей домена
Возможность эффективного использования моделей для инференса (техники дистилляции знаний, прунинга, квантизации и пр.)

Содержание учебной дисциплины

Трансформеры и их архитектуры
Генеративно-состязательные сети (GANs)
Вариационные автокодировщики (VAE) и нормализующие потоки (Normalizing Flows)
Диффузионные модели
CLIP и ViT
Синтез речи (Text-to-Speech, TTS)
Оптимизация моделей

Элементы контроля

Домашние задания
Тесты
Экзамен
Другое

Промежуточная аттестация

2024/2025 1st module
Общая оценка: 0.5*ДЗ + 0.15*Тесты + 0.25*Экз. + 0.1*Stepik

Список литературы

Авторы

Ахмедова Гюнай Интигам кызы
Гущин Михаил Иванович

Программа дисциплины

Программа дисциплины

Программа дисциплины

Аннотация

Цель освоения дисциплины

Планируемые результаты обучения

Содержание учебной дисциплины

Элементы контроля

Промежуточная аттестация

Список литературы

Рекомендуемая основная литература

Рекомендуемая дополнительная литература

Авторы