Бакалавриат
2024/2025
Трансформерные и мультимодальные модели
Статус:
Курс по выбору (Прикладная математика и информатика)
Когда читается:
4-й курс, 1, 2 модуль
Охват аудитории:
для своего кампуса
Преподаватели:
Жестков Борис Григорьевич
Язык:
русский
Программа дисциплины
Аннотация
Курс состоит из двух частей.1.ТрансформерыОбзор современных трансформерных архитектур, погружение в схему работы механизмов внимания (attention), анализ сильных и слабых сторон, разбор различных типов моделей (энкодеры, декодеры, энкодеры-декодеры), типов задач. Анализ последних работ по модификациям архитектур трансформеров, разбор деталей обучения моделей.2.Мультимодальные моделиОдин из современных трендов в развитии LLM – умение одной большой модели работать с различными модальностями и возможность решать различные задачи с изображениями, аудио, видео и прочими. Модели уже могут ответить о содержимом изображения, понять речь из аудиофайла и ответить текстом, распознать шум на аудио. В рамках курса рассмотрим весь путь создания мультимодальной модели: подготовку датасетов, кодировщики, архитектурные модификации, стратегии обучения. Важную часть успешного обучения составляют данные. Рассмотрим opensource мультимодальные датасеты и возможности создания таких датасетов, в тч синтетических. Изучим способы кодирования данных – непрерывные или дискретные энкодеры, мультимодальные или специализированные кодировщики. Также изучим различные стратегии обучения таких моделей: расширение словаря, добавление энкодеров и обучение адаптеров, и их объединение. Данные темы сформированы с учетом продуктового опыта обучения больших мультимодальных моделей.