• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2024/2025

Трансформерные и мультимодальные модели

Когда читается: 4-й курс, 1, 2 модуль
Охват аудитории: для своего кампуса
Язык: русский

Программа дисциплины

Аннотация

Курс состоит из двух частей.1.ТрансформерыОбзор современных трансформерных архитектур, погружение в схему работы механизмов внимания (attention), анализ сильных и слабых сторон, разбор различных типов моделей (энкодеры, декодеры, энкодеры-декодеры), типов задач. Анализ последних работ по модификациям архитектур трансформеров, разбор деталей обучения моделей.2.Мультимодальные моделиОдин из современных трендов в развитии LLM – умение одной большой модели работать с различными модальностями и возможность решать различные задачи с изображениями, аудио, видео и прочими. Модели уже могут ответить о содержимом изображения, понять речь из аудиофайла и ответить текстом, распознать шум на аудио. В рамках курса рассмотрим весь путь создания мультимодальной модели: подготовку датасетов, кодировщики, архитектурные модификации, стратегии обучения. Важную часть успешного обучения составляют данные. Рассмотрим opensource мультимодальные датасеты и возможности создания таких датасетов, в тч синтетических. Изучим способы кодирования данных – непрерывные или дискретные энкодеры, мультимодальные или специализированные кодировщики. Также изучим различные стратегии обучения таких моделей: расширение словаря, добавление энкодеров и обучение адаптеров, и их объединение. Данные темы сформированы с учетом продуктового опыта обучения больших мультимодальных моделей.