Глубинное обучение для текстовых данных

Бакалавриат 2024/2025

Лучший по критерию «Полезность курса для Вашей будущей карьеры»

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»

Статус: Курс по выбору (Прикладная математика и информатика)

Направление: 01.03.02. Прикладная математика и информатика

Кто читает: Департамент больших данных и информационного поиска

Где читается: Факультет компьютерных наук

Когда читается: 4-й курс, 1, 2 модуль

Формат изучения: без онлайн-курса

Охват аудитории: для всех кампусов НИУ ВШЭ

Преподаватели: Биршерт Алексей Дмитриевич, Панков Алексей Анатольевич, Шабалин Александр Михайлович

Язык: русский

Кредиты: 5

Дополнительные материалы в LMS Задать вопрос

Аннотация

NLP (Natural Language Processing) — это область машинного обучения, которая пытается научить компьютер понимать и обрабатывать текстовые данные. NLP лежит в основе множества технологий, таких как системы перевода и генерации текстов, голосовые помощники, суммаризаторы текстов, спам детекторы и так далее. В настоящее время такие технологии не только облегчают жизнь людям, решая несложные задачи быстрее них. Часто модели машинного обучения позволяют достигать более высокого качества и оказываются “умнее” многих людей. Примером такой модели может стать нашумевшая ChatGPT, способная корректно отвечать на вопросы по самым различным темам.В курсе мы постараемся дать вам понять и прочувствовать, что происходит в мире естественной обработки языка. Какие задачи бывают, какие проблемы встречаются в ходе их решения. Мы покажем, что NLP — это не набор пар (задача, решение), а общие идеи, которые применимы для решения множества задач и отражают некоторую общую концепцию.

Цель освоения дисциплины

Изучение базовых задач и методов обработки и анализа текстов
Изучение современных нейросетевых моделей для обработки и анализа текстов
Освоение программных систем и инструментов для обработки и анализа текстов

Планируемые результаты обучения

Знать и применять базовые методы обработки и анализа текстов
Уметь решать задачи, связанные с моделированием языка

Содержание учебной дисциплины

Векторное представление слов. Классификация текстов
Токенизация текста. Языковые модели
Рекуррентные нейронные сети
Задача Seq2seq. Трансформер. Методы семплирования токенов
BERT и GPT
Transfer learning. Parameter-Efficient Fine-tuning
Архитектурные особенности больших языковых моделей (LLM)
Уменьшение размеров модели без потери качества
Retrieval‑Augmented Generation (RAG)
Active learning
Text style transfer
Диффузионные модели для генерации текстов

Элементы контроля

Домашнее задание 1
Простейшие методы для классификации текста
Домашнее задание 2
Автодополнение текста для помощи в его наборе
Домашнее задание 3
Продвинутые рекуррентные сети
Домашнее задание 4
Реализация Трансформера
Домашнее задание 5
Реализация методов PEFT
Домашнее задание 6
Дистилляция BERT для задачи NER
Домашнее задание 7
Retrieval‑Augmented Generation (RAG)
Домашнее задание 8
Перенос стиля текста
Контрольная работа
Письменная работа, рассчитанная на одну пару.
Экзамен
Экзамен проводится в устной форме, возможно проведение в аудитории или на платформе Zoom. который включает в себя два вопроса из программы курса. Во время подготовки ответа нельзя пользоваться материалами. После ответа студенту могут быть заданы дополнительные вопросы по программе курса, а также предложены задачи на понимание теоретического материала. Такие задачи не требуют проведения обширных вычислений.

Промежуточная аттестация

2024/2025 2nd module
Итог = Округление(0.4 * ДЗ + 0.3 * КР + 0.3 * Э), где ДЗ — средняя оценка за все домашние задания, КР — оценка за контрольную работу, Э — оценка за экзамен.

Список литературы

Авторы

Сысоева Алевтина Александровна
Шабалин Александр Михайлович

Программа дисциплины