Глубинное обучение для текстовых данных

Бакалавриат 2024/2025

Статус: Курс по выбору (Экономика)

Кто читает: Департамент больших данных и информационного поиска

Когда читается: 4-й курс, 1, 2 модуль

Охват аудитории: для всех кампусов НИУ ВШЭ

Преподаватели: Биршерт Алексей Дмитриевич, Панков Алексей Анатольевич, Шабалин Александр Михайлович

Язык: русский

Полная версия программы учебной дисциплины Задать вопрос

Аннотация

NLP (Natural Language Processing) — это область машинного обучения, которая пытается научить компьютер понимать и обрабатывать текстовые данные. NLP лежит в основе множества технологий, таких как системы перевода и генерации текстов, голосовые помощники, суммаризаторы текстов, спам детекторы и так далее. В настоящее время такие технологии не только облегчают жизнь людям, решая несложные задачи быстрее них. Часто модели машинного обучения позволяют достигать более высокого качества и оказываются “умнее” многих людей. Примером такой модели может стать нашумевшая ChatGPT, способная корректно отвечать на вопросы по самым различным темам.В курсе мы постараемся дать вам понять и прочувствовать, что происходит в мире естественной обработки языка. Какие задачи бывают, какие проблемы встречаются в ходе их решения. Мы покажем, что NLP — это не набор пар (задача, решение), а общие идеи, которые применимы для решения множества задач и отражают некоторую общую концепцию.

Цель освоения дисциплины

Изучение базовых задач и методов обработки и анализа текстов
Изучение современных нейросетевых моделей для обработки и анализа текстов
Освоение программных систем и инструментов для обработки и анализа текстов

Планируемые результаты обучения

Знать и применять базовые методы обработки и анализа текстов
Уметь решать задачи, связанные с моделированием языка

Содержание учебной дисциплины

Векторное представление слов. Классификация текстов
Токенизация текста. Языковые модели
Рекуррентные нейронные сети
Задача Seq2seq. Трансформер. Методы семплирования токенов
BERT и GPT
Transfer learning. Parameter-Efficient Fine-tuning
Архитектурные особенности больших языковых моделей (LLM)
Уменьшение размеров модели без потери качества
Retrieval‑Augmented Generation (RAG)
Active learning
Text style transfer
Диффузионные модели для генерации текстов

Элементы контроля

Домашнее задание 1
Простейшие методы для классификации текста
Домашнее задание 2
Автодополнение текста для помощи в его наборе
Домашнее задание 3
Продвинутые рекуррентные сети
Домашнее задание 4
Реализация Трансформера
Домашнее задание 5
Реализация методов PEFT
Домашнее задание 6
Дистилляция BERT для задачи NER
Домашнее задание 7
Retrieval‑Augmented Generation (RAG)
Домашнее задание 8
Перенос стиля текста
Контрольная работа
Письменная работа, рассчитанная на одну пару.
Экзамен
Экзамен проводится в устной форме, возможно проведение в аудитории или на платформе Zoom. который включает в себя два вопроса из программы курса. Во время подготовки ответа нельзя пользоваться материалами. После ответа студенту могут быть заданы дополнительные вопросы по программе курса, а также предложены задачи на понимание теоретического материала. Такие задачи не требуют проведения обширных вычислений.

Промежуточная аттестация

2024/2025 2nd module
Итог = Округление(0.4 * ДЗ + 0.3 * КР + 0.3 * Э), где ДЗ — средняя оценка за все домашние задания, КР — оценка за контрольную работу, Э — оценка за экзамен.

Список литературы

Авторы

Сысоева Алевтина Александровна
Шабалин Александр Михайлович

Программа дисциплины

Программа дисциплины

Программа дисциплины

Аннотация

Цель освоения дисциплины

Планируемые результаты обучения

Содержание учебной дисциплины

Элементы контроля

Промежуточная аттестация

Список литературы

Рекомендуемая дополнительная литература

Авторы