Глубинное обучение для текстовых данных

Бакалавриат 2024/2025

Статус: Курс обязательный (Компьютерные науки и анализ данных)

Направление: 01.03.02. Прикладная математика и информатика

Кто читает: Департамент больших данных и информационного поиска

Где читается: Факультет компьютерных наук

Когда читается: 4-й курс, 1, 2 модуль

Формат изучения: без онлайн-курса

Охват аудитории: для своего кампуса

Язык: русский

Кредиты: 5

Полная версия программы учебной дисциплины Задать вопрос

Аннотация

NLP (Natural Language Processing) — это область машинного обучения, которая пытается научить компьютер понимать и обрабатывать текстовые данные. NLP лежит в основе множества технологий, таких как системы перевода и генерации текстов, голосовые помощники, суммаризаторы текстов, спам детекторы и так далее. В настоящее время такие технологии не только облегчают жизнь людям, решая несложные задачи быстрее них. Часто модели машинного обучения позволяют достигать более высокого качества и оказываются “умнее” многих людей. Примером такой модели может стать нашумевшая ChatGPT, способная корректно отвечать на вопросы по самым различным темам.В курсе мы постараемся дать вам понять и прочувствовать, что происходит в мире естественной обработки языка. Какие задачи бывают, какие проблемы встречаются в ходе их решения. Мы покажем, что NLP — это не набор пар (задача, решение), а общие идеи, которые применимы для решения множества задач и отражают некоторую общую концепцию.

Цель освоения дисциплины

Изучение базовых задач и методов обработки и анализа текстов
Изучение современных нейросетевых моделей для обработки и анализа текстов
Освоение программных систем и инструментов для обработки и анализа текстов

Планируемые результаты обучения

Знать и применять базовые методы обработки и анализа текстов
Уметь решать задачи, связанные с моделированием языка

Содержание учебной дисциплины

Введение. Статистический анализ текстов
Векторные модели представления слов
Классификация текстов
Машинный перевод
Рекуррентные нейронные сети
Способы токенизации последовательностей
Обзор языковых моделей
Генеративные языковые модели
Трансформерные модели
Способы уменьшения размеров моделей
Распознавание сущностей, решение задач классификации последовательностей
Задача суммаризации
Диффузионные модели для генерации текстов
Мультиязыковые модели

Элементы контроля

Домашнее задание 1
Простейшие методы для классификации текста
Домашнее задание 4
Реализация Трансформера
Домашнее задание 5
Реализация методов PEFT
Домашнее задание 6
Дистилляция BERT для задачи NER
Домашнее задание 7
Retrieval‑Augmented Generation (RAG)
Домашнее задание 3
Продвинутые рекуррентные сети
Контрольная работа
Письменная работа, рассчитанная на одну пару.
Домашнее задание 8
Перенос стиля текста
Экзамен
Экзамен проводится в устной форме, возможно проведение в аудитории или на платформе Zoom. который включает в себя два вопроса из программы курса. Во время подготовки ответа нельзя пользоваться материалами. После ответа студенту могут быть заданы дополнительные вопросы по программе курса, а также предложены задачи на понимание теоретического материала. Такие задачи не требуют проведения обширных вычислений.
Домашнее задание 2
Автодополнение текста для помощи в его наборе

Промежуточная аттестация

2024/2025 2nd module
Итог = Округление(0.4 * ДЗ + 0.3 * КР + 0.3 * Э), где ДЗ — средняя оценка за все домашние задания, КР — оценка за контрольную работу, Э — оценка за экзамен.

Список литературы

Авторы

Черняк Екатерина Леонидовна
Ахмедова Гюнай Интигам кызы

Программа дисциплины