Глубинное обучение для текстовых данных

Бакалавриат 2023/2024

Лучший по критерию «Полезность курса для Вашей будущей карьеры»

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»

Статус: Курс по выбору (Прикладная математика и информатика)

Направление: 01.03.02. Прикладная математика и информатика

Кто читает: Департамент больших данных и информационного поиска

Где читается: Факультет компьютерных наук

Когда читается: 4-й курс, 1, 2 модуль

Формат изучения: без онлайн-курса

Охват аудитории: для всех кампусов НИУ ВШЭ

Преподаватели: Мещанинов Вячеслав Павлович, Шабалин Александр Михайлович

Язык: русский

Кредиты: 5

Контактные часы: 56

Полная версия программы учебной дисциплины Задать вопрос

Аннотация

NLP (Natural Language Processing) — это область машинного обучения, которая пытается научить компьютер понимать и обрабатывать текстовые данные. NLP лежит в основе множества технологий, таких как системы перевода и генерации текстов, голосовые помощники, суммаризаторы текстов, спам детекторы и так далее. В настоящее время такие технологии не только облегчают жизнь людям, решая несложные задачи быстрее них. Часто модели машинного обучения позволяют достигать более высокого качества и оказываются “умнее” многих людей. Примером такой модели может стать нашумевшая ChatGPT, способная корректно отвечать на вопросы по самым различным темам.В курсе мы постараемся дать вам понять и прочувствовать, что происходит в мире естественной обработки языка. Какие задачи бывают, какие проблемы встречаются в ходе их решения. Мы покажем, что NLP — это не набор пар (задача, решение), а общие идеи, которые применимы для решения множества задач и отражают некоторую общую концепцию.

Цель освоения дисциплины

Изучение базовых задач и методов обработки и анализа текстов
Изучение современных нейросетевых моделей для обработки и анализа текстов
Освоение программных систем и инструментов для обработки и анализа текстов

Планируемые результаты обучения

Знать и применять базовые методы обработки и анализа текстов
Уметь решать задачи, связанные с моделированием языка

Содержание учебной дисциплины

Введение. Статистический анализ текстов
Векторные модели представления слов
Классификация текстов
Машинный перевод
Рекуррентные нейронные сети
Способы токенизации последовательностей
Обзор языковых моделей
Генеративные языковые модели
Трансформерные модели
Способы уменьшения размеров моделей
Распознавание сущностей, решение задач классификации последовательностей
Задача суммаризации
Мультиязыковые модели
Диффузионные модели для генерации текстов

Элементы контроля

Домашнее задание 1
Необходимо будет реализовать и сравнить методы токенизации последовательностей, а также рекуррентную сеть для задачи классификации.
Домашнее задание 2
Задание включает в себя реализацию генеративной модели текста и сравнение различных техник сэмплирования.
Домашнее задание 3
Задание включает в себя реализацию больших языковых моделей для решения задачи классификации. В данном задании предусмотрены ограничения на количество параметров модели.
Контрольная работа
Письменная работа, рассчитанная на одну пару.
Экзамен
Экзамен проводится в устной форме, возможно проведение в аудитории или на платформе Zoom. который включает в себя два вопроса из программы курса. Во время подготовки ответа нельзя пользоваться материалами. После ответа студенту могут быть заданы дополнительные вопросы по программе курса, а также предложены задачи на понимание теоретического материала. Такие задачи не требуют проведения обширных вычислений.

Промежуточная аттестация

2023/2024 учебный год 2 модуль
0.14 * Домашнее задание 1 + 0.13 * Домашнее задание 2 + 0.13 * Домашнее задание 3 + 0.3 * Контрольная работа + 0.3 * Экзамен

Список литературы

Авторы

Кононова Елизавета Дмитриевна
Черняк Екатерина Леонидовна

Программа дисциплины

Программа дисциплины

Программа дисциплины

Аннотация

Цель освоения дисциплины

Планируемые результаты обучения

Содержание учебной дисциплины

Элементы контроля

Промежуточная аттестация

Список литературы

Рекомендуемая основная литература

Рекомендуемая дополнительная литература

Авторы