Бакалавриат
2022/2023
Глубинное обучение для текстовых данных
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Статус:
Курс по выбору (Прикладная математика и информатика)
Направление:
01.03.02. Прикладная математика и информатика
Где читается:
Факультет компьютерных наук
Когда читается:
4-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для всех кампусов НИУ ВШЭ
Язык:
русский
Кредиты:
5
Контактные часы:
60
Программа дисциплины
Аннотация
NLP (Natural Language Processing) — это область машинного обучения, которая пытается научить компьютер понимать и обрабатывать текстовые данные. NLP лежит в основе множества технологий, таких как системы перевода и генерации текстов, голосовые помощники, суммаризаторы текстов, спам детекторы и так далее. В настоящее время такие технологии не только облегчают жизнь людям, решая несложные задачи быстрее них. Часто модели машинного обучения позволяют достигать более высокого качества и оказываются “умнее” многих людей. Примером такой модели может стать нашумевшая ChatGPT, способная корректно отвечать на вопросы по самым различным темам.
В курсе мы постараемся дать вам понять и прочувствовать, что происходит в мире естественной обработки языка. Какие задачи бывают, какие проблемы встречаются в ходе их решения. Мы покажем, что NLP — это не набор пар (задача, решение), а общие идеи, которые применимы для решения множества задач и отражают некоторую общую концепцию.
Цель освоения дисциплины
- Изучение базовых задач и методов обработки и анализа текстов
- Изучение современных нейросетевых моделей для обработки и анализа текстов
- Освоение программных систем и инструментов для обработки и анализа текстов
Планируемые результаты обучения
- Знать и применять базовые методы обработки и анализа текстов
- Уметь решать задачи, связанные с моделированием языка
Содержание учебной дисциплины
- Введение. Статистический анализ текстов
- Векторные модели представления слов
- Классификация текстов
- Классификация последовательностей
- Предобученные языковые модели
- Синтаксический анализ
- Машинный перевод
- Генерация текстов
- Разметка данных, активное обучение.
- Вопросное-ответные системы
- Мультимодальные методы
- Мультиязычные методы
- Обработка текстов в медицине
- Информационный поиск
- Этические вопросы в обработке текстов
Элементы контроля
- Домашнее задание (ДЗ1)
- Домашнее задание (ДЗ2)
- Домашнее задание (ДЗ 3)
- Домашнее задание (ДЗ4)
- Компьютерный тест (Квизы)Квизы по итогам каждой лекции
- Проект 1 (Домашнее задание)Проект на основе SemEval
- Проект 2 (Домашнее задание)Проект на основе SemEval
- Устный экзамен
Промежуточная аттестация
- 2022/2023 учебный год 2 модуль0.075 * Домашнее задание (ДЗ 3) + 0.075 * Домашнее задание (ДЗ1) + 0.09 * Проект 2 (Домашнее задание) + 0.12 * Компьютерный тест (Квизы) + 0.075 * Домашнее задание (ДЗ4) + 0.4 * Устный экзамен + 0.075 * Домашнее задание (ДЗ2) + 0.09 * Проект 1 (Домашнее задание)