Бакалавриат
2023/2024
Глубинное обучение для текстовых данных
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Статус:
Курс по выбору (Прикладная математика и информатика)
Направление:
01.03.02. Прикладная математика и информатика
Где читается:
Факультет компьютерных наук
Когда читается:
4-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для всех кампусов НИУ ВШЭ
Язык:
русский
Кредиты:
5
Контактные часы:
56
Программа дисциплины
Аннотация
NLP (Natural Language Processing) — это область машинного обучения, которая пытается научить компьютер понимать и обрабатывать текстовые данные. NLP лежит в основе множества технологий, таких как системы перевода и генерации текстов, голосовые помощники, суммаризаторы текстов, спам детекторы и так далее. В настоящее время такие технологии не только облегчают жизнь людям, решая несложные задачи быстрее них. Часто модели машинного обучения позволяют достигать более высокого качества и оказываются “умнее” многих людей. Примером такой модели может стать нашумевшая ChatGPT, способная корректно отвечать на вопросы по самым различным темам.В курсе мы постараемся дать вам понять и прочувствовать, что происходит в мире естественной обработки языка. Какие задачи бывают, какие проблемы встречаются в ходе их решения. Мы покажем, что NLP — это не набор пар (задача, решение), а общие идеи, которые применимы для решения множества задач и отражают некоторую общую концепцию.
Цель освоения дисциплины
- Изучение базовых задач и методов обработки и анализа текстов
- Изучение современных нейросетевых моделей для обработки и анализа текстов
- Освоение программных систем и инструментов для обработки и анализа текстов
Планируемые результаты обучения
- Знать и применять базовые методы обработки и анализа текстов
- Уметь решать задачи, связанные с моделированием языка
Содержание учебной дисциплины
- Введение. Статистический анализ текстов
- Векторные модели представления слов
- Классификация текстов
- Машинный перевод
- Рекуррентные нейронные сети
- Способы токенизации последовательностей
- Обзор языковых моделей
- Генеративные языковые модели
- Трансформерные модели
- Способы уменьшения размеров моделей
- Распознавание сущностей, решение задач классификации последовательностей
- Задача суммаризации
- Мультиязыковые модели
- Диффузионные модели для генерации текстов
Элементы контроля
- Домашнее задание 1Необходимо будет реализовать и сравнить методы токенизации последовательностей, а также рекуррентную сеть для задачи классификации.
- Домашнее задание 2Задание включает в себя реализацию генеративной модели текста и сравнение различных техник сэмплирования.
- Домашнее задание 3Задание включает в себя реализацию больших языковых моделей для решения задачи классификации. В данном задании предусмотрены ограничения на количество параметров модели.
- Контрольная работаПисьменная работа, рассчитанная на одну пару.
- ЭкзаменЭкзамен проводится в устной форме, возможно проведение в аудитории или на платформе Zoom. который включает в себя два вопроса из программы курса. Во время подготовки ответа нельзя пользоваться материалами. После ответа студенту могут быть заданы дополнительные вопросы по программе курса, а также предложены задачи на понимание теоретического материала. Такие задачи не требуют проведения обширных вычислений.
Промежуточная аттестация
- 2023/2024 учебный год 2 модуль0.14 * Домашнее задание 1 + 0.13 * Домашнее задание 2 + 0.13 * Домашнее задание 3 + 0.3 * Контрольная работа + 0.3 * Экзамен
Список литературы
Рекомендуемая основная литература
- Manning C. D., Schutze H. Foundations of statistical natural processing. – 1999. – 719 pp.
Рекомендуемая дополнительная литература
- Shay Cohen. (2019). Bayesian Analysis in Natural Language Processing : Second Edition. San Rafael: Morgan & Claypool Publishers. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2102157