• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2024/2025

Глубинное обучение для текстовых данных

Статус: Курс по выбору (Экономика)
Когда читается: 4-й курс, 1, 2 модуль
Охват аудитории: для всех кампусов НИУ ВШЭ
Язык: русский

Программа дисциплины

Аннотация

NLP (Natural Language Processing) — это область машинного обучения, которая пытается научить компьютер понимать и обрабатывать текстовые данные. NLP лежит в основе множества технологий, таких как системы перевода и генерации текстов, голосовые помощники, суммаризаторы текстов, спам детекторы и так далее. В настоящее время такие технологии не только облегчают жизнь людям, решая несложные задачи быстрее них. Часто модели машинного обучения позволяют достигать более высокого качества и оказываются “умнее” многих людей. Примером такой модели может стать нашумевшая ChatGPT, способная корректно отвечать на вопросы по самым различным темам.В курсе мы постараемся дать вам понять и прочувствовать, что происходит в мире естественной обработки языка. Какие задачи бывают, какие проблемы встречаются в ходе их решения. Мы покажем, что NLP — это не набор пар (задача, решение), а общие идеи, которые применимы для решения множества задач и отражают некоторую общую концепцию.
Цель освоения дисциплины

Цель освоения дисциплины

  • Изучение базовых задач и методов обработки и анализа текстов
  • Изучение современных нейросетевых моделей для обработки и анализа текстов
  • Освоение программных систем и инструментов для обработки и анализа текстов
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать и применять базовые методы обработки и анализа текстов
  • Уметь решать задачи, связанные с моделированием языка
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Векторное представление слов. Классификация текстов
  • Токенизация текста. Языковые модели
  • Рекуррентные нейронные сети
  • Задача Seq2seq. Трансформер. Методы семплирования токенов
  • BERT и GPT
  • Transfer learning. Parameter-Efficient Fine-tuning
  • Архитектурные особенности больших языковых моделей (LLM)
  • Уменьшение размеров модели без потери качества
  • Retrieval‑Augmented Generation (RAG)
  • Active learning
  • Text style transfer
  • Диффузионные модели для генерации текстов
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
    Простейшие методы для классификации текста
  • неблокирующий Домашнее задание 2
    Автодополнение текста для помощи в его наборе
  • неблокирующий Домашнее задание 3
    Продвинутые рекуррентные сети
  • неблокирующий Домашнее задание 4
    Реализация Трансформера
  • неблокирующий Домашнее задание 5
    Реализация методов PEFT
  • неблокирующий Домашнее задание 6
    Дистилляция BERT для задачи NER
  • неблокирующий Домашнее задание 7
    Retrieval‑Augmented Generation (RAG)
  • неблокирующий Домашнее задание 8
    Перенос стиля текста
  • неблокирующий Контрольная работа
    Письменная работа, рассчитанная на одну пару.
  • неблокирующий Экзамен
    Экзамен проводится в устной форме, возможно проведение в аудитории или на платформе Zoom. который включает в себя два вопроса из программы курса. Во время подготовки ответа нельзя пользоваться материалами. После ответа студенту могут быть заданы дополнительные вопросы по программе курса, а также предложены задачи на понимание теоретического материала. Такие задачи не требуют проведения обширных вычислений.
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 2nd module
    Итог = Округление(0.4 * ДЗ + 0.3 * КР + 0.3 * Э), где ДЗ — средняя оценка за все домашние задания, КР — оценка за контрольную работу, Э — оценка за экзамен.
Список литературы

Список литературы

Рекомендуемая дополнительная литература

  • Shay Cohen. (2019). Bayesian Analysis in Natural Language Processing : Second Edition. San Rafael: Morgan & Claypool Publishers. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2102157

Авторы

  • Сысоева Алевтина Александровна
  • Шабалин Александр Михайлович