• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2024/2025

Глубинное обучение для текстовых данных

Статус: Курс обязательный (Компьютерные науки и анализ данных)
Направление: 01.03.02. Прикладная математика и информатика
Когда читается: 4-й курс, 1, 2 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 5

Программа дисциплины

Аннотация

NLP (Natural Language Processing) — это область машинного обучения, которая пытается научить компьютер понимать и обрабатывать текстовые данные. NLP лежит в основе множества технологий, таких как системы перевода и генерации текстов, голосовые помощники, суммаризаторы текстов, спам детекторы и так далее. В настоящее время такие технологии не только облегчают жизнь людям, решая несложные задачи быстрее них. Часто модели машинного обучения позволяют достигать более высокого качества и оказываются “умнее” многих людей. Примером такой модели может стать нашумевшая ChatGPT, способная корректно отвечать на вопросы по самым различным темам.В курсе мы постараемся дать вам понять и прочувствовать, что происходит в мире естественной обработки языка. Какие задачи бывают, какие проблемы встречаются в ходе их решения. Мы покажем, что NLP — это не набор пар (задача, решение), а общие идеи, которые применимы для решения множества задач и отражают некоторую общую концепцию.
Цель освоения дисциплины

Цель освоения дисциплины

  • Изучение базовых задач и методов обработки и анализа текстов
  • Изучение современных нейросетевых моделей для обработки и анализа текстов
  • Освоение программных систем и инструментов для обработки и анализа текстов
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать и применять базовые методы обработки и анализа текстов
  • Уметь решать задачи, связанные с моделированием языка
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение. Статистический анализ текстов
  • Векторные модели представления слов
  • Классификация текстов
  • Машинный перевод
  • Рекуррентные нейронные сети
  • Способы токенизации последовательностей
  • Обзор языковых моделей
  • Генеративные языковые модели
  • Трансформерные модели
  • Способы уменьшения размеров моделей
  • Распознавание сущностей, решение задач классификации последовательностей
  • Задача суммаризации
  • Диффузионные модели для генерации текстов
  • Мультиязыковые модели
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
    Простейшие методы для классификации текста
  • неблокирующий Домашнее задание 4
    Реализация Трансформера
  • неблокирующий Домашнее задание 5
    Реализация методов PEFT
  • неблокирующий Домашнее задание 6
    Дистилляция BERT для задачи NER
  • неблокирующий Домашнее задание 7
    Retrieval‑Augmented Generation (RAG)
  • неблокирующий Домашнее задание 3
    Продвинутые рекуррентные сети
  • неблокирующий Контрольная работа
    Письменная работа, рассчитанная на одну пару.
  • неблокирующий Домашнее задание 8
    Перенос стиля текста
  • неблокирующий Экзамен
    Экзамен проводится в устной форме, возможно проведение в аудитории или на платформе Zoom. который включает в себя два вопроса из программы курса. Во время подготовки ответа нельзя пользоваться материалами. После ответа студенту могут быть заданы дополнительные вопросы по программе курса, а также предложены задачи на понимание теоретического материала. Такие задачи не требуют проведения обширных вычислений.
  • неблокирующий Домашнее задание 2
    Автодополнение текста для помощи в его наборе
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 2nd module
    Итог = Округление(0.4 * ДЗ + 0.3 * КР + 0.3 * Э), где ДЗ — средняя оценка за все домашние задания, КР — оценка за контрольную работу, Э — оценка за экзамен.
Список литературы

Список литературы

Рекомендуемая основная литература

  • Manning C. D., Schutze H. Foundations of statistical natural processing. – 1999. – 719 pp.

Рекомендуемая дополнительная литература

  • Shay Cohen. (2019). Bayesian Analysis in Natural Language Processing : Second Edition. San Rafael: Morgan & Claypool Publishers. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2102157

Авторы

  • Черняк Екатерина Леонидовна
  • Ахмедова Гюнай Интигам кызы