• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2024/2025

Автоматическая обработка текстов

Статус: Маго-лего
Когда читается: 2 модуль
Онлайн-часы: 30
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 3

Программа дисциплины

Аннотация

Natural Language Processing (NLP) — это область искусственного интеллекта, направленная на решение задач, связанных с обработкой человеческого языка, таких как извлечение информации, машинный перевод, автоматическое суммирование и диалоговые системы. За последние годы мы увидели значительный прогресс благодаря статистическому и глубокому обучению. Демонстрация возможностей современных диалоговых систем по типу ChatGPT от OpenAI позволила нам переосмыслить перспективы NLP в повседневной жизни, что привлекло к области внимание как со стороны исследователей и инженеров, так и институциональных инвесторов, готовых финансировать бурный рост отрасли.
Цель освоения дисциплины

Цель освоения дисциплины

  • познакомить слушателя с ключевыми направлениями современного развития области, сформировать понимание запросов, с которыми сталкиваются инженеры и исследователи в повседневной работе.
  • развить понимание фундаментальных концепций, необходимых для самостоятельного решения задач как прикладного, так и исследовательского характера.
  • познакомить слушателя с инструментами, необходимыми для решения прикладных задач.
Планируемые результаты обучения

Планируемые результаты обучения

  • Получить эмбеддинги из собственного текста
  • Загрузить предобученные эмбеддинги
  • Решение задачи классификации с помощью supervised fasttext.
  • Рассмотрение работы простой seq2seq модели на небольшом корпусе текста
  • Пример работы с Hugging Face, использование готовых библиотек для собственных проектов.
  • Знакомство слушателей с Transformers Reinforcement Learning (TRL).
  • Демонстрация реального применения квантизованной на этапе обучения и инференса модели.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Карта задач и методов NLP, эмбеддинги слов (word embeddings)
  • Классификация текста
  • Seq2seq, Трансформер и механизм внимания
  • Transfer learning: BERT, ELMO, GPT
  • Обучение Больших языковых моделей (Large Language Models): Обучение с нуля vs Тонкая настройка (Finetuning).
  • Reinforcement Learning From Human Feedback (RLHF), Direct Preference Optimization (DPO)
  • Практические подходы для эффективного обучения и развертывания LLM.
  • Retrieval-Augmented (RAG) LLM
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
    Обучение эмбеддингов с помощью библиотеки fasttext, реализация реального движка поиска эмбеддинга-ответа по запросу в имеющейся векторной БД.
  • неблокирующий Домашнее задание 2
    Решение реальной задачи классификации на табличных данных.
  • неблокирующий Домашнее задание 3
    (Опционально) Машинный перевод с помощью Seq2seq модели.
  • неблокирующий Домашнее задание 4
    Тонкая настройка (fine-tuning) BERT на собственных данных.
  • неблокирующий Домашнее задание 5
    Тонкая настройка LLM (LLAMA 3 8b) с помощью PEFT.
  • неблокирующий Домашнее задание 6
    Тонкая настройка собственной модели с использованием библиотеки TRL.
  • неблокирующий Домашнее задание 7
    (Опционально) Реализация Round-to-Nearest (RTN), Generalized Post-Training Quantization (GPTQ)
  • неблокирующий Домашнее задание 3
    (Опционально) Машинный перевод с помощью Seq2seq модели.
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 2nd module
    70% (домашние задания) + 30% (устный экзамен)
Список литературы

Список литературы

Рекомендуемая основная литература

  • 9781838827724 - Antonio Gulli; Amita Kapoor; Sujit Pal - Deep Learning with TensorFlow 2 and Keras : Regression, ConvNets, GANs, RNNs, NLP, and More with TensorFlow 2 and the Keras API, 2nd Edition - 2019 - Packt Publishing - http://search.ebscohost.com/login.aspx?direct=true&db=nlebk&AN=2339879 - nlebk - 2339879
  • Uday Kamath, John Liu, & James Whitaker. (2019). Deep Learning for NLP and Speech Recognition. Springer.
  • Руководство по NLP, Найт, С., 2001

Рекомендуемая дополнительная литература

  • Yu, C., Wang, J., Chen, Y., & Huang, M. (2019). Transfer Learning with Dynamic Adversarial Adaptation Network. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsarx&AN=edsarx.1909.08184

Авторы

  • Ахмедова Гюнай Интигам кызы