2024/2025
Автоматическая обработка текстов
Статус:
Маго-лего
Когда читается:
2 модуль
Онлайн-часы:
30
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
3
Программа дисциплины
Аннотация
Natural Language Processing (NLP) — это область искусственного интеллекта, направленная на решение задач, связанных с обработкой человеческого языка, таких как извлечение информации, машинный перевод, автоматическое суммирование и диалоговые системы. За последние годы мы увидели значительный прогресс благодаря статистическому и глубокому обучению. Демонстрация возможностей современных диалоговых систем по типу ChatGPT от OpenAI позволила нам переосмыслить перспективы NLP в повседневной жизни, что привлекло к области внимание как со стороны исследователей и инженеров, так и институциональных инвесторов, готовых финансировать бурный рост отрасли.
Цель освоения дисциплины
- познакомить слушателя с ключевыми направлениями современного развития области, сформировать понимание запросов, с которыми сталкиваются инженеры и исследователи в повседневной работе.
- развить понимание фундаментальных концепций, необходимых для самостоятельного решения задач как прикладного, так и исследовательского характера.
- познакомить слушателя с инструментами, необходимыми для решения прикладных задач.
Планируемые результаты обучения
- Получить эмбеддинги из собственного текста
- Загрузить предобученные эмбеддинги
- Решение задачи классификации с помощью supervised fasttext.
- Рассмотрение работы простой seq2seq модели на небольшом корпусе текста
- Пример работы с Hugging Face, использование готовых библиотек для собственных проектов.
- Знакомство слушателей с Transformers Reinforcement Learning (TRL).
- Демонстрация реального применения квантизованной на этапе обучения и инференса модели.
Содержание учебной дисциплины
- Карта задач и методов NLP, эмбеддинги слов (word embeddings)
- Классификация текста
- Seq2seq, Трансформер и механизм внимания
- Transfer learning: BERT, ELMO, GPT
- Обучение Больших языковых моделей (Large Language Models): Обучение с нуля vs Тонкая настройка (Finetuning).
- Reinforcement Learning From Human Feedback (RLHF), Direct Preference Optimization (DPO)
- Практические подходы для эффективного обучения и развертывания LLM.
- Retrieval-Augmented (RAG) LLM
Элементы контроля
- Домашнее задание 1Обучение эмбеддингов с помощью библиотеки fasttext, реализация реального движка поиска эмбеддинга-ответа по запросу в имеющейся векторной БД.
- Домашнее задание 2Решение реальной задачи классификации на табличных данных.
- Домашнее задание 3(Опционально) Машинный перевод с помощью Seq2seq модели.
- Домашнее задание 4Тонкая настройка (fine-tuning) BERT на собственных данных.
- Домашнее задание 5Тонкая настройка LLM (LLAMA 3 8b) с помощью PEFT.
- Домашнее задание 6Тонкая настройка собственной модели с использованием библиотеки TRL.
- Домашнее задание 7(Опционально) Реализация Round-to-Nearest (RTN), Generalized Post-Training Quantization (GPTQ)
- Домашнее задание 3(Опционально) Машинный перевод с помощью Seq2seq модели.
Список литературы
Рекомендуемая основная литература
- 9781838827724 - Antonio Gulli; Amita Kapoor; Sujit Pal - Deep Learning with TensorFlow 2 and Keras : Regression, ConvNets, GANs, RNNs, NLP, and More with TensorFlow 2 and the Keras API, 2nd Edition - 2019 - Packt Publishing - http://search.ebscohost.com/login.aspx?direct=true&db=nlebk&AN=2339879 - nlebk - 2339879
- Uday Kamath, John Liu, & James Whitaker. (2019). Deep Learning for NLP and Speech Recognition. Springer.
- Руководство по NLP, Найт, С., 2001
Рекомендуемая дополнительная литература
- Yu, C., Wang, J., Chen, Y., & Huang, M. (2019). Transfer Learning with Dynamic Adversarial Adaptation Network. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsarx&AN=edsarx.1909.08184