Аспирантура
2022/2023
Анализ текстовых данных методами машинного обучения
Статус:
Курс по выбору
Направление:
38.06.01. Экономика
Кто читает:
Департамент экономики и финансов
Когда читается:
2-й курс, 2 семестр
Формат изучения:
с онлайн-курсом
Онлайн-часы:
65
Охват аудитории:
для своего кампуса
Преподаватели:
Божья-Воля Анастасия Александровна
Язык:
русский
Кредиты:
4
Контактные часы:
2
Программа дисциплины
Аннотация
Целью курса является изучение подходов к решению основных задач автоматической обработки текстов на основе классического машинного обучения и глубоких нейронный сетей. В ходе курса слушатели освоят методы предобработки текстовых данных и научатся применять на практике основные методы классификации и кластеризации текстов, методы поиска и / или генерации ответа на вопрос и базовые методы машинного перевода. Слушателям будут предложены тестовые задания на понимание материала, а также практические задания на программирование.
Цель освоения дисциплины
- Целью курса является изучение подходов к решению основных задач автоматической обработки текстов на основе классического машинного обучения и глубоких нейронный сетей.
Планируемые результаты обучения
- Применяет искусственный интеллект и машинное обучение
- Применяет математический аппарат для решения задач по оценке и разработки моделей
- Решает задачи искусственного интеллекта (ИИ)
- Разрабатывает и применяет методы машинного обучения (МО) для решения задач
Содержание учебной дисциплины
- Введение в анализ текстов, базовые методы предобработки и выделения признаков. Неглубокие векторные представления слов. Классификация текстов.
- Разметка последовательности Seq2seq, MT, attention, transformer Предобученные языковые модели. Улица Сезам, часть 1 Предобученные языковые модели. Улица Сезам, часть 2
- Синтаксис в рамках грамматики зависимостей. Тематическое моделирование. Суммаризация и симплификация текстов. QA-системы, чат-боты. Графы знаний
Элементы контроля
- Изучение 1 тематического блока
- Изучение 2 тематического блока
- Изучение 3 тематического блока
Промежуточная аттестация
- 2022/2023 учебный год II семестр0.35 * Изучение 3 тематического блока + 0.3 * Изучение 1 тематического блока + 0.35 * Изучение 2 тематического блока
Список литературы
Рекомендуемая основная литература
- Прикладной анализ текстовых данных на Python : машинное обучение и создание приложений обработки естественного языка, Бенгфорт, Б., 2020
Рекомендуемая дополнительная литература
- Bengfort, B., Bilbro, R., & Ojeda, T. (2018). Applied Text Analysis with Python : Enabling Language-Aware Data Products with Machine Learning. Beijing: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1827695