Магистратура
2023/2024
Обработка текстов на естественном языке и диалоговые интерфейсы
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс по выбору (UX-аналитика и проектирование информационных систем)
Направление:
01.04.02. Прикладная математика и информатика
Кто читает:
Департамент информатики
Когда читается:
2-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Соколов Евгений Геннадьевич
Прогр. обучения:
UX-аналитика и проектирование информационных систем
Язык:
русский
Кредиты:
6
Контактные часы:
44
Программа дисциплины
Аннотация
Является дисциплиной по выбору. Целью освоения дисциплины является ознакомление слушателей с методами обработки текста на естественном языке, а также методами обработки слабоструктурированных данных и извлечения информации. Предполагается знакомство с методами извлечения отношений, анализа тональности, аннотирования и кластеризации текстов, а также с существующими программными реализациями этих методов.
Цель освоения дисциплины
- Ознакомление слушателей с методами обработки текста на естественном языке, а также методами обработки слабоструктурированных данных и извлечения информации.
Планируемые результаты обучения
- Определяет тональность текстов при помощи автоматизированного инструментария
- Применяет векторные модели документов в анализе
- Применяет методы извлечения информации при проектировании чат-ботов
- Применяет методы классификации и кластеризации текстов на языке Python
- Формулирует задачу обработки текста в терминах как предметной области, так и области формальных объектов
Содержание учебной дисциплины
- Введение в обработку естественного языка
- Классификация и кластеризация текстов
- Информационный поиск
- Введение в извлечение информации
- Извлечение мнений
Элементы контроля
- Домашнее задание 1Задание направлено на применение методов парсинга данных и предварительной обработки текстов, используя библиотеки языка python
- Итоговый проектРеализация своего чат бота, который запускается и работает в командной строке со одной из перечисленных фич
- Домашнее задание 2Предобработка данных для обучения языковой модели. Обучение модели на обработанных данных
- УпражненияДля закрепления навыков по работе с инструментарием студентам предлагается выполнить упражнения на онлайн-ресурсам. Выбор источника упражнений определяется преподавателем
Промежуточная аттестация
- 2023/2024 учебный год 2 модуль0.25 * Домашнее задание 1 + 0.25 * Домашнее задание 2 + 0.4 * Итоговый проект + 0.1 * Упражнения
Список литературы
Рекомендуемая основная литература
- Zhai, C., & Aggarwal, C. C. (2012). Mining Text Data. New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=537386
Рекомендуемая дополнительная литература
- Davies, J., Goker, A., & Wiley InterScience (Online service). (2009). Information Retrieval : Searching in the 21st Century. Chichester, U.K.: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=308933
- Munzert S. Automated data collection with R: a practical guide to Web scraping and text mining. Chichester, West Sussex, United Kingdom: Wiley, 2014. 1 p.