Магистратура
2020/2021
Информационный поиск и обработка текстов на естественном языке
Статус:
Курс по выбору (Анализ больших данных в бизнесе, экономике и обществе)
Направление:
01.04.02. Прикладная математика и информатика
Кто читает:
Департамент информатики
Когда читается:
2-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Прогр. обучения:
Анализ больших данных в бизнесе, экономике и обществе
Язык:
русский
Кредиты:
8
Контактные часы:
64
Программа дисциплины
Аннотация
Является дисциплиной по выбору. Целью освоения дисциплины «Информационный поиск и обработка текстов на естественном языке» является ознакомление слушателей с методами обработки текста на естественном языке, а также методами обработки слабоструктурированных данных и извлечения информации. Предполагается знакомство с методами извлечения отношений, анализа тональности, аннотирования и кластеризации текстов, а также с существующими программными реализациями этих методов.
Цель освоения дисциплины
- Целью освоения дисциплины «Информационный поиск и обработка текстов на естественном языке» является ознакомление слушателей с методами обработки текста на естественном языке, а также методами обработки слабоструктурированных данных и извлечения информации. Предполагается знакомство с методами извлечения отношений, анализа тональности, аннотирования и кластеризации текстов, а также с существующими программными реализациями этих методов.
Планируемые результаты обучения
- Формулирует задачу обработки текста в терминах как предметной области, так и области формальных объектов
- Применяет методы классификации и кластеризации текстов на языке Python
- Применяет векторные модели документов в анализе
- Применяет методы извлечения информации при проектировании чат-ботов
- Определяет тональность текстов при помощи автоматизированного инструментария
Содержание учебной дисциплины
- Введение в обработку естественного языкаЭтапы анализа текста. Обзор основных приложений автоматического анализа текста (АОТ) (машинный перевод, информационный поиск, и т.д.). Регулярные выражения. Слова, фразы, предложения, корпусы. Языковые модели. Автоматический морфологический анализ и синтез. Виды морфологического анализа: стемминг, лемматизация, полный морфоанализ.
- Классификация и кластеризация текстовКлассификация текстов как типичная задача обработки текстов в области TextMining. Обзор методов машинной классификации. Выбор признаков и метрик. Особенности кластеризации текстов. Рубрицирование текстовых документов. Обзор задач АОТ, решаемых на основе классификации текстов. Модели и методы автоматической классификации и кластеризации текстовой информации. Иерархические и вероятностные подходы
- Информационный поискИндексирование текстов для информационного поиска. Векторная модель документа. Булевский поиск, ранжированный поиск. Оценка релевантности документа. Поиск в сети Интернет, принципы работы поисковых машин.
- Введение в извлечение информацииОсновные способы представления смысла текста и модели представления знаний в искусственном интеллекте: семантические сети, язык предикатов. Разметка частей речи. Выделение именованных сущностей. Извлечение информации и отношений из текста
- Извлечение мненийАвтоматический анализ тональности текстов и извлечение мнений из текстов: особенности и подходы к решению. Анализ тональности как задача классификации
Элементы контроля
- Домашнее заданиеЗадание направлено на применение методов предварительной обработки текстов, а также методов тематического моделирования и визуализации результатов.
- Итоговый экзаменОценку за экзамен можно получить одним из двух способов по выбору студента. Вариант 1: Доделать своего чат бота, который запускается и работает в командной строке со одной из перечисленных фич Вариант 2: Экзамен в виде устных вопросов. На экзамене необходимо ответить на два случайных вопроса из предоставленного преподавателем списка
Промежуточная аттестация
- Промежуточная аттестация (2 модуль)0.5 * Домашнее задание + 0.5 * Итоговый экзамен
Список литературы
Рекомендуемая основная литература
- Zhai, C., & Aggarwal, C. C. (2012). Mining Text Data. New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=537386
Рекомендуемая дополнительная литература
- Davies, J., Goker, A., & Wiley InterScience (Online service). (2009). Information Retrieval : Searching in the 21st Century. Chichester, U.K.: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=308933
- Munzert S. Automated data collection with R: a practical guide to Web scraping and text mining. Chichester, West Sussex, United Kingdom: Wiley, 2014. 1 p.