Бакалавриат
2020/2021
Автоматическая обработка естественного языка
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Статус:
Курс по выбору (Фундаментальная и компьютерная лингвистика)
Направление:
45.03.03. Фундаментальная и прикладная лингвистика
Кто читает:
Школа лингвистики
Где читается:
Факультет гуманитарных наук
Когда читается:
4-й курс, 2 модуль
Формат изучения:
без онлайн-курса
Язык:
русский
Кредиты:
3
Контактные часы:
40
Программа дисциплины
Аннотация
Курс знакомит студентов с основными сведениями об автоматической обработке речи, систематизирует знания об основных методах автоматического анализа текста и о современных задачах извлечения информации из текста, тренирует навык применения алгоритмов семантической обработки текста, формирует умение пользоваться инструментами для семантической обработки текста на русском языке.
Цель освоения дисциплины
- овладение студентами основными методами автоматического анализа текста
- знакомство с современными задачами извлечения информации из текста
Планируемые результаты обучения
- владеет основными методами выделения ключевых слов к тексте
- владеет основными методами выделения устойчивых словосочетаний, знаком с их преимуществами и недостатками
- умеет применять методы разрешения семантической неоднозначности
- умеет применять методы тематического моделирования
- умеет определять семантически близкие слова
- умеет использовать систему Natasha для написания правил по извлечению именованных сущностей
- умеет применять методы автоматической классификации для извлечения тонального лексикона на основе большого корпуса текстов
Содержание учебной дисциплины
- Квантитативные характеристики слов и использование их в автоматической обработкеАвтоматический семантический анализ. Методы выделения тематически значимых слов в тексте. Ключевые слова. tf.idf, модификации Векторная модель. Вероятностная модель. (модель, основанная на релевантности, OKAPIBM25). Мера LogLikelihood для выделения лексических единиц, специфичных для коллекции текстов по сравнению с другой коллекцией текстов (выделение терминов предметной области). Мера странности (wierdness). Алгоритм RAKE.
- Выделение устойчивых словосочетанийПонятие устойчивых словосочетаний в лингвистике. Разные подходы. Основанное на частотности определение коллокаций. Параметры задачи: понятие окна, типы выделяемых семантических отношений в зависимости от окна. Частеречные фильтры. Метод среднего и среднеквадратичного отклонения. T-score. T-scoreдля разведения двух близких синонимов. Хи-квадрат. LogLikelihood. Поточечная взаимная информация (PMI). Роль синтаксиса при выделении коллокаций.
- Методы разрешения семантической неоднозначностиМетоды разрешения семантической неоднозначности, основанные на знаниях. Алгоритм Леска. WordNet. Алгоритмы, основанные на использовании лексикографической базы WordNet. Понятие семантического расстояния в WordNet. Методы автоматической классификации в задачах разрешения семантической неоднозначности (WSD). Наивный байесовский классификатор. Обучение без учителя при извлечении значений лексемы из неразмеченного корпуса (wordsenseinduction). Обучение с частичным применением учителя при разрешении семантической неоднозначности. Алгоритм Яровски
- Тематическое моделированиеЛатентно-семантический анализ. Метод сингулярного разложения матрицы. Латентное размещение Дирихле.
- Определение семантической близости. Векторные моделиДистрибутивная семантика, векторная модель слова. Эмбеддинги: word2vec, GloVe, AdaGram. Обучение моделей word2vec.
- Применение методов семантической обработки к задачам извлечения информации из текстаОбзор задач и систем компьютерной лингвистики Постановка задач для выполнения курсового проекта: разработка ТЗ для создания системы обработки текста (синтеза текста, машинного перевода и т.п.), использующей модули автоматической обработки текста.
Элементы контроля
- Домашние заданияПересдается в течение недели после окончания пропуска по уважительной причине, но не позднее 10 дней до сессии.
- Чтение статей и составление резюме
- Проектная работаПо каждому из разделов готовится один проект; оценивается разработка ТЗ для создания системы обработки текста; взаимное рецензирование и обсуждение проекта; презентации проектов; окончательная версия проекта; рейтинг при оценке качества (F-меры). При пересдаче необходимо устранить недостатки проекта. Предполагается переработка проекта и его защита.
- ЭкзаменПо общим правилам пересдачи экзамена, пропущенного по уважительной причине.
- тест
Промежуточная аттестация
- Промежуточная аттестация (2 модуль)0.25 * Домашние задания + 0.3 * Проектная работа + 0.25 * тест + 0.2 * Экзамен
Список литературы
Рекомендуемая основная литература
- The Handbook of Computational Linguistics and Natural Language Processing [Электронный ресурс] / ed. by Alexander Clark, Chris Fox, Shalom Lappin; DB ebrary. – Chichester: John Wiley & Sons, 2013. – 203 p. – Режим доступа: https://ebookcentral.proquest.com/lib/hselibrary-ebooks/reader.action?docID=4035461&query=computational+linguistics
Рекомендуемая дополнительная литература
- Dale R., Moisl H., Somers H. (ed.). Handbook of natural language processing. – CRC Press, 2000. – 1015 pp.