Компьютерная лингвистика и анализ текста

Магистратура 2020/2021

Статус: Курс по выбору (Науки о данных)

Направление: 01.04.02. Прикладная математика и информатика

Кто читает: Департамент анализа данных и искусственного интеллекта

Где читается: Факультет компьютерных наук

Когда читается: 1-й курс, 3, 4 модуль

Формат изучения: без онлайн-курса

Преподаватели: Большакова Елена Игоревна

Прогр. обучения: Науки о данных

Язык: русский

Кредиты: 4

Контактные часы: 64

Дополнительные материалы в LMS Задать вопрос

Аннотация

Настоящая дисциплина охватывает изучение различных моделей автоматической обработки текста на естественном языке (ЕЯ), применяемых в современных информационных системах и затрагивающих несколько языковых уровней обрабатываемого текста, включая уровни морфологии, синтаксиса, дискурса и семантики. Изучаются также виды лингвистических ресурсов, используемых при обработке текстов, и методы их создания. Рассматриваются прикладные задачи, требующие многоуровневого анализа и синтеза текста (такие как машинный перевод, классификация и кластеризация текстов, извлечение информации и знаний из текста).

Цель освоения дисциплины

Главная цель изучения учебной дисциплины «Компьютерная лингвистика и анализ текста» – ознакомление с основными формальными моделями и технологиями, применяемыми при компьютерной обработке текстов на естественном языке, и с принципами построения необходимых лингвистических ресурсов, а также получение базовых навыков разработки прикладных программ в этой области.

Планируемые результаты обучения

Студенты знают основные уровни анализа и синтеза текста на ЕЯ, существующие модели статистического, морфологического и синтаксического анализа текстов и их применение в типичных прикладных программных системах обработки текстов.
Студенты знают принципы построения различных лингвистических ресурсов, включая корпуса текстов, терминологические словари, тезаурусы, онтологии.
Студенты понимают существенные отличия естественных языков от искусственных и особенности компьютерных моделей естественного языка.
Студенты применяют существующие инструментальные средства и лингвистические ресурсы для разработки прикладных систем обработки текстов на естественном языке.

Содержание учебной дисциплины

Введение
1. Компьютерная лингвистика и автоматическая обработка текстов на естественном языке (ЕЯ): основные задачи и история развития. Междисциплинарный характер направления, связь со смежными научными дисциплинами. 2. Особенности ЕЯ, понятия языкового знака и языковой системы. Принципиальные отличия естественных и искусственных (формальных) языков. Полисемия и омонимия. 3. Уровни языковой системы (от фонетики до дискурса), их взаимосвязь. Основные единицы текста. Уровень фонем и символов, синтаксический и морфологический уровни. 4. Понятие модели в компьютерной лингвистике. Основные этапы обработки текста и виды моделей. Лингвистический процессор и лингвистические ресурсы.
Морфологические модели
1. Основные понятия морфологических моделей: морфема, аффикс, корень, основа, флексия. Морфемный состав слова, виды морфем. Словоформа и лексема. Основа и псевдооснова. Лемма как представитель лексемы. Словоизменительная парадигма, флективный класс. Особенности русской морфологии. 2. Морфологические модели на базе словаря. Словари основ и словари словоформ. Морфологический анализ и синтез. Виды морфоанализа: лемматизация, стемминг, полный морфоанализ. Программные модули автоматического морфологического анализа. Проблема разрешения морфологической омонимии. 3. Графематический анализ и сегментация текста. Виды сегментации. Токенизация. Проблемы графематического анализа, технологии его реализации на базе конечных автоматов и регулярных выражений.
Методы синтаксического анализа
1. Различные подходы к анализу синтаксиса предложений ЕЯ. Основная задача синтаксического анализа. Синтаксические деревья: деревья непосредственных составляющих и деревья зависимостей. Синтаксические связи. Проективность предложений. Понятия синтаксического предиката, валентности и актанта, модели управления. 2. Методы синтаксического разбора на базе контекстно-свободных (КС) грамматик. Нисходящий и восходящий разбор. Синтаксический анализ на основе грамматик зависимостей. Синтаксические парсеры для английского и русского языков. 3. Частичный синтаксический анализ. Словосочетания и их основные синтаксические типы. Задачи синтаксической сегментации текста. Выделение синтаксических групп.
Статистические модели
1. Статистические характеристики текстов ЕЯ. Статистика встречаемости букв и буквосочетаний: биграмм, триграмм, N-грамм. Статистика N-грамм для слов текста. Статистические языковые модели и их приложения. 2. Статистика встречаемости сочетаний слов. Типы словосочетаний по фразеологичности. Понятие коллокации. Методы автоматического извлечения устойчивые словосочетаний из текстов. Меры ассоциации и устойчивости.
Модели дискурса и семантики
1. Характеристики связного текста (дискурса). Целостность и связность. Анафорические ссылки, кореференция, лексические повторы, дискурсивные слова. Тематическая и композиционная структура текста. Сверхфразовые единства. 2. Моделирование свойств связного текста. Теория риторических структур. Построение лексических цепочек, автоматическое разрешение анафорических ссылок и кореференции. 3. Модели представления семантики. Семантико-синтаксическая модель управления слов-предикатов, семантические роли. Лингвистический ресурс FrameNet: состав, принципы построения. Задача разметки семантических ролей.
Построение и применение лингвистических ресурсов
1. Коллекции и корпуса текстов. Корпусная лингвистика. Типы и характеристики корпусов, виды разметки текстов. Корпусные менеджеры. Применение копусов. 2. Тезаурусы и онтологии. Смысловые (парадигматические) отношения лексических единиц. Лексический ресурс WordNet: состав, принципы построения. 3. Термины специальных областей. Автоматизация построения терминологических ресурсов: методы извлечения терминов и их связей.
Разработка приложений
1. Подходы к разработке приложений: подход, основанный на знаниях (правилах), и подход, основанный на машинном обучении. Сравнение подходов. Основные показатели качества решения: точность, полнота, F-мера. 2. Машинный перевод (МП). Лингвистические стратегии машинного перевода и поколения систем МП. Автоматический перевод, основанный на правилах. Интерлингва. Статистический машинный перевод. Оценки качества машинного перевода. 3. Генерация текстов документов, особенности задачи. Стратегии синтеза текста. 4. Извлечение информации из текстов (Information Extraction). Виды извлекаемой информации: именованные сущности, их атрибуты и связи, факты. Лингвистические шаблоны и их использование. Инструментальные программные средства:. 5. Автоматический анализ тональности текстов и извлечение мнений из текстов, особенности задачи и подходы к ее решению. Аспектный анализ мнений. 6. Реферирование и аннотирование документов. Типы аннотаций: индикативная и информативная аннотация, аннотация по запросу, аннотация нескольких документов. Базовые методы аннотирования. 7. Приложения КЛ, основанные на векторной модели текста. Классификация и кластеризация документов. Распознавание авторства текстов, дубликатов документов.

Элементы контроля

Контрольная работа
Письменная работа 60 минут
Домашнее задание
Выдается для выполнения в течение 2 недель
Экзамен
Письменная работа 80 минут. Оценка за дисциплину выставляется в соответствии с формулой оценивания от всех пройденных элементов контроля. Экзамен не проводится.

Промежуточная аттестация

Промежуточная аттестация (4 модуль)
0.35 * Домашнее задание + 0.35 * Контрольная работа + 0.3 * Экзамен

Программа дисциплины