Магистратура
2023/2024
Компьютерная лингвистика и анализ текста
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс по выбору (Науки о данных (Data Science))
Направление:
01.04.02. Прикладная математика и информатика
Где читается:
Факультет компьютерных наук
Когда читается:
1-й курс, 3, 4 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Большакова Елена Игоревна
Прогр. обучения:
Науки о данных
Язык:
русский
Кредиты:
6
Контактные часы:
62
Программа дисциплины
Аннотация
Настоящая дисциплина охватывает изучение различных моделей автоматической обработки текста на естественном языке (ЕЯ), применяемых в современных информационных системах и затрагивающих несколько языковых уровней обрабатываемого текста, включая уровни морфологии, синтаксиса, дискурса и семантики. Изучаются также виды лингвистических ресурсов, используемых при обработке текстов, и методы их создания. Рассматриваются прикладные задачи, требующие многоуровневого анализа и синтеза текста (такие как машинный перевод, классификация и кластеризация текстов, извлечение информации и знаний из текста).
Цель освоения дисциплины
- Главная цель изучения учебной дисциплины «Компьютерная лингвистика и анализ текста» – ознакомление с основными формальными моделями и технологиями, применяемыми при компьютерной обработке текстов на естественном языке, и с принципами построения необходимых лингвистических ресурсов, а также получение базовых навыков разработки прикладных программ в этой области.
Планируемые результаты обучения
- Студенты знают основные уровни анализа и синтеза текста на ЕЯ, существующие модели статистического, морфологического и синтаксического анализа текстов и их применение в типичных прикладных программных системах обработки текстов.
- Студенты знают основные уровни анализа и синтеза текста на ЕЯ, существующие модели статистического, морфологического и синтаксического анализа текстов и их применение в типичных прикладных программных системах обработки текстов.
- Студенты знают принципы построения различных лингвистических ресурсов, включая корпуса текстов, терминологические словари, тезаурусы, онтологии.
- Студенты понимают существенные отличия естественных языков от искусственных и особенности компьютерных моделей естественного языка.
- Студенты понимают существенные отличия естественных языков от искусственных и особенности компьютерных моделей естественного языка.
- Студенты применяют существующие инструментальные средства и лингвистические ресурсы для разработки прикладных систем обработки текстов на естественном языке.
Содержание учебной дисциплины
- Введение
- Морфологические модели
- Методы синтаксического анализа
- Статистические модели
- Модели дискурса и семантики
- Построение и применение лингвистических ресурсов
- Разработка приложений
Элементы контроля
- Базовыеметоды поуровневой обработки текста
- Промежуточная контрольная работа
- Методы разработки прикладных программ обработки текстов
- Итоговая контрольная работа
Промежуточная аттестация
- 2023/2024 учебный год 4 модуль0.25 * Базовыеметоды поуровневой обработки текста + 0.25 * Итоговая контрольная работа + 0.25 * Методы разработки прикладных программ обработки текстов + 0.25 * Промежуточная контрольная работа
Список литературы
Рекомендуемая основная литература
- Indurkhya N., Damerau F. J. Handbook of natural language processing. – Chapman and Hall/CRC, 2010. – 704 pp.
- Mitkov R. (ed.). The Oxford handbook of computational linguistics. – Oxford University Press, 2005.
- Olive, J., Christianson, C., McCary, J. (ed.). Handbook of natural language processing and machine translation: DARPA global autonomous language exploitation. – Springer Science & Business Media, 2011.
Рекомендуемая дополнительная литература
- Dale R., Moisl H., Somers H. (ed.). Handbook of natural language processing. – CRC Press, 2000. – 1015 pp.
- Автоматическое понимание текстов : системы, модели, ресурсы, Леонтьева, Н. Н., 2006