Бакалавриат
2022/2023
Автоматическая обработка естественного языка
Статус:
Курс по выбору (Фундаментальная и компьютерная лингвистика)
Направление:
45.03.03. Фундаментальная и прикладная лингвистика
Кто читает:
Школа лингвистики
Где читается:
Факультет гуманитарных наук
Когда читается:
3-й курс, 1 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
3
Контактные часы:
30
Программа дисциплины
Аннотация
Целями освоения дисциплины «Автоматическая обработка естественного языка» являются овладение студентами основными методами автоматической обработки текста на разных уровнях лингвистического анализа. Изучение дисциплины «Автоматическая обработка естественного языка» базируется на следующих дисциплинах: курс по теории языка программы подготовки бакалавра курс по дискретной математики программы подготовки бакалавра начальный курс по программированию программы подготовки бакалавра английский язык Для освоения учебной дисциплины студенты должны владеть следующими знания-ми и компетенциями: владеть базовыми представлениями о грамматических категориях и анализе языковых единиц; владеть базовыми знаниями в области теории алгоритмов и основ математики; владеть базовыми знаниями в области теории вероятностей и статистики; уметь читать научные работы и технические описания на английском языке; владеть базовыми навыками программирования на языке Python.
Цель освоения дисциплины
- В результате освоения дисциплины студент должен: знать: основные задачи компьютерной лингвистики; основные формальные модели, лежащие в основе различных модулей автоматической обработки текста; необходимые этапы морфологического анализа и проблемы, возникающие при моделировании каждого из этапов; основные алгоритмы, используемые для построения автоматического синтаксического анализа; наиболее известные доступные для свободного использования компоненты автоматического анализа, в том числе синтаксические и морфологические парсеры; принципы оценки качества таких систем; уметь: создавать модули первичной обработки текста; строить формальную модель морфологии для создания системы автоматического морфологического анализа; проводить оценку качества систем автоматического морфологического, синтаксического и семантического анализа; использовать соответствующие модули в различных приложениях; владеть: разработки программ первичной обработки текста; использования систем автоматического морфологического анализа; тестирования систем морфологического и синтаксического анализа. Основные положения дисциплины должны быть использованы в дальнейшем при изучении следующих дисциплин: автоматическая обработка естественного языка: семантика, анализ контента; а также в исследованиях при написании курсовых работ.
Планируемые результаты обучения
- запускает синтаксический анализатор
- знает основные задачи АОТ
- осуществляет морфологическую аннотацию текста, определяет качество морфологического таггера; например, строит конечный автомат для анализа одного из морфонологических явлений в одном из малоресурсных языках
- осуществляет первичную обработку текста, разбиение на предложения, распознавание языка
Содержание учебной дисциплины
- Введение в компьютерную лингвистику
- Первичная обработка текста. Модель информационного поиска. Векторизация текста
- Автоматический морфологический анализ
- Автоматический синтаксический анализ
- Проект по АОЕЯ
Промежуточная аттестация
- 2022/2023 учебный год 1 модуль0.4 * Домашние задания + 0.25 * Квиз + 0.35 * Проект
- 2023/2024 учебный год 1 модуль0.35 * проект + 0.25 * квиз + 0.4 * домашние задания
Список литературы
Рекомендуемая основная литература
- Manning, C. D., & Schèutze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=24399
- Speech and language processing, Jurafsky, D., 2014
- Федоров, Д. Ю. Программирование на языке высокого уровня Python : учебное пособие для среднего профессионального образования / Д. Ю. Федоров. — 2-е изд. — Москва : Издательство Юрайт, 2019. — 161 с. — (Профессиональное образование). — ISBN 978-5-534-11961-9. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/446505 (дата обращения: 28.08.2023).
Рекомендуемая дополнительная литература
- Мандель, Б. Р. Современный русский язык: лексика, словообразование, морфология [Электронный ресурс] : Учеб. пособие / Б. Р. Мандель. - М.: Вузовский учебник: ИНФРА-М, 2013. - 374 с. - ISBN 978-5-9558-0300-5 (Вузовский учебник), 978-5-16-006528-1 (ИНФРА-М). - Режим доступа: http://znanium.com/catalog/product/403676