Бакалавриат
2024/2025
Научно-исследовательский семинар "Конечные автоматы в морфологическом анализе"
Статус:
Курс по выбору (Фундаментальная и компьютерная лингвистика)
Направление:
45.03.03. Фундаментальная и прикладная лингвистика
Кто читает:
Школа лингвистики
Где читается:
Факультет гуманитарных наук
Когда читается:
2-й курс, 3, 4 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
3
Программа дисциплины
Аннотация
Данный курс предоставляет углубленное изучение применения конечных автоматов в морфологическом анализе. КА используются для моделирования морфологии языков, особенно малоресурсных. Курс охватывает основные этапы создания морфологического анализатора в системе lexd и twol, проверку его на корпусах, взвешивание трансдьюсера для дизамбигуации. В качестве иллюстративного материала будут использоваться лингвистические задачи и реальные примеры из практики преподавателей.
Цель освоения дисциплины
- Умение строить правиловые морфологические анализаторы
- Знакомство с проблемами построения автоматических морфологических парсеров для языков разной структуры
Планируемые результаты обучения
- Знакомится с понятием конечного автомата и трансдьюссера.
- Знает отличия нейросетевого подхода к морфологическому анализу от методов, применяющих конечные автоматы
- Владеет базовыми командами, необходимыми для того, чтобы создать морфологический трансдьюсер в Google Colab
- Владеет базовыми элементами lexd для создания морфологических анализаторов
- Знает основные принципы применения формализма twol для моделирования морфонологии
- Владеет командами программ lexd и hfst для создания морфологического трансдьюссера
- Умеет считать и интерпретировать понятие покрытие на основе корпуса текстов
- Владеет инструментами для снятия омонимии
- Владеет инструментами для работы с неизвестными разборами
- Знаком с методикой построения переводчика на основе пары языков, морфология которых смоделирована при помощи трансдьюссеров
Содержание учебной дисциплины
- Введение в морфологические автоматы
- Введение в командную строку, lexd
- Введение в twol — инструмент для моделирования морфонологии
- Технический разбор работы трансдьюссера в lexd и twol
- Метрики качества работы морфологического анализатора
- Работа с неизвестными разборами и снятие омонимии
- Построение простейшего переводчика для близкородственных языков
Элементы контроля
- Введение в lexd
- Введение в twol
- Настройка Makefile
- Метрики качества разбора
- Снятие омонимии
- Построение переводчика
- Экзамен
Промежуточная аттестация
- 2024/2025 4th module0.1 * Введение в lexd + 0.1 * Введение в twol + 0.1 * Метрики качества разбора + 0.1 * Настройка Makefile + 0.1 * Построение переводчика + 0.1 * Снятие омонимии + 0.4 * Экзамен
Список литературы
Рекомендуемая основная литература
- Hopcroft, J. E., Motwani, R., & Ullman, J. D. (2014). Introduction to Automata Theory, Languages, and Computation: Pearson New International Edition: Vol. 3rd ed. Pearson.
- W. J. Levelt. (2019). An Introduction to the Theory of Formal Languages and Automata (Vol. Reprint 2019). Berlin/Boston: De Gruyter Mouton. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2039961
Рекомендуемая дополнительная литература
- Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition, Jurafsky, D., 2009