• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2024/2025

Научно-исследовательский семинар "Конечные автоматы в морфологическом анализе"

Направление: 45.03.03. Фундаментальная и прикладная лингвистика
Когда читается: 2-й курс, 3, 4 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 3

Программа дисциплины

Аннотация

Данный курс предоставляет углубленное изучение применения конечных автоматов в морфологическом анализе. КА используются для моделирования морфологии языков, особенно малоресурсных. Курс охватывает основные этапы создания морфологического анализатора в системе lexd и twol, проверку его на корпусах, взвешивание трансдьюсера для дизамбигуации. В качестве иллюстративного материала будут использоваться лингвистические задачи и реальные примеры из практики преподавателей.
Цель освоения дисциплины

Цель освоения дисциплины

  • Умение строить правиловые морфологические анализаторы
  • Знакомство с проблемами построения автоматических морфологических парсеров для языков разной структуры
Планируемые результаты обучения

Планируемые результаты обучения

  • Знакомится с понятием конечного автомата и трансдьюссера.
  • Знает отличия нейросетевого подхода к морфологическому анализу от методов, применяющих конечные автоматы
  • Владеет базовыми командами, необходимыми для того, чтобы создать морфологический трансдьюсер в Google Colab
  • Владеет базовыми элементами lexd для создания морфологических анализаторов
  • Знает основные принципы применения формализма twol для моделирования морфонологии
  • Владеет командами программ lexd и hfst для создания морфологического трансдьюссера
  • Умеет считать и интерпретировать понятие покрытие на основе корпуса текстов
  • Владеет инструментами для снятия омонимии
  • Владеет инструментами для работы с неизвестными разборами
  • Знаком с методикой построения переводчика на основе пары языков, морфология которых смоделирована при помощи трансдьюссеров
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в морфологические автоматы
  • Введение в командную строку, lexd
  • Введение в twol — инструмент для моделирования морфонологии
  • Технический разбор работы трансдьюссера в lexd и twol
  • Метрики качества работы морфологического анализатора
  • Работа с неизвестными разборами и снятие омонимии
  • Построение простейшего переводчика для близкородственных языков
Элементы контроля

Элементы контроля

  • неблокирующий Введение в lexd
  • неблокирующий Введение в twol
  • неблокирующий Настройка Makefile
  • неблокирующий Метрики качества разбора
  • неблокирующий Снятие омонимии
  • неблокирующий Построение переводчика
  • блокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 4th module
    0.1 * Введение в lexd + 0.1 * Введение в twol + 0.1 * Метрики качества разбора + 0.1 * Настройка Makefile + 0.1 * Построение переводчика + 0.1 * Снятие омонимии + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Hopcroft, J. E., Motwani, R., & Ullman, J. D. (2014). Introduction to Automata Theory, Languages, and Computation: Pearson New International Edition: Vol. 3rd ed. Pearson.
  • W. J. Levelt. (2019). An Introduction to the Theory of Formal Languages and Automata (Vol. Reprint 2019). Berlin/Boston: De Gruyter Mouton. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2039961

Рекомендуемая дополнительная литература

  • Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition, Jurafsky, D., 2009

Авторы

  • Казакова Татьяна Борисовна
  • Мороз Георгий Алексеевич