• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2024/2025

Теоретическая лингвистика в контексте NLP

Статус: Курс по выбору (Программная инженерия)
Когда читается: 3-й курс, 3, 4 модуль
Охват аудитории: для своего кампуса
Язык: русский

Программа дисциплины

Аннотация

Задача этого курса – показать, как фундаментальные знания о языке могут быть полезны студентам, основное поле деятельности которых – программирование. Курс будет полезен тем, кто планирует связать свою практическую деятельность с языком в том или ином его аспекте. Целевая аудитория курса включает в себя студентов, которые собираются заниматься созданием и анализом языковых моделей, диалоговых систем, анализом тональности текстов и др. Цель этого курса – показать связь между NLP и компьютерной лингвистикой с одной стороны и теоретической лингвистикой – с другой, а также в общих чертах познакомить с современными методами обработки естественного языка. В ходе курса мы обсудим, насколько обоснованы методы и фреймворки, которые применяются в современном NLP, почему тексты – это так важно и зачем программисту знать про разные языки и их внутреннее устройство.
Цель освоения дисциплины

Цель освоения дисциплины

  • уметь анализировать компьютерные методы с точки зрения теоретической лингвистики
  • разбираться в основных фактах, касающихся разных уровней естественного языка (фонетики, морфологии, синтаксиса, семантики и прагматики)
Планируемые результаты обучения

Планируемые результаты обучения

  • уметь отличать лингвистику от других смежных областей
  • уметь рассуждать об особенностях отдельных языков
  • применять знания из области теоретической лингвистики в NLP
  • уметь анализировать фонетические особенности языков
  • ориентироваться в основных направлениях лингвистических фреймворков
  • уметь пользоваться лингвистическими терминами
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Фундаментальная и компьютерная лингвистика
  • Методы машинного обучения в экспериментальной лингвистике
  • Почему языки такие разные
  • Фонетика. Использование частотных коэффициентов для автоматического распознавания речи.
  • Грамматика и лексика
  • Моделирование морфологии с помощью правил VS с помощью машинного обучения
  • Синтаксис. Использование UD разметки при машинном обучении
  • Семантика. Полисемия и омонимия. Моделирование семантики системами ИИ
  • Лингвистические ресурсы: использование корпусных данных для обучения и оценки больших языковых моделей
  • Полевая лингвистика. Автоматическое распознавание речи на малых языках
  • Дискурс
  • Социолингвистика
  • Жестовые языки. Мультимодальное машинное обучение для распознавания жестовых языков.
  • Знание языка моделями
Элементы контроля

Элементы контроля

  • неблокирующий Проект
    Групповой проект – реализация несложного продукта, который использует знания, полученные в течение курса. Примеры: * Продукт для использования полевыми лингвистами * Морфологический анализатор или корпус для малоресурсного языка X * Прикладное решение грамматической или лексической омонимии на примере явления X
  • неблокирующий Экзамен
    Устное обсуждение глоссирования небольшого текста на незнакомом языке и ответ на теоретические вопросы
  • неблокирующий Домашние задания
    Письменные решения задач, рассуждения о конкретных проблемах с лекций/семинаров.
  • неблокирующий Тесты
    Короткие гугл-формы по материалам лекций и домашнего чтения
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 4th module
    0.3 * Домашние задания + 0.3 * Проект + 0.2 * Тесты + 0.2 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • A concise introduction to linguistics, Rowe, B. M., 2018

Рекомендуемая дополнительная литература

  • Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition, Jurafsky, D., 2009

Авторы

  • Дьячкова Анна Евгеньевна
  • Бузанов Антон Олегович