Бакалавриат
2023/2024
Теоретическая лингвистика в контексте NLP
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс по выбору (Программная инженерия)
Направление:
09.03.04. Программная инженерия
Кто читает:
Школа лингвистики
Где читается:
Факультет компьютерных наук
Когда читается:
3-й курс, 3, 4 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
5
Контактные часы:
60
Программа дисциплины
Аннотация
Задача этого курса – показать, как фундаментальные знания о языке могут быть полезны студентам, основное поле деятельности которых – программирование. Курс будет полезен тем, кто планирует связать свою практическую деятельность с языком в том или ином его аспекте. Целевая аудитория курса включает в себя студентов, которые собираются заниматься созданием и анализом языковых моделей, диалоговых систем, анализом тональности текстов и др. Цель этого курса – показать связь между NLP и компьютерной лингвистикой с одной стороны и теоретической лингвистикой – с другой, а также в общих чертах познакомить с современными методами обработки естественного языка. В ходе курса мы обсудим, насколько обоснованы методы и фреймворки, которые применяются в современном NLP, почему тексты – это так важно и зачем программисту знать про разные языки и их внутреннее устройство.
Цель освоения дисциплины
- уметь анализировать компьютерные методы с точки зрения теоретической лингвистики
- разбираться в основных фактах, касающихся разных уровней естественного языка (фонетики, морфологии, синтаксиса, семантики и прагматики)
Планируемые результаты обучения
- уметь отличать лингвистику от других смежных областей
- уметь рассуждать об особенностях отдельных языков
- применять знания из области теоретической лингвистики в NLP
- уметь анализировать фонетические особенности языков
- ориентироваться в основных направлениях лингвистических фреймворков
- уметь пользоваться лингвистическими терминами
Содержание учебной дисциплины
- Фундаментальная и компьютерная лингвистика
- Методы машинного обучения в экспериментальной лингвистике
- Почему языки такие разные
- Фонетика. Использование частотных коэффициентов для автоматического распознавания речи.
- Грамматика и лексика
- Моделирование морфологии с помощью правил VS с помощью машинного обучения
- Синтаксис. Использование UD разметки при машинном обучении
- Семантика. Полисемия и омонимия. Моделирование семантики системами ИИ
- Лингвистические ресурсы: использование корпусных данных для обучения и оценки больших языковых моделей
- Полевая лингвистика. Автоматическое распознавание речи на малых языках
- Дискурс
- Социолингвистика
- Жестовые языки. Мультимодальное машинное обучение для распознавания жестовых языков.
- Знание языка моделями
Элементы контроля
- Домашние заданияПисьменные решения задач, рассуждения о конкретных проблемах с лекций/семинаров.
- ТестыКороткие гугл-формы по материалам лекций и домашнего чтения
- ПроектГрупповой проект – реализация несложного продукта, который использует знания, полученные в течение курса. Примеры: * Продукт для использования полевыми лингвистами * Морфологический анализатор или корпус для малоресурсного языка X * Прикладное решение грамматической или лексической омонимии на примере явления X
- ЭкзаменУстное обсуждение глоссирования небольшого текста на незнакомом языке и ответ на теоретические вопросы
Промежуточная аттестация
- 2023/2024 4th module0.3 * Домашние задания + 0.3 * Проект + 0.2 * Тесты + 0.2 * Экзамен