Магистратура
2020/2021




Проектно-исследовательский семинар
Статус:
Курс по выбору (Компьютерная лингвистика)
Направление:
45.04.03. Фундаментальная и прикладная лингвистика
Кто читает:
Школа лингвистики
Где читается:
Факультет гуманитарных наук
Когда читается:
2-й курс, 1-3 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Бонч-Осмоловская Анастасия Александровна,
Иомдин Борис Леонидович,
Поздняков Иван Сергеевич,
Толдова Светлана Юрьевна
Прогр. обучения:
Компьютерная лингвистика
Язык:
русский
Кредиты:
6
Контактные часы:
42
Программа дисциплины
Аннотация
Целями освоения дисциплины «Проектирование лингвистических ресурсов и систем» являются формирование навыков по созданию лингвистических компонентов обработки текстов, формирование навыков работы в команде, формулирования и решения поставленных задач, методологически корректного построения экспериментов и исследований. Для освоения учебной дисциплины, студенты должны владеть следующими знаниями и компетенциями: • Владеть основными методами компьютерной лингвистики • Владеть технологиями и алгоритмами из курсов “Программирование”, “Машинное обучение”, “Компьютерная лингвистика”.
Цель освоения дисциплины
- Научить студентов основным принципам разработки и создания лингвистических корпусов и ресурсов; преимуществам и недостаткам формальных моделей, лежащих в основе различных модулей автоматической обработки текста; необходимым этапам морфологического анализа и проблемам, возникающим при моделировании каждого из этапов; • основным алгоритмам, используемым для построения автоматического синтаксического анализа; наиболее известным доступным для свободного использования компонентам автоматического анализа, в том числе синтаксическим и морфологическим парсерам, системам распознавания именованных сущностей (NER); принципам оценки качества таких систем.
- Научить студентов проводить оценку качества систем автоматического морфологического, синтаксического и семантического анализа; использовать соответствующие модули в различных приложениях; участвовать в разработке отдельных модулей в системах автоматического анализа текстов, самостоятельно разрабатывать лингвистические ресурсы. Основные положения дисциплины должны быть использованы в дальнейшей профессиональной деятельности (дисциплина ведется на выпускном курсе).
Планируемые результаты обучения
- знает основные методы и подходы к машинному переводу
- знает классифицикацию одномерных сигналов, модели речевого тракта, кластеризацию акустических векторов, нейросетевые технологии обработки звучащей речи.
Содержание учебной дисциплины
- Введение в машинный перевод1. Этапы алгоритма систем машинного перевода, основанных на правилах. 2. Статистический подход к машинному переводу.
- Введение в речевые технологии1. Классификация одномерных сигналов 2. Модели речевого тракта. 3. Кластеризация акустических векторов. 4 Нейросетевые технологии обработки звучащей речи.
Промежуточная аттестация
- Промежуточная аттестация (3 модуль)0.2 * аудиторная работа + 0.4 * домашняя работа + 0.4 * проект
Список литературы
Рекомендуемая основная литература
- Методы и алгоритмы обработки данных : учеб. пособие / А.А. Григорьев. — М. : ИНФРА-М, 2017. — 256 с. + Доп. материалы [Электронный ресурс; Режим доступа http://www.znanium.com]. — (Высшее образование: Бакалавриат). — www.dx.doi.org/10.12737/22119. - Режим доступа: http://znanium.com/catalog/product/545998
Рекомендуемая дополнительная литература
- Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход / Б.Ю. Лемешко, С.Б. Лемешко, С.Н. Постовалов и др. - М.: НИЦ ИНФРА-М, 2015. - 890 с.: 60x90 1/16 ISBN 978-5-16-103267-1 (online) - Режим доступа: http://znanium.com/catalog/product/515227