Компьютерная лингвистика

Магистратура 2021/2022

Лучший по критерию «Полезность курса для Вашей будущей карьеры»

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»

Лучший по критерию «Новизна полученных знаний»

Статус: Курс обязательный (Компьютерная лингвистика)

Направление: 45.04.03. Фундаментальная и прикладная лингвистика

Кто читает: Школа лингвистики

Где читается: Факультет гуманитарных наук

Когда читается: 1-й курс, 2-4 модуль

Формат изучения: с онлайн-курсом

Онлайн-часы: 19

Охват аудитории: для своего кампуса

Преподаватели: Бонч-Осмоловская Анастасия Александровна, Нефедов Михаил Анатольевич

Прогр. обучения: Компьютерная лингвистика

Язык: русский

Кредиты: 8

Контактные часы: 64

Полная версия программы учебной дисциплины Задать вопрос

Аннотация

Курс знакомит студентов с основными сведениями о компьютерной лингвистике и об автоматической обработке речи, формирует навыки предобразования, нормализации и векторизации текстов, тренирует умение строить модели. основанные на эвристиках на машинном обучении, готовит к выполнению профессиональных обязанностей в области компьютерной лингвистики.

Цель освоения дисциплины

познакомить студентов с основными задачами компьютерной лингвистики и автоматической обработки языка
познакомить студентов с современными подходами к решению задач компьютерной лингвистики

Планируемые результаты обучения

Умеют использовать natasha для извлечения стандартных сущностей; разрабатывать грамматики для yargy для извлечения специфических сущностей
Умеют использовать матричные разложения для построения представлений слов; обучать word2vec, fastext из gensim, различать эти алгоритмы между собой; оценивать качество векторных представления на задаче определения перефразирования
Умеют использовать неотрицательное матричное разложение (NMF) из sklearn; использовать LDA из gensim; использовать BigARTM, настраивать регуляризаторы; оценивать качество тематических моделей (интерпретируемость, перплексия, когерентность), подбирать оптимальное количество тем
Умеют использовать предобученные модели (UdPipe, SyntaxNet) для построения деревьев зависимости; извлекать тройки субъект-предикат-объект из графов зависимостей предложений; находить структурно близкие предложения с помощью tree edit distance
Умеют использовать предобученные модели для морфологической разметки; пользоваться функцией обучение на своих данных TreeTagger; использовать LSTM из keras для предсказания морфологических тэгов
Умеют обучать seq2seq модели для перевода; использовать предобученные модели для текстовых аугментаций; оценивать качество машинного перевода
Умеют определять опечатки с помощью словаря и классификатора; использовать алгоритм Норвига для генерации исправления; сравнивать различные меры редактирования (расстояние левенштейна, хэмминга и др.); оптимизировать поиск исправления с помощью векторизации
Умеют оценивать степень устойчивости сочетаний слов с помощью различных метрик; пользоваться Phraser из gensim для объединения токенов в нграммы; использовать nltk для нахождения устойчивых биграммов и триграммов
Умеют пользоваться wordnet; использовать алгоритм Леска для определения значения слова по контексту; обучать Adagram и определять нужное значение слова по контексту; кластеризовать контексты слов для определения количества значений слова; оценивать качество кластеризации при наличии разметки
Умеют различать задачу классификации и ранжирования; использовать TfidfVectorizer из sklearn для ранжирования слов по значимости; представлять текст в виде графа; рассчитывать важность слов в графе с помощью random walk и мер центральности в networkx; разрабатывать собственные метрики значимости
Умеют различать токенизацию, лемматизацию и стемминг; применять регулярные выражения для токенизации текстов; использовать word_tokenizer, snowball stemmer из nltk; пользоваться pymorphy2 и mystem3 для лемматизации
Умеют реализовывать алгоритм витерби для нахождения правильных частей речи; реализовывать beam search для ускорения работы витерби
Умеют собирать многоязычные корпусы с помощью wikidata; применять мешок слов и мешок буквенных нграммов для расчёта близости текстов; использовать CountVectorizer из sklearn для векторизации текстов; применять LogisticRegression из sklearn для классификации; оценивать качество классификации (точность, полнота, ф-мера)
Умеют создавать вопросно-ответные системы на данных википедии с помощью мешка слов (DrQA); обучать нейронные вопросно-ответные модели на SQUAD
Умеют создавать языковые модели с помощью keras; использовать предобученные state-of-the-art модели (BERT, ELMO, GPT-2) для получения векторных представлений; дообучать (fine-tuning) предобученные модели для задач классификации
Умеют сравнивать различные классификаторы в sklearn с использованием кросс-валидации; находить значимые и незначимые признаки

Содержание учебной дисциплины

Введение, предобработка текста, нграммы, распознавание языка, анализ тональности
Выделение и исправление опечаток, извлечение именованных сущностей, извлечение ключевых слов, тематическое моделирование
Векторные представления, лексическая дезамбигуация, разметка последовательности, морфологическая дизамбигуация
Синтаксический парсинг, языковое моделирование, вопросно-ответные системы, машинный перевод

Элементы контроля

Домашние задания
Преподаватель оценивает самостоятельную работу студентов по выполнению домашних работ, выдаваемых на практических занятиях – при этом оценивается правильность выбора метода решения задачи в соответствии с заранее установленным критериями. Домашние работы сдаются за 2 дня до следующего занятия (до 23:59 предыдущего дня). После проверки заданий студенты получают обратную связь и оценку по своей работе по почте. Работы, которые были сданы после крайнего срока, штрафуются на три балла. Оценки за домашние задания выставляются в рабочую ведомость, перед экзаменом модуля оценки за домашние задания усредняются и выставляется единая средняя оценка по десятибалльной шкале.
Экзамен
Экзамен пересдается в соответствии с правилами, утвержденными академсоветом ОП.

Промежуточная аттестация

2021/2022 учебный год 4 модуль
0.7 * Домашние задания + 0.3 * Экзамен

Список литературы

Авторы

Бонч-Осмоловская Анастасия Александровна
Нефедов Михаил Анатольевич

Программа дисциплины

Программа дисциплины

Программа дисциплины

Аннотация

Цель освоения дисциплины

Планируемые результаты обучения

Содержание учебной дисциплины

Элементы контроля

Промежуточная аттестация

Список литературы

Рекомендуемая основная литература

Рекомендуемая дополнительная литература

Авторы