Бакалавриат
2021/2022
Автоматическая обработка естественного языка
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Статус:
Курс по выбору (Фундаментальная и компьютерная лингвистика)
Направление:
45.03.03. Фундаментальная и прикладная лингвистика
Кто читает:
Школа лингвистики
Где читается:
Факультет гуманитарных наук
Когда читается:
4-й курс, 2 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
3
Контактные часы:
40
Программа дисциплины
Аннотация
Курс знакомит студентов с основными сведениями об автоматической обработке речи, систематизирует знания об основных методах автоматического анализа текста и о современных задачах извлечения информации из текста, тренирует навык применения алгоритмов семантической обработки текста, формирует умение пользоваться инструментами для семантической обработки текста на русском языке.
Цель освоения дисциплины
- овладение студентами основными методами автоматического анализа текста
- знакомство с современными задачами извлечения информации из текста
Планируемые результаты обучения
- владеет основными методами выделения ключевых слов к тексте
- владеет основными методами выделения устойчивых словосочетаний, знаком с их преимуществами и недостатками
- умеет использовать систему Natasha для написания правил по извлечению именованных сущностей
- умеет определять семантически близкие слова
- умеет применять методы автоматической классификации для извлечения тонального лексикона на основе большого корпуса текстов
- умеет применять методы разрешения семантической неоднозначности
- умеет применять методы тематического моделирования
Содержание учебной дисциплины
- Квантитативные характеристики слов и использование их в автоматической обработке
- Выделение устойчивых словосочетаний
- Методы разрешения семантической неоднозначности
- Тематическое моделирование
- Определение семантической близости. Векторные модели
- Применение методов семантической обработки к задачам извлечения информации из текста
Элементы контроля
- Домашние заданияПересдается в течение недели после окончания пропуска по уважительной причине, но не позднее 10 дней до сессии.
- Чтение статей и составление резюме
- Проектная работаПо каждому из разделов готовится один проект; оценивается разработка ТЗ для создания системы обработки текста; взаимное рецензирование и обсуждение проекта; презентации проектов; окончательная версия проекта; рейтинг при оценке качества (F-меры). При пересдаче необходимо устранить недостатки проекта. Предполагается переработка проекта и его защита.
- ЭкзаменПо общим правилам пересдачи экзамена, пропущенного по уважительной причине.
- тест
Промежуточная аттестация
- 2021/2022 учебный год 2 модуль0.35 * Проектная работа + 0.25 * Чтение статей и составление резюме + 0.4 * Домашние задания
Список литературы
Рекомендуемая основная литература
- Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition, Jurafsky, D., 2009
- Speech and language processing, Jurafsky, D., 2014
- The Handbook of Computational Linguistics and Natural Language Processing [Электронный ресурс] / ed. by Alexander Clark, Chris Fox, Shalom Lappin; DB ebrary. – Chichester: John Wiley & Sons, 2013. – 203 p. – Режим доступа: https://ebookcentral.proquest.com/lib/hselibrary-ebooks/reader.action?docID=4035461&query=computational+linguistics
- The handbook of computational linguistics and natural language processing, , 2013
Рекомендуемая дополнительная литература
- Dale R., Moisl H., Somers H. (ed.). Handbook of natural language processing. – CRC Press, 2000. – 1015 pp.