Бакалавриат
2022/2023
Автоматическая обработка естественного языка
Статус:
Курс по выбору (Фундаментальная и компьютерная лингвистика)
Направление:
45.03.03. Фундаментальная и прикладная лингвистика
Кто читает:
Школа лингвистики
Где читается:
Факультет гуманитарных наук
Когда читается:
4-й курс, 2 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
3
Контактные часы:
36
Программа дисциплины
Аннотация
Курс знакомит студентов с основными сведениями об автоматической обработке речи, систематизирует знания об основных методах автоматического анализа текста и о современных задачах извлечения информации из текста, тренирует навык применения алгоритмов семантической обработки текста, формирует умение пользоваться инструментами для семантической обработки текста на русском языке.
Цель освоения дисциплины
- овладение студентами основными методами автоматического анализа текста
- знакомство с современными задачами извлечения информации из текста
Планируемые результаты обучения
- владеет основными методами выделения ключевых слов к тексте
- владеет основными методами выделения устойчивых словосочетаний, знаком с их преимуществами и недостатками
- умеет использовать систему Natasha для написания правил по извлечению именованных сущностей
- умеет определять семантически близкие слова
- умеет применять методы автоматической классификации для извлечения тонального лексикона на основе большого корпуса текстов
- умеет применять методы разрешения семантической неоднозначности
- умеет применять методы тематического моделирования
Содержание учебной дисциплины
- Квантитативные характеристики слов и использование их в автоматической обработке
- Выделение устойчивых словосочетаний
- Методы разрешения семантической неоднозначности
- Тематическое моделирование
- Определение семантической близости. Векторные модели
- Применение методов семантической обработки к задачам извлечения информации из текста
Элементы контроля
- домашние заданияОценка по домашним заданиям вычисляется как среднее по всем домашним задания. Сдача задания после дедлайна рассчитывается как 0.7 от полной оценки за выполненное задание. Возможна досдача и пересдача домашних заданий в конце модуля. Оценка при этом рассчитывается как 0.3 от полной оценки за выполненное задание. При пересдаче необходимо исправить недочеты в домашних заданиях, выполнить невыполненные в течение модуля задания.
- экзамен
- проектное заданиеВ течение недели после начала работы по окончании пропуска, но не позднее 10 дней до сессии, если преподавателем не предложено иное. При пересдаче необходимо устранить недостатки проекта. Предполагается переработка проекта и его защита.
- мини-тесты
- домашние задания
- квизы
- проектное задание
Промежуточная аттестация
- 2021/2022 учебный год 1 модуль0.25 * экзамен + 0.15 * мини-тесты + 0.3 * проектное задание + 0.3 * домашние задания
- 2022/2023 учебный год 2 модуль0.35 * проектное задание + 0.4 * домашние задания + 0.25 * квизы
Список литературы
Рекомендуемая основная литература
- Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition, Jurafsky, D., 2009
- Speech and language processing, Jurafsky, D., 2014
- The Handbook of Computational Linguistics and Natural Language Processing [Электронный ресурс] / ed. by Alexander Clark, Chris Fox, Shalom Lappin; DB ebrary. – Chichester: John Wiley & Sons, 2013. – 203 p. – Режим доступа: https://ebookcentral.proquest.com/lib/hselibrary-ebooks/reader.action?docID=4035461&query=computational+linguistics
- The handbook of computational linguistics and natural language processing, , 2013
Рекомендуемая дополнительная литература
- Dale R., Moisl H., Somers H. (ed.). Handbook of natural language processing. – CRC Press, 2000. – 1015 pp.