Бакалавриат
2021/2022
Автоматическая обработка текста
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс по выбору (Прикладная математика и информатика)
Направление:
01.03.02. Прикладная математика и информатика
Где читается:
Факультет компьютерных наук
Когда читается:
4-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Ильвовский Дмитрий Алексеевич
Язык:
русский
Кредиты:
5
Контактные часы:
60
Программа дисциплины
Аннотация
Курс «Автоматическая обработка текстов» является вводным в проблематику компьютерной лингвистики и построения программных систем для обработки текстов на естественном языке. Изучаются основные методы автоматической обработки текста (АОТ), а также виды необходимых для этого лингвистических ресурсов. Обзорно рассматриваются современные приложения в области АОТ и принципы их построения. Лекции, включающие теоретический материал курса, дополняются практическими занятиями по изучению соответствующих интернет-ресурсов и прикладного программного обеспечения, а также домашними заданиями по их применению.
Цель освоения дисциплины
- Освоение основ автоматической обработки текстов на естественном языке, включая базовые навыки работы с лингвистическими процессорами и ресурсами
Планируемые результаты обучения
- Знать основные особенности неструктурированных текстов на ЕЯ и принципы их графематического, морфологического, синтаксического и статистического анализа
- Знать типичные прикладные системы в области АОТ и их архитектурные особенности
- Иметь представление о видах лингвистических ресурсов, используемых в различных системах обработки текстов
- Понимать ограничения компьютерных моделей автоматической обработки текстов
- Уметь применять готовые программные модули анализа текстов и открытые лингвистические ресурсы для решения частных задач АОТ
Содержание учебной дисциплины
- Введение
- Начальные этапы обработки текста
- Статистические характеристики текстов и корпусная лингвистика
- Подходы к автоматическому анализу синтаксиса и семантики текста
- Лингвистические ресурсы
- Прикладные задачи АОТ
Элементы контроля
- Домашнее заданиеНабранные за ДЗ баллы суммируются и нормализуются для выставления итоговой оценки за все ДЗ.
- Вопросы по итогам лекцииОтветы на один или несколько вопросов в конце лекции или семинара. На ответ дается 5-10 минут. Правильный ответ засчитывается студенту в качестве одного "условного" балла. Студент, набравший 6 и более баллов по итогам курса получает дополнительно 0.5 к своей итоговой оценке.
- ПроектПроект, который выполняется группой студентов в течение учебного курса.
- ЭкзаменУстный экзамен в форме ответа на вопросы из билетов. Для подготовки к ответу студенту дается не более 5 минут.
Промежуточная аттестация
- 2021/2022 учебный год 2 модульПром1 = Округление(0.3 ДЗ1 + 0.3 ДЗ2 + 0.4 Проект1)
Пром2 = Округление(0.3 ДЗ3 + 0.3 ДЗ4 + 0.4 Проект2).
Oвопросы=0,5 или 0
Автомат: при 1/2 Округление (Пром1+Пром2) >= 8 автоматически выставляется оценка за Экзамен = 1/2 Округление (Пром1+Пром2).
Итоговая оценка по данной учебной дисциплине (округление арифметическое):
Oитоговая = Минимум(0,3·Пром1 + 0,3·Пром2+0,4·Oэкзамен+Oответы на вопросы, 10)
Список литературы
Рекомендуемая основная литература
- Indurkhya N., Damerau F. J. Handbook of natural language processing. – Chapman and Hall/CRC, 2010. – 704 pp.
Рекомендуемая дополнительная литература
- Dale R., Moisl H., Somers H. (ed.). Handbook of natural language processing. – CRC Press, 2000. – 1015 pp.
- Olive, J., Christianson, C., McCary, J. (ed.). Handbook of natural language processing and machine translation: DARPA global autonomous language exploitation. – Springer Science & Business Media, 2011.