• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2021/2022

Автоматическая обработка текста

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Направление: 01.03.02. Прикладная математика и информатика
Когда читается: 4-й курс, 1, 2 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 5
Контактные часы: 60

Программа дисциплины

Аннотация

Курс «Автоматическая обработка текстов» является вводным в проблематику компьютерной лингвистики и построения программных систем для обработки текстов на естественном языке. Изучаются основные методы автоматической обработки текста (АОТ), а также виды необходимых для этого лингвистических ресурсов. Обзорно рассматриваются современные приложения в области АОТ и принципы их построения. Лекции, включающие теоретический материал курса, дополняются практическими занятиями по изучению соответствующих интернет-ресурсов и прикладного программного обеспечения, а также домашними заданиями по их применению.
Цель освоения дисциплины

Цель освоения дисциплины

  • Освоение основ автоматической обработки текстов на естественном языке, включая базовые навыки работы с лингвистическими процессорами и ресурсами
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать основные особенности неструктурированных текстов на ЕЯ и принципы их графематического, морфологического, синтаксического и статистического анализа
  • Знать типичные прикладные системы в области АОТ и их архитектурные особенности
  • Иметь представление о видах лингвистических ресурсов, используемых в различных системах обработки текстов
  • Понимать ограничения компьютерных моделей автоматической обработки текстов
  • Уметь применять готовые программные модули анализа текстов и открытые лингвистические ресурсы для решения частных задач АОТ
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение
  • Начальные этапы обработки текста
  • Статистические характеристики текстов и корпусная лингвистика
  • Подходы к автоматическому анализу синтаксиса и семантики текста
  • Лингвистические ресурсы
  • Прикладные задачи АОТ
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
    Набранные за ДЗ баллы суммируются и нормализуются для выставления итоговой оценки за все ДЗ.
  • неблокирующий Вопросы по итогам лекции
    Ответы на один или несколько вопросов в конце лекции или семинара. На ответ дается 5-10 минут. Правильный ответ засчитывается студенту в качестве одного "условного" балла. Студент, набравший 6 и более баллов по итогам курса получает дополнительно 0.5 к своей итоговой оценке.
  • неблокирующий Проект
    Проект, который выполняется группой студентов в течение учебного курса.
  • неблокирующий Экзамен
    Устный экзамен в форме ответа на вопросы из билетов. Для подготовки к ответу студенту дается не более 5 минут.
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 2 модуль
    Пром1 = Округление(0.3 ДЗ1 + 0.3 ДЗ2 + 0.4 Проект1)
    Пром2 = Округление(0.3 ДЗ3 + 0.3 ДЗ4 + 0.4 Проект2).
    Oвопросы=0,5 или 0
    Автомат: при 1/2 Округление (Пром1+Пром2) >= 8 автоматически выставляется оценка за Экзамен = 1/2 Округление (Пром1+Пром2).
    Итоговая оценка по данной учебной дисциплине (округление арифметическое):
    Oитоговая = Минимум(0,3·Пром1 + 0,3·Пром2+0,4·Oэкзамен+Oответы на вопросы, 10)
Список литературы

Список литературы

Рекомендуемая основная литература

  • Indurkhya N., Damerau F. J. Handbook of natural language processing. – Chapman and Hall/CRC, 2010. – 704 pp.

Рекомендуемая дополнительная литература

  • Dale R., Moisl H., Somers H. (ed.). Handbook of natural language processing. – CRC Press, 2000. – 1015 pp.
  • Olive, J., Christianson, C., McCary, J. (ed.). Handbook of natural language processing and machine translation: DARPA global autonomous language exploitation. – Springer Science & Business Media, 2011.

Авторы

  • Ильвовский Дмитрий Алексеевич