Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.

  • A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2020/2021

Автоматическая обработка естественного языка

Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Направление: 45.03.03. Фундаментальная и прикладная лингвистика
Когда читается: 4-й курс, 2 модуль
Формат изучения: без онлайн-курса
Преподаватели: Еникеева Екатерина Владимировна, Орлов Александр Викторович
Язык: русский
Кредиты: 3
Контактные часы: 40

Программа дисциплины

Аннотация

Курс знакомит студентов с основными сведениями об автоматической обработке речи, систематизирует знания об основных методах автоматического анализа текста и о современных задачах извлечения информации из текста, тренирует навык применения алгоритмов семантической обработки текста, формирует умение пользоваться инструментами для семантической обработки текста на русском языке.
Цель освоения дисциплины

Цель освоения дисциплины

  • овладение студентами основными методами автоматического анализа текста
  • знакомство с современными задачами извлечения информации из текста
Планируемые результаты обучения

Планируемые результаты обучения

  • владеет основными методами выделения ключевых слов к тексте
  • владеет основными методами выделения устойчивых словосочетаний, знаком с их преимуществами и недостатками
  • умеет применять методы разрешения семантической неоднозначности
  • умеет применять методы тематического моделирования
  • умеет определять семантически близкие слова
  • умеет использовать систему Natasha для написания правил по извлечению именованных сущностей
  • умеет применять методы автоматической классификации для извлечения тонального лексикона на основе большого корпуса текстов
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Квантитативные характеристики слов и использование их в автоматической обработке
    Автоматический семантический анализ. Методы выделения тематически значимых слов в тексте. Ключевые слова. tf.idf, модификации Векторная модель. Вероятностная модель. (модель, основанная на релевантности, OKAPIBM25). Мера LogLikelihood для выделения лексических единиц, специфичных для коллекции текстов по сравнению с другой коллекцией текстов (выделение терминов предметной области). Мера странности (wierdness). Алгоритм RAKE.
  • Выделение устойчивых словосочетаний
    Понятие устойчивых словосочетаний в лингвистике. Разные подходы. Основанное на частотности определение коллокаций. Параметры задачи: понятие окна, типы выделяемых семантических отношений в зависимости от окна. Частеречные фильтры. Метод среднего и среднеквадратичного отклонения. T-score. T-scoreдля разведения двух близких синонимов. Хи-квадрат. LogLikelihood. Поточечная взаимная информация (PMI). Роль синтаксиса при выделении коллокаций.
  • Методы разрешения семантической неоднозначности
    Методы разрешения семантической неоднозначности, основанные на знаниях. Алгоритм Леска. WordNet. Алгоритмы, основанные на использовании лексикографической базы WordNet. Понятие семантического расстояния в WordNet. Методы автоматической классификации в задачах разрешения семантической неоднозначности (WSD). Наивный байесовский классификатор. Обучение без учителя при извлечении значений лексемы из неразмеченного корпуса (wordsenseinduction). Обучение с частичным применением учителя при разрешении семантической неоднозначности. Алгоритм Яровски
  • Тематическое моделирование
    Латентно-семантический анализ. Метод сингулярного разложения матрицы. Латентное размещение Дирихле.
  • Определение семантической близости. Векторные модели
    Дистрибутивная семантика, векторная модель слова. Эмбеддинги: word2vec, GloVe, AdaGram. Обучение моделей word2vec.
  • Применение методов семантической обработки к задачам извлечения информации из текста
    Обзор задач и систем компьютерной лингвистики Постановка задач для выполнения курсового проекта: разработка ТЗ для создания системы обработки текста (синтеза текста, машинного перевода и т.п.), использующей модули автоматической обработки текста.
Элементы контроля

Элементы контроля

  • неблокирующий Домашние задания
    Пересдается в течение недели после окончания пропуска по уважительной причине, но не позднее 10 дней до сессии.
  • неблокирующий Чтение статей и составление резюме
  • неблокирующий Проектная работа
    По каждому из разделов готовится один проект; оценивается разработка ТЗ для создания системы обработки текста; взаимное рецензирование и обсуждение проекта; презентации проектов; окончательная версия проекта; рейтинг при оценке качества (F-меры). При пересдаче необходимо устранить недостатки проекта. Предполагается переработка проекта и его защита.
  • неблокирующий Экзамен
    По общим правилам пересдачи экзамена, пропущенного по уважительной причине.
  • неблокирующий тест
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.25 * Домашние задания + 0.3 * Проектная работа + 0.25 * тест + 0.2 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • The Handbook of Computational Linguistics and Natural Language Processing [Электронный ресурс] / ed. by Alexander Clark, Chris Fox, Shalom Lappin; DB ebrary. – Chichester: John Wiley & Sons, 2013. – 203 p. – Режим доступа: https://ebookcentral.proquest.com/lib/hselibrary-ebooks/reader.action?docID=4035461&query=computational+linguistics

Рекомендуемая дополнительная литература

  • Dale R., Moisl H., Somers H. (ed.). Handbook of natural language processing. – CRC Press, 2000. – 1015 pp.