• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2023/2024

Обработка текстов на естественном языке и диалоговые интерфейсы

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус: Маго-лего
Когда читается: 1, 2 модуль
Охват аудитории: для всех кампусов НИУ ВШЭ
Язык: русский
Кредиты: 6
Контактные часы: 44

Программа дисциплины

Аннотация

Является дисциплиной по выбору. Целью освоения дисциплины является ознакомление слушателей с методами обработки текста на естественном языке, а также методами обработки слабоструктурированных данных и извлечения информации. Предполагается знакомство с методами извлечения отношений, анализа тональности, аннотирования и кластеризации текстов, а также с существующими программными реализациями этих методов.
Цель освоения дисциплины

Цель освоения дисциплины

  • Ознакомление слушателей с методами обработки текста на естественном языке, а также методами обработки слабоструктурированных данных и извлечения информации.
Планируемые результаты обучения

Планируемые результаты обучения

  • Определяет тональность текстов при помощи автоматизированного инструментария
  • Применяет векторные модели документов в анализе
  • Применяет методы извлечения информации при проектировании чат-ботов
  • Применяет методы классификации и кластеризации текстов на языке Python
  • Формулирует задачу обработки текста в терминах как предметной области, так и области формальных объектов
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в обработку естественного языка
  • Классификация и кластеризация текстов
  • Информационный поиск
  • Введение в извлечение информации
  • Извлечение мнений
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
    Задание направлено на применение методов парсинга данных и предварительной обработки текстов, используя библиотеки языка python
  • неблокирующий Итоговый проект
    Реализация своего чат бота, который запускается и работает в командной строке со одной из перечисленных фич
  • неблокирующий Домашнее задание 2
    Предобработка данных для обучения языковой модели. Обучение модели на обработанных данных
  • неблокирующий Упражнения
    Для закрепления навыков по работе с инструментарием студентам предлагается выполнить упражнения на онлайн-ресурсам. Выбор источника упражнений определяется преподавателем
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 учебный год 2 модуль
    0.25 * Домашнее задание 1 + 0.25 * Домашнее задание 2 + 0.4 * Итоговый проект + 0.1 * Упражнения
Список литературы

Список литературы

Рекомендуемая основная литература

  • Zhai, C., & Aggarwal, C. C. (2012). Mining Text Data. New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=537386

Рекомендуемая дополнительная литература

  • Davies, J., Goker, A., & Wiley InterScience (Online service). (2009). Information Retrieval : Searching in the 21st Century. Chichester, U.K.: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=308933
  • Munzert S. Automated data collection with R: a practical guide to Web scraping and text mining. Chichester, West Sussex, United Kingdom: Wiley, 2014. 1 p.

Авторы

  • Суворова Алёна Владимировна