• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2023/2024

Работа с текстами на естественном языке

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус: Курс по выбору (Медиакоммуникации)
Направление: 42.03.05. Медиакоммуникации
Кто читает: Институт медиа
Когда читается: 3-й курс, 4 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Преподаватели: Двойникова Анастасия Александровна
Язык: русский
Кредиты: 4
Контактные часы: 46

Программа дисциплины

Аннотация

Работа с текстами на естественном языке позволяет решать целый список бизнес- и исследовательских задач, включая перевод, классификацию и объединение текстов, выделение в текстах эмоциональной составляющей высказываний, выделение важной информации из больших текстовых массивов. Программа рассчитана на студентов, которые уже имеют опыт работы с Python – основы синтаксиса языка, циклы, условия. Цель программы - изучить методы статистического, визуального анализа данных, предобработки и векторизации текстов, необходимых для основных задач NLP - классификации текстов, сентимент анализ, определение топиков и так далее. Основные инструменты - библиотеки Sklearn, NLTK, Gensim и другие.
Цель освоения дисциплины

Цель освоения дисциплины

  • Познакомить с методами статистического и визуального анализа данных, предобработки и векторизации данных, необходимых для основных задач NLP.
Планируемые результаты обучения

Планируемые результаты обучения

  • Классифицирует тексты с помощью разных алгоритмов
  • Проводит статистический и визуальный анализ текстовых данных
  • Выделяет из текстов релевантную информацию
  • Векторизует тексты с помощью различных методов
  • Проводит кластеризацию текстов
  • Работает с текстовыми корпусами данных в формате csv
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение
  • Предобработка текстовых данных
  • Анализ данных
  • Статистический и визуальный анализ данных
  • Словарные методы векторизации текстов
  • Автоматические методы векторизации
  • Снижение размерности
  • Система классификации
  • Методы классификации
  • Сентимент-анализ
Элементы контроля

Элементы контроля

  • неблокирующий Домашние задания
  • неблокирующий Зачет
  • неблокирующий Дедлайн
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 учебный год 4 модуль
    Дедлайн * 0.25 + Домашние задания: Домашнее задание * 0.45 + Зачет * 0.3
Список литературы

Список литературы

Рекомендуемая основная литература

  • Рашка, С. Python и машинное обучение: крайне необходимое пособие по новейшей предсказательной аналитике, обязательное для более глубокого понимания методологии машинного обучения : руководство / С. Рашка , перевод с английского А. В. Логунова. — Москва : ДМК Пресс, 2017. — 418 с. — ISBN 978-5-97060-409-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/100905 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Коэльо, Л. П. Построение систем машинного обучения на языке Python / Л. П. Коэльо, В. Ричарт , перевод с английского А. А. Слинкин. — 2-е изд. — Москва : ДМК Пресс, 2016. — 302 с. — ISBN 978-5-97060-330-7. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/82818 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.