• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Бакалаврская программа «Медиакоммуникации»

02
Сентябрь

Работа с текстами на естественном языке

2023/2024
Учебный год
RUS
Обучение ведется на русском языке
4
Кредиты
Кто читает:
Институт медиа
Статус:
Курс по выбору
Когда читается:
3-й курс, 4 модуль

Преподаватель


Двойникова Анастасия Александровна

Программа дисциплины

Аннотация

Работа с текстами на естественном языке позволяет решать целый список бизнес- и исследовательских задач, включая перевод, классификацию и объединение текстов, выделение в текстах эмоциональной составляющей высказываний, выделение важной информации из больших текстовых массивов. Программа рассчитана на студентов, которые уже имеют опыт работы с Python – основы синтаксиса языка, циклы, условия. Цель программы - изучить методы статистического, визуального анализа данных, предобработки и векторизации текстов, необходимых для основных задач NLP - классификации текстов, сентимент анализ, определение топиков и так далее. Основные инструменты - библиотеки Sklearn, NLTK, Gensim и другие.
Цель освоения дисциплины

Цель освоения дисциплины

  • Познакомить с методами статистического и визуального анализа данных, предобработки и векторизации данных, необходимых для основных задач NLP.
Планируемые результаты обучения

Планируемые результаты обучения

  • Классифицирует тексты с помощью разных алгоритмов
  • Проводит статистический и визуальный анализ текстовых данных
  • Выделяет из текстов релевантную информацию
  • Векторизует тексты с помощью различных методов
  • Проводит кластеризацию текстов
  • Работает с текстовыми корпусами данных в формате csv
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение
  • Предобработка текстовых данных
  • Анализ данных
  • Статистический и визуальный анализ данных
  • Словарные методы векторизации текстов
  • Автоматические методы векторизации
  • Снижение размерности
  • Система классификации
  • Методы классификации
  • Сентимент-анализ
Элементы контроля

Элементы контроля

  • неблокирующий Домашние задания
  • неблокирующий Зачет
  • неблокирующий Дедлайн
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 учебный год 4 модуль
    Дедлайн * 0.25 + Домашние задания: Домашнее задание * 0.45 + Зачет * 0.3
Список литературы

Список литературы

Рекомендуемая основная литература

  • Рашка, С. Python и машинное обучение: крайне необходимое пособие по новейшей предсказательной аналитике, обязательное для более глубокого понимания методологии машинного обучения : руководство / С. Рашка , перевод с английского А. В. Логунова. — Москва : ДМК Пресс, 2017. — 418 с. — ISBN 978-5-97060-409-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/100905 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Коэльо, Л. П. Построение систем машинного обучения на языке Python / Л. П. Коэльо, В. Ричарт , перевод с английского А. А. Слинкин. — 2-е изд. — Москва : ДМК Пресс, 2016. — 302 с. — ISBN 978-5-97060-330-7. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/82818 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Авторы

  • Федорова Ксения Александровна
  • Абрамов Роман Сергеевич