Бакалавриат
2023/2024
Работа с текстами на естественном языке
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс по выбору (Медиакоммуникации)
Направление:
42.03.05. Медиакоммуникации
Кто читает:
Институт медиа
Где читается:
Факультет креативных индустрий
Когда читается:
3-й курс, 4 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Двойникова Анастасия Александровна
Язык:
русский
Кредиты:
4
Контактные часы:
46
Программа дисциплины
Аннотация
Работа с текстами на естественном языке позволяет решать целый список бизнес- и исследовательских задач, включая перевод, классификацию и объединение текстов, выделение в текстах эмоциональной составляющей высказываний, выделение важной информации из больших текстовых массивов. Программа рассчитана на студентов, которые уже имеют опыт работы с Python – основы синтаксиса языка, циклы, условия. Цель программы - изучить методы статистического, визуального анализа данных, предобработки и векторизации текстов, необходимых для основных задач NLP - классификации текстов, сентимент анализ, определение топиков и так далее. Основные инструменты - библиотеки Sklearn, NLTK, Gensim и другие.
Цель освоения дисциплины
- Познакомить с методами статистического и визуального анализа данных, предобработки и векторизации данных, необходимых для основных задач NLP.
Планируемые результаты обучения
- Классифицирует тексты с помощью разных алгоритмов
- Проводит статистический и визуальный анализ текстовых данных
- Выделяет из текстов релевантную информацию
- Векторизует тексты с помощью различных методов
- Проводит кластеризацию текстов
- Работает с текстовыми корпусами данных в формате csv
Содержание учебной дисциплины
- Введение
- Предобработка текстовых данных
- Анализ данных
- Статистический и визуальный анализ данных
- Словарные методы векторизации текстов
- Автоматические методы векторизации
- Снижение размерности
- Система классификации
- Методы классификации
- Сентимент-анализ
Промежуточная аттестация
- 2023/2024 учебный год 4 модульДедлайн * 0.25 + Домашние задания: Домашнее задание * 0.45 + Зачет * 0.3
Список литературы
Рекомендуемая основная литература
- Рашка, С. Python и машинное обучение: крайне необходимое пособие по новейшей предсказательной аналитике, обязательное для более глубокого понимания методологии машинного обучения : руководство / С. Рашка , перевод с английского А. В. Логунова. — Москва : ДМК Пресс, 2017. — 418 с. — ISBN 978-5-97060-409-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/100905 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
Рекомендуемая дополнительная литература
- Коэльо, Л. П. Построение систем машинного обучения на языке Python / Л. П. Коэльо, В. Ричарт , перевод с английского А. А. Слинкин. — 2-е изд. — Москва : ДМК Пресс, 2016. — 302 с. — ISBN 978-5-97060-330-7. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/82818 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.