Магистратура
2024/2025





Анализ и визуализация текстовых данных
Статус:
Курс обязательный (Языковые технологии в бизнесе и образовании)
Направление:
45.04.03. Фундаментальная и прикладная лингвистика
Кто читает:
Департамент филологии
Где читается:
Санкт-Петербургская школа гуманитарных наук и искусств
Когда читается:
1-й курс, 3, 4 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Белоусов Константин Игоревич
Прогр. обучения:
Языковые технологии в бизнесе и образовании
Язык:
русский
Кредиты:
6
Программа дисциплины
Аннотация
Курс «Анализ и визуализация текстовых данных» решает задачу систематизации знаний студентов о сферах применения лингвистических технологий для решения проблем общества, образования, медицины и других сфер. Представлен обзор основных лингвистических методов и подходов, базирующихся на автоматической обработке и визуализации текстовых данных, включая экспертный анализ текстов, методы компьютеризированного анализа, в том числе методы машинного обучения.
Цель освоения дисциплины
- Формирование представления об экспертных и машинных способах анализа текстов разных типов
- Ознакомление с методами визуализации результатов анализа, а также с методами визуализации для сбора гетерогенных поликодовых текстов
- Развитие умения писать программы с использованием методов обработки текстов, методов статистического, кластерного и регрессионного анализа
Планируемые результаты обучения
- Применять методы тематического моделирования: LDA, TextRank, LSA
- Применять методы классификации текстов, в частности, логистическую регрессию, Word2Vec, наивный байесовский алгоритм
- Создавать пуассоновскую регрессию, позволяющую предсказывать результаты показателя X на основе имеющихся данных показателя Y
- Создавать метрики расстояний, k-means, иерархические кластеризации, визуализации деревьев
- Осуществлять предобработку текста с помощью библиотеки NLTK. , извлекать именованные сущности (NER) с помощью библиотек NLTK и Slovnet(Natasha)
- Анализировать данные цифровых ментальных карт страны, используя анализ последовательностей, анализ текстового слоя, координат и др. характеристик объектов
- Производить вычисления, применяя знания по описательной статистике, корреляционному анализу
- Применять имеющиеся словари для КА текста в двух реализациях: с помощью ИС "Семограф" и с помощью реализации собственного кода на языке Python
- Применять платформу визуальной аналитики SciVi для анализа текстов с помощью методов ключевых слов и тематического анализа, использовать методы модулярности графов для кластеризации данных, сопоставлении результатов экспериментов
- Демонстрировать навыки работы с информационной системой "Семограф" и платформой визуальной аналитики SciVi. Строить графосемантические модели предметных научных областей, связанных с темой магистерской диссертации
Содержание учебной дисциплины
- Экспертный анализ выборок научных публикаций
- Анализ и визуализация данных психолингвистики текста
- Компьютеризированный контент-анализ текста
- Анализ результатов компьютеризированного контент-анализа текста
- Анализ гетерогенных поликодовых текстов
- Предобработка текста и извлечение именованных сущностей (NER)
- Регрессионный анализ
- Методы классификации
- Кластеризация
- Методы тематического моделирования: LDA, TextRank, LSA
Элементы контроля
- Самостоятельная работаВ домашней работе студенту предлагается решить локальную исследовательскую задачу, использовав обсуждавшиеся в лекции методы и инструментарий.
- Самостоятельная работаВ домашней работе студенту предлагается решить локальную исследовательскую задачу, использовав обсуждавшиеся в лекции методы и инструментарий.
Промежуточная аттестация
- 2024/2025 4th moduleЭкзамен выставляется на основе выполненных самостоятельных работ (в количестве 7) по темам учебной дисциплины. В случае несогласия с оценкой студент выполняет одно из заданий, рассматриваемых в курсе.
Список литературы
Рекомендуемая основная литература
- Прикладной анализ текстовых данных на Python : машинное обучение и создание приложений обработки естественного языка, Бенгфорт, Б., 2020
Рекомендуемая дополнительная литература
- Обработка естественного языка Python и spaCy на практике, Васильев, Ю., 2021