Магистратура
2024/2025
Научно-исследовательский семинар "Анализ и визуализация текстовых данных"
Статус:
Курс обязательный (Компьютерная лингвистика)
Направление:
45.04.03. Фундаментальная и прикладная лингвистика
Кто читает:
Школа лингвистики
Где читается:
Факультет гуманитарных наук
Когда читается:
1-й курс, 3, 4 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Ляшевская Ольга Николаевна
Прогр. обучения:
Компьютерная лингвистика
Язык:
русский
Кредиты:
3
Контактные часы:
64
Программа дисциплины
Аннотация
Данный курс посвящен современным методам анализа данных, в частности, методам анализа лингвистических данных. В ходе обучения студенты освоят импорт, препроцессинг данных, разведочный анализ, визуализацию данных и проведение статистических тестов. В качестве основного инструмента в курсе используется язык программирования R, изучение которого входит в программу курса.
Цель освоения дисциплины
- Освоить основы языка программирования R для анализа данных
- Освоить методы препроцессинга данных с помощью экосистемы пакетов tidyverse
- Научиться исследовать данные с помощью описательной статистики и методов визуализации данных
- Научиться формулировать статистические гипотезы
- Ознакомиться с наиболее распространенными статистическими методами
- Научиться применять статистические методы в зависимости от поставленной задачи
Планируемые результаты обучения
- Владение базовыми функциями plot(), hist(), boxplot() для быстрой визуализации данных
- Владение встроенными функциями для работы с текстовыми данными в R
- Владение пакетами stringi и stringr для продвинутой обработки текстовых данных
- Владение средствами для динамической визуализации данных
- Владение языком грамматики графики и его практическом воплощением в пакете ggplot2
- Владениями семейством функций для работы с функциями распределений в R
- Знание основных операторов в R, умение работать со втроенными функциями, знание об основных типах данных в R
- Знание основных описательных статистик и их значение
- Знание основных пакетов tidyverse
- Использование пакета udpipe для токенизации и лемматизации данных в R
- Понимание t-теста и его непараметрических аналогов, умение провести тесты в R
- Понимание дисперсионного анализа (ANOVA) и его разновидностей, умение провести тесты в R
- Понимание кластерного анализа, умение провести кластерный анализ методом k-means в R
- Понимание концепции tidy data, умение привести данные к формату tidy
- Понимание корреляции и коэффициентов корреляции, умение рассчитать коэффициенты корреляции в R
- Понимание линейной регрессии, ее связи с другими статистическими методами, оценка качества модели
- Понимание основных структур в R: вектор, матрица, список, датафрейм
- Понимание особенностей проведения множественной линейной регрессии по сравнению с простой линейной регрессией. Понимание концепции общей линейной модели
- Понимание расширенных версий общей линейной моделей: обобщенной линейной модели, линейной модели со смешанными эффектами. Умение имплиментировать данные модели в R.
- Понимание тестирования уровня значимости нулевой гипотезы
- Понимание целей и возможностей анализа главных компонент, умение использовать анализ главных компонент в R
- Уверенное использование среды RStudio
- Умение аггрегировать данные с помощью dplyr
- Умение использовать условные конструкции в R
- Умение объединять связанные таблицы с помощью dplyr
- Умение организовывать проекты и импортировать данные
- Умение пользоваться функциями семейства apply() и их аналогами из пакета purrr
- Умение совершать базовые операции в dplyr: выбор строк, колонок, создание новых колонок
- Умение создавать пользовательские функции в R
- Уменить устанавливать и подключать дополнительные пакеты для R
Содержание учебной дисциплины
- Основы R
- Основные структуры данных в R
- Импорт данных и пакеты в R
- Функциональное программирование в R
- Препроцессинг данных в tidyverse
- Текстовые данные в R
- Описательная статистика
- Визуализация данных в R
- Основы статистики вывода
- Базовые статистические тесты
- Многомерные статистические методы
Элементы контроля
- Домашние задания
- Статья с результатами проектаПредставляется в одном из двух видов: а) готовая статья по теме проекта с дополнительными материалами (код и данные, позволяющие получить воспроизводимые результаты), б) в виде тетрадки Rmd, в котором представлен как код, так и анализ, с дополнительными материалами (набор данных, позволяющих воспроизвести результаты)
- Устная защита проекта
Промежуточная аттестация
- 2024/2025 4th module0.2 * Домашние задания + 0.3 * Домашние задания + 0.3 * Статья с результатами проекта + 0.2 * Устная защита проекта
Список литературы
Рекомендуемая основная литература
- Analyzing linguistic data : a practical introduction to statistics using R, Baayen, R. H., 2014
- ggplot2 : elegant graphics for data analysis, Wickham, H., 2009
- R for data science : import, tidy, transform, visualize, and model data, Wickham, H., 2017
- Using multivariate statistics, Tabachnick, B.G., 2014
- Using multivariate statistics, Tabachnik, B. G., 2007
Рекомендуемая дополнительная литература
- 9781491981627 - Silge, Julia; Robinson, David - Text Mining with R : A Tidy Approach - 2017 - O'Reilly Media - http://search.ebscohost.com/login.aspx?direct=true&db=nlebk&AN=1533983 - nlebk - 1533983
- Advanced R, Wickham, H., 2014