Бакалавриат
2024/2025
Введение в анализ данных для гуманитарных и социальных наук на R
Статус:
Курс обязательный (Фундаментальная и компьютерная лингвистика)
Направление:
45.03.03. Фундаментальная и прикладная лингвистика
Кто читает:
Школа лингвистики
Где читается:
Факультет гуманитарных наук
Когда читается:
3-й курс, 2 модуль
Формат изучения:
с онлайн-курсом
Онлайн-часы:
20
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Мороз Георгий Алексеевич
Язык:
русский
Кредиты:
3
Программа дисциплины
Аннотация
Курс предназначен для студентов в области социальных и гуманитарных наук, которые хотят научиться использовать язык программирования R для анализа и визуализации данных. Курс включает в себя следующие темы: введение в R, загрузка и трансформация данных, визуализация данных, обработка текстовых данных, работа со временем, визуализация географических данных, сбор данных из интернета и основы регрессионного анализа. В противовес стандартным курсам R, обычно основанным на статистической обработке данных и их визуализации, значительная часть курса посвящена работе с различными типами данных и их визуализации, так как именно разведочная визуализация, а не применение статистических методов имеет значение для гуманитарных и социальных специальностей. Обсуждение основ регрессионного анализа станет хорошей основой для дальнейшего изучение статистического анализа и методов машинного обучения на последующих курсах. Для работы на курсе необходимо будет установить программы R и RStudio. Пакеты необходимые для установки, будут перечислены в ходе лекций.
Цель освоения дисциплины
- Данный курс ставит собой цель охватить разведочный анализ данных в гуманитарных и социальных науках на языке программирования R с акцентом на данные самых разных типов: числовые, слова, тексты, временные данные, геоданные и др.
Планируемые результаты обучения
- Знакомство с основными элементами программирования на R
- Знаком с понятием опрятных данных (tidy data)
- Знаком с инструментами визуализации пакета ggplot2: функциями aes() и слоями
- Знаком с визаулизацией распределений
- Знаком с визуализацией распределения по категориям при помощи функций geom_jitter(), geom_boxplot(), geom_violin() и инструментов пакета ggbeeswarm
- Знаком с фасетезацией и семейством функций facet_...()
- Знаком с инструментами подсчета и подгонки количества символов в строке
- Знаком с особенностями сортировки строк
- Знаком с инструментами поиска и изменения подстроки в строковых данных
- Знаком с регулярными выражениями
- Владеет инструментами загрузки текстов в R
- Знаком с пакетами, предоставляющие доступ к библиотекам текстов (Gutenberg, Perseus)
- Владеет пакетом tidytext для представления текста в формате опрятных данных
- Знаком с целями и инструментами для удаления стопслов
- Знаком с целями и инструментами для морфологического и синтаксического анализа текстов (пакет udpipe)
- Применяет инструменты для векторизации текстов
- Знаком с особенностями загрузки и создания временных данных в R
- Выполняет арефметические операции с временными данными
- Визуализирует временные данные
- Владеет пакетами leaflet и leafsync для создания динамических карт в R
- Владеет пакетами ggplot2 и maps для создания статических карт в R
- Знаком с форматом данных geojson
- Знаком с понятием картографической проекции и его использованием в R
- Применять линейную регрессию
- Применять множественную линейную регрессию
Содержание учебной дисциплины
- Введение в R и Rstudio
- Трансформация данных
- Визуализация данных
- Работа со строками и регулярными выражениями
- Работа с текстами
- Работа со временем
- Работа с геоданными
- Основы статистического анализа в R
- Введение в quarto
Список литературы
Рекомендуемая основная литература
- Wickham, H., & Grolemund, G. (2016). R for Data Science : Import, Tidy, Transform, Visualize, and Model Data (Vol. First edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1440131
Рекомендуемая дополнительная литература
- Mailund, T. (2017). Beginning Data Science in R : Data Analysis, Visualization, and Modelling for the Data Scientist. New York: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1484645