• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2024/2025

Введение в анализ данных для гуманитарных и социальных наук на R

Направление: 45.03.03. Фундаментальная и прикладная лингвистика
Когда читается: 3-й курс, 2 модуль
Формат изучения: с онлайн-курсом
Онлайн-часы: 20
Охват аудитории: для всех кампусов НИУ ВШЭ
Язык: русский
Кредиты: 3

Программа дисциплины

Аннотация

Курс предназначен для студентов в области социальных и гуманитарных наук, которые хотят научиться использовать язык программирования R для анализа и визуализации данных. Курс включает в себя следующие темы: введение в R, загрузка и трансформация данных, визуализация данных, обработка текстовых данных, работа со временем, визуализация географических данных, сбор данных из интернета и основы регрессионного анализа. В противовес стандартным курсам R, обычно основанным на статистической обработке данных и их визуализации, значительная часть курса посвящена работе с различными типами данных и их визуализации, так как именно разведочная визуализация, а не применение статистических методов имеет значение для гуманитарных и социальных специальностей. Обсуждение основ регрессионного анализа станет хорошей основой для дальнейшего изучение статистического анализа и методов машинного обучения на последующих курсах. Для работы на курсе необходимо будет установить программы R и RStudio. Пакеты необходимые для установки, будут перечислены в ходе лекций.
Цель освоения дисциплины

Цель освоения дисциплины

  • Данный курс ставит собой цель охватить разведочный анализ данных в гуманитарных и социальных науках на языке программирования R с акцентом на данные самых разных типов: числовые, слова, тексты, временные данные, геоданные и др.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знакомство с основными элементами программирования на R
  • Знаком с понятием опрятных данных (tidy data)
  • Знаком с инструментами визуализации пакета ggplot2: функциями aes() и слоями
  • Знаком с визаулизацией распределений
  • Знаком с визуализацией распределения по категориям при помощи функций geom_jitter(), geom_boxplot(), geom_violin() и инструментов пакета ggbeeswarm
  • Знаком с фасетезацией и семейством функций facet_...()
  • Знаком с инструментами подсчета и подгонки количества символов в строке
  • Знаком с особенностями сортировки строк
  • Знаком с инструментами поиска и изменения подстроки в строковых данных
  • Знаком с регулярными выражениями
  • Владеет инструментами загрузки текстов в R
  • Знаком с пакетами, предоставляющие доступ к библиотекам текстов (Gutenberg, Perseus)
  • Владеет пакетом tidytext для представления текста в формате опрятных данных
  • Знаком с целями и инструментами для удаления стопслов
  • Знаком с целями и инструментами для морфологического и синтаксического анализа текстов (пакет udpipe)
  • Применяет инструменты для векторизации текстов
  • Знаком с особенностями загрузки и создания временных данных в R
  • Выполняет арефметические операции с временными данными
  • Визуализирует временные данные
  • Владеет пакетами leaflet и leafsync для создания динамических карт в R
  • Владеет пакетами ggplot2 и maps для создания статических карт в R
  • Знаком с форматом данных geojson
  • Знаком с понятием картографической проекции и его использованием в R
  • Применять линейную регрессию
  • Применять множественную линейную регрессию
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в R и Rstudio
  • Трансформация данных
  • Визуализация данных
  • Работа со строками и регулярными выражениями
  • Работа с текстами
  • Работа со временем
  • Работа с геоданными
  • Основы статистического анализа в R
  • Введение в quarto
Элементы контроля

Элементы контроля

  • неблокирующий тесты
  • неблокирующий экзамен
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 2nd module
    0.7 * тесты + 0.3 * экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Wickham, H., & Grolemund, G. (2016). R for Data Science : Import, Tidy, Transform, Visualize, and Model Data (Vol. First edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1440131

Рекомендуемая дополнительная литература

  • Mailund, T. (2017). Beginning Data Science in R : Data Analysis, Visualization, and Modelling for the Data Scientist. New York: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1484645

Авторы

  • Дьячкова Анна Евгеньевна
  • Мороз Георгий Алексеевич