• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2024/2025

Обработка данных в R

Статус: Маго-лего
Когда читается: 2 модуль
Охват аудитории: для всех кампусов НИУ ВШЭ
Язык: русский
Кредиты: 3
Контактные часы: 32

Программа дисциплины

Аннотация

R является популярным инструментом среди специалистов по анализу данных как в академической сфере, так и в бизнесе. Этот язык довольно прост в изучении, но обладает обширным набором функций для работы с данными. Вместе с проведением сложного анализа R также отлично подходит для предварительной обработки данных и является мощной альтернативой Excel. Данный курс направлен на освоение основных принципов предварительной обработки данных в R, которым порой на курсах по анализу данных удаляется мало внимания. На этом курсе вы научитесь управлять данными с использованием пакетов tidyverse и data.table; столкнетесь с самыми часто встречаемыми трудностями при работе с сырыми базами данных и научитесь их преодолевать; узнаете как менять масштаб датафреймов и строить сводные таблицы в R. Здесь вы познакомитесь с функциями семейства apply, с утилитами R, помогающими в работе с регулярными выражениями и календарными данными.
Цель освоения дисциплины

Цель освоения дисциплины

  • Научить студентов обрабатывать данные в R и готовить их к проведению статистического анализа.
Планируемые результаты обучения

Планируемые результаты обучения

  • Студент умеют создавать такие объекты как переменные, векторы, датафреймы, записать в них данные R
  • Студенты умеют оформлять код в R Markdown
  • Студенты могут импортировать и экспортировать базы данных в R
  • Студенты умеют работать с разными типами данных и изменять типы данных в R
  • Студенты умеют готовить базы данных в R к анализу
  • Студенты умеют применять функции семейства apply при работе с табличными данными
  • Студенты умеют применять функции из пакета ggplot2 для визуализации данных в R
  • Студенты умеют строить сводные таблицы в R, изменять формат табличных данных в R: переводить из длинного формата в широкий и наоборот, объединять данные из разных таблиц в R
  • Студенты умеют работать с регулярными выражениями и календарными данными в R
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Синтаксис R, базовые функции и операции в R
  • Работа и оформление кода в Markdown
  • Импорт и экспорт данных. Пакет tidyverse.
  • Предварительная обработка данных
  • Визуализация в R. Пакет ggplot2
  • Изменение формата табличных данных: длинное и широкое представление данных. Сводные таблицы
  • Регулярные выражения и календарные данные
Элементы контроля

Элементы контроля

  • неблокирующий Тест
    После изучения новой темы студентам предлагается в течение недели подкрепить свои знания и проверять их при помощи небольших тестов. Тесты необходимо выполнить в строго уставновленные дедлайны (в течение недели после публикования теста). Они включают в себя разного типа задания: с выбором ответа, на соотнесение, заполнение пропусков и написание кодов.
  • неблокирующий Финальный тест
    Финальный тест направлен на проверку освоения материала за весь курс. Он включает задания с выбором ответа, с кратким и развернутыми ответами. В заданиях с кратким ответом потребуется написать, например, результат выполнения кода или недостающую функции. Задания с развернутым ответом предполагают написание кода, который позволяет решить поставленную задачу
  • неблокирующий Проект
    В течение модуля студентам будет предложено выполнить практическую работу в R, которая подразумевает работу с данными, используя R. По итогам необходимо представить код в R, решающий цели и задачи проекта. Проект необходимо сдать до начала сессионной недели.
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 2nd module
    0.4 * Проект + 0.2 * Тест + 0.4 * Финальный тест
Список литературы

Список литературы

Рекомендуемая основная литература

  • Hadley, W. (2016). Ggplot2 : Elegant Graphics for Data Analysis. New York, NY: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1175341

Рекомендуемая дополнительная литература

  • R в действии : анализ и визуализация данных в программе R, Кабаков, Р. И., 2014
  • Wickham, H., & Grolemund, G. (2016). R for Data Science : Import, Tidy, Transform, Visualize, and Model Data (Vol. First edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1440131
  • Роберт, И. R в действии : руководство / И. Роберт, Кабаков , перевод с английского А. Н. Киселева. — 3-е изд. — Москва : ДМК Пресс, 2023. — 768 с. — ISBN 978-5-93700-173-3. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/348083 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Авторы

  • Тарасов Сергей Владимирович
  • Юсупова Элен Магомедовна