2024/2025
Обработка данных в R
Статус:
Маго-лего
Кто читает:
Департамент образовательных программ
Когда читается:
2 модуль
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Юсупова Элен Магомедовна
Язык:
русский
Кредиты:
3
Контактные часы:
32
Программа дисциплины
Аннотация
R является популярным инструментом среди специалистов по анализу данных как в академической сфере, так и в бизнесе. Этот язык довольно прост в изучении, но обладает обширным набором функций для работы с данными. Вместе с проведением сложного анализа R также отлично подходит для предварительной обработки данных и является мощной альтернативой Excel. Данный курс направлен на освоение основных принципов предварительной обработки данных в R, которым порой на курсах по анализу данных удаляется мало внимания. На этом курсе вы научитесь управлять данными с использованием пакетов tidyverse и data.table; столкнетесь с самыми часто встречаемыми трудностями при работе с сырыми базами данных и научитесь их преодолевать; узнаете как менять масштаб датафреймов и строить сводные таблицы в R. Здесь вы познакомитесь с функциями семейства apply, с утилитами R, помогающими в работе с регулярными выражениями и календарными данными.
Цель освоения дисциплины
- Научить студентов обрабатывать данные в R и готовить их к проведению статистического анализа.
Планируемые результаты обучения
- Студент умеют создавать такие объекты как переменные, векторы, датафреймы, записать в них данные R
- Студенты умеют оформлять код в R Markdown
- Студенты могут импортировать и экспортировать базы данных в R
- Студенты умеют работать с разными типами данных и изменять типы данных в R
- Студенты умеют готовить базы данных в R к анализу
- Студенты умеют применять функции семейства apply при работе с табличными данными
- Студенты умеют применять функции из пакета ggplot2 для визуализации данных в R
- Студенты умеют строить сводные таблицы в R, изменять формат табличных данных в R: переводить из длинного формата в широкий и наоборот, объединять данные из разных таблиц в R
- Студенты умеют работать с регулярными выражениями и календарными данными в R
Содержание учебной дисциплины
- Синтаксис R, базовые функции и операции в R
- Работа и оформление кода в Markdown
- Импорт и экспорт данных. Пакет tidyverse.
- Предварительная обработка данных
- Визуализация в R. Пакет ggplot2
- Изменение формата табличных данных: длинное и широкое представление данных. Сводные таблицы
- Регулярные выражения и календарные данные
Элементы контроля
- ТестПосле изучения новой темы студентам предлагается в течение недели подкрепить свои знания и проверять их при помощи небольших тестов. Тесты необходимо выполнить в строго уставновленные дедлайны (в течение недели после публикования теста). Они включают в себя разного типа задания: с выбором ответа, на соотнесение, заполнение пропусков и написание кодов.
- Финальный тестФинальный тест направлен на проверку освоения материала за весь курс. Он включает задания с выбором ответа, с кратким и развернутыми ответами. В заданиях с кратким ответом потребуется написать, например, результат выполнения кода или недостающую функции. Задания с развернутым ответом предполагают написание кода, который позволяет решить поставленную задачу
- ПроектВ течение модуля студентам будет предложено выполнить практическую работу в R, которая подразумевает работу с данными, используя R. По итогам необходимо представить код в R, решающий цели и задачи проекта. Проект необходимо сдать до начала сессионной недели.
Список литературы
Рекомендуемая основная литература
- Hadley, W. (2016). Ggplot2 : Elegant Graphics for Data Analysis. New York, NY: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1175341
Рекомендуемая дополнительная литература
- R в действии : анализ и визуализация данных в программе R, Кабаков, Р. И., 2014
- Wickham, H., & Grolemund, G. (2016). R for Data Science : Import, Tidy, Transform, Visualize, and Model Data (Vol. First edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1440131
- Роберт, И. R в действии : руководство / И. Роберт, Кабаков , перевод с английского А. Н. Киселева. — 3-е изд. — Москва : ДМК Пресс, 2023. — 768 с. — ISBN 978-5-93700-173-3. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/348083 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.