2022/2023
Исследование данных и визуализация
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Майнор
Кто читает:
Департамент информатики
Когда читается:
1, 2 модуль
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Попов Александр Денисович,
Сироткин Александр Владимирович,
Суворова Алёна Владимировна
Язык:
русский
Кредиты:
5
Контактные часы:
56
Программа дисциплины
Аннотация
Первый курс майнора посвящен развитию базовых навыков работы с инструментальными средствами анализа данных. Студенты познакомятся с языком R - универсальным инструментом анализа и визуализации данных и машинного обучения, обладающим большим и дружелюбным сообществом. Мы научимся обрабатывать данные разных типов (чисел, категорий, строк, дат), делать полезные визуализации результатов и эффективные воспроизводимые отчёты и интерактивные презентации. Познакомимся с основными темами последующих курсов: этапами и инструментами исследования данных, применением статистических моделей к предсказанию данных. В результате освоения курса студенты будут способны быстро и эффективно провести исследование данных, графически исследовать ключевые закономерности и представить их в виде интерактивного отчета или дашборда, построить базовые предсказательные модели.
Цель освоения дисциплины
- Изучение особенностей различных методов сбора и агрегации данных, формирование навыков планирования сбора и обработки данных, изучение пакетов ориентированных на основные этапы подготовки данных и их анализа
Планируемые результаты обучения
- Анализирует данные в формате дат и текста на языке R
- Владеет инструментарием визуализации и агрегации данных в R
- Выбирает тип графика в зависимости от задачи
- Знает основные понятия языка R
- Интерпретирует и визуализирует результаты моделей
- Создает отчеты с помощью RMarkdown
- Строит модели деревьев решений
Содержание учебной дисциплины
- Воспроизводимые исследования
- Статистическое обучение. Введение в клиентскую аналитику
- Разведывательный анализ данных
Элементы контроля
- УпражненияДля закрепления навыков по работе с инструментарием студентам предлагается выполнить онлайн-упражнения на закрепление и проверку усвоения материала на онлайн-платформе. Их прохождение играет формативную роль: количество попыток не ограничивается. Работа выполняется на дому и сдается до установленной даты экзамена.
- Контрольная работа №2Контрольная работа представляет собой письменную работу в тестовой форме в LMS. Тест содержит как открытые, так и закрытые вопросы по пройденным материалам. Тест подразумевает ответы на вопросы по предоставленным данными в RStudio. Тест может содержать от 10 до 20 вопросов, покрывающих рассмотренные на занятиях темы
- Домашнее задание №1Домашнее задание представляет собой программный проект по анализу данных. Данные для задания и вопросы, на которые нужно дать ответы, предоставляются преподавателем. Работа выполняется индивидуально. Проект должен быть написан с ориентацией на “заказчика”, то есть понятен потенциальному клиенту, содержать все необходимые пояснения и интерпретации. Результаты представляются в виде 1) дашборда с таблицами / графиками по предоставленному преподавателем шаблону, и 2) отчета-пояснения, какие выводы должен сделать пользователь и какие элементы фокусируют внимание именно на этих выводах.
- Домашнее задание №2Домашнее задание представляет собой программный проект по анализу данных. Данные для задания предоставляются преподавателем. Работа выполняется индивидуально. Проект должен быть написан с ориентацией на “заказчика”, то есть понятен потенциальному клиенту, содержать все необходимые пояснения и интерпретации. Результаты представляются в виде одного из двух вариантов по выбору преподавателя: 1) полноценный отчет о результатах анализа, 2) дашборд с таблицами / графиками, показывающими результаты предсказания в определенных группах и результаты сравнения групп с помощью проверки гипотез, и отчет-пояснение к дашборду.
- Контрольная работа №1Контрольная работа представляет собой письменную работу в тестовой форме в LMS. Тест содержит как открытые, так и закрытые вопросы по пройденным материалам. Тест подразумевает ответы на вопросы по предоставленным данными в RStudio. Тест может содержать от 10 до 20 вопросов, покрывающих рассмотренные на занятиях темы
Промежуточная аттестация
- 2022/2023 учебный год 2 модуль0.2 * Упражнения + 0.25 * Контрольная работа №2 + 0.15 * Домашнее задание №1 + 0.25 * Контрольная работа №1 + 0.15 * Домашнее задание №2
Список литературы
Рекомендуемая основная литература
- Мастицкий, С. Э. Статистический анализ и визуализация данных с помощью R / С. Э. Мастицкий, В. К. Шитиков. — Москва : ДМК Пресс, 2015. — 496 с. — ISBN 978-5-97060-301-7. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/73072 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
Рекомендуемая дополнительная литература
- Wickham, H., & Grolemund, G. (2016). R for Data Science : Import, Tidy, Transform, Visualize, and Model Data (Vol. First edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1440131