• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2022/2023

Исследование данных и визуализация

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус: Майнор
Когда читается: 1, 2 модуль
Охват аудитории: для всех кампусов НИУ ВШЭ
Преподаватели: Попов Александр Денисович, Сироткин Александр Владимирович, Суворова Алёна Владимировна
Язык: русский
Кредиты: 5
Контактные часы: 56

Программа дисциплины

Аннотация

Первый курс майнора посвящен развитию базовых навыков работы с инструментальными средствами анализа данных. Студенты познакомятся с языком R - универсальным инструментом анализа и визуализации данных и машинного обучения, обладающим большим и дружелюбным сообществом. Мы научимся обрабатывать данные разных типов (чисел, категорий, строк, дат), делать полезные визуализации результатов и эффективные воспроизводимые отчёты и интерактивные презентации. Познакомимся с основными темами последующих курсов: этапами и инструментами исследования данных, применением статистических моделей к предсказанию данных. В результате освоения курса студенты будут способны быстро и эффективно провести исследование данных, графически исследовать ключевые закономерности и представить их в виде интерактивного отчета или дашборда, построить базовые предсказательные модели.
Цель освоения дисциплины

Цель освоения дисциплины

  • Изучение особенностей различных методов сбора и агрегации данных, формирование навыков планирования сбора и обработки данных, изучение пакетов ориентированных на основные этапы подготовки данных и их анализа
Планируемые результаты обучения

Планируемые результаты обучения

  • Анализирует данные в формате дат и текста на языке R
  • Владеет инструментарием визуализации и агрегации данных в R
  • Выбирает тип графика в зависимости от задачи
  • Знает основные понятия языка R
  • Интерпретирует и визуализирует результаты моделей
  • Создает отчеты с помощью RMarkdown
  • Строит модели деревьев решений
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Воспроизводимые исследования
  • Статистическое обучение. Введение в клиентскую аналитику
  • Разведывательный анализ данных
Элементы контроля

Элементы контроля

  • неблокирующий Упражнения
    Для закрепления навыков по работе с инструментарием студентам предлагается выполнить онлайн-упражнения на закрепление и проверку усвоения материала на онлайн-платформе. Их прохождение играет формативную роль: количество попыток не ограничивается. Работа выполняется на дому и сдается до установленной даты экзамена.
  • неблокирующий Контрольная работа №2
    Контрольная работа представляет собой письменную работу в тестовой форме в LMS. Тест содержит как открытые, так и закрытые вопросы по пройденным материалам. Тест подразумевает ответы на вопросы по предоставленным данными в RStudio. Тест может содержать от 10 до 20 вопросов, покрывающих рассмотренные на занятиях темы
  • неблокирующий Домашнее задание №1
    Домашнее задание представляет собой программный проект по анализу данных. Данные для задания и вопросы, на которые нужно дать ответы, предоставляются преподавателем. Работа выполняется индивидуально. Проект должен быть написан с ориентацией на “заказчика”, то есть понятен потенциальному клиенту, содержать все необходимые пояснения и интерпретации. Результаты представляются в виде 1) дашборда с таблицами / графиками по предоставленному преподавателем шаблону, и 2) отчета-пояснения, какие выводы должен сделать пользователь и какие элементы фокусируют внимание именно на этих выводах.
  • неблокирующий Домашнее задание №2
    Домашнее задание представляет собой программный проект по анализу данных. Данные для задания предоставляются преподавателем. Работа выполняется индивидуально. Проект должен быть написан с ориентацией на “заказчика”, то есть понятен потенциальному клиенту, содержать все необходимые пояснения и интерпретации. Результаты представляются в виде одного из двух вариантов по выбору преподавателя: 1) полноценный отчет о результатах анализа, 2) дашборд с таблицами / графиками, показывающими результаты предсказания в определенных группах и результаты сравнения групп с помощью проверки гипотез, и отчет-пояснение к дашборду.
  • неблокирующий Контрольная работа №1
    Контрольная работа представляет собой письменную работу в тестовой форме в LMS. Тест содержит как открытые, так и закрытые вопросы по пройденным материалам. Тест подразумевает ответы на вопросы по предоставленным данными в RStudio. Тест может содержать от 10 до 20 вопросов, покрывающих рассмотренные на занятиях темы
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 2 модуль
    0.2 * Упражнения + 0.25 * Контрольная работа №2 + 0.15 * Домашнее задание №1 + 0.25 * Контрольная работа №1 + 0.15 * Домашнее задание №2
Список литературы

Список литературы

Рекомендуемая основная литература

  • Мастицкий, С. Э. Статистический анализ и визуализация данных с помощью R / С. Э. Мастицкий, В. К. Шитиков. — Москва : ДМК Пресс, 2015. — 496 с. — ISBN 978-5-97060-301-7. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/73072 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Wickham, H., & Grolemund, G. (2016). R for Data Science : Import, Tidy, Transform, Visualize, and Model Data (Vol. First edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1440131

Авторы

  • Сироткин Александр Владимирович
  • Суворова Алёна Владимировна