• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2023/2024

Введение в платформы данных

Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Направление: 01.03.02. Прикладная математика и информатика
Когда читается: 4-й курс, 3 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 4
Контактные часы: 40

Программа дисциплины

Аннотация

Для чего нужны платформы данных? Как бы это очевидно ни звучало, они нужны для принятия решений на основе данных. У бизнеса может быть бесконечное количество запросов: как изменить цену товаров, в каком месте разместить магазин, кому показать рекламу, куда сдвинуть кнопку на сайте и т.д. Эти задачи могут решаться с помощью аналитики, построения дашбордов, сбора метрик, построения ML-моделей и т.д. Само по себе решение таких задач нетривиально, однако, это лишь верхушка айсберга.Прежде, чем проводить какую-либо аналитику, данные нужно найти, загрузить в хранилище, проверить их качество, агрегировать, и на любом из этапов может возникнуть огромное количество проблем. Здесь и появляются платформы данных, которые предоставляют инфраструктуру и инструменты для загрузки, обработки, проверки и анализа данных, что в конечном счете значительно упрощает и ускоряет решение любых задач, связанных с данными.В рамках курса вы познакомитесь с основными концепциями платформ данных, посмотрите из чего они состоят, какие бывают реализации, и запустите собственную платформу данных. Кроме того, на собранной платформе попрактикуетесь с организацией полного цикла работы с данными: от загрузки из источника до работы аналитика с этими данными. Вы узнаете, что такое Big Data, Data Warehouse, Data Lake, Data Governance, а также познакомитесь с технологиями, которые позволяют реализовать эти методологии и концепции. Особое внимание в курсе будет уделено таким технологиям, как Hadoop и Spark. Вы изучите компоненты Hadoop, архитектуру кластера и HDFS, научитесь развертывать Hadoop и выполнять базовые операции. Также вы изучите архитектуру и назначение Spark и научитесь работать с Spark DataFrame API и Spark SQL API. Теоретическая часть будет представлена в виде онлайн-курса, что позволит вам просматривать лекции в комфортном темпе и возвращаться к ним при возникновении трудностей. Практическая часть будет проходить при поддержке преподавателей, которые помогут вам освоить материал, ответят на все возникающие вопросы и дадут обратную связь по домашним заданиям. По необходимости будут организованы встречи в формате Q&A, где вы сможете задать вопросы и получить развернутые ответы от экспертов.
Цель освоения дисциплины

Цель освоения дисциплины

  • Понимать принципы работы и структуры платформ данных
  • Изучить архитектуры и компоненты систем обработки больших данных на примере экосистемы Hadoop, DataLake, DataWarehouse
  • Научиться запускать, развертывать и управлять кластерами и платформами данных
  • Освоить инструменты и методы работы с большими данными
  • Понимать, как управлять качеством данных - Изучить современные инструменты бизнес-аналитики
Планируемые результаты обучения

Планируемые результаты обучения

  • Понять основные концепции платформ данных
  • Понять из каких компонентов состоят платформы данных
  • Научиться запускать собственную платформу данных
  • Понимание компонентов Hadoop и архитектуры кластера
  • Знание системы HDFS, её свойств и интеграции с другими компонентами Hadoop
  • Умение развертывать Hadoop и выполнять базовые операции файловой системы
  • Понимание парадигмы MapReduce
  • Знание системы управления ресурсами YARN
  • Понимание форматов файлов в Hadoop
  • Знание других проектов экосистемы Hadoop
  • Понимание назначения, структуры и компонентов Hive
  • Умение развертывать Hive и выполнять операции с ним
  • Знание HiveQL и организации данных в Hive
  • Сравнение Hive с традиционными RDBMS
  • Понимание архитектуры и назначения Spark
  • Умение развертывать кластер Spark
  • Знание Spark DataFrame API
  • Понимание взаимодействия между компонентами Hadoop
  • Знание средств организации ETL-процессов
  • Умение работать с DBT, Prefect и NiFi
  • Сравнение различных инструментов ETL
  • Понимание способов организации хранилищ: Data Lake, Data Warehouse, Lakehouse
  • Знание систем Greenplum и Clickhouse
  • Понимание использовани Kafka
  • Знание принципов контроля качества данных (DQ)
  • Понимание основ Data Governance (DatGov)
  • Умение использовать инструменты бизнес-аналитики (BI)
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основные концепции платформ данных
  • Хранение данных
  • Загрузка данных в хранилище из различных источников. ETL и Streaming
  • Построение витрин данных в хранилище. Модели данных
  • Оптимизация работы пользователей с хранилищем. Оптимизация производительности
  • Data Governance. Новый уровень доверия к данным
  • Качество данных. Что это такое и как его измерять
  • Каталог данных. Построение Data Mesh
  • Аналитика данных. Способы работы с данными в хранилище. Data Virtualization
  • Business intelligence и визуализация данных
Элементы контроля

Элементы контроля

  • неблокирующий Посещаемость
  • неблокирующий Активность на занятии
  • неблокирующий Экзамен
  • неблокирующий Домашнее задание
    Выдаются на семинаре до следующего занятия Домашнее задание 1: Поднять свой DWH на Greenplum/ClickHouse Домашнее задание 2: Настроить загрузку данных в DWH Домашнее задание 3: Настроить построение отчетов в хранилище Домашнее задание 4: Настройка оптимизаций в хранилище Домашнее задание 5: Настройка проверок качества данных Домашнее задание 6: Работа с каталогом данных. Подключение новых источников к каталогу Домашнее задание 7: Поиск инсайтов в данных, работа с данными в нескольких источниках Домашнее задание 8: Построение визуализаций данных, дашбордов
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 3rd module
    0.1 * Активность на занятии + 0.4 * Домашнее задание + 0.1 * Посещаемость + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Alpina - 22373 - И. Интеллект; К.Еременко - Работа с данными в любой сфере: Как выйти на новый уровень, используя аналитику - 9785961472288 - Альпина Паблишер - 2021 - https://hse.alpinadigital.ru/audio/22373
  • Provost, F., & Fawcett, T. (2013). Data Science for Business : What You Need to Know About Data Mining and Data-Analytic Thinking (Vol. 1st ed). Beijing: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=619895

Рекомендуемая дополнительная литература

  • Kimball, R., & Ross, M. (2013). The Data Warehouse Toolkit : The Definitive Guide to Dimensional Modeling (Vol. 3rd edition). Hoboken, New Jersey: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=605991

Авторы

  • Кононова Елизавета Дмитриевна