• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2024/2025

Введение в платформы данных

Когда читается: 4-й курс, 1, 2 модуль
Охват аудитории: для своего кампуса
Преподаватели: Бартенев Максим Владимирович, Гюльмамедов Саттар Алекперович
Язык: русский

Программа дисциплины

Аннотация

Для чего нужны платформы данных? Как бы это очевидно ни звучало, они нужны для принятия решений на основе данных. У бизнеса может быть бесконечное количество запросов: как изменить цену товаров, в каком месте разместить магазин, кому показать рекламу, куда сдвинуть кнопку на сайте и т.д. Эти задачи могут решаться с помощью аналитики, построения дашбордов, сбора метрик, построения ML-моделей и т.д. Само по себе решение таких задач нетривиально, однако, это лишь верхушка айсберга.Прежде, чем проводить какую-либо аналитику, данные нужно найти, загрузить в хранилище, проверить их качество, агрегировать, и на любом из этапов может возникнуть огромное количество проблем. Здесь и появляются платформы данных, которые предоставляют инфраструктуру и инструменты для загрузки, обработки, проверки и анализа данных, что в конечном счете значительно упрощает и ускоряет решение любых задач, связанных с данными.В рамках курса вы познакомитесь с основными концепциями платформ данных, посмотрите из чего они состоят, какие бывают реализации, и запустите собственную платформу данных. Кроме того, на собранной платформе попрактикуетесь с организацией полного цикла работы с данными: от загрузки из источника до работы аналитика с этими данными. Вы узнаете, что такое Big Data, Data Warehouse, Data Lake, Data Governance, а также познакомитесь с технологиями, которые позволяют реализовать эти методологии и концепции. Особое внимание в курсе будет уделено таким технологиям, как Hadoop и Spark. Вы изучите компоненты Hadoop, архитектуру кластера и HDFS, научитесь развертывать Hadoop и выполнять базовые операции. Также вы изучите архитектуру и назначение Spark и научитесь работать с Spark DataFrame API и Spark SQL API. Теоретическая часть будет представлена в виде онлайн-курса, что позволит вам просматривать лекции в комфортном темпе и возвращаться к ним при возникновении трудностей. Практическая часть будет проходить при поддержке преподавателей, которые помогут вам освоить материал, ответят на все возникающие вопросы и дадут обратную связь по домашним заданиям. По необходимости будут организованы встречи в формате Q&A, где вы сможете задать вопросы и получить развернутые ответы от экспертов.
Цель освоения дисциплины

Цель освоения дисциплины

  • Понимать принципы работы и структуры платформ данных
  • Изучить архитектуры и компоненты систем обработки больших данных на примере экосистемы Hadoop, DataLake, DataWarehouse
  • Научиться запускать, развертывать и управлять кластерами и платформами данных
  • Освоить инструменты и методы работы с большими данными
  • Понимать, как управлять качеством данных - Изучить современные инструменты бизнес-аналитики
Планируемые результаты обучения

Планируемые результаты обучения

  • Понять основные концепции платформ данных
  • Понять из каких компонентов состоят платформы данных
  • Научиться запускать собственную платформу данных
  • Понимание компонентов Hadoop и архитектуры кластера
  • Знание системы HDFS, её свойств и интеграции с другими компонентами Hadoop
  • Умение развертывать Hadoop и выполнять базовые операции файловой системы
  • Понимание парадигмы MapReduce
  • Знание системы управления ресурсами YARN
  • Понимание форматов файлов в Hadoop
  • Знание других проектов экосистемы Hadoop
  • Понимание назначения, структуры и компонентов Hive
  • Умение развертывать Hive и выполнять операции с ним
  • Знание HiveQL и организации данных в Hive
  • Сравнение Hive с традиционными RDBMS
  • Понимание архитектуры и назначения Spark
  • Умение развертывать кластер Spark
  • Знание Spark DataFrame API
  • Понимание взаимодействия между компонентами Hadoop
  • Знание средств организации ETL-процессов
  • Умение работать с DBT, Prefect и NiFi
  • Сравнение различных инструментов ETL
  • Понимание способов организации хранилищ: Data Lake, Data Warehouse, Lakehouse
  • Знание систем Greenplum и Clickhouse
  • Понимание использовани Kafka
  • Знание принципов контроля качества данных (DQ)
  • Понимание основ Data Governance (DatGov)
  • Умение использовать инструменты бизнес-аналитики (BI)
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в обработку больших данных и Hadoop
  • Обработка данных в Hadoop
  • Аналитика и обработка данных с использованием Hive
  • Apache Spark и его применение
  • Инструменты организации ETL-процессов
  • Технологии хранения и обработки больших данных
  • Управление качеством данных и бизнес-аналитика
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
    Развертывание Hadoop
  • неблокирующий Домашнее задание 2
    Развертывание кластера YARN и выполнение распределенного MapReduce
  • неблокирующий Домашнее задание 3
    Развертывание Hive
  • неблокирующий Домашнее задание 4
    Развертывание кластера Spark
  • неблокирующий Домашнее задание 5
    Развертывание Airflow, реализация ETL процесса с его применением
  • неблокирующий Домашнее задание 6
    Работа с Greenplum
  • неблокирующий Домашнее задание 7
    Работа с DQ
  • неблокирующий Домашнее задание 8
    Работа с BI
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 2nd module
    Формула оценивания: средний балл за все домашние задания. В случае невыполнения домашнего задания в срок, за него выставляется 0 баллов.
Список литературы

Список литературы

Рекомендуемая основная литература

  • Adam Aspin. (2020). Pro Power BI Desktop : Self-Service Analytics and Data Visualization for the Power User: Vol. Third edition. Apress.

Рекомендуемая дополнительная литература

  • Гордеев, С. И.  Организация баз данных в 2 ч. Часть 1 : учебник для среднего профессионального образования / С. И. Гордеев, В. Н. Волошина. — 2-е изд., испр. и доп. — Москва : Издательство Юрайт, 2021. — 310 с. — (Профессиональное образование). — ISBN 978-5-534-11626-7. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/476351 (дата обращения: 27.08.2024).

Авторы

  • Кононова Елизавета Дмитриевна