Бакалавриат
2024/2025
Введение в платформы данных
Статус:
Курс по выбору (Прикладная математика и информатика)
Кто читает:
Базовая кафедра МТС
Когда читается:
4-й курс, 1, 2 модуль
Охват аудитории:
для своего кампуса
Язык:
русский
Программа дисциплины
Аннотация
Для чего нужны платформы данных? Как бы это очевидно ни звучало, они нужны для принятия решений на основе данных. У бизнеса может быть бесконечное количество запросов: как изменить цену товаров, в каком месте разместить магазин, кому показать рекламу, куда сдвинуть кнопку на сайте и т.д. Эти задачи могут решаться с помощью аналитики, построения дашбордов, сбора метрик, построения ML-моделей и т.д. Само по себе решение таких задач нетривиально, однако, это лишь верхушка айсберга.Прежде, чем проводить какую-либо аналитику, данные нужно найти, загрузить в хранилище, проверить их качество, агрегировать, и на любом из этапов может возникнуть огромное количество проблем. Здесь и появляются платформы данных, которые предоставляют инфраструктуру и инструменты для загрузки, обработки, проверки и анализа данных, что в конечном счете значительно упрощает и ускоряет решение любых задач, связанных с данными.В рамках курса вы познакомитесь с основными концепциями платформ данных, посмотрите из чего они состоят, какие бывают реализации, и запустите собственную платформу данных. Кроме того, на собранной платформе попрактикуетесь с организацией полного цикла работы с данными: от загрузки из источника до работы аналитика с этими данными. Вы узнаете, что такое Big Data, Data Warehouse, Data Lake, Data Governance, а также познакомитесь с технологиями, которые позволяют реализовать эти методологии и концепции. Особое внимание в курсе будет уделено таким технологиям, как Hadoop и Spark. Вы изучите компоненты Hadoop, архитектуру кластера и HDFS, научитесь развертывать Hadoop и выполнять базовые операции. Также вы изучите архитектуру и назначение Spark и научитесь работать с Spark DataFrame API и Spark SQL API. Теоретическая часть будет представлена в виде онлайн-курса, что позволит вам просматривать лекции в комфортном темпе и возвращаться к ним при возникновении трудностей. Практическая часть будет проходить при поддержке преподавателей, которые помогут вам освоить материал, ответят на все возникающие вопросы и дадут обратную связь по домашним заданиям. По необходимости будут организованы встречи в формате Q&A, где вы сможете задать вопросы и получить развернутые ответы от экспертов.
Цель освоения дисциплины
- Понимать принципы работы и структуры платформ данных
- Изучить архитектуры и компоненты систем обработки больших данных на примере экосистемы Hadoop, DataLake, DataWarehouse
- Научиться запускать, развертывать и управлять кластерами и платформами данных
- Освоить инструменты и методы работы с большими данными
- Понимать, как управлять качеством данных - Изучить современные инструменты бизнес-аналитики
Планируемые результаты обучения
- Понять основные концепции платформ данных
- Понять из каких компонентов состоят платформы данных
- Научиться запускать собственную платформу данных
- Понимание компонентов Hadoop и архитектуры кластера
- Знание системы HDFS, её свойств и интеграции с другими компонентами Hadoop
- Умение развертывать Hadoop и выполнять базовые операции файловой системы
- Понимание парадигмы MapReduce
- Знание системы управления ресурсами YARN
- Понимание форматов файлов в Hadoop
- Знание других проектов экосистемы Hadoop
- Понимание назначения, структуры и компонентов Hive
- Умение развертывать Hive и выполнять операции с ним
- Знание HiveQL и организации данных в Hive
- Сравнение Hive с традиционными RDBMS
- Понимание архитектуры и назначения Spark
- Умение развертывать кластер Spark
- Знание Spark DataFrame API
- Понимание взаимодействия между компонентами Hadoop
- Знание средств организации ETL-процессов
- Умение работать с DBT, Prefect и NiFi
- Сравнение различных инструментов ETL
- Понимание способов организации хранилищ: Data Lake, Data Warehouse, Lakehouse
- Знание систем Greenplum и Clickhouse
- Понимание использовани Kafka
- Знание принципов контроля качества данных (DQ)
- Понимание основ Data Governance (DatGov)
- Умение использовать инструменты бизнес-аналитики (BI)
Содержание учебной дисциплины
- Введение в обработку больших данных и Hadoop
- Обработка данных в Hadoop
- Аналитика и обработка данных с использованием Hive
- Apache Spark и его применение
- Инструменты организации ETL-процессов
- Технологии хранения и обработки больших данных
- Управление качеством данных и бизнес-аналитика
Элементы контроля
- Домашнее задание 1Развертывание Hadoop
- Домашнее задание 2Развертывание кластера YARN и выполнение распределенного MapReduce
- Домашнее задание 3Развертывание Hive
- Домашнее задание 4Развертывание кластера Spark
- Домашнее задание 5Развертывание Airflow, реализация ETL процесса с его применением
- Домашнее задание 6Работа с Greenplum
- Домашнее задание 7Работа с DQ
- Домашнее задание 8Работа с BI
Промежуточная аттестация
- 2024/2025 2nd moduleФормула оценивания: средний балл за все домашние задания. В случае невыполнения домашнего задания в срок, за него выставляется 0 баллов.
Список литературы
Рекомендуемая основная литература
- Adam Aspin. (2020). Pro Power BI Desktop : Self-Service Analytics and Data Visualization for the Power User: Vol. Third edition. Apress.
Рекомендуемая дополнительная литература
- Гордеев, С. И. Организация баз данных в 2 ч. Часть 1 : учебник для среднего профессионального образования / С. И. Гордеев, В. Н. Волошина. — 2-е изд., испр. и доп. — Москва : Издательство Юрайт, 2021. — 310 с. — (Профессиональное образование). — ISBN 978-5-534-11626-7. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/476351 (дата обращения: 27.08.2024).