Введение в платформы данных

Бакалавриат 2024/2025

Статус: Курс по выбору (Прикладная математика и информатика)

Кто читает: Базовая кафедра МТС

Когда читается: 4-й курс, 1, 2 модуль

Охват аудитории: для своего кампуса

Преподаватели: Бартенев Максим Владимирович, Гюльмамедов Саттар Алекперович

Язык: русский

Контактные часы: 56

Дополнительные материалы в LMS Задать вопрос

Аннотация

Для чего нужны платформы данных? Как бы это очевидно ни звучало, они нужны для принятия решений на основе данных. У бизнеса может быть бесконечное количество запросов: как изменить цену товаров, в каком месте разместить магазин, кому показать рекламу, куда сдвинуть кнопку на сайте и т.д. Эти задачи могут решаться с помощью аналитики, построения дашбордов, сбора метрик, построения ML-моделей и т.д. Само по себе решение таких задач нетривиально, однако, это лишь верхушка айсберга.Прежде, чем проводить какую-либо аналитику, данные нужно найти, загрузить в хранилище, проверить их качество, агрегировать, и на любом из этапов может возникнуть огромное количество проблем. Здесь и появляются платформы данных, которые предоставляют инфраструктуру и инструменты для загрузки, обработки, проверки и анализа данных, что в конечном счете значительно упрощает и ускоряет решение любых задач, связанных с данными.В рамках курса вы познакомитесь с основными концепциями платформ данных, посмотрите из чего они состоят, какие бывают реализации, и запустите собственную платформу данных. Кроме того, на собранной платформе попрактикуетесь с организацией полного цикла работы с данными: от загрузки из источника до работы аналитика с этими данными. Вы узнаете, что такое Big Data, Data Warehouse, Data Lake, Data Governance, а также познакомитесь с технологиями, которые позволяют реализовать эти методологии и концепции. Особое внимание в курсе будет уделено таким технологиям, как Hadoop и Spark. Вы изучите компоненты Hadoop, архитектуру кластера и HDFS, научитесь развертывать Hadoop и выполнять базовые операции. Также вы изучите архитектуру и назначение Spark и научитесь работать с Spark DataFrame API и Spark SQL API. Теоретическая часть будет представлена в виде онлайн-курса, что позволит вам просматривать лекции в комфортном темпе и возвращаться к ним при возникновении трудностей. Практическая часть будет проходить при поддержке преподавателей, которые помогут вам освоить материал, ответят на все возникающие вопросы и дадут обратную связь по домашним заданиям. По необходимости будут организованы встречи в формате Q&A, где вы сможете задать вопросы и получить развернутые ответы от экспертов.

Цель освоения дисциплины

Понимать принципы работы и структуры платформ данных
Изучить архитектуры и компоненты систем обработки больших данных на примере экосистемы Hadoop, DataLake, DataWarehouse
Научиться запускать, развертывать и управлять кластерами и платформами данных
Освоить инструменты и методы работы с большими данными
Понимать, как управлять качеством данных - Изучить современные инструменты бизнес-аналитики

Планируемые результаты обучения

Понять основные концепции платформ данных
Понять из каких компонентов состоят платформы данных
Научиться запускать собственную платформу данных
Понимание компонентов Hadoop и архитектуры кластера
Знание системы HDFS, её свойств и интеграции с другими компонентами Hadoop
Умение развертывать Hadoop и выполнять базовые операции файловой системы
Понимание парадигмы MapReduce
Знание системы управления ресурсами YARN
Понимание форматов файлов в Hadoop
Знание других проектов экосистемы Hadoop
Понимание назначения, структуры и компонентов Hive
Умение развертывать Hive и выполнять операции с ним
Знание HiveQL и организации данных в Hive
Сравнение Hive с традиционными RDBMS
Понимание архитектуры и назначения Spark
Умение развертывать кластер Spark
Знание Spark DataFrame API
Понимание взаимодействия между компонентами Hadoop
Знание средств организации ETL-процессов
Умение работать с DBT, Prefect и NiFi
Сравнение различных инструментов ETL
Понимание способов организации хранилищ: Data Lake, Data Warehouse, Lakehouse
Знание систем Greenplum и Clickhouse
Понимание использовани Kafka
Знание принципов контроля качества данных (DQ)
Понимание основ Data Governance (DatGov)
Умение использовать инструменты бизнес-аналитики (BI)

Содержание учебной дисциплины

Введение в обработку больших данных и Hadoop
Обработка данных в Hadoop
Аналитика и обработка данных с использованием Hive
Apache Spark и его применение
Инструменты организации ETL-процессов
Технологии хранения и обработки больших данных
Управление качеством данных и бизнес-аналитика

Элементы контроля

Домашнее задание 1
Развертывание Hadoop
Домашнее задание 2
Развертывание кластера YARN и выполнение распределенного MapReduce
Домашнее задание 3
Развертывание Hive
Домашнее задание 4
Развертывание кластера Spark
Домашнее задание 5
Развертывание Airflow, реализация ETL процесса с его применением
Домашнее задание 6
Работа с Greenplum
Домашнее задание 7
Работа с DQ
Домашнее задание 8
Работа с BI

Промежуточная аттестация

2024/2025 2nd module
Формула оценивания: средний балл за все домашние задания. В случае невыполнения домашнего задания в срок, за него выставляется 0 баллов.

Список литературы

Авторы

Кононова Елизавета Дмитриевна

Программа дисциплины

Программа дисциплины

Программа дисциплины

Аннотация

Цель освоения дисциплины

Планируемые результаты обучения

Содержание учебной дисциплины

Элементы контроля

Промежуточная аттестация

Список литературы

Рекомендуемая основная литература

Рекомендуемая дополнительная литература

Авторы