Бакалавриат
2023/2024
Методы и системы обработки больших данных
Статус:
Курс по выбору (Прикладная математика и информатика)
Направление:
01.03.02. Прикладная математика и информатика
Кто читает:
Базовая кафедра МТС
Где читается:
Факультет компьютерных наук
Когда читается:
4-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Гюльмамедов Саттар Алекперович
Язык:
русский
Кредиты:
5
Контактные часы:
56
Программа дисциплины
Аннотация
В рамках курса студенты узнают о различных видах программных решений, используемых при работе с большими данными: фреймворке hadoop и его составляющих, MPP СУБД Greenplum, СУБД Clickhouse, Apache Airflow и других инструментах. Узнают какие задачи решают инженеры данных и какие приемы используют. Студенты на практике реализуют несколько ETL процессов, с помощью указанных выше инструментов
Цель освоения дисциплины
- Уметь реализовать DAG для переноса данных между системами хранения
- Настраивать промежуточное ПО (Airflow, prefect) для организации ETL-процессов
- Настраивать рабочее место инженера данных
- Извлекать и записывать данные в Kafka
- Объяснять нюансы работы с Kafka
- Извлекать и записывать данные в Clickhouse
- Знать нюансы работы с СУБД Clickhouse
- Извлекать данные из СУБД или MPP, используя Apache Spark
Планируемые результаты обучения
- Знать архитектуру Apache Spark
- Уметь применять утилиты hdfs
- Знать программную модель MapReduce и уметь ее использовать
- Уметь выполнять базовую настройку каждой разновидности узла кластера Hadoop
- Знать виды узлов кластера Hadoop и их назначение
Содержание учебной дисциплины
- Введение в BD. Мотивация/принципы/философия
- Кластер Hadoop. Структура
- Работа с HDFS: утилиты/структура/MR
- Apache Hive как средство реализации warehouse
- Среда разработки (настройка EN)
- Apache Spark - варианты запуска и работы с кластером
- Apache Spark - DF.API vs spark.sql
- Оркестрация процессов обработки данных с помощью Apache Airflow
- Оркестрация процессов обработки данных с помощью dbt
- Оркестрация процессов обработки данных с помощью prefect
- Реляционные БД и MPP на примере PostgreSQL и Greenplum
- СУБД Clickhouse
- Потоки данных на примере Apache Kafka
- Защита финального проекта
Элементы контроля
- Проверочная работа на семинаре 1Развертывание кластера Hadoop
- Проверочная работа на семинаре 2Использование программной модели MapReduce
- Проверочная работа на семинаре 3Развертывание и настройка Apache Hive
- Проверочная работа на семинаре 4Настройка среды разработки инженера данных
- Проверочная работа на семинаре 5Запуск Spark в кластерном и бескластерном режимах
- Проверочная работа на семинаре 6Реализация простейших ETL операций с помощью разных видов синтаксиса
- Проверочная работа на семинаре 7Оркестрация процессов с помощью Apache Airflow
- Проверочная работа на семинаре 8Оркестрация процессов с помощью dbt
- Проверочная работа на семинаре 9Оркестрация процессов с помощью prefect
- Проверочная работа на семинаре 10Развертывание кластера Greenplum
- Проверочная работа на семинаре 11Развертывание и настройка СУБД Clickhouse
- Проверочная работа на семинаре 12Развертывание и настройка Apache Kafka
- ПроектСдача проекта проводится в устной форме, возможно проведение в аудитории или на платформе Zoom.
Промежуточная аттестация
- 2023/2024 учебный год 2 модульИтог = Округление(0.5 * ПР + 0.5 * ЗП), где ДЗ — средняя оценка за все домашние задания, ЗП — оценка за за защиту проекта