2024/2025
ETL-процессы
Статус:
Маго-лего
Когда читается:
3, 4 модуль
Охват аудитории:
для своего кампуса
Преподаватели:
Касьяненко Дарья Алексеевна
Язык:
русский
Кредиты:
6
Программа дисциплины
Аннотация
Курс предоставляет студентам практические навыки в проектировании, разработке и управлении процессами ETL (Extract, Transform, Load). В ходе обучения студенты изучают методы извлечения, трансформации и загрузки данных в различные хранилища. Они также получают практические навыки в использовании инструментов и фреймворков ETL и изучают методы обработки ошибок и мониторинга процессов. Курс также рассматривает концепцию и модели облачных вычислений и современные практики разработки cloud-native приложений.
Цель освоения дисциплины
- Получение знаний о методах извлечения и преобразования данных
- Определение лучших инструментов работы с данными
- Поиск решений для объединения данных из нескольких источников
- Приведение к единой терминологии и единым метрикам для работы с DWH
- Изучение принципов, моделей и технологий облачных вычислений
- Изучение принципов построения и методов разработки cloud-native приложений
Планируемые результаты обучения
- Умение находить данные в базах данных
- Умение использовать различные инструменты обработки данных
- Обосновывает план поиска данных
- Формирует систему исходных показателей
- Владеет навыками структурирования данных
- Владеет существующими облачными решениями для хранения и обработки данных, а также других вспомогательных задач
- Знание принципов построения масштабируемых высокодоступных приложений на базе облака и способов решения типовых задач
- - Определяет основные концепции ETL-процесса, жизненные цикл и основные этапы ETL-процесса
- - Формулирует, в чем заключается ETL-процесс и его роль в инженерии данных
- - Определяет источники данных и их типы, форматы хранения данных
- - Различает влияние источников данных на проектирование ETL-процессов
- - Умеет работать с различными источниками данных
- - Понимает, что подразумевает преобразование данных, применяет правила и методы преобразования данных
- - Понимает, как бизнес логика влияет на работу с данными
- - Применяет методы трансформации для подготовки данных к загрузке
- - Применяет принципы загрузки данных в базы данных и DWH, различает одноразовую и периодическую загрузку
- - Выделяет основные характеристики и компоненты хранилища данных и архитектуры DWH
- - Понимает различия между DWH и традиционными базами данных
- - Выделяет основные концепции Data Lake и отличие от DWH
- - Понимает для каких целей подходит Data Lake, как хранить и управлять данными в Data Lake
- - Применяет популярные решения для работы с Data Lake
- - Выделяет популярные инструменты для реализации ETL-процесса
- - Понимает, как выбрать подходящий инструмент для конкретных задач ETL-процесса
- - Применяет один из популярных инструменты для реализации ETL-процесса для практических задач
- - Использует инструменты автоматизации ETL: Apache Airflow, Luigi и умеет выбирать оптимальные инструменты для реализации ETL-процесса
- - Понимает, как интегрировать ETL с DevOps
- - Описывает оптимальную схему для реализации ETL-процесса
- - Реализовывает собственный ETL-процесс (извлечение, преобразование, загрузка данных в хранилище)
- - Понимает основы работы с большими данными и применение NoSQL в ETL и DWH
- - Использует NoSQL базы данных для хранения больших объемов информации.
- - Выделяет типы облачных хранилищ данных, популярные облачные провайдеры
- - Понимает особенности облачного хранения данных
- - Выделяет модели облачных вычислений, облачные платформы для ETL и DWH
- - Понимает особенности облачных вычислений и платформ для решения задач бизнеса
- - Понимает, что такое cloud-native архитектура, основные характеристики cloud-native приложений
- - Выделяет преимущества архитектуры cloud-native в процессах ETL и управлении DWH
- - Использует преимущества архитектуры cloud-native в практических задачах
- - Выделяет основные компоненты потоковой архитектуры
- - Приводит примеры удачных решений, знает возможные сложности потоковой обработки данных
- - Умеет работать с потоками данных
- - Объясняет, как качество данных влияет на выводы и принимаемые решения
- - Применяет методы проверки качества данных для практических задач
- - Выделяет основные инструменты визуализации данных (Tableau, Power BI)
- - Создает отчет на основе данных из DWH (пример визуализации из таблицы)
- - Понимает современные тренды в ETL и DWHновые технологии и их влияние на процессы обработки данных
- - Выбирает оптимальные инструменты облачных технологий для реализации ETL-процесса
- - Составляет оптимальную схему для реализации ETL-процесса с использованием облачных технологий
Содержание учебной дисциплины
- Общие сведения об ETL-процессах
- Структура и источники данных
- Основы трансформации данных
- Загрузка данных в целевую систему
- Data Warehousing (DWH)
- Data Lakes
- Инструменты ETL .
- Интеграция и автоматизация ETL-процессов
- Работа с Big Data и NoSQL
- Хранение данных в облаке.
- Работа с облачными вычислениями (Cloud Computing)
- Cloud-native приложения
- Потоковая обработка данных
- Управление данными и их качество
- Отчетность и визуализация данных
- Тренды и технологии будущего в ETL и DWH
Элементы контроля
- Итоговое задание по модулю 3
- Итоговое задание по модулю 4
- Задания с самопроверкой по чек-листу или проверкой на вебинаре
- Тесты
Промежуточная аттестация
- 2024/2025 4th moduleИтоговое задание по модулю 3 * 0.3 + Итоговое задание по модулю 4 * 0.3 + Задания с самопроверкой по чек-листу или проверкой на вебинаре * 0.2 + Тесты * 0.2
Список литературы
Рекомендуемая основная литература
- Гинько, А. Ю. Анализ и визуализация данных в Yandex DataLens. Подробное руководство: от новичка до эксперта : руководство / А. Ю. Гинько. — Москва : ДМК Пресс, 2022. — 356 с. — ISBN 978-5-93700-171-9. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/314909 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Макшанов, А. В. Системы поддержки принятия решений : учебное пособие для вузов / А. В. Макшанов, А. Е. Журавлев, Л. Н. Тындыкарь. — 2-е изд., стер. — Санкт-Петербург : Лань, 2021. — 108 с. — ISBN 978-5-8114-8489-8. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/176903 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Сапрыкин, О. Н. Интеллектуальный анализ данных : учебное пособие / О. Н. Сапрыкин. — Самара : Самарский университет, 2020. — 80 с. — ISBN 978-5-7883-1563-8. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/188906 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Смирнов, М. В. Проектирование баз данных (описание лабораторных работ): Практикум : учебное пособие / М. В. Смирнов. — Москва : РТУ МИРЭА, 2020. — 84 с. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/163891 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Смирнов, М. В. Проектирование баз данных: Конспект лекций : учебное пособие / М. В. Смирнов. — Москва : РТУ МИРЭА, 2020. — 40 с. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/163892 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Уэске, Ф. Потоковая обработка данных с Apache Flink / Ф. Уэске, В. Калари , перевод с английского В. С. Яценкова. — Москва : ДМК Пресс, 2021. — 298 с. — ISBN 978-5-97060-880-7. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/241004 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Харенслак, Б. Apache Airflow и конвейеры обработки данных / Б. Харенслак, Р. Д. де , перевод с английского Д. А. Беликова. — Москва : ДМК Пресс, 2022. — 502 с. — ISBN 978-5-97060-970-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/241133 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
Рекомендуемая дополнительная литература
- Клементьев, И. П. Введение в облачные вычисления : учебное пособие / И. П. Клементьев, В. А. Устинов. — 2-е изд. — Москва : ИНТУИТ, 2016. — 310 с. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/100686 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.