• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2024/2025

ETL-процессы

Статус: Курс обязательный (Инженерия данных)
Направление: 09.04.04. Программная инженерия
Когда читается: 1-й курс, 3, 4 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Прогр. обучения: Инженерия данных
Язык: русский
Кредиты: 6

Программа дисциплины

Аннотация

Курс предоставляет студентам практические навыки в проектировании, разработке и управлении процессами ETL (Extract, Transform, Load). В ходе обучения студенты изучают методы извлечения, трансформации и загрузки данных в различные хранилища. Они также получают практические навыки в использовании инструментов и фреймворков ETL и изучают методы обработки ошибок и мониторинга процессов. Курс также рассматривает концепцию и модели облачных вычислений и современные практики разработки cloud-native приложений.
Цель освоения дисциплины

Цель освоения дисциплины

  • Получение знаний о методах извлечения и преобразования данных
  • Определение лучших инструментов работы с данными
  • Поиск решений для объединения данных из нескольких источников
  • Приведение к единой терминологии и единым метрикам для работы с DWH
  • Изучение принципов, моделей и технологий облачных вычислений
  • Изучение принципов построения и методов разработки cloud-native приложений
Планируемые результаты обучения

Планируемые результаты обучения

  • Умение находить данные в базах данных
  • Умение использовать различные инструменты обработки данных
  • Обосновывает план поиска данных
  • Формирует систему исходных показателей
  • Владеет навыками структурирования данных
  • Владеет существующими облачными решениями для хранения и обработки данных, а также других вспомогательных задач
  • Знание принципов построения масштабируемых высокодоступных приложений на базе облака и способов решения типовых задач
  • - Определяет основные концепции ETL-процесса, жизненные цикл и основные этапы ETL-процесса
  • - Формулирует, в чем заключается ETL-процесс и его роль в инженерии данных
  • - Определяет источники данных и их типы, форматы хранения данных
  • - Различает влияние источников данных на проектирование ETL-процессов
  • - Умеет работать с различными источниками данных
  • - Понимает, что подразумевает преобразование данных, применяет правила и методы преобразования данных
  • - Понимает, как бизнес логика влияет на работу с данными
  • - Применяет методы трансформации для подготовки данных к загрузке
  • - Применяет принципы загрузки данных в базы данных и DWH, различает одноразовую и периодическую загрузку
  • - Выделяет основные характеристики и компоненты хранилища данных и архитектуры DWH
  • - Понимает различия между DWH и традиционными базами данных
  • - Выделяет основные концепции Data Lake и отличие от DWH
  • - Понимает для каких целей подходит Data Lake, как хранить и управлять данными в Data Lake
  • - Применяет популярные решения для работы с Data Lake
  • - Выделяет популярные инструменты для реализации ETL-процесса
  • - Понимает, как выбрать подходящий инструмент для конкретных задач ETL-процесса
  • - Применяет один из популярных инструменты для реализации ETL-процесса для практических задач
  • - Использует инструменты автоматизации ETL: Apache Airflow, Luigi и умеет выбирать оптимальные инструменты для реализации ETL-процесса
  • - Понимает, как интегрировать ETL с DevOps
  • - Описывает оптимальную схему для реализации ETL-процесса
  • - Реализовывает собственный ETL-процесс (извлечение, преобразование, загрузка данных в хранилище)
  • - Понимает основы работы с большими данными и применение NoSQL в ETL и DWH
  • - Использует NoSQL базы данных для хранения больших объемов информации.
  • - Выделяет типы облачных хранилищ данных, популярные облачные провайдеры
  • - Понимает особенности облачного хранения данных
  • - Выделяет модели облачных вычислений, облачные платформы для ETL и DWH
  • - Понимает особенности облачных вычислений и платформ для решения задач бизнеса
  • - Понимает, что такое cloud-native архитектура, основные характеристики cloud-native приложений
  • - Выделяет преимущества архитектуры cloud-native в процессах ETL и управлении DWH
  • - Использует преимущества архитектуры cloud-native в практических задачах
  • - Выделяет основные компоненты потоковой архитектуры
  • - Приводит примеры удачных решений, знает возможные сложности потоковой обработки данных
  • - Умеет работать с потоками данных
  • - Объясняет, как качество данных влияет на выводы и принимаемые решения
  • - Применяет методы проверки качества данных для практических задач
  • - Выделяет основные инструменты визуализации данных (Tableau, Power BI)
  • - Создает отчет на основе данных из DWH (пример визуализации из таблицы)
  • - Понимает современные тренды в ETL и DWHновые технологии и их влияние на процессы обработки данных
  • - Выбирает оптимальные инструменты облачных технологий для реализации ETL-процесса
  • - Составляет оптимальную схему для реализации ETL-процесса с использованием облачных технологий
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Общие сведения об ETL-процессах
  • Структура и источники данных
  • Основы трансформации данных
  • Загрузка данных в целевую систему
  • Data Warehousing (DWH)
  • Data Lakes
  • Инструменты ETL .
  • Интеграция и автоматизация ETL-процессов
  • Работа с Big Data и NoSQL
  • Хранение данных в облаке.
  • Работа с облачными вычислениями (Cloud Computing)
  • Cloud-native приложения
  • Потоковая обработка данных
  • Управление данными и их качество
  • Отчетность и визуализация данных
  • Тренды и технологии будущего в ETL и DWH
Элементы контроля

Элементы контроля

  • неблокирующий Итоговое задание по модулю 3
  • неблокирующий Итоговое задание по модулю 4
  • неблокирующий Задания с самопроверкой по чек-листу или проверкой на вебинаре
  • неблокирующий Тесты
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 4th module
    Итоговое задание по модулю 3 * 0.3 + Итоговое задание по модулю 4 * 0.3 + Задания с самопроверкой по чек-листу или проверкой на вебинаре * 0.2 + Тесты * 0.2
Список литературы

Список литературы

Рекомендуемая основная литература

  • Гинько, А. Ю. Анализ и визуализация данных в Yandex DataLens. Подробное руководство: от новичка до эксперта : руководство / А. Ю. Гинько. — Москва : ДМК Пресс, 2022. — 356 с. — ISBN 978-5-93700-171-9. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/314909 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Макшанов, А. В. Системы поддержки принятия решений : учебное пособие для вузов / А. В. Макшанов, А. Е. Журавлев, Л. Н. Тындыкарь. — 2-е изд., стер. — Санкт-Петербург : Лань, 2021. — 108 с. — ISBN 978-5-8114-8489-8. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/176903 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Сапрыкин, О. Н. Интеллектуальный анализ данных : учебное пособие / О. Н. Сапрыкин. — Самара : Самарский университет, 2020. — 80 с. — ISBN 978-5-7883-1563-8. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/188906 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Смирнов, М. В. Проектирование баз данных (описание лабораторных работ): Практикум : учебное пособие / М. В. Смирнов. — Москва : РТУ МИРЭА, 2020. — 84 с. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/163891 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Смирнов, М. В. Проектирование баз данных: Конспект лекций : учебное пособие / М. В. Смирнов. — Москва : РТУ МИРЭА, 2020. — 40 с. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/163892 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Уэске, Ф. Потоковая обработка данных с Apache Flink / Ф. Уэске, В. Калари , перевод с английского В. С. Яценкова. — Москва : ДМК Пресс, 2021. — 298 с. — ISBN 978-5-97060-880-7. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/241004 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Харенслак, Б. Apache Airflow и конвейеры обработки данных / Б. Харенслак, Р. Д. де , перевод с английского Д. А. Беликова. — Москва : ДМК Пресс, 2022. — 502 с. — ISBN 978-5-97060-970-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/241133 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Клементьев, И. П. Введение в облачные вычисления : учебное пособие / И. П. Клементьев, В. А. Устинов. — 2-е изд. — Москва : ИНТУИТ, 2016. — 310 с. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/100686 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Авторы

  • Касьяненко Дарья Алексеевна
  • Ахмедова Гюнай Интигам кызы