Магистратура
2024/2025
Базы и хранилища данных
Статус:
Курс обязательный (Магистр по наукам о данных)
Когда читается:
1-й курс, 3, 4 модуль
Охват аудитории:
для своего кампуса
Язык:
русский
Программа дисциплины
Аннотация
В настоящее время анализ данных играет значительную роль в повышении эффективности бизнеса. Большинство источников данных являются реляционными базами данных, которые могут содержать большое количество записей. Для специалистов по обработке и анализу данных приоритетными становятся знания того, как извлекать такую информацию, выполнять нужные вычисления и сохранять результаты для последующего использования.
Данный курс последовательно знакомит студентов с системами управления базами данных, теоретической базой работы с данными, написанием простых и сложных запросов. Курс охватывает основные аспекты получения и обработки данных. Вторая часть курса посвящена изучению методологии создания хранилищ данных, программных средств, используемых при разработке хранилищ данных, а также формированию практических навыков проектирования ХД.
Практические занятия позволят студентам приобрести новые знания при написании запросов к одной из самых современных бесплатных СУБД – PostgreSQL, а также познакомиться с особенностями организации потоков данных в Airflow.
Цель освоения дисциплины
- Знать возможные способы работы с реляционными базами данных
- Знать особенности реляционной модели данных
- Знать синтаксис языка SQL
- Понимать архитектуру хранилищ данных и ее составные части
- Уметь проектировать процессы загрузки данных с помощью SQL и Airflow
- Знать инструменты визуализации информации, получаемой из хранилищ данных
Планируемые результаты обучения
- 1. Умеет извлекать данные из реляционных баз данных с помощью запросов
- 2. Знает, как структурировать и обрабатывать данные в реляционной базе данных
- 3. Знает синтаксис языка SQL на высоком уровне и может применять его для решения аналитических задач
- 4. Умеет проектировать хранилище данных
- 5. Применяет инструментальные средства СУБД при реализации модели ХД
Содержание учебной дисциплины
- Основные понятия реляционных баз данных. Описание структуры данных с помощью SQL DDL
- Разработка реляционных баз данных. Основы работы с Postgres.
- Теоретические основы разработки запросов. Выражения в языке SQL. Простые CRUD операции в SQL DML
- Чтение, вставка, обновление и удаление в Postgres. Простые операции с данными.
- Операции работы с множествами в SQL. Различные варианты соединений в запросах.
- Разработка запросов selectproject-join с использованием встроенных функций и операторов
- Применение агрегирующих функций. План выполнения запросов.
- Разработка запросов с группировкой и агрегирующими функциями
- Вложенные запросы. Использование оконных функций.
- Использование вложенных запросов в вычислениях и сложных условиях
- Возможности программирования в базах данных. Пользователи и роли.
- Представления в базах данных. Аналитические запросы
- Введение в хранилища данных. Предпосылки создания, основные компоненты и пользователи.
- Управление данными в задачах построения аналитических витрин.
- Процессы ETL. ETL и ELT. Методы загрузки данных с историей изменений
- Дедупликация данных. Загрузка данных с помощью SQL
- Автоматизация процессов загрузки и обработки данных с помощью Airflow
- Создание простых процедур загрузки с помощью airflow
- Модели данных, используемые в разных слоях хранилища данных. Подход Кимбалла и Инмона.
- Инкрементная загрузка данных с поддержкой истории изменений
- Проектирование хранилища данных с использованием Data Vault
- Инструменты построения отчетности на основе хранилищ данных
- Визуализация данных с помощью BI-инструментов
- Подход Data Vault. Преимущества и недостатки моделей. Озера данных, лямбда- и каппаархитектура
Элементы контроля
- Домашнее заданиеВыдается на 1, 3, 4, 5 неделях. Каждое задание связано с практикой по теме недели.
- ПроектВыдается после 8 лекции. Представляет собой командный проект, в котором студенты попробуют создать небольшое хранилище данных на основе открытых источников. Максимальное количество участников – 4 студента
- Контрольная работаПроводится после 6 лекции в формате теста, на который отводится 60 минут. Можно пользоваться материалами курса. Количество вопросов - 30
- ЭкзаменПисьменный экзамен в форме теста и одного задания с развернутым ответом. Допускается использование материалов курса.
Промежуточная аттестация
- 2024/2025 4th module0.2 * Домашнее задание + 0.3 * Контрольная работа + 0.2 * Проект + 0.3 * Экзамен
Список литературы
Рекомендуемая основная литература
- Гордеев, С. И. Организация баз данных в 2 ч. Часть 1 : учебник для вузов / С. И. Гордеев, В. Н. Волошина. — 2-е изд., испр. и доп. — Москва : Издательство Юрайт, 2024. — 310 с. — (Высшее образование). — ISBN 978-5-534-04469-0. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/538593 (дата обращения: 27.08.2024).
- Гордеев, С. И. Организация баз данных в 2 ч. Часть 2 : учебник для вузов / С. И. Гордеев, В. Н. Волошина. — 2-е изд., испр. и доп. — Москва : Издательство Юрайт, 2024. — 513 с. — (Высшее образование). — ISBN 978-5-534-04470-6. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/539672 (дата обращения: 27.08.2024).
- Стружкин, Н. П. Базы данных: проектирование. Практикум : учебное пособие для вузов / Н. П. Стружкин, В. В. Годин. — Москва : Издательство Юрайт, 2023. — 291 с. — (Высшее образование). — ISBN 978-5-534-00739-8. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/512160 (дата обращения: 27.08.2024).
Рекомендуемая дополнительная литература
- Beaulieu, A. (2009). Learning SQL : Master SQL Fundamentals: Vol. 2nd ed. O’Reilly Media.
- Perkins, L., Redmond, E., & Wilson, J. R. (2018). Seven Databases in Seven Weeks : A Guide to Modern Databases and the NoSQL Movement (Vol. Second edition). Raleigh, N. C: Pragmatic Bookshelf. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1806794