• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2024/2025

Базы и хранилища данных

Статус: Курс обязательный (Магистр по наукам о данных)
Когда читается: 1-й курс, 3, 4 модуль
Охват аудитории: для своего кампуса
Язык: русский

Программа дисциплины

Аннотация

В настоящее время анализ данных играет значительную роль в повышении эффективности бизнеса. Большинство источников данных являются реляционными базами данных, которые могут содержать большое количество записей. Для специалистов по обработке и анализу данных приоритетными становятся знания того, как извлекать такую информацию, выполнять нужные вычисления и сохранять результаты для последующего использования. Данный курс последовательно знакомит студентов с системами управления базами данных, теоретической базой работы с данными, написанием простых и сложных запросов. Курс охватывает основные аспекты получения и обработки данных. Вторая часть курса посвящена изучению методологии создания хранилищ данных, программных средств, используемых при разработке хранилищ данных, а также формированию практических навыков проектирования ХД. Практические занятия позволят студентам приобрести новые знания при написании запросов к одной из самых современных бесплатных СУБД – PostgreSQL, а также познакомиться с особенностями организации потоков данных в Airflow.
Цель освоения дисциплины

Цель освоения дисциплины

  • Знать возможные способы работы с реляционными базами данных
  • Знать особенности реляционной модели данных
  • Знать синтаксис языка SQL
  • Понимать архитектуру хранилищ данных и ее составные части
  • Уметь проектировать процессы загрузки данных с помощью SQL и Airflow
  • Знать инструменты визуализации информации, получаемой из хранилищ данных
Планируемые результаты обучения

Планируемые результаты обучения

  • 1. Умеет извлекать данные из реляционных баз данных с помощью запросов
  • 2. Знает, как структурировать и обрабатывать данные в реляционной базе данных
  • 3. Знает синтаксис языка SQL на высоком уровне и может применять его для решения аналитических задач
  • 4. Умеет проектировать хранилище данных
  • 5. Применяет инструментальные средства СУБД при реализации модели ХД
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основные понятия реляционных баз данных. Описание структуры данных с помощью SQL DDL
  • Разработка реляционных баз данных. Основы работы с Postgres.
  • Теоретические основы разработки запросов. Выражения в языке SQL. Простые CRUD операции в SQL DML
  • Чтение, вставка, обновление и удаление в Postgres. Простые операции с данными.
  • Операции работы с множествами в SQL. Различные варианты соединений в запросах.
  • Разработка запросов selectproject-join с использованием встроенных функций и операторов
  • Применение агрегирующих функций. План выполнения запросов.
  • Разработка запросов с группировкой и агрегирующими функциями
  • Вложенные запросы. Использование оконных функций.
  • Использование вложенных запросов в вычислениях и сложных условиях
  • Возможности программирования в базах данных. Пользователи и роли.
  • Представления в базах данных. Аналитические запросы
  • Введение в хранилища данных. Предпосылки создания, основные компоненты и пользователи.
  • Управление данными в задачах построения аналитических витрин.
  • Процессы ETL. ETL и ELT. Методы загрузки данных с историей изменений
  • Дедупликация данных. Загрузка данных с помощью SQL
  • Автоматизация процессов загрузки и обработки данных с помощью Airflow
  • Создание простых процедур загрузки с помощью airflow
  • Модели данных, используемые в разных слоях хранилища данных. Подход Кимбалла и Инмона.
  • Инкрементная загрузка данных с поддержкой истории изменений
  • Проектирование хранилища данных с использованием Data Vault
  • Инструменты построения отчетности на основе хранилищ данных
  • Визуализация данных с помощью BI-инструментов
  • Подход Data Vault. Преимущества и недостатки моделей. Озера данных, лямбда- и каппаархитектура
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
    Выдается на 1, 3, 4, 5 неделях. Каждое задание связано с практикой по теме недели.
  • неблокирующий Проект
    Выдается после 8 лекции. Представляет собой командный проект, в котором студенты попробуют создать небольшое хранилище данных на основе открытых источников. Максимальное количество участников – 4 студента
  • неблокирующий Контрольная работа
    Проводится после 6 лекции в формате теста, на который отводится 60 минут. Можно пользоваться материалами курса. Количество вопросов - 30
  • неблокирующий Экзамен
    Письменный экзамен в форме теста и одного задания с развернутым ответом. Допускается использование материалов курса.
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 4th module
    0.2 * Домашнее задание + 0.3 * Контрольная работа + 0.2 * Проект + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Гордеев, С. И.  Организация баз данных в 2 ч. Часть 1 : учебник для вузов / С. И. Гордеев, В. Н. Волошина. — 2-е изд., испр. и доп. — Москва : Издательство Юрайт, 2024. — 310 с. — (Высшее образование). — ISBN 978-5-534-04469-0. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/538593 (дата обращения: 27.08.2024).
  • Гордеев, С. И.  Организация баз данных в 2 ч. Часть 2 : учебник для вузов / С. И. Гордеев, В. Н. Волошина. — 2-е изд., испр. и доп. — Москва : Издательство Юрайт, 2024. — 513 с. — (Высшее образование). — ISBN 978-5-534-04470-6. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/539672 (дата обращения: 27.08.2024).
  • Стружкин, Н. П.  Базы данных: проектирование. Практикум : учебное пособие для вузов / Н. П. Стружкин, В. В. Годин. — Москва : Издательство Юрайт, 2023. — 291 с. — (Высшее образование). — ISBN 978-5-534-00739-8. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/512160 (дата обращения: 27.08.2024).

Рекомендуемая дополнительная литература

  • Beaulieu, A. (2009). Learning SQL : Master SQL Fundamentals: Vol. 2nd ed. O’Reilly Media.
  • Perkins, L., Redmond, E., & Wilson, J. R. (2018). Seven Databases in Seven Weeks : A Guide to Modern Databases and the NoSQL Movement (Vol. Second edition). Raleigh, N. C: Pragmatic Bookshelf. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1806794

Авторы

  • Ахмедова Гюнай Интигам кызы