2022/2023
Инструменты анализа и хранения больших данных
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Маго-лего
Кто читает:
Школа коммуникаций
Когда читается:
1 модуль
Охват аудитории:
для своего кампуса
Преподаватели:
Хапаева Наталья Михайловна
Язык:
русский
Кредиты:
4
Контактные часы:
40
Программа дисциплины
Аннотация
Курс направлен на: • Изучение, сравнительный анализ баз данных – ClickHouse, MongoDB, Vertica, Postgre и др. • Получение практических навыков работы со встроенными инструментами ML в базах данных. • Обзор и решение практических задач по обработке BD, моделирование и best practics. • Сравнительный анализ с OLAP, реляционными СУБД (Postgre, MS SQL Server), NoSQL (ElasticSearch, Mongo DB) и Hadoop и примеры решения практических задач. • Освоение принципов управления данными в компаниях и цифровых экосистемах.
Цель освоения дисциплины
- Целью освоения дисциплины "Инструменты анализа и хранения больших данных" является получение студентами знаний и навыков владения современными методами и средствами, предназначенными для обработки и хранения больших данных и построения аналитики по ним для задач обеспечения медиапланирования и управления рекламными кампаниями.
Планируемые результаты обучения
- Знает основные принципы организации реляционных БД и хранилищ данных. Владеет основными методами обработки информации в реляционых БД, включая язык SQL. Умеет применять инструменты работы с хранилищами данных для решения задач аналитики в медиапланировании.
- Имеет представление о месте и роли Big Data-инструментов в задачах медипланирования. Умеет применять инструментарий распределенной обработки данных и построения аналитики на промышленных массивах данных.
- Понимает основные принципы работы NoSQL-баз данных и их отличия от реляционных БД. Умеет применять полученные знания в задачах обработки больших данных с помощью NoSQL-инструментов для получения аналитической отчетности.
- Понимает, как организованы процессы управления данными в организациях и цифровых экосистемах.
Содержание учебной дисциплины
- Основные концепции организации реляционных баз данных и хранилища данных (DWH)
- NoSQL – базы данных
- Инструменты работы с Big Data
- Data Governance: основы управления данными в компаниях и цифровых экосистемах
Промежуточная аттестация
- 2022/2023 учебный год 1 модуль0.35 * Аудиторная работа + 0.65 * Решение бизнес-кейсов
Список литературы
Рекомендуемая основная литература
- Dean, J., & Ghemawat, S. (2008). Mapreduce: Simplified Data Processing on Large Clusters. Communications of the ACM, 51(1), 107–113. https://doi.org/10.1145/1327452.1327492
- Kimball R., Margy Ross M. The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling. – John Wiley & Sons, 2013.
- Luu H. Beginning Apache Spark 2: With Resilient Distributed Datasets, Spark SQL, Structured Streaming and Spark Machine Learning Library. – Berkeley: Apress, 2018.
- Rohan Light, Beenish Saeed, Nathalie de Marcellis-Warin, Abdelaziz Khadraoui, Alison Holt, Benoit Aubert, David Sutton, Frédéric Gelissen, Alisdair McKenzie, Geoff Clarke, Rose Pan, & Ming Li. (2021). Data Governance : Governing Data for Sustainable Business. BCS, The Chartered Institute for IT.
Рекомендуемая дополнительная литература
- Evren Eryurek, Uri Gilad, Valliappa Lakshmanan, Anita Kibunguchy-Grant, & Jessi Ashdown. (2021). Data Governance: The Definitive Guide: Vol. First edition. O’Reilly Media.
- John Ladley. (2020). Data Governance : How to Design, Deploy, and Sustain an Effective Data Governance Program: Vol. Second edition. Academic Press.
- White T. Hadoop: The Definitive Guide. - O'Reilly Media, 2015.