Магистратура
2023/2024![Цель освоения дисциплины](/f/src/global/i/edu/objectives.svg)
![Планируемые результаты обучения](/f/src/global/i/edu/results.svg)
![Содержание учебной дисциплины](/f/src/global/i/edu/sections.svg)
![Промежуточная аттестация](/f/src/global/i/edu/intermediate_certification.svg)
![Список литературы](/f/src/global/i/edu/library.svg)
Обработка и анализ больших массивов данных
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс обязательный
Направление:
01.04.02. Прикладная математика и информатика
Где читается:
Факультет компьютерных наук
Когда читается:
2-й курс, 1, 2 модуль
Формат изучения:
с онлайн-курсом
Онлайн-часы:
20
Охват аудитории:
для своего кампуса
Преподаватели:
Стаценко Максим Михайлович
Прогр. обучения:
Машинное обучение и высоконагруженные системы
Язык:
русский
Кредиты:
6
Контактные часы:
28
Программа дисциплины
Аннотация
На нашем курсе мы поговорим про то, что такое большие данные, где хранить их, как их обрабатывать, как можно с ними работать и как давать доступ к данным другим людям.
Так как наш курс длится всего два модуля, а тема BigData настолько широка, что для ее глубокого изучения не хватит и двух лет, то мы разберем только самый необходимый теоретический минимум, а остальное время посвятим принципам работы популярных инструментов
Цель освоения дисциплины
- По результатам курса студенты получат базовое представление о распределенной обработке больших данных и будут уметь пользоваться основным инструментами в данной области
Планируемые результаты обучения
- Как загружать данные в HDFS, выполнять операции чтения и записи, а также как использовать HDFS для обработки данных
- Навыки написания и запуска простой программы, использующей концепцию MapReduce. Как определить функции Map и Reduce, передать данные между ними, обработать и интерпретировать результаты. Работа с различными типами данных. Решение задач по подсчету количества слов в тексте, нахождению наиболее часто встречающихся слов, агрегации данных и вычислению статистических показателей
- Создание запросов на языке HiveQL, анализ данных и выполнение сложных операций
- Создание и отправка задач на выполнение в кластере. Использование инструментов мониторинга в YARN для отслеживания состояния задач, обнаружения ошибок и оптимизации производительности
- Процесс записи и чтения данных в Parquet/ORC, а также возможности оптимизации запросов и сжатия данных
- Чтение и запись данных из различных источников, таких как файлы и другие. Применение методов преобразования данных и агрегации. Использование распределенных вычислений в Spark для обработки больших объемов данных
- Изучение основных методов работы с данными в GreenPlum: создание таблиц, загрузка данных, выполнение запросов и агрегация данных. Применение возможностей работы с различными типами данных. Изучение методов оптимизации работы с GreenPlum, включая создание индексов, разделение данных и оптимизацию запросов
- Изучение основных методов работы с данными в ClickHouse: создание таблиц, загрузка данных, выполнение запросов и агрегация данных. Применение возможностей работы с различными типами данных. Изучение методов оптимизации работы с ClickHouse, включая создание индексов, разделение данных и оптимизацию запросов
- Создание и настройка отчетов, визуализация данных, фильтрация и сортировка данных, работа с различными типами графиков и диаграмм. Анализ данных в DataLens: создание сводных таблиц
- Создание рабочих процессов с помощью AirFlow, включая определение задач, настройку расписания выполнения, определение зависимостей и передачу данных между задачами
- Изучение записи и чтения сообщений, масштабирования и отказоустойчивости, обработки потоков данных и обеспечения гарантированной доставки сообщений. Создание системы обмена сообщениями с использованием Apache Kafka, включая настройку брокеров и топиков, определение производителей и потребителей, управление партициями и репликацией данных
- Изучение чтения и обработки потоков данных, преобразования данных, агрегации. Создание систем анализа потоков данных с помощью Spark Streaming, включая настройку и конфигурацию, определение и применение операций на потоках данных
- Проектирование логической архитектуры хранилищ данных, включая выбор и организацию компонентов, определение потоков данных и их трансформаций, настройку и конфигурацию системы
- Создание и использование стандартов и метаданных, а также их роль в обеспечении качества данных
- Знание основных трендов и популярных на данный момент инструментов
Содержание учебной дисциплины
- HDFS
- Основы и алгоритмы MapReduce
- Hive
- Основы YARN
- Parquet/ORC колоночный форматы хранения
- Spark для Batch обработки и Zeppelin
- MPP базы данных: GreenPlum
- MPP базы данных: ClickHouse
- BI инструменты на примере DataLens
- Регуляризация задач на примере AirFlow
- Apache Kafka
- Spark Streaming
- Логическая архитектура хранилищ данных
- Data governance
- Modern Data Stack
Промежуточная аттестация
- 2023/2024 учебный год 2 модуль0.7 * Домашние задания + 0.3 * Финальный проект
Список литературы
Рекомендуемая основная литература
- Hadoop : the definitive guide, White, T., 2012
- Клеппман М. - Высоконагруженные приложения. Программирование, масштабирование, поддержка - 978-5-4461-0512-0 - Санкт-Петербург: Питер - 2022 - 357916 - https://ibooks.ru/bookshelf/357916/reading - iBOOKS
Рекомендуемая дополнительная литература
- Высоконагруженные приложения : программирование, масштабирование, поддержка, Клеппман, М., 2019