Обработка и анализ больших массивов данных

Магистратура 2023/2024

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»

Лучший по критерию «Новизна полученных знаний»

Статус: Курс обязательный

Направление: 01.04.02. Прикладная математика и информатика

Кто читает: Департамент больших данных и информационного поиска

Где читается: Факультет компьютерных наук

Когда читается: 2-й курс, 1, 2 модуль

Формат изучения: с онлайн-курсом

Онлайн-часы: 20

Охват аудитории: для своего кампуса

Преподаватели: Стаценко Максим Михайлович

Прогр. обучения: Машинное обучение и высоконагруженные системы

Язык: русский

Кредиты: 6

Контактные часы: 28

Полная версия программы учебной дисциплины

Аннотация

На нашем курсе мы поговорим про то, что такое большие данные, где хранить их, как их обрабатывать, как можно с ними работать и как давать доступ к данным другим людям. Так как наш курс длится всего два модуля, а тема BigData настолько широка, что для ее глубокого изучения не хватит и двух лет, то мы разберем только самый необходимый теоретический минимум, а остальное время посвятим принципам работы популярных инструментов

Цель освоения дисциплины

По результатам курса студенты получат базовое представление о распределенной обработке больших данных и будут уметь пользоваться основным инструментами в данной области

Планируемые результаты обучения

Как загружать данные в HDFS, выполнять операции чтения и записи, а также как использовать HDFS для обработки данных
Навыки написания и запуска простой программы, использующей концепцию MapReduce. Как определить функции Map и Reduce, передать данные между ними, обработать и интерпретировать результаты. Работа с различными типами данных. Решение задач по подсчету количества слов в тексте, нахождению наиболее часто встречающихся слов, агрегации данных и вычислению статистических показателей
Создание запросов на языке HiveQL, анализ данных и выполнение сложных операций
Создание и отправка задач на выполнение в кластере. Использование инструментов мониторинга в YARN для отслеживания состояния задач, обнаружения ошибок и оптимизации производительности
Процесс записи и чтения данных в Parquet/ORC, а также возможности оптимизации запросов и сжатия данных
Чтение и запись данных из различных источников, таких как файлы и другие. Применение методов преобразования данных и агрегации. Использование распределенных вычислений в Spark для обработки больших объемов данных
Изучение основных методов работы с данными в GreenPlum: создание таблиц, загрузка данных, выполнение запросов и агрегация данных. Применение возможностей работы с различными типами данных. Изучение методов оптимизации работы с GreenPlum, включая создание индексов, разделение данных и оптимизацию запросов
Изучение основных методов работы с данными в ClickHouse: создание таблиц, загрузка данных, выполнение запросов и агрегация данных. Применение возможностей работы с различными типами данных. Изучение методов оптимизации работы с ClickHouse, включая создание индексов, разделение данных и оптимизацию запросов
Создание и настройка отчетов, визуализация данных, фильтрация и сортировка данных, работа с различными типами графиков и диаграмм. Анализ данных в DataLens: создание сводных таблиц
Создание рабочих процессов с помощью AirFlow, включая определение задач, настройку расписания выполнения, определение зависимостей и передачу данных между задачами
Изучение записи и чтения сообщений, масштабирования и отказоустойчивости, обработки потоков данных и обеспечения гарантированной доставки сообщений. Создание системы обмена сообщениями с использованием Apache Kafka, включая настройку брокеров и топиков, определение производителей и потребителей, управление партициями и репликацией данных
Изучение чтения и обработки потоков данных, преобразования данных, агрегации. Создание систем анализа потоков данных с помощью Spark Streaming, включая настройку и конфигурацию, определение и применение операций на потоках данных
Проектирование логической архитектуры хранилищ данных, включая выбор и организацию компонентов, определение потоков данных и их трансформаций, настройку и конфигурацию системы
Создание и использование стандартов и метаданных, а также их роль в обеспечении качества данных
Знание основных трендов и популярных на данный момент инструментов