2022/2023
Методы и системы обработки больших данных
Статус:
Маго-лего
Кто читает:
Департамент электронной инженерии
Когда читается:
1, 2 модуль
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Горбунов Иван Викторович
Язык:
русский
Кредиты:
7
Контактные часы:
60
Программа дисциплины
Аннотация
В современной инженерии программного обеспечения есть огромный разрыв между привычными методами разработки, применимыми в рамках малых и средних компаний и проектов, где используются хорошо изученные практики управления и обработки данных в рамках от одного до десятка серверов одной сети, с одной стороны, и методами, которые избыточны на малых объемах данных, но являются неотъемлемой частью программной архитектуры, когда количество серверов начинает изменяться сотнями, а количество обрабатывания данных в день терабайтами. Изучение дисциплины сокращает этот разрыв, предоставляя знания и обучая навыкам обработки данных в условия распределенной системы хранения и обработки информации.
В дисциплине показаны основные источники больших данных в реальном мире: данные о людях, организациях и сенсорах. Отдельно выделено умение разбираться в 6 главных критериях оценки больших данных: объеме, скорости изменении, разнообразии, достоверности, связности и значимости. Набор изучаемых методов, программных комплексов и систем обработки больших данных, охватывают все главные этапы жизненного цикла обработки данных: накопление, хранение, отслеживание изменений и анализ.
Цель освоения дисциплины
- С современными методами и системами обработки больших данных, получить навыки по настройке и эксплуатации готовых программных комплексов. Освоить знания, позволяющие проводить обоснованный выбор программных и аппаратных средств по накоплению и обработке больших данных в целях решения инженерных и бизнес-задач.
- Программно-аппаратные комплексы интернета вещей, так же как и киберфизические системы оперируют и производят большие по объему потоки данных, которые необходимо уметь корректно и в заданное время обрабатывать и, при необходимости, хранить.
Планируемые результаты обучения
- Владеть: навыками использования и настройки современных средств сбора больших данных (Elasticsearch, Logstash и Kibana), компетенциями по использованию и разработке под архитектуры распределённой обработки больших данных (MapReduce, Hadoop, Spark).
- Знать: критерии полезности накопления больших данных, парадигмы к накоплению и обработке больших данных, способы отбора информативных атрибутов.
- Уметь: выбирать средства и подходы к накоплению больших данных в реляционных и NoSql базах данных, базах данных на основе временных рядов и графовых базах данных, определять оптимальные пути обработки больших данных в рамках заданных временных и финансовых ограничений, минимизировать эффекты накопления ошибок и выявлять ложные выборочные корреляции.
Содержание учебной дисциплины
- Общие определения и принципы работы с большими данными
- Архитектура обработки больших Данных MapReduce в рамках платформы Hadoop
- Главные подходы и архитектуры обработки больших данных
- Обработка данных в оперативной памяти на примере Apache Spark
- Хранение редко используемых данных на кластере Hadoop и их анализ
- Накопление и обработка потоковых данных из веб-систем и систем промышленного интернета вещей
- Визуализация больших данных
Элементы контроля
- ТеорияОценка остаточных знаний по теоретической части учебной дисциплины
- ПрактикаДля прохода блокирующего порога необходимо сдать не менее 5 практических работ не менее чем на 3 балла каждая
- Экзамен
Промежуточная аттестация
- 2022/2023 учебный год 2 модуль0.225 * Практика + 0.45 * Экзамен + 0.1 * Теория
Список литературы
Рекомендуемая основная литература
- Большие данные : принципы и практика построения масштабируемых систем обработки данных в реальном времени, Марц, Н., 2017
- Сенько А.В. - Работа с BigData в облаках. Обработка и хранение данных с примерами из Microsoft Azure - 978-5-4461-0578-6 - Санкт-Петербург: Питер - 2019 - 359208 - https://ibooks.ru/bookshelf/359208/reading - iBOOKS
Рекомендуемая дополнительная литература
- Риза С., Лезерсон У., Оуэн Ш., Уиллс Д. - Spark для профессионалов: современные паттерны обработки больших данных - 978-5-496-02401-3 - Санкт-Петербург: Питер - 2017 - 354385 - https://ibooks.ru/bookshelf/354385/reading - iBOOKS