• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2022/2023

Методы и системы обработки больших данных

Направление: 11.04.02. Инфокоммуникационные технологии и системы связи
Когда читается: 2-й курс, 1, 2 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для всех кампусов НИУ ВШЭ
Преподаватели: Горбунов Иван Викторович
Прогр. обучения: Интернет вещей и киберфизические системы
Язык: русский
Кредиты: 7
Контактные часы: 60

Программа дисциплины

Аннотация

В современной инженерии программного обеспечения есть огромный разрыв между привычными методами разработки, применимыми в рамках малых и средних компаний и проектов, где используются хорошо изученные практики управления и обработки данных в рамках от одного до десятка серверов одной сети, с одной стороны, и методами, которые избыточны на малых объемах данных, но являются неотъемлемой частью программной архитектуры, когда количество серверов начинает изменяться сотнями, а количество обрабатывания данных в день терабайтами. Изучение дисциплины сокращает этот разрыв, предоставляя знания и обучая навыкам обработки данных в условия распределенной системы хранения и обработки информации. В дисциплине показаны основные источники больших данных в реальном мире: данные о людях, организациях и сенсорах. Отдельно выделено умение разбираться в 6 главных критериях оценки больших данных: объеме, скорости изменении, разнообразии, достоверности, связности и значимости. Набор изучаемых методов, программных комплексов и систем обработки больших данных, охватывают все главные этапы жизненного цикла обработки данных: накопление, хранение, отслеживание изменений и анализ.
Цель освоения дисциплины

Цель освоения дисциплины

  • С современными методами и системами обработки больших данных, получить навыки по настройке и эксплуатации готовых программных комплексов. Освоить знания, позволяющие проводить обоснованный выбор программных и аппаратных средств по накоплению и обработке больших данных в целях решения инженерных и бизнес-задач.
  • Программно-аппаратные комплексы интернета вещей, так же как и киберфизические системы оперируют и производят большие по объему потоки данных, которые необходимо уметь корректно и в заданное время обрабатывать и, при необходимости, хранить.
Планируемые результаты обучения

Планируемые результаты обучения

  • Владеть: навыками использования и настройки современных средств сбора больших данных (Elasticsearch, Logstash и Kibana), компетенциями по использованию и разработке под архитектуры распределённой обработки больших данных (MapReduce, Hadoop, Spark).
  • Знать: критерии полезности накопления больших данных, парадигмы к накоплению и обработке больших данных, способы отбора информативных атрибутов.
  • Уметь: выбирать средства и подходы к накоплению больших данных в реляционных и NoSql базах данных, базах данных на основе временных рядов и графовых базах данных, определять оптимальные пути обработки больших данных в рамках заданных временных и финансовых ограничений, минимизировать эффекты накопления ошибок и выявлять ложные выборочные корреляции.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Общие определения и принципы работы с большими данными
  • Архитектура обработки больших Данных MapReduce в рамках платформы Hadoop
  • Главные подходы и архитектуры обработки больших данных
  • Обработка данных в оперативной памяти на примере Apache Spark
  • Хранение редко используемых данных на кластере Hadoop и их анализ
  • Накопление и обработка потоковых данных из веб-систем и систем промышленного интернета вещей
  • Визуализация больших данных
Элементы контроля

Элементы контроля

  • неблокирующий Теория
    Оценка остаточных знаний по теоретической части учебной дисциплины
  • блокирует часть оценки/расчета Практика
    Для прохода блокирующего порога необходимо сдать не менее 5 практических работ не менее чем на 3 балла каждая
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 2 модуль
    0.225 * Практика + 0.45 * Экзамен + 0.1 * Теория
Список литературы

Список литературы

Рекомендуемая основная литература

  • Большие данные : принципы и практика построения масштабируемых систем обработки данных в реальном времени, Марц, Н., 2017
  • Сенько А.В. - Работа с BigData в облаках. Обработка и хранение данных с примерами из Microsoft Azure - 978-5-4461-0578-6 - Санкт-Петербург: Питер - 2019 - 359208 - https://ibooks.ru/bookshelf/359208/reading - iBOOKS

Рекомендуемая дополнительная литература

  • Риза С., Лезерсон У., Оуэн Ш., Уиллс Д. - Spark для профессионалов: современные паттерны обработки больших данных - 978-5-496-02401-3 - Санкт-Петербург: Питер - 2017 - 354385 - https://ibooks.ru/bookshelf/354385/reading - iBOOKS