• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2020/2021

Обработка больших данных

Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус: Курс по выбору (Программирование и анализ данных)
Направление: 01.04.02. Прикладная математика и информатика
Когда читается: 2-й курс, 2 модуль
Формат изучения: с онлайн-курсом
Прогр. обучения: Программирование и анализ данных
Язык: английский
Кредиты: 4
Контактные часы: 4

Course Syllabus

Abstract

Существует значительное количество задач, когда нам нужно не просто обработать огромный объем данных, но и обработать его как можно быстрее. Задержки в прогнозировании цунами могут стоить жизни людям. Задержки в прогнозировании пробок требуют дополнительного времени. Рекламные объявления, основанные на активности последних пользователей, в десять раз популярнее. Однако одних методов потоковой обработки недостаточно для создания полноценной системы реального времени. Например, для создания системы рекомендаций нам необходимо иметь хранилище, которое позволяет хранить и извлекать данные для пользователя с минимальной задержкой. Эти базы данных должны быть способны хранить сотни терабайт данных, обрабатывать миллиарды запросов в день и обеспечивать 100% бесперебойную работу. Базы данных NoSQL обычно используются для решения этой сложной проблемы. После того, как вы закончите этот курс, вы освоите системы обработки потоков и базы данных NoSQL. Вы также узнаете, как использовать такие популярные и мощные системы, как Kafka, Cassandra и Redis. Чтобы получить максимальную отдачу от этого курса, вам нужно знать Hadoop и SQL. Вы также должны иметь практические знания bash, Python и Spark.
Learning Objectives

Learning Objectives

  • освоение системы обработки потоков и базы данных NoSQL. Получение навыка использования систем Kafka, Cassandra и Redis.
Expected Learning Outcomes

Expected Learning Outcomes

  • Знает основные определения и понятия потоковой обработки больших данных
  • Знает основы обработки данных в реальном времени
  • работает с Spark Streaming. Знает основные понятия и процессы.
  • работает с NoSQL. Cassandra. Знает основные понятия и процессы NoSQL. Cassandra
  • работает с NoSQL. Redis. Знает основные понятия и процессы NoSQL. Redis
Course Contents

Course Contents

  • Введение в курс «Приложения для работы с большими данными: потоковая передача в реальном времени»
  • Основы обработки данных в реальном времени
  • Spark Streaming
  • NoSQL. Cassandra
  • NoSQL. Redis
Assessment Elements

Assessment Elements

  • non-blocking решение задач курса
  • blocking экзамен
    Экзамен проводится на платформе Zoom. Экзамен проводится в устной форме (опрос по материалам курса). По просьбе преподавателя студент должен быть готов выполнить некоторые задания в письменном виде, после чего сфотографировать и выслать на почту преподавателю. К экзамену необходимо подключиться согласно расписанию, высланному преподавателем на корпоративные почты студентов накануне экзамена. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка платформы Zoom. Для участия в экзамене студент обязан: выбрать себе имя в Zoom совпадающее с его именем и фамилией, явиться на экзамен согласно точному расписанию, при ответе включить камеру и микрофон. Во время экзамена студентам запрещается выключать камеру. Ипользование конспектов или других справочных материалов допускается только с разрешения преподавателя. Кратковременным нарушением связи во время экзамена считается нарушение связи менее 5 минут. Долговременным нарушением связи во время экзамена считается нарушение 5 минут и более. При долговременном нарушении связи возможность продолжения студентом участие в экзамене определяется преподавателем. Процедура пересдачи подразумевает использование усложненных заданий.
Interim Assessment

Interim Assessment

  • Interim assessment (2 module)
    0.51 * решение задач курса + 0.49 * экзамен
Bibliography

Bibliography

Recommended Core Bibliography

  • Zimmermann, T., Menzies, T., & Bird, C. (2015). The Art and Science of Analyzing Software Data. Amsterdam: Morgan Kaufmann. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=593414

Recommended Additional Bibliography

  • Kelleher, J. D. (2019). Deep Learning. Cambridge: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2234376