Магистратура
2020/2021
Обработка больших данных
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс по выбору (Программирование и анализ данных)
Направление:
01.04.02. Прикладная математика и информатика
Кто читает:
Департамент информатики
Когда читается:
2-й курс, 2 модуль
Формат изучения:
с онлайн-курсом
Преподаватели:
Кузнецов Антон Михайлович
Прогр. обучения:
Программирование и анализ данных
Язык:
английский
Кредиты:
4
Контактные часы:
4
Course Syllabus
Abstract
Существует значительное количество задач, когда нам нужно не просто обработать огромный объем данных, но и обработать его как можно быстрее. Задержки в прогнозировании цунами могут стоить жизни людям. Задержки в прогнозировании пробок требуют дополнительного времени. Рекламные объявления, основанные на активности последних пользователей, в десять раз популярнее. Однако одних методов потоковой обработки недостаточно для создания полноценной системы реального времени. Например, для создания системы рекомендаций нам необходимо иметь хранилище, которое позволяет хранить и извлекать данные для пользователя с минимальной задержкой. Эти базы данных должны быть способны хранить сотни терабайт данных, обрабатывать миллиарды запросов в день и обеспечивать 100% бесперебойную работу. Базы данных NoSQL обычно используются для решения этой сложной проблемы. После того, как вы закончите этот курс, вы освоите системы обработки потоков и базы данных NoSQL. Вы также узнаете, как использовать такие популярные и мощные системы, как Kafka, Cassandra и Redis. Чтобы получить максимальную отдачу от этого курса, вам нужно знать Hadoop и SQL. Вы также должны иметь практические знания bash, Python и Spark.
Learning Objectives
- освоение системы обработки потоков и базы данных NoSQL. Получение навыка использования систем Kafka, Cassandra и Redis.
Expected Learning Outcomes
- Знает основные определения и понятия потоковой обработки больших данных
- Знает основы обработки данных в реальном времени
- работает с Spark Streaming. Знает основные понятия и процессы.
- работает с NoSQL. Cassandra. Знает основные понятия и процессы NoSQL. Cassandra
- работает с NoSQL. Redis. Знает основные понятия и процессы NoSQL. Redis
Course Contents
- Введение в курс «Приложения для работы с большими данными: потоковая передача в реальном времени»
- Основы обработки данных в реальном времени
- Spark Streaming
- NoSQL. Cassandra
- NoSQL. Redis
Assessment Elements
- решение задач курса
- экзаменЭкзамен проводится на платформе Zoom. Экзамен проводится в устной форме (опрос по материалам курса). По просьбе преподавателя студент должен быть готов выполнить некоторые задания в письменном виде, после чего сфотографировать и выслать на почту преподавателю. К экзамену необходимо подключиться согласно расписанию, высланному преподавателем на корпоративные почты студентов накануне экзамена. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка платформы Zoom. Для участия в экзамене студент обязан: выбрать себе имя в Zoom совпадающее с его именем и фамилией, явиться на экзамен согласно точному расписанию, при ответе включить камеру и микрофон. Во время экзамена студентам запрещается выключать камеру. Ипользование конспектов или других справочных материалов допускается только с разрешения преподавателя. Кратковременным нарушением связи во время экзамена считается нарушение связи менее 5 минут. Долговременным нарушением связи во время экзамена считается нарушение 5 минут и более. При долговременном нарушении связи возможность продолжения студентом участие в экзамене определяется преподавателем. Процедура пересдачи подразумевает использование усложненных заданий.
Bibliography
Recommended Core Bibliography
- Zimmermann, T., Menzies, T., & Bird, C. (2015). The Art and Science of Analyzing Software Data. Amsterdam: Morgan Kaufmann. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=593414
Recommended Additional Bibliography
- Kelleher, J. D. (2019). Deep Learning. Cambridge: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2234376