• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site
Master 2020/2021

Distributed Processing and Big Data Analysis

Type: Compulsory course (Big Data Analysis in Business, Economy, and Society)
Area of studies: Applied Mathematics and Informatics
Delivered by: Department of Informatics
When: 2 year, 2, 3 module
Mode of studies: distance learning
Instructors: Aleksei Shpilman
Master’s programme: Big Data Analysis for Business, Economy, and Society
Language: English
ECTS credits: 6
Contact hours: 32

Course Syllabus

Abstract

Настоящая дисциплина относится к циклу дисциплин по выбору студента. Изучение данной дисциплины базируется на следующих дисциплинах: • «Современные методы анализа данных», • «Математические основы анализа данных», • «Практическое программирование и анализ данных в специализированных средах». Для освоения учебной дисциплины, студенты должны владеть следующими знаниями и компетенциями: • Способность рефлексировать (оценивать и перерабатывать) освоенные методы и способы деятельности; • Способность к самостоятельному освоению новых методов исследований, изменению научного и производственного профиля своей деятельности; • Способность анализировать, верифицировать, оценивать полноту информации в ходе про-фессиональной деятельности, при необходимости восполнять и синтезировать недостаю-щую информацию; • Способность создавать, описывать и ответственно контролировать выполнение технологи-ческих требований и нормативных документов профессиональной деятельности; • Способность использовать в профессиональной деятельности знания в области естествен-ных наук, математики и информатики, понимание основных фактов, концепций, принципов теорий, связанных с прикладной математикой и информатикой; • Способность строить и решать математические модели в соответствии с направлением подготовки и специализацией. Основные положения дисциплины могут быть использованы в дальнейшем при написании ВКР и обучении в аспирантуре.
Learning Objectives

Learning Objectives

  • ознакомление студентов с основными методами обработки больших данных
  • формирование понимания внутреннего устройства, механики работы, области применимости существующих решений
  • получение студентами практических навыков анализа больших массивов информации
Expected Learning Outcomes

Expected Learning Outcomes

  • Знает общие понятия дисциплины.
  • Знает базы данных и СУБД. SQL и NoSQL.
  • Знает модельMapReduce. Владеет понятием потоков данных.
  • Знает основы систем Hadoop, Sparkand
  • Владеет понятием алгоритмов на больших данных (кластеризация, понижение размерности, популярные предметные наборы и ассоциативные правила)
  • Владеет понятием алгоритмов на больших данных (рекомендательные системы и интернет-реклама)
  • Владеет понятием алгоритмов на больших данных (анализ и обработка данных из социальных сетей)
  • способен применять алгоритмы обработки больших данных в задачах принятия решений. Владеет понятием архитектуры систем обработки больших данных
Course Contents

Course Contents

  • Введение в анализ больших дан-ных. Как алгоритмы для больших данных отличаются от обычных?
  • Базы данных и СУБД. SQL и NoSQL.
  • МодельMapReduce. Потоки данных.
  • Основы систем Hadoop, Sparkand других.
  • Алгоритмы на больших данных: Кластеризация, понижение размер-ности, популярные предметные наборы и ассоциативные правила.
  • Алгоритмы на больших данных: Рекомендательные системы и интернет-реклама
  • Алгоритмы на больших данных: анализ и обработка данных из социальных сетей
  • Применения алгоритмов обработки больших данных в задачах принятия решений. Архитектура систем обработки больших данных
Assessment Elements

Assessment Elements

  • non-blocking Контрольная работа
  • non-blocking Домашнее задание
  • blocking Экзамен
    Экзамен проводится на платформе Zoom. Экзамен проводится в устной форме (опрос по материалам курса). По просьбе преподавателя студент должен быть готов выполнить некоторые задания в письменном виде, после чего сфотографировать и выслать на почту преподавателю. К экзамену необходимо подключиться согласно расписанию, высланному преподавателем на корпоративные почты студентов накануне экзамена. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка платформы Zoom. Для участия в экзамене студент обязан: выбрать себе имя в Zoom совпадающее с его именем и фамилией, явиться на экзамен согласно точному расписанию, при ответе включить камеру и микрофон. Во время экзамена студентам запрещается выключать камеру. Ипользование конспектов или других справочных материалов допускается только с разрешения преподавателя. Кратковременным нарушением связи во время экзамена считается нарушение связи менее 5 минут. Долговременным нарушением связи во время экзамена считается нарушение 5 минут и более. При долговременном нарушении связи возможность продолжения студентом участие в экзамене определяется преподавателем. Процедура пересдачи подразумевает использование усложненных заданий.
Interim Assessment

Interim Assessment

  • Interim assessment (3 module)
    0.2 * Домашнее задание + 0.2 * Контрольная работа + 0.6 * Экзамен
Bibliography

Bibliography

Recommended Core Bibliography

  • Guller, M. (2015). Big Data Analytics with Spark : A Practitioner’s Guide to Using Spark for Large Scale Data Analysis. [Berkeley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1174460

Recommended Additional Bibliography

  • Barga, R., Tok, W.-H., & Fontama, V. (2015). Predictive Analytics with Microsoft Azure Machine Learning 2nd Edition (Vol. Second edition). [Berkley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1057093