Магистратура
2020/2021
Распределенная обработка и анализ больших данных
Статус:
Курс обязательный (Анализ больших данных в бизнесе, экономике и обществе)
Направление:
01.04.02. Прикладная математика и информатика
Кто читает:
Департамент информатики
Когда читается:
2-й курс, 2, 3 модуль
Формат изучения:
с онлайн-курсом
Преподаватели:
Шпильман Алексей Александрович
Прогр. обучения:
Анализ больших данных в бизнесе, экономике и обществе
Язык:
английский
Кредиты:
6
Контактные часы:
32
Course Syllabus
Abstract
Настоящая дисциплина относится к циклу дисциплин по выбору студента. Изучение данной дисциплины базируется на следующих дисциплинах: • «Современные методы анализа данных», • «Математические основы анализа данных», • «Практическое программирование и анализ данных в специализированных средах». Для освоения учебной дисциплины, студенты должны владеть следующими знаниями и компетенциями: • Способность рефлексировать (оценивать и перерабатывать) освоенные методы и способы деятельности; • Способность к самостоятельному освоению новых методов исследований, изменению научного и производственного профиля своей деятельности; • Способность анализировать, верифицировать, оценивать полноту информации в ходе про-фессиональной деятельности, при необходимости восполнять и синтезировать недостаю-щую информацию; • Способность создавать, описывать и ответственно контролировать выполнение технологи-ческих требований и нормативных документов профессиональной деятельности; • Способность использовать в профессиональной деятельности знания в области естествен-ных наук, математики и информатики, понимание основных фактов, концепций, принципов теорий, связанных с прикладной математикой и информатикой; • Способность строить и решать математические модели в соответствии с направлением подготовки и специализацией. Основные положения дисциплины могут быть использованы в дальнейшем при написании ВКР и обучении в аспирантуре.
Learning Objectives
- ознакомление студентов с основными методами обработки больших данных
- формирование понимания внутреннего устройства, механики работы, области применимости существующих решений
- получение студентами практических навыков анализа больших массивов информации
Expected Learning Outcomes
- Знает общие понятия дисциплины.
- Знает базы данных и СУБД. SQL и NoSQL.
- Знает модельMapReduce. Владеет понятием потоков данных.
- Знает основы систем Hadoop, Sparkand
- Владеет понятием алгоритмов на больших данных (кластеризация, понижение размерности, популярные предметные наборы и ассоциативные правила)
- Владеет понятием алгоритмов на больших данных (рекомендательные системы и интернет-реклама)
- Владеет понятием алгоритмов на больших данных (анализ и обработка данных из социальных сетей)
- способен применять алгоритмы обработки больших данных в задачах принятия решений. Владеет понятием архитектуры систем обработки больших данных
Course Contents
- Введение в анализ больших дан-ных. Как алгоритмы для больших данных отличаются от обычных?
- Базы данных и СУБД. SQL и NoSQL.
- МодельMapReduce. Потоки данных.
- Основы систем Hadoop, Sparkand других.
- Алгоритмы на больших данных: Кластеризация, понижение размер-ности, популярные предметные наборы и ассоциативные правила.
- Алгоритмы на больших данных: Рекомендательные системы и интернет-реклама
- Алгоритмы на больших данных: анализ и обработка данных из социальных сетей
- Применения алгоритмов обработки больших данных в задачах принятия решений. Архитектура систем обработки больших данных
Assessment Elements
- Контрольная работа
- Домашнее задание
- ЭкзаменЭкзамен проводится на платформе Zoom. Экзамен проводится в устной форме (опрос по материалам курса). По просьбе преподавателя студент должен быть готов выполнить некоторые задания в письменном виде, после чего сфотографировать и выслать на почту преподавателю. К экзамену необходимо подключиться согласно расписанию, высланному преподавателем на корпоративные почты студентов накануне экзамена. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка платформы Zoom. Для участия в экзамене студент обязан: выбрать себе имя в Zoom совпадающее с его именем и фамилией, явиться на экзамен согласно точному расписанию, при ответе включить камеру и микрофон. Во время экзамена студентам запрещается выключать камеру. Ипользование конспектов или других справочных материалов допускается только с разрешения преподавателя. Кратковременным нарушением связи во время экзамена считается нарушение связи менее 5 минут. Долговременным нарушением связи во время экзамена считается нарушение 5 минут и более. При долговременном нарушении связи возможность продолжения студентом участие в экзамене определяется преподавателем. Процедура пересдачи подразумевает использование усложненных заданий.
Interim Assessment
- Interim assessment (3 module)0.2 * Домашнее задание + 0.2 * Контрольная работа + 0.6 * Экзамен
Bibliography
Recommended Core Bibliography
- Guller, M. (2015). Big Data Analytics with Spark : A Practitioner’s Guide to Using Spark for Large Scale Data Analysis. [Berkeley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1174460
Recommended Additional Bibliography
- Barga, R., Tok, W.-H., & Fontama, V. (2015). Predictive Analytics with Microsoft Azure Machine Learning 2nd Edition (Vol. Second edition). [Berkley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1057093