• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Data Analysis in Business

2020/2021
Academic Year
ENG
Instruction in English
5
ECTS credits
Delivered at:
Joint Department with SAS
Course type:
Elective course
When:
3 year, 3, 4 module

Instructors


Dudnikov, Konstantin


Егоров Ян Денисович

Course Syllabus

Abstract

Data mining is increasingly being used in various sectors of the economy. Mathematical methods are being improved, new models and approaches for solving applied business problems are being developed. At the same time, the practical application of data mining methods in business requires specialized knowledge and skills. The purpose of this course is to review modern approaches, tools and methods of data mining used in such applied areas as customer analytics, risk management and retail network organization. The training is based not only on the study of relevant mathematical models and algorithms, but also on the consideration of examples of their real application in these areas, which will allow students to study the entire life cycle of the analytical model, from the stage of requirements formation and data preparation to the stage of implementation and operation.
Learning Objectives

Learning Objectives

  • Getting an idea of the specifics of data analysis tasks in business, taking into account the specifics of different sectors of the economy, getting acquainted with specific examples of business tasks that use data analysis
  • Familiarity with specialized SAS software for solving tasks in the course.
Expected Learning Outcomes

Expected Learning Outcomes

  • Ключевые показатели эффективности и основные метрики операционной и финансовой деятельности, используемые в разных отраслях экономики, отраслевую и функциональ-ную специфику реализации задач анализа данных в бизнесе.
  • Основные формулировки, особенности и характеристики прикладных задач анализа дан-ных в бизнесе, возникающих в области клиентской аналитики, в розничных сетях про-даж товаров и при анализе и оценке рисков.
  • Математические методы и модели для решения задач анализа данных в бизнесе, возни-кающих в области клиентской аналитики, в розничных сетях продаж товаров и при анализе и оценке рисков, принципы проверки и представления результата решения этих задач.
  • Семейство программных технологий SAS для обработки и анализа данных, включая про-граммные продукты SAS для загрузки и предобработки данных, интерактивного исследования данных, построения и применения прогнозных и описательных моделей
  • Формулировать, решать и оценивать результат решения задач анализа данных в бизнесе, возникающих в области клиентской аналитики, в розничных сетях продаж товаров и при анализе и оценке рисков и в других отраслях экономики.
  • Использовать программные средства загрузки, обработки, визуализации и интерактивно-го исследования данных, а также строить и применять на практике описательные и про-гнозные модели интеллектуального анализа данных и машинного обучения с использованием
  • Ключевые показатели эффективности и основные метрики операционной и финансовой деятельности, используемые в разных отраслях экономики, отраслевую и функциональ-ную специфику реализации задач анализа данных в бизнесе.
  • Оформлять и представлять свои результаты в виде бизнес-презентации.
  • Использовать программные средства загрузки, обработки, визуализации и интерактивно-го исследования данных, а также строить и применять на практике описательные и про-гнозные модели интеллектуального анализа данных и машинного обучения с использованием
Course Contents

Course Contents

  • Клиентская аналитика
    Лекция 1: Введение в клиентскую аналитику. (2 часа). Цели и задачи клиентской аналитики. Понятие путешествия клиента в розничной торговле и почему важно управлять путешествием клиента в омниканальной среде. Клиентская аналитика в разных индустриях: Розница,Онлайн, Банк, Телеком и тд.. Обзор этапов развития клиентской аналитики. Решения и инструменты клиентской аналитики. Сквозной бизнес-процесс клиент-ской аналитики. Финансовое обоснование проектов. Практическое занятие 1: Введение в клиентскую аналитику.(2 часа). Работа с данными для подготовки к моделированию. Подготовка ABT- витрин для кластеризации магазинов и построения модели MBA. Лекция 2: Построение моделей и визуализация данных. (2 часа) Обзор подходов к анализу данных, визуализация данных, предсказательное моделирование, методология анализа, сегментация, построение экспериментов. Практическое занятие 2: Построение моделей и визуализация данных.(2 часа). Работа с Visual Statistics: анализ качества данных, кластеризация, деревья решений, регрессия. Лекция 3: Обогащение информации о клиентах с помощью текстовой аналитики на основе машинного обучения. (2 часа) Анализ текста и Data mining. Обогащение данных в CRM. Контекстно-семантический анализ. Lifestyle- сегментация на основе обогащенных данных из внешних источников. Персонализация предложений. Ключевые эффекты, которые приносит обогащение данных. Практическое занятие 3: Обогащение информации о клиентах с помощью текстовой аналитики.(2 часа) Тематическое моделирование. Разбор бизнес-кейсов: категоризация данных собранных из внешних источников : соц. сети, статьи в СМИ, комментарии и отзывы; категоризация обращений клиентов в колл-центр и распределение их по специалистам соответствующих направлений. Выявление типовых проблем на основе собранных данных.
  • Задачи анализа данных в розничных сетях продаж товаров
    Лекция 1: Введение в задачи анализа данных в ритейле. (2 часа) Структура Ритейл-компаний, как элемента цепочки поставок; ключевые KPI компании, логистические KPI ритейл-компаний; задача прогнозирование спроса и использование прогноза спроса в различных бизнес-процессах, кластериза-ция магазинов, оптимизация запасов, ценообразование. Практическое занятие 1:Введение в задачи анализа данных в ритейле. (2 часа). Задача восстановления спроса, прогнозирование спроса на новые товары. Лекция 2: Задачи оптимизации ассортимента и запасов товаров в ритейл-сети. (2 часа) Постановка задача оптимизации ассортимента, постановка в виде задачи ML. Основные ограничения при определении ассортимента ТТ. Постановки задачи оптимизации запасов в сети. Основные стратегии при оптимизации запасов в сети (ss, bs). Мультиэшелонный подход, эффект хлыста. Практическое занятие 2: Задачи оптимизации ассортимента и запасов товаров в ритейл-сети. (2 часа) Решение задачи кластеризации магазинов для управления ассортиментом сети. Реализация алгоритма оптимального распределение товаров в сети с целью уменьшения оборачиваемости. Тема 3: Оптимизация цен, прогнозирование объёмов промо. (2 часа) Задача оптимизации цен. Модели эластичности спроса. Примеры каузальных переменных для модели эластичности спроса. Бизнес-ограничения при оптимизации цен. Задача прогнозирования промо в сети, постановка в виде задачи ML. Практическое занятие 3: Оптимизация цен, прогнозирование объёмов промо.(2 часа). Решение задачи расчёта эластичности спроса на реальных данных. Пример решения задачи прогнозирования объёмов промо в ритейл сети, постановка в виде задачи ML.
  • Основы оценки рисков
    Лекция 1: Введение: роль оценки рисков в управлении рисками. Понятие о кредитном риске (2 часа). Виды кредитного риска, виды задач в управлении кредитным риском. Виды данных для кредитного анализа. Предварительная обработка данных: фильтрация и заполнение пропусков; виды пропусков (MCAR, MAR, MNAR); «ошибка выжившего» и другие ошибки, связанные с игнорированием особенностей данных. Выбор переменных для анализа. Требования к модели кредитного анализа: точность, устойчивость, прозрачность. Модели в кредитном анализе: обобщённые линейные модели, деревья решений, модели интенсивности дефолта. Портфельный подход. Учёт макроэкономических и других внешних факторов. Практическое занятие 1: Введение: роль оценки рисков в управлении рисками. Понятие о кредитном риске (2 часа). Загрузка данных в среду SAS. Типичные преобразования данных для кредитного анализа в SAS: фильтрация, заполнение пропусков, нормализация (например, преобразование WOE), визуализация данных. Интерактивный выбор переменных в SAS (fine classing, coarse classing). Анализ отказанных заявок (Reject Inference). Оценка основных моделей для кредитного анализа. Лекция 2: Понятие о рыночном риске. (2 часа) Меры рыночного риска. Value-at-Risk и основные методы его оценки: дельта-нормальный, исторический и модельный. Основы портфельной арифметики. Базовые модели для оценки рыночного риска: факторные модели, GARCH, «тяжёлые хвосты». Практическое занятие 2: Понятие о рыночном риске. (2 часа). Загрузка рыночных данных в среду SAS. Типичные преобразования рыночных данных в SAS: вычисление доходностей, их средних значений и волатильностей, заполнение пропусков, визуализация рядов рыночных данных. Оценка Value-at-Risk дельта-нормальным, историческим и модельным методами. Оценка параметров стохастического процесса по рыночным данным. Лекция 3 : Понятие о валидации моделей оценки риска. (2 часа) Валидация моделей оценки рыночного риска. Бэктестинг Value-at-Risk. Концепция скользящего окна. Проверка гипотез об уровне покрытия и о независимости пробитий VaR. Валидация моделей кредитного риска. Показатели качества модели. Статистические тесты стабильности выборки (PSI анализ, анализ gini во времени). Мониторинг модели во времени. Практическое занятие 3: Понятие о валидации моделей оценки риска. (2 часа). Статистические тесты в SAS. Программа для расчёта последовательности пробитий.Программа в SAS
  • Командный проект
    Студенты самостоятельно записываются на один из предложенных проектов и в течение всего 4-го модуля выполняют их. Очные практические занятия проходят в группах студентов, выбравших один и тот же проект. На практических занятиях в компьютерном классе студенты начинают основные этапы работы по проекту под руководством специалиста-практика. При необходимости в занятие включается теоретическая информация.
  • Техника презентации
    Лекция: Общие принципы построения эффективных презентаций. (2 часа) Практическое занятие (2 часа): групповое обсуждение конкретных презентаций.
  • Отраслевая специфика и прикладные аспекты задач анализа данных
    Лекция 1: Введение: роль Data Scientist в современной организации: задачи, организационная структура, перспективы. (2 часа) Как устроен бизнес и где в нем Data Scientist. Зачем аналитику менеджмент? Жизненный цикл организации. Жизненный цикл продукта. Наиболее распространенные виды организационной структуры (линейная, линейно-штабная, функциональная, дивизиональная, матричная). Специфика работы глобальных компаний, государственных предприятий и малого бизнеса. Цели существования бизнеса. Конфликт интересов между менеджментом и собственником. Лекция 2: Основы МСФО для Data Science (2 часа) Зачем аналитику понимание отчетности? Роль финансов и финансовой отчетности в процессе принятия решений. МСФО. Базовые принципы. Баланс, отчет о прибылях и убытках, отчет о движении денежных средств. Связь между формами отчетности. Основные финансовые показатели. Лекция 3: Задачи анализа данных в розничной торговле. (2 часа) Основные термины и бизнес-модель отрасли. Операционная модель компа-нии. Ключевые показатели эффективности отрасли. Задачи анализа данных в розничной торговле. Частые проблемы и перспективные задачи. Лекция 4: Задачи анализа данных в транспорте, телекоммуникациях и ИТ. (2 часа) Основные термины и бизнес-модель отрасли. Операционная модель компании. Ключевые пока-затели эффективности отрасли. Задачи анализа данных в транспорте, телекоммуникациях и ИТ. Частые проблемы и перспективные задачи. Лекция 5: Задачи анализа данных в добывающей промышленности и энергетике. (2 часа) Основные термины и бизнес-модель отрасли. Операционная модель компа-нии. Ключевые показатели эффективности отрасли. Задачи анализа данных в добывающей промышленности и энергетике. Частые проблемы и перспектив-ные задачи. Лекция 6: Задачи анализа данных в обрабатывающей промышленности (2 часа) Основные термины и бизнес-модель отрасли. Операционная модель компании. Ключевые показатели эффективности отрасли. Задачи анализа данных в обрабатывающей промышленности. Частые проблемы и перспективные задачи. Лекция 7: Задачи анализа данных в финансовом секторе (2 часа) Основные термины и бизнес-модель отрасли. Операционная модель компании. Ключевые показатели эффективности отрасли. Задачи анализа данных в финансовом секторе. Частые проблемы и перспективные задачи. Лекция 8: Задачи анализа данных в сельском хозяйстве (2 часа) Основные термины и бизнес-модель отрасли. Операционная модель компании. Ключевые показатели эффективности отрасли. Задачи анализа данных в сельском хозяйстве. Частые проблемы и перспективные задачи.
Assessment Elements

Assessment Elements

  • non-blocking Контрольная работа №1
  • non-blocking Контрольная работа №2
  • non-blocking Контрольная работа №3
  • non-blocking Практический проект (Командный проект)
  • non-blocking Экзамен
    Экзамен проводится дистанционно в формате компьютерного теста. Ссылка на тест будет выслана студентам перед началом экзамена.
Interim Assessment

Interim Assessment

  • Interim assessment (4 module)
    0.1 * Контрольная работа №1 + 0.1 * Контрольная работа №2 + 0.1 * Контрольная работа №3 + 0.5 * Практический проект (Командный проект) + 0.2 * Экзамен
Bibliography

Bibliography

Recommended Core Bibliography

  • Elements of financial risk management, Christoffersen, P. F., 2012
  • Математическая статистика : учеб. пособие для вузов, Ивченко, Г. И., 1992
  • Моделирование цепи поставок, Шапиро, Дж., 2006
  • Теория вероятностей и математическая статистика. Оценка параметров распределений : учебное пособие, Иванов, А. В., 2009

Recommended Additional Bibliography

  • Риск-менеджмент, учебно-методическое пособие, 77 с., Вайсблат, Б. И., 2004