Магистратура
2020/2021
Введение в Data Science
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс обязательный (Экономика впечатлений: менеджмент в индустрии гостеприимства и туризме)
Направление:
38.04.02. Менеджмент
Где читается:
Высшая школа бизнеса
Когда читается:
1-й курс, 3 модуль
Формат изучения:
с онлайн-курсом
Прогр. обучения:
Экономика впечатлений: менеджмент в индустрии гостеприимства и туризме
Язык:
русский
Кредиты:
5
Контактные часы:
24
Программа дисциплины
Аннотация
Программа предназначена для студентов первого года обучения в магистратуре по направлению 38.04.02 «Менеджмент» (программа «Экономика впечатлений: менеджмент в индустрии гостеприимства и туризме»). Дисциплина «Введение в Data Science» знакомит студентов с основными концепциями и методами анализа данных и машинного обучения. Студенты также научатся программировать на языке Python, познакомятся с базовыми приёмами извлечения и обработки данных из сети интернет и различных типов файлов. С использованием онлайн-курса "Основы программирования на Python" (URL: https://www.coursera.org/learn/python-osnovy-programmirovaniya).
Цель освоения дисциплины
- Обучить студентов навыкам программирования на языках Python
- Обучить студентов базовым приёмам извлечения данных из сети интернет и различных типов файлов, и их обработки, необходимым для дальнейшего обучения и в работе по специальности.
- Познакомить студентов с основными концепциями и методами анализа данных и машинного обучения.
Планируемые результаты обучения
- Решает задачи на ввод-вывод и целочисленную арифметику
- Применяет логические выражения, условный оператор, оператор цикла while
- Решает задачи на работу с вещественными числами, применяет функции работы со строками
- Применяет цикл for, функцию range, решает задачи с использованием локальных и глобальных переменных
- Применяет словари, множества, методы работы с отдельными элементами и всеми структурами
- Умеет работать с текстом, файлами csv, электронными таблицами xlsx и листами в них
- Знает основы HTML, получает ресурсы по URLадресу, использует библиотеки для обработки HTML
- Размечает данные с помощью XML, умеет получать геоданные
- Обрабатывает данные в формате json, работает с публичным интерфейсом API
- Визуализирует графики с использованием pyplot, отображает картографическую информацию с помощью API leaflet
- Знает основные определения понятий науки о данных
- Умеет вывести и интерпретировать описательную статистику для выборки. Знает основные определения понятий.
- Отличает основные типы графиков и область их применения
- Умеет использовать пакеты для построения регрессий. Может дать определение MAE, MAPE, MSE, R2.
- Умеет отличать алгоритмы классификации. Понимает область применения алгоритмов классификации и их различие. Умеет считывать PR и ROC-кривые.
- Умеет применять пакеты для работы с текстовыми данными. Умеет применять модель классификации, оценивать качество модели и интерпретировать полученные результаты.
- Знает о применении DS в бизнес-кейсах, отличает и может описать использованные алгоритмы, методы и результаты.
Содержание учебной дисциплины
- АрифметикаВвод-вывод и целочисленная арифметика
- Условный оператор, цикл whileЛогические выражения и условный оператор, оператор цикла while
- Вещественные числа и строкиРабота с вещественными числами, функции работы со строками, срезы
- Цикл for, функцииЦикл for, функция range, функции, локальные и глобальные переменные
- Словари и множестваСловари, множества, методы работы с отдельными элементами и всеми структурами
- Обработка текстовых файлов и электронных таблицРабота с текстом, файлами csv, электронные таблицы xlsx и листы в них, доступ к ячейкам, чтение и запись
- Обработка и создание HTML-страницОсновы HTML, получение ресурсов по URL-адресу, использование библиотек для обработки HTML
- XML и передача параметров в URLРазметка данных с помощью XML, примеры XML, геоданные OpenStreetMap и их получение
- json и APIОбработка данных в формате json, работа с публичным интерфейсом API
- Визуализация данныхВизуализация графиков с использованием pyplot, отображение картографической информации с помощью API leaflet
- Введение. Что такое Data Science• Введение в Artificial intelligence, Data Science, Machine Learning, Deep Learning, Big Data. • Какие сейчас выполняются задачки в туристическом IT-бизнесе с использованием AI и ML? • Какие возможности на рынке труда открывают перед тобой навыки работы с данными. SAAS бизнес. • Обзор инструментов и библиотек, которыми будем пользоваться: Python, numpy, введение в pandas. • Практика с Pandas, обзор датасета, работа с документацией
- Краткий курс нужной математики для Data Science• Теория вероятностей: вероятность, распределение, характеристики распределений. • Математическая статистика: выборка, типы выборок. Описательная статистика, меры центральной тенденции. Среднее, мода, медиана, стандартное отклонение, процентили, минимум, максимум. • Пакет Pandas • Кратко - векторы, матрицы.
- Визуализация данных• Основные виды графиков: гистограмма, bar chart, scatterplot. Использование графиков при подготовке данных. • Зачем нужна визуализация данных в бизнесе • Основные ошибки при визуализации
- Регрессия• Определение регрессии, нулевая гипотеза, ошибки первого и нулевого рода. • Метрики регрессии: MAE, MAPE, MSE, R2 • Описание и постановка задач для регрессии
- Классификация: KNN, Алгоритм решающих деревьев• Определение классификации, метрики: доля правильных ответов (accuracy), точность (precision), полнотa (recall). PR-кривая. ROC-кривая. • Обучение с учителем и без учителя. Валидация. • Задачи классификации • Алгоритмы классификации и их отличия • Что такое энтропия • Жадный алгоритм • Критерий информативности • Переобучение и валидация
- Анализ текстовых данных: подробное изучение бизнес-кейса с тональностью комментариев к отелям с Tripadvisor• Распознавание текста комментариев и их тональности. Изучение библиотек работы с текстом. Метод сбора данных из открытых источников. • Разметка комментариев по тональности • Обучение модели, которая выявляет тональности у комментариев на размеченной выборке • Применение модели на новых комментариях • Оценка результатов
- Защита проектов с применением машинного обученияНеобходимо разобрать реальный бизнес-кейс, который был решён при помощи машинного обучения и искусственного интеллекта. Описать бизнес-задачу, использованные методы и результаты.
Элементы контроля
- Практические задачи на программированиеОнлайн-курс "Основы программирования на Python" (URL: https://www.coursera.org/learn/python-osnovy-programmirovaniya).
- Домашние задания5 домашних заданий в течение второй части курса. Общая оценка за ДЗ = (ДЗ1 + ДЗ2 + ДЗ3 + ДЗ4 + ДЗ5)/5. Вид формулы округления: Стандартное арифметическое.
- Выступление с презентациейУстная презентация групповой работы (проекта) по детальному разбору решения бизнес-кейса с применением машинного обучения и искусственного интеллекта. Экзамен состоялся в 3-ем модуле.
Промежуточная аттестация
- Промежуточная аттестация (3 модуль)0.25 * Выступление с презентацией + 0.5 * Домашние задания + 0.25 * Практические задачи на программирование
Список литературы
Рекомендуемая основная литература
- Hastie, T., Tibshirani, R., & Friedman, J. H. (2009). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Vol. Second edition, corrected 7th printing). New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=277008
- HEER, J., BOSTOCK, M., & OGIEVETSKY, V. (2010). A Tour Through the Visualization Zoo. Communications of the ACM, 53(6), 59–67. https://doi.org/10.1145/1743546.1743567
- Linoff, G., & Berry, M. J. A. (2011). Data Mining Techniques : For Marketing, Sales, and Customer Relationship Management (Vol. 3rd ed). Indianapolis, Ind: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=520245
- Lutz, M. (2008). Learning Python (Vol. 3rd ed). Beijing: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=415392
- Vanderplas, J. T. (2016). Python Data Science Handbook : Essential Tools for Working with Data (Vol. First edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1425081
Рекомендуемая дополнительная литература
- Дарелл Хафф. Как лгать при помощи статистики = How to Lie with Statistics. — М.: Альпина Паблишер, 2015. — 163 с. — ISBN 978-5-9614-5212-9. http://lib.alpinadigital.ru/ru/library/book/5573