Бакалавриат
2021/2022
Введение в Data Science
Статус:
Курс обязательный (Маркетинг и рыночная аналитика)
Направление:
38.03.02. Менеджмент
Где читается:
Высшая школа бизнеса
Когда читается:
2-й курс, 4 модуль
Формат изучения:
с онлайн-курсом
Онлайн-часы:
50
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Бурова Маргарита Борисовна,
Волкова Анастасия Эдуардовна,
Кузнецов Дмитрий Сергеевич,
Кутынина Екатерина Андреевна,
Максимовская Анастасия Максимовна,
Омелюсик Владимир Степанович,
Третьяков Дмитрий Витальевич,
Тукмачева Юлия Николаевна
Язык:
русский
Кредиты:
3
Контактные часы:
48
Программа дисциплины
Аннотация
Дисциплина «Введение в Data Science» знакомит студентов с основными концепциями и методами анализа данных и машинного обучения. Студенты также научатся программировать на языке Python, познакомятся с базовыми приёмами извлечения и обработки данных из сети интернет и различных типов файлов. С использованием онлайн-курса "Статистика для анализа данных".
Цель освоения дисциплины
- Обучить студентов базовым навыкам программирования на языке Python.
- Обучить студентов базовым приемам извлечения и обработки данных, необходимым для дальнейшего обучения и в работе по специальности.
- Познакомить студентов с основными концепциями и методами анализа данных, статистики и машинного обучения.
Планируемые результаты обучения
- Владеет базовыми навыками работы с данными: агрегированием, фильтрацией, созданием новых переменных, работой со сводными таблицами.
- Владеет метриками качества линейной регрессии: MSE, MAE, R2.
- Владеет процедурой обнаружения пропущенных значений. Умеет работать с пропущенными значениями: удаление и стратегии замены.
- Владеет хи-квадратом критерия согласия Пирсона.
- Знает и умеет строить базовые типы графиков.
- Знает основные типы дискретных (Бернулли, биномиальное, пуассоновское) и непрерывных (нормальное, экспоненциальное, хи-квадрат) распределений. Знает определение функции плотности.
- Знает постановку задачи машинного обучения. Знает виды задач машинного обучения.
- Знает процедуру тестирования гипотез. Понимает понятие статистической значимости. Умеет применять p-value для тестирования гипотез.
- Знает типы переменных. Знает меры центральной тенденции и разброса. Знает процедуру обнаружения выбросов. Умеет обрабатывать выбросы.
- Понимает основные процедуры сбора данных. Умеет дать определение понятиями “выборка” и “генеральная совокупность”. Умеет определить наиболее репрезентативную выборку.
- Понимает понятия ошибок I и II рода.
- Умеет интерпретировать ROC-кривую.
- Умеет использовать метод k ближайших соседей.
- Умеет оценивать линейную регрессию. Умеет интерпретировать оценки коэффициентов в линейной регрессии.
- Умеет оценивать логистическую регрессию.
- Умеет проводить Z-тест и t-тест для одной выборки и для двух независимых выборок с одинаковыми дисперсиями.
- Умеет рассчитать выборочный коэффициент корреляции Пирсона.
- Умеет строить доверительные интервалы, основанные на Z- и t-распределениях, для среднего и доли.
Содержание учебной дисциплины
- Введение в Python: переменные, коллекции, условные операторы, циклы.
- Анализ и визуализация данных в Python: pandas и matplotlib.
- Введение в теорию вероятностей и статистику. Выборка и генеральная совокупность. Репрезентативность выборки.
- Распределения. Описательные статистики. Меры центральной тенденции и разброса.
- Корреляция Пирсона.
- Тестирование гипотез. Ошибки I и II рода.
- Statsmodels в Python.
- Статистические тесты. Статистическая значимость. p-value.
- Проверка гипотез при помощи Z-теста и t-теста.
- Непараметрическое тестирование. Хи-квадрат критерий согласия Пирсона.
- Линейная регрессия.
- Введение в машинное обучение. Виды задач машинного обучения.
- sklearn в Python.
- Метод k ближайших соседей.
- Логистическая регрессия.
- ROC-кривая
Элементы контроля
- Домашнее заданиеПо результатам домашних заданий возможен выборочный устный опрос. Любая форма контроля на усмотрение преподавателя может быть представлена к устной защите. Плагиат не допускается. Плагиатом считается смысловое совпадение решений студентов (например, идентичные решения с точностью до названий переменных). При обнаружении плагиата 0 за работу ставится всем участвующим, даже если можно однозначно определить, кто у кого списал.
- КвизыСостоят из 4-5 вопросов с множественным или свободным вариантом ответа, проводятся на лекциях. Любая форма контроля на усмотрение преподавателя может быть представлена к устной защите. Плагиат не допускается. Плагиатом считается смысловое совпадение решений студентов (например, идентичные решения с точностью до названий переменных). При обнаружении плагиата 0 за работу ставится всем участвующим, даже если можно однозначно определить, кто у кого списал.
- ЭкзаменПисьменное решение задач по теме курса с множественным и свободным вариантами ответа. Любая форма контроля на усмотрение преподавателя может быть представлена к устной защите. Плагиат не допускается. Плагиатом считается смысловое совпадение решений студентов (например, идентичные решения с точностью до названий переменных). При обнаружении плагиата 0 за работу ставится всем участвующим, даже если можно однозначно определить, кто у кого списал.
Промежуточная аттестация
- 2021/2022 учебный год 4 модуль0.3 * Экзамен + 0.2 * Квизы + 0.5 * Домашнее задание