• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2021/2022

Введение в Data Science

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус: Курс обязательный (Управление бизнесом)
Направление: 38.03.02. Менеджмент
Когда читается: 2-й курс, 4 модуль
Формат изучения: с онлайн-курсом
Онлайн-часы: 50
Охват аудитории: для всех кампусов НИУ ВШЭ
Преподаватели: Бурова Маргарита Борисовна, Волкова Анастасия Эдуардовна, Кузнецов Дмитрий Сергеевич, Кутынина Екатерина Андреевна, Максимовская Анастасия Максимовна, Омелюсик Владимир Степанович, Третьяков Дмитрий Витальевич, Тукмачева Юлия Николаевна
Язык: русский
Кредиты: 3
Контактные часы: 48

Программа дисциплины

Аннотация

Дисциплина «Введение в Data Science» знакомит студентов с основными концепциями и методами анализа данных и машинного обучения. Студенты также научатся программировать на языке Python, познакомятся с базовыми приёмами извлечения и обработки данных из сети интернет и различных типов файлов. С использованием онлайн-курса "Статистика для анализа данных".
Цель освоения дисциплины

Цель освоения дисциплины

  • Обучить студентов базовым навыкам программирования на языке Python.
  • Обучить студентов базовым приемам извлечения и обработки данных, необходимым для дальнейшего обучения и в работе по специальности.
  • Познакомить студентов с основными концепциями и методами анализа данных, статистики и машинного обучения.
Планируемые результаты обучения

Планируемые результаты обучения

  • Владеет базовыми навыками работы с данными: агрегированием, фильтрацией, созданием новых переменных, работой со сводными таблицами.
  • Владеет метриками качества линейной регрессии: MSE, MAE, R2.
  • Владеет процедурой обнаружения пропущенных значений. Умеет работать с пропущенными значениями: удаление и стратегии замены.
  • Владеет хи-квадратом критерия согласия Пирсона.
  • Знает и умеет строить базовые типы графиков.
  • Знает основные типы дискретных (Бернулли, биномиальное, пуассоновское) и непрерывных (нормальное, экспоненциальное, хи-квадрат) распределений. Знает определение функции плотности.
  • Знает постановку задачи машинного обучения. Знает виды задач машинного обучения.
  • Знает процедуру тестирования гипотез. Понимает понятие статистической значимости. Умеет применять p-value для тестирования гипотез.
  • Знает типы переменных. Знает меры центральной тенденции и разброса. Знает процедуру обнаружения выбросов. Умеет обрабатывать выбросы.
  • Понимает основные процедуры сбора данных. Умеет дать определение понятиями “выборка” и “генеральная совокупность”. Умеет определить наиболее репрезентативную выборку.
  • Понимает понятия ошибок I и II рода.
  • Умеет интерпретировать ROC-кривую.
  • Умеет использовать метод k ближайших соседей.
  • Умеет оценивать линейную регрессию. Умеет интерпретировать оценки коэффициентов в линейной регрессии.
  • Умеет оценивать логистическую регрессию.
  • Умеет проводить Z-тест и t-тест для одной выборки и для двух независимых выборок с одинаковыми дисперсиями.
  • Умеет рассчитать выборочный коэффициент корреляции Пирсона.
  • Умеет строить доверительные интервалы, основанные на Z- и t-распределениях, для среднего и доли.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в Python: переменные, коллекции, условные операторы, циклы.
  • Анализ и визуализация данных в Python: pandas и matplotlib.
  • Введение в теорию вероятностей и статистику. Выборка и генеральная совокупность. Репрезентативность выборки.
  • Распределения. Описательные статистики. Меры центральной тенденции и разброса.
  • Корреляция Пирсона.
  • Тестирование гипотез. Ошибки I и II рода.
  • Statsmodels в Python.
  • Статистические тесты. Статистическая значимость. p-value.
  • Проверка гипотез при помощи Z-теста и t-теста.
  • Непараметрическое тестирование. Хи-квадрат критерий согласия Пирсона.
  • Линейная регрессия.
  • Введение в машинное обучение. Виды задач машинного обучения.
  • sklearn в Python.
  • Метод k ближайших соседей.
  • Логистическая регрессия.
  • ROC-кривая
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
    По результатам домашних заданий возможен выборочный устный опрос. Любая форма контроля на усмотрение преподавателя может быть представлена к устной защите. Плагиат не допускается. Плагиатом считается смысловое совпадение решений студентов (например, идентичные решения с точностью до названий переменных). При обнаружении плагиата 0 за работу ставится всем участвующим, даже если можно однозначно определить, кто у кого списал.
  • неблокирующий Квизы
    Состоят из 4-5 вопросов с множественным или свободным вариантом ответа, проводятся на лекциях. Любая форма контроля на усмотрение преподавателя может быть представлена к устной защите. Плагиат не допускается. Плагиатом считается смысловое совпадение решений студентов (например, идентичные решения с точностью до названий переменных). При обнаружении плагиата 0 за работу ставится всем участвующим, даже если можно однозначно определить, кто у кого списал.
  • неблокирующий Экзамен
    Письменное решение задач по теме курса с множественным и свободным вариантами ответа. Любая форма контроля на усмотрение преподавателя может быть представлена к устной защите. Плагиат не допускается. Плагиатом считается смысловое совпадение решений студентов (например, идентичные решения с точностью до названий переменных). При обнаружении плагиата 0 за работу ставится всем участвующим, даже если можно однозначно определить, кто у кого списал.
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 4 модуль
    0.3 * Экзамен + 0.2 * Квизы + 0.5 * Домашнее задание
Список литературы

Список литературы

Рекомендуемая основная литература

  • Basic statistics for the behavioral sciences, Heiman, G. W., 2006

Рекомендуемая дополнительная литература

  • All of statistics : a concise course in statistical inference, Wasserman, L., 2004

Авторы

  • Омелюсик Владимир Степанович