Бакалавриат
2022/2023
Введение в анализ данных
Статус:
Курс обязательный (Мировая экономика)
Направление:
38.03.01. Экономика
Где читается:
Факультет мировой экономики и мировой политики
Когда читается:
2-й курс, 4 модуль
Формат изучения:
с онлайн-курсом
Онлайн-часы:
50
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Карпов Максим Евгеньевич,
Латыпов Инсан-Александр Искандерович,
Сусла Диана Михайловна
Язык:
русский
Кредиты:
3
Контактные часы:
24
Программа дисциплины
Аннотация
Курс "Анализ данных на Python"нацелен на изучение языка программирования Python и получение базовых знаний и навыков для обработки, визуализации и статистического анализа данных, а также дальнейшего прохождения более специализированных курсов в этой области (например, машинного обучения). Первая часть дисциплины отведена на изучение основ языка Python, по итогам которой слушатели узнают о типах и структурах данных, научатся решать алгоритмические задачи и освоят такие базовые понятия программирования, как: условные операторы, функции, рекурсии и циклы. В рамках курса будут пройдены основы различных парадигм программирования: процедурное, функциональное и объектно-ориентированное программирование. Вторая часть курса посвящена освоению теоретической базы и необходимых практических навыков для анализа данных. Слушатели научатся решать задачи по парсингу, препроцессингу и визуализации данных с помощью стандартных и внешних библиотек Python.
Цель освоения дисциплины
- Ознакомление студентов с основами программирования на языке Python
- Получение навыков обработки и статистического анализа данных с применением библиотек языка Python
- Ознакомление с теоретическими основами и основными методами статистического анализа
Планируемые результаты обучения
- Владеть базовыми понятиями теории вероятностей и математической статистики для работы с данными
- Знать основные структуры данных и парадигмы программирования
- Знать синтаксис и семантику основных конструкций языка программирования Python
- Уметь собирать, предобрабатывать и визуализировать данные и выводить их описательные статистики
- Уметь формулировать аналитическую задачу и реализовывать ее выполнение на Python
Содержание учебной дисциплины
- Введение в язык программирования. Условные операторы. Вещественные числа.
- Кортежи, цикл for, списки.
- Функции и рекурсия.
- Множества и словари. Функциональное программирование.
- Объектно-ориентированное программирование.
- Обработка данных.
- Визуализация данных.
- Парсинг данных
- Линейная регрессия. Метрики для задачи регрессии. Разделение выборки на обучающую и тестовую. Понятие переобучения. Кросс-валидация.
- Логистическая регрессия. Метрики для задачи классификации.
- Решающее дерево. Случайный лес. Подбор параметров по сетке.
Промежуточная аттестация
- 2022/2023 учебный год 4 модуль0.1 * Онлайн-курс + 0.3 * Домашние задания + 0.2 * Контрольная работа + 0.2 * Мини-тесты + 0.2 * Проект
Список литературы
Рекомендуемая основная литература
- Hastie, T., Tibshirani, R., Friedman, J. The elements of statistical learning: Data Mining, Inference, and Prediction. – Springer, 2009. – 745 pp.
- McKinney, W. (2012). Python for Data Analysis : Data Wrangling with Pandas, NumPy, and IPython. Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=495822
- Rogers, S., & Girolami, M. (2016). A First Course in Machine Learning (Vol. 2nd ed). Milton: Chapman and Hall/CRC. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1399490
- Кремер, Н. Ш. Математическая статистика : учебник и практикум для академического бакалавриата / Н. Ш. Кремер. — Москва : Издательство Юрайт, 2019. — 259 с. — (Бакалавр. Академический курс). — ISBN 978-5-534-01654-3. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/433671 (дата обращения: 28.08.2023).
- Энатская, Н. Ю. Теория вероятностей и математическая статистика : учебник и практикум для среднего профессионального образования / Н. Ю. Энатская, Е. Р. Хакимуллин. — Москва : Издательство Юрайт, 2019. — 399 с. — (Профессиональное образование). — ISBN 978-5-534-11917-6. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/446435 (дата обращения: 28.08.2023).
Рекомендуемая дополнительная литература
- Vanderplas, J. T. (2016). Python Data Science Handbook : Essential Tools for Working with Data (Vol. First edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1425081
- Митчелл, Р. Скрапинг веб-сайтов с помощю Python : руководство / Р. Митчелл , перевод с английского А. В. Груздев. — Москва : ДМК Пресс, 2016. — 280 с. — ISBN 978-5-97060-223-2. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/100903 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.