Бакалавриат
2020/2021
Python для анализа данных
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс обязательный (Мировая экономика)
Направление:
38.03.01. Экономика
Где читается:
Факультет мировой экономики и мировой политики
Когда читается:
2-й курс, 4 модуль
Формат изучения:
с онлайн-курсом
Преподаватели:
Бирюков Валентин Андреевич,
Карпов Максим Евгеньевич,
Рогович Татьяна Владимировна,
Филатов Михаил Михайлович
Язык:
русский
Кредиты:
3
Контактные часы:
28
Программа дисциплины
Аннотация
На сегодняшний день Python является стандартом индустрии для анализа данных. По окончании этого курса, студенты получат в свое распоряжение набор аналитических инструментов, которые им пригодятся как в академии, так и при работе в частном или государственном секторе. Целью этого курса является развитие навыков программирования и создание крепкой практической базы для анализа и презентации данных. С использованием онлайн-курса "Python для извлечения и обработки данных" (URL: https://www.coursera.org/learn/python-kak-inostrannyj).
Цель освоения дисциплины
- Развитие и закрепление навыков программирования на языке Python.
- Формирование и развитие навыков работы со специализированными библиотеками для обработки, визуализации и анализа данных (pandas, numpy, plotly, matplotlib, seaborn).
- Развитие навыков работы с данными: обработка, визуализация, разведывательный анализ.
- Знакомство с задачами линейной и логистической регрессии
- Развитие навыков постановки исследовательской задачи и тестирования гипотез с помощью количественных методов
Планируемые результаты обучения
- Загружает данные в pandas и работает с ними (фильтрация, агрегация, заполнение пропущенных значений)
- Подсчитывает описательные статистики, оценивает распределения, интерпретирует корреляции
- Проводит разведывательный анализ данных
- Уверенно пользуется языком Python для решения аналитических задач
- Выбирает корректные графики для визуализации данных
- Выбирает правильный тип визуализации для решения конкретной задачи
- Настраивает внешний вид графиков в библиотеках Python для визуализации
- Проводит разведывательный анализ данных с помощью визуализаций
- Определяет тип задачи регрессии, умеет составлять уравнение регрессии
- Разбирается в выборе линейной модели для обучения, используя библиотеки Python
- Умеет подсчитывать и интерпретировать метрики качества для задачи регрессии
Содержание учебной дисциплины
- Основы программирования в PythonОсновные типы и структуры данных. Условные операторы и циклы. Решение алгоритмических задач.
- Введение в анализ данных на PythonОбзор задач, для решения которых используется Python. Источники данных и их типы. Линейная алгербра и математическая статистика для анализа данных и машинного обучения. Статистические и математические операции в numpy. Pandas для работы с табличными данными. Разведывательный анализ данных.
- Визуализация данныхЦели визуализации данных: разведывательный анализ, выбор алгоритмов, презентация данных и результатов. Виды графиков, их корректное использование и интерпретация. Принципы хорошей визуализации, основные ошибки при вузализации данных. Основы визуализации в matplotlib. Оформление и кастомизация графиков.
- Линейная/логистическая регрессияПостановка задачи регрессии, уравнение регрессии, одномерная и множественная регрессия.
Элементы контроля
- Контрольная работа (Питон)Контрольная может проводиться онлайн в письменной форме с использованием асинхронного прокторинга. Экзамен проводится на платформе Онлайн-образование в НИУ ВШЭ (https://online.hse.ru/), прокторинг на платформе Экзамус (https://hse.student.examus.net).
- Мини-опросы на лекциях (среднее всех)
- Домашнее задание (среднее всех)
- Письменный экзамен (анализ данных)Экзамен может проводиться онлайн в письменной форме с использованием прокторинга. Экзамен проводится на платформе Онлайн-образование в НИУ ВШЭ (https://online.hse.ru/), прокторинг на платформе Экзамус (https://hse.student.examus.net).
- Оценка за онлайн-курсОнлайн-курс "Python для извлечения и обработки данных" (URL: https://www.coursera.org/learn/python-kak-inostrannyj).
Промежуточная аттестация
- Промежуточная аттестация (4 модуль)0.4 * Домашнее задание (среднее всех) + 0.2 * Контрольная работа (Питон) + 0.1 * Мини-опросы на лекциях (среднее всех) + 0.1 * Оценка за онлайн-курс + 0.2 * Письменный экзамен (анализ данных)
Список литературы
Рекомендуемая основная литература
- Muller, A. C., & Guido, S. (2017). Introduction to machine learning with Python: a guide for data scientists. O’Reilly Media. (HSE access: http://ebookcentral.proquest.com/lib/hselibrary-ebooks/detail.action?docID=4698164)
Рекомендуемая дополнительная литература
- Mirkin, B. Core concepts in data analysis: summarization, correlation and visualization. – Springer Science & Business Media, 2011. – 388 pp.
- Miroslav Kubat. An Introduction to Machine Learning. Springer, 2015 (296 pages) ISBN: 9783319200095: — Текст электронны // ЭБС books24x7 — https://library.books24x7.com/toc.aspx?bookid=117295
- Мастицкий С.Э. - Визуализация данных с помощью ggplot2 - Издательство "ДМК Пресс" - 2017 - 222с. - ISBN: 978-5-97060-470-0 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/107895
- Основы алгоритмизации и программирования на Python : учеб. пособие / С.Р. Гуриков. — М. : ФОРУМ : ИНФРА-М, 2019. — 343 с. — (Среднее профессиональное образование). - Режим доступа: http://znanium.com/catalog/product/970143
- Северенс Ч. - Введение в программирование на Python - Национальный Открытый Университет "ИНТУИТ" - 2016 - 231с. - ISBN: - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/100703