Бакалавриат
2022/2023
Продвинутые методы анализа и визуализации данных в Python
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс по выбору (Политология)
Направление:
41.03.04. Политология
Где читается:
Факультет социальных наук
Когда читается:
3-й курс, 3, 4 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Бурова Маргарита Борисовна
Язык:
русский
Кредиты:
4
Контактные часы:
62
Программа дисциплины
Аннотация
Сегодня стремительно растет количество и виды данных, к которым могут обращаться социальные науки. У современного исследователя есть в потребность в гибких, мощных и легко масштабируемых инструментах для сбора и анализа информации. Язык программирования Python и его библиотеки являются стандартом индустрии машинного обучения и анализа больших данных. Многие из этих инструментов окажутся полезны для студентов-политологов, выбери они исследовательскую карьеру или работу в государственном и частных секторах. Целью этого курса является развитие навыков программирования и создание крепкой практической базы для анализа и презентации данных. Также мы познакомимся с задачами и разными алгоритмами машинного обучения, что задаст вектор развития для тех студентов, которые захотят углубиться в предмет. В этом курсе мы освежим в памяти навык программирования на языке Python, углубим навыки работы со специализированными библиотеками для анализа и визуализации данных - numpy, pandas, scipy, matplotlib, plotly. Будем решать исследовательские задачи от постановки задачи и сбора данных до применения математических моделей для оценки корректности наших гипотез. К знакомым из статистики регрессионным моделям добавим в наш исследовательский инструментарий решающие деревья и случайный лес, алгоритмы классификации и кластеризации, научимся строить социальные графы. Отдельное внимание уделим текстовому анализу, потому что огромное количество исследовательских и коммерческих задач завязано именно на нем. Обсудим, что такое нейронные сети и как можно применить готовые решения для своих задач.
Цель освоения дисциплины
- Развитие и закрепление навыков программирования на языке Python.
- Формирование и развитие навыков работы со специализированными библиотеками для обработки, визуализации и анализа данных (pandas, numpy, scipy, sklearn, plotly, matplotlib).
- Развитие навыков работы с данными: сбор, обработка, визуализация, разведывательный анализ.
- Освоение терминологии области машинного обучения и знакомство с базовыми алгоритмами
- Развитие навыков постановки исследовательской задачи и тестирования гипотез с помощью количественных методов
- Развитие навыков презентации полученных результатов (оформление отчета о проделанной работе и устная защита исследования)
Планируемые результаты обучения
- Уверенно пользоваться языком Python для решения аналитических задач
- Умение подсчитывать описательные статистики, оценивать распределения, интерпретировать корреляции
- Загружать данные в pandas и работать с ними (фильтрация, агрегация, заполнение пропущенных значений)
- Определять тип задачи машинного обучения, выбирать корректные модели для ее решения, осуществлять подбор параметров и выбирать лучшую модель
- Проводить разведывательный анализ данных
- Работать с сайтом соревнований по машинному обучению kaggle
- Решать задачи машинного обучения от постановки исследовательского вопроса до интерпретации результатов
- Решать простые задачи классификации, регрессии и кластеризации
- Собирать и подготавливать данные для текстового анализа. Проводить стандартизацию текста. Решать задачи классификации и кластеризации для текстовых данных
- Создавать интерактивные визуализации с помощью plotly
- Умение выбирать корректные графики для визуализации данных, уметь кастомизировать их внешний вид, интерпретировать графики
Содержание учебной дисциплины
- Python для анализа данных, алгоритмы
- Библиотеки для работы с данными в Python
- Визуализация данных
- Машинное обучение
- Текстовый анализ
Промежуточная аттестация
- 2022/2023 учебный год 4 модуль0.15 * Работа на семинарах + 0.2 * Домашнее задание + 0.25 * Контрольная работа + 0.25 * Самостоятельная работа + 0.15 * Проект
Список литературы
Рекомендуемая основная литература
- Бонцанини, М. Анализ социальных медиа на Python. Извлекайте и анализируйте данные из всех уголков социальной паутины на Python / М. Бонцанини , перевод с английского А. В. Логунова. — Москва : ДМК Пресс, 2018. — 288 с. — ISBN 978-5-97060-574-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/108129 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Введение в статистическое обучение с примерами на языке R / Г. Джеймс, Д. Уиттон, Т. Хасти, Р. Тибширани , перевод с английского С. Э. Мастицкого. — Москва : ДМК Пресс, 2017. — 456 с. — ISBN 978-5-97060-495-3. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/93580 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Маккинни, У. Python и анализ данных / У. Маккинни , перевод с английского А. А. Слинкина. — 2-ое изд., испр. и доп. — Москва : ДМК Пресс, 2020. — 540 с. — ISBN 978-5-97060-590-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/131721 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
Рекомендуемая дополнительная литература
- HEER, J., BOSTOCK, M., & OGIEVETSKY, V. (2010). A Tour Through the Visualization Zoo. Communications of the ACM, 53(6), 59–67. https://doi.org/10.1145/1743546.1743567