• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2020/2021

Введение в Data Science

Направление: 38.03.02. Менеджмент
Когда читается: 2-й курс, 1 модуль
Формат изучения: без онлайн-курса
Преподаватели: Заходякин Глеб Викторович, Кузнецова Юлия Александровна, Рожков Максим Игоревич
Язык: русский
Кредиты: 3
Контактные часы: 30

Программа дисциплины

Аннотация

Дисциплина знакомит студентов с предметной областью науки о данных и формирует навыки решения задач обработки и визуализации данных с использованием языка Python. Целевой аудиторией являются студенты бакалаврской образовательной программы «Логистика и управление цепями поставок в бизнесе». Дисциплина соответствует “Базовому” уровню программы Data Culture. В курсе рассматриваются основы интерактивной работы с Python в блокноте Jupyter Notebook, дается необходимый минимум синтаксических конструкций Python для задач обработки данных, рассматриваются базовые аналитические пакеты: pandas, matplotlib, seaborn. Рассматриваются вопросы загрузки данных разных форматов, очистки данных, разведочного анализа, визуализации данных. Курс обеспечивает необходимый минимум знаний для изучения дисциплины "Машинное обучение на языке Python" во втором модуле.
Цель освоения дисциплины

Цель освоения дисциплины

  • Выработка базовых навыков анализа структурированных данных с использованием Python и интерпретации полученных результатов
Планируемые результаты обучения

Планируемые результаты обучения

  • Способен проводить и документировать расчеты с использованием Python и Jupyter Notebook
  • Способен загружать и обрабатывать табличные данные с помощью библиотеки pandas
  • Способен правильно выбрать способ визуализации в зависимости от задачи (анализ распределений, поиск зависимостей)
  • Способен интерпретировать результаты анализа данных для лица, принимающего решение
  • Способен выполнить очистку данных (обработка пропусков и выбросов, реструктуризация данных к опрятному виду)
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Python как инструмент data scientist'а
    Тема 1. Понятие науки о данных. Примеры аналитических задач в работе логиста Тема 2. Python как инструмент аналитика данных. Дистрибутивы Python. Интерактивная среда разработки Jupyter Notebook. Структура блокнота и принципы вычислений. Оформление блокнота с помощью Markdown. Тема 3. Основные конструкции языка Python. Из чего состоит программа. Базовые типы данных Python. Объекты, свойства и методы. Функции и лямбда-выражения. Условный оператор. Операции со списками и словарями. Циклы for и while. Списочные включения. Тема 4. Обработка табличных данных при помощи библиотеки Pandas. Основные структуры данных - Series и DataFrame. Загрузка и выборка данных. Фильтрация данных. Вычисления новых столбцов. Сортировка и ранжирование. Группировка и агрегирование данных. Слияние таблиц. Понятие "опрятных" данных. Приведение данных к опрятному виду. Обработка пропущенных значений. Обработка строк с использованием встроенных методов. Тема 5. Визуализация данных и разведочный анализ. Виды данных. Расчет и интерпретация описательных статистик. Графики для анализа распределений. Выявление связей между количественными и категориальными переменными в различных сочетаниях. Построение графиков и диаграмм с использованием maplotlib, pandas и seaborn. Оформление графиков.
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
  • неблокирующий Активность (работа на семинарах)
    Учитываются выступления на семинаре. Балл рассчитывается как количество засчитанных выступлений / максимальное количество выступлений на семинарах в группе.
  • неблокирующий Контрольная работа
  • неблокирующий Экзамен
  • неблокирующий Домашнее задание 2
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (1 модуль)
    0.1 * Активность (работа на семинарах) + 0.15 * Домашнее задание 1 + 0.15 * Домашнее задание 2 + 0.3 * Контрольная работа + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • McKinney, W. (2018). Python for Data Analysis : Data Wrangling with Pandas, NumPy, and IPython (Vol. Second edition). Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1605925

Рекомендуемая дополнительная литература

  • Bill Lubanovic. (2019). Introducing Python : Modern Computing in Simple Packages. [N.p.]: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2291494
  • Vanderplas, J. T. (2016). Python Data Science Handbook : Essential Tools for Working with Data (Vol. First edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1425081
  • Митчелл Р. - Скрапинг веб-сайтов с помощю Python - Издательство "ДМК Пресс" - 2016 - 280с. - ISBN: 978-5-97060-223-2 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/100903
  • Рашка С. - Python и машинное обучение: крайне необходимое пособие по новейшей предсказательной аналитике, обязательное для более глубокого понимания методологии машинного обучения - Издательство "ДМК Пресс" - 2017 - 418с. - ISBN: 978-5-97060-409-0 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/100905
  • Северенс Ч. - Введение в программирование на Python - Национальный Открытый Университет "ИНТУИТ" - 2016 - 231с. - ISBN: - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/100703
  • Федоров Д. Ю. - ПРОГРАММИРОВАНИЕ НА ЯЗЫКЕ ВЫСОКОГО УРОВНЯ PYTHON 2-е изд. Учебное пособие для СПО - М.:Издательство Юрайт - 2019 - 161с. - ISBN: 978-5-534-11961-9 - Текст электронный // ЭБС ЮРАЙТ - URL: https://urait.ru/book/programmirovanie-na-yazyke-vysokogo-urovnya-python-446505
  • Хахаев И.А. - Практикум по алгоритмизации и программированию на Python - Национальный Открытый Университет "ИНТУИТ" - 2016 - 178с. - ISBN: - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/100377