• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2023/2024

Python для анализа данных

Статус: Дисциплина общефакультетского пула
Когда читается: 1, 2 модуль
Охват аудитории: для всех кампусов НИУ ВШЭ
Язык: русский
Кредиты: 6
Контактные часы: 56

Программа дисциплины

Аннотация

Курс предназначен для студентов, желающих овладеть навыками работы с данными в науке о данных при помощи языка программирования Python. Python – это один из самых популярных языков программирования, который используется во многих отраслях, включая аналитику данных. Рейтинг TIOBE подтверждает, что Python является самым популярным языком программирования на сегодняшний день.В рамках курса студенты узнают, что такое анализ анализ данных, машинное обучение, научатся делать визуализации и многое другое. Студенты изучат инструменты, созданные специально для работы с данными на Python, такие как pandas, numpy, scikit-learn и другие. Курс также позволит студентам разобраться в различных типах данных и форматах данных, а также научит их практическим навыкам работы с данными в Python.Основная цель курса – помочь студентам понять, что такое наука о данных и как она применяется на практике. Курс также обучит студентов использовать Python для анализа данных, обработки данных и визуализации данных. Дополнительно, студенты получат знания о различных библиотеках Python и научатся использовать их для решения задач в науке о данных.
Цель освоения дисциплины

Цель освоения дисциплины

  • Освоение базовых навыков работы в Excel и Python
  • Анализ данных с помощью современных инструментов
  • Понимание того, какие инструменты, методы и метрики должны быть использованы в различных прикладных задачах
Планируемые результаты обучения

Планируемые результаты обучения

  • Умеют различать токенизацию, лемматизацию и стемминг; применять регулярные выражения для токенизации текстов; использовать word_tokenizer, snowball stemmer из nltk; пользоваться pymorphy2 и mystem3 для лемматизации
  • Знает основные структуры данных в питоне: кортежи, списки, множества и словари; умеет реализовывать в коде операции с ними
  • Знает основные типы данных в питоне (булев тип, целые числа, числа с плавающей точкой, строки), умеет писать код, выполняющий арифметические операции и базовые операции со строками
  • Понимает концепцию циклов, умеет писать код с использованием конструкций for и while
  • Знает возможности и ограничения словарей. Умеет применять словари и их методы.
  • Знает особенности интерфейса Jupyter Notebook, переменные и базовые объекты в Python.
  • Уметь писать код, используя условные конструкции.
  • Использует функции и создаёт собственные, различает позиционные и именованные аргументы, возвращает значения разных типов из функций, умеет изменять данные изменяемых типов и создавать и возвращать копии данных изменяемых и неизменяемых типов
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Устройство Jupyter Notebook, основные типы данных
  • Условные конструкции
  • Циклы
  • Списки и цикл for
  • Методы строк и списков
  • Множества, словари, кортежи
  • Функции
  • Регулярные выражения, токенизация текста.
  • Морфология, лемматизация, распознавание именованных сущностей
  • Работа с табличными и текстовыми файлами. Работа с JSON.
  • Данные и их источники. Введение в инструменты.
  • Введение в статистику. Базовые манипуляции с данными
  • Типы данных. Создание новых переменных
  • Генеральная совокупность и выборка. Частотные таблицы и распределения
  • Описательные статистики: меры центральной тенденции и разброса
  • Z-оценка. Выбросы.
  • Корреляция
  • Введение в визуализацию данных
  • Продвинутая визуализация данных
Элементы контроля

Элементы контроля

  • неблокирующий Контрольные работы по анализу данных
  • неблокирующий Домашние задания
  • неблокирующий Мини-тесты
  • неблокирующий Исследовательский проект
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 2nd module
    0.3 * Домашние задания + 0.2 * Исследовательский проект + 0.15 * Контрольные работы по анализу данных + 0.15 * Контрольные работы по анализу данных + 0.2 * Мини-тесты
Список литературы

Список литературы

Рекомендуемая основная литература

  • Elementary Statistics : A Step by Step Approach, 684 p., Bluman, A. G., 1995

Рекомендуемая дополнительная литература

  • Статистика и котики, Савельев, В. В., 2018

Авторы

  • Бузанов Антон Олегович
  • Казакова Татьяна Борисовна