2023/2024
Python для анализа данных
Статус:
Дисциплина общефакультетского пула
Кто читает:
Школа лингвистики
Когда читается:
1, 2 модуль
Охват аудитории:
для всех кампусов НИУ ВШЭ
Язык:
русский
Кредиты:
6
Контактные часы:
56
Программа дисциплины
Аннотация
Курс предназначен для студентов, желающих овладеть навыками работы с данными в науке о данных при помощи языка программирования Python. Python – это один из самых популярных языков программирования, который используется во многих отраслях, включая аналитику данных. Рейтинг TIOBE подтверждает, что Python является самым популярным языком программирования на сегодняшний день.В рамках курса студенты узнают, что такое анализ анализ данных, машинное обучение, научатся делать визуализации и многое другое. Студенты изучат инструменты, созданные специально для работы с данными на Python, такие как pandas, numpy, scikit-learn и другие. Курс также позволит студентам разобраться в различных типах данных и форматах данных, а также научит их практическим навыкам работы с данными в Python.Основная цель курса – помочь студентам понять, что такое наука о данных и как она применяется на практике. Курс также обучит студентов использовать Python для анализа данных, обработки данных и визуализации данных. Дополнительно, студенты получат знания о различных библиотеках Python и научатся использовать их для решения задач в науке о данных.
Цель освоения дисциплины
- Освоение базовых навыков работы в Excel и Python
- Анализ данных с помощью современных инструментов
- Понимание того, какие инструменты, методы и метрики должны быть использованы в различных прикладных задачах
Планируемые результаты обучения
- Умеют различать токенизацию, лемматизацию и стемминг; применять регулярные выражения для токенизации текстов; использовать word_tokenizer, snowball stemmer из nltk; пользоваться pymorphy2 и mystem3 для лемматизации
- Знает основные структуры данных в питоне: кортежи, списки, множества и словари; умеет реализовывать в коде операции с ними
- Знает основные типы данных в питоне (булев тип, целые числа, числа с плавающей точкой, строки), умеет писать код, выполняющий арифметические операции и базовые операции со строками
- Понимает концепцию циклов, умеет писать код с использованием конструкций for и while
- Знает возможности и ограничения словарей. Умеет применять словари и их методы.
- Знает особенности интерфейса Jupyter Notebook, переменные и базовые объекты в Python.
- Уметь писать код, используя условные конструкции.
- Использует функции и создаёт собственные, различает позиционные и именованные аргументы, возвращает значения разных типов из функций, умеет изменять данные изменяемых типов и создавать и возвращать копии данных изменяемых и неизменяемых типов
Содержание учебной дисциплины
- Устройство Jupyter Notebook, основные типы данных
- Условные конструкции
- Циклы
- Списки и цикл for
- Методы строк и списков
- Множества, словари, кортежи
- Функции
- Регулярные выражения, токенизация текста.
- Морфология, лемматизация, распознавание именованных сущностей
- Работа с табличными и текстовыми файлами. Работа с JSON.
- Данные и их источники. Введение в инструменты.
- Введение в статистику. Базовые манипуляции с данными
- Типы данных. Создание новых переменных
- Генеральная совокупность и выборка. Частотные таблицы и распределения
- Описательные статистики: меры центральной тенденции и разброса
- Z-оценка. Выбросы.
- Корреляция
- Введение в визуализацию данных
- Продвинутая визуализация данных
Элементы контроля
- Контрольные работы по анализу данных
- Домашние задания
- Мини-тесты
- Исследовательский проект
Промежуточная аттестация
- 2023/2024 2nd module0.3 * Домашние задания + 0.2 * Исследовательский проект + 0.15 * Контрольные работы по анализу данных + 0.15 * Контрольные работы по анализу данных + 0.2 * Мини-тесты