• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2022/2023

Python для анализа данных

Статус: Курс обязательный (Филология)
Направление: 45.03.01. Филология
Когда читается: 2-й курс, 3, 4 модуль
Формат изучения: с онлайн-курсом
Онлайн-часы: 20
Охват аудитории: для всех кампусов НИУ ВШЭ
Язык: русский
Кредиты: 4
Контактные часы: 60

Программа дисциплины

Аннотация

Курс позволяет студентам приобрести базовые навыки программирование на языке Python, которые впоследствии можно усовершенствовать путём самостоятельного обучения или прохождения дополнительных курсов. Знания, полученные во время курса, могут стать полезными для выполнения рутинных задач, связанных с обработкой данных (в том числе – текстовых). В ходе курса студенты научатся представлять данные в машиночитаемом формате, анализировать их и визуализировать результаты. Курс рассчитан на студентов, не знакомых с программированием, поэтому успешно пройти его способны все желающие. Математическая составляющая курса не так серьёзна, как это часто бывает в курсах по программированию, что позволяет не перегружать студентов дополнительной информацией, а вместо этого – научить использовать Python для своих целей.
Цель освоения дисциплины

Цель освоения дисциплины

  • Овладение студентами базовыми навыками программирования на языке Python
  • Овладение студентами основами статистики
  • Овладение студентами базовыми навыками анализа данных
Планируемые результаты обучения

Планируемые результаты обучения

  • Умеют различать токенизацию, лемматизацию и стемминг; применять регулярные выражения для токенизации текстов; использовать word_tokenizer, snowball stemmer из nltk; пользоваться pymorphy2 и mystem3 для лемматизации
  • Знает основные структуры данных в питоне: кортежи, списки, множества и словари; умеет реализовывать в коде операции с ними
  • Знает основные типы данных в питоне (булев тип, целые числа, числа с плавающей точкой, строки), умеет писать код, выполняющий арифметические операции и базовые операции со строками
  • Понимает концепцию циклов, умеет писать код с использованием конструкций for и while
  • Знает возможности и ограничения словарей. Умеет применять словари и их методы.
  • Знает особенности интерфейса Jupyter Notebook, переменные и базовые объекты в Python.
  • ● Корректно открывать табличные данные различных форматов, работать с ними.
  • Уметь писать код, используя условные конструкции.
  • Визуализировать данные с помощью простейших видов диаграмм: линейной, точечной, столбчатой
  • Переводить значения признака в z-оценки
  • Использует функции и создаёт собственные, различает позиционные и именованные аргументы, возвращает значения разных типов из функций, умеет изменять данные изменяемых типов и создавать и возвращать копии данных изменяемых и неизменяемых типов
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Устройство Jupyter Notebook, основные типы данных
  • Условные конструкции
  • Циклы
  • Списки и цикл for
  • Методы строк и списков
  • Множества, словари, кортежи
  • Функции
  • Регулярные выражения, токенизация текста.
  • Морфология, лемматизация, распознавание именованных сущностей
  • Работа с табличными и текстовыми файлами. Работа с JSON.
  • Данные и их источники. Введение в инструменты.
  • Введение в статистику. Базовые манипуляции с данными
  • Типы данных. Создание новых переменных
  • Генеральная совокупность и выборка. Частотные таблицы и распределения
  • Описательные статистики: меры центральной тенденции и разброса
  • Z-оценка. Выбросы.
  • Корреляция
  • Введение в визуализацию данных
  • Продвинутая визуализация данных
Элементы контроля

Элементы контроля

  • неблокирующий Контрольная работа по Python
  • неблокирующий Домашние задания
  • неблокирующий Тесты
  • неблокирующий Контрольная по анализу данных
  • неблокирующий Проект
    Студентам предлагается применить полученные знания и навыки для анализа набора данных, релевантного для их учебной и научной деятельности вне курса. Проект может также предполагать предварительные сбор и создание такого набора обработанных данных из первичных, необработанных данных.
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 4 модуль
    0.2 * Домашние задания + 0.2 * Проект + 0.2 * Контрольная работа по Python + 0.2 * Контрольная по анализу данных + 0.2 * Тесты
Список литературы

Список литературы

Рекомендуемая основная литература

  • Elementary Statistics : A Step by Step Approach, 684 p., Bluman, A. G., 1995

Рекомендуемая дополнительная литература

  • Статистика и котики, Савельев, В. В., 2018

Авторы

  • Бажуков Максим Олегович
  • Кловайт Анастасия Алексеевна
  • Казакова Татьяна Борисовна