Бакалавриат
2022/2023
Python для анализа данных
Статус:
Курс обязательный (Филология)
Направление:
45.03.01. Филология
Кто читает:
Школа лингвистики
Где читается:
Факультет гуманитарных наук
Когда читается:
2-й курс, 3, 4 модуль
Формат изучения:
с онлайн-курсом
Онлайн-часы:
20
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Бажуков Максим Олегович,
Бузанов Антон Олегович,
Казакова Татьяна Борисовна,
Сериков Олег Алексеевич
Язык:
русский
Кредиты:
4
Контактные часы:
60
Программа дисциплины
Аннотация
Курс позволяет студентам приобрести базовые навыки программирование на языке Python, которые впоследствии можно усовершенствовать путём самостоятельного обучения или прохождения дополнительных курсов. Знания, полученные во время курса, могут стать полезными для выполнения рутинных задач, связанных с обработкой данных (в том числе – текстовых). В ходе курса студенты научатся представлять данные в машиночитаемом формате, анализировать их и визуализировать результаты. Курс рассчитан на студентов, не знакомых с программированием, поэтому успешно пройти его способны все желающие. Математическая составляющая курса не так серьёзна, как это часто бывает в курсах по программированию, что позволяет не перегружать студентов дополнительной информацией, а вместо этого – научить использовать Python для своих целей.
Цель освоения дисциплины
- Овладение студентами базовыми навыками программирования на языке Python
- Овладение студентами основами статистики
- Овладение студентами базовыми навыками анализа данных
Планируемые результаты обучения
- Умеют различать токенизацию, лемматизацию и стемминг; применять регулярные выражения для токенизации текстов; использовать word_tokenizer, snowball stemmer из nltk; пользоваться pymorphy2 и mystem3 для лемматизации
- Знает основные структуры данных в питоне: кортежи, списки, множества и словари; умеет реализовывать в коде операции с ними
- Знает основные типы данных в питоне (булев тип, целые числа, числа с плавающей точкой, строки), умеет писать код, выполняющий арифметические операции и базовые операции со строками
- Понимает концепцию циклов, умеет писать код с использованием конструкций for и while
- Знает возможности и ограничения словарей. Умеет применять словари и их методы.
- Знает особенности интерфейса Jupyter Notebook, переменные и базовые объекты в Python.
- ● Корректно открывать табличные данные различных форматов, работать с ними.
- Уметь писать код, используя условные конструкции.
- Визуализировать данные с помощью простейших видов диаграмм: линейной, точечной, столбчатой
- Переводить значения признака в z-оценки
- Использует функции и создаёт собственные, различает позиционные и именованные аргументы, возвращает значения разных типов из функций, умеет изменять данные изменяемых типов и создавать и возвращать копии данных изменяемых и неизменяемых типов
Содержание учебной дисциплины
- Устройство Jupyter Notebook, основные типы данных
- Условные конструкции
- Циклы
- Списки и цикл for
- Методы строк и списков
- Множества, словари, кортежи
- Функции
- Регулярные выражения, токенизация текста.
- Морфология, лемматизация, распознавание именованных сущностей
- Работа с табличными и текстовыми файлами. Работа с JSON.
- Данные и их источники. Введение в инструменты.
- Введение в статистику. Базовые манипуляции с данными
- Типы данных. Создание новых переменных
- Генеральная совокупность и выборка. Частотные таблицы и распределения
- Описательные статистики: меры центральной тенденции и разброса
- Z-оценка. Выбросы.
- Корреляция
- Введение в визуализацию данных
- Продвинутая визуализация данных
Элементы контроля
- Контрольная работа по Python
- Домашние задания
- Тесты
- Контрольная по анализу данных
- ПроектСтудентам предлагается применить полученные знания и навыки для анализа набора данных, релевантного для их учебной и научной деятельности вне курса. Проект может также предполагать предварительные сбор и создание такого набора обработанных данных из первичных, необработанных данных.
Промежуточная аттестация
- 2022/2023 учебный год 4 модуль0.2 * Домашние задания + 0.2 * Проект + 0.2 * Контрольная работа по Python + 0.2 * Контрольная по анализу данных + 0.2 * Тесты