Бакалавриат
2023/2024
Наука о данных
Статус:
Курс обязательный (Совместная программа по экономике НИУ ВШЭ и РЭШ)
Направление:
38.03.01. Экономика
Где читается:
Факультет экономических наук
Когда читается:
2-й курс, 3, 4 модуль
Формат изучения:
с онлайн-курсом
Онлайн-часы:
20
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
6
Контактные часы:
64
Программа дисциплины
Аннотация
Изучение дисциплины «Наука о данных» базируется на следующих дисциплинах: математический анализ; линейная алгебра; Для освоения учебной дисциплины студенты должны владеть следующими знаниями и компетенциями: знать основные понятия курса математический анализ знать простейшие методы решения задач; Основные положения дисциплины должны быть использованы в дальнейшем при изучении следующих дисциплин: Эконометрика, машинное обучение, случайные процессы, прикладная микроэконометрика.
Цель освоения дисциплины
- получение навыков обработки и статистического анализа данных с применением специализированных компьютерных инструментов.
Планируемые результаты обучения
- владеть: - навыками сбора данных из структурированных и неструктурированных источников - навыками обработки данных - навыками визуализации данных
- знать: - синтаксис языков программирования Python и R - основные принципы обработки и визуализации данных - описание стандартных библиотек для сбора и обработки данных
- уметь: - решать простые алгоритмические задачи - извлекать информацию из внешних источников в автоматическом режиме - обрабатывать информацию средствами стандартных библиотек
Содержание учебной дисциплины
- Базовые понятия программирования. Переменные, операторы, управляющие конструкции, циклы.
- Типы данных в Python. Функции и элементы функционального программирования.
- Извлечение данных из различных источников (HTML, XML, CSV, JSON).
- Дескриптивная статистика. Построение графиков и диаграмм в Python и R
- Математические инструменты Python. Библиотеки numpy и Scipy
- Статистические инструменты Python. Библиотеки pandas, Statsmodels, scikit-learn.
- Введение в программирование на R. Типы данных и управляющие конструкции
- Работа с данными в R. Библиотека tidyverse и её компоненты. dplyr и tidyr.
- Визуализация данных в R. Библиотека ggplot2.
- Основы работы с базами данных. Язык запросов SQL
- Извлечение информации из текстов. Регулярные выражения
Элементы контроля
- Домашние заданияОценка за домашние задания является средней от оценок за каждое задание (возможно, с весами, пропорциональными трудоёмкости каждого ДЗ).
- Итоговый проект40% оценки
Промежуточная аттестация
- 2023/2024 учебный год 4 модуль0.5 * Домашние задания + 0.5 * Итоговый проект
Список литературы
Рекомендуемая основная литература
- Федоров, Д. Ю. Программирование на языке высокого уровня Python : учебное пособие для среднего профессионального образования / Д. Ю. Федоров. — 2-е изд. — Москва : Издательство Юрайт, 2019. — 161 с. — (Профессиональное образование). — ISBN 978-5-534-11961-9. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/446505 (дата обращения: 28.08.2023).
Рекомендуемая дополнительная литература
- Черткова, Е. А. Статистика. Автоматизация обработки информации : учебное пособие для вузов / Е. А. Черткова ; под общей редакцией Е. А. Чертковой. — 2-е изд., испр. и доп. — Москва : Издательство Юрайт, 2019. — 195 с. — (Университеты России). — ISBN 978-5-534-01429-7. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/437242 (дата обращения: 28.08.2023).