Бакалавриат
2020/2021
Основы программирования в R
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс по выбору (Политология)
Направление:
41.03.04. Политология
Кто читает:
Кафедра высшей математики
Где читается:
Факультет социальных наук
Когда читается:
3-й курс, 3, 4 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Тамбовцева Алла Андреевна
Язык:
русский
Кредиты:
4
Контактные часы:
58
Программа дисциплины
Аннотация
Для того чтобы эффективно работать с большими массивами данных, необходимо знать основы программирования, так как именно навыки программирования позволяют на продвинутом уровне анализировать и визуализировать данные. В курсе используется язык программирования R, так как он включает в себя мощные библиотеки для визуализации данных и построения сложных эконометрических моделей. Дисциплина подразделяется на три блока. Первый блок представляет собой знакомство с основными типами и структурами данных, а также с управляющими конструкциями в R. Второй блок направлен на решение прикладных задач в R и включает темы, связанные с визуализацией и анализом данных, а также с представлением результатов количественных исследований. Третий блок посвящен выгрузке данных из веб-страниц и работе с API.
Цель освоения дисциплины
- Целями освоения дисциплины «Основы программирования в R» являются овладение навыками программирования на языке R, овладение методами обработки, визуализации и анализа качественных и количественных данных для решения политологических и социально-экономических задач.
Планируемые результаты обучения
- владеть навыками работы с базовыми структурами в R
- уметь создавать и выгружать аналитические отчеты с помощью RStudio
- владеть навыками программирования на языке R
- уметь выполнять разведывательный анализ данных, визуализировать качественные и количественные данные в R
- уметь реализовывать корреляционный и регрессионный анализ в R
- уметь выполнять обработку данных с tidyverse
- уметь создавать интерактивные аналитические панели с Shiny
Содержание учебной дисциплины
- Управляющие конструкции в R.Условные операторы if и else. Множественные и разветвленные условия. Циклы в R. Циклы vs векторные операции в R. Устройство функций в R. Написание пользовательских функций в R.
- Установка R и RStudio. Типы данных и структуры данных в R.Установка R и RStudio. Консоль R. Знакомство с интерфейсом RStudio. Язык разметки Markdown. Публикация файлов на RPubs. Установка и загрузка библиотек в R. Знакомство с документацией R. R как калькулятор. Переменные в R. Типы данных: числовой, целочисленный, логический, текстовый, факторный. Базовые структуры в R: векторы, матрицы, списки.
- Загрузка данных в RРазнообразие форматов данных: таблицы Excel (xls, xlsx), таблицы Stata и SPSS (dta, sav), текстовые файлы (txt, csv). Загрузка данных в R. Открытие, изменение и запись файлов в R.
- Основы работы с датафреймамиДатафрейм в R как структура данных. Выбор, добавление и удаление строк и столбцов датафрейма. Фильтрация строк по условиям. Обращение к элементам датафрейма и их изменение.
- Разведывательный анализ и визуализация данныхВведение в разведывательный анализ данных в R: описательные статистики. Базовые графики в R с функцией plot(). Визуализация количественных данных в R: гистограммы, графики плотности распределения, ящики с усами. Визуализация качественных данных в R: таблицы сопряженности, столбчатые и круговые диаграммы. Типы и распределения данных. Проверка данных на нормальность.
- Создание веб-приложений с ShinyВозможности проекта Shiny в R. Создание интерактивных аналитических панелей. Примеры панелей с графиками и меню для пользователей.
- Корреляционный и регрессионный анализ в RКоэффициенты корреляции Пирсона и Спирмена в R. Корреляционные матрицы в R. Визуализация корреляций между переменными средствами R. Парная и множественная регрессия в R. Выгрузка результатов регрессионного анализа в отчет
- Обработка данных средствами библиотеки tidyverseРабота с датафреймом средствами библиотеки dplyr и tidyr. Текстовые данные и регулярные выражения с библиотекой stringr.
- Визуализация данных с помощью библиотеки ggplot2Возможности библиотеки ggplot2: многослойная графика. Графики для визуализации количественных и качественных данных с помощью средств ggplot2
- Построение и раскраска географических карт средствами RСтатичные карты и shape-файлы. Раскраска и редактирование карт с помощью библиотеки rgdal
- Парсинг веб-страниц средствами RУстройство HTML-файлов. Выгрузка информации из html-файлов с помощью библиотеки rvest.
- Подключение к API с RПодключение к API средствами R на примерах API Wikipedia и API ВКонтакте
Элементы контроля
- Проект
- Аудиторная работа:
- Домашние задания
- Экзамен:
- Проект
- Аудиторная работа:
- Домашние задания
- Экзамен:Экзамен проводится в письменной форме. Экзамен проводится на платформе Zoom (https://zoom.us/). К экзамену необходимо подключиться за 10 минут до начала. Компьютер студента должен удовлетворять требованиям: наличие работающего микрофона, поддержка Zoom. Для участия в экзамене студент обязан: поставить на аватар свою фотографию, включить микрофон. Во время экзамена студентам запрещено: пользоваться социальными сетями, переговариваться и переписываться с другими студентами, создавать новые вопросы на ресурсах вида StackOverFlow и компьютерных форумах. Во время экзамена студентам разрешено: пользоваться материалами курса и интернет-ресурсами по программированию в R. Кратковременным нарушением связи во время экзамена считается нарушение менее 3 минут. Долговременным нарушением связи во время экзамена считается нарушение 3 минуты и более. При долговременном нарушении связи студент не может продолжить участие в экзамене. Процедура пересдачи подразумевает использование усложненных заданий.
Промежуточная аттестация
- Промежуточная аттестация (4 модуль)0.12 * Аудиторная работа: + 0.24 * Домашние задания + 0.24 * Проект + 0.4 * Экзамен:
Список литературы
Рекомендуемая основная литература
- Wickham, H., & Grolemund, G. (2016). R for Data Science : Import, Tidy, Transform, Visualize, and Model Data (Vol. First edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1440131
Рекомендуемая дополнительная литература
- Bilder, C. R., & Loughin, T. M. (2014). Analysis of Categorical Data with R. Boca Raton: Chapman and Hall/CRC. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1763590