Магистратура
2019/2020![Цель освоения дисциплины](/f/src/global/i/edu/objectives.svg)
![Планируемые результаты обучения](/f/src/global/i/edu/results.svg)
![Содержание учебной дисциплины](/f/src/global/i/edu/sections.svg)
![Элементы контроля](/f/src/global/i/edu/controls.svg)
![Промежуточная аттестация](/f/src/global/i/edu/intermediate_certification.svg)
![Список литературы](/f/src/global/i/edu/library.svg)
Автоматизированный сбор больших данных в экономико-социологических исследованиях
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс по выбору (Прикладные методы социального анализа рынков)
Направление:
39.04.01. Социология
Где читается:
Факультет социальных наук
Когда читается:
1-й курс, 3, 4 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Управителев Филипп Александрович
Прогр. обучения:
Прикладные методы социального анализа рынков
Язык:
русский
Кредиты:
4
Контактные часы:
60
Программа дисциплины
Аннотация
Стремительный рост технологий привел к тому, что в данный момент исследователи имеют доступ к данными о самых разных аспектах жизни людей и о происходящих экономических и социальных процессах. Подобные данные отличаются большими объемами, разной степенью структурированности, многомерностью и специфическими формами хранения и доступа, и требуют от исследователя дополнительных навыков по сбору и обработке подобных данных. Курс направлен на знакомство с особенностями сбора и анализа больших данных в экономико-социологических исследованиях. Первая часть курса посвящена основам работы в среде R: элементы синтаксиса, объекты и структуры данных, манипуляции с данными, создание кодбуков (codebooks). Вторая часть курса посвящена импорту и препроцессингу данных из разных источников - файловые базы данных разных форматов (в том числе *.sav), удаленные базы данных. Отдельное внимание уделено парсингу данных с веб-страниц, работе с открытыми API, в том числе с API социальных сетей (в частности, Vkontakte). В третьей части курса рассмотрены методы и принципы визуализации данных (статичные и интерактивные графики), основы эксплораторного анализа и практики создания воспроизводимых отчетов.
Цель освоения дисциплины
- Дать студентам представление о роли данных в современном мире и формирование базовых навыков работы с большими данными – импорт данных из разных источников, чистка и манипуляции с данными.
Планируемые результаты обучения
- Знать основы синтаксиса R. Уметь делать базовые манипуляции с данными - семплинг, изменение строк и колонок, слияние таблиц, решейпинг, агрегации.
- Знать виды источников данных. Уметь импортировать xlsx, sav, csv-файлы.
- Уметь визуализировать данные в основных типах графиков (линии, гистограммы, боксплоты). Знать правила корректных визуализаций.
- Знать общие концепции организации сети Интернет. Понимать и писать xpath-запросы и собирать данные с web-страниц. Уметь писать запросы к API Vkontakte.
Содержание учебной дисциплины
- Введение в большие данные - идеи, технологии, методы и области применения.Развитие технологий. Web2.0, удешевление технологий хранения, облачные технологии, интернет вещей, quantified self. Многообразие доступных данных. Тренды на открытую науку и предоставление данных в открытый доступ. Data-driven подход. Развитие машинного обучения и прочих методов анализа данных.
- Виды источников данныхЭтапы ETL. Структурированные и неструктурированные типы данных. Основные форматы файлов - txt, csv, xls, sav. Структура файлов. Виды разделителей, символы окончания строки. Проблема кодировок и различия операционных систем. SQL-базы данных. Удаленные базы данных (API). Неструктурированные данные - json, xml. NoSQL-базы данных. Сохранение или запись файлов, представление в внешних веб-приложения.
- Визуализация данныхЗадачи визуализации данных. Статичные графики, интерактивные визуализации, инфографика. Виды графиков - описательные, статистические, геокарты, многомерные графики. Принципы визуальной презентации данных. Ошибки в использовании линейных графиков, гистограмм, круговых и объемных диаграмм. Палитры для графиков.
- Методы сбора удаленных данных. Скрапинг.Сайты как источник данных. HTML, XPath, DOM-разметка. CSS-селекторы. Пакет rvest. Подключение и импорт данных из базы данных. Облачная архитектура. Подключение к API. Oauth-авторизация. Хранение персональных данных, законы о защите персональных данных.
Элементы контроля
- Контрольная работа 1Работа сдается в виде скрипта на R.
- Домашнее задание 1Работа сдается в markdown-формате.
- Контрольная работа 2Работа сдается в виде скрипта на R.
- Домашнее задание 2Работа сдается в markdown-формате. Оценка за дисциплину выставляется в соответствии с формулой оценивания от всех пройденных элементов контроля. Экзамен не проводится.
Промежуточная аттестация
- Промежуточная аттестация (4 модуль)0.35 * Домашнее задание 1 + 0.35 * Домашнее задание 2 + 0.1 * Контрольная работа 1 + 0.2 * Контрольная работа 2
Список литературы
Рекомендуемая основная литература
- Мастицкий С.Э., Шитиков В.К. - Статистический анализ и визуализация данных с помощью R - Издательство "ДМК Пресс" - 2015 - 496с. - ISBN: 978-5-97060-301-7 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/73072
Рекомендуемая дополнительная литература
- Introduction to R. (2016). France, Europe: HAL CCSD. https://doi.org/10.1051/eas/1677002