We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Automated Big Data Collection in Economic Sociology Studies

2023/2024
Academic Year
RUS
Instruction in Russian
6
ECTS credits
Course type:
Compulsory course
When:
1 year, 1, 2 module

Instructor

Программа дисциплины

Аннотация

Стремительный рост технологий привел к тому, что в данный момент исследователи имеют доступ к данными о самых разных аспектах жизни людей и о происходящих экономических и социальных процессах. Подобные данные отличаются большими объемами, разной степенью структурированности, многомерностью и специфическими формами хранения и доступа, и требуют от исследователя дополнительных навыков по сбору и обработке подобных данных. Курс направлен на знакомство с особенностями сбора и анализа больших данных в экономико-социологических исследованиях. Первая часть курса посвящена основам работы в среде R: элементы синтаксиса, объекты и структуры данных, манипуляции с данными. Вторая часть курса посвящена импорту и препроцессингу данных из разных источников - файловые базы данных разных форматов (в том числе *.sav), удаленные базы данных. Отдельное внимание уделено скрапингу данных веб-страниц, работе с открытыми API, в том числе с API социальных сетей (в частности, Vkontakte). В третьей части курса рассмотрены методы и принципы визуализации данных (статичные и интерактивные графики).
Цель освоения дисциплины

Цель освоения дисциплины

  • Дать студентам представление об основных задачах и инструментах, стоящих перед аналитиками в современных бизнес-компаниях.
  • Показать студентам возможные перспективы профессионального развития и заложить необходимые базовые навыки.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать виды источников данных. Уметь импортировать xlsx, sav, csv-файлы.
  • Знать основы синтаксиса R. Уметь делать базовые манипуляции с данными - семплинг, изменение строк и колонок, слияние таблиц, решейпинг, агрегации.
  • Знать общие концепции организации сети Интернет. Понимать и писать xpath-запросы и собирать данные с web-страниц. Уметь писать запросы к API Vkontakte.
  • Уметь визуализировать данные в основных типах графиков (линии, гистограммы, боксплоты). Знать правила корректных визуализаций.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в большие данные - идеи, технологии, методы и области применения.
  • Визуализация данных
  • Методы сбора удаленных данных. Скрапинг.
  • Виды источников данных
Элементы контроля

Элементы контроля

  • неблокирующий КР
  • неблокирующий ДЗ
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 учебный год 2 модуль
    0.7 * ДЗ + 0.3 * КР
Список литературы

Список литературы

Рекомендуемая основная литература

  • Мастицкий, С. Э. Визуализация данных с помощью ggplot2 / С. Э. Мастицкий. — Москва : ДМК Пресс, 2017. — 222 с. — ISBN 978-5-97060-470-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/107895 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Мастицкий, С. Э. Статистический анализ и визуализация данных с помощью R / С. Э. Мастицкий, В. К. Шитиков. — Москва : ДМК Пресс, 2015. — 496 с. — ISBN 978-5-97060-301-7. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/73072 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Авторы

  • Управителев Филипп Александрович
  • Королева Анастасия Романовна