We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Introduction to Open Data

2024/2025
Academic Year
RUS
Instruction in Russian
3
ECTS credits
Delivered at:
Institute of Media
Course type:
Compulsory course
When:
2 year, 3 module

Instructor


Орлова Ксения Викторовна

Программа дисциплины

Аннотация

В фокусе дисциплины — изучение концепции «открытые данные» (Open Data) и практика работы с данными. Целью освоения дисциплины является теоретическая и практическая подготовка студентов для квалифицированного использования открытых данных в профессиональной деятельности. Курс включает изучение основ концепции открытых данных, знакомство с ландшафтом и источниками открытых данных, освоение методов работы с данными, включая обработку, анализ и публикацию данных. По итогам курса студенты будут способны самостоятельно выполнять практические задания, связанные с анализом данных, а также публиковать и делиться собственными наборами данных.
Цель освоения дисциплины

Цель освоения дисциплины

  • Познакомить с основами концепции открытых данных, признаков открытых данных и их отличий от другой общедоступной информации.
  • Познакомить с ландшафтом и специфики устройства открытых данных в мире и России.
  • Освоить методы поиска, сбора и получения данных: извлечение данных из PDF, скачивание наборов машиночитаемых данных, подключение к API.
  • Освоить методы подготовки данных перед анализом (этапы обработки и очистки данных). Изучение инструментов: Google Spreadsheets, OpenRefine
  • Освоить методы анализа данных с помощью инструментов табличного редактора (Google Spreadsheets) и языка программирования Python и соответствующих библиотек (Pandas, NumPy др.).
  • Освоить методы визуализации данных с помощью библиотек визуализации в Python.
  • Освоить методы публикации наборов открытых данных.
  • Изучить стандарты публикации открытых данных, метаданные.
  • Изучить стандарты оформления паспортов наборов данных.
  • Изучить систему контроля версия с открытым исходным кодом Git и платформу Github.
Планируемые результаты обучения

Планируемые результаты обучения

  • Применяет знания об открытых данных и способен различать открытые данные от другой общедоступной информации. Способен назвать основные определения и признаки открытых данных
  • Владеет методами поиска и извлечения открытых данных из разных источников и типов данных
  • Оценивает значение тех или иных наборов данных для общества. Определяет основные преимущества и трудности публикации и получения открытых данных из государственных и негосударственных источников
  • Владеет инструментарием оценки качества опубликованных наборов данных
  • Владеет правовыми и юридическими аспектами, связанными с публикацией и получением открытых данных, включая их лицензирование и условия использования
  • Владеет навыками чтения и предварительного анализа структуры набора данных
  • Применяет наборы открытых данных в разных типах и форматах данных
  • Владеет методами проверки качества данных и подготовки данных для последующего анализа данных
  • Владеет основами анализа данных и основными инструментами (Google Spreadsheets, Pandas, NumPy)
  • Владеет методами визуализации данных с помощью библиотек Python (Matplotlib, Seaborn и др.)
  • Применяет способы публикации собственных наборов данных и результатов исследований на Github
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в открытые данные
  • Открытые данные и лицензии
  • Формирования навыков публикации наборов открытых данных
  • Типы, форматы и структура данных
  • Обработка и структура данных
  • Введение в анализ данных
  • Изучение Git и работа с командной строкой
Элементы контроля

Элементы контроля

  • неблокирующий Домашние задания
  • неблокирующий Итоговый проект
  • неблокирующий Активность на семинарах
  • неблокирующий Посещаемость
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 3rd module
    0.25 * Активность на семинарах + 0.25 * Домашние задания + 0.4 * Итоговый проект + 0.1 * Посещаемость
Список литературы

Список литературы

Рекомендуемая основная литература

  • Yannis Charalabidis, Anneke Zuiderwijk, Charalampos Alexopoulos, Marijn Janssen, Thomas Lampoltshammer, & Enrico Ferro. (2018). The World of Open Data : Concepts, Methods, Tools and Experiences. Springer.

Рекомендуемая дополнительная литература

  • Telea, A. (2015). Data Visualization : Principles and Practice, Second Edition (Vol. Second edition). Boca Raton, FL: A K Peters/CRC Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1763852

Авторы

  • Переяслов Алексей Денисович
  • Уваров Федор Максимович