Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.

  • A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2020/2021

Получение и очистка данных

Направление: 45.03.03. Фундаментальная и прикладная лингвистика
Когда читается: 4-й курс, 3 модуль
Формат изучения: с онлайн-курсом
Язык: английский
Кредиты: 3
Контактные часы: 2

Course Syllabus


Before you can work with data you have to get some. This course will cover the basic ways that data can be obtained. The course will cover obtaining data from the web, from APIs, from databases and from colleagues in various formats. It will also cover the basics of data cleaning and how to make data “tidy”. Tidy data dramatically speed downstream data analysis tasks. The course will also cover the components of a complete data set including raw data, processing instructions, codebooks, and processed data. The course will cover the basics needed for collecting, cleaning, and sharing data. The Johns Hopkins University: https://www.coursera.org/learn/data-cleaning
Learning Objectives

Learning Objectives

  • to introduce students to the basic ways that data can be obtained
  • to introduce students to the basics of data cleaning and how to make data “tidy”
Expected Learning Outcomes

Expected Learning Outcomes

  • applies data cleaning basics to make data "tidy"
  • understands common data storage systems
  • obtains usable data from the web, APIs, and databases
  • uses R for text and date manipulation
Course Contents

Course Contents

  • Finding data and reading different file types
  • The most common data storage systems
  • Organizing, merging and managing the data you have
  • Text and date manipulation in R
Assessment Elements

Assessment Elements

  • non-blocking online course
  • non-blocking discussion with a HSE instructor
  • non-blocking online course
  • non-blocking discussion with a HSE instructor
Interim Assessment

Interim Assessment

  • Interim assessment (3 module)
    0.3 * discussion with a HSE instructor + 0.7 * online course


Recommended Core Bibliography

  • Mailund, T. (2017). Beginning Data Science in R : Data Analysis, Visualization, and Modelling for the Data Scientist. New York: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1484645

Recommended Additional Bibliography

  • Wickham, H., & Grolemund, G. (2016). R for Data Science : Import, Tidy, Transform, Visualize, and Model Data (Vol. First edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1440131