• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2024/2025

Сбор данных с Web-scraping и API для социально-научных исследований

Статус: Курс по выбору (Политология)
Направление: 41.03.04. Политология
Когда читается: 4-й курс, 3 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 4
Контактные часы: 40

Программа дисциплины

Аннотация

Курс знакомит студентов с технологией web-scraping и предполагает работу с основными библиотеками для сбора данных с html-страниц (BeautfiulSoup, Requests, Selenium), включает в себя работу с API, работу с динамическими страницами (включая работу с отдельными элементами страницы) посредством Selenium, работу с API и библиотеками для получения данных из социальных сетей и мессенджеров. Каждый блок занятий будет посвящен работе с определенным способом получения данных со страниц веб-сайтов, социальных сетей и мессенджеров. В начале студенты научатся обрабатывать данные .json, работать с html-разметкой страниц, вспомнят основы работы с библиотекой pandas. Далее, на каждом из занятий, студенты будут отрабатывать навыки сбора данных на примере открытого API ВКонтакте, библиотеки Pyrogram для сбора данных из Telegram, соберут открытые судебные данные с сайта Московского Городского Суда с помощью Selenium и отработают свои навыки на других источниках. Домашние задания по проекту предполагают продолжение работы на семинаре. Итоговый проект предполагает самостоятельно написанный студентом парсер с использованием requests, Selenium или сторонней библиотеки для сбора данных для сайта или социальной сети по выбору студента и дескриптивный анализ полученных данных. В результате освоения курса студенты познакомятся с языком html, освоят практические навыки web-scraping’а данных с html-страниц, работы с API социальных сетей и библиотек, написанных для получения данных из мессенджеров, напишут несколько работающих скраперов на языке программирования Python. Регулярная практика навыков web-scraping’а позволит им писать новые скрипты для сбора и предобработки данных из открытых источников и в будущем самостоятельно собирать данные для социально–научных и консалтинговых исследований. Курс рассчитан на студентов, успешно освоивших курс “Введение в программирование в Python”.