• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2022/2023

Практикум: Web-scraping: сбор данных из баз данных и интернет-источников

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус: Курс по выбору (Психология)
Направление: 37.03.01. Психология
Когда читается: 3-й курс, 3 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 3
Контактные часы: 20

Программа дисциплины

Аннотация

Учебная дисциплина «Практикум: Web-scraping - сбор данных из баз данных и интернет-источников» раскроет студентам-психологам основы сбора данных из интернет-источников средствами Python. Особое внимание на курсе уделяется работе с текстом и выгрузке информации из социальных сетей.
Цель освоения дисциплины

Цель освоения дисциплины

  • Овладение инструментами Python для сбора данных из интернет-источников и выгрузки текстовой информации из социальных сетей.
Планируемые результаты обучения

Планируемые результаты обучения

  • владеть навыками работы с различными структурами данных в Python
  • владеть навыками выгрузки данных из веб-страниц с помощью библиотеки BeautifulSoup
  • владеть навыками управления браузером помощью библиотеки Selenium
  • владеть основами синтаксиса HTML, уметь работать с тэгами и их атрибутами
  • уметь формировать запросы к API средствами Python
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в web-scraping. Язык HTML и его особенности.
  • Структуры данных в Python: списки, кортежи, словари.
  • Библиотека BeautifulSoup как инструмент для выгрузки данных из HTML-страниц.
  • Библиотека Selenium как инструмент управления браузером.
  • Web-scraping: часто встречающиеся проблемы и способы их решения.
  • Работа с API средствами Python.
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
    Домашнее задание – набор задач по программированию, где каждая задача весит определённое количество баллов. Домашние задания сдаются в виде ipynb-файлов с решениями. Оценка за все домашние задания – неокруглённое среднее за все домашние задания.
  • неблокирующий Проект
    Проект представляет собой написание корректно работающей программы по сбору данных из интернет-источников средствами Python. Результаты проекта представляются в следующем виде: программа на Python (файл с расширением .py или файл Jupyter Notebook с расширением .ipynb), файл с документацией программы, который содержит её описание, ограничения и потенциальные проблемы. Проект выполняется индивидуально. Тема проекта выбирается студентами самостоятельно.
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 3 модуль
    0.5 * Домашнее задание + 0.5 * Проект
Список литературы

Список литературы

Рекомендуемая основная литература

  • G. Nair, V. (2014). Getting Started with Beautiful Soup. Birmingham, UK: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=691839
  • Федоров, Д. Ю.  Программирование на языке высокого уровня Python : учебное пособие для среднего профессионального образования / Д. Ю. Федоров. — 2-е изд. — Москва : Издательство Юрайт, 2019. — 161 с. — (Профессиональное образование). — ISBN 978-5-534-11961-9. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/446505 (дата обращения: 28.08.2023).

Рекомендуемая дополнительная литература

  • Budi Kurniawan - HTML : A Beginner's Tutorial - Brainy Software, 2015-116 - Текст электронный - https://ebookcentral.proquest.com/lib/hselibrary-ebooks/detail.action?docID=4339838