Бакалавриат
2022/2023
Практикум: Web-scraping: сбор данных из баз данных и интернет-источников
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс по выбору (Психология)
Направление:
37.03.01. Психология
Кто читает:
Департамент психологии
Где читается:
Факультет социальных наук
Когда читается:
3-й курс, 3 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Тамбовцева Алла Андреевна
Язык:
русский
Кредиты:
3
Контактные часы:
20
Программа дисциплины
Аннотация
Учебная дисциплина «Практикум: Web-scraping - сбор данных из баз данных и интернет-источников» раскроет студентам-психологам основы сбора данных из интернет-источников средствами Python. Особое внимание на курсе уделяется работе с текстом и выгрузке информации из социальных сетей.
Цель освоения дисциплины
- Овладение инструментами Python для сбора данных из интернет-источников и выгрузки текстовой информации из социальных сетей.
Планируемые результаты обучения
- владеть навыками работы с различными структурами данных в Python
- владеть навыками выгрузки данных из веб-страниц с помощью библиотеки BeautifulSoup
- владеть навыками управления браузером помощью библиотеки Selenium
- владеть основами синтаксиса HTML, уметь работать с тэгами и их атрибутами
- уметь формировать запросы к API средствами Python
Содержание учебной дисциплины
- Введение в web-scraping. Язык HTML и его особенности.
- Структуры данных в Python: списки, кортежи, словари.
- Библиотека BeautifulSoup как инструмент для выгрузки данных из HTML-страниц.
- Библиотека Selenium как инструмент управления браузером.
- Web-scraping: часто встречающиеся проблемы и способы их решения.
- Работа с API средствами Python.
Элементы контроля
- Домашнее заданиеДомашнее задание – набор задач по программированию, где каждая задача весит определённое количество баллов. Домашние задания сдаются в виде ipynb-файлов с решениями. Оценка за все домашние задания – неокруглённое среднее за все домашние задания.
- ПроектПроект представляет собой написание корректно работающей программы по сбору данных из интернет-источников средствами Python. Результаты проекта представляются в следующем виде: программа на Python (файл с расширением .py или файл Jupyter Notebook с расширением .ipynb), файл с документацией программы, который содержит её описание, ограничения и потенциальные проблемы. Проект выполняется индивидуально. Тема проекта выбирается студентами самостоятельно.
Список литературы
Рекомендуемая основная литература
- G. Nair, V. (2014). Getting Started with Beautiful Soup. Birmingham, UK: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=691839
- Федоров, Д. Ю. Программирование на языке высокого уровня Python : учебное пособие для среднего профессионального образования / Д. Ю. Федоров. — 2-е изд. — Москва : Издательство Юрайт, 2019. — 161 с. — (Профессиональное образование). — ISBN 978-5-534-11961-9. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/446505 (дата обращения: 28.08.2023).
Рекомендуемая дополнительная литература
- Budi Kurniawan - HTML : A Beginner's Tutorial - Brainy Software, 2015-116 - Текст электронный - https://ebookcentral.proquest.com/lib/hselibrary-ebooks/detail.action?docID=4339838