Бакалавриат
2021/2022
Практикум: Web-scraping: сбор данных из баз данных и интернет-источников
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс по выбору (Психология)
Направление:
37.03.01. Психология
Кто читает:
Департамент психологии
Где читается:
Факультет социальных наук
Когда читается:
4-й курс, 3 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Тамбовцева Алла Андреевна
Язык:
русский
Кредиты:
3
Контактные часы:
20
Программа дисциплины
Аннотация
Учебная дисциплина «Практикум: Web-scraping - сбор данных из баз данных и интернет-источников» раскроет студентам-психологам основы сбора данных из интернет-источников средствами Python. Особое внимание на курсе уделяется работе с текстом и выгрузке информации из социальных сетей.
Цель освоения дисциплины
- Овладение инструментами Python для сбора данных из интернет-источников и выгрузки текстовой информации из социальных сетей.
Планируемые результаты обучения
- владеть навыками работы с различными структурами данных в Python
- владеть навыками выгрузки данных из веб-страниц с помощью библиотеки BeautifulSoup
- владеть навыками управления браузером помощью библиотеки Selenium
- владеть основами синтаксиса HTML, уметь работать с тэгами и их атрибутами
- уметь формировать запросы к API средствами Python
Содержание учебной дисциплины
- Введение в web-scraping. Язык HTML и его особенности.
- Структуры данных в Python: списки, кортежи, словари.
- Библиотека BeautifulSoup как инструмент для выгрузки данных из HTML-страниц.
- Библиотека Selenium как инструмент управления браузером.
- Web-scraping: часто встречающиеся проблемы и способы их решения.
- Работа с API средствами Python.
Элементы контроля
- Домашние заданияДомашние задания представляют собой набор задач разной сложности, которые весят разное количество баллов. Оценка за домашние задания, которая подставляется в формулу оценивания, определяется как неокругленное среднее арифметическое оценок, полученных за домашние работы. Домашние задания, сданные после срока, оцениваются с использованием понижающих коэффициентов: опоздание в пределах часа – штраф 10% от полученной оценки, в пределах суток – штраф 30%, в пределах недели – штраф 70%. Домашние задания, сданные через неделю после указанного срока и позже, не принимаются и не оцениваются.
- ПроектПроект представляет собой написание корректно работающей программы по сбору данных из интернет-источников средствами Python. Результаты проекта представляются в следующем виде: программа на Python (файл с расширением .py или файл Jupyter Notebook с расширением .ipynb), файл с документацией программы, который содержит её описание, ограничения и потенциальные проблемы. Проект выполняется индивидуально. Тема проекта выбирается студентами самостоятельно.
Список литературы
Рекомендуемая основная литература
- G. Nair, V. (2014). Getting Started with Beautiful Soup. Birmingham, UK: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=691839
- Федоров Д. Ю. - ПРОГРАММИРОВАНИЕ НА ЯЗЫКЕ ВЫСОКОГО УРОВНЯ PYTHON 2-е изд. Учебное пособие для СПО - М.:Издательство Юрайт - 2019 - 161с. - ISBN: 978-5-534-11961-9 - Текст электронный // ЭБС ЮРАЙТ - URL: https://urait.ru/book/programmirovanie-na-yazyke-vysokogo-urovnya-python-446505
Рекомендуемая дополнительная литература
- Budi Kurniawan - HTML : A Beginner's Tutorial - Brainy Software, 2015-116 - Текст электронный - https://ebookcentral.proquest.com/lib/hselibrary-ebooks/detail.action?docID=4339838