Магистратура
2020/2021
Сбор и анализ количественных данных в рекламе и PR
Статус:
Курс обязательный (Интегрированные коммуникации)
Направление:
42.04.01. Реклама и связи с общественностью
Кто читает:
Департамент социологии
Где читается:
Факультет креативных индустрий
Когда читается:
1-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Прогр. обучения:
Интегрированные коммуникации
Язык:
русский
Кредиты:
4
Контактные часы:
40
Программа дисциплины
Аннотация
Курс посвящён основам языка программирования Python, применяемым для автоматизированного сбора данных (веб-скрапинга) и их анализа. Курс включает пакеты и модули Python, а также интерфейсы, позволяющие обращаться к API Youtube и использовать его методы для веб-скрапинга, структурировать собранные данные в формат Excel, применять описательную статистику и искать связи между парой переменных – с учётом их типов шкал.
Цель освоения дисциплины
- Научиться основам Python, изучить его пакеты и модули , а также интерфейсы, позволяющие обращаться к API Youtube и использовать его методы для веб-скрапинга, структурировать собранные данные в формат Excel, применять описательную статистику и искать связи между парой переменных -- с учётом их типов шкал.
Планируемые результаты обучения
- Умение различать три основных типа шкал переменных (номинальные, порядковые, интервальные-числовые) на основе ориентиров.
- Умение применять к переменным релевантные методы описательной статистики (одномерные частотные таблицы и графики, меры центральной тенденции и неоднородности) -- с учётом их типов шкал.
- Умение применять к переменным релевантные методы парной связи (коэффициент корреляции Пирсона, коэффициент ранговой корреляции Спирмана, критерий Хи-квадрат и его остатки) -- с учётом их типов шкал; и интерпретировать результаты.
- Умение посредством Python правильно авторизоваться в YouTube, создать клиент API YouTube и применить его для веб-скрапинга изучаемого YouTube-канала.
- Умение посредством Python правильно оформить характеристики видео с изучаемого YouTube-канала в удобную таблицу Excel.
Содержание учебной дисциплины
- Основы веб-скрапинга: API YouTube и программная среда Python.Нюансы алгоритмов web scraping: доступ к удалённой информации, инструментарий, код страницы, структурированность выгружаемых данных (HTML-теги против JSON); иллюстративные кейсы. Большие данные VS статистические данные: ГС = ВС, нереактивность, цифровая среда, менее критична теоретическая рамка; проблемы концептуализации, пропущенные данные Анализ больших данных в социальных науках: VS эконометрика и компьютерные науки. Теоретическая рамка, категориальные переменные, интерпретируемость промежуточных шагов, баланс точности и интерпретируемости результатов. API YouTube. Доступ к удалённому серверу YouTube через интерфейс API. Интерфейс Anaconda & Jupyter. Авторизация и создание клиента API. Классы объектов: текст, или "строка" (str) и числа (float и int). Команды, функции (методы) и их аргументы, модули и пакеты.
- Основы работы с выгрузкой результатов веб-скрапинга.Классы объектов: "словарь" (dict) и "список" (list). Их индексирование и команда len(). Функции для текстов: .join() , .split() , .replace() . Функции для словарей: .keys() . Функции для списков: .append() , .extend() . Цикл for in. Условная конструкция if. Модуль pandas и его функции: .loc() , .iloc() .
- Типы шкал, траектории анализа данных.Основные типы шкал: номинальные, порядковые, интервальные. 5 ориентиров для их различения. 4 основных траекторий анализа данных: описательная статистика, парная связь, объяснение и прогнозирование, группировка. Статистические базы данных (полезные бесплатные источники статистической, социальной и социологической информации, выраженной в числах).
- Методы описательной статистики с учётом типов шкал.Статистические гипотезы. Одномерные частотные таблицы и графики. Меры центральной тенденции: мода, медиана, среднее арифметическое значение. Меры неоднородности: энтропийный коэффициент вариации, нормированный межквартильный разброс, дисперсия и стандартное отклонение.
- Методы парной связи с учётом типов шкал.Предварительные процедуры: идентификация типа шкалы каждой переменной, содержательные гипотезы и 2-мерные графики. Ориентиры для выбора методов парной связи, релевантных каждому сочетанию типов шкал. Коэффициент корреляции Пирсона. Линейная прямая/обратная связь; сильная/умеренная/слабая. Коэффициент ранговой корреляции Спирмана. Монотонная прямая/обратная связь; сильная/умеренная/слабая. Критерий Хи-квадрат и его остатки. Криволинейная связь. Идея: значения одной переменной «притягиваются» или «отталкиваются» значениями другой переменной.
Элементы контроля
- домашние работы
- экзаменЭкзамен проводится в письменной форме в Zoom по ссылке: https://zoom.us/j/98759954871?pwd=cVlwa0pBeU1TNzgveEl4QTV2T3FuQT09. К экзамену следует подключиться за 5 минут до его начала. Компьютер студента должен удовлетворять требованиям: наличие доступа в интернет и средств передачи звука. Пошаговая инструкция по технической подготовке студента к экзамену и подключению к экзаменационной конференции: 1. Если Zoom не был установлен на Вашем компьютере, то по указанной выше ссылке начнётся автоматическая загрузка дистрибутива приложения Zoom. По завершении загрузки, запустите этот дистрибутив. Если приложение Zoom уже установлено, достаточно его запустить. 2. После запуска Zoom нажмите ‘Join a meeting’ («Войти в конференцию»). 3. Введите ‘Meeting ID’ («Идентификатор конференции») и укажите свои реальные имя и фамилию в графе «Введите ваше имя». Поставьте галочку в поле «Выключить моё видео». 4. Введите пароль конференции, если он будет запрошен 5. Если в какой-то момент Zoom запросит доступ к микрофону или звуку компьютера, предоставьте этот доступ. 6. Если всё успешно пройдено, то Вы подключитесь к нужной экзаменационной конференции. 7. После начала экзаменационной конференции студенты могут задать вопросы; после получения ответов они распределяются в персональные сессионные залы (‘Breakout Room’) для выполнения экзаменационного задания. 8. В персональном зале всегда держите включённой демонстрацию экрана (включается зелёной кнопкой на панели управления снизу), чтобы преподаватели и ассистенты могли следить за выполнением задания. По умолчанию, Вы находитесь в зале одни. Если Вам нужно обратиться к преподавателю, воспользуйтесь кнопкой ‘Ask for help’ («Обратиться за помощью») снизу на панели управления – преподавателю придёт уведомление, и он войдёт в Ваш зал. Экзамен длится 20 минут с момента распределения студентов по персональным сессионным залам и выдачи экзаменационного задания. Грубым нарушением правил проведения экзамена является общение студента с кем-либо, кроме преподавателей и ассистентов по данной учебной дисциплине. При долговременном нарушении связи (10 минут и более) студент не может продолжить участие в экзамене. Процедура пересдачи аналогична процедуре сдачи.
- активность на занятиях
Промежуточная аттестация
- Промежуточная аттестация (2 модуль)0.2 * активность на занятиях + 0.45 * домашние работы + 0.35 * экзамен
Список литературы
Рекомендуемая основная литература
- Harish Garg. (2018). Mastering Exploratory Analysis with Pandas : Build an End-to-end Data Analysis Workflow with Python. Packt Publishing.
Рекомендуемая дополнительная литература
- Fink, C. (2020). metatube: Python script to download YouTube metadata. https://doi.org/10.5281/zenodo.3773303
- McKinney, W. (2018). Python for Data Analysis : Data Wrangling with Pandas, NumPy, and IPython (Vol. Second edition). Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1605925