• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2023/2024

Сбор и анализ количественных данных в рекламе и PR

Статус: Маго-лего
Когда читается: 3, 4 модуль
Онлайн-часы: 24
Охват аудитории: для всех кампусов НИУ ВШЭ
Преподаватели: Петров Александр Михайлович
Язык: русский
Кредиты: 6
Контактные часы: 8

Программа дисциплины

Аннотация

Курс “Сбор и анализ количественных данных в рекламе и PR” состоит из трех тематических блоков, посвященных аналитическим навыкам, необходимым для работы с большими и малыми данными. В первой части курса студенты познакомятся с языком программирования Python, а также его модулями и библиотеками для сбора и анализа количественных данных. Затем, мы поговорим о сборе количественных данных из открытых источников, обработке неструктурированных данных и создании полноценных массивов данных. Наконец, освоим базовые инструменты прикладной статистики и машинного обучения на курсе будут рассмотрены способы обобщения и выявления закономерностей в данных как главная цель анализа. В результате, цель данного курса – обеспечить студентов необходимыми прикладными навыками и теоретическими знаниями для работы с эмпирическими данными, обобщения полученных результатов и создания уникальных коммуникационных продуктов на основании количественного исследования. Данный курс ориентирован на студентов разного уровня математической подготовки и знания языков программирования. Задания на курсе получат прикладные знания о программировании, теории вероятностей, статистике и машинном обучении, что позволит им с нуля освоить базовые инструменты сбора и анализа данных. Курс сочетает в себе лучшие практики аналитической работы, анализа больших данных и основы дата-ориентированных коммуникаций, что является приоритетным направлением в индустрии сегодня.
Цель освоения дисциплины

Цель освоения дисциплины

  • Обеспечить студентов необходимыми прикладными навыками и теоретическими знаниями для работы с эмпирическими данными, обобщения полученных результатов и создания уникальных коммуникационных продуктов на основании количественного исследования.
Планируемые результаты обучения

Планируемые результаты обучения

  • Решать задачи по программированию с использованием языка программирования Python
  • Использовать корректно синтаксис языка программирования Python при решении задач
  • Описывать задачи рекламы и PR в терминах объектов и структур данных в Python
  • Внедрять решения библиотеки Pandas для структурирования и описательного анализа данных
  • Различать структурированные и неструктурированный данные
  • Обобщать информацию из сырых данных с использованием библиотеки Pandas в Python
  • Проектировать алгоритмы для автоматического сбора данных с веб-страниц с использованием языка Python
  • Преобразовывать неструктурированные данные из открытых источников в табличные структуры
  • Формулировать запросы с использованием библиотеки requests для получения данных из открытых источников
  • Разрабатывать самостоятельно дизайн исследования для решения прикладных коммуникационных задач
  • Обосновывать выбор качественной или количественной методологии
  • Определять выборочное исследование и называть его основные черты
  • Применять методологию выборочного исследования для решения прикладных коммуникационных задач
  • Объяснять основные концепции выборочных оценок
  • Различать различные семейства статистических распределений
  • Обобщать данные с использованием методов описательной статистики
  • Отличать статистические гипотезы и гипотезы содержательные
  • Сопоставлять статистические критерии со статистическими гипотезами для их проверки
  • Выдвигать гипотезы для проверок статистическими критериями
  • Формулировать гипотезы о наличии парной взаимосвязи
  • Отличать шкалы при измерении показателей в рекламе и PR
  • Аргументировать выводы о наличии или отсутствии связи с использованием коэффициентов корреляции
  • Обобщать данные с использованием инструментов визуализации
  • Создавать нарратив для коммуникации выводов на основании визуализации данных
  • Сопоставлять типы данных и инструменты их визуализации
  • Осуществлять разведывательный анализ данных, объединять и переформатировать данные для ответа на содержательные вопросы
  • Формулировать предварительные выводы по описательным статистикам
  • Визуализировать и корректно интерпретировать результаты разведывательного этапа анализа данных
  • Прогнозировать количественные показатели в рекламе и PR с использованием линейной регрессии
  • Формулировать содержательные задачи о предсказании в терминах линейной регресии
  • Классифицировать объекты в рекламе и PR с использованием логистической регрессии
  • Формулировать содержательные задачи о классификации в терминах логистической регрессии
  • способен разрабатывать модели на основе линейной регрессии
  • умеет подготовить модель классификации текстовых данных
  • способен создавать рекомендательные модели машинного обучения на данных соцмедиа
  • умеет запускать большие языковые NLP-модели (современные LLM-модели)
  • может выбрать необходимые параметры и запустить сервер для вычислений
  • способен осуществить подготовку python-модели для публикации в веб – разработать первичный вариант АПИ-сервиса
  • умеет развертывать/публиковать разработанные модели в Интернет
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Язык программирования Python как инструмент для сбора и анализа количественных данных в PR
  • Обработка данных в Python с использованием библиотеки Pandas
  • Автоматизированный сбор данных с использованием инструментов веб-парсинга
  • Сбор и анализ данных для прикладных коммуникационных задач
  • Введение в анализ данных
  • Базовый анализ взаимозависимости: коэффициенты корреляции
  • Работа с признаками и разведывательный анализ данных
  • Предсказание: задача линейной регрессии в рекламе и PR
  • Классификация: задача логистической регрессии в рекламе и PR
  • Модели на основе линейной регрессии для прогнозирования количества реакций к публикации
  • Классификация текстов
  • Кластеризация текстов
  • Кластеризация авторов
  • Анализ предпочтений пользователей
  • Современные языковые модели (GPT и др.)
  • Подготовка сервера вычислений для публикации модели в продакшн
  • Развертывание сервиса для работы с моделью
  • Развертывание сервиса машинного обучения в Интернет
Элементы контроля

Элементы контроля

  • неблокирующий Тесты
  • неблокирующий Контрольная работа 1
  • неблокирующий Контрольная работа 2
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 4th module
    0.25 * Контрольная работа 1 + 0.25 * Контрольная работа 2 + 0.5 * Тесты
Список литературы

Список литературы

Рекомендуемая основная литература

  • Artun, O., & Levin, D. (2015). Predictive Marketing : Easy Ways Every Marketer Can Use Customer Analytics and Big Data. Hoboken: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1050355
  • Eric Matthes. (2019). Python Crash Course, 2nd Edition : A Hands-On, Project-Based Introduction to Programming: Vol. 2nd edition. No Starch Press.
  • Géron, A. (2017). Hands-On Machine Learning with Scikit-Learn and TensorFlow : Concepts, Tools, and Techniques to Build Intelligent Systems (Vol. First edition). Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1486117
  • Harish Garg. (2018). Mastering Exploratory Analysis with Pandas : Build an End-to-end Data Analysis Workflow with Python. Packt Publishing.
  • Hayes, A. F. (2005). Statistical Methods for Communication Science. Mahwah, N.J.: Routledge. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=268335
  • Lepkowski, J. M., Singer, E., Tourangeau, R., Groves, R. M., Fowler, F. J., & Couper, M. (2009). Survey Methodology (Vol. 2nd ed). Hoboken, N.J.: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=587983
  • Lutz, M. (2009). Learning Python : Powerful Object-Oriented Programming: Vol. 4th ed. O’Reilly Media.
  • McKinney, W. (2018). Python for Data Analysis : Data Wrangling with Pandas, NumPy, and IPython (Vol. Second edition). Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1605925
  • Seppe vanden Broucke, & Bart Baesens. (2018). Practical Web Scraping for Data Science : Best Practices and Examples with Python. Apress.

Рекомендуемая дополнительная литература

  • Diogo R. Ferreira. (2017). A Primer on Process Mining : Practical Skills with Python and Graphviz. Springer.
  • Gideon, L. (2012). Handbook of Survey Methodology for the Social Sciences. New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=534934
  • Matt Taddy. (2019). Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions. McGraw Hill.
  • Nelli, F. (2015). Python Data Analytics : Data Analysis and Science Using Pandas, Matplotlib and the Python Programming Language. [Berkeley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1056488
  • Sweigart, Al. Automate the boring stuff with Python: practical programming for total beginners. – No Starch Press, 2015. – 505 pp.
  • Vanderplas, J.T. (2016). Python data science handbook: Essential tools for working with data. Sebastopol, CA: O’Reilly Media, Inc. https://proxylibrary.hse.ru:2119/login.aspx?direct=true&db=nlebk&AN=1425081.
  • Митчелл, Р. Скрапинг веб-сайтов с помощю Python : руководство / Р. Митчелл , перевод с английского А. В. Груздев. — Москва : ДМК Пресс, 2016. — 280 с. — ISBN 978-5-97060-223-2. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/100903 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Тюрин, Ю. Н. Теория вероятностей : учебник / Ю. Н. Тюрин, А. А. Макаров, Г. И. Симонова. — Москва : МЦНМО, 2009. — 256 с. — ISBN 978-5-94057-540-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/9426 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.