• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2022/2023

Технологии анализа данных

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус: Майнор
Когда читается: 3, 4 модуль
Охват аудитории: для всех кампусов НИУ ВШЭ
Преподаватели: Попов Александр Денисович, Сироткин Александр Владимирович, Суворова Алёна Владимировна, Чуприна Дарья Викторовна
Язык: русский
Кредиты: 5
Контактные часы: 60

Программа дисциплины

Аннотация

Углубляя навыки из первого курса майнора, в “Технологиях анализа данных” мы познакомимся с ключевыми пакетами, ориентированными на обработку сетей, текстов и других специфичных данных. Студенты научатся находить закономерности в данных, представленных в виде связей между элементами (социальные сети, коммуникации, торговые и политические отношения и т.д.), а также извлекать полезную информацию из длинных текстов, не читая их целиком. Кроме того, мы рассмотрим принципы построения рекомендательных систем и закрепим полученные за год навыки в проекте.
Цель освоения дисциплины

Цель освоения дисциплины

  • освоение технологий и методов обработки и анализа тестовых и сетевых данных
  • изучение принципов построения рекомендательных систем
  • развитие навыков программирования для анализа данных на языке R
Планируемые результаты обучения

Планируемые результаты обучения

  • Интерпретирует результаты сетевого анализа в терминах исходной предметной области
  • Интерпретирует результаты текстового анализа в терминах исходной предметной области
  • Организовывает эффективные формы межличностной коммуникации
  • Преобразовывает описание задачи в формулировку в терминах сетевого анализа
  • Проектирует рекомендательную систему для заданной предметной области
  • Разрабатывает программы на языке R для социально-сетевого анализа
  • Разрабатывает программы на языке R для текстового анализа
  • Формулирует основные понятия социально-сетевого анализа
  • Формулирует основные понятия текстового анализа
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Анализ и визуализация сетей
  • Введение в анализ текста
  • Рекомендательные системы. Проектная организация цифровых исследований
Элементы контроля

Элементы контроля

  • неблокирующий Упражнения
    Для закрепления навыков по работе с инструментарием студентам предлагается выполнить онлайн-упражнения на закрепление и проверку усвоения материала на онлайн-платформе. Их прохождение играет формативную роль: количество попыток не ограничивается. Работа выполняется на дому и сдается до установленной даты экзамена.
  • неблокирующий Контрольная работа №1
    Контрольная работа представляет собой письменную работу в тестовой форме в LMS. Тест содержит как открытые, так и закрытые вопросы по пройденным материалам по сетевому анализу. Тест подразумевает ответы на вопросы по предоставленным данными в RStudio.
  • неблокирующий Контрольная работа №2
    Контрольная работа представляет собой письменную работу в тестовой форме в LMS. Тест содержит как открытые, так и закрытые вопросы по пройденным материалам по тематике текстового анализа. Тест подразумевает ответы на вопросы по предоставленным данными в RStudio.
  • неблокирующий Индивидуальный отчет
    Индивидуальный отчет по проект представляет собой доработку группового проекта по индивидуальному заданию
  • неблокирующий Домашнее задание
    Домашнее задание состоит в анализе сетевых данных, предоставленных преподавателем. Работа выполняется индивидуально. Студенту необходимо применить изученные методы выявления сообществ, определить центральность вершин и интерпретировать результаты. Отчет предоставляется в письменной форме. Отчет должен содержать постановку не менее двух исследовательских вопросов, применение методов выявления сообществ и определение центральности вершин, а также визуализацию полученных результатов.
  • неблокирующий Бонусные задания
    Повышение оценки возможно за счет выполнения бонусных заданий, в частности, создания тьюториалов по дополнительным темам анализа данных. Тьюториалы создаются в виде отдельного урока по заданной преподавателями теме на платформе для онлайн-курсов Stepik.org.
  • неблокирующий Групповой проект: групповой отчет
    По итогам проекта, его участники должны прислать отчет, содержащий проведенный анализ данных. В отчете по заданной структуре описываются результаты работы над проектов и ответы на вопросы, полученные в результаты взаимной оценки
  • неблокирующий Групповой проект: защита идеи
    Защита проекта осуществляется в виде видео-презентации проекта на 3-5 минут. В записи презентации участвуют все члены проектной команды.
  • блокирует часть оценки/расчета Групповой проект: дневники
    Дневники работы над проектом представляют собой письменные ответы на вопросы о выполненных на текущем шаге заданиях.
  • неблокирующий Взаимное обсуждение
    После публикации видео проектов выносятся на взаимное обсуждение. Каждый студент индивидуально оценивает три проекта (два по предварительному распределению, один по выбору студента). Для каждого проекта дается общая оценка, формулируются вопросы, даются рекомендации по улучшению, дополнению или изменению, а также приводятся примеры, на которых хотелось бы проверить рекомендательную систему.
  • неблокирующий Групповой проект: план
    Описание плана проекта по схеме (см. пример задания)
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 4 модуль
    0.1 * Групповой проект: дневники + 0.1 * Взаимное обсуждение + 0.1 * Упражнения + 0.1 * Бонусные задания + 0.15 * Индивидуальный отчет + 0.1 * Контрольная работа №2 + 0.02 * Групповой проект: план + 0.1 * Домашнее задание + 0.1 * Контрольная работа №1 + 0.1 * Групповой проект: групповой отчет + 0.03 * Групповой проект: защита идеи
Список литературы

Список литературы

Рекомендуемая основная литература

  • Luke, D. A. (2015). A User’s Guide to Network Analysis in R. Cham: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1114415
  • Silge, J., & Robinson, D. (2017). Text Mining with R : A Tidy Approach (Vol. First edition). Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1533983

Рекомендуемая дополнительная литература

  • Kalvas, F. (2015). Introduction to Computational Social Science: Principles and Applications (Texts in Computer Science). Journal of Artificial Societies & Social Simulation, 18(1), 1. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=sih&AN=101774343
  • Kolaczyk E. D., Csárdi G. Statistical analysis of network data with R. – New York : Springer, 2014. – 207 pp.

Авторы

  • Суворова Алёна Владимировна
  • Сироткин Александр Владимирович