2023/2024





Технологии анализа данных
Статус:
Майнор
Кто читает:
Департамент информатики
Когда читается:
3, 4 модуль
Онлайн-часы:
22
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Миронова Мария Сергеевна,
Сироткин Александр Владимирович,
Суворова Алёна Владимировна,
Ярошенко Евгения Игоревна
Язык:
русский
Кредиты:
5
Контактные часы:
42
Программа дисциплины
Аннотация
Углубляя навыки из первого курса майнора, в “Технологиях анализа данных” мы познакомимся с ключевыми пакетами, ориентированными на обработку сетей, текстов и других специфичных данных. Студенты научатся находить закономерности в данных, представленных в виде связей между элементами (социальные сети, коммуникации, торговые и политические отношения и т.д.), а также извлекать полезную информацию из длинных текстов, не читая их целиком. Кроме того, мы рассмотрим принципы построения рекомендательных систем и закрепим полученные за год навыки в проекте.
Цель освоения дисциплины
- освоение технологий и методов обработки и анализа тестовых и сетевых данных
- изучение принципов построения рекомендательных систем
- развитие навыков программирования для анализа данных на языке R
Планируемые результаты обучения
- Интерпретирует результаты сетевого анализа в терминах исходной предметной области
- Интерпретирует результаты текстового анализа в терминах исходной предметной области
- Организовывает эффективные формы межличностной коммуникации
- Преобразовывает описание задачи в формулировку в терминах сетевого анализа
- Проектирует рекомендательную систему для заданной предметной области
- Разрабатывает программы на языке R для социально-сетевого анализа
- Разрабатывает программы на языке R для текстового анализа
- Формулирует основные понятия социально-сетевого анализа
- Формулирует основные понятия текстового анализа
Содержание учебной дисциплины
- Анализ и визуализация сетей
- Введение в анализ текста
- Рекомендательные системы. Проектная организация цифровых исследований
Элементы контроля
- Контрольная работа №1Контрольная работа представляет собой письменную работу в тестовой форме в LMS. Тест содержит как открытые, так и закрытые вопросы по пройденным материалам по сетевому анализу. Тест подразумевает ответы на вопросы по предоставленным данными в RStudio.
- Домашнее заданиеДомашнее задание состоит в анализе сетевых данных, предоставленных преподавателем. Работа выполняется индивидуально. Студенту необходимо применить изученные методы выявления сообществ, определить центральность вершин и интерпретировать результаты. Отчет предоставляется в письменной форме. Отчет должен содержать постановку не менее двух исследовательских вопросов, применение методов выявления сообществ и определение центральности вершин, а также визуализацию полученных результатов.
- УпражненияДля закрепления навыков по работе с инструментарием студентам предлагается выполнить онлайн-упражнения на закрепление и проверку усвоения материала на онлайн-платформе. Их прохождение играет формативную роль: количество попыток не ограничивается. Работа выполняется на дому и сдается до установленной даты экзамена.
- Бонусные заданияПовышение оценки возможно за счет выполнения бонусных заданий, в частности, создания тьюториалов по дополнительным темам анализа данных. Тьюториалы создаются в виде отдельного урока по заданной преподавателями теме на платформе для онлайн-курсов Stepik.org.
- Групповой проект: групповой отчетПо итогам проекта, его участники должны прислать отчет, содержащий проведенный анализ данных. В отчете по заданной структуре описываются результаты работы над проектов и ответы на вопросы, полученные в результаты взаимной оценки
- Групповой проект: дневникиДневники работы над проектом представляют собой письменные ответы на вопросы о выполненных на текущем шаге заданиях.
- Групповой проект: защита идеиЗащита проекта осуществляется в виде видео-презентации проекта на 3-5 минут. В записи презентации участвуют все члены проектной команды.
- Групповой проект: планОписание плана проекта по схеме (см. пример задания)
- Взаимное обсуждениеПосле публикации видео проектов выносятся на взаимное обсуждение. Каждый студент индивидуально оценивает три проекта (два по предварительному распределению, один по выбору студента). Для каждого проекта дается общая оценка, формулируются вопросы, даются рекомендации по улучшению, дополнению или изменению, а также приводятся примеры, на которых хотелось бы проверить рекомендательную систему.
- Контрольная работа №2Контрольная работа представляет собой письменную работу в тестовой форме в LMS. Тест содержит как открытые, так и закрытые вопросы по пройденным материалам по тематике текстового анализа. Тест подразумевает ответы на вопросы по предоставленным данными в RStudio.
- Индивидуальный отчетИндивидуальный отчет по проект представляет собой доработку группового проекта по индивидуальному заданию
Промежуточная аттестация
- 2023/2024 учебный год 4 модуль0.1 * Бонусные задания + 0.1 * Взаимное обсуждение + 0.1 * Групповой проект: групповой отчет + 0.1 * Групповой проект: дневники + 0.03 * Групповой проект: защита идеи + 0.02 * Групповой проект: план + 0.1 * Домашнее задание + 0.15 * Индивидуальный отчет + 0.1 * Контрольная работа №1 + 0.1 * Контрольная работа №2 + 0.1 * Упражнения
Список литературы
Рекомендуемая основная литература
- 9781491981627 - Silge, Julia; Robinson, David - Text Mining with R : A Tidy Approach - 2017 - O'Reilly Media - http://search.ebscohost.com/login.aspx?direct=true&db=nlebk&AN=1533983 - nlebk - 1533983
- Luke, D. A. (2015). A User’s Guide to Network Analysis in R. Cham: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1114415
Рекомендуемая дополнительная литература
- Kalvas, F. (2015). Introduction to Computational Social Science: Principles and Applications (Texts in Computer Science). Journal of Artificial Societies & Social Simulation, 18(1), 1. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=sih&AN=101774343
- Kolaczyk E. D., Csárdi G. Statistical analysis of network data with R. – New York : Springer, 2014. – 207 pp.