2022/2023
Технологии анализа данных
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Майнор
Кто читает:
Департамент информатики
Когда читается:
3, 4 модуль
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Попов Александр Денисович,
Сироткин Александр Владимирович,
Суворова Алёна Владимировна,
Чуприна Дарья Викторовна
Язык:
русский
Кредиты:
5
Контактные часы:
60
Программа дисциплины
Аннотация
Углубляя навыки из первого курса майнора, в “Технологиях анализа данных” мы познакомимся с ключевыми пакетами, ориентированными на обработку сетей, текстов и других специфичных данных. Студенты научатся находить закономерности в данных, представленных в виде связей между элементами (социальные сети, коммуникации, торговые и политические отношения и т.д.), а также извлекать полезную информацию из длинных текстов, не читая их целиком. Кроме того, мы рассмотрим принципы построения рекомендательных систем и закрепим полученные за год навыки в проекте.
Цель освоения дисциплины
- освоение технологий и методов обработки и анализа тестовых и сетевых данных
- изучение принципов построения рекомендательных систем
- развитие навыков программирования для анализа данных на языке R
Планируемые результаты обучения
- Интерпретирует результаты сетевого анализа в терминах исходной предметной области
- Интерпретирует результаты текстового анализа в терминах исходной предметной области
- Организовывает эффективные формы межличностной коммуникации
- Преобразовывает описание задачи в формулировку в терминах сетевого анализа
- Проектирует рекомендательную систему для заданной предметной области
- Разрабатывает программы на языке R для социально-сетевого анализа
- Разрабатывает программы на языке R для текстового анализа
- Формулирует основные понятия социально-сетевого анализа
- Формулирует основные понятия текстового анализа
Содержание учебной дисциплины
- Анализ и визуализация сетей
- Введение в анализ текста
- Рекомендательные системы. Проектная организация цифровых исследований
Элементы контроля
- УпражненияДля закрепления навыков по работе с инструментарием студентам предлагается выполнить онлайн-упражнения на закрепление и проверку усвоения материала на онлайн-платформе. Их прохождение играет формативную роль: количество попыток не ограничивается. Работа выполняется на дому и сдается до установленной даты экзамена.
- Контрольная работа №1Контрольная работа представляет собой письменную работу в тестовой форме в LMS. Тест содержит как открытые, так и закрытые вопросы по пройденным материалам по сетевому анализу. Тест подразумевает ответы на вопросы по предоставленным данными в RStudio.
- Контрольная работа №2Контрольная работа представляет собой письменную работу в тестовой форме в LMS. Тест содержит как открытые, так и закрытые вопросы по пройденным материалам по тематике текстового анализа. Тест подразумевает ответы на вопросы по предоставленным данными в RStudio.
- Индивидуальный отчетИндивидуальный отчет по проект представляет собой доработку группового проекта по индивидуальному заданию
- Домашнее заданиеДомашнее задание состоит в анализе сетевых данных, предоставленных преподавателем. Работа выполняется индивидуально. Студенту необходимо применить изученные методы выявления сообществ, определить центральность вершин и интерпретировать результаты. Отчет предоставляется в письменной форме. Отчет должен содержать постановку не менее двух исследовательских вопросов, применение методов выявления сообществ и определение центральности вершин, а также визуализацию полученных результатов.
- Бонусные заданияПовышение оценки возможно за счет выполнения бонусных заданий, в частности, создания тьюториалов по дополнительным темам анализа данных. Тьюториалы создаются в виде отдельного урока по заданной преподавателями теме на платформе для онлайн-курсов Stepik.org.
- Групповой проект: групповой отчетПо итогам проекта, его участники должны прислать отчет, содержащий проведенный анализ данных. В отчете по заданной структуре описываются результаты работы над проектов и ответы на вопросы, полученные в результаты взаимной оценки
- Групповой проект: защита идеиЗащита проекта осуществляется в виде видео-презентации проекта на 3-5 минут. В записи презентации участвуют все члены проектной команды.
- Групповой проект: дневникиДневники работы над проектом представляют собой письменные ответы на вопросы о выполненных на текущем шаге заданиях.
- Взаимное обсуждениеПосле публикации видео проектов выносятся на взаимное обсуждение. Каждый студент индивидуально оценивает три проекта (два по предварительному распределению, один по выбору студента). Для каждого проекта дается общая оценка, формулируются вопросы, даются рекомендации по улучшению, дополнению или изменению, а также приводятся примеры, на которых хотелось бы проверить рекомендательную систему.
- Групповой проект: планОписание плана проекта по схеме (см. пример задания)
Промежуточная аттестация
- 2022/2023 учебный год 4 модуль0.1 * Групповой проект: дневники + 0.1 * Взаимное обсуждение + 0.1 * Упражнения + 0.1 * Бонусные задания + 0.15 * Индивидуальный отчет + 0.1 * Контрольная работа №2 + 0.02 * Групповой проект: план + 0.1 * Домашнее задание + 0.1 * Контрольная работа №1 + 0.1 * Групповой проект: групповой отчет + 0.03 * Групповой проект: защита идеи
Список литературы
Рекомендуемая основная литература
- Luke, D. A. (2015). A User’s Guide to Network Analysis in R. Cham: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1114415
- Silge, J., & Robinson, D. (2017). Text Mining with R : A Tidy Approach (Vol. First edition). Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1533983
Рекомендуемая дополнительная литература
- Kalvas, F. (2015). Introduction to Computational Social Science: Principles and Applications (Texts in Computer Science). Journal of Artificial Societies & Social Simulation, 18(1), 1. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=sih&AN=101774343
- Kolaczyk E. D., Csárdi G. Statistical analysis of network data with R. – New York : Springer, 2014. – 207 pp.