• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2020/2021

Анализ данных и технологии работы с данными

Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус: Майнор
Когда читается: 3, 4 модуль
Преподаватели: Булыгин Денис Игоревич, Сироткин Александр Владимирович, Суворова Алёна Владимировна, Сущевский Всеволод Вячеславович
Язык: русский
Кредиты: 5
Контактные часы: 54

Программа дисциплины

Аннотация

Настоящая дисциплина относится к блоку дисциплин дополнительного профиля (майнора) «Обработка и анализ данных», обеспечивающих бакалаврскую подготовку. Изучение дисциплины базируется на дисциплинe "Программирование для анализа данных и воспроизводимые исследования". Целями освоения дисциплины «Анализ данных и технологии работы с данными» являются освоение технологий и методов обработки и анализа тестовых и сетевых данных, изучение принципов построения рекомендательных систем, развитие навыков программирования для анализа данных на языке R. Дисциплина предполагает участие в практическом проекте
Цель освоения дисциплины

Цель освоения дисциплины

  • освоение технологий и методов обработки и анализа тестовых и сетевых данных
  • изучение принципов построения рекомендательных систем
  • развитие навыков программирования для анализа данных на языке R
Планируемые результаты обучения

Планируемые результаты обучения

  • Формулирует основные понятия социально-сетевого анализа
  • Преобразовывает описание задачи в формулировку в терминах сетевого анализа
  • Разрабатывает программы на языке R для социально-сетевого анализа
  • Интерпретирует результаты сетевого анализа в терминах исходной предметной области
  • Формулирует основные понятия текстового анализа
  • Разрабатывает программы на языке R для текстового анализа
  • Интерпретирует результаты текстового анализа в терминах исходной предметной области
  • Проектирует рекомендательную систему для заданной предметной области
  • Организовывает эффективные формы межличностной коммуникации
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Анализ и визуализация сетей
    Основные понятия сетевого анализа. Меры центральности. Модели формирования и эволюции сетей. Алгоритмы Community Detection. Сильные и слабые связи. Пакет igraph. Создание графов. Импорт данных. Визуализация графов. Меры центральности в igraph. Социальный капитал. Примеры сетей
  • Введение в анализ текста
    Инфраструктура анализа текста в R. Классические пакеты и новые разработки. Обработка текста. Регулярные выражения. Схожесть текстов. Анализ тональности текста. Тематическое моделирование
  • Рекомендательные системы. Проектная организация цифровых исследований
    Рекомендательные системы. Алгоритмы построение рекомендательных систем. Социальные рекомендательные системы. Введение в проектную организацию цифровых исследований. Стадии проекта. Выполнение учебного проекта. Презентация результатов
Элементы контроля

Элементы контроля

  • неблокирующий Контрольная работа №1
  • неблокирующий Домашние упражнения
  • неблокирующий Домашнее задание
    Домашнее задание состоит в анализе сетевых данных, предоставленных преподавателем. Работа выполняется индивидуально. Студенту необходимо применить изученные методы выявления сообществ, определить центральность вершин и интерпретировать результаты. Отчет предоставляется в письменной форме. Отчет должен содержать постановку не менее двух исследовательских вопросов, применение методов выявления сообществ и определение центральности вершин, а также визуализацию полученных результатов.
  • неблокирующий Бонусные задания
    Повышение оценки возможно за счет выполнения бонусных заданий, в частности, создания тьюториалов по дополнительным темам анализа данных. Тьюториалы создаются в виде отдельного урока по заданной преподавателями теме на платформе для онлайн-курсов Stepik.org.
  • неблокирующий Контрольная работа №2
  • неблокирующий Групповой проект: групповой отчет
    По итогам проекта, его участники должны прислать отчет, содержащий проведенный анализ данных. Отчет сдается в два этапа: 1) черновик -- разведочный анализ, описание предложенных принципов построения рекомендательных систем и реализация их в коде, 2) итоговый отчет с полным описанием систем и примерами работы. В итоговый отчет выносятся результаты и общая логика. Итоговый отчет содержит следующие разделы: 1) анализ текстовых или сетевых данных и их интерпретация, 2) построение рекомендательной системы, 3) практические выводы (чем найденные результаты могут быть полезны гипотетическому владельцу / создателю), 4) программный код проекта, 5) ответы на вопросы и комментарии, полученные в отзывах
  • неблокирующий Групповой проект: защита
    Защита проекта проходит осуществляется в виде видео-презентации проекта на 3-5 минут. В записи презентации участвуют все члены проектной команды.
  • неблокирующий Групповой проект: дневники
    Дневники работы над проектом представляют собой письменные ответы на вопросы о выполненных на текущем шаге заданиях. При заполнении дневников менее чем на 50% обнуляется оценка за групповую часть проекта
  • неблокирующий Групповой проект: индивидуальный отчет
    Итоговый отчет по проекту заполняется индивидуально и описывает процедуру работы над проектом, понимание общей структуры проекта и индивидуальный вклад в разработку, включая конкретные примеры кода, написанного студентом, и обоснование выполненных им действий.
  • неблокирующий Взаимное обсуждение
    После публикации видео выносятся на взаимное обсуждение. Каждый студент индивидуально оценивает три проекта (два по предварительному распределению, один по выбору студента). Для каждого проекта дается общая оценка, формулируются вопросы, даются рекомендации по улучшению, дополнению или изменению, а также приводятся примеры, на которых хотелось бы проверить рекомендательную систему.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    Итоговая оценка выставляется по сумме баллов всех элементов контроля. Окр 1– оценка за контрольную работу №1 (0-10 баллов), Одз – оценка за домашнее задание (0-15 баллов), Опроект – оценка за групповой программный проект (0-50 баллов), Окр 2 – оценка за контрольную работу №2 (0-10 баллов), Оупр – оценка за прохождение онлайн-упражнений и работа на практикумах (0-15 баллов), Обонус – оценка за бонусные задания (0-10 баллов)., где оценка за проект выставляется как сумма по следующим критериям: Огр_отчет – оценка за групповой письменный отчет (0-15 баллов) Озащита – оценка за защиту проекта и ответы на дополнительные вопросы (0-5 баллов) Одневник – оценка за индивидуальные дневники по проекту (0-10 баллов) Оинд_отчет – финальный индивидуальный отчет с рефлексией (0-15 баллов) Ообсуждение – взаимное обсуждение проектов (0-10 баллов) Итоговая сумма баллов переводится в оценку по следующей схеме10 95-110 баллов 9 85-94 балла 8 75-84 балла 7 65-74 балла 6 55-64 балла 5 45-54 балла 4 35-44 балла 3 25-34 балла 2 15-24 балла 1 5-14 баллов 0 0-4 балла
Список литературы

Список литературы

Рекомендуемая основная литература

  • Luke, D. A. (2015). A User’s Guide to Network Analysis in R. Cham: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1114415
  • Silge, J., & Robinson, D. (2017). Text Mining with R : A Tidy Approach (Vol. First edition). Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1533983

Рекомендуемая дополнительная литература

  • Kalvas, F. (2015). Introduction to Computational Social Science: Principles and Applications (Texts in Computer Science). Journal of Artificial Societies & Social Simulation, 18(1), 1. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=sih&AN=101774343
  • Kolaczyk E. D., Csárdi G. Statistical analysis of network data with R. – New York : Springer, 2014. – 207 pp.