• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Магистерская программа «Аналитика данных и прикладная статистика / Data Analytics and Social Statistics»

30
Ноябрь

Наши студенты стали призерами международного конкурса по анализу данных от Kaggle

Магистранты второго курса программы «Прикладная статистика с методами сетевого анализа» Екатерина Мелианова и Артем Волгин заняли второе место в международном конкурсе по анализу данных. На основе данных опроса 19 717 респондентов из 171 страны исследователи Вышки проанализировали сообщество обладателей PhD в области Data Science.

Kaggle — Data Science платформа корпорации Google. Сообщество объединяет около трех миллионов специалистов по обработке данных и машинному обучению со всего мира. Ресурс публикует обучающие материалы, организовывает опросы и устраивает онлайн-соревнования. Платформа провела более сотни публичных конкурсов по машинному обучению, призовой фонд соревнования может составлять несколько десятков тысяч долларов.

Участники ежегодного конкурса Kaggle ML & DS Survey должны были проанализировать данные онлайн-опроса пользователей сайта Kaggle. Необходимо было выбрать любую группу, представленную в опросе, и на основе данных рассказать про нее интересную историю. Оценивались сторителлинг и оригинальность проекта, а также ясность кода и воспроизводимость результатов.

Екатерина Мелианова 

Мы выбрали в качестве объекта исследования респондентов с PhD. Эта тема интересна нам, поскольку мы изучаем вопросы эффективности человеческого капитала, в частности образования. Большая часть данных опроса состояла из ответов, посвященных конкретным навыкам работы с данными, которыми владеет респондент (например, программирование в Python или знание определенного метода машинного обучения).

С помощью этих вопросов мы рассчитали метрику схожести между респондентами и построили граф, на основе которого сделали интересные выводы об особенностях академического data science сообщества. Благодаря такой методике мы смогли выделить некоторые кластеры внутри PhD сообщества, посмотреть на различия в навыках между группами стран, обозначить основные и более специализированные навыки.

Также за счет применения сетевого анализа получилось интересно визуализировать результаты. Кроме того, мы показали, насколько выгодно или невыгодно с точки зрения зарплаты получать PhD в различных странах, а также как существующая гендерная дискриминация в области Data Science профессий проявляется по отношению к женщинам с PhD.

По словам исследователей, они выбрали магистратуру «Прикладная статистика с методами сетевого анализа», потому что интересуются сферой прикладного анализа данных. Программа позволяет овладеть большим спектром различных статистических методов, в том числе сетевым анализом, который сейчас крайне популярен во многих научных областях.