Наши студенты стали призерами международного конкурса по анализу данных от Kaggle
Магистранты второго курса программы «Прикладная статистика с методами сетевого анализа» Екатерина Мелианова и Артем Волгин заняли второе место в международном конкурсе по анализу данных. На основе данных опроса 19 717 респондентов из 171 страны исследователи Вышки проанализировали сообщество обладателей PhD в области Data Science.
Kaggle — Data Science платформа корпорации Google. Сообщество объединяет около трех миллионов специалистов по обработке данных и машинному обучению со всего мира. Ресурс публикует обучающие материалы, организовывает опросы и устраивает онлайн-соревнования. Платформа провела более сотни публичных конкурсов по машинному обучению, призовой фонд соревнования может составлять несколько десятков тысяч долларов.
Участники ежегодного конкурса Kaggle ML & DS Survey должны были проанализировать данные онлайн-опроса пользователей сайта Kaggle. Необходимо было выбрать любую группу, представленную в опросе, и на основе данных рассказать про нее интересную историю. Оценивались сторителлинг и оригинальность проекта, а также ясность кода и воспроизводимость результатов.
Екатерина Мелианова
Мы выбрали в качестве объекта исследования респондентов с PhD. Эта тема интересна нам, поскольку мы изучаем вопросы эффективности человеческого капитала, в частности образования. Большая часть данных опроса состояла из ответов, посвященных конкретным навыкам работы с данными, которыми владеет респондент (например, программирование в Python или знание определенного метода машинного обучения).
С помощью этих вопросов мы рассчитали метрику схожести между респондентами и построили граф, на основе которого сделали интересные выводы об особенностях академического data science сообщества. Благодаря такой методике мы смогли выделить некоторые кластеры внутри PhD сообщества, посмотреть на различия в навыках между группами стран, обозначить основные и более специализированные навыки.
Также за счет применения сетевого анализа получилось интересно визуализировать результаты. Кроме того, мы показали, насколько выгодно или невыгодно с точки зрения зарплаты получать PhD в различных странах, а также как существующая гендерная дискриминация в области Data Science профессий проявляется по отношению к женщинам с PhD.
По словам исследователей, они выбрали магистратуру «Прикладная статистика с методами сетевого анализа», потому что интересуются сферой прикладного анализа данных. Программа позволяет овладеть большим спектром различных статистических методов, в том числе сетевым анализом, который сейчас крайне популярен во многих научных областях.