В финал IDAO вышла 31 команда из семи стран
Восемнадцатого февраля подведены итоги онлайн-этапа Международной олимпиады по анализу данных IDAO (International Data Analysis Olympiad), организованной факультетом компьютерных наук НИУ ВШЭ и Яндексом при поддержке Сбербанка. В этом году участниками заочного этапа стали 1287 команд из 78 стран.
IDAO (International Data Analysis Olympiad) задумана ведущими специалистами по анализу данных для своих будущих коллег. Она проводится уже во второй раз. Олимпиада объединяет на одной площадке опытных и начинающих аналитиков данных, исследователей и профессионалов в области машинного обучения со всего мира.
Первый онлайн-раунд проходил на платформе Яндекс.Контест с 15 января по 11 февраля.
Задача для участников отборочного онлайн-тура была представлена мюонной исследовательской группой коллаборации LHCb на Большом адронном коллайдере в Европейском центре ядерных исследований (LHCb Muon Group).
Никита Казеев,
соавтор задачи, стажер-исследователь
научно-учебной лаборатории методов анализа больших данных НИУ ВШЭ (LAMBDA)
«Участники должны были построить алгоритм, который будет отличать мюоны от других частиц, используя информацию из мюонного детектора. Это то, чем мы реально занимаемся, в упрощённом варианте.
Если начинать сначала, то мы не знаем, из чего состоит большая часть Вселенной — то, что называют “тёмная материя” и “тёмная энергия”. Чтобы ответить на этот вопрос, в коллайдерах сталкивают частицы и создают условия, имевшие место через мгновения после Большого Взрыва. Изучая результаты столкновений, физики реконструируют законы, по которым живут частицы. Если брать очень грубую аналогию, то мы сталкиваем автомобили на огромной скорости, фотографируем как разлетаются осколки — и по этим фотографиям пытаемся понять устройство двигателя. Один из таких “фотоаппаратов” — детектор LHCb.
Чтобы набрать достаточное количество данных для анализа редких процессов, в секунду в LHCb происходит примерно 30 миллионов протон-протонных столкновений. После модернизации коллайдера в 2021 году это число возрастёт в 5-10 раз. В условиях жестких ограничений на вычислительные ресурсы, в потоке надо быстро выделить то небольшое число столкновений, которые интересны для дальнейшего анализа. Одним из признаков является наличие среди продуктов мюонов».
В рамках онлайн-тура участники могли попробовать свои силы в двух отдельных треках с различными ограничениями на форму итогового решения.
Первый трек был классическим соревнованием по анализу данных. По размеченному набору обучающих данных участников попросили сделать прогноз для тестовых данных. В этом треке участники могли создавать произвольно сложные модели. Однако, в реальных задачах эффективность так же важна, как и качество. Вот почему для успеха во втором соревновательном треке нужно было успешно решить ту же задачу, но с учётом довольно жёстких ограничений на скорость построения прогноза моделью и на используемую ей память.
Андрей Устюжанин,
руководитель научно-учебной лаборатории методов анализа больших данных НИУ ВШЭ (LAMBDA), член жюри IDAO
«Задача первого этапа является усложнённой междисциплинарной задачей применения методов машинного обучения для физики частиц. Отличие от типового применения заключается в том, что участники могли повышать качество не только за счёт создания признаков, но и менять сам метод обучения для учёта дополнительной информации о неточности присвоения метки. Участники прислали несколько решений с интересными подходами».
По итогам первого этапа 31 лучшая команда примет участие в финале, который пройдет в Москве с 4 по 6 апреля в офисе компании «Яндекс», представители которой подготовили задачу на заключительный этап. Участники этих команд представляют Россию, Белоруссию, Казахстан, Индию, Японию, Азербайджан и Свазиленд.
В рамках очного тура олимпиады также запланированы выступления и мастер-классы специалистов международного уровня по машинному обучению и анализу данных.
Победители IDAO получат ценные призы, а результаты олимпиады будут учитываться в портфолио кандидатов при поступлении в магистратуру факультета компьютерных наук ВШЭ.
Казеев Никита Александрович
Стажер-исследователь научно-учебной лаборатории методов анализа больших данных
Устюжанин Андрей Евгеньевич
Доцент факультета компьютерных наук