• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Прогнозирование исходов футбольных матчей с использованием алгоритмов машинного обучения с учителем

ФИО студента: Магомедов Рустам Салаватович

Руководитель: Бурова Маргарита Борисовна

Кампус/факультет: Факультет компьютерных наук

Программа: Магистр по наукам о данных (Магистратура)

Оценка: 10

Год защиты: 2024

Прогнозирование футбольных матчей остается сложной задачей для любителей футбола и исследователей по всему миру. Сложность прогнозов обусловлена множеством внутренних факторов, окружающих игру, — подготовленность команды, характер и физическая форма игроков, формат тренировок, фактор дерби, уровень поддержки и т. д. Вариативность внешних событий также нельзя игнорировать; погодные условия, длина и ширина поля, качество и высота травы — все эти факторы можно перечислить как влияющие на исход игры. Хотя компании и агентства собирают огромное количество данных за игру, прогнозирование результатов матчей остается сложной задачей из-за ограниченного объема данных, доступных широкой публике. Целью данной статьи является изучение возможностей применения алгоритмов машинного обучения с учителем для прогнозирования результатов футбольных матчей. Основная новизна этой работы заключается в эксклюзивном наборе данных с более чем 1000 матчей и более чем 1 600 000 событий. Автор анализирует данные о событиях для английской Премьер-лиги за сезоны 2021–2024. Данные событий разделены на 3 выборки, чтобы доказать способность необработанных и неагрегированных данных событий конкурировать с традиционными статистическими и основанными на ранжировании подходами. В работе сравниваются результаты точности прогнозирования исхода матча, полученные с помощью 4 моделей машинного обучения с учителем: логистической регрессии, XGBoost, случайного леса и графовой нейронной сети. Модули обучаются на 3 различных выборках данных событий. Затем точность оценивается с другими моделями, а также сравнивается с результатами лучших современных моделей. Лучшая точность для многоклассовой задачи достигается с использованием модели логистической регрессии на агрегированных данных событий 10-процентной тестовой выборки с точностью 0,63. Для неагрегированных данных событий с дополнительно инженерными признаками логистическая регрессия показывает точность 0,585, в то время как случайный лес и XGBoost получают точность 0,55 и 0,52 соответственно. Графовая нейронная сеть, обученная на координатах футбольных пасов для многоклассовой задачи, показывает точность 0,41, в то время как задача бинарной классификации (исключающая ничьи) дает точность 0,53.

Текст работы (работа добавлена 3 июня 2024 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ