Олика Янат

Как ученые пытаются предсказать победителя ЧМ-2018 по футболу

Сборная России по футболу в матче-открытии ЧМ-2018 обыграла Саудовскую Аравию со счетом 5-0 © Sputnik International
Сборная России по футболу в матче-открытии ЧМ-2018 обыграла Саудовскую Аравию со счетом 5-0 © Sputnik International

Чемпионат Мира по футболу 2018 года в России стартовал с разгромной победы нашей сборной над Саудовской Аравией. Впереди месяц настоящего футбольного праздника и, конечно же, все с нетерпением ждут финала и пытаются предугадать/предсказать, кто же увезет с собой заветный кубок.

Ученые тоже люди и любят футбол, поэтому наука не осталась в стороне — исследователи используют свои методы, чтобы выяснить вероятности того или иного исхода и предлагают собственные способы для выявления победителя.

Прежде всего, научная модель базируется на профессиональной букмекерской статистике, оценивающей разнообразие шансов. Букмекеры используют профессиональных статистов для анализа обширных баз данных результатов таким образом, чтобы количественно оценить вероятность различных итогов любого возможного совпадения. Они смогут предлагать ставки на все игры, а также определять шансы потенциальных победителей. Если бы эта модель не работала, то букмекерские конторы давно бы разорились.

Букмекеры ставят на победу сборной Бразилии © dynamo.kiev.ua
Букмекеры ставят на победу сборной Бразилии © dynamo.kiev.ua

Согласно их оценкам, явными фаворитами турнира являются бразильцы — их шансы на победу составляют 16,6%, затем идет Германия с 12,8% и Испания (12,5%).

Но для остальных сборных не обязательно все потеряно. Да и подобные традиционные статистические подходы вряд ли являются передовой наукой. Исследователи полагают, что необходим более сложный анализ, чтобы действительно точно определить, кто, вероятнее всего, заберет золотые медали.

На ЧМ-1966 в Англии сборная СССР заняла 4 место. Это самый высокий результат советских футболистов на мировых первенствах © ТАСС
На ЧМ-1966 в Англии сборная СССР заняла 4 место. Это самый высокий результат советских футболистов на мировых первенствах © ТАСС

И новые техники машинного обучения, в том числе метод, который назвали «random-forest approach» (техника случайного леса), идентифицировали фаворита по-другому.

Немного о самом методе. В последние годы техника random-forest approach появилась в качестве мощного способа анализа больших наборов данных, избегая при этом некоторых из ошибок других методов интеллектуального анализа информации. Она основана на идее о том, что какое-либо будущее событие может быть определено деревом решений, в котором результат рассчитывается в каждой ветке посредством ссылки на набор данных обучения.

Однако деревья решений имеют известную проблему. На последних этапах ветвящегося процесса решения могут сильно искажаться в результате данных обучения, которые являются разреженными и подверженными огромным изменениям. Эта проблема известна как переобучение.

Метод «случайного леса» отличается. Вместо вычисления результата в каждой ветви процесс вычисляет результат случайных ветвей. И он делает это много раз, каждый раз с различным набором случайно выбранных ветвей. Конечным результатом является среднее значение всех этих случайно построенных деревьев решений.

Этот подход имеет значительные преимущества. Во-первых, он не страдает от той же проблемы переобучения, которая поражает обычные деревья решений. Он также показывает, какие факторы наиболее важны для определения результата.

Поэтому, если конкретное дерево решений содержит множество параметров, становится легко увидеть, какие из них оказывают наибольшее влияние на результат, а какие нет. Эти менее важные факторы могут быть затем проигнорированы в будущем.

Доктор Андреас Гролл из Технического университета Дортмунда в Германии с коллегами сравнили три разных подхода к моделированию, основанные на результатах четырех предыдущих турниров с 2002 по 2014 год. Они смоделировали исход каждой игры, которую команды могут сыграть, и использовали результаты, чтобы построить наиболее вероятный ход турнира.

Испания — один из фаворитов турнира по всем показателям © Sportbox
Испания — один из фаворитов турнира по всем показателям © Sportbox

Ученые начинают с широкого спектра потенциальных факторов, которые могут определять результат. К ним относятся такие экономические показатели, как ВВП и население страны, рейтинг национальных сборных ФИФА и свойства самих команд, такие как средний возраст, количество игроков в Лиге чемпионов, преимущество домашней арены и так далее.

Интересно, что этот подход позволяет включать другие методы ранжирования, такие как рейтинги, используемые букмекерами, о чем мы писали выше.

Включение всего этого в модель дает некоторые интересные идеи. Например, наиболее влиятельными факторами являются рейтинги команд, созданные другими методами, в том числе от букмекеров, ФИФА и других. Другие важные факторы включают в себя ВВП и количество игроков Лиги чемпионов в команде. Неважные факторы включают население страны, национальность тренера и т. д.

Прогнозы, достигнутые в этом процессе, отличаются от других. Для начала метод случайных лесов показывает Испанию как наиболее вероятного победителя с вероятностью 17,8%.

А так, согласно алгоритму, выглядит развитие событий в группах. Как видим, наука благосклонна к российской сборной, по крайней мере на групповом этапе.

© arxiv.org
© arxiv.org

Однако важным фактором в этом прогнозе является структура самого турнира. Если Германия пройдет групповой этап соревнований, у нее больше шансов столкнуться с сильной командой в 1/8. Из-за этого метод «случайного леса» определяет шансы Германии достичь четвертьфинала в 58%. Напротив, Испания вряд ли столкнется с сильным противником и, таким образом, получит 73-процентный шанс дойти до 1/4.

Если обе команды пройдут в четвертьфинал, они имеют более или менее равные шансы на победу.

Испания немного превосходит Германию. В основном из-за того, что Германия имеет сравнительно высокий шанс выбыть в 1/8, — говорит Гролл.

Но есть еще один поворотный момент — процесс «случайного дерева» позволяет моделировать весь турнир, и это приводит к другому результату.

© arxiv.org
© arxiv.org
Согласно наиболее вероятному курсу турнира, вместо Испании Кубок Мира возьмет Германия, — говорят ученые.
Научный метод случайного леса предсказывает победу сборной Германии © GameBet.news
Научный метод случайного леса предсказывает победу сборной Германии © GameBet.news

По словам исследователей, Испания имеет лучшие шансы на победу, но если Германия пройдет в четвертьфинал, то она явно становится фаворитом.

Хм, ученые из Германии предсказывают победу своей сборной. И подтверждают свои прогнозы научными методами. Однако не стоит забывать о том, что поле зеленое, мяч круглый, и это футбол! А значит, нас всегда могут ждать непредсказуемые результаты, за что болельщики, в основном, и любят эту игру.

По материалам MIT Tech Review