Чтобы в футбольном матче забить гол, чаще всего необходимо совершить целенаправленный удар в створ ворот. Далеко не каждый удар достигает своей цели, но практика и футбольная статистика убеждают нас в том, что существует прямая количественная связь между ударами по воротам и взятием вором. Вот только каков обменный курс между забитым мячом и ударом по воротам?
Вспомним классиков. Еще пионер футбольной статистики Чарльз Рип подсчитал, что в среднем необходимо совершить 9 ударов по воротам ради одного гола. Он же первый разбил игровое поле на зоны и определил участок внутри штрафной площадки, откуда удары по воротам наиболее часто бывают успешны.
Удар - штанга, удар - штанга, еще удар - еще штанга. Ну и голова у английского форварда!
Анекдот советской эпохи. Николай Озеров
С тех пор многое изменилось, анализ футбольной игры не требует сидения на стадионе в шахтерском шлеме с карандашом и тетрадкой. Благодаря развитию технологий записи и хранения видео данных, камеры записывают с разных ракурсов каждый миг футбольной игры, а команды аналитиков затем изучают все это и стараются найти закономерности.
Интересный факт - зона максимального поражения ворот не изменилась со времен Чарльза Рипа, правда сейчас она доступна в цвете.
Очевидно, что обменный курс ударов по воротам и взятия ворот зависит от вектора удара, то есть расстояния до ворот и угла. Вот бы перевести эту картинку в понятную формулу, тогда можно было бы рассчитать количество ожидаемых голов в матче в каждой игре.
Модель, в которой находят количество ожидаемых забитых голов в матче, называется xG от английского expected goals. Существуют уже готовые расчеты для вездесущей АПЛ и футбольных клубов США.
Подобную статистику несложно и самому собрать, портал Four Four Two, StatsZone предоставляет данные по количеству произведенных ударов по воротам с указанием позиции и направления удара. Дальше в дело вступают статистические модели и числодробилки. Обычно для поиска оптимальной зависимости используют выборку с самозагрузкой, или bootstrap sampling. Это подразумевает многочисленные повторяемые процессы случайной выборки с возвратом, чтобы проверить и настроить коэффициенты при независимых переменных, обеспечивающие максимальную отдачу, минимизирующие сумму квадратов отклонений от вычисленной линии кривой.
Существуют многочисленные модели xG в связи с кажущейся простотой зависимости между ударом по воротам и забитым голом. Сначала входными данными являются лишь расстояние до ворот и наклон линии удара, затем в расчет следует брать передачи. Одно дело передача с места, другое дело - с дриблинга. Позиция передающего пас игрока тоже имеет значение. Очень скоро в глазах начинает рябить от количества факторов. И все равно не все учтено: погода, покрытие поля, психологические факторы…
Несмотря на то, что на бумаге, то есть на экране, xG-модели выгладят аккуратно и даже могут отражать динамику забитых мячей в масштабе футбольного турнирного сезона, поводов для сомнения немало. Стоит лишь начать препарировать забитый гол на составные части, обязательно упустишь из виду нечто существенное. Случайное событие нельзя препарировать, гораздо лучше соответствующий аппарат Теории Вероятностей.
Возьмем одну из самых известных xG-моделей, ее автор Michael Caley проделал огромную работу и вполне заслуженно занимает одну из верхних строк первой страницы Гугл-поиска. Но после прочтения результатов возникают волне закономерные вопросы.
Зачем, спрашивается, указывать в нелинейной модели коэффициент детерминации R2, близкий к идеальному значению, если он там не уместен? Но даже сам по себе зашкаливающий коэффициент детерминации вызывает сомнения, ибо модель, объяснившая 97% возмущений между забитыми и ожидаемыми мячами, пригодна для разорения каждой первой букмекерской конторы. Скорее всего, данные фильтровались слишком откровенно, либо имело места иная уловка.
Разоблачить подобную магию затруднительно, так как автор не раскрывает секретной формулы и в этом есть резон. Как говорится в таких случаях, «выплата по ипотеке важнее свободы информации».
Я отдаю предпочтения интегральным оценкам и моделям футбольного прогноза, таким как мудрость толпы или модель Пуассона из-за простоты и методологической состоятельности. Однако знать xG все же полезно хотя бы для того, чтобы оценить в полной мере выдающиеся команды и игроков, которые заметно возвышаются над кривой линией.