Математические ставки. Как твиттер помогает делать прогнозы на спорт

Обновлено:
0
Содержание

Может ли коллективный разум быть хорошим советчиком, если вы собираетесь сделать ставку на спорт? Ответ на этот вопрос стал возможным благодаря всепроникающим социальным сетям, из которых лучшим источником всевозможных прогнозов и прорицаний является твиттер. Ограничение в 140 символов позволило создать средства автоматической обработки миллионов сообщений, а успехи современной науки и ИТ в области машинного обучения создали необходимый инструментарий для анализа текстовых данных. Ранее твиттер уже использовали для прогноза и моделирования исхода выборов в США, цен на акции, киносборов и распространения эпидемий. Так почему бы не попробовать сделать то же самое для спортивных соревнований? Такие исследования также проводились – и результаты были весьма обнадеживающие. О них и пойдет речь в этом материале.

Западные исследователи использовали твиттер для прогнозов на с порт

Исследование #1

В первом случае ученые из Carnegie Mellon University взяли данные спортивных соревнований NFL за 2010-2012 гг., собрали футбольные твиты за тот же период, тщательно фильтруя записи по хештегам в поддержку той или иной команды. Таким образом, каждая запись хештегом команды трактовалась однозначно: победа или поражение в предстоящей игре. Дальнейшая классификация твитов шла по схеме ниже.

Читайте также:

Классификация послематчевых твитов по американскому футболу

Прогноз победы хозяевПрогноз победы гостей
home: winhome: victoryaway: lossaway: winaway: congratshome: lost
home: wonhome: WINaway: lostaway: wonaway: Gohome: loss
home: Greataway: loseaway: refsaway: Greataway: proudhome: bad

Обратите внимание, как проигравшая сторона привычно пеняет на судей (ключевое слово refs). Массив послематчевых твитов стал полигоном, на котором исследователи научились извлекать ценные крупицы из всей массы текста, а затем стали обсчитывать ключевые слова в предматчевых твитах. С помощью статистических методов, используя логистическую регрессию, исследователи в течении нескольких месяцев составляли прогнозы:

  • только на основе твиттера;
  • на основе твиттера И традиционных статистических способов прогноза.

Прогнозы делались на:

  • исход игры;
  • фору;
  • тотал.

Для американского футбола твиттер оказался довольно хорошим индикатором. При использовании только твиттера, точность прогноза на тотал составила 54,3%. С форой получилось похуже – всего 47,6% верных прогнозов. Изменяя и подстраивая различные коэффициенты по ходу эксперимента, обучая программу, удалось достичь следующих результатов для 2012 года:

  • прогноз исхода игры – 63,8%;
  • прогноз форы – 52%;
  • прогноз на тотал – 44,1%.

Исследование #2

Теперь немного о втором исследовании, в котором футбольные твиты служили индикатором результатов матчей АПЛ, сыгранных весной 2014 года. В компьютер загрузили около 2 миллионов твитов, футбольную статистику АПЛ – и стали считать. Так же как и в предыдущем эксперименте, отбор твитов происходил по хештегам футбольных клубов, которые необходимо было отфильтровать, отсеяв все те, что могли принадлежать разным клубам. Например, хештег #Saints может принадлежать Southampton F. C. из АПЛ, но также и New Orleans американской NFL.

...речь идет пока только лишь об англоязычном сегменте твиттера. Это обусловлено распространенностью английского языка, его относительно простым словообразованием, наиболее подходящим для машинной обработки.

Некоторые затруднения в расчетах возникли из-за того, что популярность команд в твиттере распределена крайне неравномерно. Самые популярные команды, такие как Манчестер Юнайтед и Liverpool F.C. собрали свыше 400 тысяч твитов, в то время как Fulham и Swansea – лишь 15,5 тысячи.

Одновременно шла обработка футбольной статистики с учетом множества факторов: среднее количество забитых мячей, угловых, ударов по воротам, штрафов, желтых и красных карточек и так далее.

С помощью все той же логистической регрессии, модели Байеса и алгоритмов машинного обучения удалось добиться следующих результатов.

  • только твиттер: в среднем точность прогноза – 66%, минимум – 56%, максимум – 75%;
  • только футбольная статистика: в среднем точность прогноза – 59%, минимум – 51%, максимум – 64%;
  • твиттер + футбольная статистика: в среднем точность прогноза – 70%, минимум – 64%, максимум – 75%.

Твиттер + ставки на спорт в России = ?

Как видите, одного твиттера вполне хватает для того, чтобы, имея навыки статистического анализа, успешно предсказывать результаты матча. Необязательно для этого быть футбольным экспертом. Тут, правда, необходимо сделать оговорку. Многие уже догадались, что речь идет пока только об англоязычном сегменте твиттера. Это обусловлено распространенностью английского языка, его относительно простым словообразованием, наиболее подходящим для машинной обработки. Русскоязычный твиттер ждет своего исследователя. Задача трудная, но крупной IT-компании, вроде «Яндекса» или ABBYY, вполне по зубам.

Какой практический урок можно извлечь из этого? Коллективный разум вполне хорошо умеет предсказывать спортивные соревнования, надо лишь уметь правильно поставить вопрос и прочитать ответ. Если вы уверены в победе вашей команды, но в подписке твиттер-новостей с хештегом вашей команды мелькают слова «продуют», «травма», «не в форме», то, возможно, вам следует подумать еще раз, прежде чем ставить на победу любимцев.

Комментарии3
ВБ
Василий Борисов
newbie

С языками я не очень. Любопытен механизм и фильтры.
Условно: в один день может быть: угадали 3 из 3 (топик/результат), в другой - 4 из 12. Как качественно определить объективность и результат? Чем больше фильтров, тем хлопотнее достижение результата, и искаженный конечный результат. Я вижу так.

0
0
Ответить
0
АА
Алексей Алексеев
newbie

Занимательная статья. Спасибо)
Интересно, а выкладывают ли в открытый доступ прогнозы исследователи? А то было бы интересно последить сейчас.

1
0
Ответить
1
МГ
Микаел Григорян

Алексей Алексеев

Такое случается, но редко кто делает это систематически из исследователей.

1
0
Ответить