Ferramenta usa big data para definir favoritos para a Copa

O sistema foi lançado no final de 2009 justamente com o objetivo de definir os favoritos na Copa de 2010, na África do Sul

O blog FiveEightThirtySports divulgou nesta segunda-feira uma ferramenta online e interativa que mostra as chances que cada seleção tem de conquistar a Copa do Mundo.

O resultado é relativamente óbvio – o Brasil é o favorito, com 45,2% de levar a taça –, mas a forma como ele foi obtido é bastante interessante: os cálculos foram feitos pelo algoritmo Soccer Power Index, desenvolvido por Nate Silver, editor-chefe da página, junto com a emissora ESPN.

O sistema foi lançado no final de 2009 justamente com o objetivo de definir os favoritos na Copa de 2010, na África do Sul.

Para isso, o SPI usou como base dados de resultados passados de cada equipe, rivalidades históricas, times em que estavam os jogadores (o foco ainda está nas competições europeias, no entanto), os potenciais ofensivo e defensivo de cada lado, entre outras informações – e parece ter recebido melhorias para a competição deste ano.

A principal delas, segundo escreveu Silver no texto postado no blog, é atenção maior dada a resultados exatos de cada jogo.

“Essas projeções de partidas [e dos placares] são calibradas com base nos resultados históricos que mais lembram uma Copa do Mundo, como jogos competitivos entre as 100 melhores equipes do ranking”, segundo o editor e estatístico.

Para ele, é importante diferenciar um 2 a 0 de um 2 a 1 nos resultados dos cálculos, já que gols feitos e sofridos podem servir de critério de desempate e definir classificação de uma equipe para uma competição oficial.

O algoritmo também leva em conta o fator “distância percorrida”, já que o fuso horário e o cansaço de uma viagem poderiam, em teoria, influir diretamente no desempenho da equipe.

Mas só na teoria mesmo, porque, segundo o texto, o ponto não pareceu afetar muitos os resultados de partidas realizadas a partir de 2006, período em que o SPI teve acesso a “dados altamente detalhados”.

Por isso, os ajustes foram “fracos”, como classificou o estatístico – e as porcentagens não foram tão modificadas, apesar do leve favorecimento a seleções latinas.

A nova ferramenta baseada no SPI está disponível aqui, e prevê inicialmente quais seleções passarão da primeira fase.

As porcentagens de vitória, empate ou derrota das seleções em cada uma das partidas são mostradas na tabela da direita, dando uma boa noção do que o algoritmo pode fazer.

Já a parte “Knockout Stage” mostra as chances que cada equipe tem de passar para as fases seguintes e, por fim, levar a taça. Se quiser saber mais sobre o algoritmo, vale dar uma olhada nas explicações da própria ESPN (em inglês, infelizmente).