Previsões de Futebol - Estatística UFRJ: setembro 2017

sexta-feira, 29 de setembro de 2017

Predições para Rodada 26, após Rodada 25

Série A Brasileirão 2017

Mandante	Visitante	PVM	PE	PVV
Atlético-PR	Atlético-MG	50%	30%	20%
Avaí	Atlético-GO	27%	42%	31%
Bahia	Coritiba	53%	26%	21%
Botafogo	Vitória	55%	25%	21%
Cruzeiro	Corinthians	23%	44%	34%
Grêmio	Fluminense	49%	28%	23%
Palmeiras	Santos	33%	43%	24%
Ponte Preta	Flamengo	32%	32%	36%
São Paulo	Sport	48%	25%	26%
Vasco	Chapecoense	37%	29%	34%

segunda-feira, 25 de setembro de 2017

Predições para o campeonato, após a rodada 25

Série A Brasileirão 2017

Time	Campeonato	Libertadores	Pré-Libertadores	Rebaixado
Atlético-GO	0%	0%	0%	89,7%
Atlético-MG	0%	0,1%	1,4%	20,2%
Atlético-PR	0%	3,4%	17%	1,4%
Avaí	0%	0%	0,1%	41,1%
Bahia	0%	0%	1,5%	12,7%
Botafogo	1%	37,2%	72,3%	0%
Chapecoense	0%	0%	1,5%	21,3%
Corinthians	89,3%	99,8%	100%	0%
Coritiba	0%	0%	0%	52,6%
Cruzeiro	0,5%	36,8%	71,1%	0%
Flamengo	0,4%	24%	55,3%	0%
Fluminense	0%	0,6%	4%	8,6%
Grêmio	3,9%	72,8%	92,4%	0%
Palmeiras	2,3%	59,8%	87%	0%
Ponte Preta	0%	0%	0,2%	52,4%
Santos	2,5%	64,8%	90,6%	0%
São Paulo	0%	0,1%	1,6%	20,2%
Sport	0%	0,1%	1%	23,1%
Vasco	0%	0,2%	2,4%	13,8%
Vitória	0%	0%	0,3%	42,9%

Observações:
1-A coluna "Libertadores" define a probabilidade de um time terminar a competição numa das 4 primeiras posições, ou seja, a probabilidade dada pelo modelo desse time se classificar para a fase de grupos da Taça Libertadores de 2018.
2-A coluna "Pré-Libertadores" define a probabilidade de um time terminar a competição numa das 6 primeiras posições, ou seja, a probabilidade dada pelo modelo desse time se classificar para a Taça Libertadores de 2018, em qualquer fase.

domingo, 24 de setembro de 2017

Predições para o campeonato, após a rodada 24

Série A Brasileirão 2017

Time	Campeonato	Libertadores	Pré-Libertadores	Rebaixado
Atlético-GO	0%	0%	0%	85,9%
Atlético-MG	0%	0,6%	3,9%	10,9%
Atlético-PR	0,1%	7,6%	26,1%	0,5%
Avaí	0%	0%	0,2%	43,9%
Bahia	0%	0,1%	1,4%	25,6%
Botafogo	0,4%	27,4%	58,5%	0,1%
Chapecoense	0%	0%	1%	31,5%
Corinthians	87,9%	99,4%	99,9%	0%
Coritiba	0%	0,1%	0,4%	40,5%
Cruzeiro	0,1%	28,3%	60,2%	0%
Flamengo	0,5%	37,6%	68,6%	0,1%
Fluminense	0%	2%	9,3%	5,1%
Grêmio	7,9%	86,5%	96,8%	0%
Palmeiras	1,5%	50,5%	80,8%	0%
Ponte Preta	0%	0%	0,3%	40,9%
Santos	1,5%	58,1%	84,8%	0%
São Paulo	0%	0,4%	1,8%	22,4%
Sport	0%	0,5%	2,9%	17,2%
Vasco	0%	0,6%	2,7%	14,8%
Vitória	0%	0%	0,1%	60,9%

sábado, 23 de setembro de 2017

Comparação de modelos - Série A Brasileirão 2016

No último post, falou-se de um método de comparação de modelos no qual se compara as probabilidades dadas por eles para ter acontecido o que já aconteceu. Essas probabilidades são comumente chamadas de verossimilhanças preditivas, e, na tabela abaixo estão as verossimilhanças preditivas em diferentes rodadas para cinco modelos.

O primeiro modelo é o apresentado nesse site

O segundo é o do Chance de Gol

O terceiro é o da Matemática da UFMG

O quarto é um modelo em que as probabilidades dos resultados são todas iguais (ele é chamado de nulo porque presume que não há nada que possa nos ajudar a prever resultados de futebol, e por isso todas suas probabilidades são iguais)

O quinto é um cujas probabilidades são iguais às médias do campeonato (ou seja, visto que os mandantes ganharam cerca de 53% dos jogos do Brasileiro de 2016, a probabilidade dada pelo modelo para o mandante de uma partida vencer é sempre a mesma, cerca de 53%, e as probabilidades de empate, ou de vitória do visitante, são calculadas de forma análoga)

As oito primeiras linhas contêm as probabilidades dadas pelos cinco modelos para as rodadas correspondentes terem transcorrido como transcorreram (todos os valores foram escritos em função dos do modelo nulo, assim, valores maiores que um significam que esse modelo teve um valor maior que o do nulo, enquanto valores menores significam o contrário)

A última linha compara as probabilidades que os modelos deram para as últimas oito rodadas do campeonato do ano passado terem sido como foram
Rodada	UFRJ	CdG	UFMG	Nulo	Simples
31	8,1	1,8	1,7	1	4
32	4,4	3,9	6,6	1	0,8
33	0,3	0,4	1,4	1	1,1
34	5	3,1	0,6	1	8,6
35	1,4	1,3	0,8	1	0,2
36	15,8	13,1	5,2	1	11
37	0,7	0,7	0,1	1	1,9
38	14,9	2,5	4,1	1	2,5
Total	12531,5	277,4	11,4	1	245,1

Medidas de qualidade das predições

Têm sido compartilhadas aqui as predições feitas por nosso modelo para as próximas recentes rodadas do Campeonato Brasileiro de 2017, e esse compartilhamento continuará a acontecer até o final da competição. Entretanto, para que se consiga bons resultados, não basta apenas gerar predições a partir de um modelo, é necessário ter uma forma de comparar a qualidade de suas predições com as de outros. A forma mais usada para isso é a de ver se um modelo "acertou" o resultado do jogo, e, depois, contar quantos acertos o modelo teve numa determinada rodada (o modelo "acerta" quando o resultado que aconteceu foi o resultado - vitória do mandante, empate ou vitória do visitante - a que ele tinha dado a maior de suas três probabilidades). No entanto, há várias outras formas de medir a qualidade preditiva de um modelo, e uma delas é a de pegar as probabilidades dadas por cada modelo a um resultado que aconteceu, e considerar que o modelo que "acertou" é o que gerou a maior dessas probabilidades. Outra seria a de comparar a probabilidade dada por esse modelo para que tenha acontecido o que aconteceu, a partir do que sabemos.
Essas serão as três principais formas usadas para comparar a qualidade de nossas predições com a de outras. Para os que estiverem interessados na definição matemática desse terceiro método de comparação (no qual chama-se a probabilidade dada pelo modelo para que tenha acontecido o que aconteceu de verossimilhança preditiva), uma explicação pode ser encontrada aqui.
Agora, para ilustrar o funcionamento desses três diferentes métodos, será usado um pequeno conjunto de jogos:

Mandante	Visitante	Placar
A	B	0x0
C	D	6x2
E	F	0x1
G	H	1x1

E serão comparadas as probabilidades que quatro modelos deram para esses resultados, antes de eles terem acontecido. O terceiro modelo será chamado de simples, e define as probabilidades de cada time vencer com base nas médias do campeonato, até o momento; ou seja, a probabilidade que o modelo dá para um time mandante vencer seu jogo é igual à proporção de vitórias de mandantes no campeonato, até aquele momento. As probabilidades de empate e de vitória são calculadas de forma análoga. Assim, as probabilidades dadas pelo modelo simples para vitórias de A, C, E e G são iguais entre si, e o mesmo pode ser dito para as probabilidades de empates nessas partidas e para as probabilidades de vitórias de B, D, F e H. Para calcular as probabilidades dadas por esse modelo para esse conjunto de dados, presumiu-se que o campeonato de que participam os oito times apresentou, até o momento, porcentagens de: 50% de vitórias dos mandantes, 25% de empates e 25% de vitórias dos visitantes.
O modelo simples é assim chamado porque pode-se ver, a partir da forma como ele calcula suas probabilidades, que o único fator que está influenciando seu processo de previsão de resultados é a definição de mandante e visitante, dentro de cada jogo. Já o quarto modelo será chamado de nulo, e será assim chamado porque seu processo de previsão não depende de qualquer fator. Ele define que as probabilidades de qualquer um dos três possíveis resultados acontecer é igual para todos: um terço, ou, aproximadamente 33%.
Aqui estão as probabilidades dadas pelos quatro modelos para os resultados que realmente aconteceram:

Modelo 1

Mandante	Visitante	PVM	PE	PVV
A	B	40%	30%	30%
C	D	45%	25%	30%
E	F	30%	50%	20%
G	H	37%	38%	25%

Modelo 2

Mandante	Visitante	PVM	PE	PVV
A	B	60%	20%	20%
C	D	55%	21%	24%
E	F	50%	30%	20%
G	H	28%	57%	15%

Modelo Simples

Mandante	Visitante	PVM	PE	PVV
A	B	50%	25%	25%
C	D	50%	25%	25%
E	F	50%	25%	25%
G	H	50%	25%	25%

Modelo Nulo

Mandante	Visitante	PVM	PE	PVV
A	B	33%	33%	33%
C	D	33%	33%	33%
E	F	33%	33%	33%
G	H	33%	33%	33%

Vamos, então, para a comparação de modelos. Quando se utiliza o primeiro método, não há como o modelo nulo "acertar" um resultado, visto que suas probabilidades são todas iguais. Assim, os resultados a seguir são só para os outros três modelos:

Modelo	Acertos
1	2
2	2
Simples	1

Para o segundo método, os resultados são:

Modelo	Acertos
1	0
2	2
Simples	0
Nulo	2

Para o terceiro método, os valores são padronizados de acordo com o valor do modelo nulo. Dessa forma, a probabilidade dada por um modelo para os resultados que ocorreram terem ocorrido é dividida pela probabilidade dada pelo modelo nulo. Dessa maneira, qualquer valor maior que um mostra que esse modelo deu uma probabilidade maior que a do nulo, enquanto um valor menor que um aponta para o oposto. Aqui estão os resultados:

Modelo	Valor
1	0,83
2	1,02
Simples	0,63
Nulo	1

Agora, para comparar os modelos de acordo com os valores nas tabelas, é simples. Quanto maior o valor de um modelo na segunda coluna de sua linha numa tabela, melhor foi seu desempenho em cada método. E essas tabelas mostram os problemas com os dois primeiros métodos de comparação. Olhando para a primeira tabela apenas, os modelos 1 e 2 parecem de ser de mesma qualidade, o simples parece ser o pior dos três e nada se sabe sobre o nulo. Olhando apenas para a segunda tabela, vê-se que os modelos 2 e nulo são de mesma qualidade, e o mesmo pode ser dito para os modelos 1 e simples. Usaro o terceiro método possibilita que finalmente se veja as diferenças mais sutis entre os modelos, com o modelo 2 sendo o melhor, o nulo sendo o segundo melhor, o 1 sendo o terceiro melhor e o simples sendo o pior.
Duas considerações adicionais podem ser feitas a partir dos resultados do terceiro método. A primeira se baseia unicamente no valor da segunda coluna para cada modelo. Caso esse valor seja menor que um, pode-se dizer que esse modelo apresentou sérios problemas na previsão de resultados para os quatro jogos que foram utilizados, pois o modelo nulo - um modelo que, basicamente, considera fútil o exercício de prever resultados - se saiu melhor que ele. A segunda se relaciona com a qualidade relativa de um modelo, quando comparado com o nulo. Nela, o valor dado para o modelo é padronizado para um valor para um jogo. Ou seja, o valor para cada modelo é passado por uma raiz quarta. Raiz quarta porque foram utilizados quatro jogos; se tivessem sido usados dois, seria uma raiz quadrada; se fossem cem, raiz centésima.
Depois de passada a raiz quarta, os resultados são:

Modelo	Valor
1	0,955
2	1,003
Simples	0,892
Nulo	1

A forma de se interpretar esses resultados é a seguinte: a previsão do modelo 1 para um jogo teve 95,5% da qualidade de uma previsão do nulo, a do 2 teve 100,3% e a do simples teve 89,2%. Ou seja, quando se padroniza os valores para um jogo, uma previsão do modelo 1 foi 4,5% pior que uma do nulo, enquanto uma do 2 foi 0,3% melhor e uma do 2 foi 10,8% pior.

Predições para Rodada 25, após Rodada 24

Série A Brasileirão 2017

Mandante	Visitante	PVM	PE	PVV
Atlético-GO	Cruzeiro	19%	33%	49%
Atlético-MG	Vitória	38%	30%	32%
Bahia	Grêmio	*29%*	23%	49%
Chapoecoense	Ponte Preta	*43%*	31%	25%
Coritiba	Botafogo	27%	42%	*31%*
Flamengo	Avaí	54%	*33%*	14%
Fluminense	Palmeiras	34%	28%	*38%*
Santos	Atlético-PR	*46%*	40%	14%
São Paulo	Corinthians	19%	*32%*	49%
Sport	Vasco	48%	*28%*	24%

Predições para Rodada 24, após Rodada 23

Série A Brasileirão 2017

Mandante	Visitante	PVM	PE	PVV
Atlético-PR	Fluminense	*45%*	25%	31%
Avaí	Atlético-MG	20%	*40%*	40%
Botafogo	Santos	*33%*	39%	28%
Corinthians	Vasco	*64%*	27%	9%
Cruzeiro	Bahia	*57%*	30%	13%
Flamengo	Sport	*54%*	24%	22%
Grêmio	Chapecoense	66%	19%	*16%*
Palmeiras	Coritiba	*50%*	29%	21%
Ponte Preta	Atlético-GO	58%	23%	*19%*
Vitória	São Paulo	34%	28%	*38%*

sábado, 9 de setembro de 2017

Predições para Rodada 23, após Rodada 22

Série A Brasileirão 2017

Mandante	Visitante	PVM	PE	PVV
Atlético-GO	Bahia	36%	*32%*	32%
Atlético-MG	Palmeiras	30%	*30%*	40%
Atlético-PR	Coritiba	55%	*23%*	23%
Botafogo	Flamengo	*40%*	30%	30%
Chapecoense	Cruzeiro	23%	28%	*50%*
Santos	Corinthians	*24%*	40%	35%
São Paulo	Ponte Preta	56%	*27%*	16%
Sport	Avaí	54%	29%	*17%*
Vasco	Grêmio	*14%*	18%	69%
Vitória	Fluminense	25%	*24%*	52%