PREVISÃO DE RESULTADOS EM PARTIDAS DE FUTEBOL

(1)

Marcelo Leme de Arruda

www.chancedegol.com.br

Universidade Federal do Rio Grande do Norte Semana de Estatística 2013

(2)

1 – Representação paramétrica

Descrição matemática da probabilidade de um dado resultado ou placar

"Equação das probabilidades"

2 – Método de estimação

Forma de obtenção dos parâmetros da "equação das probabilidades" a partir de dados e informações reais

(3)

(3 – Análise de Qualidade)

Quão "bom" é o modelo? Atributos de qualidade Medidas de qualidade Valores de referência

(4)

Existem duas formas (abordagens) de representação paramétrica:

* Representação para o RESULTADO:

P(vitória) P(empate) P(derrota)

* Representação para o PLACAR do jogo:

P(0x0) P(0x1) P(0x2) P(1x0) P(1x1) P(1x2) P(2x0) P(2x1) P(2x2)

(5)

Representação para o RESULTADO

Várias podem ser formuladas, mas a mais conhecida é a Representação de

Bradley-Terry: j i i j i

P

i

j

p

π

+

=

(

)

,

vencer

Exemplo: jogo A x B com e

9

4

,B

=

A

p

5

4 =

=

_B A

π

então: e

9

5

,A

=

B

p

(6)

Construção de Bradley-Terry

Embora seja extremamente intuitiva, a Representação de Bradley-Terry pode ser matematicamente construída a partir da

Distribuição de Gumbel (também conhecida

como Distribuição de Valores Extremos).

Definição: diz-se que X ~ Gumbel(

µ

,

β

) se:













−

=

− − β µ

β

µ

β

x

e

x

f

(

)

1 exp

(7)

Construção de Bradley-Terry

então:

Consideremos agora que cada time tem um escore latente S ("escore latente" significa um placar não-observável mas que indiretamente define o vencedor – exemplo: xadrez).

β µ) (

)

(

)

(

− − −

=

≤

=

x e

e

x

X

P

x

F

Suponhamos então que o time i tem um escore latente S_i que segue uma Distribuição de Gumbel com parâmetros e .

β

=

1 µ

=

_log

π

_i

(8)

Construção de Bradley-Terry

então:

Assim, o resultado de um jogo entre dois times i e j pode ser representado por uma variável aleatória . 1 ) log (

)

(

)

(

i s e i

s

e

S

P

s

F

π − − −

=

≤

=

E pode-se mostrar que essa variável tem distribuição de probabilidade j i ij

=

S

−

S

∆

i j i i i i

e

P

F

δ

_π ₋ _π ₋_δ

+

=

≤

∆

=

∆

_(ln _ln ₎

1

1 )

(

)

(

(9)

Construção de Bradley-Terry

e, por fim, que a probabilidade de vitória do time i contra o time j é igual a:

=

+

=

≤

∆

−

=

>

∆

=

− −(ln ln )

1

1 )

0 (

1 )

0 (

)

(

j i i i

e

P

j

i

P

π π

vencer

j i i

π

+

(10)

Bradley-Terry - Observações

A formulação padrão de Bradley-Terry se aplica somente a confrontos simples onde não existe a possibilidade de empate (exemplo: xadrez - Ranking Elo). Porém, existem adaptações / expansões que contemplam:

* Possibilidade de empate;

* Efeito "vantagem do primeiro jogador" (jogar com as brancas, jogar no seu próprio campo etc.);

* Margem de vitória * etc.

(11)

Representação para o PLACAR

Várias podem ser formuladas, mas a mais usual é a Distribuição de Poisson, ou seja, se X é o número de gols marcados por um time num dado jogo, então:

!

)

(

)

(

x

e

x

P

x

X

P

x

λ

λ −

=

marcar

gols

Exemplo: se

λ

= E[X] = 1,8 (ou seja, se. o time "marca em média 1,8 gol por jogo"), então a probabilidade de ele marcar 3 gols é:

161 ,

0 !

3 )

8 ,

1 (

)

3 (

3 ) 8 , 1 (

=

e

−

X

P

(12)

Representação para o PLACAR

MAS... pode-se considerar que E[X] e P(X=x) dependam da força do adversário.

Por isso, uma representação mais adequada pode ser a Distribuição de Holgate:

∑

= − − + + −

−

=

min( , ) 0 12 2 1 ) 12 2 1 (

!

)!

(

)!

(

)

,

(

y x i i i y i x

i

y

i

x

e

y

Y

x

X

P

λ λ λ

λ

(13)

Construção da Holgate

Assim como vimos com a Representação de Bradley-Terry, a Distribuição de Holgate também tem sua razão de ser.

Consideremos três variáveis independentes

P₁, P₂ e P₁₂, com distribuições de Poisson:

P₁ ~ Poisson(

λ

₁)

P₂ ~ Poisson (

λ

₂)

(14)

Construção da Holgate

Então, a Distribuição de Holgate é a distribuição do vetor (X,Y), ou seja:

E definamos X e Y da seguinte forma:

X = P₁ + P₁₂ Y = P₂ + P₁₂

)

,

(

)

,

(

X

x

Y

y

P

₁

P

₁₂

x

P

₂

P

₁₂

y

P

=

+

=

+

=

Notem que é a presença comum de P₁₂ nas expressões de X e Y que provoca a dependência entre as duas variáveis.

(15)

Existem vários modos possíveis para estimar (obter) os parâmetros de uma representação:

* Máxima Verossimilhança

* Estimação Bayesiana / Métodos Iterativos * Mínimos Quadrados (Modelos Lineares)

* Estimação direta * etc.

(16)

Máxima Verossimilhança

É a procura, dentre todos os valores possíveis que os parâmetros podem assumir, daqueles que maximizam a probabilidade de ocorrência dos resultados observados.

Exemplo - Bradley-Terry: j i i j i

p

π

+

=

,

∏∏

= ≠ =

+

=

⇒

N i N i j j ij n j i i n i

L

1 1

(

π

)

π

verossimilhança de um jogo verossimilhança total

(17)

Máxima Verossimilhança

Exemplo numérico - Bradley-Terry:

=

+

⋅

+

⋅

+

⋅

+

⋅

+

⋅

+

=

D A D C B B D B B C A A D C C B A A

L

π

Então, a verossimilhança total para esses jogos é:

A vence B A vence C B vence C

C vence D B vence D D vence A

)

)(

(

2 2 D A C B D B C A D C B A D C B A

π

+

π

+

π

+

=

(18)

Máxima Verossimilhança

)

ln(

)

ln(

)

ln(

)

ln(

)

ln(

)

ln(

ln

2 ln

2

D A C B D B C A D C B A D C B A

π

+

−

+

−

+

−

+

−

+

−

+

−

+

=

l

e portanto a log-verossimilhança total é:

Por fim, calculando-se as derivadas e igualando-as a zero:

0

0 =

∂

=

∂

=

∂

=

∂

D C B A

π

l

(19)

Máxima Verossimilhança

15 ,

0 ˆ

45 ,

0 ˆ

15 ,

0 ˆ

45 ,

0 ˆ

=

D B C A

π

chegamos a equações do tipo:

0

1

2 =

+

−

+

−

+

−

D A C A B A A

π

Em geral, não há solução analítica para essas equações, mas existem métodos numéricos facilmente programáveis e através dos quais podemos encontrar:

(20)

Máxima Verossimilhança

Observação 1: a solução das equações

não é única! Para perceber isso, basta notar que, se

π

_A,

π

_B,

π

_C e

π

_D são soluções estimadores de MV, então B A A B A A AxB

k

L

π

+

=

+

=

D C C D C C CxD

k

L

π

+

=

+

=

e k

π

_A, k

π

_B, k

π

_C e k

π

_D também são EMV. etc.

(21)

Máxima Verossimilhança

O que se costuma fazer é escolher k de forma que a soma dos parâmetros seja igual a 1:

⇒

=

⇒

=

+

⇒

=

2 ,

1

2 ,

1 ˆ

ˆ

15 ,

0 ˆ

15 ,

0 ˆ

45 ,

0 ˆ

45 ,

0 ˆ

k

D C B A D C B A

π

125 ,

0 ˆ

375 ,

0 ˆ

125 ,

0 ˆ

375 ,

0 ˆ

=

D B C A

π

(22)

Máxima Verossimilhança

Observação 2 – Poisson (Holgate):

Exemplo – Time A 3x2 Time B

Essa expressão é geralmente impraticável de se derivar e igualar a zero.

Se consideramos a verossimilhança total para um conjunto de jogos, é ainda mais inviável obter analiticamente os EMV.

∑

= − − + + −

−

=

2 0 12 2 2 3 1 ) 12 2 1 (

!

)!

2 (

)!

3 (

i i i i

i

e

L

λ λ λ

λ

(23)

Mínimos Quadrados

Consiste em tratar os parâmetros como váriáveis dependentes de informações observadas (variáveis explicativas):

i ki k i i i

α

x

α

x

α

x

ε

θ

=

+

L

+

2 2 1 1

Esse parâmetro

θ

_i pode ser:

* o

π

de Bradley-Terry do time i; * o

λ

da Poisson de um time i;

* uma função dos

λ

’s de Poisson dos dois adversários do jogo i;

(24)

Mínimos Quadrados

A forma padrão de estimação dos

θ

_i é a minimização dos erros quadráticos:

)

(

₁ ₁_i ₂ ₂_i _k _ki i i

θ

α

x

α

x

α

x

ε

=

−

+

L

+

∑

−

+

=

Ε

i ki k i i i

x

2 2 2 1 1

)]

(

[

θ

α

L

α

(erro individual) (erro quadrático total)

Os estimadores de mínimos quadrados são, então, as soluções das equações

etc.

0

2 1

=

∂

Ε

∂

=

∂

Ε

∂

α

(25)

Mínimos Quadrados

e, a partir das estimativas etc., podemos calcular ki k i i i

α

x

α

x

α

x

θ

ˆ

=

ˆ

₁ ₁

+

ˆ

₂ ₂

+

L

+

ˆ

2 1

,

ˆ

α

Observações:

* Vantagem dos MQ sobre os EMV: podemos embutir nos

α

_i qualquer fator de interesse, inclusive relações de dependência entre times adversários.

Um exemplo (numérico, inclusive) disso será visto mais à frente, no estudo de caso.

(26)

Mínimos Quadrados

Observações:

* A abordagem até aqui analisada é de Regressão Linear Múltipla. Mas existem modelos baseados em abordagens mais complexas, como Regressão Logística, GLM etc.

* MQP (Mínimos Quadrados Ponderados): alternativa que difere dos MQO (MQ Ordinários) por permitir inclusão de pesos (idade do jogo, importância do campeonato etc.):

∑

−

+

=

Ε

i ki k i i i i

x

w

[

θ

(

α

₁ ₁

α

₂ ₂

L

α

)]

2

(27)

Estimação Bayesiana e Métodos Iterativos

Métodos Iterativos: o(s) parâmetro(s)

são diretamente atualizados, a partir dos seus valores anteriores e dos resultados ou placares efetivamente observados.

Exemplo 1 (hipotético) - a probabilidade de o time X marcar g gols é:

!

)

(

g

e

g

G

P

g λ λ −

=

(Poisson) k k k+1

=

0 ,

2 ⋅

λ

+

0 ,

8 ⋅

g

λ

e o valor de

λ

é atualizado por (valor atualizado de λ (para o jogo k+1))

(valor original de λ (para o jogo k))

(28)

Estimação Bayesiana e Métodos Iterativos

Exemplo numérico:

então, o valor do parâmetro

λ

para o próximo jogo será

5 ,

3 =

k

λ

3 ,

2

8 ,

0

5 ,

3

2 ,

0

1

=

⋅

+

⋅

=

+ k

λ

e que o time marcou 2 gols nesse jogo .

(

g

_k

=

2 )

(29)

Exemplo 2 (real) - Ranking Elo de Seleções

Estimação Bayesiana e Métodos Iterativos

y x x

Y

X

P

π

+

=

)

(

vencer

_{(Bradley-Terry)}







=

+

contrário

caso

casa

em

jogar

seleção

a

se

400 / 400 / ) 100 (

10

x x x θ θ

π

X

onde

(30)

Estimação Bayesiana e Métodos Iterativos

S_o = resultado observado da seleção X = Exemplo 2 (real) - Ranking Elo de Seleções











=

perder

seleção

a

se

empatar

seleção

a

se

vencer

seleção

a

se

X

0

5 ,

0

1

S_e = resultado esperado da seleção X =

y x x y x y y x x

P

π

+

⋅

+

=

+

⋅

=

⋅

+

⋅

=

0

1 )

(

0 )

(

(31)

Estimação Bayesiana e Métodos Iterativos

Então: '

₍

₎

e o x x

=

θ

+

K

S

−

S

θ

valor original (antes do jogo contra Y) de θ_x valor atualizado (após o jogo contra Y) de θ_x

Constante que depende da competição e da diferença de gols a favor de X.

Exemplo numérico:

800 =

x

θ

então, ignorando o efeito "jogar em casa": Suponhamos que, inicialmente,

100

10

/400

=

x x θ

π

(32)

Estimação Bayesiana e Métodos Iterativos

Exemplo numérico:

25 =

y

π

então, o resultado esperado de X é Suponhamos também que

8 ,

0

125

100

0

1 )

(

0 )

(

1 =

=

+

⋅

+

⋅

=

⋅

+

⋅

=

y x y y x x e

P

S

π

perder

time

ganhar

time

X

supondo agora que o time X ganhe o jogo contra o time Y (ou seja: S_o = 1), temos:

(33)

Estimação Bayesiana e Métodos Iterativos

Exemplo numérico:

)

8 ,

0

1 (

800 )

(

'

−

+

=

−

+

=

K

S

K

_o _e x x

θ

Para jogos de Copa do Mundo (e ignorando a diferença de gols), K = 60 e, portanto, os valores atualizados de

θ

_x e

π

_x seriam:

812 )

8 ,

0

1 (

60

800

'

₌

₊

₋

₌

x

θ

e

π

′

_x

=

10

θx′ /400

=

107 ,

15

(34)

Estimação Bayesiana e Métodos Iterativos

Estimação Bayesiana: atribuição de

uma distribuição de probabilidades aos parâmetros (priori) e atualização dessa distribuição em função das informações observadas (verossimilhança).

)

(

θ

π

Notação:

)

|

(

x

θ

f

- distribuição a priori do parâmetro

θ

- distribuição (verossimilhança) de x, condicional ao valor de

θ

.

)

|

(

θ

x

π

- distribuição a posteriori de

θ

, condicional ao valor de x.

(35)

Estimação Bayesiana e Métodos Iterativos

Distribuição a Posteriori:

)

(

θ

π

)

|

(

x

θ

f

= "probabilidade" (priori) de

θ

assumir um determinado valor.

= "probabilidade" (verossimilhança) de observar o valor x, em função do valor de

θ

.

( )

∫

Θ

=

θ

π

θ

π

θ

π

d

x

f

x

f

x

)

|

(

)

|

(

)

|

(

(36)

Estimação Bayesiana e Métodos Iterativos

Distribuição a Posteriori:

)

|

(

θ

x

π

= "probabilidade“ (posteriori) de

θ

assumir um dado valor, atualizada pelo valor observado de x.

( )

∫

Θ

=

θ

π

θ

π

θ

π

d

x

f

x

f

x

)

|

(

)

|

(

)

|

(

= constante de normalização

( )

∫

Θ

θ

π

f

(

x

|

)

d

(37)

Estimação Bayesiana e Métodos Iterativos

Exemplo: Verossimilhança: βλ α α

λ

α

β

λ

π

− −

Γ

=

1

e

)

(

)

(

!

)

|

(

)

|

(

x

e

x

X

P

x

f

x

λ

=

−λ

(i.e. o número X de gols marcados segue uma Poisson com média

λ

)

Priori:

(i.e. a média

λ

segue uma distribuição Gama com parâmetros

α

e

β

)

(38)

Estimação Bayesiana e Métodos Iterativos

Exemplo:

Posteriori:

MAS: Poisson e Gama são Distribuições Conjugadas, o que facilita a obtenção da posteriori, sem necessidade de calcular a integral do denominador.

∫

∞ − − − − − −

⋅

Γ

⋅

Γ

=

0 1 1

!

)

(

!

)

(

)

|

(

λ

α

β

λ

α

β

λ

_λ βλ α α λ βλ α α

d

x

e

x

e

x

f

x x

(39)

Estimação Bayesiana e Métodos Iterativos

Exemplo: Posteriori: λ β α α

λ

α

β

λ

π

1 ( 1)

)

(

)

|

(

+ − − + +

+

Γ

=

e

x

x x

(i.e. depois da observação do valor x, a média

λ

segue uma distribuição atualizada Gama com parâmetros

α

+ x e

β

+ 1)

(40)

Estimação Bayesiana e Métodos Iterativos

Como calcular P(X=x) para o próximo jogo?

Existem três abordagens:

* Distribuição f(x) com parâmetro igual à Esperança a posteriori de

λ

. * Distribuição f(x) com parâmetro igual à Moda a posteriori de

λ

.

* Distribuição Preditiva:

∫

∞

=

0

)

|

(

)

|

(

)

(

x

π

λ

x

P

x

λ

d

λ

DP

_o

(41)

Estimação Bayesiana e Métodos Iterativos

Exemplo: Posteriori: λ β α α

λ

α

β

λ

π

1 ( 1)

)

(

)

|

(

+ − − + +

+

Γ

=

e

x

xo o o x o * Esperança a posteriori:

1 ]

|

[

+

=

β

α

λ

o o

x

E

!

1 )

(

1

x

a

e

x

X

P

x o o x













+

=

⇒

+ + −

β

β α

(42)

Estimação Bayesiana e Métodos Iterativos

Exemplo: Posteriori: * Moda a posteriori:

1

1 ]

|

[

+

−

+

=

β

α

λ

o o

x

Moda

!

1

1 )

(

1 1

x

a

e

x

X

P

x o o x













+

−

+

=

⇒

+ − + −

β

β α λ β α α

λ

α

β

λ

π

1 ( 1)

)

(

)

|

(

+ − − + +

+

Γ

=

e

x

xo o o x o

(43)

Estimação Bayesiana e Métodos Iterativos

Exemplo: Posteriori: * Distribuição Preditiva λ β α α

λ

α

β

λ

π

1 ( 1)

)

(

)

|

(

+ − − + +

+

Γ

=

e

x

xo o o x o

∫

+ + − − +

⋅

−

+

Γ

=

λ λ λ β α α

λ

α

β

d

x

e

x

DP

x o x o o x

!

)

(

)

(

1 ( 1)

(44)

Estimação Bayesiana e Métodos Iterativos

Exemplo:

Novamente, o fato de Poisson e Gama serem Distribuições Conjugadas, facilita o trabalho e elimina a necessidade de calcular a integral:

* Distribuição Preditiva (Binomial Negativa):

x o x o

x

DP













+













+

−













+

−

=

+

2

1

2

1

1 )

(

β

α

(45)

Estimação Bayesiana e Métodos Iterativos

Exemplo numérico: Verossimilhança (Poisson): λ βλ α α

λ

α

β

λ

π

− −

=

−

Γ

=

1

e

)

(

)

(

!

)

|

(

)

|

(

x

e

x

X

P

x

f

x

λ

=

−λ

(46)

Estimação Bayesiana e Métodos Iterativos

Exemplo numérico:

Suponhamos que o time marcou 2 gols, ou seja, foi observado x_o = 2.

λ βλ α α

λ

α

β

λ

π

1 2 2

4 )

(

)

|

(

− −

=

−

Γ

=

e

x

_o

A posteriori para

λ

será uma Gama com parâmetros

α

+ x_o = 1 + 2 = 3 e

β

+ 1 = 1 + 1 = 2):

(47)

Estimação Bayesiana e Métodos Iterativos

Por fim: * Esperança a posteriori:

5 ,

1

2

3 ]

|

[

x

₀

=

E

λ

( )

!

5 ,

1 )

(

5 , 1

x

e

x

X

P

x −

=

⇒

* Moda a posteriori:

1

2

2 ]

|

[

x

₀

=

Moda

λ

!

)

(

1

x

e

x

X

P

−

=

⇒

Exemplo numérico:

(48)

Estimação Bayesiana e Métodos Iterativos

* Distribuição Preditiva (Binomial Negativa)

x x o x o

x

DP





































+

=













+













+

−













+

−

=

+

3

1

3

2

1

2

1

1 )

(

3

β

α

Obs: os modelos (iterativos e bayesianos) reais são, em geral, (bem) mais complexos que os exemplos aqui apresentados.

(49)

Estimação Direta

Utilização direta de informações descritivas (externas e pré-existentes).

Exemplo:

R_x = pontos da seleção X no Ranking da FIFA

R_y = pontos da seleção Y no Ranking da FIFA

y x x

R

Y

X

P

+

=

)

(

vencer

_{(Bradley-Terry)} PROBLEMA: as informações utilizadas como parâmetros não necessariamente guardam coerência conceitual com as probabilidades.

(50)

* Análise Anterior

* Análise Posterior

Apreciação qualitativa das características da construção do modelo.

Avaliação quantitativa dos resultados preditivos obtidos pelo modelo

Índices de confronto entre previsões realizadas (probabilidades) e resultados efetivamente observados.

(51)

Análise Anterior

Pergunta: o que o modelo faz, faz sentido? Exemplo (Ranking FIFA + Bradley-Terry):

y x y x y y x x

R

X

Y

P

Y

X

P

=

+

=

)

(

)

(

vencer

PORÉM: o método de cálculo do Ranking FIFA

não implica que uma seleção com k vezes a

pontuação de outra, tenha uma probabilidade de vitória igual a k vezes a de derrota!

(52)

Análise Posterior

Se baseia em duas medidas/atributos:

A – Medida de Confiabilidade

Idéia básica: de uma moeda que tenha P(cara) = 80% e P(coroa) = 20%, espera-se obespera-servar, no longo prazo, 80% de caras e 20% de coroas. 2 2

2 ,

0 #

#

8 ,

0 #

#













−

+













−

=

jogadas

coroas

jogadas

caras

MC

(53)

Medida de Confiabilidade

Em termos futebolísticos:

∑

_













−

+

=

p p p p p p p

p

DP

EP

VP

DO

EO

VO

MC

2

#

onde:

=

+

_p _p p

EP

DP

VP

#

quantidade de resultados (vitórias, empates e derrotas) que tinham probabilidade p de ocorrer

=

+

_p _p p

EO

DO

VO

#

quantos desses resultados efetivamente aconteceram

(54)

Medida de Confiabilidade

Observação: Probabilidades são números reais. Por isso, costuma-se trabalhar com intervalos:

∑













−

+

=

I I I I I I I

_I

DP

EP

VP

DO

EO

VO

MC

2 *

#

onde:

=

+

_I _I I

EP

DP

VP

#

quantidade de resultados

(V, E, D) cujas probabilidades de ocorrência estavam dentro do intervalo I

=

+

_I _I

I

EO

DO

VO

#

quantos desses resultados

efetivamente aconteceram

=

*

(55)

Medida de Confiabilidade

Exemplo numérico (site Chance de Gol):

I I* #P_i #O_i [0 ; 0,1] 0,05 2583 314 0,122 0,0051 [0,1 ; 0,2] 0,15 7831 1804 0,230 0,0065 [0,2 ; 0,3] 0,25 16679 5924 0,355 0,0111 [0,3 ; 0,4] 0,35 6293 2774 0,441 0,0082 [0,4 ; 0,5] 0,45 7238 3254 0,450 2x10-7 [0,5 ; 0,6] 0,55 6316 3413 0,540 0,0001 [0,6 ; 0,7] 0,65 3431 2068 0,603 0,0022 [0,7 ; 0,8] 0,75 1625 1098 0,676 0,0055 [0,8 ; 0,9] 0,85 721 562 0,772 0,0050 [0,9 ; 1] 0,95 221 195 0,882 0,0046 I I P O # # * 2 # # _      −I P O I I MC = Soma = 0,0483

(56)

Medida de Confiabilidade

Interpretação Gráfica (site Chance de Gol):

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0 0,2 0,4 0,6 0,8 1

diagonal azul = proporções esperadas (I*₎

(57)

Medida de Confiabilidade

Interpretação Gráfica (site Chance de Gol):

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0 0,2 0,4 0,6 0,8 1

MC = distância entre as linhas azul e vermelha conseqüentemente: melhor MC possível = 0

(58)

Análise Posterior

É uma medida de exatidão das previsões.

B – Medida de DeFinetti

Idéia básica: confronto entre o vetor de probabilidades (previsões) (PV, PE, PD) e o vetor correspondente ao resultado de fato observado:

(1, 0, 0) se o time ganhou o jogo; (0, 1, 0) se o time empatou o jogo; (0, 0, 1) se o time perdeu o jogo.

(59)

Medida de DeFinetti

Todos os vetores (PV, PE, PD) possíveis podem ser associados a pontos do simplex (triângulo) em RR3:

(1,0,0) = vitória

(0,1,0) = empate

(0,0,1) = derrota

(60)

Medida de DeFinetti

Então, a Distância de DeFinetti é a distância quadrática entre o pontos correspondentes à previsão realizada e ao resultado ocorrido:











−

+

−

+

−

+

−

+

−

+

−

+

−

=

perder.

se

empatar;

se

vencer;

se

2 2 2 2 2 2 2 2 2

)

1 (

)

0 (

)

0 (

)

0 (

)

1 (

)

0 (

)

0 (

)

0 (

)

1 (

PD

PE

PV

PD

PE

PV

PD

PE

PV

DDF

E a Medida de DeFinetti é a média aritmética das Distâncias de DeFinetti para todos os jogos considerados.

(61)

Medida de DeFinetti

Valores de Referência:

* "Preguiçoso": imagine um modelo que sempre atribua probabilidades (1/3, 1/3, 1/3), para todos os jogos possíveis.

então, para esse modelo:

6667

,

0 )

0

3

1 (

2 )

1

3

1 (

−

2

+

⋅

−

2

=

MDF

Logo, é mais conveniente, mais rápido, mais barato etc. usar o "modelo preguiçoso" do que um modelo que tenha DDF > 0,6667.

(62)

Análise Posterior

Quantas vezes (proporcionalmente) o modelo produz valores inadequados.

C – "Taxa de Funcionamento"

Exemplo: Bradley-Terry

"TF" = proporção de vezes em que foram estimados valores positivos para

π

.

Exemplo: Binomial Negativa

"TF" = proporção de vezes em que foram estimados valores de p entre 0 e 1.

(63)

Análise Posterior

Quantas vezes (proporcionalmente) o modelo "acertou" o vencedor dos jogos.

D – "Taxa de Acerto" (MITO!)

observação 1: tudo o que tem probabilidade 95% de acontecer, tem 5% de não acontecer.

PORTANTO, não é correto utilizar a "taxa de acerto" como medida de qualidade.

observação 2: se um time tem probabilidade de 5% de vitória, então a hipótese de esse time ganhar o jogo está contemplada (e medida em 5%).

(64)

Análise Posterior

Exemplo: time X x time Y

D – "Taxa de Acerto" (MITO!)

Modelo I Modelo II

P(vitória de X) 0,90 0,35

P(empate) 0,06 0,33

P(vitória de Y) 0,04 0,32

Suponha que o time Y tenha vencido o jogo.

Mas, claramente, I "errou muito mais" que II. Então, os dois modelos teriam "TA" = 0.

(65)

Distribuições de Poisson univariadas, i.e., para um jogo entre os times i e j:

!

)

(

g

e

g

G

P

g i i i

λ

λ −

=

!

)

(

g

e

g

G

P

g j j j

λ

λ −

=

G_i = número de gols marcados pelo time i

(66)

Estimação dos Parâmetros

(quanto o time i é "melhor“ que o j)

Funções a serem estimadas:

j i j i ij

E

G

S

=

[

+

]

=

λ

+

λ

j i j i ij

E

G

D

=

[

−

]

=

λ

−

λ

("poder ofensivo conjunto“ dos dois times) A partir dessas funções D_ij e S_ij, pode-se obter os

λ

de cada time:

2

ij ij i

D

S

+

=

λ

2

ij ij j

D

S

−

=

λ

(67)

Estimação dos Parâmetros

Equações de estimação (regressão):







′

+

=

+

=

k Nk N k k k k Nk N k k k

Y

D

X

S

ε

β

ε

α

K

2 2 1 1 2 2 1 1

S_k = soma de gols no k-ésimo jogo

X_ik = 1 se o time i participou do k-ésimo jogo; 0 se não participou

α

1,

α

2, ...,

α

N são (hiper)parâmetros a serem

(68)

Estimação dos Parâmetros

Equações de estimação (regressão):







′

+

=

+

=

k Nk N k k k k Nk N k k k

Y

D

X

S

ε

β

ε

α

K

2 2 1 1 2 2 1 1

D_k = diferença de gols no k-ésimo jogo

Y_ik = 1 se o time i foi "mandante"

β

1,

β

2, ...,

β

N são (hiper)parâmetros a serem

estimados

-1 se foi "visitante"

(69)

Estimação dos Parâmetros

Aplicando a essas equações técnicas de análise de regressão múltipla, obtemos os estimadores de mínimos quadrados

N N

β

α

_ˆ

_,

_ˆ

_,

_ˆ

ˆ

_,

ˆ

_,

ˆ

2 1 2 1

K

e

K

que são aqueles que minimizam os erros quadráticos

∑

=

−

+

2 2 2 1 1 2

)]

(

[

_k _k _k _N _Nk k

S

α

X

α

X

α

X

ε

K

∑

′

=

−

+

2 2 2 1 1 2

)]

(

[

_k _k _k _N _Nk k

D

β

Y

β

Y

β

Y

ε

K

(70)

Estimação dos Parâmetros

Então, a partir de

α

ˆ

₁

,

α

ˆ

₂

,

K

,

α

ˆ

_N

e

β

ˆ

₁

,

β

ˆ

₂

,

K

,

β

ˆ

_N Suponhamos agora que o próximo jogo (o (k+1)-ésimo) seja entre os times i e j.







−

=

+

=

+

=

+

=

+ + + + + + + + j i k N N k k k j i k N N k k k

Y

D

X

S

β

α

ˆ

1 , 1 , 2 2 1 , 1 1 1 1 , 1 , 2 2 1 , 1 1 1

K

podemos calcular e, conseqüentemente:

2 ˆ

ˆ

=

k+1

+

k+1 i

D

S

λ

2 ˆ

ˆ

=

k+1

−

k+1 j

D

S

λ

e

(71)

Exemplo Numérico

Campeonato hipotético:

Jogo 1 - Time A 2x3 Time B Jogo 2 - Time C 5x1 Time D Jogo 3 - Time A 4x0 Time C Jogo 4 - Time B 1x1 Time D Jogo 5 - Time A 0x2 Time D

Queremos calcular as probabilidades para o Jogo 6 - Time B x Time C

(72)

Exemplo Numérico

Jogo 1 - Time A 2x3 Time B Jogo 2 - Time C 5x1 Time D Jogo 3 - Time A 4x0 Time C Jogo 4 - Time B 1x1 Time D Jogo 5 - Time A 0x2 Time D Então, temos, para

a primeira equação de regressão:                 = 1 0 0 1 1 0 1 0 0 1 0 1 1 1 0 0 0 0 1 1 X                 = 2 2 4 6 5 S

(73)

Jogo 1 - Time A 2x3 Time B Jogo 2 - Time C 5x1 Time D Jogo 3 - Time A 4x0 Time C Jogo 4 - Time B 1x1 Time D Jogo 5 - Time A 0x2 Time D que é "equivalente" a "solucionar" o sistema de equações         = + = + = + = + = + 2 2 4 6 5 D Time A Time D Time B Time C Time A Time D Time C Time B Time A Time

α

Exemplo Numérico

(74)

Jogo 1 - Time A 2x3 Time B Jogo 2 - Time C 5x1 Time D Jogo 3 - Time A 4x0 Time C Jogo 4 - Time B 1x1 Time D Jogo 5 - Time A 0x2 Time D Analogamente, para a segunda equação de regressão:                 − − = 2 0 4 4 1 D                 − − − − − = 1 0 0 1 1 0 1 0 0 1 0 1 1 1 0 0 0 0 1 1 Y

Exemplo Numérico

(75)

Jogo 1 - Time A 2x3 Time B Jogo 2 - Time C 5x1 Time D Jogo 3 - Time A 4x0 Time C Jogo 4 - Time B 1x1 Time D Jogo 5 - Time A 0x2 Time D que é "equivalente" a "solucionar" o sistema de equações         − = − = − = − = − − = − 2 0 4 4 1 D Time A Time D Time B Time C Time A Time D Time C Time B Time A Time

β

Exemplo Numérico

(76)

Calculando-se os estimadores de mínimos quadrados, encontramos:











=

75 ,

0 ˆ

4 ˆ

5 ,

2 ˆ

25 ,

1 ˆ

D Time C Time B Time A Time

α











−

=

−

=

−

=

875 ,

0 ˆ

5 ,

0 ˆ

125 ,

0 ˆ

D Time C Time B Time A Time

β

Exemplo Numérico

de onde obtemos:

5 ,

6 )

0

75 ,

0 (

)

1

4 (

)

1

5 ,

2 (

)

0

25 ,

1 (

]

[

ˆ

+

=

⋅

+

⋅

+

⋅

+

⋅

=

C B

G

E

5 ,

0 )

0

875 ,

0 (

))

1 (

5 ,

0 (

)

1

0 (

)

0

125 ,

0 (

]

[

ˆ

−

=

−

⋅

+

⋅

+

−

⋅

−

+

⋅

=

C B

G

E

(77)

Exemplo Numérico

Por fim:

5 ,

3

2

5 ,

0

5 ,

6

2 ]

[

ˆ

]

[

ˆ

=

B

+

C

+

B

−

C

=

+

=

B

G

E

G

E

λ

3

2

5 ,

0

5 ,

6

2 ]

[

ˆ

]

[

ˆ

=

B

+

C

−

B

−

C

=

−

=

C

G

E

G

E

λ

e, conseqüentemente:

!

)

5 ,

3 (

)

(

5 , 3

b

e

b

G

P

b B −

=

!

3 )

(

3

c

e

c

G

P

c C −

=

(78)

Cálculo de P(V), P(E) e P(D)

Como calcular P(V), P(E) e P(D)?

∑

=

b C B C B

G

P

G

b

P

G

b

G

P

(

empate

)

(

)

(

)

(

)

∑

>

=

>

=

c b C B c B

G

P

G

b

P

G

c

G

P

B

P

(

vitória

de

)

(

)

(

)

(

)

∑

<

=

<

=

c b C B c B

G

P

G

b

P

G

c

G

P

C

P

(

vitória

de

)

(

)

(

)

(

)

PORÉM, não existe fórmula fechada para as duas primeira somas.

(79)

Cálculo de P(V), P(E) e P(D)

* Distribuição de Skellam:

(

B C

)

d d C B C B C B

G

d

e

I

G

P

λ

λ λ

₂

)

(

_| _| 2 / ) (













=

−

− +

)

0 (

)

empate

(

=

P

G

_B

−

G

_C

=

P

então:

∑

>

=

−

=

>

−

=

0

)

(

)

0 (

)

de

vitória

(

d C B c B

G

P

G

d

G

P

B

P

∑

<

−

=

<

−

=

0

)

(

)

0 (

)

de

vitória

(

d C B c B

G

P

G

d

G

P

C

P

(80)

Cálculo de P(V), P(E) e P(D)

Então, a probabilidade de empate pode ser calculada de forma exata:

(

B C

)

C B

_I

e

P

(

empate

)

=

−(λˆ +λˆ ) ₀

2 λ

ˆ

λ

ˆ

(

)

∑

= + −













=

N d C B d d C B C B

_I

e

B

P

1 | | 2 / ) ˆ ˆ (

_ˆ

2 ˆ

ˆ

)

de

vitória

(

λ

λ λ

e as probabilidades de vitória de cada time podem ser aproximadas pelas somas:

(

)

∑

− − = + −













=

1 _| _| 2 / ) ˆ ˆ (

_ˆ

2 ˆ

ˆ

)

de

vitória

(

N d C B d d C B C B

_I

e

C

P

λ

λ λ

(81)

Cálculo de P(V), P(E) e P(D)

* Retângulo Truncado:

então, podem ser feitas as aproximações: P(empate) = soma da diagonal

P(vitória de B) = soma do triângulo superior P(vitória de C) = soma do triângulo inferior

(82)

Exemplo Numérico

Então, lembrando que e

λ

ˆ

_B

=

3 ,

5 λ

ˆ

_C

=

3

e fazendo as somas pela distribuição de Skellam truncada entre -20 e 20, chegamos às probabilidades











=

345 ,

0 )

de

vitória

(

157 ,

0 )

empate

(

498 ,

0 )

de

vitória

(

C

P

B

P

(83)

Exemplo Numérico

Após a realização do jogo, o impacto dessas probabilidades na Medida de Confiabilidade será:

* Soma de 1 ao denominador da parcela referente ao intervalo [0,4 ; 0,5];

* Soma de 1 ao numerador se o time B vencer o jogo e de 0 em caso contrário.

* Soma de 1 ao numerador se o time B empatar o jogo e de 0 em caso contrário.

(84)

Exemplo Numérico

Após a realização do jogo, o impacto dessas probabilidades na Medida de Confiabilidade será:

* Soma de 1 ao numerador se o time B perder o jogo e de 0 em caso contrário.

(85)

Exemplo Numérico

Após a realização do jogo, o impacto dessas probabilidades na Medida de DeFinetti será:

*

se o time B vencer o jogo;

396 ,

0 )

0

345 ,

0 (

)

0

157 ,

0 (

)

1

498 ,

0 (

−

2

+

−

2

+

−

2

=

DDF

*

se o time B empatar o jogo;

078 ,

1 )

0

345 ,

0 (

)

1

157 ,

0 (

)

0

498 ,

0 (

−

2

+

−

2

+

−

2

=

DDF

*

se o time B perder o jogo.

702 ,

0 )

1

345 ,

0 (

)

0

157 ,

0 (

)

0

498 ,

0 (

−

2

+

−

2

+

−

2

=

DDF

(86)

Modelos suficientemente "bons" (no sentido da análise anterior) podem proporcionar a formação de rankings. Exemplo: Bradley-Terry

j

i

j

P

j

i

P

j i j j i i j i

que

“melhor”

é

)

derrotar

(

)

derrotar

(

⇒

>

⇒

+

>

+

⇒

>

π

(87)

Rankings Paramétricos

Exemplo: Chance de Gol

j

i

G

P

G

P

G

E

G

E

G

E

j i j i j i j i j i

que

“melhor”

é

)

(

)

(

]

[

]

[

0 ]

[

⇒

<

>

⇒

>

⇒

>

−

⇒

>

β

Portanto, os times podem ser tecnicamente ranqueados em função dos seus parâmetros

(88)

Resultados x Placares

Exemplo (play-off de cinco jogos): Time M 1x0 Time N Time M 1x0 Time N Time M 1x0 Time N Time M 1x0 Time N

Time N 7x0 Time M

Modelos baseados em resultados:

4 vitórias do Time M contra 1 do Time N (portanto, o Time M é "melhor").

(89)

Resultados x Placares

Exemplo (play-off de cinco jogos): Time M 1x0 Time N Time M 1x0 Time N Time M 1x0 Time N Time M 1x0 Time N

Time N 7x0 Time M

Modelos baseados em placares:

"placar agregado" de 7x4 para o Time N (portanto, o Time N é "melhor").

(90)

Áreas para Estudos Futuros

* Modelos "intermediários" que conciliem "placar" e "resultado";

* Modelos que levem em consideração os jogadores (desfalques, reforços etc.);

* Modelos de comparação histórica (Hungria de 1954 x Brasil de 1970, Santos de Pelé x Barcelona de Messi etc.)

(91)

[email protected]