Inferˆencia Bayesiana na distribui¸c˜ao Normal

(1)

Inferˆ encia Bayesiana na distribui¸c˜ ao Normal

Diego Ignacio Gallardo Mateluna

Instituto de Matem´atica e Estat´ıstica Universidade de S˜ao Paulo

Mar¸co, 2012

(2)

Distribui¸c˜ ao Normal: Inferˆencia da variˆ ancia

com m´edia conhecida

(3)

Dados de anota¸ c˜ oes de equipes de Futebol Americano

Para 672 jogos de Futebol Americano, o banco de dados contém os pontos conseguidos pelo time favorito, pelo time “zebra” e o valor do “spread”, termo utilizado em apostas e que estima a diferen¸ca entre os pontos conseguidos pelo time favorito e pelo time zebra. Baseado nesses valores, é calculada a variáveld=f avorite−underdog−spread.

require(LearnBayes) data(footballscores) attach(footballscores)

d = favorite - underdog - spread n = length(d)

S = sum(d^2)

> n [1] 672

> S [1] 128902

(4)

Dados de anota¸ c˜ oes de equipes de Futebol Americano

Se assumimos que as diferen¸casd1, . . . , dn são uma amostra i.i.d. da distribui¸cãoN(0, σ²), então a fun¸cão de verossimilhan¸ca é dada por

L(σ²) = (σ²)⁻ⁿ²exp (

−

n

X

i=1

d²_i 2σ²

)

, σ²>0.

Suponha priori n˜ao informativa paraσ², i.e., π(σ²)∝σ⁻²

Desse jeito, a distribui¸c˜ao a posteriori paraσ² ´e dada por

π(σ²|X)∝(σ²)⁻(ⁿ₂⁺¹) exp

− S 2σ²

, em queS=Pn

i=1d²i.

Portanto,σ²|X∼Sχ⁻²_n = 128.902χ⁻²₍₆₇₂₎.

(5)

Dados de anota¸ c˜ oes de equipes de Futebol Americano

A distribui¸c˜ao qui-quadrado invertida vem incorporada no pacote geoR.

require(geoR)

curve(dinvgamma(x, n/2,S/2),xlim=c(160,230), ylab="densidade",xlab=expression(sigma^2),lwd=2)

Calculamos o intervalo de credibilidade com caudas sim´etricas para σ² e comparamos com o HDR.

S/qchisq(c(0.975,0.025),n) [1] 172.8538 214.1019 HDRinvgamma(n/2,S/2,0.95) [1] 172.1466 213.2860

(6)

Dados de anota¸ c˜ oes de equipes de Futebol Americano

170 180 190 200 210 220

0.010.020.03

σ²

densidade

Densidade à posteriori HDR

IC com caudas simétricas

Figura:Distribui¸c˜ao `a posteriori deσ².

(7)

0.5 1.0 1.5 2.0

0.00.51.01.52.0

σ²

densidade

Densidade à posteriori HDR

IC com caudas simétricas

Figura:Compara¸cão de HDR e IC com caudas simétricas paraσ² com outra distribui¸cão.

(8)

Distribui¸c˜ ao Normal: Inferˆencia da m´edia

com variˆ ancia conhecida

(9)

Problema de Joe

Suponha que estamos interessados em estimar o QI de Joe, o qual tem distribui¸cãoN(θ, σ²), em queσ= 15. Você acredita, à priori, que a média e a mediana da distribui¸cão paraθé 100. Além disso, considere os seguintes três cenários:

1 Com um 90 % de confian¸ca, vocˆe acredita que o QI de Joe est´a entre 70 e 130.

Utilizando como distribui¸c˜ao `a priori a Normal, pode-se verificar que cada um dos casos pode ser representado da seguinte forma:

1 θ∼N(100; 18.24²)

2 θ∼N(100; 12.16²)

3 θ∼N(100; 6.08²)

(10)

Problema de Joe

Desenhamos as distribui¸cões à priori através dos seguintes comandos.

curve(dnorm(x,mean=100,sd=18.24),xlim=c(80,130),

lwd=2,col=1,ylim=c(0,0.09),ylab="densidade",xlab=expression(theta)) curve(dnorm(x,mean=100,sd=12.16),lwd=2,col=2,add=T)

curve(dnorm(x,mean=100,sd=6.08),lwd=2,col=3,add=T)

a<-c("Priori 1","Priori 2","Priori 3","Post. 1","Post. 2","Post. 3") legend("topleft",a,lwd=2,col=1:3,lty=rep(1:2,c(3,3)),bty="n",cex=1.3)

(11)

Problema de Joe

60 80 100 120 140

0.000.010.020.030.040.050.060.07

θ

densidade

Priori 1 Priori 2 Priori 3

Figura:Distribui¸c˜oes `a priori paraθ.

(12)

Problema de Joe

Sabemos que sey1, . . . , ynprovém da distribui¸cãoN(θ, σ²), (σ² conhecido), e a distribui¸cão a priori paraθéN(µ, τ²), então

θ|X∼N

y(n/σ¯ ²) +µ(1/τ²) n/σ²+ 1/τ² , 1

n/σ²+ 1/τ²

Suponhamos que foram observados quatro resultados do teste QI para Joe.

Desse jeito, a distribui¸cão à posteriori paraθé

θ|X∼N

y(4/15¯ ²) + 100(1/τ²)

4/15²+ 1/τ² , 1 4/15²+ 1/τ²

(13)

Problema de Joe

Consideremos os seguintes poss´ıveis casos para ¯y.

Caso 1: ¯y= 110.

As distribui¸c˜oes `a posteriori paraθpara cada um dos casos fica

1 θ|X∼N(108.55; 48.12)

2 θ|X∼N(107.24; 40.75)

3 θ|X∼N(103.97; 22.31)

Caso 2: ¯y= 125.

1 θ|X∼N(121.38; 48.12)

2 θ|X∼N(118.11; 40.75)

3 θ|X∼N(109.91; 22.31) Caso 3: ¯y= 140.

1 θ|X∼N(134.22; 48.12)

2 θ|X∼N(128.98; 40.75)

3 θ|X∼N(115.86; 22.31)

(14)

Problema de Joe

Caso 1: ¯y= 110.

1 θ|X∼N(108.55; 48.12)

2 θ|X∼N(107.24; 40.75)

3 θ|X∼N(103.97; 22.31) Caso 2: ¯y= 125.

1 θ|X∼N(121.38; 48.12)

2 θ|X∼N(118.11; 40.75)

3 θ|X∼N(109.91; 22.31)

Caso 3: ¯y= 140.

1 θ|X∼N(134.22; 48.12)

2 θ|X∼N(128.98; 40.75)

3 θ|X∼N(115.86; 22.31)

(15)

Problema de Joe

Caso 1: ¯y= 110.

1 θ|X∼N(108.55; 48.12)

2 θ|X∼N(107.24; 40.75)

3 θ|X∼N(103.97; 22.31) Caso 2: ¯y= 125.

1 θ|X∼N(121.38; 48.12)

2 θ|X∼N(118.11; 40.75)

3 θ|X∼N(109.91; 22.31) Caso 3: ¯y= 140.

1 θ|X∼N(134.22; 48.12)

2 θ|X∼N(128.98; 40.75)

3 θ|X∼N(115.86; 22.31)

(16)

Problema de Joe

60 80 100 120 140 160

0.000.020.040.060.08

θ

densidade

Priori 1 Post. 1

60 80 100 120 140 160

0.000.020.040.060.08

θ

densidade

Priori 2 Post. 2

60 80 100 120 140 160

0.000.020.040.060.08

θ

densidade

Priori 3 Post. 3

Figura:Distribui¸cões à priori e à posteriori paraθ(Caso ¯y= 110).

(17)

Problema de Joe

60 80 100 120 140 160

0.000.020.040.060.08

θ

densidade

Priori 1 Post. 1

60 80 100 120 140 160

0.000.020.040.060.08

θ

densidade

Priori 2 Post. 2

60 80 100 120 140 160

0.000.020.040.060.08

θ

densidade

Priori 3 Post. 3

(18)

Problema de Joe

60 80 100 120 140 160

0.000.020.040.060.08

θ

densidade

Priori 1 Post. 1

60 80 100 120 140 160

0.000.020.040.060.08

θ

densidade

Priori 2 Post. 2

60 80 100 120 140 160

0.000.020.040.060.08

θ

densidade

Priori 3 Post. 3

(19)

Problema de Joe

Mesmo problema de Joe. Suponha que estamos interessados em estimar o QI de Joe, o qual tem distribui¸cãoN(θ, σ²), em queσ = 15. Você acredita, à priori, que a média e a mediana da distribui¸cão paraθé 100 e Com um 90 % de confian¸ca, você acredita que o QI de Joe está entre 80 e 120. A diferen¸ca

é que agora será utilizada como distribui¸cão à priori a distribui¸cão Normal e a distribui¸cãoT2. Assim, é poss´ıvel concluir que as distribui¸cões à priori paraθserão

1 θ∼N(100; 12.16²)

2 θ∼T2(100; 6.85)

(20)

Problema de Joe

Analogamente ao caso anterior, desenhamos as distribui¸c˜oes `a priori.

curve(dnorm(x,mean=100,sd=12.16),xlim=c(60,140),

lwd=2,col=1,ylim=c(0,0.055),ylab="densidade",xlab=expression(theta)) tscale=6.85

curve(1/tscale*dt((x-mu)/tscale,2),lwd=2,col=2,add=T) a<-c("Priori Normal","Priori T")

legend("topleft",a,lwd=2,col=1:2,lty=rep(1:2,c(3,3)),bty="n",cex=1.3)

(21)

Problema de Joe

60 80 100 120 140

0.000.010.020.030.040.05

θ

densidade

Priori Normal Priori T

Figura:Distribui¸c˜oes `a priori paraθ.

(22)

Problema de Joe

No caso de utilizar a distribui¸cão Normal como distribui¸cão à priori e como foi visto anteriormente, temos que

θ|X∼N

y(4/15¯ ²) + 100(1/12.16²)

4/15²+ 1/12.16² , 1 4/15²+ 1/12.16²

Note que no caso de utilizar a distribui¸cão T2 como distribui¸cão à priori, temos que

π(θ|X)∝φ y|θ, σ/¯ √ n

gT₂(θ|µ, τ)

O núcleo dessa distribui¸cão à posteriori não pertence a alguma distribui¸cão conhecida. Dessa forma, precissamos aproximar essa distribui¸cão à posteriori (que é cont´ınua) para um conjunto de valores finitos utilizando o seguinte procedimento.

(23)

Problema de Joe

Procedimento para aproximar uma distribui¸c˜ao cont´ınua por um conjunto de valores finitos.

Defina uma grade de valores paraθ, i.e.,θ1, . . . , θM.

Para cadaθi, i= 1, . . . , M, calcule a distribui¸c˜ao `a posteriori avaliada emθi, que definiremos comofi.

Transforme os valores computados no passo anterior em probabilidades, dividindo cadafi porPM

i=1fi.

Desse jeito, é poss´ıvel utilizar os valoresθ1, . . . , θM para obter aproxima¸cões de estat´ısticas de interesse (por exemplo, a média ou a variância).

(24)

Problema de Joe

Por exemplo, se foi observado ¯y = 110 e queremos utilizar uma grade de M = 500 valores entre 60 e 180 para θ, então um programa em R para computar a média e o desvio padrão da distribui¸cão à posteriori de θ, é o seguinte:

ybar=110

sigma=15;n=4;tscale=6.85

theta = seq(60, 180, length = 500)

like = dnorm((theta - ybar)/(sigma/sqrt(n))) prior = dt((theta - mu)/tscale, 2)

post = prior * like post = post/sum(post) m = sum(theta * post)

s = sqrt(sum(theta^2 * post) - m^2) m

[1] 105.2924 s

[1] 5.841821

(25)

Problema de Joe

Assim, é poss´ıvel aplicar o mesmo procedimento para ¯y= 125 e ¯y= 140. A seguinte tabela compara as duas distribui¸cões à priori em diferentes cenários para ¯yobservado.

Priori Normal PrioriT2

¯

y Média AP Desvio padrão AP Média AP Desvio padrão AP

110 107.2442 6.3835 105.2921 5.8417

125 118.1105 6.3835 118.0841 7.8852

140 128.9768 6.3835 135.4134 7.9735

(26)

Problema de Joe

Assim, é poss´ıvel aplicar o mesmo procedimento para ¯y= 125 e ¯y= 140. A seguinte tabela compara as duas distribui¸cões à priori em diferentes cenários para ¯yobservado.

Priori Normal PrioriT2

¯

y Média AP Desvio padrão AP Média AP Desvio padrão AP

110 107.2442 6.3835 105.2921 5.8417

125 118.1105 6.3835 118.0841 7.8852

140 128.9768 6.3835 135.4134 7.9735

(27)

Problema de Joe

Finalmente, é poss´ıvel utilizar os mesmos pontos da grade para aproximar a distribui¸cão à posteriori deθcom as duas prioris.

normpost = dnorm(theta, 128.9768, 6.3835) normpost = normpost/sum(normpost)

plot(theta,normpost,type="l",lwd=2,ylab="Densidade",col=1 ,xlab=expression(theta))

lines(theta,post,lwd=2,col=2)

legend("topleft",legend=c("Priori Normal","Priori T"),lwd=2, bty="n",col=1:2)

(28)

Problema de Joe

60 80 100 120 140 160 180

0.0000.0050.0100.015

θ

Densidade

Priori Normal Priori T

Figura:Distribui¸c˜oes `a posteriori (estimadas) paraθ.

(29)

Distribui¸c˜ ao Normal: Inferˆencia com m´edia

e variˆ ancia desconhecida

(30)

Tempos de corrida

O banco de dados inclui os tempos de corrida (em minutos) de 20 homens de entre 20 e 29 anos. Será assumido que os temposy1, . . . , y20representam uma a.a. da distribui¸cãoN(θ, σ²). Se for assumida a priori não informativa π(θ, σ²) ∝1/σ², então a densidade à posteriori conjunta de (θ, σ²) é dada por

π(θ, σ²|X)∝ 1

(σ²)^n/2+1exp

− 1

2σ²(S+n(θ−y)¯²)

, em queS=Pn

i=1(yi−y)¯². Pode ser verificado que

θ|X ∼ Tn−1 y,¯ s

S n(n−1)

!

θ|σ²,X ∼ N y, σ¯ ²/n σ²|X ∼ Sχ⁻²n

(31)

Tempos de corrida

Assim, ´e poss´ıvel construir HDR ao 95 % paraθeσ²como segue:

data(marathontimes) attach(marathontimes) n=length(time) ybar=mean(time) S=(n-1)*var(time)

HDRtheta=ybar+qt(c(0.025,0.975),n-1)*sqrt(S/(n*n-1)) HDRtheta

[1] 254.9741 300.2259

HDRsigma2=HDRinvgamma(n/2,S/2,0.95) HDRsigma2

[1] 1178.604 4393.832

(32)

Tempos de corrida

Também é poss´ıvel fazer inferência aproximada de (θ, σ²), simulando valores, em um primeiro passo, da distribui¸cão à posteriori marginal deσ²|X e logo, em um segundo passo, simulando valores da distribui¸cão condicional à posteriori deθ|σ²,X.

sigma2 = S/rchisq(1000, n - 1)

theta = rnorm(1000, mean = ybar, sd = sqrt(sigma2)/sqrt(n)) quantile(theta, c(0.025, 0.975))

2.5% 97.5%

256.0215 301.0007

quantile(sigma2, c(0.025, 0.975)) 2.5% 97.5%

1471.431 5485.004

(33)

Tempos de corrida

Finalmente, é poss´ıvel plotar as linhas de contorno ao 10 %, 1 % e 0.1 % para a distribui¸cão conjunta de (θ, σ²). Também é poss´ıvel plotar os pontos simulados paraθeσ².

mycontour(normchi2post, c(220, 330, 500, 9000), time) title(xlab=expression(theta),ylab=expression(sigma^2)) points(theta, sigma2)

(34)

Tempos de corrida

−6.9 −4.6

−2.3

220 240 260 280 300 320

2000400060008000

θ

σ2

●

● ●

●

●●

●

● ●

●

● ●

●

● ●

●

● ●

●● ●

●

● ● ●

●

●●

● ●

●

● ●

●

● ●

●

● ●

●

●●

●

● ●

●●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

●●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

●●

●

● ●

●

● ●

●

●●

●

● ● ●

●

●●

● ●

●

● ●

●

● ●

●

● ●●

● ●

●

● ●

●

●●

●

●● ●

●

● ●

●

● ●

●

●●

●

● ●

●

●●

●

● ● ●

●

●●

● ●

●

●●

●

● ●

●●

●

● ●

●

● ●

●

● ●

●

● ●

●

●●

●

● ●

●

● ●

●

● ●

●

● ●

●

●● ●

●

●●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

●●

●

●●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ● ●

●

● ●

●

●●

●

●●

●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

●●

●

● ●

●

● ●

●

●●

●

●●

●

● ●

●

●●

●

●●

●

● ●

●

● ●

●

● ● ●

●

● ●●●

● ●

●

● ●

●

● ●

●

● ●

●

● ●

●

●●

●

●●●

●

● ●

●

● ●

●

● ●

●

● ● ●

●

●●

●

●●

●

Figura:Linhas de contorno para (θ, σ²) ao 10 %, 1 % e 0.1 %.

(35)

Referˆ encias

Albert, J. (2007)Bayesian Computation with R.New York: Springer