• Nenhum resultado encontrado

Inferˆencia Bayesiana na distribui¸c˜ao Normal

N/A
N/A
Protected

Academic year: 2022

Share "Inferˆencia Bayesiana na distribui¸c˜ao Normal"

Copied!
35
0
0

Texto

(1)

Inferˆ encia Bayesiana na distribui¸c˜ ao Normal

Diego Ignacio Gallardo Mateluna

Instituto de Matem´atica e Estat´ıstica Universidade de S˜ao Paulo

Mar¸co, 2012

(2)

Distribui¸c˜ ao Normal: Inferˆencia da variˆ ancia

com m´edia conhecida

(3)

Dados de anota¸ c˜ oes de equipes de Futebol Americano

Para 672 jogos de Futebol Americano, o banco de dados cont´em os pontos conseguidos pelo time favorito, pelo time “zebra” e o valor do “spread”, termo utilizado em apostas e que estima a diferen¸ca entre os pontos conseguidos pelo time favorito e pelo time zebra. Baseado nesses valores, ´e calculada a vari´aveld=f avorite−underdog−spread.

require(LearnBayes) data(footballscores) attach(footballscores)

d = favorite - underdog - spread n = length(d)

S = sum(d^2)

> n [1] 672

> S [1] 128902

(4)

Dados de anota¸ c˜ oes de equipes de Futebol Americano

Se assumimos que as diferen¸casd1, . . . , dn s˜ao uma amostra i.i.d. da distri- bui¸c˜aoN(0, σ2), ent˜ao a fun¸c˜ao de verossimilhan¸ca ´e dada por

L(σ2) = (σ2)n2exp (

n

X

i=1

d2i2

)

, σ2>0.

Suponha priori n˜ao informativa paraσ2, i.e., π(σ2)∝σ−2

Desse jeito, a distribui¸c˜ao a posteriori paraσ2 ´e dada por

π(σ2|X)∝(σ2)(n2+1) exp

− S 2σ2

, em queS=Pn

i=1d2i.

Portanto,σ2|X∼Sχ−2n = 128.902χ−2(672).

(5)

Dados de anota¸ c˜ oes de equipes de Futebol Americano

A distribui¸c˜ao qui-quadrado invertida vem incorporada no pacote geoR.

require(geoR)

curve(dinvgamma(x, n/2,S/2),xlim=c(160,230), ylab="densidade",xlab=expression(sigma^2),lwd=2)

Calculamos o intervalo de credibilidade com caudas sim´etricas para σ2 e comparamos com o HDR.

S/qchisq(c(0.975,0.025),n) [1] 172.8538 214.1019 HDRinvgamma(n/2,S/2,0.95) [1] 172.1466 213.2860

(6)

Dados de anota¸ c˜ oes de equipes de Futebol Americano

170 180 190 200 210 220

0.010.020.03

σ2

densidade

Densidade à posteriori HDR

IC com caudas simétricas

Figura:Distribui¸ao `a posteriori deσ2.

(7)

0.5 1.0 1.5 2.0

0.00.51.01.52.0

σ2

densidade

Densidade à posteriori HDR

IC com caudas simétricas

Figura:Compara¸ao de HDR e IC com caudas sim´etricas paraσ2 com outra distribui¸ao.

(8)

Distribui¸c˜ ao Normal: Inferˆencia da m´edia

com variˆ ancia conhecida

(9)

Problema de Joe

Suponha que estamos interessados em estimar o QI de Joe, o qual tem dis- tribui¸c˜aoN(θ, σ2), em queσ= 15. Vocˆe acredita, `a priori, que a m´edia e a mediana da distribui¸c˜ao paraθ´e 100. Al´em disso, considere os seguintes trˆes cen´arios:

1 Com um 90 % de confian¸ca, vocˆe acredita que o QI de Joe est´a entre 70 e 130.

2 Com um 90 % de confian¸ca, vocˆe acredita que o QI de Joe est´a entre 80 e 120.

3 Com um 90 % de confian¸ca, vocˆe acredita que o QI de Joe est´a entre 90 e 110.

Utilizando como distribui¸c˜ao `a priori a Normal, pode-se verificar que cada um dos casos pode ser representado da seguinte forma:

1 θ∼N(100; 18.242)

2 θ∼N(100; 12.162)

3 θ∼N(100; 6.082)

(10)

Problema de Joe

Desenhamos as distribui¸c˜oes `a priori atrav´es dos seguintes comandos.

curve(dnorm(x,mean=100,sd=18.24),xlim=c(80,130),

lwd=2,col=1,ylim=c(0,0.09),ylab="densidade",xlab=expression(theta)) curve(dnorm(x,mean=100,sd=12.16),lwd=2,col=2,add=T)

curve(dnorm(x,mean=100,sd=6.08),lwd=2,col=3,add=T)

a<-c("Priori 1","Priori 2","Priori 3","Post. 1","Post. 2","Post. 3") legend("topleft",a,lwd=2,col=1:3,lty=rep(1:2,c(3,3)),bty="n",cex=1.3)

(11)

Problema de Joe

60 80 100 120 140

0.000.010.020.030.040.050.060.07

θ

densidade

Priori 1 Priori 2 Priori 3

Figura:Distribui¸oes `a priori paraθ.

(12)

Problema de Joe

Sabemos que sey1, . . . , ynprov´em da distribui¸c˜aoN(θ, σ2), (σ2 conhecido), e a distribui¸c˜ao a priori paraθ´eN(µ, τ2), ent˜ao

θ|X∼N

y(n/σ¯ 2) +µ(1/τ2) n/σ2+ 1/τ2 , 1

n/σ2+ 1/τ2

Suponhamos que foram observados quatro resultados do teste QI para Joe.

Desse jeito, a distribui¸c˜ao `a posteriori paraθ´e

θ|X∼N

y(4/15¯ 2) + 100(1/τ2)

4/152+ 1/τ2 , 1 4/152+ 1/τ2

(13)

Problema de Joe

Consideremos os seguintes poss´ıveis casos para ¯y.

Caso 1: ¯y= 110.

As distribui¸c˜oes `a posteriori paraθpara cada um dos casos fica

1 θ|XN(108.55; 48.12)

2 θ|XN(107.24; 40.75)

3 θ|XN(103.97; 22.31)

Caso 2: ¯y= 125.

As distribui¸c˜oes `a posteriori paraθpara cada um dos casos fica

1 θ|XN(121.38; 48.12)

2 θ|XN(118.11; 40.75)

3 θ|XN(109.91; 22.31) Caso 3: ¯y= 140.

As distribui¸c˜oes `a posteriori paraθpara cada um dos casos fica

1 θ|XN(134.22; 48.12)

2 θ|XN(128.98; 40.75)

3 θ|XN(115.86; 22.31)

(14)

Problema de Joe

Consideremos os seguintes poss´ıveis casos para ¯y.

Caso 1: ¯y= 110.

As distribui¸c˜oes `a posteriori paraθpara cada um dos casos fica

1 θ|XN(108.55; 48.12)

2 θ|XN(107.24; 40.75)

3 θ|XN(103.97; 22.31) Caso 2: ¯y= 125.

As distribui¸c˜oes `a posteriori paraθpara cada um dos casos fica

1 θ|XN(121.38; 48.12)

2 θ|XN(118.11; 40.75)

3 θ|XN(109.91; 22.31)

Caso 3: ¯y= 140.

As distribui¸c˜oes `a posteriori paraθpara cada um dos casos fica

1 θ|XN(134.22; 48.12)

2 θ|XN(128.98; 40.75)

3 θ|XN(115.86; 22.31)

(15)

Problema de Joe

Consideremos os seguintes poss´ıveis casos para ¯y.

Caso 1: ¯y= 110.

As distribui¸c˜oes `a posteriori paraθpara cada um dos casos fica

1 θ|XN(108.55; 48.12)

2 θ|XN(107.24; 40.75)

3 θ|XN(103.97; 22.31) Caso 2: ¯y= 125.

As distribui¸c˜oes `a posteriori paraθpara cada um dos casos fica

1 θ|XN(121.38; 48.12)

2 θ|XN(118.11; 40.75)

3 θ|XN(109.91; 22.31) Caso 3: ¯y= 140.

As distribui¸c˜oes `a posteriori paraθpara cada um dos casos fica

1 θ|XN(134.22; 48.12)

2 θ|XN(128.98; 40.75)

3 θ|XN(115.86; 22.31)

(16)

Problema de Joe

60 80 100 120 140 160

0.000.020.040.060.08

θ

densidade

Priori 1 Post. 1

60 80 100 120 140 160

0.000.020.040.060.08

θ

densidade

Priori 2 Post. 2

60 80 100 120 140 160

0.000.020.040.060.08

θ

densidade

Priori 3 Post. 3

Figura:Distribui¸oes `a priori e `a posteriori paraθ(Caso ¯y= 110).

(17)

Problema de Joe

60 80 100 120 140 160

0.000.020.040.060.08

θ

densidade

Priori 1 Post. 1

60 80 100 120 140 160

0.000.020.040.060.08

θ

densidade

Priori 2 Post. 2

60 80 100 120 140 160

0.000.020.040.060.08

θ

densidade

Priori 3 Post. 3

Figura:Distribui¸oes `a priori e `a posteriori paraθ(Caso ¯y= 125).

(18)

Problema de Joe

60 80 100 120 140 160

0.000.020.040.060.08

θ

densidade

Priori 1 Post. 1

60 80 100 120 140 160

0.000.020.040.060.08

θ

densidade

Priori 2 Post. 2

60 80 100 120 140 160

0.000.020.040.060.08

θ

densidade

Priori 3 Post. 3

Figura:Distribui¸oes `a priori e `a posteriori paraθ(Caso ¯y= 140).

(19)

Problema de Joe

Mesmo problema de Joe. Suponha que estamos interessados em estimar o QI de Joe, o qual tem distribui¸c˜aoN(θ, σ2), em queσ = 15. Vocˆe acredita, `a priori, que a m´edia e a mediana da distribui¸c˜ao paraθ´e 100 e Com um 90 % de confian¸ca, vocˆe acredita que o QI de Joe est´a entre 80 e 120. A diferen¸ca

´e que agora ser´a utilizada como distribui¸c˜ao `a priori a distribui¸c˜ao Normal e a distribui¸c˜aoT2. Assim, ´e poss´ıvel concluir que as distribui¸c˜oes `a priori paraθser˜ao

1 θ∼N(100; 12.162)

2 θ∼T2(100; 6.85)

(20)

Problema de Joe

Analogamente ao caso anterior, desenhamos as distribui¸c˜oes `a priori.

curve(dnorm(x,mean=100,sd=12.16),xlim=c(60,140),

lwd=2,col=1,ylim=c(0,0.055),ylab="densidade",xlab=expression(theta)) tscale=6.85

curve(1/tscale*dt((x-mu)/tscale,2),lwd=2,col=2,add=T) a<-c("Priori Normal","Priori T")

legend("topleft",a,lwd=2,col=1:2,lty=rep(1:2,c(3,3)),bty="n",cex=1.3)

(21)

Problema de Joe

60 80 100 120 140

0.000.010.020.030.040.05

θ

densidade

Priori Normal Priori T

Figura:Distribui¸oes `a priori paraθ.

(22)

Problema de Joe

No caso de utilizar a distribui¸c˜ao Normal como distribui¸c˜ao `a priori e como foi visto anteriormente, temos que

θ|X∼N

y(4/15¯ 2) + 100(1/12.162)

4/152+ 1/12.162 , 1 4/152+ 1/12.162

Note que no caso de utilizar a distribui¸c˜ao T2 como distribui¸c˜ao `a priori, temos que

π(θ|X)∝φ y|θ, σ/¯ √ n

gT2(θ|µ, τ)

O n´ucleo dessa distribui¸c˜ao `a posteriori n˜ao pertence a alguma distribui¸c˜ao conhecida. Dessa forma, precissamos aproximar essa distribui¸c˜ao `a posteriori (que ´e cont´ınua) para um conjunto de valores finitos utilizando o seguinte procedimento.

(23)

Problema de Joe

Procedimento para aproximar uma distribui¸c˜ao cont´ınua por um conjunto de valores finitos.

Defina uma grade de valores paraθ, i.e.,θ1, . . . , θM.

Para cadaθi, i= 1, . . . , M, calcule a distribui¸c˜ao `a posteriori avaliada emθi, que definiremos comofi.

Transforme os valores computados no passo anterior em probabilidades, dividindo cadafi porPM

i=1fi.

Desse jeito, ´e poss´ıvel utilizar os valoresθ1, . . . , θM para obter aproxima¸c˜oes de estat´ısticas de interesse (por exemplo, a m´edia ou a variˆancia).

(24)

Problema de Joe

Por exemplo, se foi observado ¯y = 110 e queremos utilizar uma grade de M = 500 valores entre 60 e 180 para θ, ent˜ao um programa em R para computar a m´edia e o desvio padr˜ao da distribui¸c˜ao `a posteriori de θ, ´e o seguinte:

ybar=110

sigma=15;n=4;tscale=6.85

theta = seq(60, 180, length = 500)

like = dnorm((theta - ybar)/(sigma/sqrt(n))) prior = dt((theta - mu)/tscale, 2)

post = prior * like post = post/sum(post) m = sum(theta * post)

s = sqrt(sum(theta^2 * post) - m^2) m

[1] 105.2924 s

[1] 5.841821

(25)

Problema de Joe

Assim, ´e poss´ıvel aplicar o mesmo procedimento para ¯y= 125 e ¯y= 140. A seguinte tabela compara as duas distribui¸c˜oes `a priori em diferentes cen´arios para ¯yobservado.

Priori Normal PrioriT2

¯

y M´edia AP Desvio padr˜ao AP M´edia AP Desvio padr˜ao AP

110 107.2442 6.3835 105.2921 5.8417

125 118.1105 6.3835 118.0841 7.8852

140 128.9768 6.3835 135.4134 7.9735

(26)

Problema de Joe

Assim, ´e poss´ıvel aplicar o mesmo procedimento para ¯y= 125 e ¯y= 140. A seguinte tabela compara as duas distribui¸c˜oes `a priori em diferentes cen´arios para ¯yobservado.

Priori Normal PrioriT2

¯

y M´edia AP Desvio padr˜ao AP M´edia AP Desvio padr˜ao AP

110 107.2442 6.3835 105.2921 5.8417

125 118.1105 6.3835 118.0841 7.8852

140 128.9768 6.3835 135.4134 7.9735

(27)

Problema de Joe

Finalmente, ´e poss´ıvel utilizar os mesmos pontos da grade para aproximar a distribui¸c˜ao `a posteriori deθcom as duas prioris.

normpost = dnorm(theta, 128.9768, 6.3835) normpost = normpost/sum(normpost)

plot(theta,normpost,type="l",lwd=2,ylab="Densidade",col=1 ,xlab=expression(theta))

lines(theta,post,lwd=2,col=2)

legend("topleft",legend=c("Priori Normal","Priori T"),lwd=2, bty="n",col=1:2)

(28)

Problema de Joe

60 80 100 120 140 160 180

0.0000.0050.0100.015

θ

Densidade

Priori Normal Priori T

Figura:Distribui¸oes `a posteriori (estimadas) paraθ.

(29)

Distribui¸c˜ ao Normal: Inferˆencia com m´edia

e variˆ ancia desconhecida

(30)

Tempos de corrida

O banco de dados inclui os tempos de corrida (em minutos) de 20 homens de entre 20 e 29 anos. Ser´a assumido que os temposy1, . . . , y20representam uma a.a. da distribui¸c˜aoN(θ, σ2). Se for assumida a priori n˜ao informativa π(θ, σ2) ∝1/σ2, ent˜ao a densidade `a posteriori conjunta de (θ, σ2) ´e dada por

π(θ, σ2|X)∝ 1

2)n/2+1exp

− 1

2(S+n(θ−y)¯2)

, em queS=Pn

i=1(yi−y)¯2. Pode ser verificado que

θ|X ∼ Tn−1 y,¯ s

S n(n−1)

!

θ|σ2,X ∼ N y, σ¯ 2/n σ2|X ∼ Sχ−2n

(31)

Tempos de corrida

Assim, ´e poss´ıvel construir HDR ao 95 % paraθeσ2como segue:

data(marathontimes) attach(marathontimes) n=length(time) ybar=mean(time) S=(n-1)*var(time)

HDRtheta=ybar+qt(c(0.025,0.975),n-1)*sqrt(S/(n*n-1)) HDRtheta

[1] 254.9741 300.2259

HDRsigma2=HDRinvgamma(n/2,S/2,0.95) HDRsigma2

[1] 1178.604 4393.832

(32)

Tempos de corrida

Tamb´em ´e poss´ıvel fazer inferˆencia aproximada de (θ, σ2), simulando valo- res, em um primeiro passo, da distribui¸c˜ao `a posteriori marginal deσ2|X e logo, em um segundo passo, simulando valores da distribui¸c˜ao condicional `a posteriori deθ|σ2,X.

sigma2 = S/rchisq(1000, n - 1)

theta = rnorm(1000, mean = ybar, sd = sqrt(sigma2)/sqrt(n)) quantile(theta, c(0.025, 0.975))

2.5% 97.5%

256.0215 301.0007

quantile(sigma2, c(0.025, 0.975)) 2.5% 97.5%

1471.431 5485.004

(33)

Tempos de corrida

Finalmente, ´e poss´ıvel plotar as linhas de contorno ao 10 %, 1 % e 0.1 % para a distribui¸c˜ao conjunta de (θ, σ2). Tamb´em ´e poss´ıvel plotar os pontos simulados paraθeσ2.

mycontour(normchi2post, c(220, 330, 500, 9000), time) title(xlab=expression(theta),ylab=expression(sigma^2)) points(theta, sigma2)

(34)

Tempos de corrida

−6.9 −4.6

−2.3

220 240 260 280 300 320

2000400060008000

θ

σ2

●●

● ●

● ●

●●

● ●

● ●

● ●

● ●

●●

● ●

●●

●●

●●

Figura:Linhas de contorno para (θ, σ2) ao 10 %, 1 % e 0.1 %.

(35)

Referˆ encias

Albert, J. (2007)Bayesian Computation with R.New York: Springer

Referências

Documentos relacionados

Siguiendo esta línea de reflexión, en este estudio se encontró que el grupo de brasileñas y colombianas quienes cuentan con mejores ni- veles educativos que las peruanas tienen

Deste modo, o autor defende que as estruturas sociais são, ao mesmo tempo, condicionadas e condicionantes das ações; enquanto os indivíduos se apresentam como

Conforme Schmidt (2002), para que um setor de controladoria possa exercer corretamente suas atividades, é preciso que sejam identificadas nas empresas, pelo menos, as

(grifos nossos). b) Em observância ao princípio da impessoalidade, a Administração não pode atuar com vistas a prejudicar ou beneficiar pessoas determinadas, vez que é

Este trabalho buscou, através de pesquisa de campo, estudar o efeito de diferentes alternativas de adubações de cobertura, quanto ao tipo de adubo e época de

A prova do ENADE/2011, aplicada aos estudantes da Área de Tecnologia em Redes de Computadores, com duração total de 4 horas, apresentou questões discursivas e de múltipla

Seguindo as ideias de Smith (1991), faz-se compreensível a dimensão e importância do entendimento da existência de identidades nacionais múltiplas (angolano

Neste tipo de situações, os valores da propriedade cuisine da classe Restaurant deixam de ser apenas “valores” sem semântica a apresentar (possivelmente) numa caixa