M´arciaD’EliaBranco InferˆenciaBayesiana-Aula2-

(1)

Inferˆ encia Bayesiana - Aula 2 -

M´arcia D’Elia Branco

Universidade de S˜ao Paulo Instituto de Matem´atica e Estat´ıstica

(2)

Inferˆ encia e Decis˜ ao

Os problemas de estima¸cão e teste de hipóteses podem ser vistos como problemas de decisão.

Os elementos de um problema de decisão no contexto de inferência são:

(1) Espa¸co de a¸c˜oesA: poss´ıveis resposta para o problema de inferˆencia;

+ Aceitar ou rejeitar uma hip´otese por exemplo.

(2) Espa¸co Θde todos os estados da natureza.

+ conjunto dos valores do parˆametro de interesse.

(3) Espa¸co amostral X: poss´ıveis resultados de um experimento.

(4) Fun¸c˜ao de perda L(θ, a) : Θ× A →R⁺

M´arcia D’Elia Branco Inferˆencia Bayesiana - Aula 2 -

(3)

Inferˆ encia e Decis˜ ao

No contexto Bayesiano, temos associada aθuma distribui¸cão de probabilidades. Então, para cada afixada,L(θ, a)é uma

quantidade aleat´oria.

As decisões são feitas considerando-se os riscosa posteriori das a¸cões.

O risco de uma a¸cão, ou decisão,a∈ Aé a perda esperada a posteriori dada por

r(a|x) = Z

Θ

L(θ, a)f(θ|x)dθ.

A a¸cão ótima ou Regra de Bayesé uma a¸cãoa^∗ tal que a^∗ =min_ar(a|x).

O Risco de Bayes´e dado por: r(a^∗ |x).

(4)

Inferˆ encia e Decis˜ ao

Exemplo 1: Um médico tem que decidir se envia (a= 1) ou não (a= 0) um paciente para uma cirurgia. Se a probabilidade do paciente estar doente (θ= 1) é π (desconhecido) e se sua fun¸cão de perda é

L(θ, a) =











0 se θ= 0, a= 0 500 se θ= 0, a= 1 1000 se θ= 1, a= 0 100 se θ= 1, a= 1

(1)

então os riscos associados a cada a¸cão são:

r(0) = 0(1−π) + 1000π= 1000π r(1) = 500(1−π) + 100π = 500−400π.

(5)

Inferˆ encia e Decis˜ ao

A decisão depende da incerteza que o médico tem sobre a presen¸ca da infermidade (π). A decisão ótima é

Se π >0.357, a Regra de Bayes é a= 1 (indicar cirurgia) Se π <0.357, a Regra de Bayes é a= 0 (não indicar cirurgia) Se π = 0.357não existe uma Regra de Bayes.

Para aprender sobreπ podemos realizar um experimento, observar X=x e obter π=P(θ= 1|x).

(6)

Estudo da maturidade sexual do peixe-galo

Voltamos ao nosso exemplo da aula 1.

Suponha que temos que escolher entre trˆes tipos de redes de pesca.

As alternativas s˜ao A, B e C (aumentando o tamanho de malha da rede).

A preferência é capturar as fêmeas que já atingiram matura¸cão sexual, peixes maiores queLT50.

Neste caso, o estado da natureza ´e o tamanho da matura¸c˜ao, θ=LT₅₀.

A fun¸c˜ao de perda ´e dada por:

Rede |Tamanho <20 20 - 25 25 - 30 30 - 35 35 - 40 ≤40

A 1 0 2 4 6 8

B 3 2 1 0 2 4

C 4 3 2 1 0 2

(7)

Estudo da maturidade sexual do peixe-galo

Não é poss´ıvel obter uma forma anal´ıtica fechada para a distribui¸cãoa posteriorideLT50. No entanto, podemos obter a probabilidadea posterioride cada intervalo utilizando um método de Monte Carlo para simular da distribui¸cãoa posteriori.

LT50 <20 20 - 25 25 - 30 30 - 35 35 - 40 ≤40 Prob 0.005 0.125 0.607 0.234 0.024 0.004

A perda esperada (ou risco) para cada decis˜ao ´e 2.334(A),0.939(B) e 1.854(C).

Portanto, a decis˜ao que minimiza o risco ´e

”Escolher a rede de malha B”.

O Risco de Bayes ´e r(B |x) = 0.939.

(8)

Inferˆ encia e Decis˜ ao

Alguns exemplos de fun¸cões de perdas e decisões Bayesianas no contexto de estima¸cão. A= Θ

Perda quadrática: L(θ, a(x)) = (a(x)−θ)². Resulta que E[θ|x]é a decisão ótima eV ar[θ|x]é o risco de Bayes.

Perda absoluta: L(θ, a(x)) =|a(x)−θ|. Resulta que

M ed[θ|x]é a decisão ótima eE[|M ed(θ|x)−θ|]é o risco de Bayes.

(9)

Representa¸c˜ ao da informa¸c˜ ao a priori.

Procedimentos subjetivos× objetivos.

Os procedimentos subjetivos consistem em transformar a informa¸cão obtida pelos especialistas em medidas de probabilidades. Elicia¸cão da distribui¸cãoa priori.

Os procedimentos objetivos consistem em obter distribui¸c˜oes a priori que s˜ao dominadas pelos dados (pouco informativas).

As prioris objetivas podem ser constru´ıdas sem depender da opini˜ao dos especialistas sobre o parˆametro, mas em geral, dependem do modelo estat´ıstico proposto paraX |θ.

O uso de distribui¸cõesa priori conjugadas é uma facilitador na obten¸cão das inferênciasa posteriori

(10)

Representa¸c˜ ao da informa¸c˜ ao a priori.

Nos procedimentos subjetivos o desafio é transformar as informa¸cões dos especialistas em distribui¸cões de probabilidades.

Se Θé finito, podemos usar frequências relativas de eventos anteriores como aproxima¸cões de probabilidades.

Se θé cont´ınuo (maioria dos casos) buscamos informa¸cões sobre probabilidades de intervalos ou medidas resumos, tais como média e variância.

Exemplo: Captura-recaptura de Lagartos (Robert, C., 2001) Parˆametros de interesse: p_t probabilidade de captura de um animal no instantet.

Informa¸c˜ao obtida via especialistas: M´edia e intervalos de probabilidade 0.95.

(11)

Representa¸c˜ ao da informa¸c˜ ao a priori.

Tempo 2 3 4 5 6

M´edia 0.3 0.4 0.5 0.2 0.2

IC de 0.95 [0.1,0.5] [0.2,0.6] [0.3,0.7] [0.05,0.4] [0.05,0.4]

Qual distribui¸c˜ao de probabilidade usar?

Usando a distribui¸c˜ao Beta, temos

Tempo 2 3 4 5 6

f(θ) Be(6,14) Be(8,12) Be(12,12) Be(3.5, 14) Be(3.5, 14)

(12)

Prioris conjugadas

Quando decidimos fazer uma análise conjugada buscamos por Simplicidade na deriva¸cão da distribui¸cão a posteriori.

Parˆametros interpret´aveisa posterior.

Defini¸cão 1: Uma fam´ılia de distribui¸cões de probabilidades H, emΘ, é conjugada com respeito ao modelo amostral

F={f(x|θ) :θ∈Θ} se

h(θ)∈ H ⇒h(θ|x)∈ H, ∀x.

(13)

Prioris conjugadas

Exemplo 1: O modelo BinomialBin(n, θ) tem a distribui¸c˜ao Beta como uma fam´ılia conjugada. Pois,

θ∼Be(a, b) ⇒θ|x∼Be(a+x, b+n−x).

Exemplo 2: O modelo Normal N(θ, σ²),σ² conhecido. A fam´ılia Normal ´e conjugada. Pois,

θ∼N(m₀,1/τ₀) ⇒ θ|x∼N(m₁,1/τ₁)

comτ1= _σ¹2 +τ0 em1= ^1/σ_τ ²

1 x+^τ_τ⁰

1m0.

Note que, se definirmos a fam´ıliaHde forma muito ampla com por exemplo, todas as medidas de probabilidades emΘ, tamb´em obtemos a conjuga¸c˜ao.

(14)

Prioris conjugadas

Defini¸cão 2: Uma fam´ılia de distribui¸cões de probabilidadesH, emΘ, é conjugada natural com respeito ao modelo amostral F={f(x|θ) :θ∈Θ} se,

Hé fechada com respeito ao modelo amostralF, isto é, se f(x|θ)∈ F é proporcional a um membro de H, para cada x∈ X.

H´e fechada com respeito ao produto, isto ´e, para todo a0, a1 ∈ A, existe a2 tal que

π(θ|a0)π(θ|a1) =π(θ|a2).

(15)

Prioris conjugadas

Exemplo 1: A fam´ılia Beta ´e conjugada natural?

f(x|θ)∝θ^x(1−θ)^n−x

´e proporcional a umaBeta(x+ 1, n−x+ 1).

? Portanto, a primeira condi¸cão é verificada. ? Além disso,

f(θ|a0, b0)f(θ|a1, b1)∝θ^a⁰^+a¹⁻²(1−θ)^b⁰^+b¹⁻² ∝θ^a³⁻¹(1−θ)^b³⁻¹

coma3 =a0+a1−1 e b3 =b0+b1−1.

?A fam´ılia Beta ´e fechada em rela¸c˜ao ao produto. ?

(16)

Prioris conjugadas

Teorema: Se o modelo amostral F ={f(x|θ) :θ∈Θ} possui estat´ısticas suficientes de dimens˜ao fixa, ent˜ao existe uma fam´ılia conjugada natural.

Exemplo 2: x₁, . . . , x_n amostra (cond. i.i.d.) da N(θ, σ²) com σ² conhecido. Temos quef(x₁, . . . , x_n|θ)´e igual a

(2πσ²)^−n/2e

− ¹

2σ2 n

P

i=1

(xi−¯x)²

e⁻^2σⁿ²^(θ−¯^x)²

Pelo teorema da fatora¸cão,X¯ é suficiente paraθ. Como X¯ tem dimensão 1 para todon, segue que possui conjugada natural.

É fácil ver que neste caso o modelo normal é a fam´ılia conjugada natural. (Exerc´ıcio!)

Obter a posteriorif(θ|x₁, x₂, . . . x_n).

(17)

Prioris conjugadas

Exemplo 3: x₁, . . . , x_namostra (cond. i.i.d.) daCauchy(θ).

Neste caso a estat´ıstica suficiente tem dimens˜ao igual ao tamanho da amostra. Portanto, n˜ao existe a conjugada natural.

Exemplo 4: x1, . . . , xnamostra (cond.i.i.d) da U_(0,θ) com θ >0.

Podemos verificar queX_(n) =max{x₁, . . . , X_n} ´e suficiente para θ. Portanto, existe uma fam´ılia conjugada natural.

Como obter? Olhar para fun¸c˜ao de distribui¸c˜ao de T(x) =X_(n), f(t|θ) =nθ⁻ⁿtⁿ⁻¹I(t,+∞)(θ).

A distribui¸c˜ao de Pareto ´e a conjugada natural. (Exerc´ıcio!)

(18)

Fam´ılia Exponencial

X|θpertence a fam´ılia exponencial k-param´etrica se sua f.d.p (ou f.p.) pode ser representada como

f(x|θ) =c(θ)h(x)e

k

P

j=1

Qj(θ)Rj(x)

com o suporte n˜ao envolvendoθ.

Se temosx1, . . . , xn uma amostra (cond.i.i.d) deX|θ, ent˜ao

f(x1, . . . , xn|θ) = [c(θ)]ⁿ

n

Y

i=1

h(xi)e

k

P

j=1

Qj(θ)Tnj

comTnj =Pn

i=1Rj(xi).

(19)

Fam´ılia Exponencial

Podemos verificar (ver teoria clássica) que o vetor aleatório T = (T_n1, . . . , T_nk) é uma estat´ıstica suficiente (min´ıma) para o vetorθ e sua f.d.p (ou f.d.) é dada por

f(t|n, θ) = [c(θ)]ⁿg(t)e

k

P

j=1

Qj(θ)tj

para alguma fun¸c˜ao g(t) que n˜ao envolveθ.

Além disso, a dimensão de T não depende do tamanho amostraln.

Assim, existe uma fam´ılia conjugada natural na forma f(θ|a0, a1, . . . , a) =...

(20)

Referencias.

Kinas, P.G. e Andrade, H.A. (2010). Introdu¸cão à análise bayesiana (com R). Editora: maisQnada.

Migon, H and Gamerman, D. (1999). Statistical Inference:

An integrated approach. Chapman and Hall/CRC.

Paulino, D. , Turkman, M.A. eMurteira, B. (2003).

Estat´ıstica Bayesiana. Funda¸c˜ao Calouse Gulbenkian - Lisboa.

Robert, C.P. (2001). The Bayesian Choice. Springer.