Modelos Lineares Generalizados - Família Exponencial

(1)

Modelos Lineares Generalizados - Família

Exponencial

Erica Castilho Rodrigues

(2)

Introdução

(3)

I No modelo de Regressão Linear temos que Yi ∼N(µ, σ2) E(Yi) = µi =xiTβ onde I Y i são independentes; I xT

i representa a i-ésima linha da matriz X, correspondente

(4)

I Podemos estar interessados em situações mais genéricas. I A variável resposta tem uma distribuição diferente da

normal.

I A relação entre o valor esperado da variável resposta e as

explicativas pode ter uma relação diferente de E(Yi) = µi =xiTβ

podemos ter

E(Yi) = µi =g(xiTβ)

(5)

I A variável Y_i não pode ter QUALQUER distribuição. I Precisamos garantir certas propriedades para:

I estimar os parâmetros, I fazer testes de hipóteses, I tirar conclusões sobre o modelo.

I Uma classe de distribuições garante essas propriedades. I Essa classe é conhecida como família exponencial I O que é a família exponencial?

(6)

Conjunto de distribuições com características similares.

Família Exponencial

I O que a família exponencial?

I É uma família de distribuições cuja função densidade pode

ser escrita na seguinte forma

f(y; θ) =s(y)t(θ)ea(y)b(θ)

onde s(.), t(.), a(.)e b(.)são funções não negativas.

I Essa expressão pode ser reescrita como

(7)

Exemplo:

I Seja Y uma variável tal que

Y _∼Poisson(θ) .

I Vamos verificar que essa distribuição pertence à família

exponencial f(y, θ) = e −θ_θy y! = (y!) −1_e−θ_exp_{_log(θy )} = (y!)−1_e−θ_exp_{_{y log}_{(θ)} = (}_y_!)−1 | {z } s(y) e−θ |{z} t(θ) exp_{ y |{z} a(y) log(θ) | {z } b(θ) } .

I Notamos então que a distribuição de Poisson pertence a

(8)

Exemplo:

I A distribuição Normal pertence à Família Exponencial?

Sim.

I Vejamo porque isso é verdade.

I Seja Y _∼N(µ, σ2) f(y, µ) = √ 1 2πσ2e −(y−µ) 2 2σ2 = √ 1 2πσ2exp − y 2 2σ2 + µy σ2 − µ2 2σ2 y2 µy µ2

(9)

Exemplo: (continuação) =exp µy σ2 − y2 2σ2− µ2 2σ2−1/2 log(2πσ 2₎ =exp        y µ σ2 |{z} b(µ) − y 2 2σ2 | {z } d(y) − µ 2 2σ2 −1/2 log(2πσ 2₎ | {z } c(µ)       

I Portanto a distribuição normal pertence à família

(10)

I Observe que no exemplo anterior consideramosθ = µ. I Tratamosσ2como uma constante conhecida

I Ele é chamado parâmetro de ruído (nuisance parameter). I Na prática, precisamos estimá-lo.

(11)

Parâmetro Canônico

I Veremos mais a frente que um tipo específico de

parâmetro será de grande importância.

I Ele é chamado parâmetro canônico.

I Considere a função densidade escrita na forma

f(y; θ) =exp[a(y)b(θ) +c(θ) +d(θ)] .

I Se a(y) =y , b(θ)é chamado paramêtro canônico da

(12)

Exemplo:

I Vamos considerar o exemplo da Poisson. I Vimos que f(y; θ) = (y!)−1 | {z } s(y) e−θ |{z} t(θ) exp_{ y |{z} a(y) log(θ) | {z } b(θ) } .

I Qual é o parâmetro canônico nesse caso?

I Como a(y) =y , o parâmetro canônico é dado por

(13)

Exemplo:

I Vamos considerar o exemplo da Normal. I Vimos que f(y, µ) =exp        y µ σ2 |{z} b(µ) − y 2 2σ2 | {z } d(y) − µ 2 2σ2 −1/2 log(2πσ 2₎ | {z } c(µ)       

I Qual é o parâmetro canônico nesse caso?

I Como a(y) =y , o parâmetro canônico é dado por

b(µ) = µ σ2.

(14)

I Veremos agora algumas propriedades da Família

Exponencial.

I Essas propriedades serão muito importantes para

estimarmos os modelos.

I Elas nos fornecem maneiras diretas de calcularmos

E(a(y)) e Var(a(y)) em função de a(.), b(.), c(.)e d(.).

(15)

Teorema

I Se a função densidade pode ser escrita como

f(y; θ) =exp[a(y)b(θ) +c(θ) +d(θ)] então E(a(Y_{)) = −}c 0_(θ) b0_(θ) Var(a(Y)) = b 00_(θ)_c0_{(θ) −}_c00_(θ)_b0_(θ) [b0_(θ)]3

(16)

E(a(Y_{)) = −}c 0_(θ) b0_(θ) . I Temos que Z f(y; θ)dy =1 derivando com relação aθdos dois lados

d dθ

Z

f(y; θ)dy = d

dθ1=0.

I Vamos supor que podemos inverter a ordem entre a

derivada e a integral. Temos então que

(17)

I Temos, porém, que a função de densidade pode ser

escrita como

f(y; θ) =exp[a(y)b(θ) +c(θ) +d(θ)] .

I Vamos derivar em relação aθ

d

dθf(y; θ)

= a(y)b0_{(θ) +}_c0_(θ)_exp_[_a₍_y₎_b_{(θ) +}_c_{(θ) +}_d_(θ)]

(18)

Z _d

dθf(y; θ)dy =0

I Vamos agora integrar

d dθf(y; θ) em relação a y . I Temos que Z _d dθf(y; θ)dy = Z a(y)b0_{(θ) +}_c0_(θ)_f₍_y_{; θ)}_dy = Z a(y)b0_(θ)_f₍_y_{; θ) +}_c0_(θ)_f₍_y_{; θ)}_dy

(19)

=b0_(θ) Z a(y)f(y; θ)dy +c0_(θ) Z f(y; θ)dy =b0_(θ)_E₍_a₍_y_{)) +}_c0_(θ)1 poisR a(y)f(y; θ)dy =E(a(y))eR f(y; θ)dy =1.

I Temos então que

Z _d

dθf(y; θ)dy =b

0_(θ)_E₍_a₍_y_{)) +}_c0_{(θ) =}₀

I Isso implica que

b0_(θ)_E₍_a₍_y_{)) = −}_c0_{(θ) ⇒}_E₍_a₍_y_{)) = −}c0(θ)

(20)

Var(a(Y)) = b 00_(θ)_c0_{(θ) −}_c00_(θ)_b0_(θ) [b0_(θ)]3 . I Vimos que Z _d dθf(y; θ)dy =0 derivando novamente em relação aθ

d dθ

Z _d

dθf(y; θ)dy =0 trocando a ordem entre a derivada e a integral

(21)

I Vejamos agora como fica d2 dθ2f(y; θ) . I Vimos que d dθf(y; θ) = a(y)b0_{(θ) +}_c0_(θ)_exp_[_a₍_y₎_b_{(θ) +}_c_{(θ) +}_d_(θ)]

I Derivando novamente em relação aθe usando a regra do

produto d2 dθ2f(y; θ) = d dθ a(y)b 0_{(θ) +}_c0_(θ)_exp_[_a₍_y₎_b_{(θ) +}_c_{(θ) +}_d_(θ)] d

(22)

= (a(y)b (θ) +c (θ))exp[a(y)b(θ) +c(θ) +d(θ)] + (a(y)b0_(θ)+_c0_(θ))(_a₍_y₎_b0_(θ)+_c0_(θ))_exp_[_a₍_y₎_b_{(θ) +}_c_{(θ) +}_d_(θ)] = (a(y)b00_{(θ) +}_c00_(θ))_f₍_y_{; θ)+} (a(y)b0_{(θ) +}_c0_(θ))(_a₍_y₎_b0_{(θ) +}_c0_(θ))_f₍_y_{; θ)} = (a(y)b00_{(θ) +}_c00_(θ))_f₍_y_{; θ)+} (a(y)b0_{(θ) +}_c0_(θ))2_f₍_y_{; θ)}

I Vamos olhar para o termo

[a(y)b0_{(θ) +}_c0_(θ)]2

(23)

=b0_(θ)2 a(y) +c0(θ) b0_(θ) 2 I Vimos que E(a(y_{)) = −}c 0_(θ) b0_(θ) ⇒ c0_(θ) b0_(θ) = −E(a(y))

I Substituindo na expressão acima

b0_(θ)2 a(y) +c0(θ) b0_(θ) 2 =b0_(θ)2₍_a₍_y ) −E(a(y)))2

(24)

I Temos então que d2 dθ2f(y; θ) = = (a(y)b00_{(θ) +}_c00_(θ))_f₍_y_{; θ)+} (a(y)b0_{(θ) +}_c0_(θ))2_f (y; θ) = (a(y)b00_{(θ) +}_c00_(θ))_f₍_y_{; θ)+} b0_(θ)2₍_a₍_y ) −E(a(y)))2f(y; θ)

I Queremos usar o fato de que

Z _d2

(25)

I Temos que Z _d2 dθ2f(y; θ)dy = Z (a(y)b00_(θ)+_c00_(θ))_f₍_y_{; θ)+}_b0_(θ)2₍_a₍_y ) −E(a(y)))2f(y; θ)dy = Z (a(y)b00_(θ)+c00_(θ))f_(y_{; θ)dy+} Z b0_(θ)2_(a(y_{) −}_E(a(y₎₎₎2 f(y; θ)dy = Z b00_(θ)a(y_)f_(y_{; θ)dy}₊ Z c00_(θ)f_(y_{; θ)dy} + Z b0_(θ)2_(a(y ) −E(a(y)))2f(y; θ)dy

(26)

=b00_(θ) Z a(y)f(y; θ)dy +c00_(θ) Z f(y; θ)dy +b0_(θ)2 Z (a(y_{) −}E(a(y)))2f(y; θ)dy I Temos que Z a(y)f(y; θ) =E(a(y)) Z f(y; θ)dy =1 Z (a(y_{) −}E(a(y)))2f(y; θ)dy =Var(a(y))

(27)

I Portanto Z _d2 dθ2f(y; θ)dy =b00_(θ) Z a(y)f(y; θ)dy +c00_(θ) Z f(y; θ)dy +b0_(θ)2Z ₍_a₍_y ) −E(a(y)))2f(y; θ)dy =b00_(θ)_E₍_a₍_y_{)) +}_c00_{(θ) +}_b0_(θ)2_Var₍_a₍_y_{)) .} I Como Z _d2 dθ2f(y; θ)dy =0 logo b00_(θ)_E₍_a₍_y_{)) +}_c00_{(θ) +}_b0_(θ)2_Var₍_a₍_y_{)) =}₀

(28)

I Temos que

b0_(θ)2_Var₍_a₍_y

)) = −b00_(θ)_E₍_a₍_y_{)) −}_c00_(θ)

Var(a(y)) = −b00(θ)E(a(y)) −c00(θ) b0_(θ)2

mas sabemos que

E(a(y_{)) = −}c 0_(θ) b0_(θ) logo −b00_(θ)₋c0(θ) b0_(θ) −c00_(θ)

(29)

I Multiplicando por b0(θ)no numerador e denominador Var(a(y)) = − b00_(θ)₋c0(θ) b0_(θ) b0_{(θ) −}_c00_(θ)_b0_(θ) b0_(θ)3 = b 00_(θ)_c0_{(θ) −}_c00_(θ)_b0_(θ) b0_(θ)3 .

(30)

Exemplo:

I Vamos retomar o exemplo da Poisson. I Vimos que f(y; θ) = (y!)−1 | {z } s(y) e−θ |{z} t(θ) exp_{ y |{z} a(y) log(θ) | {z } b(θ) } . que pode ser reescrita como

f(y; θ) =exp_{ y |{z} a(y) log(θ) | {z } b(θ) −θ |{z} c(θ) −log(y!) | {z } d(y) } .

(31)

Exemplo: (continuação)

I Temos que a(y) =y

I Podemos calcular a esperança e variância da Poisson

usando os resultados anteriores.

I Temos que E(y_{) = −}c 0_(θ) b0_(θ) mas c0_{(θ) =} d dθ(−θ) = −1 b0_{(θ) =} d dθ(log(θ)) = 1 θ portanto E(y_{) = −}−1 1/θ = θ .

(32)

I Vimos ainda que

Var(a(y)) = b00(θ)c0(θ) −c00(θ)b0(θ) b0_(θ)3 . I Mas temos que

b00_{(θ) =} d dθ( 1 θ) = − 1 θ2 c00_{(θ) =} d dθ(−1) =0

(33)

Exemplo: (continuação) I Como b00_{(θ) = −}1 θ2 c0(θ) = −1 c00(θ) =0 b0(θ) = 1 θ temos que Var(a(y)) = b 00_(θ)_c0_{(θ) −}_c00_(θ)_b0_(θ) b0_(θ)3 = (−1/θ 2₎₍₋₁_{) −}₀ (1/θ)3 = θ3 θ2 = θ .

(34)

Exemplo:

I Vamos retomar o exemplo da Normal. I Vimos que f(y, θ) =exp        y θ σ2 |{z} b(θ) − y 2 2σ2 | {z } d(y) − θ 2 2σ2−1/2 log(2πσ 2₎ | {z } c(θ)       

(35)

I Temos que a(y) =y

I Podemos calcular a esperança e variância da Normal

usando os resultados anteriores.

I Temos que E(y_{) = −}c 0_(θ) b0_(θ) mas c0_{(θ) =} d dθ − θ 2 2σ2−1/2 log(2πσ 2 ) = −_σθ2 b0_{(θ) =} d dθ( θ σ2) = 1 σ2 portanto (−θ/σ2)

(36)

I Vimos ainda que

Var(a(y)) = b00(θ)c0(θ) −c00(θ)b0(θ) b0_(θ)3 . I Mas temos que

b00_{(θ) =} d dθ( 1 σ2) =0 c00_{(θ) =} d dθ(− θ σ2) = − 1 σ2

(37)

Exemplo: (continuação) I Como b00_{(θ) =}₀ _c0_{(θ) = −} θ σ2 c00(θ) = − 1 σ2 b0(θ) = 1 σ2 temos que Var(a(y)) = b00(θ)c0(θ) −c00(θ)b0(θ) b0_(θ)3 = 0− − 1 σ2 1 σ2 1 σ2 3 = (σ 2₎3 (σ2₎2 = σ 2_.