Modelos Lineares Generalizados - Família
Exponencial
Erica Castilho Rodrigues
Introdução
I No modelo de Regressão Linear temos que Yi ∼N(µ, σ2) E(Yi) = µi =xiTβ onde I Y i são independentes; I xT
i representa a i-ésima linha da matriz X, correspondente
I Podemos estar interessados em situações mais genéricas. I A variável resposta tem uma distribuição diferente da
normal.
I A relação entre o valor esperado da variável resposta e as
explicativas pode ter uma relação diferente de E(Yi) = µi =xiTβ
podemos ter
E(Yi) = µi =g(xiTβ)
I A variável Yi não pode ter QUALQUER distribuição. I Precisamos garantir certas propriedades para:
I estimar os parâmetros, I fazer testes de hipóteses, I tirar conclusões sobre o modelo.
I Uma classe de distribuições garante essas propriedades. I Essa classe é conhecida como família exponencial I O que é a família exponencial?
Conjunto de distribuições com características similares.
Família Exponencial
I O que a família exponencial?
I É uma família de distribuições cuja função densidade pode
ser escrita na seguinte forma
f(y; θ) =s(y)t(θ)ea(y)b(θ)
onde s(.), t(.), a(.)e b(.)são funções não negativas.
I Essa expressão pode ser reescrita como
Exemplo:
I Seja Y uma variável tal que
Y ∼Poisson(θ) .
I Vamos verificar que essa distribuição pertence à família
exponencial f(y, θ) = e −θθy y! = (y!) −1e−θexp{log(θy )} = (y!)−1e−θexp{y log(θ)} = (y!)−1 | {z } s(y) e−θ |{z} t(θ) exp{ y |{z} a(y) log(θ) | {z } b(θ) } .
I Notamos então que a distribuição de Poisson pertence a
Exemplo:
I A distribuição Normal pertence à Família Exponencial?
Sim.
I Vejamo porque isso é verdade.
I Seja Y ∼N(µ, σ2) f(y, µ) = √ 1 2πσ2e −(y−µ) 2 2σ2 = √ 1 2πσ2exp − y 2 2σ2 + µy σ2 − µ2 2σ2 y2 µy µ2
Exemplo: (continuação) =exp µy σ2 − y2 2σ2− µ2 2σ2−1/2 log(2πσ 2) =exp y µ σ2 |{z} b(µ) − y 2 2σ2 | {z } d(y) − µ 2 2σ2 −1/2 log(2πσ 2) | {z } c(µ)
I Portanto a distribuição normal pertence à família
I Observe que no exemplo anterior consideramosθ = µ. I Tratamosσ2como uma constante conhecida
I Ele é chamado parâmetro de ruído (nuisance parameter). I Na prática, precisamos estimá-lo.
Parâmetro Canônico
I Veremos mais a frente que um tipo específico de
parâmetro será de grande importância.
I Ele é chamado parâmetro canônico.
I Considere a função densidade escrita na forma
f(y; θ) =exp[a(y)b(θ) +c(θ) +d(θ)] .
I Se a(y) =y , b(θ)é chamado paramêtro canônico da
Exemplo:
I Vamos considerar o exemplo da Poisson. I Vimos que f(y; θ) = (y!)−1 | {z } s(y) e−θ |{z} t(θ) exp{ y |{z} a(y) log(θ) | {z } b(θ) } .
I Qual é o parâmetro canônico nesse caso?
I Como a(y) =y , o parâmetro canônico é dado por
Exemplo:
I Vamos considerar o exemplo da Normal. I Vimos que f(y, µ) =exp y µ σ2 |{z} b(µ) − y 2 2σ2 | {z } d(y) − µ 2 2σ2 −1/2 log(2πσ 2) | {z } c(µ)
I Qual é o parâmetro canônico nesse caso?
I Como a(y) =y , o parâmetro canônico é dado por
b(µ) = µ σ2.
I Veremos agora algumas propriedades da Família
Exponencial.
I Essas propriedades serão muito importantes para
estimarmos os modelos.
I Elas nos fornecem maneiras diretas de calcularmos
E(a(y)) e Var(a(y)) em função de a(.), b(.), c(.)e d(.).
Teorema
I Se a função densidade pode ser escrita como
f(y; θ) =exp[a(y)b(θ) +c(θ) +d(θ)] então E(a(Y)) = −c 0(θ) b0(θ) Var(a(Y)) = b 00(θ)c0(θ) −c00(θ)b0(θ) [b0(θ)]3
E(a(Y)) = −c 0(θ) b0(θ) . I Temos que Z f(y; θ)dy =1 derivando com relação aθdos dois lados
d dθ
Z
f(y; θ)dy = d
dθ1=0.
I Vamos supor que podemos inverter a ordem entre a
derivada e a integral. Temos então que
I Temos, porém, que a função de densidade pode ser
escrita como
f(y; θ) =exp[a(y)b(θ) +c(θ) +d(θ)] .
I Vamos derivar em relação aθ
d
dθf(y; θ)
= a(y)b0(θ) +c0(θ)exp[a(y)b(θ) +c(θ) +d(θ)]
Z d
dθf(y; θ)dy =0
I Vamos agora integrar
d dθf(y; θ) em relação a y . I Temos que Z d dθf(y; θ)dy = Z a(y)b0(θ) +c0(θ)f(y; θ)dy = Z a(y)b0(θ)f(y; θ) +c0(θ)f(y; θ)dy
=b0(θ) Z a(y)f(y; θ)dy +c0(θ) Z f(y; θ)dy =b0(θ)E(a(y)) +c0(θ)1 poisR a(y)f(y; θ)dy =E(a(y))eR f(y; θ)dy =1.
I Temos então que
Z d
dθf(y; θ)dy =b
0(θ)E(a(y)) +c0(θ) =0
I Isso implica que
b0(θ)E(a(y)) = −c0(θ) ⇒E(a(y)) = −c0(θ)
Var(a(Y)) = b 00(θ)c0(θ) −c00(θ)b0(θ) [b0(θ)]3 . I Vimos que Z d dθf(y; θ)dy =0 derivando novamente em relação aθ
d dθ
Z d
dθf(y; θ)dy =0 trocando a ordem entre a derivada e a integral
I Vejamos agora como fica d2 dθ2f(y; θ) . I Vimos que d dθf(y; θ) = a(y)b0(θ) +c0(θ)exp[a(y)b(θ) +c(θ) +d(θ)]
I Derivando novamente em relação aθe usando a regra do
produto d2 dθ2f(y; θ) = d dθ a(y)b 0(θ) +c0(θ)exp[a(y)b(θ) +c(θ) +d(θ)] d
= (a(y)b (θ) +c (θ))exp[a(y)b(θ) +c(θ) +d(θ)] + (a(y)b0(θ)+c0(θ))(a(y)b0(θ)+c0(θ))exp[a(y)b(θ) +c(θ) +d(θ)] = (a(y)b00(θ) +c00(θ))f(y; θ)+ (a(y)b0(θ) +c0(θ))(a(y)b0(θ) +c0(θ))f(y; θ) = (a(y)b00(θ) +c00(θ))f(y; θ)+ (a(y)b0(θ) +c0(θ))2f(y; θ)
I Vamos olhar para o termo
[a(y)b0(θ) +c0(θ)]2
=b0(θ)2 a(y) +c0(θ) b0(θ) 2 I Vimos que E(a(y)) = −c 0(θ) b0(θ) ⇒ c0(θ) b0(θ) = −E(a(y))
I Substituindo na expressão acima
b0(θ)2 a(y) +c0(θ) b0(θ) 2 =b0(θ)2(a(y ) −E(a(y)))2
I Temos então que d2 dθ2f(y; θ) = = (a(y)b00(θ) +c00(θ))f(y; θ)+ (a(y)b0(θ) +c0(θ))2f (y; θ) = (a(y)b00(θ) +c00(θ))f(y; θ)+ b0(θ)2(a(y ) −E(a(y)))2f(y; θ)
I Queremos usar o fato de que
Z d2
I Temos que Z d2 dθ2f(y; θ)dy = Z (a(y)b00(θ)+c00(θ))f(y; θ)+b0(θ)2(a(y ) −E(a(y)))2f(y; θ)dy = Z (a(y)b00(θ)+c00(θ))f(y; θ)dy+ Z b0(θ)2(a(y) −E(a(y)))2 f(y; θ)dy = Z b00(θ)a(y)f(y; θ)dy+ Z c00(θ)f(y; θ)dy + Z b0(θ)2(a(y ) −E(a(y)))2f(y; θ)dy
=b00(θ) Z a(y)f(y; θ)dy +c00(θ) Z f(y; θ)dy +b0(θ)2 Z (a(y) −E(a(y)))2f(y; θ)dy I Temos que Z a(y)f(y; θ) =E(a(y)) Z f(y; θ)dy =1 Z (a(y) −E(a(y)))2f(y; θ)dy =Var(a(y))
I Portanto Z d2 dθ2f(y; θ)dy =b00(θ) Z a(y)f(y; θ)dy +c00(θ) Z f(y; θ)dy +b0(θ)2Z (a(y ) −E(a(y)))2f(y; θ)dy =b00(θ)E(a(y)) +c00(θ) +b0(θ)2Var(a(y)) . I Como Z d2 dθ2f(y; θ)dy =0 logo b00(θ)E(a(y)) +c00(θ) +b0(θ)2Var(a(y)) =0
I Temos que
b0(θ)2Var(a(y
)) = −b00(θ)E(a(y)) −c00(θ)
Var(a(y)) = −b00(θ)E(a(y)) −c00(θ) b0(θ)2
mas sabemos que
E(a(y)) = −c 0(θ) b0(θ) logo −b00(θ)−c0(θ) b0(θ) −c00(θ)
I Multiplicando por b0(θ)no numerador e denominador Var(a(y)) = − b00(θ)−c0(θ) b0(θ) b0(θ) −c00(θ)b0(θ) b0(θ)3 = b 00(θ)c0(θ) −c00(θ)b0(θ) b0(θ)3 .
Exemplo:
I Vamos retomar o exemplo da Poisson. I Vimos que f(y; θ) = (y!)−1 | {z } s(y) e−θ |{z} t(θ) exp{ y |{z} a(y) log(θ) | {z } b(θ) } . que pode ser reescrita como
f(y; θ) =exp{ y |{z} a(y) log(θ) | {z } b(θ) −θ |{z} c(θ) −log(y!) | {z } d(y) } .
Exemplo: (continuação)
I Temos que a(y) =y
I Podemos calcular a esperança e variância da Poisson
usando os resultados anteriores.
I Temos que E(y) = −c 0(θ) b0(θ) mas c0(θ) = d dθ(−θ) = −1 b0(θ) = d dθ(log(θ)) = 1 θ portanto E(y) = −−1 1/θ = θ .
Exemplo: (continuação)
I Vimos ainda que
Var(a(y)) = b00(θ)c0(θ) −c00(θ)b0(θ) b0(θ)3 . I Mas temos que
b00(θ) = d dθ( 1 θ) = − 1 θ2 c00(θ) = d dθ(−1) =0
Exemplo: (continuação) I Como b00(θ) = −1 θ2 c0(θ) = −1 c00(θ) =0 b0(θ) = 1 θ temos que Var(a(y)) = b 00(θ)c0(θ) −c00(θ)b0(θ) b0(θ)3 = (−1/θ 2)(−1) −0 (1/θ)3 = θ3 θ2 = θ .
Exemplo:
I Vamos retomar o exemplo da Normal. I Vimos que f(y, θ) =exp y θ σ2 |{z} b(θ) − y 2 2σ2 | {z } d(y) − θ 2 2σ2−1/2 log(2πσ 2) | {z } c(θ)
Exemplo: (continuação)
I Temos que a(y) =y
I Podemos calcular a esperança e variância da Normal
usando os resultados anteriores.
I Temos que E(y) = −c 0(θ) b0(θ) mas c0(θ) = d dθ − θ 2 2σ2−1/2 log(2πσ 2 ) = −σθ2 b0(θ) = d dθ( θ σ2) = 1 σ2 portanto (−θ/σ2)
Exemplo: (continuação)
I Vimos ainda que
Var(a(y)) = b00(θ)c0(θ) −c00(θ)b0(θ) b0(θ)3 . I Mas temos que
b00(θ) = d dθ( 1 σ2) =0 c00(θ) = d dθ(− θ σ2) = − 1 σ2
Exemplo: (continuação) I Como b00(θ) =0 c0(θ) = − θ σ2 c00(θ) = − 1 σ2 b0(θ) = 1 σ2 temos que Var(a(y)) = b00(θ)c0(θ) −c00(θ)b0(θ) b0(θ)3 = 0− − 1 σ2 1 σ2 1 σ2 3 = (σ 2)3 (σ2)2 = σ 2.