Considera¸c˜oes sobre a fun¸c˜ao de verossimilhan¸ca

Expandindo a fun¸cão suporte ` = `(β), dada na Se¸cão 3.2, em série multi- variada de Taylor ao redor de ˆβ e notando que U(ˆβ) = 0, obtém-se, aproximada-

mente,

` − `=. 1

2(β − ˆβ)

T_{J(β − ˆ}_ˆ _β), _(3.10)

em que ˆ` = `(ˆβ) e ˆJ é a informa¸cão observada (Se¸cão 3.2) em ˆβ. Essa equa¸cão

aproximada revela que a diferen¸ca entre o suporte máximo e o suporte num ponto arbitrário, que pode ser vista como a quantidade de informa¸cão dos dados sobre β, é proporcional a ˆJ (isto é, à informa¸cão observada no ponto ˆβ). O determinante de ˆJ (|ˆJ|) pode ser interpretado geometricamente como a curvatura esférica da superf´ıcie suporte no seu máximo. A forma quadrática do lado direito de (3.10) aproxima a superf´ıcie suporte por um parabolóide, passando pelo seu ponto de máximo, com a mesma curvatura esférica da superf´ıcie nesse ponto. O rec´ıproco de |ˆJ| mede a variabilidade de β ao redor da EMV ˆβ. E, como esperado, quanto maior a informa¸cão

sobre β menor ser´a a dispers˜ao de β ao redor de ˆβ.

A interpreta¸cão geométrica desses conceitos é melhor compreendida no caso uniparamétrico, pois (3.10) reduz-se à equa¸cão de uma parábola ` = ˆ. ` − 1

2(β −

β)2_{J. Uma inspe¸cão gráfica mostrará que essa parábola aproxima a curva suporte,}ˆ

coincidindo no ponto m´aximo e tendo a mesma curvatura dessa curva em ˆβ, revelando

ainda que quanto maior a curvatura, menor a varia¸c˜ao de β em torno de ˆβ.

A equa¸cão (3.10) implica que a fun¸cão de verossimilhan¸ca L = L(β) num ponto qualquer β segue, aproximadamente, a expressão

L= ˆ. L exp · −1 2(β − ˆβ) T_{J(β − ˆ}_ˆ _β) ¸ , (3.11)

em que ˆL ´e a fun¸c˜ao de verossimilhan¸ca avaliada em ˆβ, que representa a forma

Através dessa aproxima¸cão, pode-se, então, tratar o vetor de parâmetros como se fosse um vetor de variáveis aleatórias tendo distribui¸cão normal multivariada com média igual à EMV ˆβ e estrutura de covariância ˆJ−1_{. Quando a fun¸cão suporte for}

quadrática, a verossimilhan¸ca terá a forma normal. A forma de L se aproximará mais da normal quando n tender para infinito.

O lado direito de (3.11) é bem interpretado no contexto Bayesiano. Con- sidere qualquer fun¸cão densidade a priori não-nula para β, por exemplo, π(β). Usan- do o teorema de Bayes, pode-se escrever a fun¸cão densidade a posteriori de β como proporcional a Lπ(β). Quando n → ∞, pois π(β) não depende de n, a fun¸cao densi- dade a posteriori de β segue de (3.11) com uma constante de proporcionalidade ad- equada, e, então, converge para a distribui¸cão normal multivariada N(ˆβ, ˆJ−1_{). Uma}

demonstra¸cão matemática dessa convergência está fora dos objetivos desse texto. No caso uniparamétrico, a variabilidade de β fica restrita ao intervalo |β − ˆβ| ≤ 3 ˆJ−1/2

com probabilidade pr´oxima de um.

A fórmula (3.11) mostra a decomposi¸cão da fun¸cão de verossimilhan¸ca, pelo menos para n grande, estabelecendo, pelo teorema da fatora¸cão, a suficiência assintótica da EMV. Conclui-se que, embora as estimativas de MV não sejam neces- sariamente suficientes para os parâmetros do modelo, essa suficiência será alcan¸cada quando a dimensão do vetor de observa¸cões tender para infinito.

Citam-se, aqui, algumas propriedades da matriz de informa¸c˜ao. Seja Ky(β)

a informa¸cão sobre um vetor paramétrico β contida nos dados y obtidos de certo experimento. A informa¸cão é aditiva para amostras y e z independentes, isto é, Ky+z(β) = Ky(β) + Kz(β). Como Û = U(ˆβ) = 0, segue-se a rela¸cão aproximada

(por expans˜ao multivariada de Taylor): ˆ

β − β= J. −1_U _(3.12)

entre a EMV e a fun¸cão escore U = U(β) e a informa¸cão observada J = J(β) avaliadas no ponto β próximo de ˆβ.

consiste em usar a equa¸c˜ao (3.12) iterativamente. Obt´em-se uma nova estimativa

β(m+1) a partir de uma anterior β(m) por meio de

β(m+1) = β(m)+ J(m)−1U(m), (3.13)

em que quantidades avaliadas na m-ésima itera¸cão do procedimento iterativo são indicadas com o superescrito (m). O processo é, então, repetido a partir de β(m+1) até a distância entre β(m+1)e β(m)se tornar desprez´ıvel ou menor do que uma quantidade pequena especificada. Geometricamente, uma itera¸cão do método equivale a ajustar um parabolóide à superf´ıcie suporte em β(m), tendo o mesmo gradiente e curvatura da superf´ıcie nesse ponto, e, então, obter o ponto máximo do parabolóide que corres- ponderá à estimativa atualizada β(m+1). Quando β é um escalar, a equa¸cão (3.13) reduz-se a β(m+1) _{= β}(m)_{− U}(m)_/U0(m)_{, sendo U}0 _{= dU/dβ, que representa o método}

das tangentes bastante usado para calcular a solu¸cão de uma equa¸cão não-linear ˆ

U = 0.

A seqüência {β(m); m ≥ 1} gerada depende fundamentalmente do vetor ini- cial β(1), dos valores amostrais e do modelo estat´ıstico e, em determinadas situa¸cões, em que n é pequeno, pode revelar irregularidades espec´ıficas aos valores amostrais obtidos do experimento e, portanto, pode não convergir e mesmo divergir da EMV ˆβ.

Mesmo quando há convergência, se a fun¸cão de verossimilhan¸ca tem ra´ızes múltiplas, não se tem garantia de que o procedimento converge para a raiz correspondente ao maior valor absoluto da verossimilhan¸ca. No caso uniparamétrico, se a estimativa inicial β(1) _{for escolhida próxima de ˆ}_{β e se J}(m) _{para m ≥ 1 for limitada por um}

número real positivo, existirá uma chance apreciável que essa seqüência convirja para ˆ

β.

A expressão (3.12) tem uma forma alternativa equivalente, assintoticamente, pois pela lei dos grandes números J deve convergir para K quando n → ∞. Assim, substituindo a informa¸cão observada em (3.12) pela esperada, obtém-se a aproxima- ¸cão

O procedimento iterativo baseado em (3.14) é denominado método escore de Fisher para parâmetros, isto é, β(m+1) = β(m)+K(m)−1

U(m)_{, como foi explicitado na equa¸c˜ao}

(3.3). O aspecto mais trabalhoso dos dois esquemas iterativos é a inversão das matrizes J e K. Ambos os procedimentos são muito sens´ıveis em rela¸cão à estimativa inicial β(1)_{. Se o vetor β}(1) _{for uma estimativa consistente, ambos os métodos con-}

vergirão em apenas um passo para uma estimativa eficiente, assintoticamente. Existe evidência emp´ırica que o método de Fisher é melhor em termos de convergência do que o método de Newton-Raphson. Ainda, tem a vantagem de usufruir (através da matriz de informa¸cão) de caracter´ısticas espec´ıficas ao modelo estat´ıstico. Ademais, em muitas situa¸cões, é mais fácil determinar a inversa de K em forma fechada do que a inversa de J, sendo a primeira menos sens´ıvel às varia¸cões de β do que a segunda. Nesse sentido, K pode ser considerada, aproximadamente, constante em todo o processo iterativo, requerendo que a inversão seja feita apenas uma vez. Uma vantagem adicional do método escore é que K−1 _{é usada para obter}

aproxima¸cões de primeira ordem para as variâncias e covariâncias das estimativas ˆ

β1, . . . , ˆβp.

Os procedimentos iterativos descritos s˜ao casos especiais de uma classe de algoritmos iterativos para maximizar o logaritmo da fun¸c˜ao de verossimilhan¸ca `(β). Essa classe tem a forma

β(m+1) _{= β}(m)_{− s}(m)_Q(m)_U(m)_, _(3.15)

em que s(m) _{é um escalar, Q}(m) _{é uma matriz quadrada que determina a dire¸cão da}

mudan¸ca de β(m) para β(m+1) e U(m) _{´e o vetor gradiente do logaritmo da fun¸c˜ao de}

verossimilhan¸ca `(β), com todas essas quantidades variando no processo iterativo. Os algoritmos iniciam num ponto β(1) e procedem, por meio da expressão (3.15), para calcular aproxima¸cões sucessivas para a EMV ˆβ. Vários algoritmos nessa classe são

discutidos por Judge et al. (1985). Nos procedimentos iterativos de Newton-Raphson e escore de Fisher, s(m) _{é igual a um, e a matriz de dire¸cão Q}(m) _{é igual à inversa da}

dois procedimentos devem ser iniciados a partir de uma estimativa consistente a fim de se garantir convergˆencia para ˆβ. A escolha do melhor algoritmo em (3.15) ´e

fun¸cão da geometria do modelo em considera¸cão e, em geral, não existe um algoritmo superior aos demais em qualquer espectro amplo de problemas de estima¸cão.

3.7 Exerc´ıcios

1. Definir o algoritmo de estima¸cão dado em (3.5) para os modelos canônicos relativos às distribui¸cões estudadas na Se¸cão 1.3 (Tabela 1.1), calculando W, G e z.

2. Definir o algoritmo de estima¸cão dado em (3.5), calculando W, G e z para os modelos normal, gama, normal inverso e Poisson com fun¸cão de liga¸cão potência

η = µλ_{, λ conhecido (Cordeiro, 1986). Para o modelo normal, considere, ainda, o}

caso da fun¸cão de liga¸cão logar´ıtmica, isto é, η = log µ.

3. Definir o algoritmo (3.5), calculando W, G e z, para o modelo binomial com fun¸c˜ao de liga¸c˜ao η = log{[(1 − µ)−λ_{− 1]λ}−1_{}, λ conhecido. Obter ainda as formas}

do algoritmo para os modelos (c) e (d), definidos na Tabela 2.7 da Se¸cão 2.5.1. 4. Considere a estrutura linear ηi = βxi, i = 1, . . . , n, com um único parâmetro β

desconhecido e fun¸c˜ao de liga¸c˜ao η = (µλ_−1)λ−1_{, λ conhecido. Calcular a estimativa}

de MV de β para os modelos normal, Poisson, gama, normal inverso e binomial negativo. Fazer o mesmo para o modelo binomial com fun¸c˜ao de liga¸c˜ao dada no Exerc´ıcio 3. Obter ainda as estimativas no caso de x1 = x2 = . . . = xn.

5. Para os modelos e fun¸c˜oes de liga¸c˜ao citados no Exerc´ıcio 4, calcular as estimativas de MV de α e β, considerando a estrutura linear ηi = α + βxi, i = 1, . . . , n. Obter

ainda a estrutura de covariˆancia aproximada dessas estimativas.

6. Caracterizar as distribui¸cões log-normal e log-gama no contexto dos MLG, definindo o algoritmo de ajuste desses modelos com a fun¸cão de liga¸cão potência

η = µλ_{, λ conhecido.}

7. Formular o procedimento iterativo de c´alculo das estimativas de m´ınimos quadra- dos dos parˆametros β0_{s nos MLG, que equivale a minimizar (y − µ)}T_V−1_{(y − µ), em}

que V = diag{V1, . . . , Vn}, com rela¸c˜ao a β. Como aplica¸c˜ao, obter essas estimativas

nos Exerc´ıcios 4 e 5.

8. Calcular a forma da matriz de informa¸cão para o modelo log-linear associado a uma tabela de contingência com dois fatores sem intera¸cão, sendo uma observa¸cão por cela. Fazer o mesmo para o modelo de Poisson com fun¸cão de liga¸cão raiz quadrada. Qual a grande vantagem desse último modelo?

9. Calcular a forma da matriz de informa¸c˜ao para os parˆametros β0_{s no modelo}

de classifica¸c˜ao de um fator A com p n´ıveis g(µi) = ηi = β + βiA, com β+A = 0,

considerando a variável resposta como normal, gama, normal inversa e Poisson. De- terminar as matrizes de covariância assintótica das estimativas ˆβ, ˆη e ˆµ. Obter as

express˜oes para o c´alculo dessas estimativas.

10. Como o modelo binomial do Exerc´ıcio 3 poderia ser ajustado se λ fosse desco- nhecido? E os modelos do Exerc´ıcio 4, ainda λ desconhecido?

11. Sejam variáveis aleatórias Yi com distribui¸cões de Poisson P(µi), i = 1, . . . , n,

supostas independentes. Define-se f (.) como uma fun¸c˜ao diferenci´avel tal que [f (µ +

xµ1/2_{) − f (µ)]/µ}1/2_f0_{(µ) = x + O(µ}−1/2_{), para todo x com µ → ∞. Demonstrar}

que a variável aleatória [f (Yi) − f (µi)]/[µ1/2i f0(µi)] converge em distribui¸cão para a

distribui¸c˜ao normal N(0, 1) quando µi → ∞. Provar, ainda, que a parte do logaritmo

da fun¸c˜ao de verossimilhan¸ca que s´o depende dos µ0

is tende, assintoticamente, para

−2−1Pn

i=1[f (yi)−f (µi)]2/[yif0(yi)]2quando µi → ∞, i = 1, . . . , n, em que y1, · · · , yn

s˜ao as realiza¸c˜oes dos Y ’s.

depende de uma variável x de acordo com a rela¸cão π = F(α + βx), em que F(.) é uma fun¸cão de distribui¸cão acumulada especificada. Admite-se que para os valores

x1, . . . , xn de x, m1, . . . , mn ensaios independentes foram realizados, sendo obtidas

propor¸c˜oes de sucessos p1, . . . , pn, respectivamente. Comparar as estimativas ˆα e ˆβ

para as escolhas de F(.): probito, log´ıstica, arcsen √ e complemento log-log. 13. Considere a f.d.p. f (y) = exp(−

i=1

αiyi) com parˆametros α1, . . . , αr desco-

nhecidos. Demonstrar que as estimativas de MV e dos momentos desses parˆametros coincidem.

14. Considere um modelo log-gama com componente sistem´atico log µi = α + xTi β

e parˆametro de dispers˜ao φ. Mostre que

E[log(Yi)] = α∗+ xTi β

Var[log(Yi)] = ψ0(φ−1),

em que α∗ _{= α + ψ(φ}−1_{) + log φ. Seja ˜}_{β o estimador de m´ınimos quadrados de β}

obtido ajustando-se um modelo de regress˜ao linear aos dados transformados log yi,

Cap´ıtulo 4

M´etodos de Inferˆencia

4.1 Distribui¸c˜ao dos estimadores dos parˆametros

No modelo clássico de regressão em que a variável resposta tem distribui¸cão normal e a fun¸cão de liga¸cão é a identidade, as distribui¸cões dos estimadores dos parâmetros e das estat´ısticas usadas para verificar o ajuste do modelo aos dados podem ser determinadas exatamente. Em geral, porém, a obten¸cão de distribui¸cões exatas nos MLG é muito complicada e resultados assintóticos são, rotineiramente, usados. Esses resultados, porém, dependem de algumas condi¸cões de regularidade e do número de observa¸cões independentes mas, em particular, para os MLG essas condi¸cões são satisfeitas (Fahrmeir e Kaufmann, 1985).

A idéia básica é que se ˆθ é um estimador consistente para um parâmetro θ

e Var(ˆθ) é a variância desse estimador, então, para amostras grandes, tem-se: i) θ é assintoticamente imparcial;ˆ

ii) a estat´ıstica Zn= ˆ θ − θ q Var(ˆθ)

→ Z quando n → ∞, sendo que Z ∼ N(0, 1)

ou, de forma equivalente,

(ˆθ − θ)2

Var(ˆθ) → Z

2 _{quando n → ∞, sendo que Z}2 _{∼ χ}2 1.

Se ˆθ ´e um estimador consistente de um vetor θ de p parˆametros, tem-se,

assintoticamente, que

(ˆθ − θ)T_V−1_(ˆ_{θ − θ) ∼ χ}2

sendo V a matriz de variâncias e covariâncias de ˆθ, suposta não-singular. Se V é

singular, usa-se uma matriz inversa generalizada ou, então, uma reparametriza¸cão de forma a se obter uma nova matriz de variâncias e covariâncias não-singular.

Considere-se um MLG definido por uma distribui¸cão em (2.4), uma estrutura linear (2.6) e uma fun¸cão de liga¸cão (2.7). As propriedades do estimador ˆβ dos

parâmetros lineares do modelo em rela¸cão à existência, finitude e unicidade serão apresentadas na Se¸cão 8.1. Em geral, não é poss´ıvel obter distribui¸cões exatas para os estimadores de MV e para as estat´ısticas de testes usadas nos MLG e trabalha-se com resultados assintóticos. As condi¸cões de regularidade que garantem esses resultados são satisfeitas para os MLG. É fato conhecido que os estimadores de MV têm poucas propriedades que são satisfeitas para todos os tamanhos de amostras, como, por exemplo, suficiência e invariância. As propriedades assintóticas de segunda- ordem de ˆβ, como o viés de ordem O(n−1_{) e a sua matriz de covariância de ordem}

O(n−2_{), foram estudadas por Cordeiro e McCullagh (1991) e Cordeiro (2004a,b,c),}

respectivamente.

Seja o vetor escore U(β) = ∂`(β)/∂β como definido na Se¸cão 3.2. Como o vetor escore tem valor esperado zero e estrutura de covariância igual à matriz de informa¸cão K em problemas regulares (Cox e Hinkley, 1986, Cap´ıtulo 9), tem-se de (3.2) que E{U(β)} = 0 e Cov[U(β)] = E[U(β)U(β)T] = E · −∂2_`(β) ∂βT∂β ¸ = K. (4.1)

Conforme demonstrado na Se¸cão 3.2, a matriz de informa¸cão para β nos MLG é dada por K = φ−1_XT_WX.

O teorema central do limite aplicado a U(β) (que equivale a uma soma de variáveis aleatórias independentes) implica que a distribui¸cão assintótica de U(β)

´e normal p-variada, isto ´e, Np(0, K). Para amostras grandes, a estat´ıstica escore

definida pela forma quadr´atica SR = U(β)TK−1U(β) tem, aproximadamente, dis-

tribui¸c˜ao χ2

psupondo o modelo, com o vetor de parˆametros β especificado, verdadeiro.

De uma forma resumida tˆem-se, a seguir, algumas propriedades para o estimador ˆβ:

i) O estimador ˆβ é assintoticamente não viesado, isto é, para amostras

grandes E(ˆβ) = β. Suponha que o logaritmo da fun¸c˜ao de verossimilhan¸ca tem

um único máximo em ˆβ que está próximo do verdadeiro valor de β. A expansão em

série multivariada de Taylor para o vetor escore U(ˆβ) em rela¸cão a β, até termos

de primeira ordem, substituindo-se a matriz de derivadas parciais de segunda ordem por −K, ´e dada por

U(ˆβ) = U(β) − K(ˆβ − β) = 0,

pois ˆβ é a solu¸cão do sistema de equa¸cões U(ˆβ) = 0. As variáveis aleatórias U(β)

e K(ˆβ − β) diferem por quantidades estoc´asticas de ordem Op(1). Portanto, tem-se

at´e ordem n−1/2 _{em probabilidade}

β − β = K−1_U(β), _(4.2)

desde que K seja n˜ao-singular.

A expressão aproximada (4.2) é de grande importância para a determina¸cão de propriedades do estimador de MV ˆβ. As variáveis aleatórias ˆβ − β e K−1_U(β)

diferem por variáveis aleatórias de ordem n−1 _{em probabilidade. Tem-se, então, que}

E(ˆβ − β) = K−1_{E[U(β)] = 0 ⇒ E(ˆ}_{β) = β,}

pois E[U(β)] = 0 e, portanto, ˆβ ´e um estimador imparcial para β (pelo menos

assintoticamente). Na realidade, E(ˆβ) = β + O(n−1_{), sendo que o termo de ordem}

O(n−1_{) foi obtido por Cordeiro e McCullagh (1991). Mais recentemente, Cordeiro e}

ii) Denotando-se U(β) = U e usando (4.2) e (4.1) tem-se que a matriz de variâncias e covariâncias de ˆβ, para amostras grandes, é dada por

Cov(ˆβ) = E[(ˆβ − β)(ˆβ − β)T_{] = K}−1_E(UUT_)K−1T _{= K}−1_KK−1 _{= K}−1_,

pois K−1_{´e sim´etrica. Na realidade, Cov(ˆ}_{β) = K}−1_+O(n−2_{), sendo o termo matricial}

de ordem O(n−2_{) dado em Cordeiro (2004a).}

iii) Para amostras grandes, tem-se a aproxima¸c˜ao

(ˆβ − β)TK(ˆβ − β) ∼ χ2_p (4.3)

ou, de forma equivalente,

β ∼ Np(β, K−1), (4.4)

ou seja, ˆβ tem distribui¸cão assintótica normal p−variada, que é a base para a constru-

¸cão de testes e intervalos de confian¸ca para os parâmetros lineares de um MLG. Para modelos lineares com variáveis respostas com distribui¸cão normal, (4.3) e (4.4) são resultados exatos. Fahrmeir e Kaufmann (1985), em um artigo bastante matemático, desenvolvem condi¸cões gerais que garantem a consistência e a normalidade assintótica do estimador de MV ˆβ nos MLG.

Para amostras pequenas, como citado em i), o estimador ˆβ ´e viesado e torna-

se necessário computar o viés de ordem n−1 _{que pode ser apreciável. Também, para}

n n˜ao muito grande, como visto em ii), a estrutura de covariˆancia das estimativas de

MV dos parˆametros lineares difere de K−1_{. Uma demonstra¸c˜ao rigorosa dos resulta-}

dos assintóticos (4.3) e (4.4) exige argumentos do teorema central do limite adaptado ao vetor escore U(β) e da lei fraca dos grandes números aplicada à matriz de in- forma¸cão K. Pode-se, então, demonstrar, com mais rigor, a normalidade assintótica de ˆβ, com média igual ao parâmetro verdadeiro β desconhecido, e com matriz de co-

variˆancia consistentemente estimada por bK−1 _{= φ(X}T_WX)c −1 _{em que c}_{W ´e a matriz}

de pesos W avaliada em ˆβ.

Para as distribui¸cões binomial e de Poisson φ = 1. Se o parâmetro de dispersão φ for constante para todas as observa¸cões e desconhecido afetará a matriz

de covariância assintótica bK−1 _{de ˆ}_{β mas não o valor de ˆ}_{β. Na prática, se φ for}

desconhecido, deverá ser substitu´ıdo por alguma estimativa consistente (Se¸cão 4.4). A distribui¸cão assintótica normal p−variada Np(β, K−1) de ˆβ é a base

da constru¸cão de testes e intervalos de confian¸ca, em amostras grandes, para os parâmetros lineares dos MLG. O erro dessa aproxima¸cão para a distribui¸cão de ˆβ

´e de ordem n−1 _{em probabilidade, significando que os c´alculos de probabilidade}

baseados na fun¸cão de distribui¸cão acumulada da distribui¸cão normal assintótica Np(β, K−1), apresentam erros de ordem de magnitude n−1.

A distribui¸cão assintótica normal p−variada Np(β, K−1) será uma boa

aproxima¸cão para a distribui¸cão de ˆβ, se o logaritmo da fun¸cão de verossimilhan¸ca

for razoavelmente uma fun¸cão quadrática. Pelo menos, assintoticamente, todos os logaritmos das fun¸cões de verossimilhan¸ca têm essa forma. Para amostras pequenas, isso pode não ocorrer para β, embora possa existir uma reparametriza¸cão γ = h(β), que conduza o logaritmo da fun¸cão de verossimilhan¸ca a uma fun¸cão, aproximadamente, quadrática. Assim, testes e regiões de confian¸ca mais precisos poderão ser baseados na distribui¸cão assintótica de ˆγ = h(ˆβ).

Anscombe (1964), no caso de um único parâmetro β, obtém uma parametriza¸cão geral que elimina a assimetria do logaritmo da fun¸cão de verossimilhan¸ca. A solu¸cão geral é da forma

γ = h(β) = Z exp · 1 3 Z v(β)dβ ¸ dβ, em que v(β) = d 3_`(β) dβ3 · d2_`(β) dβ2 ¸₋₁

. Essa transforma¸cão tem a propriedade de anular a derivada de terceira ordem do logaritmo da fun¸cão de verossimilhan¸ca, em rela¸cão a γ, e, portanto, eliminar a principal contribui¸cão da assimetria.

Para os MLG, a assimetria do logaritmo da fun¸cão de verossimilhan¸ca é eliminada usando uma fun¸cão de liga¸cão apropriada, como será explicado na Se¸cão 8.2 (caso δ = 1/3). Usando-se a expressão de Anscombe (1964), obtém-se, diretamente, η = R exp©R b000_(θ)/[3b00_(θ)]dθª_{dθ =} R _b00_(θ)1/3_{dθ, a fun¸cão de liga¸cão}

tem dimensão maior do que 1, em geral, não é poss´ıvel anular a assimetria. Em particular, parametriza¸cões componente a componente γi = h(βi), i = 1, . . . , p,

não apresentam um bom aperfei¸coamento na forma do logaritmo da fun¸cão de verossimilhan¸ca, a menos que as variáveis explanatórias sejam, mutuamente, ortogonais (Pregibon, 1979).

Exemplo 4.1: Seja Y1, . . . , Yn uma amostra aleat´oria de uma distribui¸c˜ao normal

N(µi, σ2), sendo que µi = xTi β. Considerando a fun¸c˜ao de liga¸c˜ao identidade, isto

´e, ηi = µi, tem-se que g0(µi) = 1. Al´em disso, Vi = 1 e, portanto, wi = 1. Logo, a

matriz de informa¸c˜ao ´e dada por

K = φ−1XTWX = σ−2XTX e a vari´avel dependente ajustada fica sendo zi = yi.

Portanto, o algoritmo de estima¸c˜ao (3.5) reduz-se a XT_{Xβ = X}T_y

e, desde que XT_{X tenha inversa,}

β = (XT_X)−1_XT_y, _(4.5)

que é a solu¸cão usual de m´ınimos quadrados para o modelo clássico de regressão. Tem-se, então,

E(ˆβ) = (XT_X)−1_XT_{E(Y) = (X}T_X)−1_XT_{Xβ = β}

Cov(ˆβ) = E[(ˆβ − β)(ˆβ − β)T] = (XTX)−1XTE[(Y − Xβ)(Y − Xβ)T]X(XTX)−1 = σ2(XTX)−1,

Como Y ∼ Nn(Xβ, σ2I) e o vetor ˆβ dos estimadores de MV ´e uma trans-

forma¸c˜ao linear do vetor y em (4.5), o vetor ˆβ tem distribui¸c˜ao normal p-variada

Np(Xβ, σ2I) exatamente. Logo, tem-se, exatamente, que

(ˆβ − βT_)K(ˆ_{β − β) ∼ χ}2

sendo K = σ−2_XT_{X a matriz de informa¸c˜ao.}

Os erros-padrão dos estimadores de MV ˆβ1, . . . , ˆβp são iguais às ra´ızes

quadradas dos elementos da diagonal de bK−1 _{e podem fornecer informa¸c˜oes valiosas}

sobre a exatid˜ao desses estimadores. Usa-se aqui a nota¸c˜ao K−1 _{= {κ}r,s_{} para a in-}

versa da matriz de informa¸c˜ao em que, aproximadamente, Cov( ˆβr, ˆβs) = κr,s. Ent˜ao,

com n´ıvel de confian¸ca de 95%, intervalos de confian¸ca para os parˆametros β0

rs podem ser deduzidos de ˆ βr∓ 1, 96 √ ˆ κr,r_, em que ˆκr,r_{= d}_{Var( ˆ}_β

r) é o valor de κr,rem ˆβ. Nas Se¸cões 4.6 e 4.7 serão apresentados

testes e regi˜oes de confian¸ca constru´ıdos com a fun¸c˜ao desvio.

A correla¸c˜ao estimada ˆρrs entre as estimativas ˆβr e ˆβs segue como

ˆ ρrs = dCorr( ˆβr, ˆβs) = ˆ κr,s √ ˆ κr,r_ˆ_κs,s,

sendo obtida diretamente da inversa da matriz de informa¸c˜ao K avaliada em ˆβ. Essas

correla¸c˜oes permitem verificar, pelo menos aproximadamente, a interdependˆencia dos ˆ

β0 rs.

No documento Modelos Lineares Generalizados e (páginas 93-107)