O algoritmo de estima¸c˜ ao - Modelos Lineares Generalizados e

A decisão importante na aplica¸cão do MLG é a escolha do trinômio: distribui¸cão da variável resposta × matriz modelo × fun¸cão de liga¸cão. A sele¸cão pode resultar de simples exame dos dados ou de alguma experiência anterior. Inicialmente, considera-se esse trinômio fixo para se obter uma descri¸cão adequada dos dados por meio das estimativas dos parâmetros do modelo. Muitos métodos podem ser usados para estimar os parˆametros β′s, inclusive o qui-quadrado m´ınimo, o Bayesiano e a estima¸cão-M. O último inclui o método de máxima verossimilhan¸ca (MV) que tem muitas propriedades ótimas, tais como, consistência e eficiência assintótica.

Neste livro, considera-se apenas o método de MV para estimar os parâmetros lineares β1, . . . , βp do modelo. O vetor escore é formado pelas derivadas parciais de

primeira ordem do logaritmo da fun¸c˜ao de verossimilhan¸ca. Da express˜ao (3.1) pode- se calcular, pela regra da cadeia, o vetor escore U(β) = ∂ℓ(β)/∂β de dimens˜ao p, com elemento t´ıpico Ur=

∂ℓ(β) ∂βr = n ∑ i=1 dℓi dθi dθi dµi dµi dηi ∂ηi ∂βr , pois ℓ(β) = f (θ1, . . . , θi , . . . , θn) ↓ θi = ∫ V_i−1dµi = q(µi) ↓ µi = g−1(ηi) = h(ηi) ↓ ηi = ∑p r=1xirβr

e, sabendo-se que µi = b′(θi) e dµi/dθi = Vi, tem-se Ur = ϕ−1 n ∑ i=1 (yi− µi) 1 Vi dµi dηi xir (3.2) para r = 1, . . . , p.

A estimativa de m´axima verossimilhan¸ca (EMV) ˆβ do vetor de parˆametros

β ´e calculada igualando-se Ur a zero para r = 1, . . . , p. Em geral, as equa¸c˜oes Ur = 0,

r = 1, . . . , p, n˜ao s˜ao lineares e tˆem que ser resolvidas numericamente por processos iterativos do tipo Newton-Raphson.

O método iterativo de Newton-Raphson para a solu¸cão de uma equa¸cão f (x) = 0 ´e baseado na aproxima¸cão de Taylor para a fun¸c˜ao f (x) na vizinhan¸ca do ponto x0, ou seja, f (x) = f (x0) + (x− x0)f′(x0) = 0, obtendo-se x = x0− f (x0) f′(x0)

ou, de uma forma mais geral,

x(m+1) = x(m)− f (x

(m)₎

f′(x(m)₎,

sendo x(m+1) o valor de x no passo (m + 1), x(m) o valor de x no passo m, f (x(m)) a fun¸c˜ao f (x) avaliada em x(m) _{e f}′_(x(m)_{) a derivada da fun¸c˜}_{ao f (x) avaliada em x}(m)_.

Considerando-se que se deseja obter a solu¸c˜ao do sistema de equa¸c˜oes U =

U(β) = ∂ℓ(β)/∂β = 0 e, usando-se a vers˜ao multivariada do m´etodo de Newton- Raphson, tem-se

β(m+1) = β(m)+ (J(m))−1U(m),

sendo β(m) e β(m+1) os vetores de parˆametros estimados nos passos m e (m + 1), respectivamente, U(m) o vetor escore avaliado no passo m, e (J(m))−1 a inversa da negativa da matriz de derivadas parciais de segunda ordem de ℓ(β), com elementos −∂2_{ℓ(β)/∂β}

Quando as derivadas parciais de segunda ordem são avaliadas facilmente, o método de Newton-Raphson é bastante útil. Entretanto, isso nem sempre ocorre e no caso dos MLG usa-se o método escore de Fisher que, em geral, é mais simples (coinci- dindo com o método de Newton-Raphson no caso das fun¸cões de liga¸cão canônicas). Esse método envolve a substitui¸cão da matriz de derivadas parciais de segunda ordem pela matriz de valores esperados das derivadas parciais, isto é, a substitui¸cão da matriz de informa¸c˜ao observada, J, pela matriz de informa¸c˜ao esperada de Fisher,

K. Logo,

β(m+1) = β(m)+ (K(m))−1U(m), (3.3) sendo que K tem elementos t´ıpicos expressos por

κr,s =−E [ ∂2ℓ(β) ∂βr∂βs ] = E [ ∂ℓ(β) ∂βr ∂ℓ(β) ∂βs ] , que ´e a matriz de covariˆancias dos U_r′s.

Multiplicando-se ambos os membros de (3.3) por K(m)_{, tem-se}

K(m)β(m+1) = K(m)β(m)+ U(m). (3.4) O elemento t´ıpico κr,s de K ´e determinado de (3.2), sendo expresso por

κr,s= E(UrUs) = ϕ−2 n ∑ i=1 E(Yi− µi)2 1 V2 i ( dµi dηi )2 xirxis

e como Var(Yi) = E(Yi− µi)2 = ϕVi, obt´em-se

κr,s= ϕ−1 n ∑ i=1 wixirxis, sendo wi = Vi−1(dµi/dηi) 2

denominada fun¸c˜ao peso. Logo, a matriz de informa¸c˜ao de Fisher para β tem a forma

K = ϕ−1XTWX,

sendo W = diag{w1, . . . , wn} uma matriz diagonal de pesos que capta a informa¸c˜ao

matriz de pesos a priori. No caso das fun¸c˜oes de liga¸c˜ao canˆonicas tem-se wi = Vi,

pois Vi = V (µi) = dµi/dηi. Note-se que a informa¸c˜ao ´e inversamente proporcional ao

parˆametro de dispers˜ao.

O vetor escore U = U(β) com componentes em (3.2) pode, ent˜ao, ser expresso na forma

U = ϕ−1XTWG(y− µ),

em que G = diag{dη1/dµ1, . . . , dηn/dµn} = diag{g′(µ1), . . . , g′(µn)}. Assim, a ma-

triz diagonal G ´e formada pelas derivadas de primeira ordem da fun¸c˜ao de liga¸c˜ao. Substituindo K e U em (3.4) e eliminando ϕ, tem-se

XTW(m)Xβ(m+1) = XTW(m)Xβ(m)+ XTW(m)G(m)(y− µ(m)), ou, ainda,

XTW(m)Xβ(m+1) = XTW(m)[η(m)+ G(m)(y− µ(m))].

Deﬁne-se a vari´avel dependente ajustada z = η + G(y− µ). Logo,

XTW(m)Xβ(m+1) = XTW(m)z(m)

β(m+1) = (XTW(m)X)−1XTW(m)z(m). (3.5) A equa¸cão matricial (3.5) é válida para qualquer MLG e mostra que a solu¸cão das equa¸cões de MV equivale a calcular repetidamente uma regressão linear ponde- rada de uma vari´avel dependente ajustada z sobre a matriz X usando uma matriz de pesos W que se modifica no processo iterativo. As fun¸c˜oes de variância e de liga¸c˜ao entram no processo iterativo por meio de W e z. Note-se que Cov(z) =

GCov(Y)G = ϕW−1, isto ´e, os zi não são correlacionados. É importante enfatizar

que a equa¸cão iterativa (3.5) não depende do parâmetro de dispers˜ao ϕ.

A demonstra¸c˜ao da equa¸c˜ao (3.5), em generalidade, foi desenvolvida por Nelder e Wedderburn (1972). Eles generalizaram procedimentos iterativos obtidos

para casos especiais dos MLG: probito (Fisher, 1935), log-lineares (Haberman, 1970) e log´ıstico-lineares (Cox, 1972).

A variável dependente ajustada depende da derivada de primeira ordem da fun¸cão de liga¸cão. Quando a fun¸cão de liga¸cão ´e linear (η = µ), isto ´e, a identidade, tem-se W = V−1 sendo V = diag{V1, . . . , Vn}, G = I e z = y, ou seja, a variável

dependente ajustada reduz-se ao vetor de observa¸cões. Para o modelo normal linear (V = I, µ = η), W ´e igual à matriz identidade de dimens˜ao n, z = y e verifica-se da equa¸cão (3.5) que a estimativa ˆβ reduz-se `a fórmula esperada ˆβ = (XT_X)−1_XT_y.

Esse é o único modelo em que ˆβ ´e calculado de forma exata sem ser necessário um procedimento iterativo.

O método usual para iniciar o processo iterativo é especificar uma estimativa inicial e, sucessivamente, alterá-la até que a convergência seja alcan¸cada e, portanto,

β(m+1)aproxime-se de ˆβ quando m cresce. Note, contudo, que cada observa¸c˜ao pode ser considerada como uma estimativa do seu valor m´edio, isto ´e, µ(1)_i = yi e, assim,

calcula-se η(1)_i = g(µ(1)_i ) = g(yi) e w (1) i = 1 V (yi)[g′(yi)]2 .

Usando-se η(1) _{como vari´}_{avel resposta, X, a matriz do modelo, e W}(1)_{, a}

matriz diagonal de pesos com elementos w_i(1), obt´em-se o vetor

β(2) = (XTW(1)X)−1XTW(1)η(1).

O algoritmo de estima¸c˜ao, para m = 2, . . . , k, sendo k−1 o número necessário de itera¸cões para atingir a convergência, pode ser resumido nos seguintes passos:

(1) calcular as estimativas η_i(m) = p ∑ r=1 xirβr(m) e µ (m) i = g−1(η (m) i );

(2) calcular a vari´avel dependente ajustada z_i(m) = η_i(m)+ (yi− µ(m)i )g′(µ

(m) i )

e os pesos

w(m)_i = 1

V (µ(m)_i )[g′(µ(m)_i )]2;

(3) calcular

β(m+1) = (XTW(m)X)−1XTW(m)z(m),

voltar ao passo (1) com β(m) = β(m+1)e repetir o processo até atingir a convergência, definindo-se, então, ˆβ = β(m+1).

Dentre os muitos existentes, um critério para verificar a convergência do algoritmo iterativo poderia ser

p ∑ r=1 ( βr(m+1)− βr(m) βr(m) )2 < ξ,

considerando-se que ξ ´e um número positivo suficientemente pequeno. Em geral, esse algoritmo é robusto e converge rapidamente (menos de 10 itera¸cões são suficientes). Entretanto, o critério do desvio é o mais usado e consiste em verificar se|desvio(m+1)− desvio(m)| < ξ, sendo desvio definido na Se¸cão 4.2.

Deve-se ser cauteloso se a fun¸c˜ao g(.) n˜ao ´e deﬁnida para alguns valores yi.

Por exemplo, se a fun¸cão de liga¸cão for especificada por η = g(µ) = log(µ)

e forem observados valores yi = 0, o processo n˜ao pode ser iniciado. Um m´etodo

geral para contornar esse problema ´e substituir y por y + c tal que E[g(y + c)] seja o mais pr´oxima poss´ıvel de g(µ). Para o modelo de Poisson com fun¸c˜ao de liga¸c˜ao logar´ıtmica, usa-se c = 1/2. Para o modelo log´ıstico, usa-se c = (1− 2π)/2 e π = µ/m, sendo m o ´ındice da distribui¸c˜ao binomial. De uma forma geral, da expans˜ao de Taylor at´e segunda ordem para g(y + c) em rela¸c˜ao a g(µ), tem-se

g(y + c)≈ g(µ) + (y + c − µ)g′(µ) + (y + c− µ)2g

′′_(µ)

2 ,

cujo valor esperado ´e igual a

E[g(Y + c)]≈ g(µ) + cg′(µ) + Var(Y )g

′′_(µ)

que implica em

c≈ −1

2Var(Y ) g′′(µ) g′(µ).

Para pequenas amostras, a equa¸cão (3.5) pode divergir. O número de itera¸cões até a convergência depende inteiramente do valor inicial arbitrado para ˆβ,

embora, geralmente, o algoritmo convirja rapidamente. A desvantagem do método tradicional de Newton-Raphson com o uso da matriz observada de derivadas de segunda ordem é que, normalmente, não converge para determinados valores iniciais. Vários software estat´ısticos utilizam o algoritmo iterativo (3.5) para calcular as EMV ˆβ1, . . . , ˆβp dos parâmetros lineares do MLG, entre os quais, R, S-PLUS, SAS,

GENSTAT e MATLAB.

No documento Modelos Lineares Generalizados e (páginas 77-83)