A decis˜ao importante na aplica¸c˜ao do MLG ´e a escolha do trinˆomio: distri- bui¸c˜ao da vari´avel resposta × matriz modelo × fun¸c˜ao de liga¸c˜ao. A sele¸c˜ao pode resultar de simples exame dos dados ou de alguma experiˆencia anterior. Inicialmente, considera-se esse trinˆomio fixo para se obter uma descri¸c˜ao adequada dos dados por meio das estimativas dos parˆametros do modelo. Muitos m´etodos podem ser usados para estimar os parˆametros β′s, inclusive o qui-quadrado m´ınimo, o Bayesiano e a estima¸c˜ao-M. O ´ultimo inclui o m´etodo de m´axima verossimilhan¸ca (MV) que tem muitas propriedades ´otimas, tais como, consistˆencia e eficiˆencia assint´otica.
Neste livro, considera-se apenas o m´etodo de MV para estimar os parˆametros lineares β1, . . . , βp do modelo. O vetor escore ´e formado pelas derivadas parciais de
primeira ordem do logaritmo da fun¸c˜ao de verossimilhan¸ca. Da express˜ao (3.1) pode- se calcular, pela regra da cadeia, o vetor escore U(β) = ∂ℓ(β)/∂β de dimens˜ao p, com elemento t´ıpico Ur=
∂ℓ(β) ∂βr = n ∑ i=1 dℓi dθi dθi dµi dµi dηi ∂ηi ∂βr , pois ℓ(β) = f (θ1, . . . , θi , . . . , θn) ↓ θi = ∫ Vi−1dµi = q(µi) ↓ µi = g−1(ηi) = h(ηi) ↓ ηi = ∑p r=1xirβr
e, sabendo-se que µi = b′(θi) e dµi/dθi = Vi, tem-se Ur = ϕ−1 n ∑ i=1 (yi− µi) 1 Vi dµi dηi xir (3.2) para r = 1, . . . , p.
A estimativa de m´axima verossimilhan¸ca (EMV) ˆβ do vetor de parˆametros
β ´e calculada igualando-se Ur a zero para r = 1, . . . , p. Em geral, as equa¸c˜oes Ur = 0,
r = 1, . . . , p, n˜ao s˜ao lineares e tˆem que ser resolvidas numericamente por processos iterativos do tipo Newton-Raphson.
O m´etodo iterativo de Newton-Raphson para a solu¸c˜ao de uma equa¸c˜ao f (x) = 0 ´e baseado na aproxima¸c˜ao de Taylor para a fun¸c˜ao f (x) na vizinhan¸ca do ponto x0, ou seja, f (x) = f (x0) + (x− x0)f′(x0) = 0, obtendo-se x = x0− f (x0) f′(x0)
ou, de uma forma mais geral,
x(m+1) = x(m)− f (x
(m))
f′(x(m)),
sendo x(m+1) o valor de x no passo (m + 1), x(m) o valor de x no passo m, f (x(m)) a fun¸c˜ao f (x) avaliada em x(m) e f′(x(m)) a derivada da fun¸c˜ao f (x) avaliada em x(m).
Considerando-se que se deseja obter a solu¸c˜ao do sistema de equa¸c˜oes U =
U(β) = ∂ℓ(β)/∂β = 0 e, usando-se a vers˜ao multivariada do m´etodo de Newton- Raphson, tem-se
β(m+1) = β(m)+ (J(m))−1U(m),
sendo β(m) e β(m+1) os vetores de parˆametros estimados nos passos m e (m + 1), respectivamente, U(m) o vetor escore avaliado no passo m, e (J(m))−1 a inversa da negativa da matriz de derivadas parciais de segunda ordem de ℓ(β), com elementos −∂2ℓ(β)/∂β
Quando as derivadas parciais de segunda ordem s˜ao avaliadas facilmente, o m´etodo de Newton-Raphson ´e bastante ´util. Entretanto, isso nem sempre ocorre e no caso dos MLG usa-se o m´etodo escore de Fisher que, em geral, ´e mais simples (coinci- dindo com o m´etodo de Newton-Raphson no caso das fun¸c˜oes de liga¸c˜ao canˆonicas). Esse m´etodo envolve a substitui¸c˜ao da matriz de derivadas parciais de segunda or- dem pela matriz de valores esperados das derivadas parciais, isto ´e, a substitui¸c˜ao da matriz de informa¸c˜ao observada, J, pela matriz de informa¸c˜ao esperada de Fisher,
K. Logo,
β(m+1) = β(m)+ (K(m))−1U(m), (3.3) sendo que K tem elementos t´ıpicos expressos por
κr,s =−E [ ∂2ℓ(β) ∂βr∂βs ] = E [ ∂ℓ(β) ∂βr ∂ℓ(β) ∂βs ] , que ´e a matriz de covariˆancias dos Ur′s.
Multiplicando-se ambos os membros de (3.3) por K(m), tem-se
K(m)β(m+1) = K(m)β(m)+ U(m). (3.4) O elemento t´ıpico κr,s de K ´e determinado de (3.2), sendo expresso por
κr,s= E(UrUs) = ϕ−2 n ∑ i=1 E(Yi− µi)2 1 V2 i ( dµi dηi )2 xirxis
e como Var(Yi) = E(Yi− µi)2 = ϕVi, obt´em-se
κr,s= ϕ−1 n ∑ i=1 wixirxis, sendo wi = Vi−1(dµi/dηi) 2
denominada fun¸c˜ao peso. Logo, a matriz de informa¸c˜ao de Fisher para β tem a forma
K = ϕ−1XTWX,
sendo W = diag{w1, . . . , wn} uma matriz diagonal de pesos que capta a informa¸c˜ao
matriz de pesos a priori. No caso das fun¸c˜oes de liga¸c˜ao canˆonicas tem-se wi = Vi,
pois Vi = V (µi) = dµi/dηi. Note-se que a informa¸c˜ao ´e inversamente proporcional ao
parˆametro de dispers˜ao.
O vetor escore U = U(β) com componentes em (3.2) pode, ent˜ao, ser ex- presso na forma
U = ϕ−1XTWG(y− µ),
em que G = diag{dη1/dµ1, . . . , dηn/dµn} = diag{g′(µ1), . . . , g′(µn)}. Assim, a ma-
triz diagonal G ´e formada pelas derivadas de primeira ordem da fun¸c˜ao de liga¸c˜ao. Substituindo K e U em (3.4) e eliminando ϕ, tem-se
XTW(m)Xβ(m+1) = XTW(m)Xβ(m)+ XTW(m)G(m)(y− µ(m)), ou, ainda,
XTW(m)Xβ(m+1) = XTW(m)[η(m)+ G(m)(y− µ(m))].
Define-se a vari´avel dependente ajustada z = η + G(y− µ). Logo,
XTW(m)Xβ(m+1) = XTW(m)z(m)
ou
β(m+1) = (XTW(m)X)−1XTW(m)z(m). (3.5) A equa¸c˜ao matricial (3.5) ´e v´alida para qualquer MLG e mostra que a solu¸c˜ao das equa¸c˜oes de MV equivale a calcular repetidamente uma regress˜ao linear ponde- rada de uma vari´avel dependente ajustada z sobre a matriz X usando uma matriz de pesos W que se modifica no processo iterativo. As fun¸c˜oes de variˆancia e de liga¸c˜ao entram no processo iterativo por meio de W e z. Note-se que Cov(z) =
GCov(Y)G = ϕW−1, isto ´e, os zi n˜ao s˜ao correlacionados. ´E importante enfatizar
que a equa¸c˜ao iterativa (3.5) n˜ao depende do parˆametro de dispers˜ao ϕ.
A demonstra¸c˜ao da equa¸c˜ao (3.5), em generalidade, foi desenvolvida por Nelder e Wedderburn (1972). Eles generalizaram procedimentos iterativos obtidos
para casos especiais dos MLG: probito (Fisher, 1935), log-lineares (Haberman, 1970) e log´ıstico-lineares (Cox, 1972).
A vari´avel dependente ajustada depende da derivada de primeira ordem da fun¸c˜ao de liga¸c˜ao. Quando a fun¸c˜ao de liga¸c˜ao ´e linear (η = µ), isto ´e, a identidade, tem-se W = V−1 sendo V = diag{V1, . . . , Vn}, G = I e z = y, ou seja, a vari´avel
dependente ajustada reduz-se ao vetor de observa¸c˜oes. Para o modelo normal linear (V = I, µ = η), W ´e igual `a matriz identidade de dimens˜ao n, z = y e verifica-se da equa¸c˜ao (3.5) que a estimativa ˆβ reduz-se `a f´ormula esperada ˆβ = (XTX)−1XTy.
Esse ´e o ´unico modelo em que ˆβ ´e calculado de forma exata sem ser necess´ario um procedimento iterativo.
O m´etodo usual para iniciar o processo iterativo ´e especificar uma estimativa inicial e, sucessivamente, alter´a-la at´e que a convergˆencia seja alcan¸cada e, portanto,
β(m+1)aproxime-se de ˆβ quando m cresce. Note, contudo, que cada observa¸c˜ao pode ser considerada como uma estimativa do seu valor m´edio, isto ´e, µ(1)i = yi e, assim,
calcula-se η(1)i = g(µ(1)i ) = g(yi) e w (1) i = 1 V (yi)[g′(yi)]2 .
Usando-se η(1) como vari´avel resposta, X, a matriz do modelo, e W(1), a
matriz diagonal de pesos com elementos wi(1), obt´em-se o vetor
β(2) = (XTW(1)X)−1XTW(1)η(1).
O algoritmo de estima¸c˜ao, para m = 2, . . . , k, sendo k−1 o n´umero necess´ario de itera¸c˜oes para atingir a convergˆencia, pode ser resumido nos seguintes passos:
(1) calcular as estimativas ηi(m) = p ∑ r=1 xirβr(m) e µ (m) i = g−1(η (m) i );
(2) calcular a vari´avel dependente ajustada zi(m) = ηi(m)+ (yi− µ(m)i )g′(µ
(m) i )
e os pesos
w(m)i = 1
V (µ(m)i )[g′(µ(m)i )]2;
(3) calcular
β(m+1) = (XTW(m)X)−1XTW(m)z(m),
voltar ao passo (1) com β(m) = β(m+1)e repetir o processo at´e atingir a convergˆencia, definindo-se, ent˜ao, ˆβ = β(m+1).
Dentre os muitos existentes, um crit´erio para verificar a convergˆencia do algoritmo iterativo poderia ser
p ∑ r=1 ( βr(m+1)− βr(m) βr(m) )2 < ξ,
considerando-se que ξ ´e um n´umero positivo suficientemente pequeno. Em geral, esse algoritmo ´e robusto e converge rapidamente (menos de 10 itera¸c˜oes s˜ao suficientes). Entretanto, o crit´erio do desvio ´e o mais usado e consiste em verificar se|desvio(m+1)− desvio(m)| < ξ, sendo desvio definido na Se¸c˜ao 4.2.
Deve-se ser cauteloso se a fun¸c˜ao g(.) n˜ao ´e definida para alguns valores yi.
Por exemplo, se a fun¸c˜ao de liga¸c˜ao for especificada por η = g(µ) = log(µ)
e forem observados valores yi = 0, o processo n˜ao pode ser iniciado. Um m´etodo
geral para contornar esse problema ´e substituir y por y + c tal que E[g(y + c)] seja o mais pr´oxima poss´ıvel de g(µ). Para o modelo de Poisson com fun¸c˜ao de liga¸c˜ao logar´ıtmica, usa-se c = 1/2. Para o modelo log´ıstico, usa-se c = (1− 2π)/2 e π = µ/m, sendo m o ´ındice da distribui¸c˜ao binomial. De uma forma geral, da expans˜ao de Taylor at´e segunda ordem para g(y + c) em rela¸c˜ao a g(µ), tem-se
g(y + c)≈ g(µ) + (y + c − µ)g′(µ) + (y + c− µ)2g
′′(µ)
2 ,
cujo valor esperado ´e igual a
E[g(Y + c)]≈ g(µ) + cg′(µ) + Var(Y )g
′′(µ)
que implica em
c≈ −1
2Var(Y ) g′′(µ) g′(µ).
Para pequenas amostras, a equa¸c˜ao (3.5) pode divergir. O n´umero de ite- ra¸c˜oes at´e a convergˆencia depende inteiramente do valor inicial arbitrado para ˆβ,
embora, geralmente, o algoritmo convirja rapidamente. A desvantagem do m´etodo tradicional de Newton-Raphson com o uso da matriz observada de derivadas de segunda ordem ´e que, normalmente, n˜ao converge para determinados valores iniciais. V´arios software estat´ısticos utilizam o algoritmo iterativo (3.5) para calcular as EMV ˆβ1, . . . , ˆβp dos parˆametros lineares do MLG, entre os quais, R, S-PLUS, SAS,
GENSTAT e MATLAB.