• Nenhum resultado encontrado

O algoritmo de estima¸c˜ ao

No documento Modelos Lineares Generalizados e (páginas 77-83)

A decis˜ao importante na aplica¸c˜ao do MLG ´e a escolha do trinˆomio: distri- bui¸c˜ao da vari´avel resposta × matriz modelo × fun¸c˜ao de liga¸c˜ao. A sele¸c˜ao pode resultar de simples exame dos dados ou de alguma experiˆencia anterior. Inicialmente, considera-se esse trinˆomio fixo para se obter uma descri¸c˜ao adequada dos dados por meio das estimativas dos parˆametros do modelo. Muitos m´etodos podem ser usados para estimar os parˆametros β′s, inclusive o qui-quadrado m´ınimo, o Bayesiano e a estima¸c˜ao-M. O ´ultimo inclui o m´etodo de m´axima verossimilhan¸ca (MV) que tem muitas propriedades ´otimas, tais como, consistˆencia e eficiˆencia assint´otica.

Neste livro, considera-se apenas o m´etodo de MV para estimar os parˆametros lineares β1, . . . , βp do modelo. O vetor escore ´e formado pelas derivadas parciais de

primeira ordem do logaritmo da fun¸c˜ao de verossimilhan¸ca. Da express˜ao (3.1) pode- se calcular, pela regra da cadeia, o vetor escore U(β) = ∂ℓ(β)/∂β de dimens˜ao p, com elemento t´ıpico Ur=

∂ℓ(β) ∂βr = ni=1 dℓi dθi dθi dµi dµi dηi ∂ηi ∂βr , pois ℓ(β) = f (θ1, . . . , θi , . . . , θn) θi = ∫ Vi−1dµi = q(µi) µi = g−1(ηi) = h(ηi) ηi = ∑p r=1xirβr

e, sabendo-se que µi = b′(θi) e dµi/dθi = Vi, tem-se Ur = ϕ−1 ni=1 (yi− µi) 1 Vi dµi dηi xir (3.2) para r = 1, . . . , p.

A estimativa de m´axima verossimilhan¸ca (EMV) ˆβ do vetor de parˆametros

β ´e calculada igualando-se Ur a zero para r = 1, . . . , p. Em geral, as equa¸c˜oes Ur = 0,

r = 1, . . . , p, n˜ao s˜ao lineares e tˆem que ser resolvidas numericamente por processos iterativos do tipo Newton-Raphson.

O m´etodo iterativo de Newton-Raphson para a solu¸c˜ao de uma equa¸c˜ao f (x) = 0 ´e baseado na aproxima¸c˜ao de Taylor para a fun¸c˜ao f (x) na vizinhan¸ca do ponto x0, ou seja, f (x) = f (x0) + (x− x0)f′(x0) = 0, obtendo-se x = x0 f (x0) f′(x0)

ou, de uma forma mais geral,

x(m+1) = x(m)− f (x

(m))

f′(x(m)),

sendo x(m+1) o valor de x no passo (m + 1), x(m) o valor de x no passo m, f (x(m)) a fun¸c˜ao f (x) avaliada em x(m) e f(x(m)) a derivada da fun¸c˜ao f (x) avaliada em x(m).

Considerando-se que se deseja obter a solu¸c˜ao do sistema de equa¸c˜oes U =

U(β) = ∂ℓ(β)/∂β = 0 e, usando-se a vers˜ao multivariada do m´etodo de Newton- Raphson, tem-se

β(m+1) = β(m)+ (J(m))−1U(m),

sendo β(m) e β(m+1) os vetores de parˆametros estimados nos passos m e (m + 1), respectivamente, U(m) o vetor escore avaliado no passo m, e (J(m))−1 a inversa da negativa da matriz de derivadas parciais de segunda ordem de ℓ(β), com elementos −∂2ℓ(β)/∂β

Quando as derivadas parciais de segunda ordem s˜ao avaliadas facilmente, o m´etodo de Newton-Raphson ´e bastante ´util. Entretanto, isso nem sempre ocorre e no caso dos MLG usa-se o m´etodo escore de Fisher que, em geral, ´e mais simples (coinci- dindo com o m´etodo de Newton-Raphson no caso das fun¸c˜oes de liga¸c˜ao canˆonicas). Esse m´etodo envolve a substitui¸c˜ao da matriz de derivadas parciais de segunda or- dem pela matriz de valores esperados das derivadas parciais, isto ´e, a substitui¸c˜ao da matriz de informa¸c˜ao observada, J, pela matriz de informa¸c˜ao esperada de Fisher,

K. Logo,

β(m+1) = β(m)+ (K(m))−1U(m), (3.3) sendo que K tem elementos t´ıpicos expressos por

κr,s =−E [ 2ℓ(β) ∂βr∂βs ] = E [ ∂ℓ(β) ∂βr ∂ℓ(β) ∂βs ] , que ´e a matriz de covariˆancias dos Ur′s.

Multiplicando-se ambos os membros de (3.3) por K(m), tem-se

K(m)β(m+1) = K(m)β(m)+ U(m). (3.4) O elemento t´ıpico κr,s de K ´e determinado de (3.2), sendo expresso por

κr,s= E(UrUs) = ϕ−2 ni=1 E(Yi− µi)2 1 V2 i ( dµi dηi )2 xirxis

e como Var(Yi) = E(Yi− µi)2 = ϕVi, obt´em-se

κr,s= ϕ−1 ni=1 wixirxis, sendo wi = Vi−1(dµi/dηi) 2

denominada fun¸c˜ao peso. Logo, a matriz de informa¸c˜ao de Fisher para β tem a forma

K = ϕ−1XTWX,

sendo W = diag{w1, . . . , wn} uma matriz diagonal de pesos que capta a informa¸c˜ao

matriz de pesos a priori. No caso das fun¸c˜oes de liga¸c˜ao canˆonicas tem-se wi = Vi,

pois Vi = V (µi) = dµi/dηi. Note-se que a informa¸c˜ao ´e inversamente proporcional ao

parˆametro de dispers˜ao.

O vetor escore U = U(β) com componentes em (3.2) pode, ent˜ao, ser ex- presso na forma

U = ϕ−1XTWG(y− µ),

em que G = diag{dη1/dµ1, . . . , dηn/dµn} = diag{g′(µ1), . . . , g′(µn)}. Assim, a ma-

triz diagonal G ´e formada pelas derivadas de primeira ordem da fun¸c˜ao de liga¸c˜ao. Substituindo K e U em (3.4) e eliminando ϕ, tem-se

XTW(m)(m+1) = XTW(m)(m)+ XTW(m)G(m)(y− µ(m)), ou, ainda,

XTW(m)(m+1) = XTW(m)(m)+ G(m)(y− µ(m))].

Define-se a vari´avel dependente ajustada z = η + G(y− µ). Logo,

XTW(m)(m+1) = XTW(m)z(m)

ou

β(m+1) = (XTW(m)X)−1XTW(m)z(m). (3.5) A equa¸c˜ao matricial (3.5) ´e v´alida para qualquer MLG e mostra que a solu¸c˜ao das equa¸c˜oes de MV equivale a calcular repetidamente uma regress˜ao linear ponde- rada de uma vari´avel dependente ajustada z sobre a matriz X usando uma matriz de pesos W que se modifica no processo iterativo. As fun¸c˜oes de variˆancia e de liga¸c˜ao entram no processo iterativo por meio de W e z. Note-se que Cov(z) =

GCov(Y)G = ϕW−1, isto ´e, os zi n˜ao s˜ao correlacionados. ´E importante enfatizar

que a equa¸c˜ao iterativa (3.5) n˜ao depende do parˆametro de dispers˜ao ϕ.

A demonstra¸c˜ao da equa¸c˜ao (3.5), em generalidade, foi desenvolvida por Nelder e Wedderburn (1972). Eles generalizaram procedimentos iterativos obtidos

para casos especiais dos MLG: probito (Fisher, 1935), log-lineares (Haberman, 1970) e log´ıstico-lineares (Cox, 1972).

A vari´avel dependente ajustada depende da derivada de primeira ordem da fun¸c˜ao de liga¸c˜ao. Quando a fun¸c˜ao de liga¸c˜ao ´e linear (η = µ), isto ´e, a identidade, tem-se W = V−1 sendo V = diag{V1, . . . , Vn}, G = I e z = y, ou seja, a vari´avel

dependente ajustada reduz-se ao vetor de observa¸c˜oes. Para o modelo normal linear (V = I, µ = η), W ´e igual `a matriz identidade de dimens˜ao n, z = y e verifica-se da equa¸c˜ao (3.5) que a estimativa ˆβ reduz-se `a f´ormula esperada ˆβ = (XTX)−1XTy.

Esse ´e o ´unico modelo em que ˆβ ´e calculado de forma exata sem ser necess´ario um procedimento iterativo.

O m´etodo usual para iniciar o processo iterativo ´e especificar uma estimativa inicial e, sucessivamente, alter´a-la at´e que a convergˆencia seja alcan¸cada e, portanto,

β(m+1)aproxime-se de ˆβ quando m cresce. Note, contudo, que cada observa¸c˜ao pode ser considerada como uma estimativa do seu valor m´edio, isto ´e, µ(1)i = yi e, assim,

calcula-se η(1)i = g(µ(1)i ) = g(yi) e w (1) i = 1 V (yi)[g′(yi)]2 .

Usando-se η(1) como vari´avel resposta, X, a matriz do modelo, e W(1), a

matriz diagonal de pesos com elementos wi(1), obt´em-se o vetor

β(2) = (XTW(1)X)−1XTW(1)η(1).

O algoritmo de estima¸c˜ao, para m = 2, . . . , k, sendo k−1 o n´umero necess´ario de itera¸c˜oes para atingir a convergˆencia, pode ser resumido nos seguintes passos:

(1) calcular as estimativas ηi(m) = pr=1 xirβr(m) e µ (m) i = g−1(η (m) i );

(2) calcular a vari´avel dependente ajustada zi(m) = ηi(m)+ (yi− µ(m)i )g′(µ

(m) i )

e os pesos

w(m)i = 1

V (µ(m)i )[g′(µ(m)i )]2;

(3) calcular

β(m+1) = (XTW(m)X)−1XTW(m)z(m),

voltar ao passo (1) com β(m) = β(m+1)e repetir o processo at´e atingir a convergˆencia, definindo-se, ent˜ao, ˆβ = β(m+1).

Dentre os muitos existentes, um crit´erio para verificar a convergˆencia do algoritmo iterativo poderia ser

pr=1 ( βr(m+1)− βr(m) βr(m) )2 < ξ,

considerando-se que ξ ´e um n´umero positivo suficientemente pequeno. Em geral, esse algoritmo ´e robusto e converge rapidamente (menos de 10 itera¸c˜oes s˜ao suficientes). Entretanto, o crit´erio do desvio ´e o mais usado e consiste em verificar se|desvio(m+1)− desvio(m)| < ξ, sendo desvio definido na Se¸c˜ao 4.2.

Deve-se ser cauteloso se a fun¸c˜ao g(.) n˜ao ´e definida para alguns valores yi.

Por exemplo, se a fun¸c˜ao de liga¸c˜ao for especificada por η = g(µ) = log(µ)

e forem observados valores yi = 0, o processo n˜ao pode ser iniciado. Um m´etodo

geral para contornar esse problema ´e substituir y por y + c tal que E[g(y + c)] seja o mais pr´oxima poss´ıvel de g(µ). Para o modelo de Poisson com fun¸c˜ao de liga¸c˜ao logar´ıtmica, usa-se c = 1/2. Para o modelo log´ıstico, usa-se c = (1− 2π)/2 e π = µ/m, sendo m o ´ındice da distribui¸c˜ao binomial. De uma forma geral, da expans˜ao de Taylor at´e segunda ordem para g(y + c) em rela¸c˜ao a g(µ), tem-se

g(y + c)≈ g(µ) + (y + c − µ)g′(µ) + (y + c− µ)2g

′′(µ)

2 ,

cujo valor esperado ´e igual a

E[g(Y + c)]≈ g(µ) + cg′(µ) + Var(Y )g

′′(µ)

que implica em

c≈ −1

2Var(Y ) g′′(µ) g′(µ).

Para pequenas amostras, a equa¸c˜ao (3.5) pode divergir. O n´umero de ite- ra¸c˜oes at´e a convergˆencia depende inteiramente do valor inicial arbitrado para ˆβ,

embora, geralmente, o algoritmo convirja rapidamente. A desvantagem do m´etodo tradicional de Newton-Raphson com o uso da matriz observada de derivadas de segunda ordem ´e que, normalmente, n˜ao converge para determinados valores iniciais. V´arios software estat´ısticos utilizam o algoritmo iterativo (3.5) para calcular as EMV ˆβ1, . . . , ˆβp dos parˆametros lineares do MLG, entre os quais, R, S-PLUS, SAS,

GENSTAT e MATLAB.

No documento Modelos Lineares Generalizados e (páginas 77-83)

Documentos relacionados