Regress˜
ao
Rinaldo Artes
Insper Instituto de Ensino e Pesquisa
Denise Aparecida Botter
Apresenta¸
c˜
ao
Este texto foi desenvolvido a partir do programa da disciplina Fun¸c˜oes de Estima¸c˜ao Aplicadas a Modelos de Regress˜ao, ministrada, pelos autores, em cursos de p´os-gradua¸c˜ao do Departamento de Estat´ıstica da USP. Trˆes turmas de alunos tomaram contato com parte deste texto; a elas deixamos nossos agradecimentos. Agradecemos tamb´em `a professora Cl´elia Maria de Castro Toloi, pela leitura de parte do manuscrito e pelas oportunas sugest˜oes e corre¸c˜oes. Os erros remanescentes s˜ao de responsabilidade dos autores.
Encaramos a presente monografia como um texto em constru¸c˜ao. Pre-tendemos, nos pr´oximos anos, adicionar cap´ıtulos e exemplos que, por uma limita¸c˜ao de tempo, n˜ao puderam ser inclu´ıdos nesta vers˜ao. Manteremos no site www.rinaldoa.ibmec.br as atualiza¸c˜oes do texto e as inevit´aveis erratas. Agradecemos `a Comiss˜ao Organizadora da 9a Escola de Modelos de
Re-gress˜ao pela oportunidade de ministrar esse minicurso.
Denise Aparecida Botter (botter@ime.usp.br) Rinaldo Artes (rinaldoa@insper.edu.br)
1 Fun¸c˜oes de estima¸c˜ao 11
1.1 Fun¸c˜oes de estima¸c˜ao . . . 11
1.2 Fun¸c˜ao Escore . . . 19
1.3 Fun¸c˜ao de estima¸c˜ao ´otima . . . 21
1.4 Fun¸c˜ao de estima¸c˜ao linear . . . 23
1.5 Equa¸c˜oes normais . . . 25
1.5.1 M´ınimos Quadrados Generalizados . . . 26
2 Quase-verossimilhan¸ca 29 2.1 Modelos lineares generalizados . . . 29
2.1.1 Fam´ılia exponencial de distribui¸c˜oes . . . 29
2.1.2 Modelos lineares generalizados . . . 31
2.2 Quase-verossimilhan¸ca - Caso univariado . . . 38
2.2.1 Modelo de regress˜ao . . . 40
2.2.2 Fun¸c˜ao quase-desvio . . . 41
2.2.3 Sobre-dispers˜ao . . . 42
2.3 Quase-verossimilhan¸ca estendida . . . 44
2.3.1 Parˆametro de dispers˜ao vari´avel . . . 46
2.4 Caso multivariado . . . 46
3 Equa¸c˜oes de Estima¸c˜ao Generalizadas 49 3.1 Modelagem da m´edia . . . 50
3.1.1 Equa¸c˜oes de estima¸c˜ao de independˆencia . . . 50
3.1.2 Γ(ui) = Corr(ui) conhecida . . . 52
3.1.3 Γ(ui) desconhecida . . . 53
3.1.4 Estima¸c˜ao de ϕ−1 . . . 54
3.1.5 Estima¸c˜ao de α . . . . 56
3.1.6 Teste de hip´oteses . . . 57 5
3.1.7 Algoritmos de estima¸c˜ao . . . 57
3.2 EEG-2 . . . 58
3.3 Estudos de simula¸c˜ao . . . 59
3.4 Aplica¸c˜ao . . . 61
3.5 T´ecnicas de diagn´ostico . . . 62
3.5.1 Pontos alavanca, influentes e aberrantes . . . 62
3.5.2 Envelope simulado . . . 65
4 Equa¸c˜oes de Estima¸c˜ao para S´eries Temporais 67 4.1 Nota¸c˜ao . . . 67
4.2 Antecedentes . . . 68
4.2.1 Modelos ARMA . . . 68
4.2.2 Modelos ARCH . . . 69
4.3 Modelos tipo ARMA . . . . 70
4.3.1 Dados de contagem . . . 72
4.3.2 Estima¸c˜ao . . . 72
4.4 Modelo de Zeger . . . 74
4.5 Equa¸c˜oes de estima¸c˜ao para modelos ARCH . . . 79
5 Equa¸c˜oes de estima¸c˜ao para dados circulares longitudinais 81 5.1 Representa¸c˜ao gr´afica e conceitos b´asicos . . . 82
5.2 Modelos probabil´ısticos . . . 84
5.2.1 Distribui¸c˜ao uniforme circular . . . 85
5.2.2 Distribui¸c˜ao von Mises . . . 85
5.2.3 Distribui¸c˜ao normal arqueada . . . 88
5.2.4 Rela¸c˜oes entre as distribui¸c˜oes uniforme circular, von Mises e normal arqueada . . . 88
5.2.5 Aplica¸c˜ao . . . 89
5.3 Modelos de regress˜ao . . . 91
5.4 Equa¸c˜oes de estima¸c˜ao para dados circulares . . . 93
5.4.1 Modelagem da m´edia circular . . . 94
5.4.2 Modelo para a m´edia circular e para o parˆametro de concentra¸c˜ao . . . 97
5.5 Aplica¸c˜ao . . . 98
5.5.1 Constru¸c˜ao do modelo . . . 99
A Alguns resultados assint´oticos 107
A.1 Complemento . . . 110
A.2 Aplica¸c˜ao . . . 112
A.3 Demonstra¸c˜oes . . . 115
A.3.1 Prova do Teorema 13 . . . 115
B Demonstra¸c˜oes - EEG 121 C Fun¸c˜oes de Bessel 125 C.1 Derivadas de I0, I1 e A1 . . . 125
C.2 C´alculo das fun¸c˜oes . . . 126
C.2.1 F´ormulas de recorrˆencia . . . 126
C.2.2 Avalia¸c˜ao de I0 e I1 . . . 126
C.2.3 Avalia¸c˜ao da fun¸c˜ao inversa de A1 . . . 127
D Resultados adicionais relativos a dados circulares 129 D.1 Intervalos de confian¸ca . . . 129
D.2 Outros resultados . . . 130
D.3 Dependˆencia entre vari´aveis circulares . . . 130
Pref´
acio
H´a na literatura Estat´ıstica uma grande variedade de t´ecnicas para o tra-tamento de dados longitudinais com vari´avel resposta gaussiana. A existˆencia de uma vers˜ao multivariada da distribui¸c˜ao normal com boas propriedades inferenciais, facilita o estudo desse caso. Abandonando-se a suposi¸c˜ao de nor-malidade da vari´avel resposta, uma s´erie de dificuldades pode surgir devido `
a escassez de distribui¸c˜oes multivariadas alternativas com tais propriedades1. Dentre as v´arias alternativas de tratamentos para dados longitudinais, duas assumem um papel de destaque. A primeira prevˆe a modelagem pro-babil´ıstica, estipulando, a priori, uma distribui¸c˜ao multivariada de probabi-lidade, adequada `a modelagem dos dados; baseado nessa distribui¸c˜ao, faz-se a inferˆencia sobre os parˆametros do modelo (por exemplo, atrav´es do m´etodo de m´axima verossimilhan¸ca). As dificuldades dessa abordagem est˜ao ligadas `
a defini¸c˜ao do modelo probabil´ıstico, ou seja, na gera¸c˜ao de um modelo mul-tivariado que se ajusta aos dados e com parˆametros facilmente estim´aveis e interpret´aveis. A segunda possibilidade baseia-se no uso de fun¸c˜oes de es-tima¸c˜ao2para a obten¸c˜ao das estimativas dos parˆametros de interesse de um
modelo multivariado que n˜ao ´e, necessariamente, completamente conhecido. Uma fun¸c˜ao de estima¸c˜ao ´e uma fun¸c˜ao mensur´avel dos dados e dos parˆametros de interesse. Neste texto estamos interessados nas fun¸c˜oes de estima¸c˜ao que, quando vistas como fun¸c˜oes dos parˆametros, tˆem ra´ızes que s˜ao estimadores dos parˆametros de interesse do modelo. Um ponto impor-tante no estudo dessas fun¸c˜oes ´e estabelecer condi¸c˜oes que garantam que os estimadores obtidos possuam boas propriedades. Em geral, deseja-se a cons-tru¸c˜ao de estimadores consistentes e com distribui¸c˜ao assint´otica conhecida. O foco deste texto ´e a constru¸c˜ao de fun¸c˜oes de estima¸c˜ao para a an´alise
1Em Joe (1997) encontra-se uma s´erie de t´ecnicas para gera¸c˜ao de distribui¸c˜oes
multi-variadas
de diferentes problemas. O Cap´ıtulo 1 apresenta a teoria geral de fun¸c˜oes de estima¸c˜ao e discute aspectos ligados `a otimalidade e constru¸c˜ao de fun¸c˜oes de estima¸c˜ao. O Cap´ıtulo 2 desenvolve a teoria de quase-verossimilhan¸ca a partir do contexto de fun¸c˜oes de estima¸c˜ao. No Cap´ıtulo 3, s˜ao apresen-tadas as equa¸c˜oes de estima¸c˜ao generalizadas e, no 4, t´ecnicas baseadas na teoria das fun¸c˜oes de estima¸c˜ao para a estima¸c˜ao de parˆametros de modelos para s´eries temporais. Por fim, no Cap´ıtulo 5 s˜ao desenvolvidas fun¸c˜oes de estima¸c˜ao para a an´alise de dados circulares longitudinais.
Fun¸
c˜
oes de estima¸
c˜
ao
Neste cap´ıtulo, apresentamos uma defini¸c˜ao formal de fun¸c˜oes de estima¸c˜ao assim como v´arias defini¸c˜oes relacionadas a estas fun¸c˜oes. Ressaltamos as defini¸c˜oes de fun¸c˜ao de estima¸c˜ao regular (Defini¸c˜ao 3), informa¸c˜ao de Go-dambe (Defini¸c˜ao 4), fun¸c˜ao de estima¸c˜ao linear (Defini¸c˜ao 8) e fun¸c˜ao de estima¸c˜ao linear ´otima (1.6). Com base em fun¸c˜oes de estima¸c˜ao regulares, estabelecemos propriedades assint´oticas de estimadores obtidos a partir das respectivas equa¸c˜oes de estima¸c˜ao (Teoremas 1 e 2). Vale observar a im-portˆancia destas defini¸c˜oes uma vez que elas servem de alicerce para toda a teoria desenvolvida nos demais cap´ıtulos deste texto.
1.1
Fun¸
c˜
oes de estima¸
c˜
ao
Seja X ∈ Rt um espa¸co amostral sobre o qual define-se uma fam´ılia ℘ =
{
Pθ : θ ∈ Θ ⊆ Rp} de distribui¸c˜oes de probabilidade indexadas por um
pa-rˆametro θ desconhecido. Por defini¸c˜ao, uma fun¸c˜ao ψ :X × Θ → Rp, ´e uma
fun¸c˜ao de estima¸c˜ao se para cada θ∈ Θ, ψ(., θ) ´e uma vari´avel aleat´oria.1 Assumindo a existˆencia de uma amostra de n vetores aleat´orios inde-pendentes: yi = (yi1, yi2, . . . , yiti)
⊤, i = 1, 2, . . . , n, onde a cada unidade
amostral i associa-se uma fun¸c˜ao de estima¸c˜ao ψi, estende-se o conceito de
1Seja (X , A) um espa¸co mensur´avel, sobre o qual define-se um modelo estat´ıstico
(X , A, ℘), com X ∈ Rt e ℘ = {
Pθ : θ ∈ Θ ⊆ Rp} e seja ν uma medida σ-finita sobre
(X , A). Por defini¸c˜ao, uma fun¸c˜ao ψ : X × Θ → Rp, ´e uma fun¸c˜ao de estima¸c˜ao se para
cada θ∈ Θ, ψ(., θ) ´e uma fun¸c˜ao mensur´avel.
fun¸c˜ao de estima¸c˜ao para a amostra por meio de Ψn(y; θ) = n ∑ i=1 ψi(yi; θ) , onde y = (y1, y2, . . . , yn)⊤.
A defini¸c˜ao de fun¸c˜ao de estima¸c˜ao ´e bastante ampla, englobando os mais variados tipos de fun¸c˜oes. O estudo das fun¸c˜oes de estima¸c˜ao que apresentamos neste texto, restringe-se `aquelas cujas ra´ızes s˜ao estimadores dos parˆametros de interesse, ou seja:
Ψn
(
y; ˆθn
)
= 0. (1.1)
A express˜ao (1.1) ´e denominada equa¸c˜ao de estima¸c˜ao.
Exemplo 1 . Considere uma amostra y1, . . . , yn, de vari´aveis aleat´orias
in-dependentes, na qual p (yi; θ) ´e a fun¸c˜ao densidade de probabilidade regular
associada a yi; nessas condi¸c˜oes, a fun¸c˜ao escore
Ψn(y; θ) = n ∑ i=1 ∂ ∂θlog p (yi; θ)
´e uma fun¸c˜ao de estima¸c˜ao.
Exemplo 2 . Seja y1, . . . , yn, uma amostra de vari´aveis aleat´orias
indepen-dentes com E (yi) = µi(θ), µi duplamente diferenci´avel, e Var (yi) = σ2.
Defina Ψn(y; θ) = n ∑ i=1 ∂µi ∂θ (θ){yi− µi(θ)} , ent˜ao, Ψn ( y; ˆθn )
= 0 s˜ao equa¸c˜oes de estima¸c˜ao. Essas equa¸c˜oes s˜ao conhe-cidas como equa¸c˜oes normais e suas ra´ızes s˜ao os estimadores de m´ınimos quadrados de θ.
Por facilidade de nota¸c˜ao, denotaremos a fun¸c˜ao de estima¸c˜ao por Ψ (θ) sempre que isso n˜ao prejudicar a clareza do texto.
Defini¸c˜ao 1 . Ψ(θ) e Φ(θ) s˜ao fun¸c˜oes de estima¸c˜ao equivalentes se
Ψ(θ) = C(θ)Φ(θ),
Exemplo 3 . A fun¸c˜ao escore de uma distribui¸c˜ao exponencial de m´edia θ ( −n θ + n ∑ i=1 yi θ2 ) ´e equivalente a Ψ(θ) = n− n ∑ i=1 yi θ.
A partir da Defini¸c˜ao 1 ´e poss´ıvel concluir que h´a infinitas fun¸c˜oes de estima¸c˜ao equivalentes a uma particular fun¸c˜ao. Al´em disso, do fato de C(θ) ser de posto completo, pode-se afirmar que se ˆθn ´e uma raiz de uma fun¸c˜ao
de estima¸c˜ao, ele ser´a raiz de todas as fun¸c˜oes de estima¸c˜ao equivalentes. Outra defini¸c˜ao importante para o desenvolvimento da teoria de fun¸c˜oes de estima¸c˜ao ´e o de fun¸c˜ao de estima¸c˜ao n˜ao viciada.
Defini¸c˜ao 2 . Uma fun¸c˜ao de estima¸c˜ao Ψ ser´a denominada n˜ao viciada se
Eθ {Ψ(θ)} = 0 ∀ θ ∈ Θ.
Na defini¸c˜ao anterior entende-se que no caso de vari´aveis aleat´orias abso-lutamente cont´ınuas, teremos
Eθ {Ψ(θ)} =
∫
χ
Ψ(θ)p(y, θ)dy,
sendo p(y, θ) a fun¸c˜ao densidade de probabilidade de y. Se as vari´aveis aleat´orias forem discretas substituimos, na express˜ao acima, a integral por somat´orio sendo que p(y, θ) ser´a ent˜ao a fun¸c˜ao de probabilidade de y.
Note que as fun¸c˜oes de estima¸c˜ao definidas no Exemplo 3 s˜ao n˜ao viciadas. Na verdade as fun¸c˜oes escores oriundas de vari´aveis aleat´orias com fun¸c˜oes densidade de probabildade, ou fun¸c˜oes de probabilidade, regulares s˜ao n˜ao viciadas.
Como foi salientado, ´e necess´ario estebelecer condi¸c˜oes sob as quais as ra´ızes de uma fun¸c˜ao de estima¸c˜ao possuam boas propriedades assint´oticas. Nessa dire¸c˜ao, surgem os conceitos de fun¸c˜ao de estima¸c˜ao regular e de in-forma¸c˜ao de Godambe, que ser˜ao explicitados a seguir. O estudo das proprie-dades assint´oticas dos estimadores ser´a baseado em propriedades das fun¸c˜oes de estima¸c˜ao. Uma das propriedades mais comuns ´e que a fun¸c˜ao de es-tima¸c˜ao seja regular2.
Defini¸c˜ao 3 . Uma fun¸c˜ao Ψ (y; θ) = (Ψ1(y; θ) , Ψ2(y; θ) , . . . , Ψp(y; θ))⊤,
Ψ :X × Θ → Rp ´e dita regular se para todo θ = (θ
1, . . . , θp)⊤∈ Θ,
i. a fun¸c˜ao ´e n˜ao viciada;
ii. a derivada parcial ∂Ψ (y; θ) /∂θi existe quase certamente para y∈ X ;
iii. ´e poss´ıvel permutar o sinal de integra¸c˜ao e diferencia¸c˜ao da seguinte forma:
∂ ∂θi
∫
X Ψ(y; θ)p(y, θ)dy =
∫
X
∂
∂θi {Ψ(y; θ)p(y, θ)} dy;
iv. Eθ {Ψi(y; θ) Ψj(y; θ)} ∈ R, para i, j = 1, . . . , p e
VΨ(θ) = Eθ{Ψ (y; θ) Ψ⊤(y; θ)}
´e positiva definida e v. Eθ { ∂ψi ∂θr (y; θ) ∂ψj ∂θs (y; θ) } ∈ R e SΨ (θ) = Eθ{∇θΨ (y; θ)} ´e n˜ao singular, onde ∇θ representa o operador gradiente em rela¸c˜ao a θ, ou seja, ∇θΨ (y; θ) = ∂Ψ (y; θ) /∂θ⊤. Aqui,
∂Ψ ∂θ⊤(y; θ) = ∂ψ1 ∂θ1 (y; θ) . . . ∂ψ1 ∂θp (y; θ) .. . ... ... ∂ψp ∂θ1 (y; θ) . . . ∂ψp ∂θp (y; θ) = ( ∂Ψ ∂θ (y; θ) )⊤ .
Quando o parˆametro de interesse ´e unidimensional, temos que as propri-edade (iv) e (v) tornam-se, respectivamente:
0 < Eθ { Ψ2(θ)}<∞ e − ∞ < Eθ ( ∂Ψ ∂θ ) <∞.
Com rela¸c˜ao `a Defini¸c˜ao 3, note que nenhum resultado assint´otico ´e re-querido no estabelecimento das condi¸c˜oes i a v. Al´em disto, em geral, assu-mimos sem demonstra¸c˜ao que a condi¸c˜ao iii ´e verdadeira, uma vez que na pr´atica em poucas situa¸c˜oes conhecemos a distribui¸c˜ao de yi=(yi1, . . . , yiti)⊤, i = 1, . . . , n (ver discuss˜ao na Se¸c˜ao 1.2).
Exemplo 4 . Seja yi, i = 1,· · · , n, uma amostra de vari´aveis aleat´orias
independentes e identicamente distribu´ıdas de uma distribui¸c˜ao com m´edia zero, variˆancia θ e com quarto momento finito e n˜ao nulo. Considere a seguinte fun¸c˜ao de estima¸c˜ao para θ:
Ψ(θ) = n ∑ i=1 ( yi2− θ). A fun¸c˜ao acima ´e regular, uma vez que:
i. Eθ{Ψ(θ)} = 0, ou seja a fun¸c˜ao de estima¸c˜ao ´e n˜ao viciada.
ii. ∂Ψ
∂θ =−n: existe q.c.
iii. Assuma que a propriedade de permuta¸c˜ao entre a integra¸c˜ao e a diferen-cia¸c˜ao seja v´alida.
iv. 0 < V (θ) = Var{Ψ(θ)} = nVar (y21) < ∞: por hip´otese v. S(θ) = E { ∂Ψ ∂θ } =−n < 0.
O estimador obtido a partir dessa fun¸c˜ao de estima¸c˜ao ´e dado por
ˆ θn = n ∑ i=1 yi2 n .
Temos ainda que E (θˆn
) = θ e Var(θˆn ) = nVar (y 2 1) n2 = V (θˆn ) S2(θˆ n ). A raz˜ao JΨ(θ) = S2(θ)
V (θ) recebe o nome de Informa¸c˜ao de Godambe e tem
um papel de destaque na teoria das fun¸c˜oes de estima¸c˜ao. A seguir definimos formalmente a Informa¸c˜ao de Godambe.
Defini¸c˜ao 4 . Seja Ψ(y; θ) uma fun¸c˜ao de estima¸c˜ao regular. Define-se a matriz de informa¸c˜ao de Godambe de θ associada a Ψ por
JΨ(θ) = S⊤Ψ(θ)V−1Ψ(θ)SΨ(θ).
A informa¸c˜ao de Godambe (ver Jørgensen e Laboriau, 1994, por exemplo) desempenha o papel da informa¸c˜ao de Fisher para as fun¸c˜oes de estima¸c˜ao regulares.
O componente SΨ(θ) da matriz de informa¸c˜ao de Godambe est´a rela-cionada `a derivada parcial da fun¸c˜ao de estima¸c˜ao em rela¸c˜ao aos parˆ ame-tros. ´E desej´avel que uma pequena varia¸c˜ao no vetor param´etrico acarrete uma grande varia¸c˜ao no valor da fun¸c˜ao de estima¸c˜ao, pois quanto maior essa varia¸c˜ao, mais eficiente a fun¸c˜ao ser´a na estima¸c˜ao do parˆametro. No caso unidimensional espera-se que S(θ) assuma um valor (em m´odulo) alto. SΨ(θ) ´e denominada de matriz de sensibilidade da fun¸c˜ao de estima¸c˜ao.
A componente VΨ(θ) recebe o nome de matriz de variabilidade. Espera-se que a fun¸c˜ao de estima¸c˜ao apresente pequena variabilidade pois dessa forma garante-se que no verdadeiro valor do parˆametro o valor da fun¸c˜ao de estima¸c˜ao aproxima-se de seu valor m´edio que ´e nulo.
A fun¸c˜ao escore, obtida a partir de uma fun¸c˜ao densidade de probabi-lidade (ou fun¸c˜ao de probabilidade, no caso discreto) regular, satisfaz as propriedades da Defini¸c˜ao 3 e, al´em disso, SΨ(θ) = −VΨ(θ), o que faz com que sua matriz de informa¸c˜ao de Godambe coincida com a matriz de informa¸c˜ao de Fisher. Retomaremos essa discuss˜ao na Se¸c˜ao 1.2.
Denominamos ℜθ `a classe de todas as fun¸c˜oes de estima¸c˜ao regulares de
θ.
O pr´oximo teorema estabelece condi¸c˜oes para a normalidade assint´otica de estimadores obtidos a partir de fun¸c˜oes de estima¸c˜ao regulares.
Teorema 1 . (Jørgensen e Laboriau, 1994). Seja θ um parˆametro unidi-mensional e considere a amostra de vari´aveis aleat´orias independentes y1, . . . ,
yn com y = (y1, y2, . . . , yn)⊤. Uma sequˆencia de ra´ızes
{
ˆ
θn
}∞
n=1 associada a
uma fun¸c˜ao de estima¸c˜ao regular Ψn(y; θ) = n ∑ i=1 ψi(yi; θ) e tal que ˆ θn→ θP ´e assintoticamente normal √ n(ˆθn− θ)→ ND ( 0, J−1Ψ (θ)),
em que JΨ= S2(θ) /V (θ) e S (θ) = lim n→∞ n ∑ i=1 Sψi n (θ); Sψi(θ) = Eθ{∇θψi(yi; θ)} ; V (θ) = lim n→∞ n ∑ i=1 Vψi n (θ) e Vψi(θ) = Eθ { ψ2i (yi; θ) } .
Examinando-se o Teorema 1, nota-se que, no caso do parˆametro ser unidi-mensional, dada uma fun¸c˜ao de estima¸c˜ao regular, basta provar a consistˆencia de suas ra´ızes para que sua distribui¸c˜ao assint´otica seja conhecida. H´a na literatura estat´ıstica uma grande variedade de resultados nessa dire¸c˜ao.
No caso de θ ser multidimensional, sob condi¸c˜oes de regularidade, a ma-triz JΨ = S⊤(θ) V−1(θ) S (θ) , onde S (θ) = lim n→∞ Sn(θ) n = limn→∞ n ∑ i=1 Sψi(θ) n e V (θ) = lim n→∞ Vn(θ) n = limn→∞ n ∑ i=1 Vψi(θ) n , com Sψi(θ) = Eθ { ∇θψi(yi; θ) } e Vψi(θ) = Eθ { ψi(yi; θ) ψ⊤i (yi; θ) } ,
desempenha o papel de uma matriz de informa¸c˜ao de Godambe assint´otica associada a Ψn.
Teorema 2 .
Considerando-se
a. yi, i = 1, . . . , n, vetores aleat´orios t-dimensionais independentes;
b. ψi(θ) = (ψi1, . . . , ψip)⊤, i = 1, . . . , n, fun¸c˜oes de estima¸c˜ao regulares;
c. Ψn(θ) = n ∑ i=1 ψi(θ) ; d. para δ > 0, 1 n n ∑ i=1 sup h:∥h∥≤δ ∂ψi ∂θ⊤(θ + h)− ∂ψi ∂θ⊤(θ) → ϕP δ,
conforme n→ ∞, com ϕδ → ∞ quando δ → ∞; e. que quando n→ ∞ 1 n ∂Ψn ∂θ⊤(θ) P → S (θ) ;
f. n−1∑ni=1Cov(ψi)→ V(θ), positiva definida; g. que quando n→ ∞, Ψ√n(θ) n D → Np(0; V(θ)) ; h. ˆθn como a solu¸c˜ao de Ψn(w) = 0, w ∈ Θ
e sob condi¸c˜oes que garantam a existˆencia de uma seq¨uˆencia de ra´ızes de
Ψ(w) que seja limitada em probabilidade, ou restrita a um conjunto compacto
q.c. quando n tende para infinito, vem que
ˆ θn → θ eP √ n ( ˆ θn− θ ) D → N(0; J−1Ψ ) .
Prova da normalidade assint´otica3: Da demonstra¸c˜ao da consistˆencia de
ˆ θn vem que √ n(θˆn− θ ) =−S(ˆθn )−1{Ψn(θ) √ n } + op(1). (1.2)
Admitindo como v´alidas, por exemplo, as hip´oteses do Teorema Limite Central de Lyapunov (ver, por exemplo, Sen e Singer, 1993), temos:
Ψ√n(θ) n = n ∑ i=1 ψ (y√i, θ) n D → Np(0; V(θ)) .
Aplicando o teorema de Slutsky ao resultado 1.2 segue o resultado.• Como textos introdut´orios ao assunto, recomenda-se Godambe (1960), Godambe e Kale (1991), Godambe (1991), McLeish e Small (1988). Reco-menda-se tamb´em a leitura de Liang e Zeger (1995), Godambe (1997) e Li e Turtle (2000). Vale ressaltar que no artigo de Li e Turtle as fun¸c˜oes de es-tima¸c˜ao s˜ao utilizadas para estudar os modelos autorregressivos condicionais heterosced´aticos (ARCH) que abordamos no Cap´ıtulo 5. Nesse artigo os au-tores utilizam os resultados de Godambe (1985) e de Godambe e Thompson (1989) que estendem a teoria de equa¸c˜oes de estima¸c˜ao para o contexto de processos estoc´asticos.
3O Teorema 14 do Apˆendice A apresenta outras hip´oteses que levam a um resultado
1.2
Fun¸
c˜
ao Escore
Nesta se¸c˜ao destacamos o papel da fun¸c˜ao escore da teoria das fun¸c˜oes de estima¸c˜ao.
Defini¸c˜ao 5 . Seja yi, i = 1,· · · , n uma amostra de vetores aleat´orios
in-dependentes e y = (y⊤1,· · · , yn⊤)⊤ com fun¸c˜ao densidade ou fun¸c˜ao de pro-babiidade p(y; θ). A fun¸c˜ao de verossimilhan¸ca de θ ´e definida por L(θ) = p(y; θ).
Seja l(θ) = log L(θ), o logaritmo da fun¸c˜ao de verossimilhan¸ca de θ. Admita que ∂l(θ)/∂θ exista q.c.
Defini¸c˜ao 6 . Seja l(θ) = log L(θ), o logaritmo da fun¸c˜ao de verossimilhan-¸
ca de θ. Admita que un(θ) = ∂l(θ)/∂θ exista q.c. Ent˜ao un ´e denominada
fun¸c˜ao escore de θ.
Se a fun¸c˜ao escore satisfizer as condi¸c˜oes da Defini¸c˜ao 3, ela ´e denominada de fun¸c˜ao escore regular.
Teorema 3 . Se un(θ) ´e uma fun¸c˜ao escore regular, ent˜ao:
i. un(θ) ´e n˜ao viciada
ii. Eθ{un(θ)u⊤n(θ)
} = −Eθ { ∂un ∂θ (θ) }
, ou seja a matriz de variabilidade ´
e, a menos do sinal, igual `a matriz de sensibilidade.
Do resultado anterior temos que a matriz de informa¸c˜ao de Godambe de uma fun¸c˜ao escore ´e dada por
in(θ) = Eθ
{
un(θ)u⊤n(θ)
}
.
A matriz i ´e conhecida como matriz de informa¸c˜ao de Fisher de θ.
O Teorema 4 estabelece a rela¸c˜ao existente entre a fun¸c˜ao escore regu-lar e as demais fun¸c˜oes de estima¸c˜ao regulares para um dado parˆametro. Em resumo, ele prova, para o caso unidimensional e uniparam´etrico, que a fun¸c˜ao escore regular, quando existe, ´e uma fun¸c˜ao de estima¸c˜ao ´otima e consequentemente que a informa¸c˜ao de Fisher ´e um limite superior para a informa¸c˜ao de Godambe. Os resultados do teorema podem ser estendidos para o caso multivariado e multiparam´etrico (ver, por exemplo, Godambe, 1985 e Li e Turtle, 2000).
Teorema 4 . (Godambe, 1960) Seja Θ um intervalo real aberto e p(y; θ)
a fun¸c˜ao densidade de probabilidade de y. Se un(θ) = ∂p(y, θ)/∂θ, y =
(y1,· · · , yn)⊤ for a fun¸c˜ao escore regular de θ, ent˜ao para toda fun¸c˜ao de
estima¸c˜ao regular, Ψ, de θ vale que Eθ{Ψ2(θ)} Eθ2 { ∂Ψ ∂θ(y, θ) } ≥ 1 Eθ{u2n(θ)} ,
em outras palavras: JΨ−1 ≥ Ju−1n ∀ Ψ ∈ ℜθ. A igualdade ´e atingida quando
Ψ ´e uma fun¸c˜ao de estima¸c˜ao equivalente `a un.
Prova: Como Ψ(θ) ´e regular, temos
∫ Ψ(θ)p(y; θ)dy = 0 ⇒ 0 = ∂ ∂θ ∫ Ψ(θ)p(y; θ)dy = ∫ ∂ ∂θ {Ψ(θ)p(y; θ)} dy = ∫ ∂Ψ ∂θ(θ)p(y; θ)dy + ∫ Ψ(θ)∂p ∂θ(y; θ)dy, mas ∂p ∂θ(y; θ) = p(y; θ) p(y; θ) ∂p ∂θ(y; θ) = p(y; θ) ∂ log p
∂θ (y; θ) = p(y; θ)un(θ).
Ent˜ao:
0 =
∫ ∂Ψ
∂θ(θ)p(y; θ)dy +
∫
Ψ(θ)un(θ)p(y; θ)dy.
Contudo, ∫
Ψ(θ)un(θ)p(y; θ)dy = Cov{Ψ(θ); un(θ)} .
Ent˜ao 0 = Eθ { ∂Ψ ∂θ(θ) } + Cov{Ψ(θ); un(θ)} . ⇒ E2 θ { ∂Ψ ∂θ(θ) } = Cov2{Ψ(θ); un(θ)} ≤ Eθ { Ψ2(θ)}Eθ { u2n(θ)}.•
Esse resultado induz ao uso da fun¸c˜ao escore regular quando temos gran-des amostras. A quest˜ao ´e que nem sempre conhecemos a verossimilhan¸ca de nossos dados. Isso ´e muito mais frequente quando temos dados multiva-ridados n˜ao normais. Nesses casos, duas abordagens podem ser utilizadas:
i. Encontrar uma distribui¸c˜ao de probabilidades multivariada que descreva as observa¸c˜oes ou
ii. Utilizar uma fun¸c˜ao de estima¸c˜ao sub-´otima.
A primeira abordagem esbarra em alguns problemas de ordem pr´atica: como gerar uma distribui¸c˜ao de probabilidades multivariada, que seja ampla o suficiente para acomodar a estrutura de dependˆencia dos dados e simples o suficiente para permitir a estima¸c˜ao dos parˆametros do modelo. Joe (1997) descreve v´arias t´ecnicas de gera¸c˜ao de distribui¸c˜oes multivariadas4. Em boa
parte dos casos, o resultado ´e uma distribui¸c˜ao com alto grau de complexi-dade e que exige procedimentos num´ericos n˜ao triviais para a estima¸c˜ao dos parˆametros.
A segunda abordagem ´e mais pragm´atica. Em v´arias situa¸c˜oes, ´e poss´ıvel encontrar fun¸c˜oes de estima¸c˜ao que apesar de n˜ao serem ´otimas tˆem um bom desempenho para grandes amostras e que permitem a estima¸c˜ao de parˆametros atrav´es de procedimentos num´ericos relativamente simples.
A escolha entre as duas abordagens deve levar em conta o particular conjunto de dados e o tempo dispon´ıvel para a pesquisa e implementa¸c˜ao computacional de uma verossimilhan¸ca multivariada.
1.3
Fun¸
c˜
ao de estima¸
c˜
ao ´
otima
Um conceito importante, desenvolvido por Godambe (1960), ´e o de otimali-dade de uma fun¸c˜ao de estima¸c˜ao regular. No caso θ unidimensional, pode-se definir uma fun¸c˜ao de estima¸c˜ao ´otima como aquela cujas ra´ızes possuem variˆancia assint´otica m´ınima. Esse conceito pode ser estendido para o caso multidimensional atrav´es da introdu¸c˜ao de alguma ordena¸c˜ao das matrizes de covariˆancia assint´oticas.
Defini¸c˜ao 7 . Seja J−1Ψ a matriz de covariˆancia assint´otica de um estimador
ˆ
θ obtido a partir de uma fun¸c˜ao de estima¸c˜ao Ψ. Se existir uma fun¸c˜ao de estima¸c˜ao Ψ∗ que gera um estimador de θ com matriz de covariˆancia assint´otica J−1Ψ∗, tal que J−1Ψ −J−1Ψ∗ seja n˜ao-negativa definida para qualquer Ψ, ent˜ao Ψ∗ ´e dita ser uma fun¸c˜ao de estima¸c˜ao ´otima para θ (M-otimalidade).
Chandrasekar and Kale (1984) provam que, sob condi¸c˜oes gerais, as fun-¸c˜oes de estima¸c˜ao ´otimas obtidas pelos crit´erios tr(J−1Ψ ) ≥ tr(J−1Ψ∗
)
(T-otimalidade) e J−1Ψ ≥J−1Ψ∗ (D-otimalidade) coincidem com a da Defini¸c˜ao
7, desde que exista uma ´otima segundo esses crit´erios. ´
E um resultado conhecido que a M-otimalidade implica em T e D-o-timalidade, desde que existam fun¸c˜oes ´otimas segundo esses crit´erios. Se demonstrarmos que T implica em otimalidade e que D implica em M-otimalidade, estaremos demonstrando o resultado.
Lema 1 . Se Ψ∗ ´e uma fun¸c˜ao de estima¸c˜ao regular T-´otima e se existe uma fun¸c˜ao de estima¸c˜ao regular M-´otima, ent˜ao Ψ∗ ´e M-´otima
Prova: Como Ψ∗ ´e T-´otima, temos que tr{J−1 Ψ∗ } ≤ tr{J−1 Ψ } , ∀ Ψ ∈ ℜ, θ ∈ Θ (1.3) Seja Φ∈ ℜ uma fun¸c˜ao de estima¸c˜ao M-´otima; ent˜ao, ∀ Ψ ∈ ℜ, J−1
Ψ −J−1Φ ´e n˜ao negativa definida. Isso implica que
tr{J−1Ψ}≥ tr{J−1Φ}, ∀ Ψ ∈ ℜ, θ ∈ Θ
em particular isso vale para Ψ = Ψ∗. Ent˜ao tr{J−1
Ψ∗
}
≥ tr{J−1Φ}, ∀ Ψ ∈ ℜ, θ ∈ Θ
Aplicando (1.3), temos que
tr(J−1
Ψ∗ − J−1Φ
)
= 0
Pode-se demonstrar (ver Graybill, 1969, por exemplo) que, se tr(A) = 0 e A ´e uma matriz n˜ao negativa definida, ent˜ao A = 0. Portanto J−1
Ψ∗ = J−1Ψ, ou seja essas fun¸c˜oes s˜ao equivalentes, logo segue o resultado. •
Lema 2 . (Chandrasekar e Kale, 1984). Se A e B s˜ao duas matrizes sim´etricas de mesma dimens˜ao tais que:
i. A ´e positiva definida,
iii. |A + B| = |A|,
ent˜ao B = 0.
Lema 3 . Se Ψ∗ ´e uma fun¸c˜ao de estima¸c˜ao regular D-´otima e se existe uma fun¸c˜ao de estima¸c˜ao regular M-´otima, ent˜ao Ψ∗ ´e M-´otima
Prova: Como Ψ∗ ´e D-´otima, temos
|J−1
Ψ∗| ≤ |J−1Ψ| ∀Ψ∈ ℜ, θ ∈ Θ. (1.4) Seja Φ uma fun¸c˜ao de estima¸c˜ao M-´otima, ent˜ao
J−1
Ψ −J−1Φ ´e n˜ao negativa definida ∀ Ψ ∈ ℜ, (1.5) o que implica que |J−1Ψ| ≥ |J−1Φ |, ∀ Ψ ∈ ℜ, em particular, tome Ψ = Ψ∗, ent˜ao, utilizando (1.4), temos
|J−1
Ψ∗| ≥ |J−1Φ | ⇒ |J−1Ψ∗| = |J−1Ψ|. Al´em disso, (1.5) implica que J−1
Ψ∗− J−1Φ ´e n˜ao negativa definida. Aplicando o Lema 2, com A = J−1Φ e B = J−1
Ψ∗− J−1Φ, temos que J−1Ψ∗ = J−1
Ψ, ou seja essas fun¸c˜oes s˜ao equivalentes, logo segue o resultado. •
Os Lemas 1 e 3 implicam na equivalˆencia das defini¸c˜oes de otimalidade, no caso de fun¸c˜oes de estima¸c˜ao regulares.
Outro resultado importante ´e que, no caso regular, a fun¸c˜ao escore sempre ser´a ´otima. Isso faz com que a matriz de informa¸c˜ao de Fisher, quando existir, cumpra o papel de limite superior para as matrizes de informa¸c˜ao de Godambe.
´
E importante ressaltar que se Ψ∗´e uma fun¸c˜ao de estima¸c˜ao ´otima, ent˜ao qualquer fun¸c˜ao de estima¸c˜ao equivalente tamb´em o ser´a.
1.4
Fun¸
c˜
ao de estima¸
c˜
ao linear
Nesta se¸c˜ao iremos apresentar um m´etodo de gera¸c˜ao de fun¸c˜oes de estima¸c˜ao que s˜ao ´otimas em uma sub-classe de fun¸c˜oes regulares.
Crowder(1987) estuda uma classe particular de fun¸c˜oes de estima¸c˜ao que passaremos a chamar de fun¸c˜oes de estima¸c˜ao lineares.
Defini¸c˜ao 8 . Seja yi, i = 1,· · · , n uma amostra de vetores aleat´orios
inde-pendentes. Seja θ um vetor de parˆametros desconhecidos de dimens˜ao p× 1 e ui(yi; θ), i = 1,· · · , n fun¸c˜oes de dimens˜ao r × 1 (r n˜ao necessariamente
igual a p) que satisfazem as condi¸c˜oes da Defini¸c˜ao 3 para θ. Uma fun¸c˜ao de estima¸c˜ao linear gerada por ui pode ser definida como:
n
∑
i=1
Qi(θ)ui(yi, θ),
onde Qi ´e uma matriz de dimens˜ao p× r n˜ao estoc´astica, n˜ao singular, de
pesos que, eventualmente, pode ser fun¸c˜ao de θ e ui, i = 1, 2, . . . , n, s˜ao
vetores mutuamente independentes.
Por simplicidade, chame essa classe de L. O autor mostra que a fun¸c˜ao de estima¸c˜ao ´otima dentre as da classeL ´e obtida quando a matriz de pesos ´e dada por Q∗i(θ) = Eθ ( ∂ui ∂θ ) Cov−1 θ (ui). (1.6)
Exemplo 5 . Sejam y1, ..., ynvari´aveis aleat´orias independentes com Var(yi) =
σ2 e E (y
i) = µi = x⊤i β com xi sendo vetores n˜ao aleat´orios de covari´aveis.
A fun¸c˜ao de estima¸c˜ao ´otima na classe L(y − µ), com y = (y1,· · · , yn)⊤ e
µ = (µ1,· · · , µn)⊤ ´e dada por
Ψ∗n= σ−2X⊤(y− Xβ),
onde X = (x1,· · · , xn)⊤. Trata-se de uma fun¸c˜ao de estima¸c˜ao equivalente
`
a obtida a partir da aplica¸c˜ao do m´etodo de m´ınimos quadrados aos dados.
Exemplo 6 . Considere uma amostra de vari´aveis aleat´orias independen-tes, yi, i = 1, 2, . . . , n, de tal modo que E (yi) = µi = hi
(
x⊤i β) = hi(ηi) e
Var (yi) = σ2ci(µi), onde xi ´e um vetor de covari´aveis associado a yi; β ´e um
vetor p-dimensional de parˆametros desconhecidos; hi(·) ´e uma fun¸c˜ao
dupla-mente diferenci´avel e invers´ıvel e ci(·) ´e uma fun¸c˜ao positiva, i = 1, 2, . . . , n.
Considere tamb´em a fam´ılia de fun¸c˜oes de estima¸c˜ao dada por Ψn(β) =
Q (β) u (y, β), onde Q (β) ´e uma fun¸c˜ao de β e u (y, β) = y − µ, com
y = (y1, y2, . . . , yn) e µ = (µ1, µ2, . . . , µn). Obviamente tais fun¸c˜oes
perten-cem `a classe L e assim, utilizando (1.6), vem que a fun¸c˜ao de estima¸c˜ao ´
otima nesta classe ´e
onde X = (x1, x2, . . . , xn)⊤, H = diag ∂µ∂η1
1, . . . ,
∂µn
∂ηn e, por fim, C =
diag{c1(µ1), c2(µ2), . . . , cn(µn)}. Note que (1.7) equivale `as equa¸c˜oes de
es-tima¸c˜ao sugeridas na teoria da quase-verossimilhan¸ca, desenvolvida por Wed-derburn (1974).
1.5
Equa¸
c˜
oes normais
O m´etodo dos m´ınimos quadrados ´e bastante popular no estudo de modelos de regress˜ao. Em sua vers˜ao mais simples (m´ınimos quadrados ordin´arios para modelos lineares) os dados associados ao i-´esimo elemento amostral s˜ao representados por (yi, x⊤i ), no qual y1,· · · , yns˜ao vari´aveis aleat´orias
indepen-dentes, homoced´asticas e n˜ao correlacionadas e xi ´e um vetor p-dimensional
de vari´aveis n˜ao aleat´orias. A esses dados, associa-se o modelo: y = Xβ + ϵ, E (ϵ) = 0 Cov(ϵ) = σ2I,
na qual y = (yi,· · · , yn)⊤, X = (x1,· · · , xn)⊤, β = (β1,· · · , βp) ´e um vetor
de parˆametros e ϵ = (ϵ1,· · · , ϵn) ´e um vetor de erros aleat´orios.
O estimador de m´ınimos quadrados de β ´e aquele que minimiza D(β) = ϵ⊤ϵ = (y− Xβ)⊤(y− Xβ).
Diferenciando D com respeito `a β, temos que o estimador de m´ınimos qua-drados ´e dado pela raiz de
M(β) = X⊤y− (X⊤X)β.
Teorema 5 . Admitindo a validade da propriedade (iii) da Defini¸c˜ao 3, e que X seja uma matriz de posto completo, temos que M(β) ´e uma fun¸c˜ao de estima¸c˜ao regular.
Prova: provaremos apenas as propriedades (iv) e (v) da Defini¸c˜ao 3.
iv. ∂M ∂β (β) = −X ⊤X = E { ∂M ∂β (β) }
, ´e uma matriz n˜ao singular, uma vez que X tem posto completo.
v. E {M⊤(β)M(β)}= σ2X⊤X ´e uma matriz positiva definida, uma vez que
Observe que al´em de ser uma fun¸c˜ao de estima¸c˜ao regular, M(β) = X⊤y− (X⊤X)β = X⊤(y− Xβ) ∈ L(y − Xβ).
Isso nos permite especular sobre qual seria a fun¸c˜ao de estima¸c˜ao ´otima na classe das lineares.
Teorema 6 . M(β) ´e uma fun¸c˜ao de estima¸c˜ao ´otima em L(y − Xβ).
Prova: Seja u = y− Xβ, ent˜ao ∂u/∂β = −X⊤. Por outro lado, E (uu⊤) = Cov(y) = σ2I. Logo uma fun¸c˜ao de estima¸c˜ao ´otima em L(y − Xβ) ´e
Ψ∗n(β) =−σ−2X⊤(y− Xβ). Tal fun¸c˜ao ´e equivalente `a
M(β) = X⊤y− X⊤Xβ.•
Isto mostra que as equa¸c˜oes normais obtidas a partir do m´etodo de m´ınimos quadrados ´e ´otima em uma classe de fun¸c˜oes de estima¸c˜ao regulares e lineares.
A informa¸c˜ao de Godambe associada `a M(β) ´e dada por Jn(β) = (−X⊤X)(σ2X⊤X)−1(−X⊤X) = σ−2(X⊤X).
Sob condi¸c˜oes gerais de regularidade, pode-se demonstrar que o estimador de m´ınimos quadrados ˆβn ´e consistente e
√
n( ˆβn− β)→ N(0; JD −1), onde J = limn→∞Jn(β)/n.
Para grandes amostras, a matriz de covariˆancia de ˆβn pode ser consisten-temente estimada por J−1n ( ˆβn).
1.5.1
M´ınimos Quadrados Generalizados
O m´etodo dos m´ınimos quadrados pode ser estendido para situa¸c˜oes mais gerais do que a descrita. Admita que Var(ϵ) = σ2A, sendo A uma matriz sim´etrica positiva definida.
Podemos utilizar o resultado (1.6) para construir uma fun¸c˜ao de estima¸c˜ao sub-´otima. Precisamos, num primeiro momento, encontrar uma fun¸c˜ao para
gerar a classe das fun¸c˜oes de estima¸c˜ao lineares. A partir do modelo apre-sentado, temos que E (y) = Xβ, uma escolha natural para a fun¸c˜ao geradora ´
e
u(β) = y− Xβ. Temos ent˜ao:
∂u β (β) =−X ⊤= E { ∂u β (β) } ,
al´em disso, Var(u) = σ2A. Segue ent˜ao que a fun¸c˜ao de estima¸c˜ao ´otima em
L(u) ´e
Ψ∗n(β) =−σ−2X⊤A−1(y− Xβ). Tal fun¸c˜ao ´e equivalente `a
MA(β) = X⊤A−1y− X⊤A−1Xβ.
Teorema 7 . Admitindo a validade da propriedade (iii) da Defini¸c˜ao 3, e que X seja uma matriz de posto completo, temos que MA(β) ´e uma fun¸c˜ao
de estima¸c˜ao regular. Al´em disso, a matriz de informa¸c˜ao de Godambe de β associada `a MA ´e
Jn(β) = σ−2X⊤A−1X.
Sob condi¸c˜oes adicionais de regularidade ˆβn, obtido como raiz de MA ser´a consistente e √
n( ˆβn− β)→ N(0; JD −1), onde J = lim
n→∞Jn(β)/n.
Note que MA(β) pode ser obtida a partir da minimiza¸c˜ao de D(β) = (y− Xβ)⊤A−1(y− Xβ),
Quase-verossimilhan¸
ca
Wedderburn (1974) propˆos um m´etodo de estima¸c˜ao de parˆametros de mo-delos de regress˜ao para os quais n˜ao se conhece a distribui¸c˜ao da vari´avel resposta. Utilizando apenas informa¸c˜oes sobre o comportamento da m´edia da distribui¸c˜ao em fun¸c˜ao das vari´aveis independentes (modelo de regress˜ao) e da rela¸c˜ao entre a variˆancia e a m´edia, foi proposta uma fun¸c˜ao de estima¸c˜ao que, sob hip´oteses gerais, leva a estimadores consistentes e assintoticamente normais dos parˆametros do modelo de regress˜ao.
A teoria da quase-verossimilhan¸ca ´e uma extens˜ao dos modelos lineares generalizados. Neste cap´ıtulo, aborda-se a teoria da quase-verossimilhan¸ca, considerando-se tanto o caso uni como multidimensional.
2.1
Modelos lineares generalizados
Os Modelos Lineares Generalizados constituem uma teoria geral de regress˜ao para vari´aveis respostas na fam´ılia exponencial de distribui¸c˜oes. Nesta se¸c˜ao, apresentamos a fam´ılia exponencial de distribui¸c˜oes e os modelos lineares generalizados.
2.1.1
Fam´ılia exponencial de distribui¸
c˜
oes
Uma vari´avel aleat´oria y pertence `a fam´ılia exponencial de distribui¸c˜oes se para um dado valor ϕ, sua fun¸c˜ao densidade de probabilidade, ou fun¸c˜ao de probabilidade, se a vari´avel for discreta, puder ser escrita como
p(y; θ, ϕ) = exp [ϕ{yθ − b(θ)} + c(y; ϕ)] . (2.1) 29
Temos que
E (y) = µ = db
dθ(θ) e Var(y) = ϕ
−1v(µ), sendo v(µ) = d2b
dθ2(θ),
sendo θ o parˆametro canˆonico da distribui¸c˜ao, ϕ−1 ´e denominado parˆametro de dispers˜ao e v(µ) a fun¸c˜ao de variˆancia.
Seguem alguns exemplos de distribui¸c˜oes desta fam´ılia.
Distribui¸c˜ao Normal. Dado σ2, seja y ∼ N (µ; σ2), ∞ < y < ∞. A
fun¸c˜ao densidade de probabilidade de y pode ser escrita como
p(y; µ, σ2) = √1 2πσexp { −(y− µ)2 2σ2 } = exp [ 1 σ2 ( yµ− µ 2 2 ) − 1 2 { log(2πσ2) + y 2 σ2 }] .
Temos que θ = µ, b(θ) = θ22, ϕ = σ−2e c(y; ϕ) =−12 {log(2πϕ−1) + ϕy2}.
Neste caso, v(µ) = 1.
Distribui¸c˜ao de Poisson. A vari´avel aleat´oria y, y = 0, 1, . . ., segue uma distribui¸c˜ao de Poisson de parˆametro µ se sua fun¸c˜ao de probabilidade for dada por
p(y; µ) = e
−µµy
y! = exp{(y log µ − µ) − log y!} .
Assim, θ = log(µ), b(θ) = eθ, ϕ = 1, c(y, ϕ) =− log y! e v(µ) = µ.
Distribui¸c˜ao Gama. A fun¸c˜ao densidade de probabilidade de uma vari´avel aleat´oria y com distribui¸c˜ao gama de m´edia µ, y > 0 e para um dado parˆametro de dispers˜ao ϕ−1 ´e dada por
p(y; µ, ϕ) = 1 Γ(ϕ) ( ϕy µ )ϕ exp ( −ϕy µ ) log y = exp [ ϕ { −y µ+ log ( 1 µ )}
− log Γ(ϕ) + ϕ log(ϕy) − log y
]
.
Neste caso, θ = −1/µ, b(θ) = − log(−θ), c(y; ϕ) = − log Γ(ϕ) +
Distribui¸c˜ao de Bernoulli. Se y (y = 0, 1) segue uma distribui¸c˜ao de Bernoulli de m´edia µ, sua fun¸c˜ao de probabilidade ´e dada por
p(y; µ) = µy(1− µ)1−y = exp
{ y log ( µ 1− µ ) + log (1− µ) } .
Comparando com (2.1) vem que θ = log(1−µµ ), b(θ) =− log(1 + eθ),
ϕ = 1, c(y; ϕ) = 0 e v(µ) = µ(1− µ).
Uma propriedade importante da fam´ılia exponencial de distribui¸c˜oes ´e que qualquer distribui¸c˜ao desta fam´ılia pode ser caracterizada por sua fun¸c˜ao de variˆancia.
A fun¸c˜ao escore de uma distribui¸c˜ao desta classe ´e dada por
u(θ; ϕ, y) = ϕy− µ v(µ) .
2.1.2
Modelos lineares generalizados
Os modelos lineares generalizados (Paula, 2004 e McCullagh e Nelder, 1989, por exemplo, ) comp˜oem uma teoria geral de regress˜ao para o caso em que a distribui¸c˜ao da vari´avel resposta pertence `a fam´ılia exponencial de distri-bui¸c˜oes ou para o caso em que a fun¸c˜ao densidade de probabilidade ou fun¸c˜ao de probabilidade possa ser escrita na forma (2.1), independentemente de ϕ ser ou n˜ao conhecido.
Para definirmos um modelo linear generalizado, seja yi, i = 1,· · · , n, uma
amostra de vari´aveis aleat´orias independentes, com distribui¸c˜ao na classe da fam´ılia exponencial, com m´edia µi e parˆametro de dispers˜ao ϕ−1. Associado
`
a observa¸c˜ao i, admita a existˆencia de um vetor p-dimensional de covari´aveis fixas, xi. Assuma que
g(µi) = x⊤i β = ηi,
na qual g(·) ´e uma fun¸c˜ao mon´otona e diferenci´avel, denominada fun¸c˜ao de liga¸c˜ao e β ´e um vetor p-dimensional de parˆametros desconhecidos.
A fun¸c˜ao escore de β ´e dada por
un(β) = ϕX⊤HW−1(y− µ), (2.2)
Definindo D⊤= X⊤H, temos que a matriz de informa¸c˜ao de Fisher de β ´e dada por
in(β) = ϕD⊤W−1D.
Apresentamos a seguir alguns modelos lineares generalizados.
Regress˜ao linear m´ultipla: Seja yi ∼ N (µi, σ2). Nesse caso, tomando a
fun¸c˜ao de liga¸c˜ao identidade, temos que µi = x⊤i β, o que corresponde
ao modelo de regress˜ao linear normal.
Regress˜ao log´ıstica: Seja yi uma vari´avel com distribui¸c˜ao Bernoulli de
parˆametro µi. Nesse caso,
g(µi) = log ( µi 1− µi ) .
Modelos log-lineares para dados de contagem: Nesse caso, assuma que yi siga uma distribui¸c˜ao de Poisson de m´edia µi. A fun¸c˜ao de
liga¸c˜ao correspondente ao modelo log-linear ´e g(µi) = log(µi).
Al´em desses exemplos, a teoria dos modelos lineares generalizados inclui uma grande variedade de outros modelos, como, por exemplo, modelos de regress˜ao para vari´aveis positivas e assim´etricas (distribui¸c˜oes gama e normal inversa, por exemplo).
Sob condi¸c˜oes gerais de regularidade, demonstra-se que
√
n(βˆ− β)→ Np
(
0, ϕ−1J−1) `
a medida em que n tende a infinito, sendo J = lim
n→∞
in(β)
n (ver Sen e Singer,
1993, por exemplo).
Algoritmo de estima¸c˜ao
Exceto em alguns casos espec´ıficos, como, por exemplo, a distribui¸c˜ao normal para liga¸c˜ao identidade, n˜ao h´a uma forma expl´ıcita para os estimadores de
β. As estimativas podem ser obtidas da aplica¸c˜ao de m´etodos iterativos. Um dos m´etodos utilizados ´e o scoring de Fisher, no qual o valor da estimativa de β no passo j + 1 do processo ´e dado por
sendo i(j)
n e u(j)n , respectivamente, a matriz de informa¸c˜ao de Fisher e a fun¸c˜ao
escore avaliadas no ponto β(j). Desenvolvendo (2.3), temos β(j+1) = β(j)+(D(j)TW−1D(j))−1D(j)T(y− µ(j)) =(D(j)TW−1D(j))−1D(j)TD(j)β(j)+(D(j)TW−1D(j))−1D(j)T(y− µ(j)) = ( D(j)TW−1D(j) )−1 D(j)Tz(j),
na qual, z(j) = D(j)β(j) + (y − µ(j)) e o sobre-escrito (j) indica que as
matrizes e vetores s˜ao avaliados no ponto β(j). Trata-se de um procedimento de m´ınimos quadrados reponderados.
Fun¸c˜ao desvio
O logaritmo da fun¸c˜ao de verossimilhan¸ca da m´edia de um modelo linear generalizado ´e dado por
L(µ; y) = ϕ
n
∑
i=1
[yiθ(µi)− b{θ(µi)} + c(yi; ϕ)] . (2.4)
A fun¸c˜ao desvio ´e uma medida de qualidade de ajuste de um modelo linear generalizado constru´ıda a partir de (2.4). Assuma um caso extremo, no qual o modelo prevˆe com exatid˜ao todos os valores da amostra. Nessa situa¸c˜ao, teremos que o logaritmo da fun¸c˜ao de verossimilhan¸ca, avaliado no valor previsto ´e dado por
L(y; y) = ϕ
n
∑
i=1
[yiθ(yi)− b{θ(yi)} + c(yi; ϕ)] . (2.5)
A fun¸c˜ao desvio ´e definida como o dobro da distˆancia entre o logaritmo da fun¸c˜ao de verossimilhan¸ca avaliado na estimativa de m´axima verossimilhan¸ca (ˆθ = θ(ˆµ)) e (2.5). A fun¸c˜ao ´e ent˜ao definida por
D∗(y; ˆµ) = 2{L(y, y) − L(ˆµ; y)} = 2ϕ
n ∑ i=1 [ yi { θ(yi)− ˆθ } − b(ˆθ) + b{θ(yi)} ] .
Uma defini¸c˜ao alternativa para a fun¸c˜ao desvio ´e dada por
D(y; ˆµ) = 2 n ∑ i=1 [ yi { θ(yi)− ˆθ } − b(ˆθ) + b{θ(yi)} ] .
Tabela 2.1: Fun¸c˜ao desvio para alguns modelos lineares generalizados
Modelo Fun¸c˜ao desvio
Normal ∑ni=1(yi− ˆµi)2
Poisson 2∑ni=1{yilog(yi/ˆµi)− (yi− ˆµi)}
se yi = 0, sua respectiva parcela ´e 2ˆµi
2∑ni=1({yilog(yi/niµˆi)
Binomial +(ni− yi) log{(1 − yi/ni)/(1− ˆµi)}
se yi = 0, sua parcela ´e −2nilog(1− ˆµi)
se yi = ni, sua parcela ´e−2nilog(ˆµi)
Gama 2∑ni=1{− log(yi/ˆµi) + (yi− ˆµi)/ˆµi}, y > 0
Normal inversa ∑ni=1(yi− ˆµi)2/(yiµˆ2i)
Quanto menor o valor de D, melhor ser´a o ajuste do modelo. Paula (2004) calcula a fun¸c˜ao desvio para alguns modelos lineares generalizados. A Tabela 2.1 resume as informa¸c˜oes fornecidas por Paula.
Na Tabela 2.2 s˜ao apresentadas algumas propriedades da fun¸c˜ao desvio. S˜ao apresentadas as condi¸c˜oes sob as quais podemos testar a adeq¨ua¸c˜ao do modelo assumindo uma distribui¸c˜ao qui-quadrado com (n− p) graus de li-berdade para D.
Tabela 2.2: Propriedades assint´oticas da fun¸c˜ao desvio para alguns modelos lineares generalizados
Modelo Propriedade
Normal Se a variˆancia for constante, D∼ σ2χ2
n−p
Poisson D ˜χ2n−p ´a medida em que os µi → ∞
Binomial D ˜χ2
Res´ıduos
Exceto para a distribui¸c˜ao normal, os modelos lineares generalizados tendem a ser heteroced´asticos, uma vez que a variˆancia da vari´avel resposta ´e fun¸c˜ao da m´edia. Dessa forma, seria dif´ıcil avaliar o ajuste do modelo atrav´es do res´ıduo simples ri = yi− µi.
Como Var(yi) = ϕ−1v(µi) = ϕ−1vi, temos que a variˆancia de
rp =
yi− µi
√ vi
´
e constante para todo i. Desse modo, o res´ıduo de Pearson ´e definido como ˆ rp = yi− ˆµi √ v(ˆµi) .
Observe que Var(rp) = ϕ−1, desse modo, um estimador de ϕ−1 pode ser
obtido atrav´es de ˆ ϕ−1 = n ∑ i=1 ˆ r2 p n− p.
Um outro res´ıduo interessante pode ser obtido a partir das parcelas da fun¸c˜ao desvio. Trata-se do res´ıduo do desvio.
Testes de hip´oteses
A fun¸c˜ao desvio tem um papel importante na constru¸c˜ao de testes de hip´oteses para os modelos lineares generalizaddos. Por exemplo, admita que o vetor de parˆametros β possa ser particionado em β = (β⊤1, β⊤2)⊤. Se estivermos interessados em testar H0 : β1 = β
0
1 contra H1 : β1 ̸= β 0
1, o teste da raz˜ao de
verossimilhan¸cas pode ser obtido atrav´es da diferen¸ca entre duas fun¸c˜oes des-vios. Seja ˆµ0 e ˆµ1 as m´edias avaliadas sob, respectivamente, as hip´oteses nula e alternativa. Temos que a estat´ıstica do teste da raz˜ao de verossimilhan¸cas ´
a dada por
TRV = ϕ{D(y, ˆµ0)− D(y, ˆµ1)}.
O teste de Wald ´e outra alternativa para testar as hip´oteses mencionadas. Tal teste tem uma grande importˆancia na teoria das fun¸c˜oes de estima¸c˜ao, uma vez que se baseia na distribui¸c˜ao (assint´otica) do estimador obtido, n˜ao
sendo, ent˜ao, necess´ario conhecer a distribui¸c˜ao de probabildiades geradora dos dados. A estat´ıstica para as hip´oteses acima ´e dada por
WD =(βˆ1− β01)⊤Covˆ −1(βˆ1) (βˆ1− β01). (2.6) Se q ´e a dimens˜ao de β1, temos que TRV e WD convergem, para n ten-dendo a infinito, para uma distribui¸c˜ao qui-quadrado com q graus de liber-dade. Paula(2004) discute e apresenta outros testes de hip´oteses adequados para a an´alise de modelos lineares generalizados.
No caso em que ϕ ´e desconhecido a estat´ıstica Wald pode ser obtida simplesmente substituindo-se ϕ por uma estimativa consistente.
Aplica¸c˜ao
Exemplo 7 Em 2000, foi realizado o primeiro censo de moradores de rua
da cidade de S˜ao Paulo (Schor e Artes, 2001). Naquela pesquisa, 95 dos 96 distritos municipais da cidade foram percorridos, no per´ıodo noturno, por equipes de campo. As pessoas encontradas nas ruas, em terrenos, em moc´os e dormindo em casar˜oes abandonados ou ve´ıculos foram abordadas. Desse contingente, 5013 foram identificados como moradores de rua, sendo que para 4 deles n˜ao se fez o registro do distrito municipal em que se encontravam. Essa pesquisa originou um banco de dados com o n´umero de moradores de rua encontrados em cada distrito.
Ao analisar a distribui¸c˜ao dos moradores de rua no munic´ıpio, constatou-se que havia altas concentra¸c˜oes em algumas regi˜oes e baixas em outras. Para explicar essa diferen¸ca, levantou-se a hip´otese de que os moradores de rua procurariam regi˜oes em que encontrassem condi¸c˜oes satisfat´orias para sua sobrevivˆencia: lixo recicl´avel abundante, alta circula¸c˜ao de pessoas durante o dia e baixa `a noite e ´areas habitadas por fam´ılias com poder aquisitivo mais alto. Para caracterizar regi˜oes com esse perfil, Schor, Artes e Bomfim (2003) propuseram os seguintes indicadores
CV: raz˜ao entre a ´area constru´ıda dos im´oveis verticais para uso comercial e de servi¸cos e o total da ´area constru´ıda no distrito (SEMPLA, 1998);
CH: raz˜ao entre a ´area constru´ıda dos im´oveis horizontais para uso comer-cial e de servi¸cos e o total da ´area constru´ıda no distrito municipal (SEMPLA, 1998);
Fluxo: para medir a circula¸c˜ao de pessoas em cada um dos distritos dispu-nha-se de dados sobre o n´umero de pessoas presentes em cada distrito ao longo de 24 horas, em intervalos de 2 horas e o n´umero de residentes no distrito (Companhia Metropolitana, 1997). A partir desses dados, para cada per´ıodo de duas horas, construiu-se a raz˜ao entre o n´umero de presentes e o n´umero de domiciliados. O indicador de fluxo para cada distrito foi definido como o valor m´aximo dessa raz˜ao;
RFPC: a renda monet´aria das fam´ılias residentes nos distritos foi medida pela renda familiar per capita, em reais (Companhia Metropolitana, 1997) e
Empregos: o n´umero de empregos existentes no distrito (Companhia Metro-politana, 1997) .
Para verificar a hip´otese formulada, ajustamos um modelo linear genera-lizado tendo o n´umero de moradores de rua por distrito como vari´avel depen-dente e os demais indicadores como independepen-dentes. Assumimos a distribui¸c˜ao de Poisson para a vari´avel dependente e uma fun¸c˜ao de liga¸c˜ao logaritmica. A Tabela 2.3 traz as estimativas do modelo. `A primeira vista, parece que as hip´oteses foram confirmadas, dados os valores das estat´ısticas t1 correspon-dentes a cada estimativa. No entanto, ´e necess´ario checar a adequa¸c˜ao do modelo.
Tabela 2.3: Estimativas dos parˆametros do modelo Efeito Estimativa Erro-padr˜ao t Intercepto 9, 08 10−1 7, 14 10−2 12,71 CV 3, 16 1, 76 10−1 17,91 CH 4, 49 1, 87 10−1 23,97 Fluxo 1, 83 10−1 2, 21 10−2 8,28 RFPC 9, 70 10−4 5, 81 10−5 16,69 Empregos 7, 38 10−6 8, 85 10−7 8,34
O desvio do res´ıduo para esse modelo ´e 1.998,71 com 89 graus de li-berdade, indicando problemas de ajuste. A Figura 2.1 traz os res´ıduos de
1O quadrado dessa estat´ıstica corresponde `a estat´ıstica do teste de Wald para testar se
Pearson e do desvio em fun¸c˜ao do logaritimo do valor previsto2. Note que a
variabilidade dos pontos parece aumentar na medida em que o valor previsto aumenta. Concluindo, o modelo parece n˜ao ser adequado.
ln(Valor ajustado)
2 4 6
Resíduo de Pearson vs ln(Valor ajustado)
ln(Valor ajustado)
2 4 6
Resíduo do desvio vs ln(Valor ajustado)
Figura 2.1: Gr´aficos de res´ıduo para a regress˜ao de Poisson
Para entender melhor a falta de adequa¸c˜ao do modelo, o banco de da-dos foi ordenado segundo a vari´avel CV. Em seguida, a cada 5 observa¸c˜oes ordenadas, calculou-se o n´umero m´edio de moradores de rua e o respectivo desvio-padr˜ao. Caso a distribui¸c˜ao fosse realmente Poisson, ter´ıamos que o desvio-padr˜ao seria, aproximadamente, a raiz quadrada da m´edia. A Figura 2.2 traz esses dados. Note que o o desvio-padr˜ao n˜ao se comporta conforme o esperado, uma vez que os pontos parecem estar dispostos ao redor de uma linha reta. Da´ı os problemas de ajuste. Temos indica¸c˜oes de que a variˆancia depende da m´edia, mas n˜ao da maneira esperada para um modelo de Poisson.
2.2
Quase-verossimilhan¸
ca - Caso univariado
H´a situa¸c˜oes nas quais desconhecemos a forma da distribui¸c˜ao geradora dos dados, mas em que temos informa¸c˜oes sobre o comportamento da m´edia e da variˆancia como fun¸c˜ao da m´edia. Tais situa¸c˜oes permitem a abordagem de quase-verossimilhan¸ca que ser´a discutida neste cap´ıtulo.
0 50 100 150 200 250 300 350 400 0 100 200 300 400 Média Desv io-padrão
Figura 2.2: Desvio-padr˜ao do n´umero de moradores de rua em fun¸c˜ao da m´edia
Um caso comum ´e quando a vari´avel resposta representa uma contagem. Embora seja usual modelar vari´aveis desse tipo utilizando a distribui¸c˜ao de Poisson, pode haver, no entanto, evidˆencias de que a variˆancia ´e muito su-perior `a m´edia (sobredispers˜ao), ou seja de que os dados n˜ao seguem a dis-tribui¸c˜ao de Poisson. Situa¸c˜oes como essas podem ser analisadas atrav´es do m´etodo de quase-verossimilhan¸ca proposto por Wedderburn (1974).
Assuma que a vari´avel aleat´oria y seja tal que
E (y) = µ e Var(y) = ϕ−1v(µ).
Note que a estrutura apresentada acima ´e a mesma observada em modelos lineares generalizados. A fun¸c˜ao de estima¸c˜ao ´otima na classe L(y − µ) ´e dada por
ψ(µ) = ϕy− µ v(µ) .
Essa fun¸c˜ao ´e denominada fun¸c˜ao quase-escore. Wedderburn (1974) chegou a essa fun¸c˜ao por meio de uma analogia com a fun¸c˜ao escore da fam´ılia exponencial. Ele definiu a fun¸c˜ao de quase-verossimilhan¸ca de µ por
Q(µ; y) =
∫
ϕy− µ v(µ) dµ.
O termo quase-verossimilhan¸ca vem do fato da fun¸c˜ao quase-escore satis-fazer as mesmas propriedades de uma fun¸c˜ao escore regular.
Teorema 8 Seja ψ uma fun¸c˜ao quase-escore com variˆancia finita e tal que
∂ψ
∂µ exista q.c. Temos ent˜ao
i. E{ψ(µ)} = 0 e ii. E{ψ2} = −E { ∂ψ ∂µ } .
Prova: A prova de (i) ´e direta. Para a prova de (ii), note que
E{ψ2(µ)}= ϕ2E { (y− µ)2 v2(µ) } = ϕ2ϕ −1v(µ) v2(µ) = ϕv −1(µ).
Por outro lado,
E { ∂ψ ∂µ } =−ϕ 1 v(µ) =−E { ψ2(µ)} ◦ A matriz de informa¸c˜ao de Godambe de µ ´e dada por
J(µ) = ϕ
v(µ).
2.2.1
Modelo de regress˜
ao
Analogamente `a situa¸c˜ao descrita para modelos lineares generalizados, seja
yi, i = 1,· · · , n uma amostra de vari´aveis aleat´orias independentes, com
distribui¸c˜ao desconhecida, com m´edia µi e parˆametro de dispers˜ao ϕ−1.
As-sociado `a observa¸c˜ao i, admita a existˆencia de um vetor p-dimensional de covari´aveis fixas, xi. Al´em disso,
g(µi) = x⊤i β = ηi e Var(yi) = v(µi)ϕ−1,
sendo g(·) uma fun¸c˜ao mon´otona e diferenci´avel, recebendo o nome de fun¸c˜ao de liga¸c˜ao e β um vetor p-dimensional de parˆametros desconhecidos.
A fun¸c˜ao de quase-verossimilhan¸ca para a observa¸c˜ao i ´e dada por
Qi(µ; yi) = Qi = ϕ
∫ y
i− µi
v(µi)
dµi.
Derivando Qi em rela¸c˜ao `a β temos
ψi(β) = ∂Qi ∂β = ϕ ∂ηi ∂β ∂µi ∂ηi ∂Qi ∂µi = ϕxi ∂µi ∂ηi yi− µi v(µi) .