Rinaldo Artes. Denise Aparecida Botter

(1)

Regress˜

ao

Rinaldo Artes

Insper Instituto de Ensino e Pesquisa

Denise Aparecida Botter

(2)

(3)

Apresenta¸

c˜

ao

Este texto foi desenvolvido a partir do programa da disciplina Fun¸cões de Estima¸cão Aplicadas a Modelos de Regressão, ministrada, pelos autores, em cursos de pós-gradua¸cão do Departamento de Estat´ıstica da USP. Três turmas de alunos tomaram contato com parte deste texto; a elas deixamos nossos agradecimentos. Agradecemos também à professora Clélia Maria de Castro Toloi, pela leitura de parte do manuscrito e pelas oportunas sugestões e corre¸cões. Os erros remanescentes são de responsabilidade dos autores.

Encaramos a presente monografia como um texto em constru¸cão. Pre-tendemos, nos próximos anos, adicionar cap´ıtulos e exemplos que, por uma limita¸cão de tempo, não puderam ser inclu´ıdos nesta versão. Manteremos no site www.rinaldoa.ibmec.br as atualiza¸cões do texto e as inevitáveis erratas. Agradecemos à Comissão Organizadora da 9a _{Escola de Modelos de}

Re-gress˜ao pela oportunidade de ministrar esse minicurso.

Denise Aparecida Botter ([email protected]) Rinaldo Artes ([email protected])

(4)

(5)

1 Fun¸c˜oes de estima¸c˜ao 11

1.1 Fun¸c˜oes de estima¸c˜ao . . . 11

1.2 Fun¸c˜ao Escore . . . 19

1.3 Fun¸cão de estima¸cão ótima . . . 21

1.4 Fun¸c˜ao de estima¸c˜ao linear . . . 23

1.5 Equa¸c˜oes normais . . . 25

1.5.1 M´ınimos Quadrados Generalizados . . . 26

2 Quase-verossimilhan¸ca 29 2.1 Modelos lineares generalizados . . . 29

2.1.1 Fam´ılia exponencial de distribui¸c˜oes . . . 29

2.1.2 Modelos lineares generalizados . . . 31

2.2 Quase-verossimilhan¸ca - Caso univariado . . . 38

2.2.1 Modelo de regress˜ao . . . 40

2.2.2 Fun¸c˜ao quase-desvio . . . 41

2.2.3 Sobre-dispers˜ao . . . 42

2.3 Quase-verossimilhan¸ca estendida . . . 44

2.3.1 Parâmetro de dispersão variável . . . 46

2.4 Caso multivariado . . . 46

3 Equa¸cões de Estima¸cão Generalizadas 49 3.1 Modelagem da média . . . 50

3.1.1 Equa¸cões de estima¸cão de independência . . . 50

3.1.2 Γ(ui) = Corr(ui) conhecida . . . 52

3.1.3 Γ(ui) desconhecida . . . 53

3.1.4 Estima¸c˜ao de ϕ−1 . . . 54

3.1.5 Estima¸c˜ao de α . . . . 56

3.1.6 Teste de hip´oteses . . . 57 5

(6)

3.1.7 Algoritmos de estima¸c˜ao . . . 57

3.2 EEG-2 . . . 58

3.3 Estudos de simula¸c˜ao . . . 59

3.4 Aplica¸c˜ao . . . 61

3.5 T´ecnicas de diagn´ostico . . . 62

3.5.1 Pontos alavanca, inﬂuentes e aberrantes . . . 62

3.5.2 Envelope simulado . . . 65

4 Equa¸cões de Estima¸cão para Séries Temporais 67 4.1 Nota¸cão . . . 67

4.2 Antecedentes . . . 68

4.2.1 Modelos ARMA . . . 68

4.2.2 Modelos ARCH . . . 69

4.3 Modelos tipo ARMA . . . . 70

4.3.1 Dados de contagem . . . 72

4.3.2 Estima¸c˜ao . . . 72

4.4 Modelo de Zeger . . . 74

4.5 Equa¸c˜oes de estima¸c˜ao para modelos ARCH . . . 79

5 Equa¸cões de estima¸cão para dados circulares longitudinais 81 5.1 Representa¸cão gráfica e conceitos básicos . . . 82

5.2 Modelos probabil´ısticos . . . 84

5.2.1 Distribui¸c˜ao uniforme circular . . . 85

5.2.2 Distribui¸c˜ao von Mises . . . 85

5.2.3 Distribui¸c˜ao normal arqueada . . . 88

5.2.4 Rela¸c˜oes entre as distribui¸c˜oes uniforme circular, von Mises e normal arqueada . . . 88

5.2.5 Aplica¸c˜ao . . . 89

5.3 Modelos de regress˜ao . . . 91

5.4 Equa¸c˜oes de estima¸c˜ao para dados circulares . . . 93

5.4.1 Modelagem da m´edia circular . . . 94

5.4.2 Modelo para a média circular e para o parâmetro de concentra¸cão . . . 97

5.5 Aplica¸c˜ao . . . 98

5.5.1 Constru¸c˜ao do modelo . . . 99

(7)

A Alguns resultados assint´oticos 107

A.1 Complemento . . . 110

A.2 Aplica¸c˜ao . . . 112

A.3 Demonstra¸c˜oes . . . 115

A.3.1 Prova do Teorema 13 . . . 115

B Demonstra¸c˜oes - EEG 121 C Fun¸c˜oes de Bessel 125 C.1 Derivadas de I0, I1 e A1 . . . 125

C.2 C´alculo das fun¸c˜oes . . . 126

C.2.1 F´ormulas de recorrˆencia . . . 126

C.2.2 Avalia¸c˜ao de I0 e I1 . . . 126

C.2.3 Avalia¸c˜ao da fun¸c˜ao inversa de A1 . . . 127

D Resultados adicionais relativos a dados circulares 129 D.1 Intervalos de conﬁan¸ca . . . 129

D.2 Outros resultados . . . 130

D.3 Dependˆencia entre vari´aveis circulares . . . 130

(8)

(9)

Pref´

acio

Há na literatura Estat´ıstica uma grande variedade de técnicas para o tra-tamento de dados longitudinais com variável resposta gaussiana. A existência de uma versão multivariada da distribui¸cão normal com boas propriedades inferenciais, facilita o estudo desse caso. Abandonando-se a suposi¸cão de nor-malidade da variável resposta, uma série de dificuldades pode surgir devido `

a escassez de distribui¸cões multivariadas alternativas com tais propriedades1. Dentre as várias alternativas de tratamentos para dados longitudinais, duas assumem um papel de destaque. A primeira prevê a modelagem pro-babil´ıstica, estipulando, a priori, uma distribui¸cão multivariada de probabi-lidade, adequada à modelagem dos dados; baseado nessa distribui¸cão, faz-se a inferência sobre os parâmetros do modelo (por exemplo, através do método de máxima verossimilhan¸ca). As dificuldades dessa abordagem estão ligadas `

a defini¸cão do modelo probabil´ıstico, ou seja, na gera¸cão de um modelo mul-tivariado que se ajusta aos dados e com parâmetros facilmente estimáveis e interpretáveis. A segunda possibilidade baseia-se no uso de fun¸cões de es-tima¸cão2_{para a obten¸c˜}_{ao das estimativas dos parˆ}_{ametros de interesse de um}

modelo multivariado que não é, necessariamente, completamente conhecido. Uma fun¸cão de estima¸cão é uma fun¸cão mensurável dos dados e dos parâmetros de interesse. Neste texto estamos interessados nas fun¸cões de estima¸cão que, quando vistas como fun¸cões dos parâmetros, têm ra´ızes que são estimadores dos parâmetros de interesse do modelo. Um ponto impor-tante no estudo dessas fun¸cões é estabelecer condi¸cões que garantam que os estimadores obtidos possuam boas propriedades. Em geral, deseja-se a cons-tru¸cão de estimadores consistentes e com distribui¸cão assintótica conhecida. O foco deste texto é a constru¸cão de fun¸cões de estima¸cão para a análise

1_{Em Joe (1997) encontra-se uma s´}_{erie de t´}_{ecnicas para gera¸c˜}_{ao de distribui¸c˜}_oes

multi-variadas

(10)

de diferentes problemas. O Cap´ıtulo 1 apresenta a teoria geral de fun¸cões de estima¸cão e discute aspectos ligados à otimalidade e constru¸cão de fun¸cões de estima¸cão. O Cap´ıtulo 2 desenvolve a teoria de quase-verossimilhan¸ca a partir do contexto de fun¸cões de estima¸cão. No Cap´ıtulo 3, são apresen-tadas as equa¸cões de estima¸cão generalizadas e, no 4, técnicas baseadas na teoria das fun¸cões de estima¸cão para a estima¸cão de parâmetros de modelos para séries temporais. Por fim, no Cap´ıtulo 5 são desenvolvidas fun¸cões de estima¸cão para a análise de dados circulares longitudinais.

(11)

Fun¸

c˜

oes de estima¸

c˜

ao

Neste cap´ıtulo, apresentamos uma defini¸cão formal de fun¸cões de estima¸cão assim como várias defini¸cões relacionadas a estas fun¸cões. Ressaltamos as defini¸cões de fun¸cão de estima¸cão regular (Defini¸cão 3), informa¸cão de Go-dambe (Defini¸cão 4), fun¸cão de estima¸cão linear (Defini¸cão 8) e fun¸cão de estima¸cão linear ótima (1.6). Com base em fun¸cões de estima¸cão regulares, estabelecemos propriedades assintóticas de estimadores obtidos a partir das respectivas equa¸cões de estima¸cão (Teoremas 1 e 2). Vale observar a im-portância destas defini¸cões uma vez que elas servem de alicerce para toda a teoria desenvolvida nos demais cap´ıtulos deste texto.

1.1 Fun¸

c˜

oes de estima¸

c˜

ao

Seja X ∈ Rt um espa¸co amostral sobre o qual deﬁne-se uma fam´ılia ℘ =

{

Pθ : θ ∈ Θ ⊆ Rp} _{de distribui¸c˜}_{oes de probabilidade indexadas por um}

pa-rˆametro θ desconhecido. Por deﬁni¸c˜ao, uma fun¸c˜ao ψ :X × Θ → Rp_{, ´}_{e uma}

fun¸cão de estima¸c˜ao se para cada θ∈ Θ, ψ(., θ) é uma variável aleatória.1 Assumindo a existˆencia de uma amostra de n vetores aleat´orios inde-pendentes: yi = (yi1, yi2, . . . , yiti)

⊤_{, i = 1, 2, . . . , n, onde a cada unidade}

amostral i associa-se uma fun¸c˜ao de estima¸c˜ao ψ_i, estende-se o conceito de

1_{Seja (}_{X , A) um espa¸co mensur´avel, sobre o qual define-se um modelo estat´ıstico}

(X , A, ℘), com X ∈ Rt _{e ℘ =} {

Pθ : θ ∈ Θ ⊆ Rp} _{e seja ν uma medida σ-finita sobre}

(X , A). Por defini¸c˜ao, uma fun¸c˜ao ψ : X × Θ → Rp_{, ´}_{e uma fun¸c˜}_{ao de estima¸c˜}_{ao se para}

cada θ∈ Θ, ψ(., θ) é uma fun¸cão mensurável.

(12)

fun¸c˜ao de estima¸c˜ao para a amostra por meio de Ψn(y; θ) = n ∑ i=1 ψ_i(yi; θ) , onde y = (y1, y2, . . . , yn)⊤.

A defini¸cão de fun¸cão de estima¸cão é bastante ampla, englobando os mais variados tipos de fun¸cões. O estudo das fun¸cões de estima¸cão que apresentamos neste texto, restringe-se àquelas cujas ra´ızes são estimadores dos parâmetros de interesse, ou seja:

Ψn

(

y; ˆθn

)

= 0. (1.1)

A expressão (1.1) é denominada equa¸cão de estima¸cão.

Exemplo 1 . Considere uma amostra y1, . . . , yn, de vari´aveis aleat´orias

in-dependentes, na qual p (yi; θ) ´e a fun¸c˜ao densidade de probabilidade regular

associada a yi; nessas condi¸c˜oes, a fun¸c˜ao escore

Ψn(y; θ) = n ∑ i=1 ∂ ∂θlog p (yi; θ)

é uma fun¸cão de estima¸cão.

Exemplo 2 . Seja y1, . . . , yn, uma amostra de vari´aveis aleat´orias

indepen-dentes com E (yi) = µi(θ), µi duplamente diferenci´avel, e Var (yi) = σ2.

Deﬁna Ψn(y; θ) = n ∑ i=1 ∂µi ∂θ (θ){yi− µi(θ)} , ent˜ao, Ψn ( y; ˆθn )

= 0 s˜ao equa¸cões de estima¸cão. Essas equa¸cões são conhe-cidas como equa¸cões normais e suas ra´ızes são os estimadores de m´ınimos quadrados de θ.

Por facilidade de nota¸cão, denotaremos a fun¸cão de estima¸c˜ao por Ψ (θ) sempre que isso não prejudicar a clareza do texto.

Defini¸c˜ao 1 . Ψ(θ) e Φ(θ) s˜ao fun¸cões de estima¸cão equivalentes se

Ψ(θ) = C(θ)Φ(θ),

(13)

Exemplo 3 . A fun¸cão escore de uma distribui¸cão exponencial de média θ ( −n θ + n ∑ i=1 yi θ2 ) ´e equivalente a Ψ(θ) = n− n ∑ i=1 yi θ.

A partir da Defini¸cão 1 é poss´ıvel concluir que há infinitas fun¸cões de estima¸cão equivalentes a uma particular fun¸cão. Al´em disso, do fato de C(θ) ser de posto completo, pode-se afirmar que se ˆθn é uma raiz de uma fun¸cão

de estima¸cão, ele será raiz de todas as fun¸cões de estima¸cão equivalentes. Outra defini¸cão importante para o desenvolvimento da teoria de fun¸cões de estima¸cão é o de fun¸cão de estima¸cão não viciada.

Defini¸c˜ao 2 . Uma fun¸cão de estima¸c˜ao Ψ ser´a denominada não viciada se

Eθ {Ψ(θ)} = 0 ∀ θ ∈ Θ.

Na defini¸cão anterior entende-se que no caso de variáveis aleatórias abso-lutamente cont´ınuas, teremos

Eθ {Ψ(θ)} =

∫

χ

Ψ(θ)p(y, θ)dy,

sendo p(y, θ) a fun¸cão densidade de probabilidade de y. Se as vari´aveis aleatórias forem discretas substituimos, na expressão acima, a integral por somat´orio sendo que p(y, θ) ser´a então a fun¸c˜ao de probabilidade de y.

Note que as fun¸cões de estima¸cão definidas no Exemplo 3 são não viciadas. Na verdade as fun¸cões escores oriundas de variáveis aleatórias com fun¸cões densidade de probabildade, ou fun¸cões de probabilidade, regulares são não viciadas.

Como foi salientado, é necessário estebelecer condi¸cões sob as quais as ra´ızes de uma fun¸cão de estima¸cão possuam boas propriedades assintóticas. Nessa dire¸cão, surgem os conceitos de fun¸cão de estima¸cão regular e de in-forma¸cão de Godambe, que serão explicitados a seguir. O estudo das proprie-dades assintóticas dos estimadores será baseado em propriedades das fun¸cões de estima¸cão. Uma das propriedades mais comuns é que a fun¸cão de es-tima¸cão seja regular2_.

Deﬁni¸c˜ao 3 . Uma fun¸c˜ao Ψ (y; θ) = (Ψ1(y; θ) , Ψ2(y; θ) , . . . , Ψp(y; θ))⊤,

Ψ :X × Θ → Rp _´_{e dita regular se para todo θ = (θ}

1, . . . , θp)⊤∈ Θ,

(14)

i. a fun¸cão é não viciada;

ii. a derivada parcial ∂Ψ (y; θ) /∂θi existe quase certamente para y∈ X ;

iii. ´e poss´ıvel permutar o sinal de integra¸c˜ao e diferencia¸c˜ao da seguinte forma:

∂ ∂θi

∫

X Ψ(y; θ)p(y, θ)dy =

∫

X

∂

∂θi {Ψ(y; θ)p(y, θ)} dy;

iv. Eθ {Ψi(y; θ) Ψj(y; θ)} ∈ R, para i, j = 1, . . . , p e

VΨ(θ) = Eθ{Ψ (y; θ) Ψ⊤(y; θ)}

é positiva definida e v. Eθ { ∂ψ_i ∂θr (y; θ) ∂ψ_j ∂θs (y; θ) } ∈ R e SΨ (θ) = Eθ{∇θΨ (y; θ)} é não singular, onde ∇θ representa o operador gradiente em rela¸cão a θ, ou seja, ∇θΨ (y; θ) = ∂Ψ (y; θ) /∂θ⊤. Aqui,

∂Ψ ∂θ⊤(y; θ) =        ∂ψ₁ ∂θ1 (y; θ) . . . ∂ψ₁ ∂θp (y; θ) .. . ... ... ∂ψ_p ∂θ1 (y; θ) . . . ∂ψ_p ∂θp (y; θ)        = ( ∂Ψ ∂θ (y; θ) )_⊤ .

Quando o parˆametro de interesse ´e unidimensional, temos que as propri-edade (iv) e (v) tornam-se, respectivamente:

0 < Eθ { Ψ2(θ)}<∞ e − ∞ < Eθ ( ∂Ψ ∂θ ) <∞.

Com rela¸cão à Defini¸cão 3, note que nenhum resultado assintótico é re-querido no estabelecimento das condi¸c˜oes i a v. Al´em disto, em geral, assu-mimos sem demonstra¸cão que a condi¸c˜ao iii ´e verdadeira, uma vez que na prática em poucas situa¸cões conhecemos a distribui¸c˜ao de yi=(yi1, . . . , yiti)⊤, i = 1, . . . , n (ver discuss˜ao na Se¸cão 1.2).

(15)

Exemplo 4 . Seja yi, i = 1,· · · , n, uma amostra de vari´aveis aleat´orias

independentes e identicamente distribu´ıdas de uma distribui¸cão com média zero, variância θ e com quarto momento finito e não nulo. Considere a seguinte fun¸cão de estima¸cão para θ:

Ψ(θ) = n ∑ i=1 ( y_i2− θ). A fun¸c˜ao acima ´e regular, uma vez que:

i. Eθ{Ψ(θ)} = 0, ou seja a fun¸cão de estima¸cão é não viciada.

ii. ∂Ψ

∂θ =−n: existe q.c.

iii. Assuma que a propriedade de permuta¸cão entre a integra¸cão e a diferen-cia¸cão seja válida.

iv. 0 < V (θ) = Var{Ψ(θ)} = nVar (y2₁) < ∞: por hip´otese v. S(θ) = E { ∂Ψ ∂θ } =−n < 0.

O estimador obtido a partir dessa fun¸cão de estima¸cão é dado por

ˆ θn = n ∑ i=1 y_i2 n .

Temos ainda que E (θˆn

) = θ e Var(θˆn ) = nVar (y 2 1) n2 = V (θˆn ) S2(_θˆ n ). A raz˜ao JΨ(θ) = S2_(θ)

V (θ) recebe o nome de Informa¸c˜ao de Godambe e tem

um papel de destaque na teoria das fun¸cões de estima¸cão. A seguir definimos formalmente a Informa¸cão de Godambe.

(16)

Defini¸c˜ao 4 . Seja Ψ(y; θ) uma fun¸cão de estima¸cão regular. Define-se a matriz de informa¸c˜ao de Godambe de θ associada a Ψ por

JΨ(θ) = S⊤Ψ(θ)V−1Ψ(θ)SΨ(θ).

A informa¸cão de Godambe (ver Jørgensen e Laboriau, 1994, por exemplo) desempenha o papel da informa¸cão de Fisher para as fun¸cões de estima¸cão regulares.

O componente SΨ(θ) da matriz de informa¸cão de Godambe está rela-cionada à derivada parcial da fun¸cão de estima¸cão em rela¸cão aos parˆ ame-tros. É desejável que uma pequena varia¸cão no vetor paramétrico acarrete uma grande varia¸cão no valor da fun¸cão de estima¸cão, pois quanto maior essa varia¸cão, mais eficiente a fun¸cão será na estima¸cão do parâmetro. No caso unidimensional espera-se que S(θ) assuma um valor (em m´odulo) alto. SΨ(θ) é denominada de matriz de sensibilidade da fun¸cão de estima¸cão.

A componente VΨ(θ) recebe o nome de matriz de variabilidade. Espera-se que a fun¸cão de estima¸cão apresente pequena variabilidade pois dessa forma garante-se que no verdadeiro valor do parâmetro o valor da fun¸cão de estima¸cão aproxima-se de seu valor médio que é nulo.

A fun¸cão escore, obtida a partir de uma fun¸cão densidade de probabi-lidade (ou fun¸cão de probabilidade, no caso discreto) regular, satisfaz as propriedades da Defini¸cão 3 e, al´_{em disso, SΨ(θ) = −VΨ(θ), o que faz} com que sua matriz de informa¸cão de Godambe coincida com a matriz de informa¸cão de Fisher. Retomaremos essa discussão na Se¸cão 1.2.

Denominamos ℜθ à classe de todas as fun¸cões de estima¸cão regulares de

θ.

O próximo teorema estabelece condi¸cões para a normalidade assintótica de estimadores obtidos a partir de fun¸cões de estima¸cão regulares.

Teorema 1 . (Jørgensen e Laboriau, 1994). Seja θ um parˆametro unidi-mensional e considere a amostra de vari´aveis aleat´orias independentes y1, . . . ,

yn com y = (y1, y2, . . . , yn)⊤. Uma sequˆencia de ra´ızes

{

ˆ

θn

}_∞

n=1 associada a

uma fun¸cão de estima¸cão regular Ψn(y; θ) = n ∑ i=1 ψi(yi; θ) e tal que ˆ θn→ θP é assintoticamente normal √ n(ˆθn− θ)→ ND ( 0, J−1_Ψ (θ)),

(17)

em que JΨ= S2(θ) /V (θ) e S (θ) = lim n→∞ n ∑ i=1 Sψi n (θ); Sψi(θ) = Eθ{∇θψi(yi; θ)} ; V (θ) = lim n→∞ n ∑ i=1 Vψi n (θ) e Vψi(θ) = Eθ { ψ2_i (yi; θ) } .

Examinando-se o Teorema 1, nota-se que, no caso do parâmetro ser unidi-mensional, dada uma fun¸cão de estima¸cão regular, basta provar a consistência de suas ra´ızes para que sua distribui¸cão assintótica seja conhecida. Há na literatura estat´ıstica uma grande variedade de resultados nessa dire¸cão.

No caso de θ ser multidimensional, sob condi¸c˜oes de regularidade, a ma-triz JΨ = S⊤(θ) V−1(θ) S (θ) , onde S (θ) = lim n→∞ Sn(θ) n = limn→∞ n ∑ i=1 Sψi(θ) n e V (θ) = lim n→∞ Vn(θ) n = limn→∞ n ∑ i=1 Vψi(θ) n , com Sψi(θ) = Eθ { ∇θψi(yi; θ) } e Vψi(θ) = Eθ { ψ_i(yi; θ) ψ⊤i (yi; θ) } ,

desempenha o papel de uma matriz de informa¸c˜ao de Godambe assint´otica associada a Ψn.

Teorema 2 .

Considerando-se

a. yi, i = 1, . . . , n, vetores aleat´orios t-dimensionais independentes;

b. ψ_i(θ) = (ψi1, . . . , ψip)⊤, i = 1, . . . , n, fun¸c˜oes de estima¸c˜ao regulares;

c. Ψn(θ) = n ∑ i=1 ψ_i(θ) ; d. para δ > 0, 1 n n ∑ i=1 sup h:∥h∥≤δ ∂ψ_i ∂θ⊤(θ + h)− ∂ψ_i ∂θ⊤(θ) → ϕP δ,

(18)

conforme n→ ∞, com ϕδ → ∞ quando δ → ∞; e. que quando n→ ∞ 1 n ∂Ψn ∂θ⊤(θ) P → S (θ) ;

f. n−1∑n_i=1Cov(ψ_i)→ V(θ), positiva deﬁnida; g. que quando n→ ∞, Ψ_√n(θ) n D → Np(0; V(θ)) ; h. ˆθn como a solu¸c˜ao de Ψn(w) = 0, w ∈ Θ

e sob condi¸cões que garantam a existência de uma seqüência de ra´ızes de

Ψ(w) que seja limitada em probabilidade, ou restrita a um conjunto compacto

q.c. quando n tende para inﬁnito, vem que

ˆ θn → θ eP √ n ( ˆ θn− θ ) _D → N(0; J−1_Ψ ) .

Prova da normalidade assint´otica3_{: Da demonstra¸c˜}_{ao da consistˆ}_{encia de}

ˆ θn vem que √ n(θˆn− θ ) =−S(ˆθn )₋₁{_Ψ_n_(θ) √ n } + op(1). (1.2)

Admitindo como v´alidas, por exemplo, as hip´oteses do Teorema Limite Central de Lyapunov (ver, por exemplo, Sen e Singer, 1993), temos:

Ψ_√n(θ) n = n ∑ i=1 ψ (y_√i, θ) n D → Np(0; V(θ)) .

Aplicando o teorema de Slutsky ao resultado 1.2 segue o resultado.• Como textos introdutórios ao assunto, recomenda-se Godambe (1960), Godambe e Kale (1991), Godambe (1991), McLeish e Small (1988). Reco-menda-se também a leitura de Liang e Zeger (1995), Godambe (1997) e Li e Turtle (2000). Vale ressaltar que no artigo de Li e Turtle as fun¸cões de es-tima¸cão são utilizadas para estudar os modelos autorregressivos condicionais heteroscedáticos (ARCH) que abordamos no Cap´ıtulo 5. Nesse artigo os au-tores utilizam os resultados de Godambe (1985) e de Godambe e Thompson (1989) que estendem a teoria de equa¸cões de estima¸cão para o contexto de processos estocásticos.

3_{O Teorema 14 do Apˆ}_{endice A apresenta outras hip´}_{oteses que levam a um resultado}

(19)

1.2 Fun¸

c˜

ao Escore

Nesta se¸cão destacamos o papel da fun¸cão escore da teoria das fun¸cões de estima¸cão.

Deﬁni¸c˜ao 5 . Seja yi, i = 1,· · · , n uma amostra de vetores aleat´orios

in-dependentes e y = (y⊤₁,· · · , y_n⊤)⊤ com fun¸cão densidade ou fun¸cão de pro-babiidade p(y; θ). A fun¸cão de verossimilhan¸ca de θ é definida por L(θ) = p(y; θ).

Seja l(θ) = log L(θ), o logaritmo da fun¸c˜ao de verossimilhan¸ca de θ. Admita que ∂l(θ)/∂θ exista q.c.

Deﬁni¸c˜ao 6 . Seja l(θ) = log L(θ), o logaritmo da fun¸c˜ao de verossimilhan-¸

ca de θ. Admita que un(θ) = ∂l(θ)/∂θ exista q.c. Ent˜ao un ´e denominada

fun¸c˜ao escore de θ.

Se a fun¸cão escore satisfizer as condi¸cões da Defini¸cão 3, ela é denominada de fun¸cão escore regular.

Teorema 3 . Se un(θ) é uma fun¸cão escore regular, então:

i. un(θ) ´e n˜ao viciada

ii. Eθ{un(θ)u⊤n(θ)

} = −Eθ { ∂un ∂θ (θ) }

, ou seja a matriz de variabilidade ´

e, a menos do sinal, igual `a matriz de sensibilidade.

Do resultado anterior temos que a matriz de informa¸cão de Godambe de uma fun¸cão escore é dada por

in(θ) = Eθ

{

un(θ)u⊤n(θ)

}

.

A matriz i ´e conhecida como matriz de informa¸c˜ao de Fisher de θ.

O Teorema 4 estabelece a rela¸cão existente entre a fun¸cão escore regu-lar e as demais fun¸cões de estima¸cão regulares para um dado parâmetro. Em resumo, ele prova, para o caso unidimensional e uniparamétrico, que a fun¸cão escore regular, quando existe, é uma fun¸cão de estima¸cão ótima e consequentemente que a informa¸cão de Fisher é um limite superior para a informa¸cão de Godambe. Os resultados do teorema podem ser estendidos para o caso multivariado e multiparamétrico (ver, por exemplo, Godambe, 1985 e Li e Turtle, 2000).

(20)

Teorema 4 . (Godambe, 1960) Seja Θ um intervalo real aberto e p(y; θ)

a fun¸c˜ao densidade de probabilidade de y. Se un(θ) = ∂p(y, θ)/∂θ, y =

(y1,· · · , yn)⊤ for a fun¸cão escore regular de θ, então para toda fun¸cão de

estima¸c˜ao regular, Ψ, de θ vale que Eθ{Ψ2(θ)} E_θ2 { ∂Ψ ∂θ(y, θ) } ≥ 1 Eθ{u2n(θ)} ,

em outras palavras: J_Ψ−1 ≥ J_u−1_n ∀ Ψ ∈ ℜθ. A igualdade ´e atingida quando

Ψ é uma fun¸cão de estima¸cão equivalente à un.

Prova: Como Ψ(θ) ´e regular, temos

∫ Ψ(θ)p(y; θ)dy = 0 ⇒ 0 = ∂ ∂θ ∫ Ψ(θ)p(y; θ)dy = ∫ _∂ ∂θ {Ψ(θ)p(y; θ)} dy = ∫ _∂Ψ ∂θ(θ)p(y; θ)dy + ∫ Ψ(θ)∂p ∂θ(y; θ)dy, mas ∂p ∂θ(y; θ) = p(y; θ) p(y; θ) ∂p ∂θ(y; θ) = p(y; θ) ∂ log p

∂θ (y; θ) = p(y; θ)un(θ).

Ent˜ao:

0 =

∫ _∂Ψ

∂θ(θ)p(y; θ)dy +

∫

Ψ(θ)un(θ)p(y; θ)dy.

Contudo, _∫

Ψ(θ)un(θ)p(y; θ)dy = Cov{Ψ(θ); un(θ)} .

Ent˜ao 0 = Eθ { ∂Ψ ∂θ(θ) } + Cov{Ψ(θ); un(θ)} . ⇒ E2 θ { ∂Ψ ∂θ(θ) } = Cov2{Ψ(θ); un(θ)} ≤ Eθ { Ψ2(θ)}Eθ { u2_n(θ)}.•

Esse resultado induz ao uso da fun¸cão escore regular quando temos gran-des amostras. A questão é que nem sempre conhecemos a verossimilhan¸ca de nossos dados. Isso é muito mais frequente quando temos dados multiva-ridados não normais. Nesses casos, duas abordagens podem ser utilizadas:

(21)

i. Encontrar uma distribui¸c˜ao de probabilidades multivariada que descreva as observa¸c˜oes ou

ii. Utilizar uma fun¸c˜ao de estima¸c˜ao sub-´otima.

A primeira abordagem esbarra em alguns problemas de ordem prática: como gerar uma distribui¸cão de probabilidades multivariada, que seja ampla o suficiente para acomodar a estrutura de dependência dos dados e simples o suficiente para permitir a estima¸cão dos parâmetros do modelo. Joe (1997) descreve várias técnicas de gera¸cão de distribui¸cões multivariadas4_{. Em boa}

parte dos casos, o resultado é uma distribui¸cão com alto grau de complexi-dade e que exige procedimentos numéricos não triviais para a estima¸cão dos parâmetros.

A segunda abordagem é mais pragmática. Em várias situa¸cões, é poss´ıvel encontrar fun¸cões de estima¸cão que apesar de não serem ótimas têm um bom desempenho para grandes amostras e que permitem a estima¸cão de parâmetros através de procedimentos numéricos relativamente simples.

A escolha entre as duas abordagens deve levar em conta o particular conjunto de dados e o tempo dispon´ıvel para a pesquisa e implementa¸c˜ao computacional de uma verossimilhan¸ca multivariada.

1.3 Fun¸

c˜

ao de estima¸

c˜

ao ´

otima

Um conceito importante, desenvolvido por Godambe (1960), é o de otimali-dade de uma fun¸cão de estima¸c˜ao regular. No caso θ unidimensional, pode-se definir uma fun¸cão de estima¸cão ótima como aquela cujas ra´ızes possuem variância assintótica m´ınima. Esse conceito pode ser estendido para o caso multidimensional através da introdu¸cão de alguma ordena¸cão das matrizes de covariância assintóticas.

Defini¸c˜ao 7 . Seja J−1_Ψ a matriz de covariância assintótica de um estimador

ˆ

θ obtido a partir de uma fun¸cão de estima¸c˜ao Ψ. Se existir uma fun¸cão de estima¸c˜ao Ψ∗ que gera um estimador de θ com matriz de covariˆancia assint´otica J−1_Ψ∗, tal que J−1_Ψ −J−1_Ψ∗ seja n˜ao-negativa definida para qualquer Ψ, ent˜ao Ψ∗ é dita ser uma fun¸cão de estima¸cão ´otima para θ (M-otimalidade).

(22)

Chandrasekar and Kale (1984) provam que, sob condi¸cões gerais, as fun-¸cões de estima¸cão ótimas obtidas pelos critérios tr(J−1_Ψ ) ≥ tr(J−1_Ψ∗

)

(T-otimalidade) e J−1_Ψ ≥J−1_Ψ∗ (D-otimalidade) coincidem com a da Deﬁni¸c˜ao

7, desde que exista uma ´otima segundo esses crit´erios. ´

E um resultado conhecido que a M-otimalidade implica em T e D-o-timalidade, desde que existam fun¸cões ótimas segundo esses critérios. Se demonstrarmos que T implica em otimalidade e que D implica em M-otimalidade, estaremos demonstrando o resultado.

Lema 1 . Se Ψ∗ é uma fun¸cão de estima¸cão regular T-ótima e se existe uma fun¸cão de estima¸cão regular M-ótima, ent˜ao Ψ∗ é M-ótima

Prova: Como Ψ∗ é T-ótima, temos que tr{J−1 Ψ∗ } ≤ tr{J−1 Ψ } , ∀ Ψ ∈ ℜ, θ ∈ Θ (1.3) Seja Φ∈ ℜ uma fun¸cão de estima¸cão M-ótima; então, ∀ Ψ ∈ ℜ, J−1

Ψ −J−1Φ é não negativa definida. Isso implica que

tr{J−1_Ψ}≥ tr{J−1_Φ}, ∀ Ψ ∈ ℜ, θ ∈ Θ

em particular isso vale para Ψ = Ψ∗. Ent˜ao tr{J−1

Ψ∗

}

≥ tr{J−1_Φ}, ∀ Ψ ∈ ℜ, θ ∈ Θ

Aplicando (1.3), temos que

tr(J−1

Ψ∗ − J−1Φ

)

= 0

Pode-se demonstrar (ver Graybill, 1969, por exemplo) que, se tr(A) = 0 e A é uma matriz não negativa definida, ent˜ao A = 0. Portanto J−1

Ψ∗ = J−1Ψ, ou seja essas fun¸c˜oes s˜ao equivalentes, logo segue o resultado. •

Lema 2 . (Chandrasekar e Kale, 1984). Se A e B s˜ao duas matrizes sim´etricas de mesma dimens˜ao tais que:

i. A ´e positiva deﬁnida,

(23)

iii. |A + B| = |A|,

ent˜ao B = 0.

Lema 3 . Se Ψ∗ é uma fun¸cão de estima¸cão regular D-ótima e se existe uma fun¸cão de estima¸cão regular M-ótima, ent˜ao Ψ∗ é M-ótima

Prova: Como Ψ∗ ´e D-´otima, temos

|J−1

Ψ∗| ≤ |J−1Ψ| ∀Ψ∈ ℜ, θ ∈ Θ. (1.4) Seja Φ uma fun¸c˜ao de estima¸cão M-ótima, então

J−1

Ψ −J−1Φ é não negativa definida ∀ Ψ ∈ ℜ, (1.5) o que implica que |J−1_{Ψ| ≥ |}J−1_{Φ |}, ∀ Ψ ∈ ℜ, em particular, tome Ψ = Ψ∗, então, utilizando (1.4), temos

|J−1

Ψ∗| ≥ |J−1Φ | ⇒ |J−1Ψ∗| = |J−1Ψ|. Al´em disso, (1.5) implica que J−1

Ψ∗− J−1Φ é não negativa definida. Aplicando o Lema 2, com A = J−1_Φ e B = J−1

Ψ∗− J−1Φ, temos que J−1Ψ∗ = J−1

Ψ, ou seja essas fun¸c˜oes s˜ao equivalentes, logo segue o resultado. •

Os Lemas 1 e 3 implicam na equivalência das defini¸cões de otimalidade, no caso de fun¸cões de estima¸cão regulares.

Outro resultado importante é que, no caso regular, a fun¸cão escore sempre será ótima. Isso faz com que a matriz de informa¸cão de Fisher, quando existir, cumpra o papel de limite superior para as matrizes de informa¸cão de Godambe.

´

E importante ressaltar que se Ψ∗é uma fun¸cão de estima¸cão ótima, então qualquer fun¸cão de estima¸cão equivalente também o será.

1.4 Fun¸

c˜

ao de estima¸

c˜

ao linear

Nesta se¸cão iremos apresentar um método de gera¸cão de fun¸cões de estima¸cão que são ótimas em uma sub-classe de fun¸cões regulares.

Crowder(1987) estuda uma classe particular de fun¸cões de estima¸cão que passaremos a chamar de fun¸cões de estima¸cão lineares.

(24)

Deﬁni¸c˜ao 8 . Seja yi, i = 1,· · · , n uma amostra de vetores aleat´orios

inde-pendentes. Seja θ um vetor de parˆametros desconhecidos de dimensão p× 1 e ui(yi; θ), i = 1,· · · , n fun¸cões de dimensão r × 1 (r não necessariamente

igual a p) que satisfazem as condi¸cões da Defini¸c˜ao 3 para θ. Uma fun¸cão de estima¸c˜ao linear gerada por ui pode ser definida como:

n

∑

i=1

Qi(θ)ui(yi, θ),

onde Qi é uma matriz de dimensão p× r não estocástica, não singular, de

pesos que, eventualmente, pode ser fun¸c˜ao de θ e ui, i = 1, 2, . . . , n, s˜ao

vetores mutuamente independentes.

Por simplicidade, chame essa classe de L. O autor mostra que a fun¸cão de estima¸cão ótima dentre as da classeL é obtida quando a matriz de pesos é dada por Q∗_i_{(θ) = Eθ} ( ∂ui ∂θ ) Cov−1 θ (ui). (1.6)

Exemplo 5 . Sejam y1, ..., ynvari´aveis aleat´orias independentes com Var(yi) =

σ2 _{e E (y}

i) = µi = x⊤i β com xi sendo vetores não aleatórios de covariáveis.

A fun¸cão de estima¸cão ótima na classe L(y − µ), com y = (y1,· · · , yn)⊤ e

µ = (µ1,· · · , µn)⊤ ´e dada por

Ψ∗_n= σ−2X⊤(y− Xβ),

onde X = (x1,· · · , xn)⊤. Trata-se de uma fun¸c˜ao de estima¸c˜ao equivalente

`

a obtida a partir da aplica¸c˜ao do m´etodo de m´ınimos quadrados aos dados.

Exemplo 6 . Considere uma amostra de vari´aveis aleat´orias independen-tes, yi, i = 1, 2, . . . , n, de tal modo que E (yi) = µi = hi

(

x⊤_i β) = hi(ηi) e

Var (yi) = σ2ci(µi), onde xi é um vetor de covariáveis associado a yi; β é um

vetor p-dimensional de parâmetros desconhecidos; hi(·) é uma fun¸cão

dupla-mente diferenciável e invers´ıvel e ci(·) é uma fun¸cão positiva, i = 1, 2, . . . , n.

Considere tamb´em a fam´ılia de fun¸c˜oes de estima¸c˜ao dada por Ψn(β) =

Q (β) u (y, β), onde Q (β) ´e uma fun¸c˜ao de β e u (y, β) = y − µ, com

y = (y1, y2, . . . , yn) e µ = (µ1, µ2, . . . , µn). Obviamente tais fun¸c˜oes

perten-cem à classe L e assim, utilizando (1.6), vem que a fun¸cão de estima¸cão ´

otima nesta classe ´e

(25)

onde X = (x1, x2, . . . , xn)⊤, H = diag ∂µ_∂η1

1, . . . ,

∂µn

∂ηn e, por ﬁm, C =

diag{c1(µ1), c2(µ2), . . . , cn(µn)}. Note que (1.7) equivale `as equa¸c˜oes de

es-tima¸c˜ao sugeridas na teoria da quase-verossimilhan¸ca, desenvolvida por Wed-derburn (1974).

1.5 Equa¸

c˜

oes normais

O método dos m´ınimos quadrados é bastante popular no estudo de modelos de regressão. Em sua versão mais simples (m´ınimos quadrados ordinários para modelos lineares) os dados associados ao i-´esimo elemento amostral são representados por (yi, x⊤i ), no qual y1,· · · , ynsão variáveis aleatórias

indepen-dentes, homoced´asticas e n˜ao correlacionadas e xi ´e um vetor p-dimensional

de variáveis não aleatórias. A esses dados, associa-se o modelo: y = Xβ + ϵ, E (ϵ) = 0 Cov(ϵ) = σ2I,

na qual y = (yi,· · · , yn)⊤, X = (x1,· · · , xn)⊤, β = (β1,· · · , βp) ´e um vetor

de parˆametros e ϵ = (ϵ1,· · · , ϵn) ´e um vetor de erros aleat´orios.

O estimador de m´ınimos quadrados de β ´e aquele que minimiza D(β) = ϵ⊤ϵ = (y− Xβ)⊤(y− Xβ).

Diferenciando D com respeito `a β, temos que o estimador de m´ınimos qua-drados ´e dado pela raiz de

M(β) = X⊤y− (X⊤X)β.

Teorema 5 . Admitindo a validade da propriedade (iii) da Defini¸cão 3, e que X seja uma matriz de posto completo, temos que M(β) ´e uma fun¸cão de estima¸cão regular.

Prova: provaremos apenas as propriedades (iv) e (v) da Deﬁni¸c˜ao 3.

iv. ∂M ∂β (β) = −X ⊤_{X = E} { ∂M ∂β (β) }

, ´e uma matriz n˜ao singular, uma vez que X tem posto completo.

v. E {M⊤(β)M(β)}= σ2_X⊤_{X ´}_{e uma matriz positiva deﬁnida, uma vez que}

(26)

Observe que além de ser uma fun¸cão de estima¸cão regular, M(β) = X⊤y− (X⊤X)β = X⊤(y− Xβ) ∈ L(y − Xβ).

Isso nos permite especular sobre qual seria a fun¸cão de estima¸cão ótima na classe das lineares.

Teorema 6 . M(β) ´e uma fun¸cão de estima¸cão ótima em L(y − Xβ).

Prova: Seja u = y− Xβ, então ∂u/∂β = −X⊤. Por outro lado, E (uu⊤) = Cov(y) = σ2I. Logo uma fun¸cão de estima¸cão ótima em L(y − Xβ) é

Ψ∗_n(β) =−σ−2X⊤(y− Xβ). Tal fun¸cão é equivalente à

M(β) = X⊤y− X⊤Xβ.•

Isto mostra que as equa¸cões normais obtidas a partir do método de m´ınimos quadrados é ótima em uma classe de fun¸cões de estima¸cão regulares e lineares.

A informa¸c˜ao de Godambe associada `a M(β) ´e dada por Jn(β) = (−X⊤X)(σ2X⊤X)−1(−X⊤X) = σ−2(X⊤X).

Sob condi¸c˜oes gerais de regularidade, pode-se demonstrar que o estimador de m´ınimos quadrados ˆβ_n ´e consistente e

√

n( ˆβ_n− β)→ N(0; JD −1), onde J = limn→∞Jn(β)/n.

Para grandes amostras, a matriz de covariˆancia de ˆβ_n pode ser consisten-temente estimada por J−1_n ( ˆβ_n).

1.5.1 M´ınimos Quadrados Generalizados

O método dos m´ınimos quadrados pode ser estendido para situa¸cões mais gerais do que a descrita. Admita que Var(ϵ) = σ2A, sendo A uma matriz simétrica positiva definida.

Podemos utilizar o resultado (1.6) para construir uma fun¸cão de estima¸cão sub-ótima. Precisamos, num primeiro momento, encontrar uma fun¸cão para

(27)

gerar a classe das fun¸c˜oes de estima¸c˜ao lineares. A partir do modelo apre-sentado, temos que E (y) = Xβ, uma escolha natural para a fun¸c˜ao geradora ´

e

u(β) = y− Xβ. Temos ent˜ao:

∂u β (β) =−X ⊤_{= E} { ∂u β (β) } ,

al´em disso, Var(u) = σ2_{A. Segue ent˜}_{ao que a fun¸c˜}_{ao de estima¸c˜}_{ao ´}_{otima em}

L(u) ´e

Ψ∗_n(β) =−σ−2X⊤A−1(y− Xβ). Tal fun¸cão é equivalente à

MA(β) = X⊤A−1y− X⊤A−1Xβ.

Teorema 7 . Admitindo a validade da propriedade (iii) da Defini¸cão 3, e que X seja uma matriz de posto completo, temos que MA(β) é uma fun¸cão

de estima¸cão regular. Além disso, a matriz de informa¸c˜ao de Godambe de β associada `a MA é

Jn(β) = σ−2X⊤A−1X.

Sob condi¸c˜oes adicionais de regularidade ˆβ_n, obtido como raiz de MA ser´a consistente e _√

n( ˆβ_n− β)→ N(0; JD −1), onde J = lim

n→∞Jn(β)/n.

Note que MA(β) pode ser obtida a partir da minimiza¸c˜ao de D(β) = (y− Xβ)⊤A−1(y− Xβ),

(28)

(29)

Quase-verossimilhan¸

ca

Wedderburn (1974) propôs um método de estima¸cão de parâmetros de mo-delos de regressão para os quais não se conhece a distribui¸cão da variável resposta. Utilizando apenas informa¸cões sobre o comportamento da média da distribui¸cão em fun¸cão das variáveis independentes (modelo de regressão) e da rela¸cão entre a variância e a média, foi proposta uma fun¸cão de estima¸cão que, sob hipóteses gerais, leva a estimadores consistentes e assintoticamente normais dos parâmetros do modelo de regressão.

A teoria da quase-verossimilhan¸ca ´e uma extens˜ao dos modelos lineares generalizados. Neste cap´ıtulo, aborda-se a teoria da quase-verossimilhan¸ca, considerando-se tanto o caso uni como multidimensional.

2.1 Modelos lineares generalizados

Os Modelos Lineares Generalizados constituem uma teoria geral de regressão para variáveis respostas na fam´ılia exponencial de distribui¸cões. Nesta se¸cão, apresentamos a fam´ılia exponencial de distribui¸cões e os modelos lineares generalizados.

2.1.1 Fam´ılia exponencial de distribui¸

c˜

oes

Uma variável aleat´oria y pertence `a fam´ılia exponencial de distribui¸cões se para um dado valor ϕ, sua fun¸c˜ao densidade de probabilidade, ou fun¸cão de probabilidade, se a variável for discreta, puder ser escrita como

p(y; θ, ϕ) = exp [ϕ{yθ − b(θ)} + c(y; ϕ)] . (2.1) 29

(30)

Temos que

E (y) = µ = db

dθ(θ) e Var(y) = ϕ

−1_{v(µ), sendo v(µ) =} d2b

dθ2(θ),

sendo θ o parˆametro canônico da distribui¸c˜ao, ϕ−1 é denominado parâmetro de dispers˜ao e v(µ) a fun¸c˜ao de variância.

Seguem alguns exemplos de distribui¸c˜oes desta fam´ılia.

Distribui¸c˜ao Normal. Dado σ2_{, seja y} ∼ N (µ; σ2_), ∞ < y < ∞. A

fun¸c˜ao densidade de probabilidade de y pode ser escrita como

p(y; µ, σ2) = √1 2πσexp { −(y− µ)2 2σ2 } = exp [ 1 σ2 ( yµ− µ 2 2 ) − 1 2 { log(2πσ2) + y 2 σ2 }] .

Temos que θ = µ, b(θ) = θ₂2, ϕ = σ−2e c(y; ϕ) =−1₂ {log(2πϕ−1) + ϕy2_}.

Neste caso, v(µ) = 1.

Distribui¸c˜ao de Poisson. A vari´avel aleat´oria y, y = 0, 1, . . ., segue uma distribui¸c˜ao de Poisson de parˆametro µ se sua fun¸c˜ao de probabilidade for dada por

p(y; µ) = e

−µ_µy

y! = exp{(y log µ − µ) − log y!} .

Assim, θ = log(µ), b(θ) = eθ_{, ϕ = 1, c(y, ϕ) =}− log y! e v(µ) = µ.

Distribui¸cão Gama. A fun¸c˜ao densidade de probabilidade de uma variável aleat´oria y com distribui¸c˜ao gama de m´edia µ, y > 0 e para um dado parâmetro de dispers˜ao ϕ−1 é dada por

p(y; µ, ϕ) = 1 Γ(ϕ) ( ϕy µ )ϕ exp ( −ϕy µ ) log y = exp [ ϕ { −y µ+ log ( 1 µ )}

− log Γ(ϕ) + ϕ log(ϕy) − log y

]

.

Neste caso, θ = −1/µ, b(θ) = − log(−θ), c(y; ϕ) = − log Γ(ϕ) +

(31)

Distribui¸c˜ao de Bernoulli. Se y (y = 0, 1) segue uma distribui¸c˜ao de Bernoulli de m´edia µ, sua fun¸c˜ao de probabilidade ´e dada por

p(y; µ) = µy(1− µ)1−y = exp

{ y log ( µ 1− µ ) + log (1− µ) } .

Comparando com (2.1) vem que θ = log(₁_−µµ ), b(θ) =− log(1 + eθ)_,

ϕ = 1, c(y; ϕ) = 0 e v(µ) = µ(1− µ).

Uma propriedade importante da fam´ılia exponencial de distribui¸cões é que qualquer distribui¸cão desta fam´ılia pode ser caracterizada por sua fun¸cão de variância.

A fun¸cão escore de uma distribui¸cão desta classe é dada por

u(θ; ϕ, y) = ϕy− µ v(µ) .

2.1.2 Modelos lineares generalizados

Os modelos lineares generalizados (Paula, 2004 e McCullagh e Nelder, 1989, por exemplo, ) compõem uma teoria geral de regressão para o caso em que a distribui¸cão da variável resposta pertence à fam´ılia exponencial de distri-bui¸cões ou para o caso em que a fun¸cão densidade de probabilidade ou fun¸cão de probabilidade possa ser escrita na forma (2.1), independentemente de ϕ ser ou não conhecido.

Para deﬁnirmos um modelo linear generalizado, seja yi, i = 1,· · · , n, uma

amostra de variáveis aleatórias independentes, com distribui¸cão na classe da fam´ılia exponencial, com m´edia µi e parâmetro de dispers˜ao ϕ−1. Associado

`

a observa¸c˜ao i, admita a existˆencia de um vetor p-dimensional de covari´aveis ﬁxas, xi. Assuma que

g(µi) = x⊤i β = ηi,

na qual g(·) é uma fun¸cão monótona e diferenciável, denominada fun¸cão de liga¸c˜ao e β ´e um vetor p-dimensional de parâmetros desconhecidos.

A fun¸c˜ao escore de β ´e dada por

un(β) = ϕX⊤HW−1(y− µ), (2.2)

(32)

Deﬁnindo D⊤= X⊤H, temos que a matriz de informa¸c˜ao de Fisher de β ´e dada por

in(β) = ϕD⊤W−1D.

Apresentamos a seguir alguns modelos lineares generalizados.

Regress˜ao linear m´ultipla: Seja yi ∼ N (µi, σ2). Nesse caso, tomando a

fun¸c˜ao de liga¸c˜ao identidade, temos que µi = x⊤i β, o que corresponde

ao modelo de regress˜ao linear normal.

Regress˜ao log´ıstica: Seja yi uma vari´avel com distribui¸c˜ao Bernoulli de

parˆametro µi. Nesse caso,

g(µi) = log ( µi 1− µi ) .

Modelos log-lineares para dados de contagem: Nesse caso, assuma que yi siga uma distribui¸c˜ao de Poisson de m´edia µi. A fun¸c˜ao de

liga¸c˜ao correspondente ao modelo log-linear ´e g(µi) = log(µi).

Além desses exemplos, a teoria dos modelos lineares generalizados inclui uma grande variedade de outros modelos, como, por exemplo, modelos de regressão para variáveis positivas e assimétricas (distribui¸cões gama e normal inversa, por exemplo).

Sob condi¸c˜oes gerais de regularidade, demonstra-se que

√

n(βˆ− β)→ Np

(

0, ϕ−1J−1) `

a medida em que n tende a inﬁnito, sendo J = lim

n→∞

in(β)

n (ver Sen e Singer,

1993, por exemplo).

Algoritmo de estima¸c˜ao

Exceto em alguns casos espec´ıficos, como, por exemplo, a distribui¸cão normal para liga¸cão identidade, não há uma forma expl´ıcita para os estimadores de

β. As estimativas podem ser obtidas da aplica¸c˜ao de m´etodos iterativos. Um dos m´etodos utilizados ´e o scoring de Fisher, no qual o valor da estimativa de β no passo j + 1 do processo ´e dado por

(33)

sendo i(j)

n e u(j)n , respectivamente, a matriz de informa¸c˜ao de Fisher e a fun¸c˜ao

escore avaliadas no ponto β(j). Desenvolvendo (2.3), temos β(j+1) = β(j)+(D(j)TW−1D(j))−1D(j)T(y− µ(j)) =(D(j)TW−1D(j))−1D(j)TD(j)β(j)+(D(j)TW−1D(j))−1D(j)T(y− µ(j)) = ( D(j)TW−1D(j) )₋₁ D(j)Tz(j),

na qual, z(j) _{= D}(j)_β(j) _{+ (y} _{− µ}(j)_{) e o sobre-escrito (j) indica que as}

matrizes e vetores s˜ao avaliados no ponto β(j). Trata-se de um procedimento de m´ınimos quadrados reponderados.

Fun¸c˜ao desvio

O logaritmo da fun¸cão de verossimilhan¸ca da média de um modelo linear generalizado é dado por

L(µ; y) = ϕ

n

∑

i=1

[yiθ(µi)− b{θ(µi)} + c(yi; ϕ)] . (2.4)

A fun¸cão desvio é uma medida de qualidade de ajuste de um modelo linear generalizado constru´ıda a partir de (2.4). Assuma um caso extremo, no qual o modelo prevê com exatidão todos os valores da amostra. Nessa situa¸cão, teremos que o logaritmo da fun¸cão de verossimilhan¸ca, avaliado no valor previsto é dado por

L(y; y) = ϕ

n

∑

i=1

[yiθ(yi)− b{θ(yi)} + c(yi; ϕ)] . (2.5)

A fun¸cão desvio é definida como o dobro da distância entre o logaritmo da fun¸cão de verossimilhan¸ca avaliado na estimativa de máxima verossimilhan¸ca (ˆθ = θ(ˆµ)) e (2.5). A fun¸c˜ao é então definida por

D∗(y; ˆµ) = 2{L(y, y) − L(ˆµ; y)} = 2ϕ

n ∑ i=1 [ yi { θ(yi)− ˆθ } − b(ˆθ) + b{θ(yi)} ] .

Uma defini¸cão alternativa para a fun¸cão desvio é dada por

D(y; ˆµ) = 2 n ∑ i=1 [ yi { θ(yi)− ˆθ } − b(ˆθ) + b{θ(yi)} ] .

(34)

Tabela 2.1: Fun¸c˜ao desvio para alguns modelos lineares generalizados

Modelo Fun¸c˜ao desvio

Normal ∑n_i=1(yi− ˆµi)2

Poisson 2∑n_i=1{yilog(yi/ˆµi)− (yi− ˆµi)}

se yi = 0, sua respectiva parcela ´e 2ˆµi

2∑n_i=1({yilog(yi/niµˆi)

Binomial +(ni− yi) log{(1 − yi/ni)/(1− ˆµi)}

se yi = 0, sua parcela ´e −2nilog(1− ˆµi)

se yi = ni, sua parcela ´e−2nilog(ˆµi)

Gama 2∑n_i=1{− log(yi/ˆµi) + (yi− ˆµi)/ˆµi}, y > 0

Normal inversa ∑n_i=1(yi− ˆµi)2/(yiµˆ2i)

Quanto menor o valor de D, melhor ser´a o ajuste do modelo. Paula (2004) calcula a fun¸c˜ao desvio para alguns modelos lineares generalizados. A Tabela 2.1 resume as informa¸c˜oes fornecidas por Paula.

Na Tabela 2.2 são apresentadas algumas propriedades da fun¸cão desvio. São apresentadas as condi¸cões sob as quais podemos testar a adeqüa¸cão do modelo assumindo uma distribui¸c˜ao qui-quadrado com (n− p) graus de li-berdade para D.

Tabela 2.2: Propriedades assint´oticas da fun¸c˜ao desvio para alguns modelos lineares generalizados

Modelo Propriedade

Normal Se a variˆancia for constante, D∼ σ2_χ2

n−p

Poisson D ˜χ2_n_−p ´a medida em que os µi → ∞

Binomial D ˜χ2

(35)

Res´ıduos

Exceto para a distribui¸cão normal, os modelos lineares generalizados tendem a ser heterocedásticos, uma vez que a variância da variável resposta é fun¸cão da média. Dessa forma, seria dif´ıcil avaliar o ajuste do modelo através do res´ıduo simples ri = yi− µi.

Como Var(yi) = ϕ−1v(µi) = ϕ−1vi, temos que a variˆancia de

rp =

yi− µi

√ vi

´

e constante para todo i. Desse modo, o res´ıduo de Pearson ´e deﬁnido como ˆ rp = yi− ˆµi √ v(ˆµi) .

Observe que Var(rp) = ϕ−1, desse modo, um estimador de ϕ−1 pode ser

obtido atrav´es de ˆ ϕ−1 = n ∑ i=1 ˆ r2 p n− p.

Um outro res´ıduo interessante pode ser obtido a partir das parcelas da fun¸c˜ao desvio. Trata-se do res´ıduo do desvio.

Testes de hip´oteses

A fun¸cão desvio tem um papel importante na constru¸cão de testes de hipóteses para os modelos lineares generalizaddos. Por exemplo, admita que o vetor de parˆametros β possa ser particionado em β = (β⊤₁, β⊤₂)⊤. Se estivermos interessados em testar H0 : β1 = β

0

1 contra H1 : β1 ̸= β 0

1, o teste da raz˜ao de

verossimilhan¸cas pode ser obtido através da diferen¸ca entre duas fun¸cões des-vios. Seja ˆµ0 e ˆµ1 as médias avaliadas sob, respectivamente, as hipóteses nula e alternativa. Temos que a estat´ıstica do teste da razão de verossimilhan¸cas ´

a dada por

TRV = ϕ{D(y, ˆµ0)− D(y, ˆµ1)}.

O teste de Wald é outra alternativa para testar as hipóteses mencionadas. Tal teste tem uma grande importância na teoria das fun¸cões de estima¸cão, uma vez que se baseia na distribui¸cão (assintótica) do estimador obtido, não

(36)

sendo, então, necessário conhecer a distribui¸cão de probabildiades geradora dos dados. A estat´ıstica para as hipóteses acima é dada por

WD =(βˆ₁− β0₁)⊤Covˆ −1(βˆ₁) (βˆ₁− β0₁). (2.6) Se q ´e a dimens˜ao de β₁, temos que TRV e WD convergem, para n ten-dendo a infinito, para uma distribui¸c˜ao qui-quadrado com q graus de liber-dade. Paula(2004) discute e apresenta outros testes de hipóteses adequados para a análise de modelos lineares generalizados.

No caso em que ϕ ´e desconhecido a estat´ıstica Wald pode ser obtida simplesmente substituindo-se ϕ por uma estimativa consistente.

Aplica¸c˜ao

Exemplo 7 Em 2000, foi realizado o primeiro censo de moradores de rua

da cidade de São Paulo (Schor e Artes, 2001). Naquela pesquisa, 95 dos 96 distritos municipais da cidade foram percorridos, no per´ıodo noturno, por equipes de campo. As pessoas encontradas nas ruas, em terrenos, em mocós e dormindo em casarões abandonados ou ve´ıculos foram abordadas. Desse contingente, 5013 foram identificados como moradores de rua, sendo que para 4 deles não se fez o registro do distrito municipal em que se encontravam. Essa pesquisa originou um banco de dados com o número de moradores de rua encontrados em cada distrito.

Ao analisar a distribui¸cão dos moradores de rua no munic´ıpio, constatou-se que havia altas concentra¸cões em algumas regiões e baixas em outras. Para explicar essa diferen¸ca, levantou-se a hipótese de que os moradores de rua procurariam regiões em que encontrassem condi¸cões satisfatórias para sua sobrevivência: lixo reciclável abundante, alta circula¸cão de pessoas durante o dia e baixa à noite e áreas habitadas por fam´ılias com poder aquisitivo mais alto. Para caracterizar regiões com esse perfil, Schor, Artes e Bomfim (2003) propuseram os seguintes indicadores

CV: raz˜ao entre a área constru´ıda dos imóveis verticais para uso comercial e de servi¸cos e o total da área constru´ıda no distrito (SEMPLA, 1998);

CH: raz˜ao entre a área constru´ıda dos imóveis horizontais para uso comer-cial e de servi¸cos e o total da área constru´ıda no distrito municipal (SEMPLA, 1998);

(37)

Fluxo: para medir a circula¸cão de pessoas em cada um dos distritos dispu-nha-se de dados sobre o número de pessoas presentes em cada distrito ao longo de 24 horas, em intervalos de 2 horas e o número de residentes no distrito (Companhia Metropolitana, 1997). A partir desses dados, para cada per´ıodo de duas horas, construiu-se a razão entre o número de presentes e o número de domiciliados. O indicador de fluxo para cada distrito foi definido como o valor máximo dessa razão;

RFPC: a renda monet´aria das fam´ılias residentes nos distritos foi medida pela renda familiar per capita, em reais (Companhia Metropolitana, 1997) e

Empregos: o n´umero de empregos existentes no distrito (Companhia Metro-politana, 1997) .

Para verificar a hipótese formulada, ajustamos um modelo linear genera-lizado tendo o número de moradores de rua por distrito como variável depen-dente e os demais indicadores como independepen-dentes. Assumimos a distribui¸cão de Poisson para a variável dependente e uma fun¸cão de liga¸cão logaritmica. A Tabela 2.3 traz as estimativas do modelo. À primeira vista, parece que as hipóteses foram confirmadas, dados os valores das estat´ısticas t1 correspon-dentes a cada estimativa. No entanto, é necessário checar a adequa¸cão do modelo.

Tabela 2.3: Estimativas dos parˆametros do modelo Efeito Estimativa Erro-padr˜ao t Intercepto 9, 08 10−1 7, 14 10−2 12,71 CV 3, 16 1, 76 10−1 17,91 CH 4, 49 1, 87 10−1 23,97 Fluxo 1, 83 10−1 2, 21 10−2 8,28 RFPC 9, 70 10−4 5, 81 10−5 16,69 Empregos 7, 38 10−6 8, 85 10−7 8,34

O desvio do res´ıduo para esse modelo ´e 1.998,71 com 89 graus de li-berdade, indicando problemas de ajuste. A Figura 2.1 traz os res´ıduos de

1_{O quadrado dessa estat´ıstica corresponde `}_{a estat´ıstica do teste de Wald para testar se}

(38)

Pearson e do desvio em fun¸c˜ao do logaritimo do valor previsto2_{. Note que a}

variabilidade dos pontos parece aumentar na medida em que o valor previsto aumenta. Concluindo, o modelo parece n˜ao ser adequado.

ln(Valor ajustado)

2 4 6

Resíduo de Pearson vs ln(Valor ajustado)

ln(Valor ajustado)

2 4 6

Resíduo do desvio vs ln(Valor ajustado)

Figura 2.1: Gráficos de res´ıduo para a regressão de Poisson

Para entender melhor a falta de adequa¸cão do modelo, o banco de da-dos foi ordenado segundo a variável CV. Em seguida, a cada 5 observa¸cões ordenadas, calculou-se o número médio de moradores de rua e o respectivo desvio-padrão. Caso a distribui¸cão fosse realmente Poisson, ter´ıamos que o desvio-padrão seria, aproximadamente, a raiz quadrada da média. A Figura 2.2 traz esses dados. Note que o o desvio-padrão não se comporta conforme o esperado, uma vez que os pontos parecem estar dispostos ao redor de uma linha reta. Da´ı os problemas de ajuste. Temos indica¸cões de que a variância depende da média, mas não da maneira esperada para um modelo de Poisson.

2.2 Quase-verossimilhan¸

ca - Caso univariado

Há situa¸cões nas quais desconhecemos a forma da distribui¸cão geradora dos dados, mas em que temos informa¸cões sobre o comportamento da média e da variância como fun¸cão da média. Tais situa¸cões permitem a abordagem de quase-verossimilhan¸ca que será discutida neste cap´ıtulo.

(39)

0 50 100 150 200 250 300 350 400 0 100 200 300 400 Média Desv io-padrão

Figura 2.2: Desvio-padrão do número de moradores de rua em fun¸cão da média

Um caso comum é quando a variável resposta representa uma contagem. Embora seja usual modelar variáveis desse tipo utilizando a distribui¸cão de Poisson, pode haver, no entanto, evidências de que a variância é muito su-perior à média (sobredispersão), ou seja de que os dados não seguem a dis-tribui¸cão de Poisson. Situa¸cões como essas podem ser analisadas através do método de quase-verossimilhan¸ca proposto por Wedderburn (1974).

Assuma que a vari´avel aleat´oria y seja tal que

E (y) = µ e Var(y) = ϕ−1v(µ).

Note que a estrutura apresentada acima é a mesma observada em modelos lineares generalizados. A fun¸cão de estima¸cão ótima na classe L(y − µ) é dada por

ψ(µ) = ϕy− µ v(µ) .

Essa fun¸cão é denominada fun¸cão quase-escore. Wedderburn (1974) chegou a essa fun¸cão por meio de uma analogia com a fun¸cão escore da fam´ılia exponencial. Ele definiu a fun¸c˜ao de quase-verossimilhan¸ca de µ por

Q(µ; y) =

∫

ϕy− µ v(µ) dµ.

O termo quase-verossimilhan¸ca vem do fato da fun¸c˜ao quase-escore satis-fazer as mesmas propriedades de uma fun¸c˜ao escore regular.

(40)

Teorema 8 Seja ψ uma fun¸cão quase-escore com variância finita e tal que

∂ψ

∂µ exista q.c. Temos ent˜ao

i. E{ψ(µ)} = 0 e ii. E{ψ2} = −E { ∂ψ ∂µ } .

Prova: A prova de (i) ´e direta. Para a prova de (ii), note que

E{ψ2(µ)}= ϕ2E { (y− µ)2 v2_(µ) } = ϕ2ϕ −1_v(µ) v2_(µ) = ϕv −1_(µ).

Por outro lado,

E { ∂ψ ∂µ } =−ϕ 1 v(µ) =−E { ψ2(µ)} ◦ A matriz de informa¸c˜ao de Godambe de µ ´e dada por

J(µ) = ϕ

v(µ).

2.2.1 Modelo de regress˜

ao

Analogamente `a situa¸c˜ao descrita para modelos lineares generalizados, seja

yi, i = 1,· · · , n uma amostra de vari´aveis aleat´orias independentes, com

distribui¸c˜ao desconhecida, com m´edia µi e parˆametro de dispers˜ao ϕ−1.

As-sociado à observa¸c˜ao i, admita a existência de um vetor p-dimensional de covari´aveis fixas, xi. Além disso,

g(µi) = x⊤i β = ηi e Var(yi) = v(µi)ϕ−1,

sendo g(·) uma fun¸cão monótona e diferenciável, recebendo o nome de fun¸cão de liga¸c˜ao e β um vetor p-dimensional de parˆametros desconhecidos.

A fun¸c˜ao de quase-verossimilhan¸ca para a observa¸c˜ao i ´e dada por

Qi(µ; yi) = Qi = ϕ

∫ _y

i− µi

v(µi)

dµi.

Derivando Qi em rela¸c˜ao `a β temos

ψi(β) = ∂Qi ∂β = ϕ ∂ηi ∂β ∂µi ∂ηi ∂Qi ∂µi = ϕxi ∂µi ∂ηi yi− µi v(µi) .