• Nenhum resultado encontrado

Rinaldo Artes. Denise Aparecida Botter

N/A
N/A
Protected

Academic year: 2021

Share "Rinaldo Artes. Denise Aparecida Botter"

Copied!
147
0
0

Texto

(1)

Regress˜

ao

Rinaldo Artes

Insper Instituto de Ensino e Pesquisa

Denise Aparecida Botter

(2)
(3)

Apresenta¸

ao

Este texto foi desenvolvido a partir do programa da disciplina Fun¸c˜oes de Estima¸c˜ao Aplicadas a Modelos de Regress˜ao, ministrada, pelos autores, em cursos de p´os-gradua¸c˜ao do Departamento de Estat´ıstica da USP. Trˆes turmas de alunos tomaram contato com parte deste texto; a elas deixamos nossos agradecimentos. Agradecemos tamb´em `a professora Cl´elia Maria de Castro Toloi, pela leitura de parte do manuscrito e pelas oportunas sugest˜oes e corre¸c˜oes. Os erros remanescentes s˜ao de responsabilidade dos autores.

Encaramos a presente monografia como um texto em constru¸c˜ao. Pre-tendemos, nos pr´oximos anos, adicionar cap´ıtulos e exemplos que, por uma limita¸c˜ao de tempo, n˜ao puderam ser inclu´ıdos nesta vers˜ao. Manteremos no site www.rinaldoa.ibmec.br as atualiza¸c˜oes do texto e as inevit´aveis erratas. Agradecemos `a Comiss˜ao Organizadora da 9a Escola de Modelos de

Re-gress˜ao pela oportunidade de ministrar esse minicurso.

Denise Aparecida Botter (botter@ime.usp.br) Rinaldo Artes (rinaldoa@insper.edu.br)

(4)
(5)

1 Fun¸c˜oes de estima¸c˜ao 11

1.1 Fun¸c˜oes de estima¸c˜ao . . . 11

1.2 Fun¸c˜ao Escore . . . 19

1.3 Fun¸c˜ao de estima¸c˜ao ´otima . . . 21

1.4 Fun¸c˜ao de estima¸c˜ao linear . . . 23

1.5 Equa¸c˜oes normais . . . 25

1.5.1 M´ınimos Quadrados Generalizados . . . 26

2 Quase-verossimilhan¸ca 29 2.1 Modelos lineares generalizados . . . 29

2.1.1 Fam´ılia exponencial de distribui¸c˜oes . . . 29

2.1.2 Modelos lineares generalizados . . . 31

2.2 Quase-verossimilhan¸ca - Caso univariado . . . 38

2.2.1 Modelo de regress˜ao . . . 40

2.2.2 Fun¸c˜ao quase-desvio . . . 41

2.2.3 Sobre-dispers˜ao . . . 42

2.3 Quase-verossimilhan¸ca estendida . . . 44

2.3.1 Parˆametro de dispers˜ao vari´avel . . . 46

2.4 Caso multivariado . . . 46

3 Equa¸c˜oes de Estima¸c˜ao Generalizadas 49 3.1 Modelagem da m´edia . . . 50

3.1.1 Equa¸c˜oes de estima¸c˜ao de independˆencia . . . 50

3.1.2 Γ(ui) = Corr(ui) conhecida . . . 52

3.1.3 Γ(ui) desconhecida . . . 53

3.1.4 Estima¸c˜ao de ϕ−1 . . . 54

3.1.5 Estima¸c˜ao de α . . . . 56

3.1.6 Teste de hip´oteses . . . 57 5

(6)

3.1.7 Algoritmos de estima¸c˜ao . . . 57

3.2 EEG-2 . . . 58

3.3 Estudos de simula¸c˜ao . . . 59

3.4 Aplica¸c˜ao . . . 61

3.5 T´ecnicas de diagn´ostico . . . 62

3.5.1 Pontos alavanca, influentes e aberrantes . . . 62

3.5.2 Envelope simulado . . . 65

4 Equa¸c˜oes de Estima¸c˜ao para S´eries Temporais 67 4.1 Nota¸c˜ao . . . 67

4.2 Antecedentes . . . 68

4.2.1 Modelos ARMA . . . 68

4.2.2 Modelos ARCH . . . 69

4.3 Modelos tipo ARMA . . . . 70

4.3.1 Dados de contagem . . . 72

4.3.2 Estima¸c˜ao . . . 72

4.4 Modelo de Zeger . . . 74

4.5 Equa¸c˜oes de estima¸c˜ao para modelos ARCH . . . 79

5 Equa¸c˜oes de estima¸c˜ao para dados circulares longitudinais 81 5.1 Representa¸c˜ao gr´afica e conceitos b´asicos . . . 82

5.2 Modelos probabil´ısticos . . . 84

5.2.1 Distribui¸c˜ao uniforme circular . . . 85

5.2.2 Distribui¸c˜ao von Mises . . . 85

5.2.3 Distribui¸c˜ao normal arqueada . . . 88

5.2.4 Rela¸c˜oes entre as distribui¸c˜oes uniforme circular, von Mises e normal arqueada . . . 88

5.2.5 Aplica¸c˜ao . . . 89

5.3 Modelos de regress˜ao . . . 91

5.4 Equa¸c˜oes de estima¸c˜ao para dados circulares . . . 93

5.4.1 Modelagem da m´edia circular . . . 94

5.4.2 Modelo para a m´edia circular e para o parˆametro de concentra¸c˜ao . . . 97

5.5 Aplica¸c˜ao . . . 98

5.5.1 Constru¸c˜ao do modelo . . . 99

(7)

A Alguns resultados assint´oticos 107

A.1 Complemento . . . 110

A.2 Aplica¸c˜ao . . . 112

A.3 Demonstra¸c˜oes . . . 115

A.3.1 Prova do Teorema 13 . . . 115

B Demonstra¸c˜oes - EEG 121 C Fun¸c˜oes de Bessel 125 C.1 Derivadas de I0, I1 e A1 . . . 125

C.2 C´alculo das fun¸c˜oes . . . 126

C.2.1 F´ormulas de recorrˆencia . . . 126

C.2.2 Avalia¸c˜ao de I0 e I1 . . . 126

C.2.3 Avalia¸c˜ao da fun¸c˜ao inversa de A1 . . . 127

D Resultados adicionais relativos a dados circulares 129 D.1 Intervalos de confian¸ca . . . 129

D.2 Outros resultados . . . 130

D.3 Dependˆencia entre vari´aveis circulares . . . 130

(8)
(9)

Pref´

acio

H´a na literatura Estat´ıstica uma grande variedade de t´ecnicas para o tra-tamento de dados longitudinais com vari´avel resposta gaussiana. A existˆencia de uma vers˜ao multivariada da distribui¸c˜ao normal com boas propriedades inferenciais, facilita o estudo desse caso. Abandonando-se a suposi¸c˜ao de nor-malidade da vari´avel resposta, uma s´erie de dificuldades pode surgir devido `

a escassez de distribui¸c˜oes multivariadas alternativas com tais propriedades1. Dentre as v´arias alternativas de tratamentos para dados longitudinais, duas assumem um papel de destaque. A primeira prevˆe a modelagem pro-babil´ıstica, estipulando, a priori, uma distribui¸c˜ao multivariada de probabi-lidade, adequada `a modelagem dos dados; baseado nessa distribui¸c˜ao, faz-se a inferˆencia sobre os parˆametros do modelo (por exemplo, atrav´es do m´etodo de m´axima verossimilhan¸ca). As dificuldades dessa abordagem est˜ao ligadas `

a defini¸c˜ao do modelo probabil´ıstico, ou seja, na gera¸c˜ao de um modelo mul-tivariado que se ajusta aos dados e com parˆametros facilmente estim´aveis e interpret´aveis. A segunda possibilidade baseia-se no uso de fun¸c˜oes de es-tima¸c˜ao2para a obten¸c˜ao das estimativas dos parˆametros de interesse de um

modelo multivariado que n˜ao ´e, necessariamente, completamente conhecido. Uma fun¸c˜ao de estima¸c˜ao ´e uma fun¸c˜ao mensur´avel dos dados e dos parˆametros de interesse. Neste texto estamos interessados nas fun¸c˜oes de estima¸c˜ao que, quando vistas como fun¸c˜oes dos parˆametros, tˆem ra´ızes que s˜ao estimadores dos parˆametros de interesse do modelo. Um ponto impor-tante no estudo dessas fun¸c˜oes ´e estabelecer condi¸c˜oes que garantam que os estimadores obtidos possuam boas propriedades. Em geral, deseja-se a cons-tru¸c˜ao de estimadores consistentes e com distribui¸c˜ao assint´otica conhecida. O foco deste texto ´e a constru¸c˜ao de fun¸c˜oes de estima¸c˜ao para a an´alise

1Em Joe (1997) encontra-se uma s´erie de t´ecnicas para gera¸c˜ao de distribui¸c˜oes

multi-variadas

(10)

de diferentes problemas. O Cap´ıtulo 1 apresenta a teoria geral de fun¸c˜oes de estima¸c˜ao e discute aspectos ligados `a otimalidade e constru¸c˜ao de fun¸c˜oes de estima¸c˜ao. O Cap´ıtulo 2 desenvolve a teoria de quase-verossimilhan¸ca a partir do contexto de fun¸c˜oes de estima¸c˜ao. No Cap´ıtulo 3, s˜ao apresen-tadas as equa¸c˜oes de estima¸c˜ao generalizadas e, no 4, t´ecnicas baseadas na teoria das fun¸c˜oes de estima¸c˜ao para a estima¸c˜ao de parˆametros de modelos para s´eries temporais. Por fim, no Cap´ıtulo 5 s˜ao desenvolvidas fun¸c˜oes de estima¸c˜ao para a an´alise de dados circulares longitudinais.

(11)

Fun¸

oes de estima¸

ao

Neste cap´ıtulo, apresentamos uma defini¸c˜ao formal de fun¸c˜oes de estima¸c˜ao assim como v´arias defini¸c˜oes relacionadas a estas fun¸c˜oes. Ressaltamos as defini¸c˜oes de fun¸c˜ao de estima¸c˜ao regular (Defini¸c˜ao 3), informa¸c˜ao de Go-dambe (Defini¸c˜ao 4), fun¸c˜ao de estima¸c˜ao linear (Defini¸c˜ao 8) e fun¸c˜ao de estima¸c˜ao linear ´otima (1.6). Com base em fun¸c˜oes de estima¸c˜ao regulares, estabelecemos propriedades assint´oticas de estimadores obtidos a partir das respectivas equa¸c˜oes de estima¸c˜ao (Teoremas 1 e 2). Vale observar a im-portˆancia destas defini¸c˜oes uma vez que elas servem de alicerce para toda a teoria desenvolvida nos demais cap´ıtulos deste texto.

1.1

Fun¸

oes de estima¸

ao

Seja X ∈ Rt um espa¸co amostral sobre o qual define-se uma fam´ılia ℘ =

{

Pθ : θ ∈ Θ ⊆ Rp} de distribui¸c˜oes de probabilidade indexadas por um

pa-rˆametro θ desconhecido. Por defini¸c˜ao, uma fun¸c˜ao ψ :X × Θ → Rp, ´e uma

fun¸c˜ao de estima¸c˜ao se para cada θ∈ Θ, ψ(., θ) ´e uma vari´avel aleat´oria.1 Assumindo a existˆencia de uma amostra de n vetores aleat´orios inde-pendentes: yi = (yi1, yi2, . . . , yiti)

, i = 1, 2, . . . , n, onde a cada unidade

amostral i associa-se uma fun¸c˜ao de estima¸c˜ao ψi, estende-se o conceito de

1Seja (X , A) um espa¸co mensur´avel, sobre o qual define-se um modelo estat´ıstico

(X , A, ℘), com X ∈ Rt e ℘ = {

Pθ : θ ∈ Θ ⊆ Rp} e seja ν uma medida σ-finita sobre

(X , A). Por defini¸c˜ao, uma fun¸c˜ao ψ : X × Θ → Rp, ´e uma fun¸c˜ao de estima¸c˜ao se para

cada θ∈ Θ, ψ(., θ) ´e uma fun¸c˜ao mensur´avel.

(12)

fun¸c˜ao de estima¸c˜ao para a amostra por meio de Ψn(y; θ) = ni=1 ψi(yi; θ) , onde y = (y1, y2, . . . , yn).

A defini¸c˜ao de fun¸c˜ao de estima¸c˜ao ´e bastante ampla, englobando os mais variados tipos de fun¸c˜oes. O estudo das fun¸c˜oes de estima¸c˜ao que apresentamos neste texto, restringe-se `aquelas cujas ra´ızes s˜ao estimadores dos parˆametros de interesse, ou seja:

Ψn

(

y; ˆθn

)

= 0. (1.1)

A express˜ao (1.1) ´e denominada equa¸c˜ao de estima¸c˜ao.

Exemplo 1 . Considere uma amostra y1, . . . , yn, de vari´aveis aleat´orias

in-dependentes, na qual p (yi; θ) ´e a fun¸c˜ao densidade de probabilidade regular

associada a yi; nessas condi¸c˜oes, a fun¸c˜ao escore

Ψn(y; θ) = ni=1 ∂θlog p (yi; θ)

´e uma fun¸c˜ao de estima¸c˜ao.

Exemplo 2 . Seja y1, . . . , yn, uma amostra de vari´aveis aleat´orias

indepen-dentes com E (yi) = µi(θ), µi duplamente diferenci´avel, e Var (yi) = σ2.

Defina Ψn(y; θ) = ni=1 ∂µi ∂θ (θ){yi− µi(θ)} , ent˜ao, Ψn ( y; ˆθn )

= 0 s˜ao equa¸c˜oes de estima¸c˜ao. Essas equa¸c˜oes s˜ao conhe-cidas como equa¸c˜oes normais e suas ra´ızes s˜ao os estimadores de m´ınimos quadrados de θ.

Por facilidade de nota¸c˜ao, denotaremos a fun¸c˜ao de estima¸c˜ao por Ψ (θ) sempre que isso n˜ao prejudicar a clareza do texto.

Defini¸c˜ao 1 . Ψ(θ) e Φ(θ) s˜ao fun¸c˜oes de estima¸c˜ao equivalentes se

Ψ(θ) = C(θ)Φ(θ),

(13)

Exemplo 3 . A fun¸c˜ao escore de uma distribui¸c˜ao exponencial de m´edia θ ( −n θ + ni=1 yi θ2 ) ´e equivalente a Ψ(θ) = n ni=1 yi θ.

A partir da Defini¸c˜ao 1 ´e poss´ıvel concluir que h´a infinitas fun¸c˜oes de estima¸c˜ao equivalentes a uma particular fun¸c˜ao. Al´em disso, do fato de C(θ) ser de posto completo, pode-se afirmar que se ˆθn ´e uma raiz de uma fun¸c˜ao

de estima¸c˜ao, ele ser´a raiz de todas as fun¸c˜oes de estima¸c˜ao equivalentes. Outra defini¸c˜ao importante para o desenvolvimento da teoria de fun¸c˜oes de estima¸c˜ao ´e o de fun¸c˜ao de estima¸c˜ao n˜ao viciada.

Defini¸c˜ao 2 . Uma fun¸c˜ao de estima¸c˜ao Ψ ser´a denominada n˜ao viciada se

Eθ {Ψ(θ)} = 0 ∀ θ ∈ Θ.

Na defini¸c˜ao anterior entende-se que no caso de vari´aveis aleat´orias abso-lutamente cont´ınuas, teremos

Eθ {Ψ(θ)} =

χ

Ψ(θ)p(y, θ)dy,

sendo p(y, θ) a fun¸c˜ao densidade de probabilidade de y. Se as vari´aveis aleat´orias forem discretas substituimos, na express˜ao acima, a integral por somat´orio sendo que p(y, θ) ser´a ent˜ao a fun¸c˜ao de probabilidade de y.

Note que as fun¸c˜oes de estima¸c˜ao definidas no Exemplo 3 s˜ao n˜ao viciadas. Na verdade as fun¸c˜oes escores oriundas de vari´aveis aleat´orias com fun¸c˜oes densidade de probabildade, ou fun¸c˜oes de probabilidade, regulares s˜ao n˜ao viciadas.

Como foi salientado, ´e necess´ario estebelecer condi¸c˜oes sob as quais as ra´ızes de uma fun¸c˜ao de estima¸c˜ao possuam boas propriedades assint´oticas. Nessa dire¸c˜ao, surgem os conceitos de fun¸c˜ao de estima¸c˜ao regular e de in-forma¸c˜ao de Godambe, que ser˜ao explicitados a seguir. O estudo das proprie-dades assint´oticas dos estimadores ser´a baseado em propriedades das fun¸c˜oes de estima¸c˜ao. Uma das propriedades mais comuns ´e que a fun¸c˜ao de es-tima¸c˜ao seja regular2.

Defini¸c˜ao 3 . Uma fun¸ao Ψ (y; θ) = (Ψ1(y; θ) , Ψ2(y; θ) , . . . , Ψp(y; θ))⊤,

Ψ :X × Θ → Rp ´e dita regular se para todo θ = (θ

1, . . . , θp)⊤∈ Θ,

(14)

i. a fun¸c˜ao ´e n˜ao viciada;

ii. a derivada parcial ∂Ψ (y; θ) /∂θi existe quase certamente para y∈ X ;

iii. ´e poss´ıvel permutar o sinal de integra¸c˜ao e diferencia¸c˜ao da seguinte forma:

∂θi

X Ψ(y; θ)p(y, θ)dy =

X

∂θi {Ψ(y; θ)p(y, θ)} dy;

iv. Eθ {Ψi(y; θ) Ψj(y; θ)} ∈ R, para i, j = 1, . . . , p e

VΨ(θ) = Eθ{Ψ (y; θ) Ψ(y; θ)}

´e positiva definida e v. Eθ { ∂ψi ∂θr (y; θ) ∂ψj ∂θs (y; θ) } ∈ R e SΨ (θ) = Eθ{∇θΨ (y; θ)} ´e n˜ao singular, onde ∇θ representa o operador gradiente em rela¸c˜ao a θ, ou seja, ∇θΨ (y; θ) = ∂Ψ (y; θ) /∂θ⊤. Aqui,

∂Ψ ∂θ(y; θ) =        ∂ψ1 ∂θ1 (y; θ) . . . ∂ψ1 ∂θp (y; θ) .. . ... ... ∂ψp ∂θ1 (y; θ) . . . ∂ψp ∂θp (y; θ)        = ( ∂Ψ ∂θ (y; θ) ) .

Quando o parˆametro de interesse ´e unidimensional, temos que as propri-edade (iv) e (v) tornam-se, respectivamente:

0 < Eθ { Ψ2(θ)}<∞ e − ∞ < Eθ ( ∂Ψ ∂θ ) <∞.

Com rela¸c˜ao `a Defini¸c˜ao 3, note que nenhum resultado assint´otico ´e re-querido no estabelecimento das condi¸c˜oes i a v. Al´em disto, em geral, assu-mimos sem demonstra¸c˜ao que a condi¸c˜ao iii ´e verdadeira, uma vez que na pr´atica em poucas situa¸c˜oes conhecemos a distribui¸c˜ao de yi=(yi1, . . . , yiti), i = 1, . . . , n (ver discuss˜ao na Se¸c˜ao 1.2).

(15)

Exemplo 4 . Seja yi, i = 1,· · · , n, uma amostra de vari´aveis aleat´orias

independentes e identicamente distribu´ıdas de uma distribui¸c˜ao com m´edia zero, variˆancia θ e com quarto momento finito e n˜ao nulo. Considere a seguinte fun¸c˜ao de estima¸c˜ao para θ:

Ψ(θ) = ni=1 ( yi2− θ). A fun¸c˜ao acima ´e regular, uma vez que:

i. Eθ{Ψ(θ)} = 0, ou seja a fun¸c˜ao de estima¸c˜ao ´e n˜ao viciada.

ii. ∂Ψ

∂θ =−n: existe q.c.

iii. Assuma que a propriedade de permuta¸c˜ao entre a integra¸c˜ao e a diferen-cia¸c˜ao seja v´alida.

iv. 0 < V (θ) = Var{Ψ(θ)} = nVar (y21) < ∞: por hip´otese v. S(θ) = E { ∂Ψ ∂θ } =−n < 0.

O estimador obtido a partir dessa fun¸c˜ao de estima¸c˜ao ´e dado por

ˆ θn = ni=1 yi2 n .

Temos ainda que E (θˆn

) = θ e Var(θˆn ) = nVar (y 2 1) n2 = V (θˆn ) S2(θˆ n ). A raz˜ao JΨ(θ) = S2(θ)

V (θ) recebe o nome de Informa¸c˜ao de Godambe e tem

um papel de destaque na teoria das fun¸c˜oes de estima¸c˜ao. A seguir definimos formalmente a Informa¸c˜ao de Godambe.

(16)

Defini¸c˜ao 4 . Seja Ψ(y; θ) uma fun¸c˜ao de estima¸c˜ao regular. Define-se a matriz de informa¸c˜ao de Godambe de θ associada a Ψ por

JΨ(θ) = SΨ(θ)V−1Ψ(θ)SΨ(θ).

A informa¸c˜ao de Godambe (ver Jørgensen e Laboriau, 1994, por exemplo) desempenha o papel da informa¸c˜ao de Fisher para as fun¸c˜oes de estima¸c˜ao regulares.

O componente SΨ(θ) da matriz de informa¸c˜ao de Godambe est´a rela-cionada `a derivada parcial da fun¸c˜ao de estima¸c˜ao em rela¸c˜ao aos parˆ ame-tros. ´E desej´avel que uma pequena varia¸c˜ao no vetor param´etrico acarrete uma grande varia¸c˜ao no valor da fun¸c˜ao de estima¸c˜ao, pois quanto maior essa varia¸c˜ao, mais eficiente a fun¸c˜ao ser´a na estima¸c˜ao do parˆametro. No caso unidimensional espera-se que S(θ) assuma um valor (em m´odulo) alto. SΨ(θ) ´e denominada de matriz de sensibilidade da fun¸c˜ao de estima¸c˜ao.

A componente VΨ(θ) recebe o nome de matriz de variabilidade. Espera-se que a fun¸c˜ao de estima¸c˜ao apresente pequena variabilidade pois dessa forma garante-se que no verdadeiro valor do parˆametro o valor da fun¸c˜ao de estima¸c˜ao aproxima-se de seu valor m´edio que ´e nulo.

A fun¸c˜ao escore, obtida a partir de uma fun¸c˜ao densidade de probabi-lidade (ou fun¸c˜ao de probabilidade, no caso discreto) regular, satisfaz as propriedades da Defini¸c˜ao 3 e, al´em disso, SΨ(θ) = −VΨ(θ), o que faz com que sua matriz de informa¸c˜ao de Godambe coincida com a matriz de informa¸c˜ao de Fisher. Retomaremos essa discuss˜ao na Se¸c˜ao 1.2.

Denominamos ℜθ `a classe de todas as fun¸c˜oes de estima¸c˜ao regulares de

θ.

O pr´oximo teorema estabelece condi¸c˜oes para a normalidade assint´otica de estimadores obtidos a partir de fun¸c˜oes de estima¸c˜ao regulares.

Teorema 1 . (Jørgensen e Laboriau, 1994). Seja θ um parˆametro unidi-mensional e considere a amostra de vari´aveis aleat´orias independentes y1, . . . ,

yn com y = (y1, y2, . . . , yn)⊤. Uma sequˆencia de ra´ızes

{

ˆ

θn

}

n=1 associada a

uma fun¸c˜ao de estima¸c˜ao regular Ψn(y; θ) = ni=1 ψi(yi; θ) e tal que ˆ θn→ θP ´e assintoticamente normal n(ˆθn− θ)→ ND ( 0, J−1Ψ (θ)),

(17)

em que JΨ= S2(θ) /V (θ) e S (θ) = lim n→∞ ni=1 Sψi n (θ); Sψi(θ) = Eθ{∇θψi(yi; θ)} ; V (θ) = lim n→∞ ni=1 Vψi n (θ) e Vψi(θ) = Eθ { ψ2i (yi; θ) } .

Examinando-se o Teorema 1, nota-se que, no caso do parˆametro ser unidi-mensional, dada uma fun¸c˜ao de estima¸c˜ao regular, basta provar a consistˆencia de suas ra´ızes para que sua distribui¸c˜ao assint´otica seja conhecida. H´a na literatura estat´ıstica uma grande variedade de resultados nessa dire¸c˜ao.

No caso de θ ser multidimensional, sob condi¸c˜oes de regularidade, a ma-triz JΨ = S(θ) V−1(θ) S (θ) , onde S (θ) = lim n→∞ Sn(θ) n = limn→∞ ni=1 i(θ) n e V (θ) = lim n→∞ Vn(θ) n = limn→∞ ni=1 i(θ) n , com i(θ) = Eθ { ∇θψi(yi; θ) } e Vψi(θ) = Eθ { ψi(yi; θ) ψ⊤i (yi; θ) } ,

desempenha o papel de uma matriz de informa¸c˜ao de Godambe assint´otica associada a Ψn.

Teorema 2 .

Considerando-se

a. yi, i = 1, . . . , n, vetores aleat´orios t-dimensionais independentes;

b. ψi(θ) = (ψi1, . . . , ψip)⊤, i = 1, . . . , n, fun¸c˜oes de estima¸c˜ao regulares;

c. Ψn(θ) = ni=1 ψi(θ) ; d. para δ > 0, 1 n ni=1 sup h:∥h∥≤δ ∂ψi ∂θ(θ + h) ∂ψi ∂θ(θ) → ϕP δ,

(18)

conforme n→ ∞, com ϕδ → ∞ quando δ → ∞; e. que quando n→ ∞ 1 n ∂Ψn ∂θ(θ) P → S (θ) ;

f. n−1ni=1Cov(ψi)→ V(θ), positiva definida; g. que quando n→ ∞, Ψn(θ) n D → Np(0; V(θ)) ; h. ˆθn como a solu¸c˜ao de Ψn(w) = 0, w ∈ Θ

e sob condi¸c˜oes que garantam a existˆencia de uma seq¨uˆencia de ra´ızes de

Ψ(w) que seja limitada em probabilidade, ou restrita a um conjunto compacto

q.c. quando n tende para infinito, vem que

ˆ θn → θ eP n ( ˆ θn− θ ) D → N(0; J−1Ψ ) .

Prova da normalidade assint´otica3: Da demonstra¸c˜ao da consistˆencia de

ˆ θn vem que n(θˆn− θ ) =−Sθn )−1{Ψn(θ) n } + op(1). (1.2)

Admitindo como v´alidas, por exemplo, as hip´oteses do Teorema Limite Central de Lyapunov (ver, por exemplo, Sen e Singer, 1993), temos:

Ψn(θ) n = ni=1 ψ (yi, θ) n D → Np(0; V(θ)) .

Aplicando o teorema de Slutsky ao resultado 1.2 segue o resultado. Como textos introdut´orios ao assunto, recomenda-se Godambe (1960), Godambe e Kale (1991), Godambe (1991), McLeish e Small (1988). Reco-menda-se tamb´em a leitura de Liang e Zeger (1995), Godambe (1997) e Li e Turtle (2000). Vale ressaltar que no artigo de Li e Turtle as fun¸c˜oes de es-tima¸c˜ao s˜ao utilizadas para estudar os modelos autorregressivos condicionais heterosced´aticos (ARCH) que abordamos no Cap´ıtulo 5. Nesse artigo os au-tores utilizam os resultados de Godambe (1985) e de Godambe e Thompson (1989) que estendem a teoria de equa¸c˜oes de estima¸c˜ao para o contexto de processos estoc´asticos.

3O Teorema 14 do Apˆendice A apresenta outras hip´oteses que levam a um resultado

(19)

1.2

Fun¸

ao Escore

Nesta se¸c˜ao destacamos o papel da fun¸c˜ao escore da teoria das fun¸c˜oes de estima¸c˜ao.

Defini¸c˜ao 5 . Seja yi, i = 1,· · · , n uma amostra de vetores aleat´orios

in-dependentes e y = (y1,· · · , yn) com fun¸c˜ao densidade ou fun¸c˜ao de pro-babiidade p(y; θ). A fun¸c˜ao de verossimilhan¸ca de θ ´e definida por L(θ) = p(y; θ).

Seja l(θ) = log L(θ), o logaritmo da fun¸c˜ao de verossimilhan¸ca de θ. Admita que ∂l(θ)/∂θ exista q.c.

Defini¸c˜ao 6 . Seja l(θ) = log L(θ), o logaritmo da fun¸c˜ao de verossimilhan-¸

ca de θ. Admita que un(θ) = ∂l(θ)/∂θ exista q.c. Ent˜ao un ´e denominada

fun¸c˜ao escore de θ.

Se a fun¸c˜ao escore satisfizer as condi¸c˜oes da Defini¸c˜ao 3, ela ´e denominada de fun¸c˜ao escore regular.

Teorema 3 . Se un(θ) ´e uma fun¸c˜ao escore regular, ent˜ao:

i. un(θ) ´e n˜ao viciada

ii. Eθ{un(θ)u⊤n(θ)

} = −Eθ { ∂un ∂θ (θ) }

, ou seja a matriz de variabilidade ´

e, a menos do sinal, igual `a matriz de sensibilidade.

Do resultado anterior temos que a matriz de informa¸c˜ao de Godambe de uma fun¸c˜ao escore ´e dada por

in(θ) = Eθ

{

un(θ)u⊤n(θ)

}

.

A matriz i ´e conhecida como matriz de informa¸c˜ao de Fisher de θ.

O Teorema 4 estabelece a rela¸c˜ao existente entre a fun¸c˜ao escore regu-lar e as demais fun¸c˜oes de estima¸c˜ao regulares para um dado parˆametro. Em resumo, ele prova, para o caso unidimensional e uniparam´etrico, que a fun¸c˜ao escore regular, quando existe, ´e uma fun¸c˜ao de estima¸c˜ao ´otima e consequentemente que a informa¸c˜ao de Fisher ´e um limite superior para a informa¸c˜ao de Godambe. Os resultados do teorema podem ser estendidos para o caso multivariado e multiparam´etrico (ver, por exemplo, Godambe, 1985 e Li e Turtle, 2000).

(20)

Teorema 4 . (Godambe, 1960) Seja Θ um intervalo real aberto e p(y; θ)

a fun¸c˜ao densidade de probabilidade de y. Se un(θ) = ∂p(y, θ)/∂θ, y =

(y1,· · · , yn) for a fun¸c˜ao escore regular de θ, ent˜ao para toda fun¸c˜ao de

estima¸c˜ao regular, Ψ, de θ vale que Eθ{Ψ2(θ)} Eθ2 { ∂Ψ ∂θ(y, θ) } 1 Eθ{u2n(θ)} ,

em outras palavras: JΨ−1 ≥ Ju−1n ∀ Ψ ∈ ℜθ. A igualdade ´e atingida quando

Ψ ´e uma fun¸c˜ao de estima¸c˜ao equivalente `a un.

Prova: Como Ψ(θ) ´e regular, temos

Ψ(θ)p(y; θ)dy = 0 0 = ∂θΨ(θ)p(y; θ)dy = ∂θ {Ψ(θ)p(y; θ)} dy = ∫ ∂Ψ ∂θ(θ)p(y; θ)dy +Ψ(θ)∂p ∂θ(y; θ)dy, mas ∂p ∂θ(y; θ) = p(y; θ) p(y; θ) ∂p ∂θ(y; θ) = p(y; θ) ∂ log p

∂θ (y; θ) = p(y; θ)un(θ).

Ent˜ao:

0 =

∂Ψ

∂θ(θ)p(y; θ)dy +

Ψ(θ)un(θ)p(y; θ)dy.

Contudo,

Ψ(θ)un(θ)p(y; θ)dy = Cov{Ψ(θ); un(θ)} .

Ent˜ao 0 = Eθ { ∂Ψ ∂θ(θ) } + Cov{Ψ(θ); un(θ)} . ⇒ E2 θ { ∂Ψ ∂θ(θ) } = Cov2{Ψ(θ); un(θ)} ≤ Eθ { Ψ2(θ)} { u2n(θ)}.•

Esse resultado induz ao uso da fun¸c˜ao escore regular quando temos gran-des amostras. A quest˜ao ´e que nem sempre conhecemos a verossimilhan¸ca de nossos dados. Isso ´e muito mais frequente quando temos dados multiva-ridados n˜ao normais. Nesses casos, duas abordagens podem ser utilizadas:

(21)

i. Encontrar uma distribui¸c˜ao de probabilidades multivariada que descreva as observa¸c˜oes ou

ii. Utilizar uma fun¸c˜ao de estima¸c˜ao sub-´otima.

A primeira abordagem esbarra em alguns problemas de ordem pr´atica: como gerar uma distribui¸c˜ao de probabilidades multivariada, que seja ampla o suficiente para acomodar a estrutura de dependˆencia dos dados e simples o suficiente para permitir a estima¸c˜ao dos parˆametros do modelo. Joe (1997) descreve v´arias t´ecnicas de gera¸c˜ao de distribui¸c˜oes multivariadas4. Em boa

parte dos casos, o resultado ´e uma distribui¸c˜ao com alto grau de complexi-dade e que exige procedimentos num´ericos n˜ao triviais para a estima¸c˜ao dos parˆametros.

A segunda abordagem ´e mais pragm´atica. Em v´arias situa¸c˜oes, ´e poss´ıvel encontrar fun¸c˜oes de estima¸c˜ao que apesar de n˜ao serem ´otimas tˆem um bom desempenho para grandes amostras e que permitem a estima¸c˜ao de parˆametros atrav´es de procedimentos num´ericos relativamente simples.

A escolha entre as duas abordagens deve levar em conta o particular conjunto de dados e o tempo dispon´ıvel para a pesquisa e implementa¸c˜ao computacional de uma verossimilhan¸ca multivariada.

1.3

Fun¸

ao de estima¸

ao ´

otima

Um conceito importante, desenvolvido por Godambe (1960), ´e o de otimali-dade de uma fun¸c˜ao de estima¸c˜ao regular. No caso θ unidimensional, pode-se definir uma fun¸c˜ao de estima¸c˜ao ´otima como aquela cujas ra´ızes possuem variˆancia assint´otica m´ınima. Esse conceito pode ser estendido para o caso multidimensional atrav´es da introdu¸c˜ao de alguma ordena¸c˜ao das matrizes de covariˆancia assint´oticas.

Defini¸c˜ao 7 . Seja J−1Ψ a matriz de covariˆancia assint´otica de um estimador

ˆ

θ obtido a partir de uma fun¸c˜ao de estima¸c˜ao Ψ. Se existir uma fun¸c˜ao de estima¸c˜ao Ψ que gera um estimador de θ com matriz de covariˆancia assint´otica J−1Ψ, tal que J−1Ψ −J−1Ψ seja n˜ao-negativa definida para qualquer Ψ, ent˜ao Ψ ´e dita ser uma fun¸c˜ao de estima¸c˜ao ´otima para θ (M-otimalidade).

(22)

Chandrasekar and Kale (1984) provam que, sob condi¸c˜oes gerais, as fun-¸c˜oes de estima¸c˜ao ´otimas obtidas pelos crit´erios tr(J−1Ψ ) ≥ tr(J−1Ψ

)

(T-otimalidade) e J−1Ψ J−1Ψ (D-otimalidade) coincidem com a da Defini¸c˜ao

7, desde que exista uma ´otima segundo esses crit´erios. ´

E um resultado conhecido que a M-otimalidade implica em T e D-o-timalidade, desde que existam fun¸c˜oes ´otimas segundo esses crit´erios. Se demonstrarmos que T implica em otimalidade e que D implica em M-otimalidade, estaremos demonstrando o resultado.

Lema 1 . Se Ψ ´e uma fun¸c˜ao de estima¸c˜ao regular T-´otima e se existe uma fun¸c˜ao de estima¸c˜ao regular M-´otima, ent˜ao Ψ ´e M-´otima

Prova: Como Ψ ´e T-´otima, temos que tr{J−1 Ψ } ≤ tr{J−1 Ψ } , ∀ Ψ ∈ ℜ, θ ∈ Θ (1.3) Seja Φ∈ ℜ uma fun¸c˜ao de estima¸c˜ao M-´otima; ent˜ao, ∀ Ψ ∈ ℜ, J−1

Ψ −J−1Φ ´e n˜ao negativa definida. Isso implica que

tr{J−1Ψ}≥ tr{J−1Φ}, ∀ Ψ ∈ ℜ, θ ∈ Θ

em particular isso vale para Ψ = Ψ. Ent˜ao tr{J−1

Ψ

}

≥ tr{J−1Φ}, ∀ Ψ ∈ ℜ, θ ∈ Θ

Aplicando (1.3), temos que

tr(J−1

Ψ − J−1Φ

)

= 0

Pode-se demonstrar (ver Graybill, 1969, por exemplo) que, se tr(A) = 0 e A ´e uma matriz n˜ao negativa definida, ent˜ao A = 0. Portanto J−1

Ψ = J−1Ψ, ou seja essas fun¸c˜oes s˜ao equivalentes, logo segue o resultado.

Lema 2 . (Chandrasekar e Kale, 1984). Se A e B s˜ao duas matrizes sim´etricas de mesma dimens˜ao tais que:

i. A ´e positiva definida,

(23)

iii. |A + B| = |A|,

ent˜ao B = 0.

Lema 3 . Se Ψ ´e uma fun¸c˜ao de estima¸c˜ao regular D-´otima e se existe uma fun¸c˜ao de estima¸c˜ao regular M-´otima, ent˜ao Ψ ´e M-´otima

Prova: Como Ψ ´e D-´otima, temos

|J−1

Ψ| ≤ |J−1Ψ| ∀Ψ∈ ℜ, θ ∈ Θ. (1.4) Seja Φ uma fun¸c˜ao de estima¸c˜ao M-´otima, ent˜ao

J−1

Ψ −J−1Φ ´e n˜ao negativa definida ∀ Ψ ∈ ℜ, (1.5) o que implica que |J−1Ψ| ≥ |J−1Φ |, ∀ Ψ ∈ ℜ, em particular, tome Ψ = Ψ, ent˜ao, utilizando (1.4), temos

|J−1

Ψ| ≥ |J−1Φ | ⇒ |J−1Ψ| = |J−1Ψ|. Al´em disso, (1.5) implica que J−1

Ψ− J−1Φ ´e n˜ao negativa definida. Aplicando o Lema 2, com A = J−1Φ e B = J−1

Ψ− J−1Φ, temos que J−1Ψ = J−1

Ψ, ou seja essas fun¸c˜oes s˜ao equivalentes, logo segue o resultado.

Os Lemas 1 e 3 implicam na equivalˆencia das defini¸c˜oes de otimalidade, no caso de fun¸c˜oes de estima¸c˜ao regulares.

Outro resultado importante ´e que, no caso regular, a fun¸c˜ao escore sempre ser´a ´otima. Isso faz com que a matriz de informa¸c˜ao de Fisher, quando existir, cumpra o papel de limite superior para as matrizes de informa¸c˜ao de Godambe.

´

E importante ressaltar que se Ψ´e uma fun¸c˜ao de estima¸c˜ao ´otima, ent˜ao qualquer fun¸c˜ao de estima¸c˜ao equivalente tamb´em o ser´a.

1.4

Fun¸

ao de estima¸

ao linear

Nesta se¸c˜ao iremos apresentar um m´etodo de gera¸c˜ao de fun¸c˜oes de estima¸c˜ao que s˜ao ´otimas em uma sub-classe de fun¸c˜oes regulares.

Crowder(1987) estuda uma classe particular de fun¸c˜oes de estima¸c˜ao que passaremos a chamar de fun¸c˜oes de estima¸c˜ao lineares.

(24)

Defini¸c˜ao 8 . Seja yi, i = 1,· · · , n uma amostra de vetores aleat´orios

inde-pendentes. Seja θ um vetor de parˆametros desconhecidos de dimens˜ao p× 1 e ui(yi; θ), i = 1,· · · , n fun¸c˜oes de dimens˜ao r × 1 (r n˜ao necessariamente

igual a p) que satisfazem as condi¸c˜oes da Defini¸c˜ao 3 para θ. Uma fun¸c˜ao de estima¸c˜ao linear gerada por ui pode ser definida como:

n

i=1

Qi(θ)ui(yi, θ),

onde Qi ´e uma matriz de dimens˜ao p× r n˜ao estoc´astica, n˜ao singular, de

pesos que, eventualmente, pode ser fun¸c˜ao de θ e ui, i = 1, 2, . . . , n, s˜ao

vetores mutuamente independentes.

Por simplicidade, chame essa classe de L. O autor mostra que a fun¸c˜ao de estima¸c˜ao ´otima dentre as da classeL ´e obtida quando a matriz de pesos ´e dada por Qi(θ) = Eθ ( ∂ui ∂θ ) Cov−1 θ (ui). (1.6)

Exemplo 5 . Sejam y1, ..., ynvari´aveis aleat´orias independentes com Var(yi) =

σ2 e E (y

i) = µi = x⊤i β com xi sendo vetores n˜ao aleat´orios de covari´aveis.

A fun¸c˜ao de estima¸c˜ao ´otima na classe L(y − µ), com y = (y1,· · · , yn) e

µ = (µ1,· · · , µn) ´e dada por

Ψn= σ−2X(y− Xβ),

onde X = (x1,· · · , xn)⊤. Trata-se de uma fun¸c˜ao de estima¸c˜ao equivalente

`

a obtida a partir da aplica¸c˜ao do m´etodo de m´ınimos quadrados aos dados.

Exemplo 6 . Considere uma amostra de vari´aveis aleat´orias independen-tes, yi, i = 1, 2, . . . , n, de tal modo que E (yi) = µi = hi

(

xi β) = hi(ηi) e

Var (yi) = σ2ci(µi), onde xi ´e um vetor de covari´aveis associado a yi; β ´e um

vetor p-dimensional de parˆametros desconhecidos; hi(·) ´e uma fun¸c˜ao

dupla-mente diferenci´avel e invers´ıvel e ci(·) ´e uma fun¸c˜ao positiva, i = 1, 2, . . . , n.

Considere tamb´em a fam´ılia de fun¸c˜oes de estima¸c˜ao dada por Ψn(β) =

Q (β) u (y, β), onde Q (β) ´e uma fun¸c˜ao de β e u (y, β) = y − µ, com

y = (y1, y2, . . . , yn) e µ = (µ1, µ2, . . . , µn). Obviamente tais fun¸c˜oes

perten-cem `a classe L e assim, utilizando (1.6), vem que a fun¸c˜ao de estima¸c˜ao ´

otima nesta classe ´e

(25)

onde X = (x1, x2, . . . , xn), H = diag ∂µ∂η1

1, . . . ,

∂µn

∂ηn e, por fim, C =

diag{c11), c22), . . . , cn(µn)}. Note que (1.7) equivale `as equa¸c˜oes de

es-tima¸c˜ao sugeridas na teoria da quase-verossimilhan¸ca, desenvolvida por Wed-derburn (1974).

1.5

Equa¸

oes normais

O m´etodo dos m´ınimos quadrados ´e bastante popular no estudo de modelos de regress˜ao. Em sua vers˜ao mais simples (m´ınimos quadrados ordin´arios para modelos lineares) os dados associados ao i-´esimo elemento amostral s˜ao representados por (yi, x⊤i ), no qual y1,· · · , yns˜ao vari´aveis aleat´orias

indepen-dentes, homoced´asticas e n˜ao correlacionadas e xi ´e um vetor p-dimensional

de vari´aveis n˜ao aleat´orias. A esses dados, associa-se o modelo: y = Xβ + ϵ, E (ϵ) = 0 Cov(ϵ) = σ2I,

na qual y = (yi,· · · , yn), X = (x1,· · · , xn), β = (β1,· · · , βp) ´e um vetor

de parˆametros e ϵ = (ϵ1,· · · , ϵn) ´e um vetor de erros aleat´orios.

O estimador de m´ınimos quadrados de β ´e aquele que minimiza D(β) = ϵϵ = (y− Xβ)(y− Xβ).

Diferenciando D com respeito `a β, temos que o estimador de m´ınimos qua-drados ´e dado pela raiz de

M(β) = Xy− (XX)β.

Teorema 5 . Admitindo a validade da propriedade (iii) da Defini¸c˜ao 3, e que X seja uma matriz de posto completo, temos que M(β) ´e uma fun¸c˜ao de estima¸c˜ao regular.

Prova: provaremos apenas as propriedades (iv) e (v) da Defini¸c˜ao 3.

iv. ∂M ∂β (β) = −X X = E { ∂M ∂β (β) }

, ´e uma matriz n˜ao singular, uma vez que X tem posto completo.

v. E {M(β)M(β)}= σ2XX ´e uma matriz positiva definida, uma vez que

(26)

Observe que al´em de ser uma fun¸c˜ao de estima¸c˜ao regular, M(β) = Xy− (XX)β = X(y− Xβ) ∈ L(y − Xβ).

Isso nos permite especular sobre qual seria a fun¸c˜ao de estima¸c˜ao ´otima na classe das lineares.

Teorema 6 . M(β) ´e uma fun¸c˜ao de estima¸c˜ao ´otima em L(y − Xβ).

Prova: Seja u = y− Xβ, ent˜ao ∂u/∂β = −X. Por outro lado, E (uu) = Cov(y) = σ2I. Logo uma fun¸c˜ao de estima¸c˜ao ´otima em L(y − Xβ) ´e

Ψn(β) =−σ−2X(y− Xβ). Tal fun¸c˜ao ´e equivalente `a

M(β) = Xy− XXβ.

Isto mostra que as equa¸c˜oes normais obtidas a partir do m´etodo de m´ınimos quadrados ´e ´otima em uma classe de fun¸c˜oes de estima¸c˜ao regulares e lineares.

A informa¸c˜ao de Godambe associada `a M(β) ´e dada por Jn(β) = (−XX)(σ2XX)−1(−XX) = σ−2(XX).

Sob condi¸c˜oes gerais de regularidade, pode-se demonstrar que o estimador de m´ınimos quadrados ˆβn ´e consistente e

n( ˆβn− β)→ N(0; JD −1), onde J = limn→∞Jn(β)/n.

Para grandes amostras, a matriz de covariˆancia de ˆβn pode ser consisten-temente estimada por J−1n ( ˆβn).

1.5.1

M´ınimos Quadrados Generalizados

O m´etodo dos m´ınimos quadrados pode ser estendido para situa¸c˜oes mais gerais do que a descrita. Admita que Var(ϵ) = σ2A, sendo A uma matriz sim´etrica positiva definida.

Podemos utilizar o resultado (1.6) para construir uma fun¸c˜ao de estima¸c˜ao sub-´otima. Precisamos, num primeiro momento, encontrar uma fun¸c˜ao para

(27)

gerar a classe das fun¸c˜oes de estima¸c˜ao lineares. A partir do modelo apre-sentado, temos que E (y) = Xβ, uma escolha natural para a fun¸c˜ao geradora ´

e

u(β) = y− Xβ. Temos ent˜ao:

∂u β (β) =−X = E { ∂u β (β) } ,

al´em disso, Var(u) = σ2A. Segue ent˜ao que a fun¸c˜ao de estima¸c˜ao ´otima em

L(u) ´e

Ψn(β) =−σ−2XA−1(y− Xβ). Tal fun¸c˜ao ´e equivalente `a

MA(β) = XA−1y− XA−1Xβ.

Teorema 7 . Admitindo a validade da propriedade (iii) da Defini¸c˜ao 3, e que X seja uma matriz de posto completo, temos que MA(β) ´e uma fun¸c˜ao

de estima¸c˜ao regular. Al´em disso, a matriz de informa¸c˜ao de Godambe de β associada `a MA ´e

Jn(β) = σ−2XA−1X.

Sob condi¸c˜oes adicionais de regularidade ˆβn, obtido como raiz de MA ser´a consistente e

n( ˆβn− β)→ N(0; JD −1), onde J = lim

n→∞Jn(β)/n.

Note que MA(β) pode ser obtida a partir da minimiza¸c˜ao de D(β) = (y− Xβ)A−1(y− Xβ),

(28)
(29)

Quase-verossimilhan¸

ca

Wedderburn (1974) propˆos um m´etodo de estima¸c˜ao de parˆametros de mo-delos de regress˜ao para os quais n˜ao se conhece a distribui¸c˜ao da vari´avel resposta. Utilizando apenas informa¸c˜oes sobre o comportamento da m´edia da distribui¸c˜ao em fun¸c˜ao das vari´aveis independentes (modelo de regress˜ao) e da rela¸c˜ao entre a variˆancia e a m´edia, foi proposta uma fun¸c˜ao de estima¸c˜ao que, sob hip´oteses gerais, leva a estimadores consistentes e assintoticamente normais dos parˆametros do modelo de regress˜ao.

A teoria da quase-verossimilhan¸ca ´e uma extens˜ao dos modelos lineares generalizados. Neste cap´ıtulo, aborda-se a teoria da quase-verossimilhan¸ca, considerando-se tanto o caso uni como multidimensional.

2.1

Modelos lineares generalizados

Os Modelos Lineares Generalizados constituem uma teoria geral de regress˜ao para vari´aveis respostas na fam´ılia exponencial de distribui¸c˜oes. Nesta se¸c˜ao, apresentamos a fam´ılia exponencial de distribui¸c˜oes e os modelos lineares generalizados.

2.1.1

Fam´ılia exponencial de distribui¸

oes

Uma vari´avel aleat´oria y pertence `a fam´ılia exponencial de distribui¸c˜oes se para um dado valor ϕ, sua fun¸c˜ao densidade de probabilidade, ou fun¸c˜ao de probabilidade, se a vari´avel for discreta, puder ser escrita como

p(y; θ, ϕ) = exp [ϕ{yθ − b(θ)} + c(y; ϕ)] . (2.1) 29

(30)

Temos que

E (y) = µ = db

dθ(θ) e Var(y) = ϕ

−1v(µ), sendo v(µ) = d2b

2(θ),

sendo θ o parˆametro canˆonico da distribui¸c˜ao, ϕ−1 ´e denominado parˆametro de dispers˜ao e v(µ) a fun¸c˜ao de variˆancia.

Seguem alguns exemplos de distribui¸c˜oes desta fam´ılia.

Distribui¸c˜ao Normal. Dado σ2, seja y ∼ N (µ; σ2), ∞ < y < ∞. A

fun¸c˜ao densidade de probabilidade de y pode ser escrita como

p(y; µ, σ2) = 1 2πσexp { −(y− µ)2 2 } = exp [ 1 σ2 ( yµ− µ 2 2 ) 1 2 { log(2πσ2) + y 2 σ2 }] .

Temos que θ = µ, b(θ) = θ22, ϕ = σ−2e c(y; ϕ) =−12 {log(2πϕ−1) + ϕy2}.

Neste caso, v(µ) = 1.

Distribui¸c˜ao de Poisson. A vari´avel aleat´oria y, y = 0, 1, . . ., segue uma distribui¸c˜ao de Poisson de parˆametro µ se sua fun¸c˜ao de probabilidade for dada por

p(y; µ) = e

−µµy

y! = exp{(y log µ − µ) − log y!} .

Assim, θ = log(µ), b(θ) = eθ, ϕ = 1, c(y, ϕ) =− log y! e v(µ) = µ.

Distribui¸c˜ao Gama. A fun¸c˜ao densidade de probabilidade de uma vari´avel aleat´oria y com distribui¸c˜ao gama de m´edia µ, y > 0 e para um dado parˆametro de dispers˜ao ϕ−1 ´e dada por

p(y; µ, ϕ) = 1 Γ(ϕ) ( ϕy µ )ϕ exp ( −ϕy µ ) log y = exp [ ϕ { −y µ+ log ( 1 µ )}

− log Γ(ϕ) + ϕ log(ϕy) − log y

]

.

Neste caso, θ = −1/µ, b(θ) = − log(−θ), c(y; ϕ) = − log Γ(ϕ) +

(31)

Distribui¸c˜ao de Bernoulli. Se y (y = 0, 1) segue uma distribui¸c˜ao de Bernoulli de m´edia µ, sua fun¸c˜ao de probabilidade ´e dada por

p(y; µ) = µy(1− µ)1−y = exp

{ y log ( µ 1− µ ) + log (1− µ) } .

Comparando com (2.1) vem que θ = log(1−µµ ), b(θ) =− log(1 + eθ),

ϕ = 1, c(y; ϕ) = 0 e v(µ) = µ(1− µ).

Uma propriedade importante da fam´ılia exponencial de distribui¸c˜oes ´e que qualquer distribui¸c˜ao desta fam´ılia pode ser caracterizada por sua fun¸c˜ao de variˆancia.

A fun¸c˜ao escore de uma distribui¸c˜ao desta classe ´e dada por

u(θ; ϕ, y) = ϕy− µ v(µ) .

2.1.2

Modelos lineares generalizados

Os modelos lineares generalizados (Paula, 2004 e McCullagh e Nelder, 1989, por exemplo, ) comp˜oem uma teoria geral de regress˜ao para o caso em que a distribui¸c˜ao da vari´avel resposta pertence `a fam´ılia exponencial de distri-bui¸c˜oes ou para o caso em que a fun¸c˜ao densidade de probabilidade ou fun¸c˜ao de probabilidade possa ser escrita na forma (2.1), independentemente de ϕ ser ou n˜ao conhecido.

Para definirmos um modelo linear generalizado, seja yi, i = 1,· · · , n, uma

amostra de vari´aveis aleat´orias independentes, com distribui¸c˜ao na classe da fam´ılia exponencial, com m´edia µi e parˆametro de dispers˜ao ϕ−1. Associado

`

a observa¸c˜ao i, admita a existˆencia de um vetor p-dimensional de covari´aveis fixas, xi. Assuma que

g(µi) = x⊤i β = ηi,

na qual g(·) ´e uma fun¸c˜ao mon´otona e diferenci´avel, denominada fun¸c˜ao de liga¸c˜ao e β ´e um vetor p-dimensional de parˆametros desconhecidos.

A fun¸c˜ao escore de β ´e dada por

un(β) = ϕXHW−1(y− µ), (2.2)

(32)

Definindo D= XH, temos que a matriz de informa¸c˜ao de Fisher de β ´e dada por

in(β) = ϕDW−1D.

Apresentamos a seguir alguns modelos lineares generalizados.

Regress˜ao linear m´ultipla: Seja yi ∼ N (µi, σ2). Nesse caso, tomando a

fun¸c˜ao de liga¸c˜ao identidade, temos que µi = x⊤i β, o que corresponde

ao modelo de regress˜ao linear normal.

Regress˜ao log´ıstica: Seja yi uma vari´avel com distribui¸c˜ao Bernoulli de

parˆametro µi. Nesse caso,

g(µi) = log ( µi 1− µi ) .

Modelos log-lineares para dados de contagem: Nesse caso, assuma que yi siga uma distribui¸c˜ao de Poisson de m´edia µi. A fun¸c˜ao de

liga¸c˜ao correspondente ao modelo log-linear ´e g(µi) = log(µi).

Al´em desses exemplos, a teoria dos modelos lineares generalizados inclui uma grande variedade de outros modelos, como, por exemplo, modelos de regress˜ao para vari´aveis positivas e assim´etricas (distribui¸c˜oes gama e normal inversa, por exemplo).

Sob condi¸c˜oes gerais de regularidade, demonstra-se que

n(βˆ− β)→ Np

(

0, ϕ−1J−1) `

a medida em que n tende a infinito, sendo J = lim

n→∞

in(β)

n (ver Sen e Singer,

1993, por exemplo).

Algoritmo de estima¸c˜ao

Exceto em alguns casos espec´ıficos, como, por exemplo, a distribui¸c˜ao normal para liga¸c˜ao identidade, n˜ao h´a uma forma expl´ıcita para os estimadores de

β. As estimativas podem ser obtidas da aplica¸c˜ao de m´etodos iterativos. Um dos m´etodos utilizados ´e o scoring de Fisher, no qual o valor da estimativa de β no passo j + 1 do processo ´e dado por

(33)

sendo i(j)

n e u(j)n , respectivamente, a matriz de informa¸c˜ao de Fisher e a fun¸c˜ao

escore avaliadas no ponto β(j). Desenvolvendo (2.3), temos β(j+1) = β(j)+(D(j)TW−1D(j))−1D(j)T(y− µ(j)) =(D(j)TW−1D(j))−1D(j)TD(j)β(j)+(D(j)TW−1D(j))−1D(j)T(y− µ(j)) = ( D(j)TW−1D(j) )−1 D(j)Tz(j),

na qual, z(j) = D(j)β(j) + (y − µ(j)) e o sobre-escrito (j) indica que as

matrizes e vetores s˜ao avaliados no ponto β(j). Trata-se de um procedimento de m´ınimos quadrados reponderados.

Fun¸c˜ao desvio

O logaritmo da fun¸c˜ao de verossimilhan¸ca da m´edia de um modelo linear generalizado ´e dado por

L(µ; y) = ϕ

n

i=1

[yiθ(µi)− b{θ(µi)} + c(yi; ϕ)] . (2.4)

A fun¸c˜ao desvio ´e uma medida de qualidade de ajuste de um modelo linear generalizado constru´ıda a partir de (2.4). Assuma um caso extremo, no qual o modelo prevˆe com exatid˜ao todos os valores da amostra. Nessa situa¸c˜ao, teremos que o logaritmo da fun¸c˜ao de verossimilhan¸ca, avaliado no valor previsto ´e dado por

L(y; y) = ϕ

n

i=1

[yiθ(yi)− b{θ(yi)} + c(yi; ϕ)] . (2.5)

A fun¸c˜ao desvio ´e definida como o dobro da distˆancia entre o logaritmo da fun¸c˜ao de verossimilhan¸ca avaliado na estimativa de m´axima verossimilhan¸ca (ˆθ = θ(ˆµ)) e (2.5). A fun¸c˜ao ´e ent˜ao definida por

D∗(y; ˆµ) = 2{L(y, y) − L(ˆµ; y)} = 2ϕ

ni=1 [ yi { θ(yi)− ˆθ } − b(ˆθ) + b{θ(yi)} ] .

Uma defini¸c˜ao alternativa para a fun¸c˜ao desvio ´e dada por

D(y; ˆµ) = 2 ni=1 [ yi { θ(yi)− ˆθ } − b(ˆθ) + b{θ(yi)} ] .

(34)

Tabela 2.1: Fun¸c˜ao desvio para alguns modelos lineares generalizados

Modelo Fun¸c˜ao desvio

Normal ∑ni=1(yi− ˆµi)2

Poisson 2∑ni=1{yilog(yi/ˆµi)− (yi− ˆµi)}

se yi = 0, sua respectiva parcela ´e 2ˆµi

2∑ni=1({yilog(yi/niµˆi)

Binomial +(ni− yi) log{(1 − yi/ni)/(1− ˆµi)}

se yi = 0, sua parcela ´e −2nilog(1− ˆµi)

se yi = ni, sua parcela ´e−2nilog(ˆµi)

Gama 2∑ni=1{− log(yi/ˆµi) + (yi− ˆµi)/ˆµi}, y > 0

Normal inversa ∑ni=1(yi− ˆµi)2/(yiµˆ2i)

Quanto menor o valor de D, melhor ser´a o ajuste do modelo. Paula (2004) calcula a fun¸c˜ao desvio para alguns modelos lineares generalizados. A Tabela 2.1 resume as informa¸c˜oes fornecidas por Paula.

Na Tabela 2.2 s˜ao apresentadas algumas propriedades da fun¸c˜ao desvio. S˜ao apresentadas as condi¸c˜oes sob as quais podemos testar a adeq¨ua¸c˜ao do modelo assumindo uma distribui¸c˜ao qui-quadrado com (n− p) graus de li-berdade para D.

Tabela 2.2: Propriedades assint´oticas da fun¸c˜ao desvio para alguns modelos lineares generalizados

Modelo Propriedade

Normal Se a variˆancia for constante, D∼ σ2χ2

n−p

Poisson D ˜χ2n−p ´a medida em que os µi → ∞

Binomial D ˜χ2

(35)

Res´ıduos

Exceto para a distribui¸c˜ao normal, os modelos lineares generalizados tendem a ser heteroced´asticos, uma vez que a variˆancia da vari´avel resposta ´e fun¸c˜ao da m´edia. Dessa forma, seria dif´ıcil avaliar o ajuste do modelo atrav´es do res´ıduo simples ri = yi− µi.

Como Var(yi) = ϕ−1v(µi) = ϕ−1vi, temos que a variˆancia de

rp =

yi− µi

vi

´

e constante para todo i. Desse modo, o res´ıduo de Pearson ´e definido como ˆ rp = yi− ˆµiv(ˆµi) .

Observe que Var(rp) = ϕ−1, desse modo, um estimador de ϕ−1 pode ser

obtido atrav´es de ˆ ϕ−1 = ni=1 ˆ r2 p n− p.

Um outro res´ıduo interessante pode ser obtido a partir das parcelas da fun¸c˜ao desvio. Trata-se do res´ıduo do desvio.

Testes de hip´oteses

A fun¸c˜ao desvio tem um papel importante na constru¸c˜ao de testes de hip´oteses para os modelos lineares generalizaddos. Por exemplo, admita que o vetor de parˆametros β possa ser particionado em β = (β1, β2). Se estivermos interessados em testar H0 : β1 = β

0

1 contra H1 : β1 ̸= β 0

1, o teste da raz˜ao de

verossimilhan¸cas pode ser obtido atrav´es da diferen¸ca entre duas fun¸c˜oes des-vios. Seja ˆµ0 e ˆµ1 as m´edias avaliadas sob, respectivamente, as hip´oteses nula e alternativa. Temos que a estat´ıstica do teste da raz˜ao de verossimilhan¸cas ´

a dada por

TRV = ϕ{D(y, ˆµ0)− D(y, ˆµ1)}.

O teste de Wald ´e outra alternativa para testar as hip´oteses mencionadas. Tal teste tem uma grande importˆancia na teoria das fun¸c˜oes de estima¸c˜ao, uma vez que se baseia na distribui¸c˜ao (assint´otica) do estimador obtido, n˜ao

(36)

sendo, ent˜ao, necess´ario conhecer a distribui¸c˜ao de probabildiades geradora dos dados. A estat´ıstica para as hip´oteses acima ´e dada por

WD =(βˆ1− β01)Covˆ −1(βˆ1) (βˆ1− β01). (2.6) Se q ´e a dimens˜ao de β1, temos que TRV e WD convergem, para n ten-dendo a infinito, para uma distribui¸c˜ao qui-quadrado com q graus de liber-dade. Paula(2004) discute e apresenta outros testes de hip´oteses adequados para a an´alise de modelos lineares generalizados.

No caso em que ϕ ´e desconhecido a estat´ıstica Wald pode ser obtida simplesmente substituindo-se ϕ por uma estimativa consistente.

Aplica¸c˜ao

Exemplo 7 Em 2000, foi realizado o primeiro censo de moradores de rua

da cidade de S˜ao Paulo (Schor e Artes, 2001). Naquela pesquisa, 95 dos 96 distritos municipais da cidade foram percorridos, no per´ıodo noturno, por equipes de campo. As pessoas encontradas nas ruas, em terrenos, em moc´os e dormindo em casar˜oes abandonados ou ve´ıculos foram abordadas. Desse contingente, 5013 foram identificados como moradores de rua, sendo que para 4 deles n˜ao se fez o registro do distrito municipal em que se encontravam. Essa pesquisa originou um banco de dados com o n´umero de moradores de rua encontrados em cada distrito.

Ao analisar a distribui¸c˜ao dos moradores de rua no munic´ıpio, constatou-se que havia altas concentra¸c˜oes em algumas regi˜oes e baixas em outras. Para explicar essa diferen¸ca, levantou-se a hip´otese de que os moradores de rua procurariam regi˜oes em que encontrassem condi¸c˜oes satisfat´orias para sua sobrevivˆencia: lixo recicl´avel abundante, alta circula¸c˜ao de pessoas durante o dia e baixa `a noite e ´areas habitadas por fam´ılias com poder aquisitivo mais alto. Para caracterizar regi˜oes com esse perfil, Schor, Artes e Bomfim (2003) propuseram os seguintes indicadores

CV: raz˜ao entre a ´area constru´ıda dos im´oveis verticais para uso comercial e de servi¸cos e o total da ´area constru´ıda no distrito (SEMPLA, 1998);

CH: raz˜ao entre a ´area constru´ıda dos im´oveis horizontais para uso comer-cial e de servi¸cos e o total da ´area constru´ıda no distrito municipal (SEMPLA, 1998);

(37)

Fluxo: para medir a circula¸c˜ao de pessoas em cada um dos distritos dispu-nha-se de dados sobre o n´umero de pessoas presentes em cada distrito ao longo de 24 horas, em intervalos de 2 horas e o n´umero de residentes no distrito (Companhia Metropolitana, 1997). A partir desses dados, para cada per´ıodo de duas horas, construiu-se a raz˜ao entre o n´umero de presentes e o n´umero de domiciliados. O indicador de fluxo para cada distrito foi definido como o valor m´aximo dessa raz˜ao;

RFPC: a renda monet´aria das fam´ılias residentes nos distritos foi medida pela renda familiar per capita, em reais (Companhia Metropolitana, 1997) e

Empregos: o n´umero de empregos existentes no distrito (Companhia Metro-politana, 1997) .

Para verificar a hip´otese formulada, ajustamos um modelo linear genera-lizado tendo o n´umero de moradores de rua por distrito como vari´avel depen-dente e os demais indicadores como independepen-dentes. Assumimos a distribui¸c˜ao de Poisson para a vari´avel dependente e uma fun¸c˜ao de liga¸c˜ao logaritmica. A Tabela 2.3 traz as estimativas do modelo. `A primeira vista, parece que as hip´oteses foram confirmadas, dados os valores das estat´ısticas t1 correspon-dentes a cada estimativa. No entanto, ´e necess´ario checar a adequa¸c˜ao do modelo.

Tabela 2.3: Estimativas dos parˆametros do modelo Efeito Estimativa Erro-padr˜ao t Intercepto 9, 08 10−1 7, 14 10−2 12,71 CV 3, 16 1, 76 10−1 17,91 CH 4, 49 1, 87 10−1 23,97 Fluxo 1, 83 10−1 2, 21 10−2 8,28 RFPC 9, 70 10−4 5, 81 10−5 16,69 Empregos 7, 38 10−6 8, 85 10−7 8,34

O desvio do res´ıduo para esse modelo ´e 1.998,71 com 89 graus de li-berdade, indicando problemas de ajuste. A Figura 2.1 traz os res´ıduos de

1O quadrado dessa estat´ıstica corresponde `a estat´ıstica do teste de Wald para testar se

(38)

Pearson e do desvio em fun¸c˜ao do logaritimo do valor previsto2. Note que a

variabilidade dos pontos parece aumentar na medida em que o valor previsto aumenta. Concluindo, o modelo parece n˜ao ser adequado.

ln(Valor ajustado)

2 4 6

Resíduo de Pearson vs ln(Valor ajustado)

ln(Valor ajustado)

2 4 6

Resíduo do desvio vs ln(Valor ajustado)

Figura 2.1: Gr´aficos de res´ıduo para a regress˜ao de Poisson

Para entender melhor a falta de adequa¸c˜ao do modelo, o banco de da-dos foi ordenado segundo a vari´avel CV. Em seguida, a cada 5 observa¸c˜oes ordenadas, calculou-se o n´umero m´edio de moradores de rua e o respectivo desvio-padr˜ao. Caso a distribui¸c˜ao fosse realmente Poisson, ter´ıamos que o desvio-padr˜ao seria, aproximadamente, a raiz quadrada da m´edia. A Figura 2.2 traz esses dados. Note que o o desvio-padr˜ao n˜ao se comporta conforme o esperado, uma vez que os pontos parecem estar dispostos ao redor de uma linha reta. Da´ı os problemas de ajuste. Temos indica¸c˜oes de que a variˆancia depende da m´edia, mas n˜ao da maneira esperada para um modelo de Poisson.

2.2

Quase-verossimilhan¸

ca - Caso univariado

H´a situa¸c˜oes nas quais desconhecemos a forma da distribui¸c˜ao geradora dos dados, mas em que temos informa¸c˜oes sobre o comportamento da m´edia e da variˆancia como fun¸c˜ao da m´edia. Tais situa¸c˜oes permitem a abordagem de quase-verossimilhan¸ca que ser´a discutida neste cap´ıtulo.

(39)

0 50 100 150 200 250 300 350 400 0 100 200 300 400 Média Desv io-padrão

Figura 2.2: Desvio-padr˜ao do n´umero de moradores de rua em fun¸c˜ao da m´edia

Um caso comum ´e quando a vari´avel resposta representa uma contagem. Embora seja usual modelar vari´aveis desse tipo utilizando a distribui¸c˜ao de Poisson, pode haver, no entanto, evidˆencias de que a variˆancia ´e muito su-perior `a m´edia (sobredispers˜ao), ou seja de que os dados n˜ao seguem a dis-tribui¸c˜ao de Poisson. Situa¸c˜oes como essas podem ser analisadas atrav´es do m´etodo de quase-verossimilhan¸ca proposto por Wedderburn (1974).

Assuma que a vari´avel aleat´oria y seja tal que

E (y) = µ e Var(y) = ϕ−1v(µ).

Note que a estrutura apresentada acima ´e a mesma observada em modelos lineares generalizados. A fun¸c˜ao de estima¸c˜ao ´otima na classe L(y − µ) ´e dada por

ψ(µ) = ϕy− µ v(µ) .

Essa fun¸c˜ao ´e denominada fun¸c˜ao quase-escore. Wedderburn (1974) chegou a essa fun¸c˜ao por meio de uma analogia com a fun¸c˜ao escore da fam´ılia exponencial. Ele definiu a fun¸c˜ao de quase-verossimilhan¸ca de µ por

Q(µ; y) =

ϕy− µ v(µ) dµ.

O termo quase-verossimilhan¸ca vem do fato da fun¸c˜ao quase-escore satis-fazer as mesmas propriedades de uma fun¸c˜ao escore regular.

(40)

Teorema 8 Seja ψ uma fun¸c˜ao quase-escore com variˆancia finita e tal que

∂ψ

∂µ exista q.c. Temos ent˜ao

i. E{ψ(µ)} = 0 e ii. E2} = −E { ∂ψ ∂µ } .

Prova: A prova de (i) ´e direta. Para a prova de (ii), note que

E{ψ2(µ)}= ϕ2E { (y− µ)2 v2(µ) } = ϕ2ϕ −1v(µ) v2(µ) = ϕv −1(µ).

Por outro lado,

E { ∂ψ ∂µ } =−ϕ 1 v(µ) =−E { ψ2(µ)} A matriz de informa¸c˜ao de Godambe de µ ´e dada por

J(µ) = ϕ

v(µ).

2.2.1

Modelo de regress˜

ao

Analogamente `a situa¸c˜ao descrita para modelos lineares generalizados, seja

yi, i = 1,· · · , n uma amostra de vari´aveis aleat´orias independentes, com

distribui¸c˜ao desconhecida, com m´edia µi e parˆametro de dispers˜ao ϕ−1.

As-sociado `a observa¸c˜ao i, admita a existˆencia de um vetor p-dimensional de covari´aveis fixas, xi. Al´em disso,

g(µi) = x⊤i β = ηi e Var(yi) = v(µi)ϕ−1,

sendo g(·) uma fun¸c˜ao mon´otona e diferenci´avel, recebendo o nome de fun¸c˜ao de liga¸c˜ao e β um vetor p-dimensional de parˆametros desconhecidos.

A fun¸c˜ao de quase-verossimilhan¸ca para a observa¸c˜ao i ´e dada por

Qi(µ; yi) = Qi = ϕ

y

i− µi

v(µi)

dµi.

Derivando Qi em rela¸c˜ao `a β temos

ψi(β) = ∂Qi ∂β = ϕ ∂ηi ∂β ∂µi ∂ηi ∂Qi ∂µi = ϕxi ∂µi ∂ηi yi− µi v(µi) .

Referências

Documentos relacionados

Ou seja, conseguimos saber a distribui¸ c˜ ao exata da m´ edia amostral quando as vari´ aveis envolvidas s˜ ao de Bernoulli... Distribui¸c˜ ao da m´ edia amostral para

Como nas fun¸ c˜ oes de uma vari´ avel, temos de atender aos valores das vari´ aveis independentes para os quais f n˜ ao est´

O coeficiente de correla¸c˜ ao linear varia entre −1 e +1: r = −1 corresponde ao caso de correla¸ c˜ ao linear negativa perfeita e r = +1 corresponde ao de correla¸c˜ ao

Quantos quartos devem ser alugados para produzir a receita di´ aria m´ axima?. (g) Os gastos de combust´ıvel de um navio s˜ ao proporcionais ao cubo

Um conjunto X dotado de uma rela¸c˜ ao de ordem parcial ´e dito ser um conjunto bem-ordenado se todo subconjunto A n˜ ao vazio de X tem um elemento m´ınimo em A.. Mostre que

Mostre que todo conjunto bem-ordenado segundo uma rela¸c˜ ao parcial de ordem ´e tamb´em totalmente ordenado.. segundo a mesma

O Teorema de H¨ older consiste da afirma¸c˜ ao que a Fun¸c˜ ao Gamma de Euler n˜ao ´e solu¸c˜ ao de nenhuma equa¸c˜ ao diferencial alg´ebrica, ou seja, ´e uma fun¸c˜

A possibilidade de aplica¸c˜ ao de t´ ecnicas de processamento e an´ alise de imagem ao estudo de evidˆ encias bal´ısticas revelou-se extremamente ´ util, ao permitir