• Nenhum resultado encontrado

MLG. 23 de outubro de Curso de Modelos Lineares Generalizado - DEST/UFMG Marcos Oliveira Prates. Marcos Oliveira Prates

N/A
N/A
Protected

Academic year: 2022

Share "MLG. 23 de outubro de Curso de Modelos Lineares Generalizado - DEST/UFMG Marcos Oliveira Prates. Marcos Oliveira Prates"

Copied!
18
0
0

Texto

(1)

MLG

Curso de Modelos Lineares Generalizado - DEST/UFMG Marcos Oliveira Prates

23 de outubro de 2017

(2)

T ´ecnicas para Diagn ´osticos em GLM

Assim como para modelos lineares t ´ecnicas de diagn ´osticos foram desenvolvidas para GLM.

Um passo inicial ´e extender as analises feitas para modelos lineares e achar uma medida equivalente na classe de GLM.

Dessa forma, seria interessante que essas extens ˜oes equivalentes tamb ´em preservem a interpretac¸ ˜ao anterior.

(3)

Pontos de alavanca

A matrizHpara modelos lineares ´e obtida por H

=

X

(

X0X

)

1X0,

e vimos que oshiipodem ser utilizados para detectar pontos de alavanca.

Por ´em pode se verificar quehii ´e dado por

∂ˆyi

∂yi

Assim, Wei, Hu e Fung (1998) propuseram uma forma geral para obter a matriz

∂ˆy y0

(4)

Especificamente para GLM pode se mostrar que GL

ˆ =

∂ˆy

y0

=

Dβ

(− ¨

lββ

)

1

¨

lβy|ˆ

β

ondeDβ

=

∂µ∂β,

¨

l

ββ

=

∂ββ2l(β)0 e

¨

l

βy

=

∂β2l(β)y0 . Em modelos GLM temos queDβ

=

∂µ∂β

=

NXe

¨

l

βy

=

∂β2l(β)y0

=

φ1X0W1N, onde N

=

diag

(

1/dη1, . . . ,dµn/dηn

)

. Substituindo

¨

l

ββ

=

−φ1

(

X0WX

)

, seu valor esperado. Obtemos:

GL

ˆ = ˆ

NX

(

X0WX

)

1X0W1N

ˆ

(5)

Selecionando a diagonalGL

ˆ

ii temos uma alternativa para representar pontos de alavanca no caso GLM.

Note que

GL

ˆ

ii

= ˆ

ωix0i

(

X0WX

)

1xi, ondeωi

=

(dµi/Wdηi)2

i .

GL

ˆ

iiapesar de an ´aloga a definic¸ ˜ao de obtida no casos de modelos lineares essa estimativa n ˜ao ´e ´unica.

(6)

Pontos de alavanca tamb ´em podem ser obtidos fazendo uma analogia entre o estimador de de m ´axima verosimilhanc¸a para

ˆ

β no MLG e a soluc¸ ˜ao de m´ınimos quadrados para modelos lineares ponderados.

Vimos que a estimativa para o

ˆ

βpara modelos GLM pode ser pensada como a soluc¸ ˜ao de um modelo linear ponderado com a seguinte forma:

β

ˆ

(t+1)

= (

X0W(t)X

)

1X0W(t)z(t),

onde

ˆ

z

=

Xβ(t)

+

W1

(

Y−µ(t)

)

Logo, ap ´os converg ˆenciaβ

ˆ

pode ser interpretado como a soluc¸ ˜ao de m´ınimos quadrados deW

ˆ ˆ

z contra as colunas deW

ˆ

1/2X.

(7)

No caso da soluc¸ ˜ao de modelos lineares com m´ınimos quadrados a matriz de projec¸ ˜ao ´e dada por:

H

ˆ = ˆ

W1/2X

(

X0W

ˆ

X

)

1XW1/2.

Assim, sugere a utilizac¸ ˜ao do

ˆ

hii como a medida de ponto de alavanca (Pregbon, (1981)).

Para ligac¸ ˜oes can ˆonicas temos queGL

ˆ

ii

= ˆ

hii.

Com ligac¸ ˜oes n ˜ao can ˆonicas pode se mostrar queGL

ˆ

ii

= ˆ

hiipara um tamanho de amostra grande.

Como

ˆ

hiidepende de

ˆ

µi sugere para detectar pontos de alavanca fazer o gr ´afico

ˆ

hii×

ˆ

µi.

(8)

Res´ıduos para GLM

Uma definic¸ ˜ao an ´aloga aos res´ıduos studentizados para modelos lineares pode ser feitas para modelos GLM.

Todavia isso n ˜ao garante que as propriedades continuem valendo.

Assim pode se pensar em res´ıduos que preservem as propriedades desejadas.

(9)

Uma primeira proposta seria considerar os res´ıduos ordin ´arios da soluc¸ ˜ao de m´ınimos quadrados da regress ˜ao de

ˆ

zemX, definido porr?

= ˆ

W1/2

(

y

ˆ

µ)

Se assumirmos que a vari ˆancia dez

ˆ

≈W1φ, ent ˜ao Var

(

r?

)

≈φ(I−H

ˆ )

.

Logo, podemos pensar o res´ıduo padronizado como

tSi

= (

yi

ˆ

µi

)

q

φW

ˆ

i

(

1−

ˆ

hii

)

(10)

Como na pr ´atica

ˆ

µn ˜ao ´e conhecido e nem

ˆ

z ´e normalmente distribu´ıdo, as propriedades deti n ˜ao s ˜ao verificadas paratSi. Williams (1984) mostra atrav ´es de simulac¸ ˜ao que na pr ´atica a distribuic¸ ˜ao detSi s ˜ao assim ´etricas.

O res´ıduo mais utilizado em GLM ´e o seguinte:

tDi

=

pD

(

yi

; ˆ

µi

)

p

1−

ˆ

hii

=

pD

(

yi

; ˆ

µi

)

q

φ(1−

ˆ

hii

)

.

Williams (1984) verificou atrav ´es de simulac¸ ˜oes que a distribuic¸ ˜ao detDi ´e mais pr ´oxima da normalidade.

(11)

Identificando Observac¸ ˜oes Influentes

Observac¸ ˜ao Influente

Como para modelos lineares, ap ´os identificar observac¸ ˜oes que s ˜ao outliers com respeito aos valores deYe/ou valores deX, o pr ´oximo passo ´e determinar se essas observac¸ ˜oes s ˜ao ou n ˜ao pontos influentes.

Continuamos a considerar uma observac¸ ˜ao influente se a exclus ˜ao dessa observac¸ ˜ao causa uma grande mudanc¸a no ajuste da func¸ ˜ao regress ˜ao.

(12)

Cook’s Distance para GLM

Supondoφconhecido vamos definir a influ ˆenciaLDi como LDi

=

2

(

l

β)−l

β(i)

))

onde

ˆ

β(i)denota o valor estimado paraβ

ˆ

sem ai- ´esima observac¸ ˜ao nos dados.

O calculo deLDi n ˜ao possui forma anal´ıtica. Assim, utiliza-se uma expans ˜ao de Taylor de segunda ordem emLDipara se obter

LDi≈φ1

β−

ˆ

β(i)

)

0

(

X0WX

)(ˆ

β−

ˆ

β(i)

)

ondeφ1X0WX ´e o valor esperado de−

¨

l

β)ββ.

(13)

De forma geral n ˜ao ´e poss´ıvel encontrar de forma fechada

ˆ

β(i). Portanto, a aproximac¸ ˜ao (Pregbon, (1981)) ´e utilizada:

β

ˆ

1(i)

= ˆ

β

+ [− ¨

l

β)ββ

]

1l(i)

β)

ondel(i)

β) ´e a func¸ ˜ao de log-verosimilhanc¸a sem ai- ´esima observac¸ ˜ao.

Substituindo,

¨

l

β)ββel(i)

β)por seus valores esperados temos que

ˆ

β1(i)

= ˆ

β

+ ˆ

rPi

√ω

ˆ

i

φ1/2

(

1−

ˆ

hii

) (

X0W

ˆ

X

)

1xi

(14)

Ao determinarβ

ˆ

1(i)podemos substituir na aproximac¸ ˜ao de segunda ordem e obtemos

LDi

ˆ

hii

1−

ˆ

hii

tS2i

A validade dessa aproximac¸ ˜ao ainda esta sendo investigada por pesquisadores. At ´e o momento acredita-se que a mesma subestima o verdadeiro valor deLDi, por ´em ´e suficiente para chamar a atenc¸ ˜ao de pontos influentes.

(15)

Diagn ´osticos de Influ ˆencia Local

Diagn ´osticos de influ ˆencia local tamb ´em podem ser feitos para GLM. Por ´em, seus c ´alculos n ˜ao s ˜ao tao simples.

Influ ˆencia local tem sido estudada por diversos pesquisadores. A ideia consiste basicamente em perturbar o vetor de covari ´aveis e verificar como essa perturbac¸ ˜ao influencia as estimativas.

Para isso, Cook (1986) utilizou o conceito de curvatura normal Ca

(θ) =

2|a0

0

lˆθˆθ

)

1

a|

ondea ´e uma direc¸ ˜ao unit ´aria que se deseja analisar a influ ˆencia.

(16)

Uma sugest ˜ao ´e utilizarCamax, ou seja, a direc¸ ˜aoade maior curvatura. Isso implica, que observac¸ ˜oes sob pequena perturbac¸ ˜ao exerce influ ˆencia desproporcional emLD

Para GLM se consideramos a func¸ ˜ao de perturbac¸ ˜ao da forma

l

(β|δ) =

n

i=1

δili

(β),

com 0≤δi ≤1, pode se mostrar que

∆ =

φ1/2X0W

ˆ

1/2D

rP

)

ondeD

rP

) =

diag

rP1, . . . ,ˆrPn

)

erPi

=

φ(yi−ˆµi) Wˆi

. Substituindo

¨

l1

ˆθˆθ por seu valor esperado obtemos

(17)

Se escolhemosapara ser na direc¸ ˜ao dai- ´esima observac¸ ˜aoXi temos que

Ci

=

2

ˆ

hii

ˆ

rPi

Uma sugest ˜ao para detectar observac¸ ˜oes influentes ´e verificar seCi>C

¯

±2sd

(

C

)

Em particular, o vetoramax, ou seja, a direc¸ ˜ao de maior influ ˆencia

´e dado pelo autovetor correspondente ao maior autovalor da matriz

B

=

D

rP

) ˆ

HD

rP

)

O gr ´afico deamaxcontra a ordem das observac¸ ˜oes pode ser usado para detectar observac¸ ˜oes influentes.

(18)

Se desejamos detectar observac¸ ˜oes influentes na estimativa de um coeficiente em particular, associado a vari ´avelXi, podemos reescrever o vetoramaxcomo

a0max

=

ν1

ˆ

rP1

pCamax

, . . . νn

ˆ

rPn

pCamax

!

ondeν1, . . . ,νnsao obtidos da regressao linear deXi nas colunas deXi com pesosW

ˆ

, ou seja,

ν

= ˆ

W1/2Xi−W1/2Xi

(

X0iW

ˆ

Xi

)

1X0iW

ˆ

Xi.

O gr ´afico do novoamaxcontra a ordem das observac¸ ˜oes pode ser usado para detectar observac¸ ˜oes influentes.

Referências

Documentos relacionados

No tocante ao planejamento ou programação de obra, 62% das empresas do sistema em alvenaria estrutural os realizam, porém este número não pode ser observado com muito

Na configuração do sistema de automação ou fieldbus, o sistema IO-Link é representado pelo IO-Link mestre e integrado usando a descrição de dispositivo apropriada (por exemplo,

Elaboração de um problema – deve ser contextualizado, introduzindo os alunos no assunto que se quer trabalhar e ofereça condições para que eles possam pensar nas

Já as dimensões dois (condições de trabalho), três (uso e desenvolvimento de capacidades), cinco (integração social na organização) e seis (constitucionalismo)

Acredita-se que as pes- soas especiais devem estar presentes não só como ouvintes, mas como agentes que possam estar envolvidos nas discussões e decisões sobre uma

Como se pode ver nos algoritmos propostos pelas European Society of Cardiology (ESC), American Heart Association e American College of Cardiology (AHA/ACC) (Figura 2A e 2B), em

Aldo-DHF: Antagonista do recetor de aldosterona na insuficiência cardíaca diastólica; ARA: antagonista dos recetores de angiotensina; ARM: antagonista dos

Por meio da experiência relatada, tornou-se possível verificar que o movimento imbricado na construção, desconstrução e reconstrução de novas formas de lidar com o