3.2 Modelo misto linear el´ıptico
3.7.1 Modelos mistos lineares t de Student
Em MMLs ´e comum assumir que os efeitos aleat´orios e os erros intraindiv´ıduos seguem distribui¸c˜oes normais multivariadas. Assim, a inferˆencia por m´axima verossimilhan¸ca para MMLs ´e sens´ıvel a pontos aberrantes. Em inferˆencia robusta, Wu (2010) apresenta uma abor- dagem que consiste em substituir as distribui¸c˜oes normais multivariadas pelas corresponden- tes distribui¸c˜oes t de Student com as mesmas m´edias e matrizes de variˆancias-covariˆancias. Uma vez que as distribui¸c˜oes t de Student tˆem caudas mais pesadas do que a normal, ´e esperado que essas distribui¸c˜oes acomodem melhor pontos aberrantes.
A seguir, apresentamos uma abordagem em MMLs em que ´e assumida a distribui¸c˜ao t de Student tanto para os efeitos aleat´orios quanto para os erros intraindiv´ıduos.
Seja yi = (yi1, ..., yimi)
T as m
i respostas medidas no indiv´ıduo i, i = 1, ..., n. Um MML
usual ´e dado por
3.7. Distribui¸c˜ao t de Student 49 bi iid ∼ Nq(0, D), ǫi ind ∼ Nmi(0, Ri), (3.17)
em que β = (β1, ..., βp)T s˜ao efeitos fixos, bi = (bi1, ..., biq)T s˜ao efeitos aleat´orios, Xi e
Zi s˜ao matrizes de planejamento conhecidas, ǫi = (ǫi1, ..., ǫimi)
T s˜ao erros intraindiv´ıduos,
Ri ´e a matriz de variˆancias-covariˆancias para os erros intraindiv´ıduos e D ´e a matriz de
variˆancias-covariˆancias dos efeitos aleat´orios.
A vers˜ao do modelo (3.16)-(3.17) sob erros t de Student (Wu, 2010) ´e dada por
yi = Xiβ+ Zibi+ ǫi, (3.18) bi iid ∼ tq(0, D, νi), ǫi ind ∼ tmi(0, Ri, νi), (3.19)
em que νi denota os graus de liberdade.
Em estudos longitudinais, dados at´ıpicos podem ocorrer no n´ıvel da popula¸c˜ao, o que su- gere uma distribui¸c˜ao t de Student para os efeitos aleat´orios para acomodar estes dados, e/ou podem ocorrem no n´ıvel do indiv´ıduo, podendo ser sugerida uma distribui¸c˜ao t de Student para os erros intraindiv´ıduos para acomodar valores discrepantes. Em outras palavras, em modelos lineares de efeitos mistos robustos, podemos considerar distribui¸c˜oes t de Student tanto para os efeitos aleat´orios quanto para os erros de cada indiv´ıduo.
3.7.2 Verifica¸c˜ao da qualidade do ajuste
Em modelos com erros de medi¸c˜ao, a qualidade do ajuste tem recebido muito menos aten¸c˜ao na literatura do que a inferˆencia. Como em de Castro e Galea (2010), e similarmente ao caso normal, podemos utilizar a distˆancia de Mahalanobis transformada para avaliar a adequa¸c˜ao do modelo t de Student multivariado ajustado. Temos que a quantidade ϑi =
δi/2mi, sendo δi a distˆancia de Mahalanobis, segue distribui¸c˜ao F(2mi,ν). Al´em disso, ˆϑi = ˆ
δi/2mi tem a mesma distribui¸c˜ao assint´otica de ϑi (Box e Tiao, 1973).
De forma an´aloga ao caso normal, ap´os a aplica¸c˜ao da transforma¸c˜ao de Wilson-Hilferty (Johnson et al., 1994) obtemos
d[t]i = 1 − 2 9ν ϑ1/3i −1 − 9m1 i 2 9νϑ 2/3 i +9m1i 1/2 ,
que tem, aproximadamente, distribui¸c˜ao normal padr˜ao, d[t]i iid∼ N(0, 1), i = 1, ..., n. Gr´aficos normais de probabilidade das distˆancias transformadas d[t]i podem ser utilizados para avaliar a qualidade do ajuste do modelo t de Student multivariado.
Cap´ıtulo 4
Diagn´ostico de influˆencia
4.1
Introdu¸c˜ao
A detec¸c˜ao de dados at´ıpicos (aberrantes, alavanca ou influentes) e a verifica¸c˜ao de poss´ıveis afastamentos das suposi¸c˜oes estabelecidas sobre o modelo s˜ao etapas importantes em qualquer an´alise estat´ıstica. Isto ´e essencial para avaliar a sensibilidade dos resultados obtidos com o conjunto de dados dispon´ıvel, j´a que observa¸c˜oes at´ıpicas podem distorcer as estimativas dos parˆametros, conduzindo em alguns casos a decis˜oes errˆoneas.
Existem v´arias alternativas para avaliar a influˆencia de perturba¸c˜oes nos dados e/ou nos pressupostos do modelo sobre as estimativas dos parˆametros de interesse (vide, por exemplo, Cook e Weisberg (1982) e Galea et al. (2000)). A elimina¸c˜ao de casos ´e uma t´ecnica de diagn´ostico comum para avaliar o efeito de uma observa¸c˜ao sobre o processo de estima¸c˜ao e teste de hip´oteses. Esta ´e uma an´alise de influˆencia global, j´a que o efeito da observa¸c˜ao ´e quantificado eliminando-a do conjunto de dados (Cook, 1977).
Alternativamente, Cook (1986) propˆos um interessante m´etodo, denominado influˆencia local, para avaliar o efeito de pequenas perturba¸c˜oes nos dados e/ou nos pressupostos do mo- delo estat´ıstico, sobre as estimativas de m´axima verossimilhan¸ca, sem eliminar observa¸c˜oes. Cook propˆos usar a curvatura normal da superf´ıcie do afastamento pela verossimilhan¸ca que ´e essencialmente equivalente a usar a segunda derivada do afastamento pela verossimilhan¸ca. O m´etodo foi aplicado por Galea et al. (1997) em modelos lineares el´ıpticos. Resultados adicionais sobre influˆencia local e aplica¸c˜oes podem ser encontrados em Escobar e Meeker (1992), Zhao e Lee (1998), Lesaffre e Verbeke (1998), Osorio et al. (2007) e Ibacache-Pulgar
et al. (2012), entre outros.
O desenvolvimento do m´etodo de influˆencia local no contexto de modelos com efeitos mistos e dados com estrutura longitudinal pode ser encontrado nos trabalhos de Osorio
(2006), que estudou o modelo linear com efeito misto el´ıptico, e Osorio et al. (2007) que estudaram modelos lineares el´ıpticos com estrutura longitudinal, entre outros.
J´a no contexto de modelos com erros nas vari´aveis o m´etodo de influˆencia local tem sido estudado por diversos autores, entre eles Zhao e Lee (1995), que derivaram fun¸c˜oes de influˆencia para modelos lineares e n˜ao lineares generalizados com erros de medi¸c˜ao; e Zhong
et al. (2000), que desenvolveram diagn´osticos de influˆencia local e global para modelos
lineares com erros nas vari´aveis baseados na fun¸c˜ao de verossimilhan¸ca corrigida proposta por Nakamura (1990).
No estudo de diagn´osticos de influˆencia, um enfoque corresponde `a acomoda¸c˜ao das observa¸c˜oes discrepantes ou influentes utilizando distribui¸c˜oes sim´etricas com caudas mais pesadas do que a distribui¸c˜ao normal. Neste sentido, uma escolha interesante corresponde `a classe de distribui¸c˜oes de contornos el´ıpticos. O principal atrativo desta classe ´e que permite estender os modelos desenvolvidos sob suposi¸c˜ao de erro normal considerando distribui¸c˜oes sim´etricas com caudas mais leves ou mais pesadas do que a normal (Osorio, 2006).
4.2
Influˆencia local
Vamos considerar o logaritmo da fun¸c˜ao de verossimilhan¸ca de um modelo el´ıptico, dado por L(θ) = n X i=1 Li(θ), (4.1)
em que Li(θ) = −12log|Σi| + log g(δi) ´e a contribui¸c˜ao da i-´esima observa¸c˜ao.
Suponhamos que Li(θ|ω) seja o logaritmo da fun¸c˜ao de verossimilhan¸ca perturbada,
que depende do vetor de perturba¸c˜oes ω = (ω1, ..., ωn)T, restrito ao subconjunto euclidiano
aberto Ω ∈ ℜn, e assumimos que exista um vetor ω
0 de n˜ao perturba¸c˜ao que satisfa¸ca
L(θ|ω0) = L(θ). Vamos supor tamb´em que bθ seja a estimativa de m´axima verossimilhan¸ca
obtida ao maximizar L(θ) e bθω a estimativa de m´axima verossimilhan¸ca obtida ao maximizar L(θ|ω). Como alternativa para comparar bθ e bθω, Cook (1986) prop˜oe medir a distˆancia entre as estimativas, relativas aos contornos do logaritmo da fun¸c˜ao de verossimilhan¸ca n˜ao perturbada L(θ), por meio da fun¸c˜ao de afastamento da verossimilhan¸ca, definida como
LD(ω) = 2hL(bθ) − L(bθ|ω)i ≥ 0.
A ideia da influˆencia local ´e estudar o comportamento de LD(ω) em torno de ω0. Deve-
4.2. Influˆencia local 53