• Nenhum resultado encontrado

Modelos Lineares Mistos

N/A
N/A
Protected

Academic year: 2021

Share "Modelos Lineares Mistos"

Copied!
8
0
0

Texto

(1)

Modelos Lineares Mistos

(correla¸c˜ao)

Fernando Lucambio

Departamento de Estat´ıstica Universidade Federal do Paran´a Curitiba/PR, 81531–990, Brasil

email: lucambio@ufpr.br

Setembro de 2008

1

Introdu¸c˜

ao

Para ilustrar a utiliza¸c˜ao e interpreta¸c˜ao dos resultados obtidos com estes modelos utilizare-mos os dados coletados por Blackmoor e Davis acerca do hist´orico de 138 garotas adolescentes hospitalizadas por desordens alimentares e um grupo de 93 controles.

> library(car) # somente para ler os dados > library(relimp) # somente para mostrar os dados > library(nlme)

> data(Blackmoor) # para ler os dados na libraria (pacote) car > showData(Blackmoor) # para mostrar os dados

As vari´aveis s˜ao:

• subject: um c´odigo de identifica¸c˜ao, h´a diversas observa¸c˜oes para cada indiv´ıduo mas

como as garotas foram hospitalizadas em diferentes idades, o n´umero de observa¸c˜oes e a idade na ´ultima observa¸c˜ao variam.

• age: idade em anos no momento da observa¸c˜ao, as observa¸c˜oes foram coletadas

retrospec-tivamente a intervalos de dois anos cada,come¸cando ao 8 anos.

• exercice: a quantidade de exerc´ıcio no qual cada garota est´a engajada, ´e uma estimativa

em horas por semana

• group: um fator indicativo se o indiv´ıduo pertence ao grupo controle o paciente

Continuaremos aqui a desenvolver o exemplo. Para isso observemos a correla¸c˜ao da resposta ao longo do tempo. Primeiro devemos criar vari´aveis resposta em cada instante de observa¸c˜ao. Depois mostrarmos gr´aficamente o resultado, que pode ser apreciado na Figura 1.

> n=length(levels(subject)) > resp1=rep(0,n)

(2)

> for(i in 1:n) resp1[i]=exercise[subject==levels(subject)[i]][1] > for(i in 1:n) resp2[i]=exercise[subject==levels(subject)[i]][2] > for(i in 1:n) resp3[i]=exercise[subject==levels(subject)[i]][3] > for(i in 1:n) resp4[i]=exercise[subject==levels(subject)[i]][4] > for(i in 1:n) resp5[i]=exercise[subject==levels(subject)[i]][5] > scatterplot(cbind(resp1,resp2,resp3,resp4,resp5),

+ labels=c(’Idade 1’,’Idade 2’,’Idade 3’,’Idade 4’,’Idade 5’))

Podemos observar na Figura 1 que a medida da quantidade de exerc´ıcio est´a altamente rala-cionado mas de maneira especial. A Idade 1 de observa¸c˜ao (8 anos) est´a altamente relarala-cionado com a resposta na Idade 2 de observa¸c˜ao (10 anos), por´em o grau de correla¸c˜ao diminui con-forma afastam-se os instantes no tempo. Podemos observar tamb´em a densidade estimada e as observa¸c˜oes em cada instante na diagonal principal do gr´afico. Um detalhe importante do que ob-servamos na diagonal principal ´e que n˜ao estamos considerando que os dados n˜ao s˜ao igualmente distribu´ıdos, j´a que nesta an´alise n˜ao estam sendo consideradas as vari´aveis explicativas.

| |||||| |||| | | | ||| ||| | || | | | || | | |||| || ||| ||| | | | || ||||| | ||| || || || ||| | | || || | | || | | || | | |

Idade 1

0 2 4 6 8 0 5 10 20 0 2 4 6 0 2 4 6 8 | ||| | || | || | || || || | | | | |||| ||| || ||| || | | | || | ||| ||| ||||| ||| | | ||| || || || ||| || || | | | |||| | |

Idade 2

| ||||| | ||| | | |||| | ||| | | | | || || | | || || | | || |||| || ||| || || | | ||||||||||| || | ||| |||| | | || || ||

Idade 3

0 5 10 15 0 5 10 20 | || | |||| | | | ||| | | | | || | | | | | | | | | | | | | | | || | | ||||||| || | ||| | | || | |||| | |||| | | ||||||| | | | || ||

Idade 4

0 2 4 6 0 5 10 15 0 5 10 15 20 0 5 10 15 20 | | | | ||| || || ||| || | ||| ||| | || |||||| ||||||| | | | ||| ||| ||||| ||| ||| |||| ||| | | | ||| ||| | | | | | | |

Idade 5

(3)

Decidimos ent˜ao quantificar a corela¸c˜ao, para isso fazemos:

> cor(cbind(resp1,resp2,resp3,resp4,resp5),use="pairwise.complete.obs")

resp1 resp2 resp3 resp4 resp5

resp1 1.0000000 0.6853930 0.5046673 0.4983730 0.4900956 resp2 0.6853930 1.0000000 0.6271768 0.5025587 0.6253923 resp3 0.5046673 0.6271768 1.0000000 0.5488248 0.6621240 resp4 0.4983730 0.5025587 0.5488248 1.0000000 0.6054593 resp5 0.4900956 0.6253923 0.6621240 0.6054593 1.0000000

a condi¸c˜ao use="pairwise.complete.obs" deve-se ao fato de que nem todas as garotas foram observadas em todos os instantes de tempo e por isso utilizamos somente as observa¸c˜oes com-pletas para calcular a matriz de correla¸c˜oes.

2

O modelo linear misto

Lembremos que o modelo linear misto ´e da forma

yij = β1x1ij + β2x2ij+ . . . + βpxpij

+ γ1z1ij+ γ2z2ij+ . . . + γqzqij+ ²ij

γik ∼ N(0, ψk2), Cov{γk, γk0} = ψkk0

²ij ∼ N(0, σ2λijj), Cov{²ij, ²ij0} = σ2λijj0,

onde

• yij ´e a valor da vari´avel resposta na j-´esima de ni onbserva¸c˜oes no i-´esimo de M

agrupa-mentos

• β1, . . . , βp s˜ao os coeficientes dos efeitos fixos, que s˜ao idˆenticos para todos os grupos

• x1ij, . . . , xpij s˜ao os valores das regressoras dos efeitos fixos para a j-´esima observa¸c˜ao no

grupo i, a primeira destas regressoras ´e usualmente a constante, x1ij = 1

• γ1, . . . , γq s˜ao os coeficientes das componentes de efeitos aleat´orios

• ψ2 ´e a variancia e ψ

kk0 a covariancia entre os efeitos aleat´orios, assume-se que ´e constante

atrav´es dos grupos.

• ²ij ´e o erro para a j-´esima observa¸c˜ao no i-´esimo grupo. O termo de erro para o grupo i ´e

considerado com distribui¸c˜ao normal multivariada.

• σ2λ

ijj0 ´e a covariancia entre os erros no i-´esimo grupo.

Alternativamente, mas equivalentemente, em forma matricial yi =Xiβ + Ziγi+ ²i

γi ∼Nq(0, Ψ),

²i ∼Nn(0, σi)

onde

(4)

• Xi a matrix ni× p do modelo para os efeitos fixos das observa¸c˜oes no i-´esimo grupo

• β o vetor p × 1 de coeficientes de efeitos fixos

• Zi a matriz ni× q do modelo de efeitos aleat´orios das observa¸c˜oes no i-´esimo grupo

• γi o vetor q × 1 de coeficientes de efeitos aleat´orios para o grupo i

• ²i o vetor ni × 1 de erros das observa¸c˜oes no i-´esimo grupo

• Ψ a matriz q × q das covariancias dos efeitos aleat´orios • σ2Λ

i a matriz ni× ni das covariancias dos erros para o grupo i

2.1

Estruturas de correla¸c˜

ao

O interesse e dispon´ıvel ´e a estima¸c˜ao da estrutura de correla¸c˜ao dentro deo indiv´ıduos, isto ´e, a correla¸c˜ao entre a resposta nos diferentes instantes de observa¸c˜ao. Mencionaremos aqui as principais de mais comuns estruturas de correla¸c˜ao, todas elas para dados balanceados.

• Simˆetrica ou permut´avel. Em ingl´es compound symmetric ou exchangeable ´e

adequada quando a correla¸c˜ao permanece constante ao longo do tempo. ´E obtida pela

ob¸c˜ao corCompSymm. Λ =        1 ρ ρ . . . ρ ρ 1 ρ . . . ρ ρ ρ 1 . . . ρ ... ... ... ... ... ρ ρ ρ . . . 1       

• Autoregressiva de ´ordem 1. Em ingl´es autoregressive ou AR1 ´e adequada quando as s˜ao igualmente espa¸cadas ao longo do tempo. Esta estrutura formaliza a id´eia de que a

magnitude da correla¸c˜ao diminui conforme as observa¸c˜oes afastam-se no tempo. ´E obtida

pela ob¸c˜ao corAR1.

Λ =        1 ρ ρ2 . . . ρni ρ 1 ρ . . . ρni−1 ρ2 ρ 1 . . . ρni−2 ... ... ... . . . ... ρni ρni−1 ρni−2 . . . 1       

Outras poss´ıveis estruturas s˜ao a Toeplitz, exponencial, gaussiana, etc. dispon´ıveis digitando help(‘CorClasses’). No exemplo utilizaremos a vers˜ao cont´ınua da estrutura autoregressiva de ´ordem 1 (corCAR1), j´a que os dados n˜ao s˜ao balanceados.

3

Um exemplo ilustrativo da aplica¸c˜

ao destes modelos a

dados longitudinais

Contuando com o exemplo. Os dados originais reportam erro ao tentar ajustar o modelo, por isso transformamos a resposta `a escala logaritmica de base 2 para manter a interpretabilidade e, dado que alguns resultados da quantidade de exerc´ıcio s˜ao zero, acrescentamos 2 minutos para poder fazer o c´alculo.

(5)

> ajuste1 = lme(I(log(exercise+2/60,2))~I(age-8)*group, random=~I(age-8)|subject,data=Blackmoor) > ajuste4 = update(ajuste1, correlation = corCAR1(form=~age|subject))

> summary(ajuste4)

Linear mixed-effects model fit by REML Data: Blackmoor

AIC BIC logLik

3974.074 4017.696 -1978.037 Random effects:

Formula: ~I(age - 8) | subject

Structure: General positive-definite, Log-Cholesky parametrization StdDev Corr

(Intercept) 1.329901841 (Intr) I(age - 8) 0.001145202 0 Residual 1.828493658

Correlation Structure: Continuous AR(1) Formula: ~1 | subject

Parameter estimate(s): Phi

0.3158789

Fixed effects: I(log(exercise + 2/60, 2)) ~ I(age - 8) * group Value Std.Error DF t-value p-value (Intercept) -0.5041295 0.21973736 712 -2.294236 0.0221 I(age - 8) 0.0668084 0.03779829 712 1.767498 0.0776 grouppatient -0.4293746 0.28355697 229 -1.514245 0.1313 I(age - 8):grouppatient 0.2642971 0.04743925 712 5.571276 0.0000 Correlation: (Intr) I(g-8) grpptn I(age - 8) -0.549 grouppatient -0.775 0.426 I(age - 8):grouppatient 0.438 -0.797 -0.554 Standardized Within-Group Residuals:

Min Q1 Med Q3 Max

-3.0648446 -0.3679393 0.2108650 0.5661424 1.9096028 Number of Observations: 945

Number of Groups: 231

A autocorrela¸c˜ao estimada ´e relatuvamente baixa, bρ = 0.31 e os estimadores dos efeitos fixos

a seus desvios padr˜ao mudaram pouco. O teste da raz˜ao de verossimilhan¸cas para verificar a significˆancia do modelo ´e obtido a seguir.

> anova(ajuste1,ajuste4)

Model df AIC BIC logLik Test L.Ratio p-value ajuste1 1 8 3987.788 4026.564 -1985.894

ajuste4 2 9 3974.074 4017.696 -1978.037 1 vs 2 15.71436 1e-04

O teste ´e altamente significativo sugerindo que a estrutura de correla¸c˜ao ´e necess´aria. De-vido a que a especifica¸c˜ao do modelo h´a sido modificada (inclus˜ao da correla¸c˜ao) ajustaremos novamente o modelo para verifiar se os efeitos fixos devem permanecer como no modelo 1. Desta an´alise conclu´ımos que o modelo deve permanecer com o termo aleat´orio.

(6)

> ajuste5 = update(ajuste4, random = ~1|subject) > anova(ajuste4,ajuste5)

Model df AIC BIC logLik Test L.Ratio p-value ajuste4 1 8 3987.788 4026.564 -1985.894

ajuste5 2 6 3997.390 4026.472 -1992.695 1 vs 2 13.60158 0.0011 > ajuste6 = update(ajuste4, random =~I(age-8)-1|subject)

> anova(ajuste4,ajuste6)

Model df AIC BIC logLik Test L.Ratio p-value ajuste4 1 8 3987.788 4026.564 -1985.894

ajuste6 2 6 4169.907 4198.989 -2078.954 1 vs 2 186.119 <.0001

4

Res´ıduos

Diversas formas de apresentar os res´ıduos s˜ao mostradas na Figura 2, aqui mostramos a sa´ıda padr˜ao plot(ajuste4) a esquerda e a direita quando queremos observar os res´ıduos para cada indiv´ıduo, utilizamos o comando plot(ajuste4,subject∼resid(.)). Podemos observar que os res´ıduos est˜ao muito negativos, indicando que o modelo deve subestimar os resulados.

Fitted values Standardized residuals −3 −2 −1 0 1 2 −2 0 2 4 Residuals subject 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 192 193 194 195 196 198 199 200 201 202 203 204 205 206 207a 207b219227226225224223222221220218208217216215214213212211210209228 229a 229b243254253252251250249248247246245244242230241240239238237236235234233232231255 255b265271270269268267266264256263262261260259258257272 273a 273b274275276277278 279a 279b 280a 280b329320321322323324325326327328330318331332333334335336337338340319317281304282283284285286300301302303305316306307308309310311312313314315341 −6 −4 −2 0 2

Figura 2: Res´ıduos nos modelos mistos.

Mais duas formas de apresentar os res´ıuos s˜ao mostradas na Figura 3. O objetivo ´e observar poss´ıveis comportamentos anˆomalos, ou seja, comportamentos n˜ao esperados numa amostra aleat´oria.

A esquerda observamos a resposta em fun¸c˜ao da idade, para isso utilizamos a linha de co-mandos plot(ajuste4,I(log(exercise+2/60,2))∼I(age-8)). Isto com o objetiivo de saber se o modelo ´e adequado independente do instante de tempo estudado. A direita a resposta com plot(ajuste4,I(log(exercise+2/60,2))∼resid(.)), na qual verifica-se que existe uma certa tendˆencia de res´ıduos maiores para valores estresmos de resposta

(7)

I(age − 8) I(log(exercise + 2/60, 2)) −4 −2 0 2 4 0 2 4 6 8 10 Residuals I(log(exercise + 2/60, 2)) −4 −2 0 2 4 −4 −2 0 2 4

Figura 3: Res´ıduos nos modelos mistos.

5

Apresenta¸c˜

ao de resultados

Embora n˜ao completamente satisfeitos com o modelo escolhido (ajuste4), mostraremos os resul-tados graficamente. Primeiro devemos criar um novo conjunto de dados que ser´a utilizado para obter os valores preditos com o comnado predict.

pdados = expand.grid(age = seq(8,18,by=2), group = c(‘patient’,‘control’)) pdados$log.exercise = predict(ajuste4, pdados, level=0)

pdados$exercise = (2^pdados$log.exercise)-2/60 showData(pdados) 8 10 12 14 16 18 1 2 3 4 5 Idade (anos) Exercício (horas/semana) Paciente Control Figura 4: Resposta.

(8)

Desta forma obtivemos os valores preditos nas idades 8, 10, 12, 14, 16 e 18 anos (age = seq(8,18,by=2)) para os grupos de controle e de pacientes. A transforma¸c˜ao

2pdados$log.exercise − 2/60

´e necess´aria devido a que no momento de ajustar o modelo decidimos transformar a resposta em escala logaritmica.

Para gerar o gr´afico com a resposta m´edia segundo a idade e o grupo ao qual pertence o indiv´ıduo fazemos:

plot(pdados$age,pdados$exercise,type=’n’,xlab=’Idade (anos)’, ylab=’Exercicio (horas/semana)’) points(pdados$age[1:6],pdados$exercise[1:6],type=’b’,pch=19,lwd=2)

points(pdados$age[7:12],pdados$exercise[7:12],type=’b’,pch=22,lty=2,lwd=2) legend(8,5,c(’Paciente’,’Control’),pch=c(19,22),lty=c(1,2),lwd=2)

dev.off()

e o resultado ´e mostrado na Figura 4. Aparentemente os dois grupos tˆem o mesmo valor m´edio na idade de 8 anos, mas a quantidade de exerc´ıcios semanais aumenta muito mais no grupo de pacientes do que o controle ao longo do per´ıodo de estudo.

Referências

Documentos relacionados

Por meio dos ensaios de MO, se pode observar, na superfície lisa da membrana, estrias regulares que possivelmente, servem para aumentar a aderência entre o gel e

2 - OBJETIVOS O objetivo geral deste trabalho é avaliar o tratamento biológico anaeróbio de substrato sintético contendo feno!, sob condições mesofilicas, em um Reator

Fonte: Software Psim (2019). Inicialmente foi necessário alimentar o campo do gerador para obter as características da máquina disponível no software, assim têm-se os dados de

O que impulsiona ser cauteloso com os excessos do determinismo tecnológico de ‘Centrismo na Internet’ ou antes da ideia de que a Internet está impregnada por uma

Assim procedemos a fim de clarear certas reflexões e buscar possíveis respostas ou, quem sabe, novas pistas que poderão configurar outros objetos de estudo, a exemplo de: *

Considerando que, no Brasil, o teste de FC é realizado com antígenos importados c.c.pro - Alemanha e USDA - USA e que recentemente foi desenvolvido um antígeno nacional

By interpreting equations of Table 1, it is possible to see that the EM radiation process involves a periodic chain reaction where originally a time variant conduction

O desenvolvimento desta pesquisa está alicerçado ao método Dialético Crítico fundamentado no Materialismo Histórico, que segundo Triviños (1987)permite que se aproxime de