Valida¸ c˜ ao e selec¸ c˜ ao de modelos - Métodos bayesianos aplicados à modelagem conjunta de

1.3 Valida¸cão e seleçcão de modelos

Num problema de modela¸cão devemos sempre verificar se o modelo se ajusta suficientemente bem aos dados. No caso de termos ajustado vários modelos devemos ser capazes de seleccionar o melhor dentre eles. Se tiverem sido usados métodos MCMC esta análise deverá ser precedida pelo diagnóstico da convergência do algoritmo MCMC para a distribui¸cão estacionária.

Durante anos a compara¸cão de modelos via factor de Bayes foi usada como método de elei¸cão na inferência bayesiana. Contudo, do ponto de vista prático, não é um método em geral muito adequado (Paulino et al., 2003), excep¸cão feita aos modelos com distribui¸cões a priori próprias. Com a prolifera¸cão de modelos mais complexos utilizando pouca informa¸cão a priori, e por conseguinte, algumas distribui¸cões impróprias, e com o advento dos métodos MCMC, que vieram facilitar o cálculo de outras medidas de compara¸cão de modelos, o factor de Bayes tornou-se pouco atractivo, levando-o, num certo sentido, ao “esquecimento”. Por outro lado, nos ´

ultimos anos o critério de informa¸cão da desviância (DIC -Spiegelhalter et al.(2002)) tornou-se muito popular. Dos vários factores que contribu´ıram para isso, destaca-se a facilidade em obter uma estimativa do seu valor durante a execu¸cão de um algoritmo MCMC.

Ordenadas preditivas condicionais

No caso, pouco habitual, em que temos duas amostras independentes, y1 e y2, a primeira

pode ser usada para ajustar o modelo, formando a distribui¸c˜ao a posteriori, π(θ|y1), e a segunda

pode ser considerada uma amostra de valida¸c˜ao do modelo.

A distribui¸cão preditiva dada em (I-1.12) permite uma avalia¸cão do modelo no sentido em que, se os dados, y2, não estiverem de acordo com a sua distribui¸cão preditiva p(˜y2|y1), a qual

e calculada à custa de p(θ|y1), então é de esperar que o modelo não seja adequado.

Não sendo viável seguir pelo caminho anterior,Gelfand (1996) sugere a utiliza¸cão da distribui¸cão preditiva condicional dada por

p(yi|y(−i)) =

p(y) p(y(−i))

= Z

p(yi|θ, y(−i))π(θ|y(−i))dθ, (1.14)

onde y_(−i) = (y1, y2, . . . , yi−1, yi+1, . . . , yN). Quando calculada nos valores observados de y a

quantidade (I-1.14) adquire o nome de ordenada preditiva condicional (CPO). Pequenos valores de CPO indicam que a observa¸cão yi não é bem suportada pelo modelo. Estes valores são

um indicador da verosimilhan¸ca de cada observa¸c˜ao dadas todas as outras, o que implica que valores baixos indicam observa¸c˜oes mal ajustadas. Uma estat´ıstica resumo, baseada nos valores de CPOi, denominada logaritmo da verosimilhan¸ca pseudomarginal (LPML - “logarithm of the

pseudomarginal likelihood”), ´e dada por LPML = N X i=1 log(CPOi), (1.15)

onde N representa o número de indiv´ıduos. Esta estat´ıstica é sempre bem definida desde que a densidade preditiva a posteriori (I-1.12) seja própria. Portanto, LPML pode ser bem definida, mesmo em cenários de distribui¸cões a priori impróprias, tendo assim, neste caso, uma clara vantagem sobre o factor de Bayes como ferramenta de avalia¸cão do modelo.

Ao comparar dois modelos competitivos, quanto maior for o seu valor de LPML, melhor ser´a o modelo do ponto de vista preditivo. Um gr´afico dos valores CPOi para ambos os modelos

versus o número da observa¸cão, deverá revelar que o melhor modelo terá, de um modo geral, os CPOi acima dos do modelo menos bom.

A estima¸c˜ao dos CPOi pode ser levada a cabo de uma forma simples dentro do algoritmo

MCMC usado para gerar amostras da distribui¸cão a posteriori (Gelfand e Dey, 1994). Uma estimativa de CPOi é dada pela média harmónica da fun¸cão de verosimilhan¸ca avaliada em yi

para cada θ(t), denotada por f (yi|θ(t)), t = 1, . . . , T0:

[ CPOi= 1 T0 T0 X t=1 1 f (yi|θ(t)) !−1 , (1.16)

onde T0 é o número de simula¸cões guardadas no final de um algoritmo MCMC.

Critério de informa¸cão da desviância

Spiegelhalter et al.(2002) propuseram uma generaliza¸cão do critério de informa¸cão de Akaike (AIC - akaike information criterion (Akaike, 1973)) baseada na distribui¸cão a posteriori da estat´ıstica da desviância

D(θ) = −2 log p(y|θ) + 2 log h(y), (1.17)

onde p(y|θ) é a fun¸cão de verosimilhan¸ca e h(y) é uma fun¸cão apenas dos dados que não tem impacto na escolha do modelo. Os autores propõem como medida da adequabilidade do modelo, o valor esperado a posteriori da desviância, D = E_θ|y[D] e como penaliza¸cão associada `

a complexidade do modelo, o número efectivo de parâmetros, pD (que poderá ser inferior ao total de parâmetros do modelo devido à presen¸ca de efeitos aleatórios). Podemos pensar em pD como o número de parâmetros irrestritos num modelo em que um parâmetro pontua: 1, se for estimado sem restri¸cões ou informa¸cão a priori ; 0, se for totalmente especificado pela informa¸cão a priori ; ou entre 0 e 1, se o parâmetro depende da informa¸cão presente nos dados e na informa¸cão a priori (Gelman et al.,2004). No caso de modelos gaussianos, pD é a diferen¸ca entre o valor esperado da desviância a posteriori, D = Eθ|y[D], e a desviância calculada no valor

1.3 Valida¸cão e seleçcão de modelos

esperado a posteriori de θ

pD = Eθ|y[D] − D Eθ|y[θ] = D − D(θ). (1.18)

Portanto, o critério de informa¸cão da desviância (DIC) é definido por

DIC = D + pD = 2D − D(θ), (1.19)

sendo que menores valores indicam um modelo mais bem ajustado. Tanto D como pD são facil- mente obtidos via algoritmo MCMC, o que torna o seu uso bastante apelativo. Enquanto que pD tem um significado muito preciso de número efectivo de parâmetros, o DIC não tem, pois não ´

e definido numa escala absoluta, devido `a arbitrariedade da constante h(y), que frequentemente ´

e considerada como sendo zero. Assim, apenas diferen¸cas entre modelos que empregam a mesma verosimilhan¸ca (na primeira etapa no caso de modelos hierárquicos) têm significado. Portanto, o DIC não identifica o modelo correcto, mas apenas compara uma coleçcão de modelos com for- mula¸cões alternativas. Valores pequenos de pD podem indicar efeitos fixos (efeitos não aleatórios no sentido da inferência frequencista) colineares ou uma enorme partilha de informa¸cão entre os efeitos aleatórios. O valor de DIC não é invariante à parametriza¸cão, pelo que é necessário dar bastante aten¸cão às altera¸cões aos modelos. O valor do AIC é equivalente ao DIC quando estão em jogo distribui¸cões a priori não-informativas. A compara¸cão do AIC com o DIC, quando se utilizam distribui¸cões a priori informativas, não faz sentido.

Outros critérios de seleçcão de modelos podem ser consultados em Paulino et al. (2003), incluindo o uso de res´ıduos bayesianos para averiguar da validade do modelo. No contexto da análise conjunta de dados longitudinais e de sobrevivência existem algumas particularidades que não permitem a utiliza¸cão destes habituais res´ıduos no diagnóstico dos modelos. Neste sentido,

Rizopoulos et al. (2010) desenvolveram um método para averiguar a qualidade de um modelo tendo em conta res´ıduos baseados em imputa¸cão múltipla (“Multiple imputation based residu- als”) (vide seçcão I-4.4.3). Zhu et al. (2012) desenvolvem medidas para identificar indiv´ıduos influentes no cálculo dos parâmetros de um modelo conjunto.

2

An´alise de dados longitudinais

Num estudo longitudinal, os dados são recolhidos repetidamente ao longo do tempo nos di- versos indiv´ıduos em observa¸cão, permitindo, desta forma, estudar directamente as altera¸cões nos indiv´ıduos com o decorrer do tempo. O objectivo principal é caracterizar as mudan¸cas na variável resposta ao longo do tempo, bem como os factores que influenciam essas mudan¸cas. Com base nas medidas repetidas dos indiv´ıduos podemos capturar mudan¸cas intra-individuais, não captadas por outros estudos experimentais. Por exemplo, num estudo transversal, onde a resposta é medida num único instante, só é poss´ıvel obter estimativas para as diferen¸cas na resposta inter-individual. Assim, um estudo transversal permite a compara¸cão entre subpopula¸cões que diferem, por exemplo, quanto à idade, mas não providencia qualquer informa¸cão sobre as mudan¸cas individuais durante o per´ıodo correspondente. Apesar de, usualmente, ser poss´ıvel abordar as mesmas questões cient´ıficas com ambos os tipos de estudo, o estudo transversal não permite separar, no contexto da popula¸cão, aquilo a que se chama de efeito de coorte ou seguimento e efeito de idade (Fitzmaurice et al.,2004).

Os dados longitudinais têm, na correla¸cão das observa¸cões de um mesmo indiv´ıduo, uma das suas caracter´ısticas fundamentais, facto que deve ser tido em conta no processo inferencial. Exibem, ainda, uma ordem temporal; a primeira observa¸cão vem antes da segunda e assim sucessivamente. A recolha destes dados pode ser realizada de forma prospectiva ou retrospectiva. Na primeira forma, que é também a mais comum, os indiv´ıduos são seguidos a partir de um instante inicial até um instante final, enquanto que a segunda forma prevê que os indiv´ıduos sejam estudados a partir de registos históricos.

Dados longitudinais podem ser vistos como dados agrupados em um n´ıvel, em que cada conjunto de medidas repetidas de um indiv´ıduo, obtidas em diferentes ocasiões, forma um bloco. Podem também ser encarados como dados agrupados em multin´ıveis. Por exemplo, os dados podem consistir em medidas repetidas de vários indiv´ıduos, divididos por hospital ou área ge- ográfica de habita¸cão. Dentro destes grupos é de esperar que os dados sejam mais semelhantes entre si do que entre os dados de outros grupos. Tal grau de semelhan¸ca pode ser expresso em

termos de correla¸c˜ao intra-grupos.

Este cap´ıtulo inicia-se pela apresenta¸cão da nota¸cão e conceitos básicos (seçcão I-2.1). De seguida é descrito um dos modelos mais populares na literatura para descrever a variabilidade de um resultado longitudinal relativamente a um conjunto de covariáveis - o modelo misto (seçcão I-2.2), onde são introduzidos efeitos aleatórios para explicar a dependência entre as medidas repetidas de um indiv´ıduo ao longo do tempo. Estes efeitos representam a influência da heterogeneidade individual não observável adoptada pelo modelo. Por vezes sucede que, durante um estudo longitudinal, alguns indiv´ıduos abandonam prematuramente o estudo devido a várias razões, pelo que uma análise tendo em conta a omissão de dados é importante. A seçcão I-2.3

é dedicada à defini¸cão de dados omissos e à discussão das suas implica¸cões nas inferências do processo longitudinal. Para uma abordagem mais aprofundada sobre dados longitudinais pode ser consultada a obra deDiggle et al. (2002) ouFitzmaurice et al. (2004).

2.1 Conceitos b´asicos e nota¸c˜ao

Seja Yi(tij) ≡ Yij uma vari´avel resposta para o i-´esimo indiv´ıduo, i = 1, . . . , N , no instante j,

j = 1, . . . , ni, onde ni representa o n´umero de medidas repetidas do individuo i. O vector ni× 1

das medidas repetidas para o i-´esimo sujeito ´e yi= (Yi1, . . . , Yini)

>_{. O conjunto de respostas para}

todos os indiv´ıduos será representado por y = (y₁>, . . . , y>_N) e o número de total de observa¸cões da variável resposta para todos os indiv´ıduos é PN

i=1ni. Quando as observa¸c˜oes s˜ao feitas nos

mesmos instantes de tempo para todos os indiv´ıduos, isto é, todos os indiv´ıduos têm o mesmo número de medidas repetidas, n, e o conjunto de tempos de observa¸cão, {ti1, . . . , tin}, é comum

a todos, dizemos que os dados são equilibrados ou temporalmente alinhados. Se o intervalo entre duas medidas consecutivas for constante dizemos que são regulares no tempo. Pelo contrário, os dados são desequilibrados ou temporalmente desalinhados, se as medidas repetidas dos indiv´ıduos não forem obtidas num conjunto comum de ocasiões.

Associado a cada resposta Yij existe um vector p × 1 de covari´aveis, x>ij = (Xij1, . . . , Xijp),

i = 1, . . . , N , e j = 1, . . . , ni. Note-se que o vector xij pode conter, tanto vari´aveis que se

mantêm inalteradas ao longo do estudo (e.g. sexo e tratamento), como variáveis que variam com o tempo (e.g. tempo decorrido desde o in´ıcio do estudo ou estado actual relativo ao hábito de fumar). A matriz de dimensão ni× p, Xi, i = 1, . . . , N , cuja linha j correspondente é dada

por x>_ij, agrega o conjunto das p covari´aveis para o indiv´ıduo i medidas em cada instante j, j = 1, . . . , ni, ou seja,

Xi= (xi1|xi2|. . . |xini)

>_. _(2.1)

Os estudos longitudinais s˜ao tipicamente baseados num modelo de regress˜ao da forma

2.1 Conceitos b´asicos e nota¸c˜ao

onde β é um vector p × 1 de coeficientes de regressão e eij são erros aleatórios com média nula,

representando os desvios da resposta relativamente ao seu valor esperado, dado pelo modelo estrutural,

E(Yij | xij) = x>ijβ. (2.3)

Usualmente, Xij1 = 1, ∀i, j, implicando que β1 seja a ordenada na origem. Numa nota¸c˜ao

matricial (I-2.2) pode ser escrita como

yi = Xiβ + ei, (2.4)

onde ei = (ei1, . . . , eini)

> _´_{e o vector dos erros aleat´}_{orios do indiv´ıduo i.}

Na análise de dados longitudinais algumas das suposi¸cões usuais dos modelos de regressão linear não se verificam. Em particular, observa¸cões repetidas do mesmo indiv´ıduo não são independentes e a variância não é, frequentemente, constante ao longo do estudo. Além disso, as correla¸cões costumam ser positivas e apresentar algum tipo de padrão. Por exemplo, espera- se que um par de medidas repetidas, obtidas com uma curta distancia temporal, estejam mais correlacionadas do que outras mais distanciadas no tempo.

Geralmente existem três fontes de variabilidade em dados longitudinais: heterogeneidade inter-individual, varia¸cões biológicas intra-individuais e erros de medida. A primeira reflecte as diferen¸cas naturais entre indiv´ıduos. Alguns indiv´ıduos têm valores da variável resposta que são consistentemente altos e outros consistentemente baixos. Além disso, a heterogeneidade individual pode ainda ser o reflexo de uma diferen¸ca na trajectória da resposta. Por exemplo, após se administrar o mesmo fármaco aos indiv´ıduos, nem todos terão a mesma varia¸cão da variável resposta. Esta heterogeneidade latente é muita vezes acomodada pela introdu¸cão de efeitos aleatórios espec´ıficos para cada indiv´ıduo. Estes são comuns às respostas para um determinado indiv´ıduo, mas variam entre sujeitos, introduzindo, desta forma, correla¸cão inter-individual no modelo. Por outro lado, a varia¸cão intra-individual reflecte o facto de a maioria das variáveis, relativas à saúde, não ter um ciclo previs´ıvel, ou seja, uma sequência de medidas repetidas de um indiv´ıduo irá flutuar em torno de um conjunto de pontos de equil´ıbrio de forma aleatória. Muitas dessas observa¸cões podem ser vistas como realiza¸cões de um processo inerente ao sujeito e que varia com o tempo, implicando que medidas próximas no tempo estejam mais correlacionadas do que medidas mais afastadas, porque desvios aleatórios consecutivos não poderão ser conside- rados independentes. Diz-se, portanto, que a varia¸cão intra-individual introduz correla¸cão serial entre as medidas repetidas, reflectindo-se na matriz de correla¸cões, a qual poderá evidenciar que a correla¸cão diminui com o afastamento no tempo. A última fonte de varia¸cão advém do facto de os instrumentos usados para medir as respostas poderem ser imprecisos.

No documento Métodos bayesianos aplicados à modelagem conjunta de dados longitudinais e de sobrevivência (páginas 31-38)