• Nenhum resultado encontrado

1.3

Valida¸c˜ao e selec¸c˜ao de modelos

Num problema de modela¸c˜ao devemos sempre verificar se o modelo se ajusta suficientemente bem aos dados. No caso de termos ajustado v´arios modelos devemos ser capazes de seleccionar o melhor dentre eles. Se tiverem sido usados m´etodos MCMC esta an´alise dever´a ser precedida pelo diagn´ostico da convergˆencia do algoritmo MCMC para a distribui¸c˜ao estacion´aria.

Durante anos a compara¸c˜ao de modelos via factor de Bayes foi usada como m´etodo de elei¸c˜ao na inferˆencia bayesiana. Contudo, do ponto de vista pr´atico, n˜ao ´e um m´etodo em geral muito adequado (Paulino et al., 2003), excep¸c˜ao feita aos modelos com distribui¸c˜oes a priori pr´oprias. Com a prolifera¸c˜ao de modelos mais complexos utilizando pouca informa¸c˜ao a priori, e por conseguinte, algumas distribui¸c˜oes impr´oprias, e com o advento dos m´etodos MCMC, que vieram facilitar o c´alculo de outras medidas de compara¸c˜ao de modelos, o factor de Bayes tornou-se pouco atractivo, levando-o, num certo sentido, ao “esquecimento”. Por outro lado, nos ´

ultimos anos o crit´erio de informa¸c˜ao da desviˆancia (DIC -Spiegelhalter et al.(2002)) tornou-se muito popular. Dos v´arios factores que contribu´ıram para isso, destaca-se a facilidade em obter uma estimativa do seu valor durante a execu¸c˜ao de um algoritmo MCMC.

Ordenadas preditivas condicionais

No caso, pouco habitual, em que temos duas amostras independentes, y1 e y2, a primeira

pode ser usada para ajustar o modelo, formando a distribui¸c˜ao a posteriori, π(θ|y1), e a segunda

pode ser considerada uma amostra de valida¸c˜ao do modelo.

A distribui¸c˜ao preditiva dada em (I-1.12) permite uma avalia¸c˜ao do modelo no sentido em que, se os dados, y2, n˜ao estiverem de acordo com a sua distribui¸c˜ao preditiva p(˜y2|y1), a qual

´

e calculada `a custa de p(θ|y1), ent˜ao ´e de esperar que o modelo n˜ao seja adequado.

N˜ao sendo vi´avel seguir pelo caminho anterior,Gelfand (1996) sugere a utiliza¸c˜ao da distri- bui¸c˜ao preditiva condicional dada por

p(yi|y(−i)) =

p(y) p(y(−i))

= Z

p(yi|θ, y(−i))π(θ|y(−i))dθ, (1.14)

onde y(−i) = (y1, y2, . . . , yi−1, yi+1, . . . , yN). Quando calculada nos valores observados de y a

quantidade (I-1.14) adquire o nome de ordenada preditiva condicional (CPO). Pequenos valores de CPO indicam que a observa¸c˜ao yi n˜ao ´e bem suportada pelo modelo. Estes valores s˜ao

um indicador da verosimilhan¸ca de cada observa¸c˜ao dadas todas as outras, o que implica que valores baixos indicam observa¸c˜oes mal ajustadas. Uma estat´ıstica resumo, baseada nos valores de CPOi, denominada logaritmo da verosimilhan¸ca pseudomarginal (LPML - “logarithm of the

pseudomarginal likelihood”), ´e dada por LPML = N X i=1 log(CPOi), (1.15)

onde N representa o n´umero de indiv´ıduos. Esta estat´ıstica ´e sempre bem definida desde que a densidade preditiva a posteriori (I-1.12) seja pr´opria. Portanto, LPML pode ser bem definida, mesmo em cen´arios de distribui¸c˜oes a priori impr´oprias, tendo assim, neste caso, uma clara vantagem sobre o factor de Bayes como ferramenta de avalia¸c˜ao do modelo.

Ao comparar dois modelos competitivos, quanto maior for o seu valor de LPML, melhor ser´a o modelo do ponto de vista preditivo. Um gr´afico dos valores CPOi para ambos os modelos

versus o n´umero da observa¸c˜ao, dever´a revelar que o melhor modelo ter´a, de um modo geral, os CPOi acima dos do modelo menos bom.

A estima¸c˜ao dos CPOi pode ser levada a cabo de uma forma simples dentro do algoritmo

MCMC usado para gerar amostras da distribui¸c˜ao a posteriori (Gelfand e Dey, 1994). Uma estimativa de CPOi ´e dada pela m´edia harm´onica da fun¸c˜ao de verosimilhan¸ca avaliada em yi

para cada θ(t), denotada por f (yi|θ(t)), t = 1, . . . , T0:

[ CPOi= 1 T0 T0 X t=1 1 f (yi|θ(t)) !−1 , (1.16)

onde T0 ´e o n´umero de simula¸c˜oes guardadas no final de um algoritmo MCMC.

Crit´erio de informa¸c˜ao da desviˆancia

Spiegelhalter et al.(2002) propuseram uma generaliza¸c˜ao do crit´erio de informa¸c˜ao de Akaike (AIC - akaike information criterion (Akaike, 1973)) baseada na distribui¸c˜ao a posteriori da estat´ıstica da desviˆancia

D(θ) = −2 log p(y|θ) + 2 log h(y), (1.17)

onde p(y|θ) ´e a fun¸c˜ao de verosimilhan¸ca e h(y) ´e uma fun¸c˜ao apenas dos dados que n˜ao tem impacto na escolha do modelo. Os autores prop˜oem como medida da adequabilidade do modelo, o valor esperado a posteriori da desviˆancia, D = Eθ|y[D] e como penaliza¸c˜ao associada `

a complexidade do modelo, o n´umero efectivo de parˆametros, pD (que poder´a ser inferior ao total de parˆametros do modelo devido `a presen¸ca de efeitos aleat´orios). Podemos pensar em pD como o n´umero de parˆametros irrestritos num modelo em que um parˆametro pontua: 1, se for estimado sem restri¸c˜oes ou informa¸c˜ao a priori ; 0, se for totalmente especificado pela informa¸c˜ao a priori ; ou entre 0 e 1, se o parˆametro depende da informa¸c˜ao presente nos dados e na informa¸c˜ao a priori (Gelman et al.,2004). No caso de modelos gaussianos, pD ´e a diferen¸ca entre o valor esperado da desviˆancia a posteriori, D = Eθ|y[D], e a desviˆancia calculada no valor

1.3 Valida¸c˜ao e selec¸c˜ao de modelos

esperado a posteriori de θ

pD = Eθ|y[D] − D Eθ|y[θ] = D − D(θ). (1.18)

Portanto, o crit´erio de informa¸c˜ao da desviˆancia (DIC) ´e definido por

DIC = D + pD = 2D − D(θ), (1.19)

sendo que menores valores indicam um modelo mais bem ajustado. Tanto D como pD s˜ao facil- mente obtidos via algoritmo MCMC, o que torna o seu uso bastante apelativo. Enquanto que pD tem um significado muito preciso de n´umero efectivo de parˆametros, o DIC n˜ao tem, pois n˜ao ´

e definido numa escala absoluta, devido `a arbitrariedade da constante h(y), que frequentemente ´

e considerada como sendo zero. Assim, apenas diferen¸cas entre modelos que empregam a mesma verosimilhan¸ca (na primeira etapa no caso de modelos hier´arquicos) tˆem significado. Portanto, o DIC n˜ao identifica o modelo correcto, mas apenas compara uma colec¸c˜ao de modelos com for- mula¸c˜oes alternativas. Valores pequenos de pD podem indicar efeitos fixos (efeitos n˜ao aleat´orios no sentido da inferˆencia frequencista) colineares ou uma enorme partilha de informa¸c˜ao entre os efeitos aleat´orios. O valor de DIC n˜ao ´e invariante `a parametriza¸c˜ao, pelo que ´e necess´ario dar bastante aten¸c˜ao `as altera¸c˜oes aos modelos. O valor do AIC ´e equivalente ao DIC quando est˜ao em jogo distribui¸c˜oes a priori n˜ao-informativas. A compara¸c˜ao do AIC com o DIC, quando se utilizam distribui¸c˜oes a priori informativas, n˜ao faz sentido.

Outros crit´erios de selec¸c˜ao de modelos podem ser consultados em Paulino et al. (2003), incluindo o uso de res´ıduos bayesianos para averiguar da validade do modelo. No contexto da an´alise conjunta de dados longitudinais e de sobrevivˆencia existem algumas particularidades que n˜ao permitem a utiliza¸c˜ao destes habituais res´ıduos no diagn´ostico dos modelos. Neste sentido,

Rizopoulos et al. (2010) desenvolveram um m´etodo para averiguar a qualidade de um modelo tendo em conta res´ıduos baseados em imputa¸c˜ao m´ultipla (“Multiple imputation based residu- als”) (vide sec¸c˜ao I-4.4.3). Zhu et al. (2012) desenvolvem medidas para identificar indiv´ıduos influentes no c´alculo dos parˆametros de um modelo conjunto.

2

An´alise de dados longitudinais

Num estudo longitudinal, os dados s˜ao recolhidos repetidamente ao longo do tempo nos di- versos indiv´ıduos em observa¸c˜ao, permitindo, desta forma, estudar directamente as altera¸c˜oes nos indiv´ıduos com o decorrer do tempo. O objectivo principal ´e caracterizar as mudan¸cas na vari´avel resposta ao longo do tempo, bem como os factores que influenciam essas mudan¸cas. Com base nas medidas repetidas dos indiv´ıduos podemos capturar mudan¸cas intra-individuais, n˜ao captadas por outros estudos experimentais. Por exemplo, num estudo transversal, onde a resposta ´e medida num ´unico instante, s´o ´e poss´ıvel obter estimativas para as diferen¸cas na res- posta inter-individual. Assim, um estudo transversal permite a compara¸c˜ao entre subpopula¸c˜oes que diferem, por exemplo, quanto `a idade, mas n˜ao providencia qualquer informa¸c˜ao sobre as mudan¸cas individuais durante o per´ıodo correspondente. Apesar de, usualmente, ser poss´ıvel abordar as mesmas quest˜oes cient´ıficas com ambos os tipos de estudo, o estudo transversal n˜ao permite separar, no contexto da popula¸c˜ao, aquilo a que se chama de efeito de coorte ou seguimento e efeito de idade (Fitzmaurice et al.,2004).

Os dados longitudinais tˆem, na correla¸c˜ao das observa¸c˜oes de um mesmo indiv´ıduo, uma das suas caracter´ısticas fundamentais, facto que deve ser tido em conta no processo inferencial. Exibem, ainda, uma ordem temporal; a primeira observa¸c˜ao vem antes da segunda e assim sucessivamente. A recolha destes dados pode ser realizada de forma prospectiva ou retrospectiva. Na primeira forma, que ´e tamb´em a mais comum, os indiv´ıduos s˜ao seguidos a partir de um instante inicial at´e um instante final, enquanto que a segunda forma prevˆe que os indiv´ıduos sejam estudados a partir de registos hist´oricos.

Dados longitudinais podem ser vistos como dados agrupados em um n´ıvel, em que cada con- junto de medidas repetidas de um indiv´ıduo, obtidas em diferentes ocasi˜oes, forma um bloco. Podem tamb´em ser encarados como dados agrupados em multin´ıveis. Por exemplo, os dados podem consistir em medidas repetidas de v´arios indiv´ıduos, divididos por hospital ou ´area ge- ogr´afica de habita¸c˜ao. Dentro destes grupos ´e de esperar que os dados sejam mais semelhantes entre si do que entre os dados de outros grupos. Tal grau de semelhan¸ca pode ser expresso em

termos de correla¸c˜ao intra-grupos.

Este cap´ıtulo inicia-se pela apresenta¸c˜ao da nota¸c˜ao e conceitos b´asicos (sec¸c˜ao I-2.1). De seguida ´e descrito um dos modelos mais populares na literatura para descrever a variabilidade de um resultado longitudinal relativamente a um conjunto de covari´aveis - o modelo misto (sec¸c˜ao I-2.2), onde s˜ao introduzidos efeitos aleat´orios para explicar a dependˆencia entre as medidas repetidas de um indiv´ıduo ao longo do tempo. Estes efeitos representam a influˆencia da heterogeneidade individual n˜ao observ´avel adoptada pelo modelo. Por vezes sucede que, durante um estudo longitudinal, alguns indiv´ıduos abandonam prematuramente o estudo devido a v´arias raz˜oes, pelo que uma an´alise tendo em conta a omiss˜ao de dados ´e importante. A sec¸c˜ao I-2.3

´e dedicada `a defini¸c˜ao de dados omissos e `a discuss˜ao das suas implica¸c˜oes nas inferˆencias do processo longitudinal. Para uma abordagem mais aprofundada sobre dados longitudinais pode ser consultada a obra deDiggle et al. (2002) ouFitzmaurice et al. (2004).

2.1

Conceitos b´asicos e nota¸c˜ao

Seja Yi(tij) ≡ Yij uma vari´avel resposta para o i-´esimo indiv´ıduo, i = 1, . . . , N , no instante j,

j = 1, . . . , ni, onde ni representa o n´umero de medidas repetidas do individuo i. O vector ni× 1

das medidas repetidas para o i-´esimo sujeito ´e yi= (Yi1, . . . , Yini)

>. O conjunto de respostas para

todos os indiv´ıduos ser´a representado por y = (y1>, . . . , y>N) e o n´umero de total de observa¸c˜oes da vari´avel resposta para todos os indiv´ıduos ´e PN

i=1ni. Quando as observa¸c˜oes s˜ao feitas nos

mesmos instantes de tempo para todos os indiv´ıduos, isto ´e, todos os indiv´ıduos tˆem o mesmo n´umero de medidas repetidas, n, e o conjunto de tempos de observa¸c˜ao, {ti1, . . . , tin}, ´e comum

a todos, dizemos que os dados s˜ao equilibrados ou temporalmente alinhados. Se o intervalo entre duas medidas consecutivas for constante dizemos que s˜ao regulares no tempo. Pelo contr´ario, os dados s˜ao desequilibrados ou temporalmente desalinhados, se as medidas repetidas dos indiv´ıduos n˜ao forem obtidas num conjunto comum de ocasi˜oes.

Associado a cada resposta Yij existe um vector p × 1 de covari´aveis, x>ij = (Xij1, . . . , Xijp),

i = 1, . . . , N , e j = 1, . . . , ni. Note-se que o vector xij pode conter, tanto vari´aveis que se

mantˆem inalteradas ao longo do estudo (e.g. sexo e tratamento), como vari´aveis que variam com o tempo (e.g. tempo decorrido desde o in´ıcio do estudo ou estado actual relativo ao h´abito de fumar). A matriz de dimens˜ao ni× p, Xi, i = 1, . . . , N , cuja linha j correspondente ´e dada

por x>ij, agrega o conjunto das p covari´aveis para o indiv´ıduo i medidas em cada instante j, j = 1, . . . , ni, ou seja,

Xi= (xi1|xi2|. . . |xini)

>. (2.1)

Os estudos longitudinais s˜ao tipicamente baseados num modelo de regress˜ao da forma

2.1 Conceitos b´asicos e nota¸c˜ao

onde β ´e um vector p × 1 de coeficientes de regress˜ao e eij s˜ao erros aleat´orios com m´edia nula,

representando os desvios da resposta relativamente ao seu valor esperado, dado pelo modelo estrutural,

E(Yij | xij) = x>ijβ. (2.3)

Usualmente, Xij1 = 1, ∀i, j, implicando que β1 seja a ordenada na origem. Numa nota¸c˜ao

matricial (I-2.2) pode ser escrita como

yi = Xiβ + ei, (2.4)

onde ei = (ei1, . . . , eini)

> ´e o vector dos erros aleat´orios do indiv´ıduo i.

Na an´alise de dados longitudinais algumas das suposi¸c˜oes usuais dos modelos de regress˜ao linear n˜ao se verificam. Em particular, observa¸c˜oes repetidas do mesmo indiv´ıduo n˜ao s˜ao independentes e a variˆancia n˜ao ´e, frequentemente, constante ao longo do estudo. Al´em disso, as correla¸c˜oes costumam ser positivas e apresentar algum tipo de padr˜ao. Por exemplo, espera- se que um par de medidas repetidas, obtidas com uma curta distancia temporal, estejam mais correlacionadas do que outras mais distanciadas no tempo.

Geralmente existem trˆes fontes de variabilidade em dados longitudinais: heterogeneidade inter-individual, varia¸c˜oes biol´ogicas intra-individuais e erros de medida. A primeira reflecte as diferen¸cas naturais entre indiv´ıduos. Alguns indiv´ıduos tˆem valores da vari´avel resposta que s˜ao consistentemente altos e outros consistentemente baixos. Al´em disso, a heterogeneidade indivi- dual pode ainda ser o reflexo de uma diferen¸ca na traject´oria da resposta. Por exemplo, ap´os se administrar o mesmo f´armaco aos indiv´ıduos, nem todos ter˜ao a mesma varia¸c˜ao da vari´avel resposta. Esta heterogeneidade latente ´e muita vezes acomodada pela introdu¸c˜ao de efeitos aleat´orios espec´ıficos para cada indiv´ıduo. Estes s˜ao comuns `as respostas para um determinado indiv´ıduo, mas variam entre sujeitos, introduzindo, desta forma, correla¸c˜ao inter-individual no modelo. Por outro lado, a varia¸c˜ao intra-individual reflecte o facto de a maioria das vari´aveis, relativas `a sa´ude, n˜ao ter um ciclo previs´ıvel, ou seja, uma sequˆencia de medidas repetidas de um indiv´ıduo ir´a flutuar em torno de um conjunto de pontos de equil´ıbrio de forma aleat´oria. Muitas dessas observa¸c˜oes podem ser vistas como realiza¸c˜oes de um processo inerente ao sujeito e que varia com o tempo, implicando que medidas pr´oximas no tempo estejam mais correlacionadas do que medidas mais afastadas, porque desvios aleat´orios consecutivos n˜ao poder˜ao ser conside- rados independentes. Diz-se, portanto, que a varia¸c˜ao intra-individual introduz correla¸c˜ao serial entre as medidas repetidas, reflectindo-se na matriz de correla¸c˜oes, a qual poder´a evidenciar que a correla¸c˜ao diminui com o afastamento no tempo. A ´ultima fonte de varia¸c˜ao adv´em do facto de os instrumentos usados para medir as respostas poderem ser imprecisos.