Avalia¸ c˜ ao do modelo - Métodos bayesianos aplicados à modelagem conjunta de dados longitudin

paramétricos, não vinculados a esta hipótese, como o modelo aditivo de Aalen (Aalen, 1980,

1989).

3.6.3 Estima¸c˜ao do risco de base

Na seçcãoI-3.6.2considerou-se a estima¸cão do parâmetro de interesse β no modelo de riscos proporcionais, podendo ser suficiente para investigar o efeito das covariáveis na fun¸cão de risco. Contudo, a plena compreensão da fun¸cão de risco está incompleta sem o conhecimento do risco de base. Usando a equa¸cão (I-3.25), a fun¸cão de risco para um indiv´ıduo pode ser estimada, desde que já se tenha uma estimativa para h0(t).

Uma forma de encarar a fun¸cão de risco de base é especificá-la. Neste caso, a fun¸cão de risco correspondente a qualquer distribui¸cão abordada na seçcão I-3.5 poderá ser usada como h0(t).

Um modelo paramétrico com riscos proporcionais é o modelo Weibull, pelo que se pode adoptar uma fun¸cão de risco de base Weibull, implicando que todos os indiv´ıduos tenham uma fun¸cão de risco, que é semelhante na sua forma (Weibull).

Da seçcão I-3.5.2 sabemos que a fun¸cão de risco duma distribui¸cão W(α, λ) é h(t | α, λ) = λαtα−1. O modelo de regressão a´ı constru´ıdo supunha a introdu¸cão das covariáveis através do parâmetro de escala, λ, considerando que λ = exp(x>β). Note-se que, na fun¸cão de risco do modelo de riscos proporcionais (I-3.25), podemos considerar que h0(t) coincide com αtα−1,

obtendo-se aquilo que ´e usual chamar-se de modelo de Cox com um risco de base com distribui¸c˜ao Weibull

h(t | x) = αtα−1exp(x>β). (3.30)

Para se estimar a fun¸cão de risco de base faz-se uso de técnicas indirectas que podem ser: (i) paramétricas, se visarem a diminui¸cão do número de parâmetros a ser estimados, para que a fun¸cão de risco de base fique bem especificada (a distribui¸cão mais utilizada é a Weibull, por ser simples e mais flex´ıvel que a distribui¸cão exponencial); (ii) não-paramétricas, se visam dar mais flexibilidade ao modelo, sendo desnecessário supor uma distribui¸cão dos tempos de sobrevivência. Nesta última são utilizados, muito frequentemente, modelos de risco constante por tro¸cos, processos Gama (Kalbfleisch(1978) e Burridge(1981)), processos beta (Hjort,1990) e processos de Dirichlet (Ferguson e Phadia (1979) e Susarla e Van Ryzin (1976)). Uma boa discussão sobre abordagens não-paramétricas pode ser encontrada emIbrahim et al.(2001).

3.7 Avalia¸c˜ao do modelo

Após um modelo ser ajustado a um conjunto de dados é necessário avaliar a sua adequabili- dade. Contudo, no contexto da análise de sobrevivência, os métodos de avalia¸cão do ajustamento têm de lidar com a existência de censura, o que os torna um pouco mais complicados do que

os correspondentes métodos utilizados em outros modelos de regressão. Muitos procedimentos de avalia¸cão são baseados em quantidades conhecidas como res´ıduos. Estes valores, calculados para cada indiv´ıduo, têm a particularidade de, quando o ajuste do modelo é satisfatório, o seu comportamento ser conhecido, pelo menos de forma aproximada.

3.7.1 Res´ıduos de Cox-Snell

Os res´ıduos mais usados na análise de sobrevivência são os res´ıduos de Cox-Snell (Cox e Snell, 1968). Seja θ o vector de parâmetros a estimar no modelo. Os res´ıduos de Cox-Snell, condicionalmente aos parâmetros, são definidos como o valor da fun¸cão de risco cumulativo avaliada nos momentos de evento observado, ti, ou seja,

r_iCS(ti| ˆθ) =

Z ti

hi(s|xi(s), ˆθ)ds. (3.31)

Se o modelo se ajusta bem aos dados esperamos que r_iCS(ti|.) tenha uma distribui¸c˜ao exponencial

unit´aria. Em vez de simplesmente substitu´ırmos os parˆametros, θ, pela sua estimativa, ˆθ, podemos calcular o valor esperado a posteriori dos res´ıduos Cox-Snell:

rCS_i (ti) =

r_iCS(ti|θ)π(θ|D)dθ. (3.32)

Na pr´atica, estamos a calcular rCS

i (ti), que s˜ao os res´ıduos nos tempos de falha observados, e,

portanto, quando o tempo de observa¸cão é censurado, r_iCS(Ti) também o será. Para levar em

linha de conta a censura na verifica¸cão do ajuste do modelo, podemos comparar graficamente a estimativa de Kaplan-Meier da fun¸cão de sobrevivência de r_iCS(ti) com a fun¸cão de sobrevivência

da distribui¸c˜ao exponencial unit´aria.

3.7.2 Res´ıduos Martingala

Os res´ıduos Martingala fornecem uma medida da diferen¸ca entre o número observado de mortes no intervalo (0, ti), onde ti é o tempo de falha para o indiv´ıduo i e o número de mortes

estimadas pelo modelo. O res´ıduo Martingala para o i-´esimo indiv´ıduo ´e:

r_iM = δi− rCSi , (3.33)

onde δ é o indicador de evento. O gráfico destes res´ıduos vs uma covariável, indica como a forma funcional desta covariável se deve parecer. Em particular, um gráfico que seja uma recta indica que é necessário um termo linear. Para ajudar na interpreta¸cão o gráfico é aconselhável analisar uma suaviza¸cão dos res´ıduos por intermédio do LOESS (“LOcal regrESSion” (Cleveland et al.,

4

Modelos conjuntos

Os modelos conjuntos para dados longitudinais e de sobrevivência têm tido um crescente de- senvolvimento na literatura. Tsiatis e Davidian(2004) é um trabalho nuclear nesta temática, ofe- recendo, inclusivamente, uma revisão abrangente desde os primórdios destes modelos. Ibrahim et al. (2001) dedicam especial aten¸cão ao assunto, desenvolvendo alguns dos modelos mais im- portantes, tanto frequencistas como bayesianos. Recentemente, houve uma edi¸cão especial da revista Lifetime Data Analysis com 7 artigos inteiramente dedicados à temática (Chen e Gus- tafson, 2011), bem como a publica¸cão de um livro exclusivamente sobre modelos conjuntos (Rizopoulos,2012b).

Nas próximas seçcões iremos abordar os conceitos básicos dos modelos conjuntos (seçcão

I-4.1), come¸cando pelos métodos mais utilizados para modelar cada um dos processos longitudinal e de sobrevivência em separado (seçcão I-4.2). Seguir-se-á a apresenta¸cão dos critérios de aplicabilidade (seçcãoI-4.2.4) e dos principais modelos conjuntos (seçcãoI-4.3). Na seçcãoI-4.4

apresenta-se a evolu¸cão da literatura sobre a temática, nomeadamente a n´ıvel das ferramentas de diagnóstico, terminando com os desafios computacionais que os modelos conjuntos enfrentam.

4.1 Conceitos b´asicos e nota¸c˜ao

Consideremos que T_i∗ ´e o verdadeiro tempo de ocorrˆencia do evento de interesse para o i- ´

esimo indiv´ıduo, i = 1, . . . , N . Como vimos no cap´ıtuloI-3, o tempo de sobrevivência verdadeiro não é, por norma, observado para todos os indiv´ıduos e está sujeito aos vários tipos de censura. Posto isto, o que observamos é Ti = min{Ti∗, Ci}, onde Ci é o tempo de censura. Recordemos

que δi = 1[T_i∗ ≤ Ci] ´e o indicador de ocorrˆencia de evento, em que δi = 1 indica uma falha e

δi = 0 indica uma observa¸c˜ao censurada `a direita. Portanto, os dados observados no processo

de sobrevivência, para popula¸cões homogéneas, consistem nos pares {(Ti, δi); i = 1, . . . , N }.

no instante t para o i-ésimo indiv´ıduo. Devemos notar que não temos observa¸cões do marcador para todos os instantes, mas apenas em ocasiões espec´ıficas, {tij ≤ Ti, j = 1, . . . , ni}, nas

quais h´a uma medi¸c˜ao do marcador longitudinal. Portanto, os dados longitudinais observados consistem no conjunto de medidas Yi(t) = {Yi(tij) ≡ Yij, 0 ≤ tij < Ti, j = 1, . . . ni}, denominado

hist´oria dos valores observados do marcador, ou na sua forma vectorial, yi = (Yi1, . . . , Yini).

Tipicamente supõe-se que, para cada um dos N pacientes, existe um processo subjacente do marcador, Y_i∗ = {Y_i∗(t), t ≥ 0, i = 1, . . . , N }, denominado trajectória, que não é observado, e como tal, pode ser encarada como latente. A trajectória representa os verdadeiros valores da medida longitudinal para todos os instantes t ≥ 0. Portanto, aquilo a que se tem acesso são representa¸cões, nos instantes considerados, de alguma fun¸cão dos verdadeiros valores, Y_i∗(t). Desta forma o valor observado do resultado longitudinal no instante tij, contaminado com um

erro de medida, ei(tij), ´e dado por

Yi(tij) = Yi∗(tij) + ei(tij). (4.1)

Repare-se que a formula¸cão anterior, além de admitir a intermitência das observa¸cões longitudinais, possibilita ainda que diferentes indiv´ıduos tenham um diferente número de medi¸cões ao longo do tempo e que os instantes possam ser diferentes para cada i. A trajectória pos- sui informa¸cão sobre a medida longitudinal e ao ser vista como um factor latente, permite-nos encará-la como a representa¸cão do verdadeiro estado de saúde do paciente nas suas várias di- mensões ou apenas como uma ferramenta para induzir rela¸cões.

Dois dos principais objectivos da modela¸cão conjunta são: (i) caracterizar padrões de mu- dan¸ca dentro do biomarcador; (ii) caracterizar a associa¸cão entre altera¸cões do biomarcador e o tempo-até-evento. O primeiro dos objectivos citados pode envolver, por exemplo, o cálculo de E[Yi(t)|xi] ou V[Yi(t)|xi], onde xi é um vector de covariáveis de base (e.g. indicador de

tratamento). Contudo, a literatura sobre modelos conjuntos tem-se centrado mais no segundo des´ıgnio e, em geral, a forma utilizada para explanar as rela¸cões entre o verdadeiro tempo de sobrevivência, T∗, o verdadeiro valor do marcador longitudinal, Y∗(t), e covariáveis de base, xi,

é estabelecer a rela¸cão através de um modelo de riscos relativos com covariáveis dependentes do tempo (vide seçcão I-3.6.1) da seguinte forma (Kalbfleisch e Prentice,2002):

h(t|Y∗(t)) = lim ∆t→0 1 ∆tP (t ≤ T ∗ _{< t + δ|T}∗ _{≥ t, Y}∗_{(t), x} i) = h0(t)φ(Y∗(t), xi; θ), (4.2)

onde φ(Y∗(t), xi; θ) é uma fun¸cão da história da covariável dependente do tempo até ao instante

t, Y∗(t) = {Y∗(u), 0 ≤ u < t}, especificada a menos de um parˆametro, ou vector de parˆametros, θ.

No documento Métodos bayesianos aplicados à modelagem conjunta de dados longitudinais e de sobrevivência (páginas 55-59)