• Nenhum resultado encontrado

2.5 Comparação de Modelos

2.5.3 WAIC

Uma alternativa para a comparação de modelos é abordada por Vehtari & Gelman (2014) e é denominada critério de informação amplamente aplicável (WAIC). O WAIC pode

ser visto como uma melhoria no critério de informação de desvio (DIC) para os modelos bayesianos. Porém, ao contrário do DIC, o WAIC é invariante a parametrizações e se apro- xima de validação cruzada bayesiana.

Vehtari & Gelman (2014) definem o WAIC da seguinte forma:

W AIC = −2elpd

em que, elpd é o valor esperado do logaritmo da densidade preditiva do indivíduo i, em que i = 1, 2, · · · , n. O elpd é representado por:

elpd = n X i=1 Ehlog Z p(yi|θ)p(θ|y)dθ i .

Assim como o DIC é possível também estimar o WAIC através de métodos computacionais como os métodos de MCMC. Assim, pode-se interpretar o WAIC como uma aproximação computacional conveniente para validação cruzada e o critério é definido por:

W AIC = −2 delpd (2.13)

em que,

d

elpd = clpd −pbwaic,

• lpd é o logaritmo da densidade preditiva do indivíduo i, que tem a seguinte expressão:c

c lpd = n X i=1 log 1 L L X l=1 p(yi|θ[l]) ! e, • b

pwaicé a estimativa do número efetivo de parâmetros, calculados com base na seguinte

expressão: b pwaic = n X i=1 V arlogp(yi|θ[l])  ,

em que as iterações l = 1, 2 · · · , L do método MCMC são consideradas após o burn-in e os espaçamentos. Essa medida avalia a qualidade do ajuste mostrando que o maior o valor do WAIC indica o melhor o ajuste (Vehtari & Gelman, 2014).

Capítulo 3

Modelos Probabilísticos em

Sobrevivência

Inicia-se este capítulo com a apresentação, na Seção3.1de alguns fundamentos teó- ricos básicos em análise de sobrevivência. Em seguida na Seção 3.2 é descrita a classe unificada de modelos de fração de cura que foram introduzidos por Rodrigues et al. (2009), que será considerada neste trabalho.

3.1

Conceitos Básicos de Sobrevivência

Em análise de sobrevivência, a variável resposta é o tempo até a ocorrência de um evento de interesse. Segundo Colosimo & Giolo (2006), a correta caracterização dos tempos de falha deve envolver uma clara definição do tempo inicial, da escala de medida e do evento de interesse (falha). A falha pode ainda ocorrer devido a uma única causa ou devido a duas ou mais causas. Situações em que causas de falha competem entre si são denominadas na literatura de riscos competitivos (Prentice et al., 1978).

Uma peculiaridade dos dados de sobrevivência é a presença de observações incom- pletas ou parciais da variável resposta, que são chamadas de censuras. Existem três tipos de censuras: a censura à esquerda, a censura à direita, e a censura intervalar.

A censura à esquerda ocorre quando o tempo registrado é maior do que o tempo de falha, isto é, o evento de interesse já aconteceu quando o tempo foi registrado. Um estudo para determinar o momento em que uma pessoa fica inadimplente em um determinado banco pode ilustrar bem a censura à esquerda. Quando o banco iniciou o estudo algumas pessoas já estavam inadimplentes e não lembravam quando isso tinha acontecido, caracterizando, dessa forma, observações censuradas à esquerda.

uma parcela dos indivíduos em estudo, e em relação ao restante dos indivíduos, sabe-se apenas que o tempo de falha é maior que o tempo registrado (Ibrahim, Chen & Sinha 2001). Existem três tipos de censura à direita, a saber: censura do tipo I, censura do tipo II e censura aleatória. Quando o tempo de acompanhamento é preestabelecido e, ao finalizar-se o estudo, alguns indivíduos ainda não apresentaram o evento de interesse, tem-se a censura do tipo I. Neste caso o número de eventos é aleatório. Censuras do tipo II ocorrem quando o número de eventos é preestabelecido e, ao atingir esse número, todas as demais observações são censuradas. Consequentemente, o tempo de duração do estudo é aleatório. Finalmente, a censura aleatória ocorre quando um indivíduo deixa de ser acompanhado por um motivo que não está relacionado ao evento de interesse. Em geral, a situação que ocorre com mais frequência em ensaios clínicos, é uma combinação das censuras do tipo I ou II com a censura aleatória.

A censura intervalar ocorre quando o tempo de falha T não é conhecido exatamente, mas sabe-se que T pertence a um intervalo, isto é, T  (L, U ], em que, L é o limite inferior do intervalo e U é o limite superior do intervalo (Colosimo e Giolo 2006). Conforme discutido em Lindsey & Ryan. (1998), a censura intervalar corresponde a um caso mais geral de cen- sura, e as censuras à direita e à esquerda podem ser vistas como casos particulares de dados de censura intervalar. De fato, tempos de falha são observados quando L = U , enquanto a censura à direita fica caracterizada quando U = ∞, e a censura à esquerda quando L = 0.

Colosimo & Giolo (2006) ressaltam o fato de que observações censuradas devem ser incluídas na análise de dados de sobrevivência por duas razões: (i) mesmo sendo incom- pletas, as observações censuradas fornecem informações sobre o tempo até a falha; (ii) a omissão das censuras no cálculo das estatísticas de interesse pode acarretar conclusões vici- adas.

Duas funções extremamente importantes para a caracterização dos tempos de falha são a função de sobrevivência e a função de risco. Essas funções serão definidas a seguir.

Assuma que uma variável aleatória contínua T, representando o tempo até a falha, seja caracterizada pela função de distribuição acumulada F (t) ou, equivalentemente, pela função densidade de probabilidade f (t). A função de sobrevivência, para cada argumento t > 0, corresponde à probabilidade de ocorrência de uma falha após o tempo t, ou seja, a probabilidade de um indivíduo sobreviver ao tempo t, e é dada por,

S(t) = P (T > t) =

Z

t

f (t)dt = 1 − F (t). (3.1)

Uma função de sobrevivência própria deve satisfazer as seguintes propriedades:

(ii) S(t) é uma função monótona não-crescente, e (iii) lim

t→∞S(t) = 0.

A função risco é definida como o limite da probabilidade de um indivíduo falhar no intervalo de tempo de comprimento infinitesimal [t, ∆t), assumindo que este mesmo indiví- duo sobreviveu até o tempo t, dividida pelo comprimento do intervalo, e é representada por (Lawless, 2003): h(t) = lim ∆t→0 P (t ≤ T < t + ∆t|T ≥ t) ∆t = f (t) S(t). (3.2)

A função risco descreve como o potencial instantâneo para a falha (taxa de falha) se modifica com o passar do tempo. É conhecida como taxa de falha instantânea, força de mortalidade e taxa de mortalidade condicional (Cox & Oakes,1984). A função risco é mais informativa do que a função de sobrevivência. Diferentes distribuições podem ter funções de sobrevivência com formas semelhantes, enquanto as respectivas funções risco podem diferir drasticamente. Dessa forma, a modelagem da função risco desempenha um papel de destaque em análise de sobrevivência (Colosimo & Giolo, 2006).

A função risco acumulado é dada por:

H(t) = Z t

0

h(u)du. (3.3)

portanto, das Equações (3.2) e (3.3) decorre que a função risco pode ser obtida a partir da função de sobrevivência: h(t) = f (t) S(t) = − d(log S(t)) dt . (3.4) Reciprocamente: S(t) = exp{−H(t)} = exp  − Z t 0 h(u)du  , (3.5) e como f (t) = −dS(t)/dt, tem-se: f (t) = h(t) exp ( − Z t 0 h(u)du ) . (3.6)

As relações das Equações (3.1) a (3.6) mostram que basta o conhecimento de uma das funções entre S(t), F (t), f (t), h(t) e H(t) para implicar o conhecimento da distribuição do tempo até a falha.

Documentos relacionados