Compara¸
c˜
ao de modelos para a an´
alise de
dados censurados `
a direita
Niter´oi - RJ, Brasil 09 de julho de 2019
La´ıs Pereira Peixoto de Moraes
Compara¸
c˜
ao de modelos para a
an´
alise de dados censurados `
a direita
Trabalho de Conclus˜ao de Curso
Monografia apresentada para obten¸c˜ao do grau de Bacharel em Estat´ıstica pela Universidade Federal Fluminense.
Orientador: Prof. Jony Arrais Pinto Junior
Niter´oi - RJ, Brasil 09 de julho de 2019
La´ıs Pereira Peixoto de Moraes
Compara¸
c˜
ao de modelos para a an´
alise de
dados censurados `
a direita
Monografia de Projeto Final de Gradua¸c˜ao sob o t´ıtulo “Com-para¸c˜ao de modelos para a an´alise de dados censurados `a di-reita”, defendida por La´ıs Pereira Peixoto de Moraes e apro-vada em 09 de julho de 2019, na cidade de Niter´oi, no Estado do Rio de Janeiro, pela banca examinadora constitu´ıda pelos professores:
Prof. Dr. Jony Arrais Pinto Junior Departamento de Estat´ıstica – UFF
Profa. Dra. Ludmilla da Silva Viana Jacobson Departamento de Estat´ıstica – UFF
Prof. Dr. Luis Guillermo Coca Velarde Departamento de Estat´ıstica – UFF
Bibliotecário responsável: Ana Nogueira Braga - CRB7/4776
M827c Moraes, Laís Pereira Peixoto de
Comparação de modelos para a análise de dados censurados à direita / Laís Pereira Peixoto de Moraes ; Jony Arrais Pinto Junior, orientador. Niterói, 2019.
164 f. : il.
Trabalho de Conclusão de Curso (Graduação em
Estatística)-Universidade Federal Fluminense, Instituto de Matemática e Estatística, Niterói, 2019.
1. Análise de sobrevivência. 2. Inferência Bayesiana. 3. Modelo Cox. 4. Modelo Poisson. 5. Produção intelectual. I. Pinto Junior, Jony Arrais, orientador. II. Universidade Federal Fluminense. Instituto de Matemática e Estatística. III. Título.
-´
E comum o interesse por analisar dados provenientes de acompanhamentos ao longo do tempo. Um caso importante refere-se a an´alise dos dados de sobrevivˆencia que s˜ao compostos por covari´aveis e pela vari´avel de interesse denominada tempo de sobrevivˆencia. Esta ´ultima, ´e respons´avel por medir o tempo at´e a ocorrˆencia do evento desejado e sua principal caracter´ıstica ´e a presen¸ca de censura. Diz-se que um dado de sobrevivˆencia ´e censurado quando o tempo registrado n˜ao cont´em o evento desejado. Note que, os dados censurados possuem alguma informa¸c˜ao a respeito do evento analisado, portanto, devem ser incorporados a an´alise.
Dentre as ferramentas dispon´ıveis para a an´alise de regress˜ao com dados censurados, as mais usadas s˜ao o modelo Cox e o modelo de Poisson. O primeiro ´e adequado para um modelo de regress˜ao cuja vari´avel resposta ´e o tempo de sobrevivˆencia e o segundo quando a vari´avel resposta se refere a contagem do evento de interesse. A proposta deste trabalho ´e realizar um estudo comparativo entre esses modelos e verificar a influˆencia do n´umero de censuras nas estima¸c˜oes. Para isso, foi adotada a abordagem Bayesiana e considerou-se dados de sobrevivˆencia com censura `a direita.
Dessa forma, diversas simula¸c˜oes foram feitas para os modelos considerados atrav´es de algoritmos implementados manualmente no programa R. Os resultados obtidos indicaram que os dois algoritmos MCMC convergiram de acordo com o crit´erio de Gelman-Rubin. Por´em, ao comparar as amplitudes dos intervalos de credibilidade dos modelos, o modelo Cox obteve o melhor desempenho uma vez que tinham os menores tamanhos. Portanto, apesar de ser poss´ıvel aplicar ambos os modelos na an´alise dos dados de sobrevivˆencia, conforme o aumento da porcentagem de censura, deve-se optar por usar o modelo Cox ao inv´es do Poisson.
Lista de Figuras Lista de Tabelas 1 Introdu¸c˜ao p. 12 1.1 Objetivos . . . p. 15 1.2 Organiza¸c˜ao . . . p. 15 2 Materiais e M´etodos p. 16
2.1 An´alise de Sobrevivˆencia . . . p. 17 2.1.1 Especificando o Tempo de Sobrevivˆencia . . . p. 19 2.1.2 Rela¸c˜oes entre Fun¸c˜oes . . . p. 20 2.2 Inferˆencia Bayesiana . . . p. 21 2.2.1 Estima¸c˜ao dos parˆametros . . . p. 22 2.2.2 Monte Carlo via Cadeia de Markov (MCMC) . . . p. 23 2.3 Modelo Cox . . . p. 25 2.3.1 Abordagem bayesiana . . . p. 26 2.4 Modelo de Poisson . . . p. 28 2.4.1 Abordagem bayesiana . . . p. 31 3 Resultados p. 33 3.1 Simula¸c˜ao . . . p. 33 3.1.1 Caso 1 . . . p. 34
3.1.3 Caso 3 . . . p. 46
4 Conclus˜ao p. 51
Referˆencias p. 52
Anexo A -- Demonstra¸c˜oes p. 55
A.1 Rela¸c˜oes entre fun¸c˜oes do tempo de sobrevivˆencia . . . p. 55 A.2 Fun¸c˜ao de verossimilhan¸ca para o modelo Cox . . . p. 55
Anexo B -- Estudos simulados p. 57
B.1 Caso 1 - Simula¸c˜ao 1 . . . p. 57 B.2 Caso 1 - Simula¸c˜ao 2 . . . p. 61 B.3 Caso 1 - Simula¸c˜ao 3 . . . p. 66 B.4 Caso 1 - Simula¸c˜ao 4 . . . p. 70 B.5 Caso 1 - Simula¸c˜ao 5 . . . p. 75 B.6 Caso 1 - Simula¸c˜ao 6 . . . p. 80 B.7 Caso 1 - Simula¸c˜ao 7 . . . p. 84 B.8 Caso 1 - Simula¸c˜ao 8 . . . p. 89 B.9 Caso 2 - Simula¸c˜ao 1 . . . p. 93 B.10 Caso 2 - Simula¸c˜ao 2 . . . p. 98 B.11 Caso 2 - Simula¸c˜ao 3 . . . p. 102 B.12 Caso 2 - Simula¸c˜ao 4 . . . p. 107 B.13 Caso 2 - Simula¸c˜ao 5 . . . p. 111 B.14 Caso 2 - Simula¸c˜ao 6 . . . p. 116 B.15 Caso 2 - Simula¸c˜ao 7 . . . p. 120 B.16 Caso 2 - Simula¸c˜ao 8 . . . p. 125
B.18 Caso 3 - Simula¸c˜ao 2 . . . p. 134 B.19 Caso 3 - Simula¸c˜ao 3 . . . p. 138 B.20 Caso 3 - Simula¸c˜ao 4 . . . p. 143 B.21 Caso 3 - Simula¸c˜ao 5 . . . p. 147 B.22 Caso 3 - Simula¸c˜ao 6 . . . p. 152 B.23 Caso 3 - Simula¸c˜ao 7 . . . p. 156 B.24 Caso 3 - Simula¸c˜ao 8 . . . p. 161
1 Transforma¸c˜ao para dados de contagem . . . p. 31 2 Fun¸c˜ao de sobrevivˆencia emp´ırica linha (—) e intervalo de confian¸ca de
95% (´area hachurada) . . . p. 34 3 Tra¸co das cadeias - modelo Cox caso 1 (10% de censura). . . p. 35 4 Correlogramas - modelo Cox caso 1 (10% de censura). . . p. 36 5 Histogramas dos coeficientes de regress˜ao modelo Cox caso 1 com
inter-valo de credibilidade 95% em vermelho. . . p. 37 6 Estimativas para h0(t) e H0(t) no modelo Cox caso 1. . . p. 37 7 Tra¸co das cadeias - modelo Poisson caso 1 (10% de censura). . . p. 38 8 Correlogramas - modelo Poisson caso 1 (10% de censura). . . p. 38 9 Histogramas dos coeficientes de regress˜ao modelo Poisson caso 1 com
intervalo de credibilidade 95% em vermelho. . . p. 40 10 Fun¸c˜ao de sobrevivˆencia emp´ırica linha (—) e intervalo de confian¸ca de
95% (´area hachurada) . . . p. 40 11 Tra¸co das cadeias - modelo Cox Caso 2 (30% de censura). . . p. 41 12 Correlogramas - modelo Cox Caso 2 (30% de censura). . . p. 42 13 Histogramas dos coeficientes de regress˜ao modelo Cox Caso 2 com
inter-valo de credibilidade 95% em vermelho. . . p. 42 14 Estimativas para h0(t) e H0(t) no modelo Cox Caso 2. . . p. 43 15 Tra¸co das cadeias - modelo Poisson no Caso 2 (30% de censura). . . . p. 43 16 Correlogramas - modelo Poisson no Caso 2 (30% de censura). . . p. 44 17 Histogramas dos coeficientes de regress˜ao modelo Poisson Caso 2 com
19 Tra¸co das cadeias - modelo Cox Caso 3 (50% de censura). . . p. 46 20 Correlogramas - modelo Cox Caso 3 (50% de censura). . . p. 47 21 Histogramas dos coeficientes de regress˜ao modelo Cox Caso 3 com
inter-valo de credibilidade 95% em vermelho. . . p. 48 22 Estimativas para h0(t) e H0(t) no modelo Cox Caso 3. . . p. 48 23 Tra¸co das cadeias - modelo Poisson Caso 3 (50% de censura). . . p. 49 24 Correlogramas - modelo Poisson Caso 3 (50% de censura). . . p. 49 25 Histogramas dos coeficientes de regress˜ao modelo Poisson Caso 3 com
1 Estat´ısticas descritivas da amostra a posteriori - modelo Cox caso 1 . . p. 36 2 Estat´ısticas descritivas da amostra a posteriori - modelo Poisson caso 1 p. 39 3 Estat´ısticas descritivas da amostra a posteriori - modelo Cox Caso 2 . . p. 41 4 Estat´ısticas descritivas da amostra a posteriori - modelo Poisson Caso 2 p. 45 5 Estat´ısticas descritivas da amostra a posteriori - modelo Cox Caso 3 . . p. 47 6 Estat´ısticas descritivas da amostra a posteriori - modelo Poisson Caso 3 p. 50
1
Introdu¸
c˜
ao
Os estudos que consideram vari´aveis explicativas se preocupam em definir modelos que descrevam o efeito destas covari´aveis na vari´avel de interesse. Frequentemente, usam-se os modelos lineares e os lineares generalizados por usam-se adequarem a diversos cen´arios. Contudo, h´a situa¸c˜oes em que seu uso produz perda de eficiˆencia ou resultados viciados. Isto ocorre, por exemplo, ao avaliar o tempo entre fenˆomenos onde ´e poss´ıvel que o evento de interesse n˜ao seja observado. Tem-se, ent˜ao, que a vari´avel resposta possui valores incompletos e se recai na abordagem dos chamados dados censurados.
A An´alise de Sobrevivˆencia ´e o ramo da Estat´ıstica que fornece ferramentas para o ajuste de dados censurados. Ela possui in´umeras aplica¸c˜oes estando, geralmente, re-lacionada aos estudos referentes ao tempo desde um instante inicial at´e ocorrˆencia do evento desejado. Em estudos cl´ınicos, por exemplo, pode-se estar interessado nos fatores que influenciam no tempo do diagn´ostico at´e o ´obito por alguma doen¸ca. Desta forma, acompanha-se um grupo de pacientes e se registra o tempo sob observa¸c˜ao al´em de outras caracter´ısticas relevantes. No final, obt´em-se dados completos que registram o tempo do ´
obito e dados incompletos por causas n˜ao control´aveis como o realocamento de pacientes em outros hospitais ou mortes n˜ao relacionadas a doen¸ca observada.
Os dados de sobrevivˆencia incluem, portanto, a vari´avel de interesse denominada tempo de sobrevivˆencia e vari´aveis independentes. O tempo de sobrevivˆencia mede o tempo at´e o evento de interesse dado um ponto de partida. No exemplo anterior, foi definido o diagn´ostico como tempo inicial. Al´em disso, o tempo de sobrevivˆencia ´e sujeito a censura o que nos impede de observar o tempo exato de ocorrˆencia do evento desejado. Logo, a vari´avel resposta ´e formada por dados completos e incompletos.
Um fato importante ao tratar dados censurados ´e com rela¸c˜ao ao tipo de censura. Sendo a principal caracter´ıstica dos dados de sobrevivˆencia, a censura ´e classifica como: tipo I, se ultrapassa o t´ermino do estudo; tipo II quando o n´umero de ocorrˆencias do evento ´e satisfeita ou tipo III por perdas aleat´orias da informa¸c˜ao pretendida. N˜ao obstante, ela
tamb´em ´e dita censura `a direita, `a esquerda ou intervalar, segundo a posi¸c˜ao da ocorrˆencia do evento com rela¸c˜ao ao tempo registrado. A censura `a direita est´a presente na maioria das vezes tais como no exemplo citado. Neste caso, s´o pode ter havido a morte de um paciente realocado em algum tempo depois da sua ´ultima observa¸c˜ao. Apenas os m´etodos de an´alise que contemplam a censura `a direita ser˜ao abordados neste trabalho.
Perceba que, mesmo sendo dados incompletos, os dados censurados possuem alguma informa¸c˜ao a respeito do evento analisado. Existe, portanto, uma necessidade de incor-por´a-los na an´alise estat´ıstica j´a que eles s˜ao capazes de enriquecer o entendimento sobre a caracter´ıstica estudada. Essa incorpora¸c˜ao deve ser apta a distinguir dados completos e censurados a fim de evitar estima¸c˜oes viciadas. Se fosse aplicado modelos lineares ge-neralizados considerando apenas a distribui¸c˜ao assim´etrica do tempo de sobrevivˆencia, estima¸c˜oes viciadas seriam obtidas. Porque, ao contr´ario dos modelos de sobrevivˆencia, estes modelos n˜ao distinguem dados completos e censurados.
Dentro da an´alise de sobrevivˆencia, os modelos de regress˜ao s˜ao divididos entre pa-ram´etrico, se assume uma distribui¸c˜ao para a vari´avel dependente e semi-param´etrico, caso contr´ario. Existem muitos modelos param´etricos, dentre eles, o modelo de tempo de vida acelerado. A vantagem deste modelo se d´a em sua forma pr´oxima aos modelos de regress˜ao linear tradicionais o que facilita a interpreta¸c˜ao de seus coeficientes. No entanto, na pr´atica ´e dif´ıcil adequar uma distribui¸c˜ao aos dados, principalmente em es-tudos cl´ınicos, pois a presen¸ca de fontes de perturba¸c˜ao (heterogeneidade) nem sempre ´e control´avel.
Na literatura, o modelo semi-param´etrico ´e o mais popular j´a que alivia o ajuste de uma distribui¸c˜ao para a vari´avel resposta, tempo de sobrevivˆencia. O modelo Cox (Cox, 1972)[1], como o ´e conhecido, investiga a rela¸c˜ao entre os preditores e o tempo de sobrevivˆencia atrav´es da fun¸c˜ao de risco (ou hazard ). Como consequˆencia, o modelo Cox possui em sua constru¸c˜ao um componente n˜ao-param´etrico que garante a sua flexibilidade. A ´unica restri¸c˜ao deste modelo ´e com rela¸c˜ao ao efeito dos preditores na fun¸c˜ao de risco que deve ser independente do tempo. Devido a essa restri¸c˜ao, o modelo Cox tamb´em ´e chamado de modelo de riscos proporcionais.
A An´alise de Sobrevivˆencia est´a presente em diversas ´areas e a aplica¸c˜ao do modelo Cox amplamente difundido. Na ´area de finan¸cas, Gepp e Kumar et al (2015)[2] aplicam o modelo Cox para prever se certo neg´ocio sofrer´a uma crise financeira (financial dis-tress). Em oncologia, Damascena (2017) [3] utilizam riscos proporcionais para investigar a ocorrˆencia de mucosite oral grave e os fatores associados em pacientes pedi´atricos com
tumores hematol´ogicos e s´olidos, submetidos a tratamento oncol´ogico. Em agronomia, Maia (2011) [4], aplicou este mesmo m´etodo na an´alise de anomalias da temperatura da superf´ıcie do mar sobre o tempo at´e o in´ıcio da esta¸c˜ao chuvosa.
Al´em da clara vantagem proporcionada pelo al´ıvio quanto a distribui¸c˜ao, o modelo de riscos proporcionais possui como casos particulares os modelos de riscos proporcionais param´etricos (Kalbfleisch e Prentice, 1980)[5]. Em 2014, George et al [6] publicaram um artigo discutindo o modelo Cox e as abordagens param´etricas. Um fator recorrente e que afeta a condi¸c˜ao de riscos proporcionais ´e a presen¸ca de covari´aveis dependentes do tempo. No entanto, isso n˜ao se torna um problema uma vez que o modelo Cox comporta este tipo de vari´avel explicativa. Bastos (2003)[7], por exemplo, ajustou os modelos de Cox para covari´aveis independentes e dependentes do tempo.
Um m´etodo alternativo para o ajuste de dados censurados ´e o modelo log-linear ou de Poisson. Trata-se de um caso particular dos modelos lineares generalizados (MLG) que ajusta uma regress˜ao para dados de contagem. No caso em que a vari´avel resposta se refere ao tempo at´e evento, transforma-se estes dados em n´umero de ocorrˆencias do fenˆomeno desejado at´e um tempo t. Ao realizar essa contagem por intervalo de tempo, tem-se que a distribui¸c˜ao de Poisson aparece naturalmente. Portanto, os novos dados obtidos por essa transforma¸c˜ao seguem uma distribui¸c˜ao de Poisson que satisfaz indiretamente a condi¸c˜ao de raz˜ao de riscos proporcionais.
Em 2008, Mwangi [8] realizou um estudo comparativo entre os modelos de Cox e de Poisson. Neste estudo, ele verificou que a aplica¸c˜ao desses modelos produziram resultados similares e levaram `as mesmas conclus˜oes independente da natureza dos dados (contagem ou tempo). No entanto, n˜ao foi levado em considera¸c˜ao diferentes n´ıveis de censuras. A proposta deste trabalho ´e realizar tamb´em um estudo comparativo entre esses modelos e verificar a influencia do n´umero de censura nas estima¸c˜oes. Por´em, adotando a abordagem Bayesiana.
Nessa abordagem, por meio das informa¸c˜oes dispon´ıveis a respeito do problema em quest˜ao, busca-se diminuir a incerteza com rela¸c˜ao a quantidade de interesse. Para tanto, utiliza-se o teorema de Bayes como mecanismo formal de atualiza¸c˜ao das incertezas. Isto ´e, tem-se uma quantidade de interesse cuja intensidade de incerteza associada ´e descrita atrav´es de um modelo probabil´ıstico. Ao passo que novas informa¸c˜oes s˜ao obtidas, esse modelo probabil´ıstico ´e atualizado via teorema de Bayes.
1.1
Objetivos
O presente Trabalho de Conclus˜ao de Curso tem por objetivo comparar os modelos de regress˜ao para dados censurados mais usados segundo a abordagem bayesiana para diferentes porcentagens de censuras. Especificamente, tem-se interesse pelo modelo Cox e pelo modelo de Poisson. Em ambos os casos, a censura ser´a `a direita.
1.2
Organiza¸
c˜
ao
Inicialmente, no Cap´ıtulo 1 ´e apresentada a introdu¸c˜ao que comporta uma vis˜ao geral sobre este trabalho, no Cap´ıtulo 2 est˜ao dispostos os conceitos b´asicos em An´alise de Sobrevivˆencia e Inferˆencia Bayesiana. Em seguida, tˆem-se a defini¸c˜ao dos modelos de Cox e de Poisson sob o ponto de vista bayesiano. No Cap´ıtulo 3, os resultados obtidos por meio dos modelos definidos no cap´ıtulo anterior s˜ao apresentados com base em estudos de dados simulados. No Cap´ıtulo 4, as conclus˜oes deste trabalho s˜ao apresentadas.
2
Materiais e M´
etodos
´
E comum o interesse por analisar dados provenientes de acompanhamentos ao longo do tempo. Neste caso, pode-se citar a obten¸c˜ao de s´eries temporais. No entanto, ao se analisar o tempo decorrido at´e a ocorrˆencia de um fenˆomeno de interesse, tem-se uma nova classe de dados chamados dados de sobrevivˆencia. Eles se caracterizam pela presen¸ca de censura na vari´avel de interesse, tempo de sobrevivˆencia. Tem-se, ent˜ao, que esta vari´avel n˜ao se refere ao registro pontual de um fato no tempo, mas sim ao tempo acumulado at´e que ele o seja observado ou que se perca a unidade sob observa¸c˜ao. A distin¸c˜ao entre dados completos e parciais ocorre por meio da vari´avel indicadora de falha. A presen¸ca desta vari´avel na composi¸c˜ao do tempo de sobrevivˆencia se torna um problema para as t´ecnicas convencionais de an´alise (como lidar com dados incompletos?). Para resolver este problema, desenvolveu-se um conjunto de t´ecnicas para dados censurados, a An´alise de Sobrevivˆencia.
O termo an´alise de sobrevivˆencia refere-se basicamente a situa¸c˜oes m´edicas envol-vendo dados censurados. Entretanto, condi¸c˜oes similares ocorrem em outras ´areas como em engenharia cujo termo mais usado ´e Confiabilidade. Seja qual for o caso, ´e normal o interesse em avaliar o efeito de covari´aveis na vari´avel resposta. Dentre os modelos de regress˜ao para dados de sobrevivˆencia, o mais famoso ´e o modelo semi-param´etrico ou modelo Cox. No entanto, devido a caracter´ıstica assim´etrica do tempo de sobrevivˆencia e a familiaridade dos pesquisadores com os modelos de regress˜ao lineares generalizados (MLG), tamb´em ´e comum o uso do modelo de Poisson como alternativa. O presente tra-balho tem por objetivo fornecer o ajuste desses dois modelos via abordagem bayesiana. Portanto, neste cap´ıtulo, ser˜ao apresentados os conceitos b´asicos em An´alise de Sobre-vivˆencia. Em seguida, apresenta-se os conceitos de Inferˆencia Bayesiana. E, por fim, tem-se a defini¸c˜ao do modelo semi-param´etrico de regress˜ao para dados de sobrevivˆencia (modelo Cox). Bem como um caso particular de modelos lineares generalizados, o modelo de Poisson, sendo ambos definidos sob o ponto de vista bayesiano.
2.1
An´
alise de Sobrevivˆ
encia
Os dados de sobrevivˆencia tˆem como vari´avel resposta o tempo de sobrevivˆencia, ou seja, o tempo at´e a ocorrˆencia de um determinado evento. Estes eventos por serem na maioria das vezes indesej´aveis s˜ao chamados de falha. Em situa¸c˜oes m´edicas, por exem-plo, a falha, geralmente, se refere ao ´obito do paciente. Da´ı o termo ”sobrevivˆencia”que se refere ao tempo em que o paciente resistiu at´e a ocorrˆencia do ´obito. Al´em disso, como o tempo de sobrevivˆencia ´e uma resposta temporal obtida de estudos prospectivos e de longa dura¸c˜ao, ´e poss´ıvel n˜ao observar o evento de interesse durante o per´ıodo de estudo. Portanto, os dados de sobrevivˆencia s˜ao compostos por dados completos e dados censu-rados que se referem, respectivamente, a observa¸c˜ao completa e incompleta do fenˆomeno de interesse.
A presen¸ca de censura ´e a principal caracter´ıstica dos dados de sobrevivˆencia e comp˜oe a vari´avel resposta. Ela ´e representada por uma vari´avel indicadora de falha, que vale 1 se a observa¸c˜ao falhou e 0 se foi censurada. Dessa forma, os dados de sobrevivˆencia para o i-´esimo indiv´ıduo sob estudo ´e dado pela trinca (ti, δi, xi) tal que ti representa o tempo de sobrevivˆencia, δi a vari´avel indicadora de falha e xi o seu conjunto de covari´aveis. For-malmente, para n indiv´ıduos acompanhados, o tempo de sobrevida do i-´esimo indiv´ıduo ´e dado por ti = min(Fi, Ci) com Fi e Ci vari´aveis independentes referentes ao tempo de falha e tempo de censura, respectivamente e δi = I(Fi ≤ Ci) a vari´avel indicadora de falha. Note que, n˜ao se deve confundir censura com truncamento. Esta ´ultima refere-se a uma condi¸c˜ao que deve ser satisfeita para a observa¸c˜ao do tempo de sobrevivˆencia. Por exemplo, se ao estudar o tempo de vida dos moradores de uma regi˜ao considera-se apenas os dados retirados da previdˆencia, ent˜ao s´o aqueles aposentados ou que se aposentaram durante o estudo fazem parte da amostra. Veja que, em estudos com truncamento, alguns dados n˜ao s˜ao acompanhados a partir do tempo inicial.
As causas da ocorrˆencia de censura (ou mecanismos de censura) s˜ao classificadas da seguinte forma: censura tipo I, se o estudo ser´a terminado ap´os um per´ıodo pr´ e-estabelecido de tempo. Censura tipo II, se o estudo ser´a terminado ap´os uma quantidade pr´e-estabelecida de indiv´ıduos apresentarem falha. E, censura tipo III quando h´a perda de observa¸c˜oes no decorrer do estudo. No entanto, a classifica¸c˜ao mais importante de censura ´e com rela¸c˜ao a posi¸c˜ao entre o evento e o tempo registrado. Neste caso, tem-se as seguintes caracteriza¸c˜oes: censura `a direita quando a ocorrˆencia do evento est´a `a direita do tempo registrado, censura `a esquerda quando o evento j´a ocorreu quando o indiv´ıduo foi observado. Por fim, tem-se a censura intervalar quando se sabe que o evento ocorreu
dentro de um intervalo de tempo conhecido. A seguir, tem-se alguns exemplos de estudos que apresentaram censura.
Exemplo 2.1.1. Um estudo cl´ınico aleatorizado foi realizado para investigar o efeito da terapia com ester´oide no tratamento de hepatite viral aguda (Gregory et. al., 1976)[9]. Por 16 semanas, cada paciente foi acompanhado ou at´e a morte (evento de interesse) ou at´e a perda de acompanhamento.
Exemplo 2.1.2. Um estudo foi realizado para determinar a idade em que as crian¸cas aprendem a ler em uma comunidade. Quando os pesquisadores come¸caram a pesquisa algumas crian¸cas j´a sabiam ler, por´em elas n˜ao lembravam com que idade tinham apren-dido.
Exemplo 2.1.3. Um estudo retrospectivo foi realizado com 94 mulheres com diagn´ostico precoce de cˆancer de mama com o objetivo de pesquisar duas terapias: (a) somente radio-terapia e (b) radioradio-terapia em conjunto da quimioradio-terapia (Klein e Moeschberger, 1997)[10]. As pacientes foram acompanhadas a cada 4-6 meses e, em cada visita, foram registrados: o tipo de retra¸c˜ao da mama e o tempo at´e o aparecimento de uma retra¸c˜ao moderada ou severa da mama.
No exemplo 2.1.1, tem-se que mecanismo de censura ´e aleat´orio uma vez que houve perdas ao longo do tempo de estudo (16 semanas) e a censura ´e `a direita, pois s´o ´e poss´ıvel observar o efeito da terapia ap´os o seu uso. Com rela¸c˜ao ao exemplo 2.1.2, tem-se que a censura ´e `a esquerda, pois o evento de interesse (aprender a ler) ocorreu em algum tempo anterior ao tempo observado. Neste exemplo, as crian¸cas que aprenderam a ler n˜ao sabiam exatamente quando isso ocorreu. Por fim, no exemplo 2.1.3, tem-se censura intervalar j´a que, ao registrar periodicamente o tempo, tem-se per´ıodos entre os quais o evento de interesse pode ter ocorrido ou n˜ao.
Os mecanismos de censura n˜ao condicionam a uma exclusiva caracteriza¸c˜ao da cen-sura. Em outras palavras, estes mecanismos est˜ao subordinados ao esquema do estudo, mas a caracteriza¸c˜ao da censura com rela¸c˜ao a posi¸c˜ao do evento no tempo, n˜ao. A censura ´e, portanto, uma caracter´ıstica intr´ınseca dos dados na qual o pesquisador n˜ao possui influˆencia (Lee, 1980[11] possui um cap´ıtulo para o condu¸c˜ao de estudos cl´ınicos de sobrevivˆencia). A censura mais comum ´e `a direita (n˜ao importa o mecanismo) Neste trabalho, ser´a analisado apenas dados de sobrevivˆencia com censura do tipo III `a direita que para facilitar ser´a dita censura.
2.1.1
Especificando o Tempo de Sobrevivˆ
encia
Os tempos de sobrevivˆencia s˜ao vari´aveis que medem o tempo at´e evento de interesse e est˜ao sujeitos a varia¸c˜oes (Lee, 1980)[11]. Portanto, trata-se de uma vari´avel aleat´oria T n˜ao negativa, usualmente cont´ınua e, que pode conter censuras. Sabe-se tamb´em que dados censurados n˜ao s˜ao dados faltantes e sim incompletos, uma vez que cont´em in-forma¸c˜ao relevante ao estudo. Por isso, eles devem ser incorporados `a an´alise estat´ıstica por meio dos m´etodos de an´alise de sobrevivˆencia j´a que s˜ao capazes de distinguir dados completos e censurados. Assim, inicia-se o estudo dos dados de sobrevivˆencia por meio da defini¸c˜ao das principais fun¸c˜oes usadas para especificar a vari´avel aleat´oria T .
Defini¸c˜ao 2.1.4. Fun¸c˜ao de sobrevivˆencia
Seja T uma vari´avel aleat´oria referente ao tempo de sobrevivˆencia. A fun¸c˜ao de sobrevivˆencia, denotada por S(t), ´e definida como a probabilidade de uma observa¸c˜ao n˜ao falhar (ou seja, sobreviver) por pelo menos ao tempo t. Ela ´e dada por:
S(t) = P (T ≥ t) = 1 − F (t), (2.1)
tal que F(·) ´e a distribui¸c˜ao acumulada de T.
A fun¸c˜ao de sobrevivˆencia caracteriza-se por ser decrescente assumindo valor 1 em t = 0 e tender a 0 para valores muito grandes de tempo. Ela fornece tamb´em estat´ısticas de interesse como: tempo mediano, tempo m´edio, percentis.
A pr´oxima fun¸c˜ao muito usada em an´alise de sobrevivˆencia ´e a fun¸c˜ao taxa de risco h(t) respons´avel por descrever a distribui¸c˜ao do tempo de vida dos indiv´ıduos. Ou seja, ela descreve a forma com que a incidˆencia de falha muda com o tempo levando em consi-dera¸c˜ao que o indiv´ıduo havia sobrevivido at´e o in´ıcio do per´ıodo observado.
Defini¸c˜ao 2.1.5. Fun¸c˜ao de taxa de risco
A fun¸c˜ao de taxa de falha de T num intervalo [t, t + ∆t) ´e definida como: h(t) = lim
∆t→0+
P (t ≤ T < t + ∆t|T ≥ t)
∆t . (2.2)
O gr´afico da fun¸c˜ao de risco pode assumir trˆes formas b´asicas: crescente, decrescente ou constante. Podendo ainda, assumir uma forma correspondente a combina¸c˜ao de algu-mas das curvas b´asicas, como por exemplo a curva banheira. Assim, devido a variedade de configura¸c˜oes poss´ıveis, ela ´e mais informativa do que a fun¸c˜ao de sobrevivˆencia e sua modelagem ´e um importante m´etodo para dados de sobrevivˆencia.
Finalmente, apresenta-se a fun¸c˜ao de taxa de risco acumulada. Esta fun¸c˜ao ´e definida, como o nome sugere, da seguinte forma.
Defini¸c˜ao 2.1.6. Fun¸c˜ao de Taxa de Risco Acumulada
A fun¸c˜ao de taxa de risco acumulada do indiv´ıduo ´e dada por: H(t) =
Z t 0
h(u)du. (2.3)
Trata-se de uma fun¸c˜ao sem interpreta¸c˜ao direta, por´em ´util na avalia¸c˜ao da fun¸c˜ao de maior interesse, a fun¸c˜ao taxa de falha h(t). Isso ´e evidˆenciado na estima¸c˜ao n˜ ao-param´etrica, uma vez que Λ(t) possui um estimador com propriedades ´otimas e h(t) ´e dif´ıcil de ser estimada.
2.1.2
Rela¸
c˜
oes entre Fun¸
c˜
oes
Tome T uma vari´avel aleat´oria cont´ınua e n˜ao negativa que corresponde ao tempo de sobrevivˆencia, as fun¸c˜oes definidas anteriormente s˜ao matematicamente equivalentes. Ou seja, a partir de uma ´e poss´ıvel obter as outras por meio de opera¸c˜oes matem´aticas. As principais rela¸c˜oes entre as fun¸c˜oes s˜ao:
h(t) = f (t)
S(t), (2.4)
H(t) = −log(S(t)), (2.5)
S(t) = exp{−H(t)}. (2.6)
As demonstra¸c˜oes para as equa¸c˜oes 2.4, 2.5 e 2.6 encontram-se no Anexo A.
Nesta se¸c˜ao, foi vista que a presen¸ca de dados censurados impacta na an´alise dos dados de sobrevivˆencia e que eles devem ser incorporados na an´alise estat´ısticas por meio das t´ecnicas da An´alise de Sobrevivˆencia. A censura ´e classifica como `a direita, `a esquerda ou intervalar dentre as quais a mais comum ´e a censura `a direita. Em seguida, foram definidas as formas de especifica¸c˜ao para a vari´avel aleat´oria tempo de sobrevida. A pr´oxima se¸c˜ao ´e dedicada aos conceitos em Inferˆencia Bayesiana que ser˜ao necess´arios para a defini¸c˜ao dos modelos de regress˜ao para dados de sobrevivˆencia sob esta abordagem.
2.2
Inferˆ
encia Bayesiana
A inferˆencia estat´ıstica tem como objetivo tirar conclus˜oes a respeito de quantidades n˜ao observ´aveis (parˆametros) de determinada popula¸c˜ao a partir de sua amostra. As t´ecnicas normalmente utilizadas se baseiam na abordagem frequentista que por sua vez s˜ao suscet´ıveis ao tamanho da amostra. Uma maneira de tornar essas conclus˜oes mais consistentes ´e por meio da abordagem bayesiana.
A Inferˆencia Bayesiana ´e baseada nas ideias do pastor inglˆes Thomas Bayes (1702-1761) que foi respons´avel por desenvolver um caso particular do Teorema de Bayes. Por´em, foi Richard Price ao perceber sua importˆancia que o popularizou. A abordagem bayesiana para a inferˆencia estat´ıstica considera que a ´unica maneira satisfat´oria de descrever incer-tezas ´e por meio da probabilidade. Dessa forma, o parˆametro de interesse θ assume um modelo probabil´ıstico que ´e atualizado com novas informa¸c˜oes via aplica¸c˜ao do Teorema de Bayes. A seguir, tem-se o Teorema de Bayes, para uma ´unica vari´avel θ.
Teorema 2.2.1. Teorema de Bayes Aplicado a Inferˆencia Bayesiana
Inicialmente, todo o conhecimento a respeito de θ ´e resumido probabilisticamente atrav´es da distribui¸c˜ao a priori p(θ). Este conhecimento nem sempre ´e suficiente, logo obt´em-se uma amostra aleat´oria X = (X1, ..., Xn) relacionada a θ para adquirir mais informa¸c˜ao. Esta informa¸c˜ao ´e resumida via fun¸c˜ao de verossimilhan¸ca l(θ) ou, analoga-mente, p(x|θ). O Teorema de Bayes ´e a regra de atualiza¸c˜ao que fornece a distribui¸c˜ao a posteriori p(θ|x). Ele ´e definido como:
p(θ|x) = p(θ)p(x|θ)
R p(x, θ)dθ. (2.7)
Como 1/R p(x, θ)dθ n˜ao depende de θ, tem-se que 2.6 ´e usualmente apresentada por:
p(θ|x) ∝ p(θ)p(x|θ). (2.8)
A distribui¸c˜ao a priori deve representar probabilisticamente o conhecimento que se tem sobre o parˆametro de interesse θ antes da realiza¸c˜ao do experimento. Portanto, todos os procedimentos bayesianos exigem a defini¸c˜ao dessa quantidade. As principais formas de especifica¸c˜ao s˜ao: priori conjugada ou priori n˜ao informativa (Migon e Gamerman, 1999)[12]. A distribui¸c˜ao a priori ´e conjugada quando as distribui¸c˜oes a priori e a poste-riori pertencem `a mesma fam´ılia. Caso n˜ao haja informa¸c˜ao dispon´ıvel sobre o parˆametro θ, deseja-se que a distribui¸c˜ao a priori tenha pouca influˆencia nas inferˆencias, isto ´e, que ela seja n˜ao informativa. Selecionada uma distribui¸c˜ao a priori adequada ao problema, o
outro componente importante ´e a fun¸c˜ao de verossimilhan¸ca. Defini¸c˜ao 2.2.2. Fun¸c˜ao de Verossimilhan¸ca
Suponha uma popula¸c˜ao X relacionada ao parˆametro de interesse θ. Uma amostra aleat´oria simples de tamanho n (X1, ..., Xn) ´e retirada dessa popula¸c˜ao. Assim, dado os valores observados da amostra, a fun¸c˜ao de verossimilhan¸ca ´e definida como:
L(θ|x) = n Y
i=1
f (xi|θ) (2.9)
Em an´alise de sobrevivˆencia, os dados amostrais s˜ao agrupados em completos (n˜ ao-censurados) e censurados. Posto isto, cada dado completo contribui para a fun¸c˜ao de verossimilhan¸ca 2.9 com a densidade e os censurados com a fun¸c˜ao de sobrevivˆencia. Ainda que de acordo com o mecanismo de censura a fun¸c˜ao de verossimilhan¸ca seja modificada por uma constante, ela mant´em o mesmo n´ucleo (Colosimo e Giolo, 2006)[13]. Portanto, a fun¸c˜ao de verossimilhan¸ca 2.9 para qualquer mecanismo de censura ´e dada por: L(θ) = n Y i=1 f (ti, θ)δiS(ti, θ)1−δi. (2.10)
2.2.1
Estima¸
c˜
ao dos parˆ
ametros
As estima¸c˜oes em Inferˆencia Bayesiana s˜ao feitas com base na distribui¸c˜ao a posteriori que cont´em toda a informa¸c˜ao probabil´ıstica a respeito do parˆametro de interesse. As estima¸c˜oes s˜ao divididas entre pontuais e intervalares. As estima¸c˜oes pontuais s˜ao obtidas por meio de estat´ısticas apropriadas que resumem numericamente o comportamento do parˆametro θ. J´a as estima¸c˜oes intervalares s˜ao mais informativas, pois consideram a variabilidade dos dados. Os principais estimadores bayesianos s˜ao melhores entendidos no contexto da Teoria da Decis˜ao (Ehlers, 2003; Migon e Gamerman, 1999)[14][12]. A seguir, dado um espa¸co param´etrico Θ que cont´em o parˆametro de interesse θ, os principais estimadores bayesianos s˜ao:
• m´edia a posteriori, E(θ|x):
E(θ|x) = Z
θ∈Θ
θp(θ|x)dθ, com fun¸c˜ao de perda 1 quadr´atica L(δ, θ) = (δ − θ)2.
1A fun¸c˜ao perda, denotada por l(θ, a), pode ser interpretada como a perda sofrida ao tomar a decis˜ao
• quantil α a posteriori, Q(α): Q(α) = ( θ0 ∈ Θ : Z θ0 −∞ p(θ|x)dθ = α ) ,
se α = 0.5 tem-se a mediana a posteriori e a fun¸c˜ao perda ´e L(δ, θ) = |δ − θ|. • intervalo 100(1 − α)% de credibilidade a posteriori, (LI, LS):
(LI, LS) = ( (LI0, LS0) ⊂ Θ2 : Z LS0 LI0 p(θ|x)dθ = 1 − α ) , α ∈ (0, 1),
se o intervalo ´e sim´etrico, ent˜ao LI = Q(α/2) e LS = Q(1 − α/2).
A seguir, apresenta-se os m´etodos de amostragem da distribui¸c˜ao a posteriori de uma vari´avel de interesse θ (ou de um conjunto de vari´aveis θ). Trata-se das rotinas de simula¸c˜ao Monte Carlo via Cadeias de Markov (MCMC) muito usados em Inferˆencia Bayesiana (´area geralmente com uma necessidade computacional intensa), pois s˜ao r´apidos e eficientes (Barbosa et al., 2010)[16].
2.2.2
Monte Carlo via Cadeia de Markov (MCMC)
A abordagem bayesiana oferece via teorema de Bayes uma forma consistente de se modificar as informa¸c˜oes sobre o parˆametro. No entanto, como em muitas situa¸c˜oes pr´aticas a distribui¸c˜ao a posteriori ´e analiticamente intrat´avel, durante muito tempo sua aplica¸c˜ao esteve limitada devido a exigˆencia computacional. Foi a partir da introdu¸c˜ao dos m´etodos de Monte Carlo via Cadeia de Markov, sendo o amostrador de Gibbs (Geman e Geman, 1984)[17] e o algoritmo de Metropolis-Hastings (Metropolis et al., 1953 e Hastings, 1970)[18][19] os mais famosos, que ela se difundiu.
A ideia central desses m´etodos de simula¸c˜ao ´e construir uma Cadeia de Markov da qual seja f´acil gerar uma amostra e que haja uma distribui¸c˜ao de equil´ıbrio. Ou seja, garante-se que a amostra ´e uma Cadeia de Markov:
• homogˆenea; • irredut´ıvel; • aperi´odica.
Na pr´atica, a verifica¸c˜ao de convergˆencia ´e bastante estudada e pode envolver m´etodos sofisticados de an´alise. Por´em, uma verifica¸c˜ao da convergˆencia muitas vezes suficiente
pode ser obtida por meio de gr´aficos e medidas descritivas sobre θ. O desenho do com-portamento de θ ao longo das itera¸c˜oes e as an´alises dos gr´aficos com as autocorrela¸c˜oes s˜ao as principais t´ecnicas visuais usadas para a verifica¸c˜ao de convergˆencia. Outra forma de se realizar esse diagn´ostico ´e por meio da estat´ıstica de Gelman-Rubin (Veja (Gelman e Rubin, (1992) [20] e Brooks e Gelman (1997)[21] para descri¸c˜ao completa do m´etodo). Trata-se de uma medida que analisa a diferen¸ca entre m´ultiplas cadeias de Markov ao com-parar as varia¸c˜oes estimadas entre e dentro das cadeias para cada parˆametro do modelo, valores pr´oximos a um indicam convergˆencia.
Algoritmo de Metropolis-Hastings
Seja a distribui¸c˜ao de interesse a distribui¸c˜ao a posteriori (θ|x) com θ = (θ1, ..., θs). Considere, tamb´em, que todas as condicionais completas (θi|θ−i, x) estejam dispon´ıveis (θ−i = θ1, ..., θi−1, θi+1, ..., θs), mas n˜ao se sabe gerar amostras de cada uma delas. As amostras de θi s˜ao obtidas a partir de uma distribui¸c˜ao condicional proposta ao valor atual de θi, q(θ (p) i |θ (a) i ), tal que θ (p) i ´e o valor proposto e θ (a)
i ´e o valor atual para i = 1, ..., s. A seguir, tem-se o esquema de amostragem:
1. Inicialize θ(0) = (θ1(0), ..., θs(0))0 e k = 1;
2. Obtenha um novo valor θ(k) a partir de θ(k−1) por meio de sucessivas gera¸c˜oes de valores. Assim, para i = 1, ..., S, fa¸ca:
(i) Gere uma proposta para θi(k) de θ(p)i ∼ q(θi|θ (k−1)
i );
(ii) Calcule a probabilidade de aceita¸c˜ao
α(θk, θ(k−1)) = min 1,
p(θ(p)i |θi(a), x)q(θi(k−1)|θ(p)i ) p(θi(k−1)|θ(a)i , x)q(θ(p)i |θi(k−1))
!
; (2.11)
(ii) Gere um valor u de u U (0, 1);
(ii) Se u < α(θk, θ(k−1)), n˜ao rejeite o valor proposto. 3. Fa¸ca k = k + 1, volte ao passo 2.
Amostrador de Gibbs
Suponha que a distribui¸c˜ao de interesse ´e a distribui¸c˜ao a posteriori p(θ|x) com θ = (θ1, ..., θS). Considere, tamb´em, que todas as condicionais completas a posteriori p(θi|θ−i, x)i = 1, ..., n estejam dispon´ıveis e que sabe-se gerar amostras de cada uma de-las. Assim, o esquema de amostragem ´e dado por:
1. Inicialize θ(0) = (θ1(0), ..., θs(0))0 e k = 1;
2. Obtenha um novo valor para θ(k) a partir de θ(k−1) atrav´es de sucessivas gera¸c˜oes de valores. Para i = 1 at´e S, gere um valor para θ(k)i de
θi(k)∼ p(θi|θ (k) 1 , ..., θ (k) i−1, θ (k+1) i+1 , ..., θ k−1 S , x),
3. Fa¸ca k = k + 1 e volte para 2, repetindo o procedimento at´e alcan¸car a convergˆencia.
Para o Amostrador de Gibbs, ´e necess´ario conhecer todas as condicionais completas, isto ´e, conhecer a fam´ılia de distribui¸c˜ao ao qual elas pertencem. Enquanto que, no al-goritmo de Metropolis-Hastings, n˜ao ´e necess´ario que a distribui¸c˜ao condicional completa seja conhecida. Assim, com os conceitos vistos em An´alise de Sobrevivˆencia e em In-ferˆencia Bayesiana, pode-se, agora, prosseguir para a defini¸c˜ao dos modelos de Cox e de Poisson sob o ponto de vista bayesiano.
2.3
Modelo Cox
O modelo Cox (1972)[1] ´e um modelo de regress˜ao semi-param´etrico, pois n˜ao assume uma distribui¸c˜ao de probabilidade para o tempo de sobrevivˆencia e, portanto, consi-dera componentes param´etricos e n˜ao-param´etricos. O componente param´etrico pode ser qualquer fun¸c˜ao n˜ao-negativa das covari´aveis e seus coeficientes (Storer et al, 1983)[22], usualmente, fun¸c˜ao exponencial. Assim, o modelo Cox ´e dado por:
h(t, x) = h0(t)exp{xβ}, (2.12)
tal que x ´e a matriz de covari´aveis (n × p) e β ´e o vetor de coeficientes de tamanho p. O modelo Cox sup˜oe que para dois indiv´ıduos distintos, os tempos de sobrevivˆencia s˜ao independentes e que a rela¸c˜ao entre os preditores e o risco ´e multiplicativa. Por´em, a suposi¸c˜ao mais importante desse modelo ´e a raz˜ao de riscos proporcionais ao longo do tempo. Isso significa que, para dois indiv´ıduos distintos i e j presentes na amostra, a raz˜ao dos riscos n˜ao depende do tempo, como pode ser observado a seguir.
hi(t) hj(t)
= h0(t)exp{xiβ} h0(t)exp{xjβ} = exp{β(xi − xj)}
o risco relativo, i.e., um aumento ou diminui¸c˜ao de exp{xβ} do risco associado a uma varia¸c˜ao unit´aria de determinada caracter´ıstica, tomando todas as outras constantes. Por exemplo, seja uma covari´avel x que assume apenas valores 0 ou 1, o risco ´e dado por:
h(t|x) = h0(t), se x = 0 h0(t)eβ, se x = 1, logo: h(t|X = 1) = h(t|X = 0)eβ
tal que: se eβ = 1, ent˜ao o risco ´e igual nos dois grupos. Se eβ < 1, o risco ´e eβ vezes menor no grupo 1 do que no grupo 0. Caso contr´ario, o risco no grupo 1 ´e eβ vezes maior do que no grupo 0.
2.3.1
Abordagem bayesiana
Seguindo para a modelagem bayesiana de 2.12, a fun¸c˜ao de verossimilhan¸ca dada por 2.10 para o modelo Cox ´e:
L(β, h0) = n Y i=1 [h0(ti)exp{x0iβ}] δi exp{−H0(ti)exp{x0iβ}}.
Aplicando o teorema de Bayes e assumindo que a distribui¸c˜ao a priori conjunta p(β, h0) = p(β)p(h0), tem-se que a distribui¸c˜ao a posteriori conjunta ´e:
p(β, h0|x) ∝ p(β)p(h0) n Y i=1 [h0(ti)exp{x0iβ}] δi exp{−H0(ti)exp{x0iβ}}. (2.13)
Veja que, os parˆametros de interesse s˜ao os coeficientes β da regress˜ao. Assim, to-mando a condicional completa de β a partir de 2.13, i.e, isolando apenas os termos que dependem de β, tem-se que:
p(β|H0, x) ∝ p(β)exp ( n X i=1 h xiβδi− H0exiβ i ) .
Como β pode assumir qualquer valor em R, a distribui¸c˜ao a priori pode ser definida como:
β ∼ N ormal(m, V ),
Assim, a distribui¸c˜ao condicional completa de β ´e: p(β|H0, x) ∝ exp −1 2(β − m) TV−1 (β − m) (2.14) × exp ( n X i=1 h xiβδi− H0(ti)exiβ i ) .
Note que, a distribui¸c˜ao 2.14 ainda depende da fun¸c˜ao risco acumulada H0. Deve-se, portanto, obter estas quantidades para a estima¸c˜ao de β. Para manter a estrutura semi-param´etrica do modelo Cox, Kalbfleisch porpˆos em 1978 [23] que a priori H0(t) ´e um Processo Gama tal que seus parˆametros s˜ao:
E(H0(t)) = H∗(t), uma fun¸c˜ao positiva conhecida V (H0(t)) =
H∗(t) c .
com incrementos, definidos por h0 = dH0, independentes e com distribui¸c˜ao a priori Gama com parˆametros de forma e escala cdH(t) e c, respectivamente.
dH0(t) ∼ Gama(cdH∗(t), c).
A condicional completa de h0(t) = dH0(t) para todo tempo de falha ti ´e dada por: p(dH0(ti)|x, β) ∝ dH0(ti)cdH ∗(t i)+δi−1 (2.15) × exp −dh0(ti)(c + X j∈R(ti) exjβ) ,
tal que R(ti) refere-se ao conjunto de ´ındices das observa¸c˜oes sob risco (observa¸c˜oes que n˜ao falham ou n˜ao foram censuradas) no instante de falha ti. Portanto, a condicional completa de h0(ti) ´e conhecida, dH0(ti) ∼ Gama(cdH∗(ti) + δi, c +
P
j∈R(ti)e
xjβ).
A condicional completa dada por 2.15 ´e para a fun¸c˜ao risco base h0 no tempo de falha ti. ´E necess´ario definir a fun¸c˜ao de risco acumulada H0 em todos os tempos observados para substituir na condicional completa de β. Assumindo que entre tempos de falhas a fun¸c˜ao de risco ´e constante, pode-se aproximar H0 por uma fun¸c˜ao escada. No caso, assumiu-se que H0(t) =
Pt
u=0h0(u) com pontos de descontinuidade nos tempos de falha. Sabe-se que a condicional completa de β possui distribui¸c˜ao desconhecida, enquanto que a condicional completa de H0 ´e conhecida. Portanto, para obter-se os valores de β ´e necess´ario combinar o MCMC via algoritmo de Metropolis-Hastings com o MCMC via
Amostrador de Gibbs. Essa combina¸c˜ao se deu da seguinte forma:
1. Inicialize θ(0) = (β(0), H0(0)) e k = 1;
2. Obtenha um novo valor para θ(k) a partir de θ(k−1) atrav´es de sucessivas gera¸c˜oes de valores.
(a) Amostre h(k+1)0 ∼ p(h0|β(k−1), X) (condicional completa 2.15) usando passo de Gibbs e aproxima-se H0 por H
(k+1)
0 (ti) =Ptu=0i h0(u);
(b) Amostre β(k+1) ∼ p(β|H0(k−1), X) (condicional completa 2.14) usando passo de Metropolis-Hastings com distribui¸c˜ao proposta dada por: β(p) = β(k−1)+ u, com u ∼ N (0, Vβ)
3. Fa¸ca k = k + 1 e volte para 2.
Um m´etodo alternativo para o ajuste de dados censurados ´e o modelo de Poisson descrito a seguir. Trata-se de um modelo linear generalizado (MLG) respons´avel por ajustar o n´umero de eventos por intervalo de tempo. Portanto, o modelo de Poisson ajusta a contagem de eventos enquanto o modelo Cox ajusta uma fun¸c˜ao do tempo de sobrevivˆencia, taxa de risco. Na pr´oxima se¸c˜ao, tamb´em ser´a discutido como realizar a transforma¸c˜ao dos dados de sobrevivˆencia para dados de contagem.
2.4
Modelo de Poisson
Nelder e Wedderburn (1972)[24] propuseram a classe de modelos lineares generalizados (MLG). Eles tinham como objetivo ampliar as propostas de distribui¸c˜ao de probabilidade para a vari´avel resposta e flexibilizar a rela¸c˜ao funcional entre a m´edia da vari´avel resposta (µ) e o preditor linear (XTβ). Para isso, considera-se que a vari´avel resposta pertence a fam´ılia exponencial e a rela¸c˜ao funcional assume qualquer forma mon´otona (diferenci´avel) ao qual ´e denominada fun¸c˜ao de liga¸c˜ao.
No caso de dados de contagem, tem-se uma amostra de tamanho n dada por y1, ..., yn tal que suas realiza¸c˜oes correspondem a vari´aveis aleat´orias com distribui¸c˜ao de Poisson, Yi ∼ P oisson(µi). O modelo de regress˜ao ´e definido como:
log(µi) = XTi β, (2.16)
liga¸c˜ao ser a fun¸c˜ao logar´ıtmica. Nesse modelo, os coeficientes βj representam a mudan¸ca esperada no logaritmo da m´edia por mudan¸ca unit´aria em xj.
Um modelo descrito por Armitage (1966) assume que uma vari´avel Ni referente ao n´umero de ocorrˆencias do evento segue distribui¸c˜ao Poisson com m´edia µi = hiTi. De forma que, no subgrupo i (i = 1, ..., I), Ti ´e uma medida de exposi¸c˜ao e se assume que hi segue um modelo log-linear. Isso define um modelo log-linear para taxas tal que:
log(µi) = log(Ti) + XTi β. (2.17)
Veja que, o modelo 2.17 possui exatamente os mesmos coeficientes β presentes no modelo anterior. Logo, os coeficientes β dos modelos considerados s˜ao compar´aveis. A diferen¸ca se d´a pelo termo log(Ti) ao qual ´e chamado offset. Trata-se de um termo conhe-cido de coeficiente fixo igual a 1 e que se relaciona a alguma medida de exposi¸c˜ao. Esta medida, dependendo do contexto, pode ser tanto o tamanho da popula¸c˜ao no subgrupo i quanto o tempo total que a popula¸c˜ao desse subgrupo esteve sob observa¸c˜ao (Holford, 1980) [25].
Em dados de sobrevivˆencia, ´e poss´ıvel aplicar o modelo log-linear para taxas descrito anteriormente, conforme foi notado por Holford (1980) e Laird e Olliver (1981) em artigos independentes. Eles perceberam que, a fun¸c˜ao de verossimilhan¸ca do modelo exponencial por partes (pieacewise exponential ) e do modelo log-linear para taxas 2.17 coincidem.
Para o tempo de sobrevivˆencia dividido em intervalos e supondo que a fun¸c˜ao de risco base ´e constante dentro de cada um, o modelo exponencial por partes ´e dado por:
hij = hjexp{XiTβ}
tal que hj´e fun¸c˜ao assumida constante dentro do intervalo j e exp{xiTβ} ´e o risco relativo para um indiv´ıduo de covari´avel xi em compara¸c˜ao ao grupo base em determinado tempo. Transformando os dados de sobrevivˆencia de forma que os intervalos entram na forma¸c˜ao dos subgrupos. E, supondo que dentro de cada intervalo a fun¸c˜ao risco base ´e constante. O modelo exponencial por partes pode ser aplicado para a nova vari´avel referente ao n´umero de ocorrˆencias do evento no intervalo com m´edias
conforme foi apresentado por Armitage (1966) [26]. Tomando o logaritmo, segue que: log(µij) = log(tij) + log(hj) + XiTβ, (2.18) sendo tij o tempo de exposi¸c˜ao e log(hj) ´e uma fun¸c˜ao do intervalo j. Esse modelo pode ainda ser reescrito de forma que log(hj) “passa para dentro do preditor linear”tal que log(µij) = log(tij) + XiTβ. Portanto, o modelo exponencial por partes equivale ao modelo log-linear para a vari´avel referente ao n´umero de ocorrˆencias do evento obtida da transforma¸c˜ao dos dados.
A demonstra¸c˜ao das equivalˆencias entre as fun¸c˜oes de verossimilhan¸ca do modelo log-linear e do modelo exponencial por partes pode ser vista em Rodr´ıguez (2007) [27] que, tamb´em, forneceu o passo a passo para a transforma¸c˜ao dos dados de sobrevivˆencia em dados de contagem. Essa transforma¸c˜ao consiste em:
1. Dividir o tempo de sobrevivˆencia em J intervalos definidos como [τj−1, τj);
2. Criar uma medida de exposi¸c˜ao denotada por tij que corresponde ao tempo vivido pelo indiv´ıduo i no intervalo j (tempo sob risco) tal que:
tij = τj− τj−1, se ti > τj, ti− τj−1, se τj−1 < ti < τj, 0, se ti < τj−1;
3. Criar indicadores de falha denotados por dij tais que:
dij =
δi, se ti pertence ao intervalo j, 0, caso contr´ario;
4. Criar os subgrupos agrupando segundo intervalo e vari´avel categ´orica.
Na Figura 1, tem-se a visualiza¸c˜ao do passo a passo anterior para a transforma¸c˜ao dos dados de sobrevivˆencia em dados de contagem. Observe que, nesse trabalho, os intervalos considerados foram todos de mesmo tamanho e iguais a 1. A seguir, tem-se a descri¸c˜ao do modelo log-linear 2.18 para dados de sobrevivˆencia transformados via abordagem bayesiana.
Figura 1: Transforma¸c˜ao para dados de contagem
2.4.1
Abordagem bayesiana
Com a transforma¸c˜ao dos dados de sobrevivˆencias, tem-se que a nova vari´avel ob-servada Yi refere-se ao n´umero de falhas no subgrupo i (i = 1, ..., I) tem distribui¸c˜ao de Poisson com m´edia µi = hiti. O modelo log-linear para taxas 2.17 tem a seguinte fun¸c˜ao de verossimilhan¸ca: L(β) = I Y i=1 " exiTβti(x iTβti)yi yi! # .
Os coeficientes β da regress˜ao podem assumir qualquer valor em R, ent˜ao assumindo como distribui¸c˜ao a priori para β:
β ∼ N ormal(m, V ),
tal que m e V ´e o vetor de m´edia e matriz de variˆancia-covariˆancia, respectivamente. Pelo Teorema de Bayes, segue que a distribui¸c˜ao a posteriori :
p(β|x) ∝ exp −1 2(β − m) TV−1 (β − m) I Y i=1 h exiTβti(x iTβti)yi i . (2.19)
gerados da posteriori ser´a via Metropolis-Hastings com a seguinte distribui¸c˜ao proposta: β(p) = β(a)+ u,
3
Resultados
Neste cap´ıtulo, ´e apresentado os resultados de um dos estudos simulados realizados para os modelos Cox e Poisson considerando casos com diferentes porcentagem de censura. Todos os estudos apresentaram resultados similares, por´em optou-se por apresentar apenas um deles por quest˜ao de simplicidade. Inicialmente, ´e apresentado os valores usados para a simula¸c˜ao dos dados de sobrevivˆencia e para as distribui¸c˜oes a priori. Em seguida, os resultados obtidos para ambos os modelos s˜ao apresentados divididos em trˆes casos.
3.1
Simula¸
c˜
ao
Neste trabalho, foram considerados trˆes casos com diferentes n´ıveis de censura. Para cada caso, foi gerada uma amostra dos tempos de sobrevivˆencia do modelo Cox-Weibull (Bender et al., 2005 [28]) definido por:
h(t|X, β, α, λ) = αλtα−1eXβ, (3.1)
tal que X ´e o vetor de covari´aveis, α e λ s˜ao os parˆametros da distribui¸c˜ao Weibull e β s˜ao os coeficientes da regress˜ao.
Essas amostras geradas foram compostas por 100 observa¸c˜oes e duas covari´aveis (X1, X2) cada uma com distribui¸c˜ao de Bernoulli com p = 0, 5. Os outros parˆametros foram definidos como: (β1, β2)T = (1, −1)T, λ = 1 e α = 1. E, os n´ıveis de censura considerados foram: 10%, 30% e 50%.
Em seguida, os modelos Cox e Poisson foram ajustados via abordagem bayesiana de acordo com o definido nas se¸c˜oes 2.3.1 e 2.4.1, respectivamente. O objetivo foi verificar a qualidade do ajuste do modelo alternativo em capturar os efeitos das covari´aveis. Bem como, analisar o desempenho dessas abordagens em cen´arios com diferentes n´ıveis de censura. A inferˆencia foi feita com base nas amostras a posteriori obtidas para os modelos de interesse atrav´es dos algoritmos MCMC implementados manualmente no programa R
(R Core Team, 2008 [29]). Os valores assumidos a priori foram: β ∼ N " 0 0 # , " 100 0 0 100 #! ,
para os coeficientes β tanto no modelo Cox quanto no Poisson e, H0∗(t) = 1
10t c = 0, 1
para a fun¸c˜ao risco base do modelo Cox, segundo Soares (2003) [7].
Em ambos os modelos, foram geradas duas cadeias cada uma com 75000 itera¸c˜oes. As amostras a posteriori foram obtidas selecionando uma dessas cadeias e utilizando burn-in de 2000 e lag = 50. Assim, os tamanhos dessas amostras foram de 1461 observa¸c˜oes em todos os casos.
3.1.1
Caso 1
No primeiro caso, considerou-se dados de sobrevivˆencia com 10% de censura. O seu tempo mediano foi de 0, 704. Na Figura 2, tem-se a distribui¸c˜ao emp´ırica dos tempos de sobrevivˆencia gerados sem as covari´aveis para se ter uma ideia visual de sua distribui¸c˜ao. Nos dois primeiros instantes, cerca de 75% das observa¸c˜oes sa´ıram do estudo devido a falha ou censura. As censuras encontram-se indicadas no gr´afico por “|”.
Figura 2: Fun¸c˜ao de sobrevivˆencia emp´ırica linha (—) e intervalo de confian¸ca de 95% (´area hachurada)
Inicialmente, verificou-se a qualidade das amostras a posteriori obtidas pelo algoritmo MCMC implementado para o modelo Cox por meio da an´alise visual do tra¸co das cadeias e dos gr´aficos de autocorrela¸c˜ao. O diagn´ostico do MCMC para esse modelo encontra-se nas Figuras 3 e 4.
Pela visualiza¸c˜ao do comportamento das cadeias atrav´es do tra¸co para cada coefici-ente de regress˜ao, ´e razo´avel supor que a partir do burn-in especificado anteriormente houve convergˆencia devido `a estabilidade ao redor dos reais valores dos parˆametros e a so-breposi¸c˜ao das cadeias. Formalmente, o c´alculo da estat´ıstica de Gelman-Rubin tamb´em indica a existˆencia de convergˆencia uma vez que os valores obtidos est˜ao muito pr´oximos de 1.
(a) Tra¸co β1 (b) Tra¸co β2
Figura 3: Tra¸co das cadeias - modelo Cox caso 1 (10% de censura).
Pelos correlogramas da Figura 4, percebe-se como as autocorrela¸c˜oes amostrais di-minuem em fun¸c˜ao das defasagens (lag). Veja que, os elementos selecionados a cada 50 observa¸c˜oes, fornecem amostras cujos termos se tornaram independentes a partir dessa distˆancia.
Logo, o algoritmo MCMC implementado para o modelo Cox gerou cadeias capazes de fornecer amostras que produzem boas estimativas para os coeficientes de regress˜ao uma vez que se garantiu a convergˆencia. Garantiu-se tamb´em que essas amostras formadas por elementos retirados a cada 50 observa¸c˜oes s˜ao independentes.
Figura 4: Correlogramas - modelo Cox caso 1 (10% de censura).
As estat´ısticas sumarizando as informa¸c˜oes obtidas pela amostra do modelo Cox encontram-se na Tabela 1. Os resultados mostrados na tabela abaixo foram retirados da cadeia 1 para ambos os parˆametros. O estimador pontual usado foi a m´edia que forne-ceu estimativas pr´oximas aos verdadeiros valores dos parˆametros. Veja que, as distˆancias entre a m´edia e o real foram de −0, 023 e −0, 103 para os coeficientes β1 e β2, respectiva-mente. E, as amplitudes dos intervalos de credibilidade foram iguais a 0, 979 e 1, 105.
Tabela 1: Estat´ısticas descritivas da amostra a posteriori - modelo Cox caso 1
Parˆametro Real M´edia D.P. 2,5% 50% 97,5%
β1 1 0,977 0,252 0,476 0,977 1,455
β2 −1 −1,103 0,276 −1,674 −1,097 −0,569
A Figura 5 apresenta os histogramas da distribui¸c˜ao a posteriori para os coeficientes de regress˜ao estimados. Perceba que, os verdadeiros valores dos parˆametros est˜ao contidos nos respectivos intervalos de credibilidade de 95% destacados em vermelho. Trata-se de uma representa¸c˜ao visual das medidas resumo presentes na Tabela 1.
Figura 5: Histogramas dos coeficientes de regress˜ao modelo Cox caso 1 com intervalo de credibilidade 95% em vermelho.
A Figura 6(b) apresenta a fun¸c˜ao risco base acumulada. Os verdadeiros valores da fun¸c˜ao risco (H0(t) = t, ∀t) est˜ao contidos no intervalo de credibilidade. E, na Figura 6(a) tem-se a fun¸c˜ao de risco base obtida por meio de uma aproxima¸c˜ao simples de H0.
(a) h0(t) (b) log(H0(t))
Analogamente, tem-se o diagn´ostico do MCMC para o modelo Poisson. Assim como no modelo anterior, existe a convergˆencia das cadeias (Figura 7). E, para a mesma distˆancia de defasagem, tem-se que as amostras obtidas s˜ao compostas por elementos independentes (Figura 8).
(a) Tra¸co β1 (b) Tra¸co β2
Figura 7: Tra¸co das cadeias - modelo Poisson caso 1 (10% de censura).
Com rela¸c˜ao ao diagn´ostico visual dos algoritmos MCMC implementados em cada modelo, tem-se que em ambos ´e poss´ıvel obter boas amostras. Por´em, notou-se que a estat´ıstica de Gelman-Rubin foi maior no modelo Poisson.
Na Tabela 2, encontram-se as estat´ısticas sumarizando as informa¸c˜oes obtidas pela amostra da abordagem alternativa com base na primeira cadeia gerada em cada parˆametro. Pode-se perceber que em compara¸c˜ao ao modelo Cox, as amplitudes dos intervalos de cre-dibilidade dos coeficientes de regress˜ao foram maiores. As distˆancias entre a m´edia e o real valor dos parˆametros β1 e β2 foram, respectivamente, iguais a 0, 049 e −0, 191. E, as amplitudes foram de 2, 144 e 2, 329 para esses mesmos parˆametros. Dessa forma, o modelo Poisson teve um erro maior (em m´odulo) com rela¸c˜ao as estimativas pontuais e, tamb´em, intervalos com maiores amplitudes em compara¸c˜ao ao modelo Cox.
Na Figura 9, encontram-se os histogramas para as distribui¸c˜oes amostrais de cada coeficiente do modelo Poisson com os intervalos de credibilidade 95% destacados em ver-melho. ´E poss´ıvel notar visualmente que as amplitudes no modelo Poisson foram maiores que no modelo anterior. Assim, apesar de ambos os modelos satisfazerem os crit´erios de convergˆencia e fornecerem amostras de boa qualidade para a estima¸c˜ao dos coeficientes, o modelo Poisson apresentou um desempenho inferior ao modelo Cox segundo os crit´erios analisados.
Tabela 2: Estat´ısticas descritivas da amostra a posteriori - modelo Poisson caso 1
Parˆametro Real M´edia D.P. 2,5% 50% 97,5%
β1 1 1,049 0,548 0,006 1,044 2,150 β2 −1 −1,191 0,606 −2, 358 −1,209 −0, 029 Intercepto - −0,098 0,495 −1, 080 −0,078 0,822 Intervalo:2 - −0,359 0,784 −1, 959 −0,306 1,021 Intervalo:3 - −0,659 1,113 −3, 065 −0,568 1,206 Intervalo:4 - −0,950 1,779 −5, 168 −0,716 1,804 Intervalo:5 - 0,134 1,678 −4, 002 0,387 2,584 Intervalo:6 - −15,111 8,733 −30, 515 −15,687 0,727 Intervalo:7 - −11,500 9,783 −34, 149 −8,476 1,525 Intervalo:8 - −15,041 12,829 −41, 875 −13,459 1,939 Intervalo:9 - −13,629 12,917 −43, 122 −9,243 1,763 Intervalo:10 - −2,101 4,070 −11, 234 −1,398 3,725
Figura 9: Histogramas dos coeficientes de regress˜ao modelo Poisson caso 1 com intervalo de credibilidade 95% em vermelho.
3.1.2
Caso 2
Nesta se¸c˜ao, os resultados apresentados referem-se aos dados de sobrevivˆencia com 30% de censura. Na Figura 10, encontra-se a distribui¸c˜ao emp´ırica sem as covari´aveis. O tempo mediano foi de 0, 883 e cerca de 76% dos dados falharam ou foram censurados nos dois primeiros instantes.
Figura 10: Fun¸c˜ao de sobrevivˆencia emp´ırica linha (—) e intervalo de confian¸ca de 95% (´area hachurada)
Assim como na se¸c˜ao anterior, avaliou-se primeiro a qualidade dos algoritmos imple-mentados ao considerar dados com porcentagem maior de censura. Nas Figuras 11 e 12, encontram-se, respectivamente, os tra¸cos das cadeias e os correlogramas do modelo Cox.
(a) Tra¸co β1 (b) Tra¸co β2
Figura 11: Tra¸co das cadeias - modelo Cox Caso 2 (30% de censura).
Pela an´alise visual dos tra¸cos das cadeias (Figura 11), pode-se observar que mesmo com dados de sobrevivˆencia com uma maior porcentagem de censura, o algoritmo MCMC implementado para o modelo Cox produziu cadeias que convergiram. As estat´ısticas de Gelman-Rubin foram pr´oximas a 1, mas em compara¸c˜ao ao caso anterior seus valores fo-ram maiores, possivelmente devido ao aumento de censura. As an´alises dos correlogramas (Figura 12) tamb´em indicaram uma diminui¸c˜ao das autocorrela¸c˜oes segundo o n´umero de lags, tornando-se pr´oximos a zero para valores maiores ou iguais a 50.
As estat´ısticas sumarizando as informa¸c˜oes obtidas pela amostra do modelo Cox encontram-se na Tabela 3. As amplitudes dos intervalos foram de 1, 229 e 1, 203, logo houve um aumento em compara¸c˜ao a esse mesmo modelo no caso anterior (0, 979 e 1, 105). Por sua vez, as distˆancias entre a m´edia e os seus reais valores foram de −0, 271 e 0, 116 para β1 e β2, respectivamente.
Tabela 3: Estat´ısticas descritivas da amostra a posteriori - modelo Cox Caso 2
Parˆametro Real M´edia D.P. 2,5% 50% 97,5%
β1 1 0,729 0,318 0,112 0,733 1,341
Figura 12: Correlogramas - modelo Cox Caso 2 (30% de censura).
Os histogramas com a distribui¸c˜ao a posteriori dos coeficientes de regress˜ao estimados est˜ao na Figura 13. A fun¸c˜ao risco base acumulada e a aproxima¸c˜ao da fun¸c˜ao risco base h0(t) se encontram na Figura 14.
Figura 13: Histogramas dos coeficientes de regress˜ao modelo Cox Caso 2 com intervalo de credibilidade 95% em vermelho.
(a) h0(t) (b) log(H0(t))
Figura 14: Estimativas para h0(t) e H0(t) no modelo Cox Caso 2.
Analogamente, foi verificada a qualidade do algoritmo MCMC para o modelo Poisson. Em rela¸c˜ao ao caso anterior, foi poss´ıvel observar a convergˆencia atrav´es da an´alise visual dos tra¸cos das cadeias e do c´alculo das estat´ısticas de Gelman-Rubin.
(a) Tra¸co β1 (b) Tra¸co β2
Figura 15: Tra¸co das cadeias - modelo Poisson no Caso 2 (30% de censura).
Por sua vez, a an´alise dos correlogramas tamb´em indicou a diminui¸c˜ao das correla¸c˜oes entre observa¸c˜oes e se observou que esse mesmo modelo necessita de uma defasagem maior
que 50 para se garantir a independˆencia. No entanto, devido ao n´umero de itera¸c˜oes realizadas, optou-se por selecionar os elementos amostrais a cada 50 observa¸c˜oes para manter o mesmo tamanho de amostra.
Figura 16: Correlogramas - modelo Poisson no Caso 2 (30% de censura).
As amostras obtidas pela cadeia 1 mantendo o burn-in de 2000 observa¸c˜oes e o lag de 50 apresentaram correla¸c˜oes aproximadamente iguais a 0, 15 e 0, 14 para os parˆametros β1 e β2, respectivamente. Na Tabela 4, encontram-se as estat´ısticas descritivas obtidas por essa amostra. As distˆancias entre as m´edias e seus reais valores foram iguais a −0, 179 e 0, 084 para β1 e β2, respectivamente. E, as amplitudes foram de 2, 704 e 2, 505 para esses mesmos parˆametros. Na Figura 17, tem-se os intervalos de credibilidade presentes na tabela destacados em vermelho. Pode-se perceber visualmente que as amplitudes desses intervalos foram maiores no modelo Poisson em compara¸c˜ao ao modelo Cox.
Assim, os algoritmos MCMC aplicados aos dados de sobrevivˆencia com 30% de censura satisfizeram as condi¸c˜oes de convergˆencia segundo o crit´erio de Gelman-Rubin. Compa-rando ambos os modelos, o modelo Poisson apresentou desempenho inferior em rela¸c˜ao ao Cox devido a maior amplitude dos intervalos de credibilidade. Houve tamb´em que devido ao n´umero de itera¸c˜oes, as amostras obtidas pelo modelo Poisson eram compostas por observa¸c˜oes com correla¸c˜oes o que diminuiu a qualidade das estima¸c˜oes realizadas.
Tabela 4: Estat´ısticas descritivas da amostra a posteriori - modelo Poisson Caso 2
Parˆametro Real M´edia D.P. 2,5% 50% 97,5%
β1 1 0,821 0,677 −0, 477 0,812 2, 227 β2 −1 −0,916 0,650 −2, 206 −0,904 0, 299 Intercepto - −0,393 0,584 −1, 586 −0,363 0, 633 Intervalo:2 - −0,148 0,819 −1, 912 −0,082 1, 263 Intervalo:3 - −0,410 1,475 −3, 882 −0,183 1, 893 Intervalo:4 - −2,578 3,652 −12, 576 −1,632 1, 729 Intervalo:5 - −1,982 3,949 −13, 268 −0,872 2, 676 Intervalo:6 - −22,021 13,015 −51, 716 −20,110 −0, 771 Intervalo:7 - −4,998 7,446 −24, 750 −2,484 3, 082 Intervalo:8 - −15,362 13,939 −46, 115 −12,438 2, 253 Intervalo:9 - −11,199 9,020 −30, 752 −10,889 2, 649 Intervalo:10 - −15,434 15,189 −54, 960 −10,418 2, 921
Figura 17: Histogramas dos coeficientes de regress˜ao modelo Poisson Caso 2 com intervalo de credibilidade 95% em vermelho.
3.1.3
Caso 3
No ´ultimo caso que corresponde ao cen´ario com 50% dos dados de sobrevivˆencia censu-rados, apresenta-se na Figura 18 o gr´afico com a distribui¸c˜ao emp´ırica sem as covari´aveis. O tempo mediano foi de 1, 27 e aproximadamente 60% das observa¸c˜oes ou, falharam ou foram censuradas nos dois primeiros instantes.
Figura 18: Fun¸c˜ao de sobrevivˆencia emp´ırica linha (—) e intervalo de confian¸ca de 95% (´area hachurada)
Os gr´aficos para os tra¸cos das cadeias (Figura 19) e os correlogramas (Figura 20) confirmaram visualmente a convergˆencia do algoritmo MCMC para o modelo Cox. Os valores das estat´ısticas de Gelman-Rubin pr´oximas a um confirmaram essa afirma¸c˜ao.
(a) Tra¸co β1 (b) Tra¸co β2
Figura 20: Correlogramas - modelo Cox Caso 3 (50% de censura).
No entanto, vale ressaltar que nesse caso tais estat´ısticas obtiveram os maiores valores em rela¸c˜ao a esse mesmo modelo aplicado nos casos anteriores. Na Tabela , tem-se as estat´ısticas da amostra obtida da cadeia 1 do modelo Cox. Perceba que, os erros das estimativas pontuais foram de 0, 023 e 0, 005 para os coeficientes β1 e β2, respectivamente. As amplitudes dos intervalos de credibilidade foram iguais a 1, 381 e 1, 43 para esses mesmos parˆametros. Em compara¸c˜ao aos casos anteriores para o modelo Cox, este caso obteve as maiores amplitudes.
Tabela 5: Estat´ısticas descritivas da amostra a posteriori - modelo Cox Caso 3
Parˆametro Real M´edia D.P. 2,5% 50% 97,5%
β1 1 0,977 0,358 0,276 0,975 1,657
β2 −1 −1,005 0,367 −1, 735 −1,002 −0, 305
Na Figura 21, encontra-se a distribui¸c˜ao a posteriori dos coeficientes de regress˜ao nos modelos Cox com os intervalos de credibilidade marcados em vermelho. Na Figura 22, tem-se a fun¸c˜ao risco base acumulada H0(t) e a aproxima¸c˜ao da fun¸c˜ao risco base. Veja que, nesse caso a fun¸c˜ao risco base acumulada H0(t) possuiu a maior parte dos seus
verdadeiros valores fora do intervalo de credibilidade de 95%.
Figura 21: Histogramas dos coeficientes de regress˜ao modelo Cox Caso 3 com intervalo de credibilidade 95% em vermelho.
(a) h0(t) (b) log(H0(t))
Figura 22: Estimativas para h0(t) e H0(t) no modelo Cox Caso 3.
Nas Figuras 23 e 24, encontram-se respectivamente os gr´aficos com os tra¸cos das cadeias e os correlogramas. Pode-se verificar visualmente a convergˆencia e as estat´ısticas
de Gelman-Rubin pr´oximas a um tamb´em corroboram com essa afirma¸c˜ao.
(a) Tra¸co β1 (b) Tra¸co β2
Figura 23: Tra¸co das cadeias - modelo Poisson Caso 3 (50% de censura).
Figura 24: Correlogramas - modelo Poisson Caso 3 (50% de censura).
Assim como no caso anterior, para alcan¸car amostras com observa¸c˜oes independen-tes ´e necess´ario usar defasagens maiores que 50 conforme indicado pelos correlogramas. No entanto, tamb´em optou-se por manter lag de tamanho igual a 50. Mantendo esse valor e usando um burn-in igual a 2000, obteve-se amostras cujas estat´ısticas descritivas encontram-se na Tabela 6. As distˆancias foram de 0, 086 e −0, 058 para os coeficientes
β1 e β2, respectivamente. E, as amplitudes foram de 2, 621 e 2, 775 para esses mesmos parˆametros.
Tabela 6: Estat´ısticas descritivas da amostra a posteriori - modelo Poisson Caso 3
Parˆametro Real M´edia D.P. 2,5% 50% 97,5%
β1 1 1,086 0,664 −0, 245 1,079 2,376 β2 −1 −1,058 0,707 −2, 485 −1,043 0,290 Intercepto - −0,955 0,626 −2, 309 −0,905 0,156 Intervalo:2 - 0,577 0,827 −1, 077 0,595 2,154 Intervalo:3 - 0,365 1,196 −2, 476 0,510 2,380 Intervalo:4 - −3,542 4,229 −13, 44 −2,462 2,06 Intervalo:5 - −0,029 2,279 −5, 608 0,359 3,537 Intervalo:6 - −9,174 10,834 −42, 785 −6,208 3, 395 Intervalo:7 - −0,391 4,722 −12, 506 0,748 5,574
Figura 25: Histogramas dos coeficientes de regress˜ao modelo Poisson Caso 3 com intervalo de credibilidade 95% em vermelho.
4
Conclus˜
ao
Os resultados obtidos confirmam que os modelo Cox e Poisson podem ser usados na an´alise dos dados de sobrevivˆencia apesar da diferen¸ca de natureza das vari´aveis de-pendentes. No modelo Cox, tem-se que a vari´avel dependente se refere ao tempo de sobrevivˆencia, enquanto no modelo de Poisson ela se refere ao n´umero de falhas. Ambos os modelos foram ajustados via inferˆencia bayesiana considerando casos com 10%, 30% e 50% de censura.
Em cada caso, foi realizado um estudo simulado com nove simula¸c˜oes. Contudo, por quest˜oes de simplicidade, o presente trabalho apresentou apenas uma dessas simula¸c˜oes. O tempo computacional do algoritmo MCMC para o modelo Cox foi maior que no Poisson devido a sua complexidade. No modelo Cox, foi necess´ario estimar primeiro fun¸c˜ao risco base via passo de Gibbs para depois estimar os coeficientes de regress˜ao via Metropolis-Hastings. Enquanto que, no modelo Poisson, todos os parˆametros puderam ser estimados via Metropolis-Hastings.
Pode-se perceber que os algoritmos MCMC de ambos os modelos convergiram in-dependentemente do n´umero de censuras. Logo, as amostras obtidas pelos algoritmos implementados foram suficientes para fornecer boas aproxima¸c˜oes das condicionais com-pletas dos coeficientes de regress˜ao. Dessa forma, pode-se afirmar que tanto o modelo Cox quanto o Poisson foram capazes de capturar os efeitos das covari´aveis.
Por´em, ao comparar as estimativas obtidas entre os modelos em cada caso, o mo-delo Cox teve o melhor desempenho. Tanto os erros das estimativas pontuais quanto as amplitudes dos intervalos de credibilidade foram menores no modelo Cox mesmo com o aumento da porcentagem de censura. Portanto, apesar de ser mais pesado computacio-nalmente, o modelo Cox obteve melhor desempenho nas estimativas em compara¸c˜ao ao Poisson que ´e menos intenso computacionalmente.