• Nenhum resultado encontrado

Comparação de modelos para a análise de dados censurados à direita

N/A
N/A
Protected

Academic year: 2021

Share "Comparação de modelos para a análise de dados censurados à direita"

Copied!
165
0
0

Texto

(1)

Compara¸

ao de modelos para a an´

alise de

dados censurados `

a direita

Niter´oi - RJ, Brasil 09 de julho de 2019

(2)

La´ıs Pereira Peixoto de Moraes

Compara¸

ao de modelos para a

an´

alise de dados censurados `

a direita

Trabalho de Conclus˜ao de Curso

Monografia apresentada para obten¸c˜ao do grau de Bacharel em Estat´ıstica pela Universidade Federal Fluminense.

Orientador: Prof. Jony Arrais Pinto Junior

Niter´oi - RJ, Brasil 09 de julho de 2019

(3)

La´ıs Pereira Peixoto de Moraes

Compara¸

ao de modelos para a an´

alise de

dados censurados `

a direita

Monografia de Projeto Final de Gradua¸c˜ao sob o t´ıtulo “Com-para¸c˜ao de modelos para a an´alise de dados censurados `a di-reita”, defendida por La´ıs Pereira Peixoto de Moraes e apro-vada em 09 de julho de 2019, na cidade de Niter´oi, no Estado do Rio de Janeiro, pela banca examinadora constitu´ıda pelos professores:

Prof. Dr. Jony Arrais Pinto Junior Departamento de Estat´ıstica – UFF

Profa. Dra. Ludmilla da Silva Viana Jacobson Departamento de Estat´ıstica – UFF

Prof. Dr. Luis Guillermo Coca Velarde Departamento de Estat´ıstica – UFF

(4)

Bibliotecário responsável: Ana Nogueira Braga - CRB7/4776

M827c Moraes, Laís Pereira Peixoto de

Comparação de modelos para a análise de dados censurados à direita / Laís Pereira Peixoto de Moraes ; Jony Arrais Pinto Junior, orientador. Niterói, 2019.

164 f. : il.

Trabalho de Conclusão de Curso (Graduação em

Estatística)-Universidade Federal Fluminense, Instituto de Matemática e Estatística, Niterói, 2019.

1. Análise de sobrevivência. 2. Inferência Bayesiana. 3. Modelo Cox. 4. Modelo Poisson. 5. Produção intelectual. I. Pinto Junior, Jony Arrais, orientador. II. Universidade Federal Fluminense. Instituto de Matemática e Estatística. III. Título.

(5)

E comum o interesse por analisar dados provenientes de acompanhamentos ao longo do tempo. Um caso importante refere-se a an´alise dos dados de sobrevivˆencia que s˜ao compostos por covari´aveis e pela vari´avel de interesse denominada tempo de sobrevivˆencia. Esta ´ultima, ´e respons´avel por medir o tempo at´e a ocorrˆencia do evento desejado e sua principal caracter´ıstica ´e a presen¸ca de censura. Diz-se que um dado de sobrevivˆencia ´e censurado quando o tempo registrado n˜ao cont´em o evento desejado. Note que, os dados censurados possuem alguma informa¸c˜ao a respeito do evento analisado, portanto, devem ser incorporados a an´alise.

Dentre as ferramentas dispon´ıveis para a an´alise de regress˜ao com dados censurados, as mais usadas s˜ao o modelo Cox e o modelo de Poisson. O primeiro ´e adequado para um modelo de regress˜ao cuja vari´avel resposta ´e o tempo de sobrevivˆencia e o segundo quando a vari´avel resposta se refere a contagem do evento de interesse. A proposta deste trabalho ´e realizar um estudo comparativo entre esses modelos e verificar a influˆencia do n´umero de censuras nas estima¸c˜oes. Para isso, foi adotada a abordagem Bayesiana e considerou-se dados de sobrevivˆencia com censura `a direita.

Dessa forma, diversas simula¸c˜oes foram feitas para os modelos considerados atrav´es de algoritmos implementados manualmente no programa R. Os resultados obtidos indicaram que os dois algoritmos MCMC convergiram de acordo com o crit´erio de Gelman-Rubin. Por´em, ao comparar as amplitudes dos intervalos de credibilidade dos modelos, o modelo Cox obteve o melhor desempenho uma vez que tinham os menores tamanhos. Portanto, apesar de ser poss´ıvel aplicar ambos os modelos na an´alise dos dados de sobrevivˆencia, conforme o aumento da porcentagem de censura, deve-se optar por usar o modelo Cox ao inv´es do Poisson.

(6)

Lista de Figuras Lista de Tabelas 1 Introdu¸c˜ao p. 12 1.1 Objetivos . . . p. 15 1.2 Organiza¸c˜ao . . . p. 15 2 Materiais e M´etodos p. 16

2.1 An´alise de Sobrevivˆencia . . . p. 17 2.1.1 Especificando o Tempo de Sobrevivˆencia . . . p. 19 2.1.2 Rela¸c˜oes entre Fun¸c˜oes . . . p. 20 2.2 Inferˆencia Bayesiana . . . p. 21 2.2.1 Estima¸c˜ao dos parˆametros . . . p. 22 2.2.2 Monte Carlo via Cadeia de Markov (MCMC) . . . p. 23 2.3 Modelo Cox . . . p. 25 2.3.1 Abordagem bayesiana . . . p. 26 2.4 Modelo de Poisson . . . p. 28 2.4.1 Abordagem bayesiana . . . p. 31 3 Resultados p. 33 3.1 Simula¸c˜ao . . . p. 33 3.1.1 Caso 1 . . . p. 34

(7)

3.1.3 Caso 3 . . . p. 46

4 Conclus˜ao p. 51

Referˆencias p. 52

Anexo A -- Demonstra¸c˜oes p. 55

A.1 Rela¸c˜oes entre fun¸c˜oes do tempo de sobrevivˆencia . . . p. 55 A.2 Fun¸c˜ao de verossimilhan¸ca para o modelo Cox . . . p. 55

Anexo B -- Estudos simulados p. 57

B.1 Caso 1 - Simula¸c˜ao 1 . . . p. 57 B.2 Caso 1 - Simula¸c˜ao 2 . . . p. 61 B.3 Caso 1 - Simula¸c˜ao 3 . . . p. 66 B.4 Caso 1 - Simula¸c˜ao 4 . . . p. 70 B.5 Caso 1 - Simula¸c˜ao 5 . . . p. 75 B.6 Caso 1 - Simula¸c˜ao 6 . . . p. 80 B.7 Caso 1 - Simula¸c˜ao 7 . . . p. 84 B.8 Caso 1 - Simula¸c˜ao 8 . . . p. 89 B.9 Caso 2 - Simula¸c˜ao 1 . . . p. 93 B.10 Caso 2 - Simula¸c˜ao 2 . . . p. 98 B.11 Caso 2 - Simula¸c˜ao 3 . . . p. 102 B.12 Caso 2 - Simula¸c˜ao 4 . . . p. 107 B.13 Caso 2 - Simula¸c˜ao 5 . . . p. 111 B.14 Caso 2 - Simula¸c˜ao 6 . . . p. 116 B.15 Caso 2 - Simula¸c˜ao 7 . . . p. 120 B.16 Caso 2 - Simula¸c˜ao 8 . . . p. 125

(8)

B.18 Caso 3 - Simula¸c˜ao 2 . . . p. 134 B.19 Caso 3 - Simula¸c˜ao 3 . . . p. 138 B.20 Caso 3 - Simula¸c˜ao 4 . . . p. 143 B.21 Caso 3 - Simula¸c˜ao 5 . . . p. 147 B.22 Caso 3 - Simula¸c˜ao 6 . . . p. 152 B.23 Caso 3 - Simula¸c˜ao 7 . . . p. 156 B.24 Caso 3 - Simula¸c˜ao 8 . . . p. 161

(9)

1 Transforma¸c˜ao para dados de contagem . . . p. 31 2 Fun¸c˜ao de sobrevivˆencia emp´ırica linha (—) e intervalo de confian¸ca de

95% (´area hachurada) . . . p. 34 3 Tra¸co das cadeias - modelo Cox caso 1 (10% de censura). . . p. 35 4 Correlogramas - modelo Cox caso 1 (10% de censura). . . p. 36 5 Histogramas dos coeficientes de regress˜ao modelo Cox caso 1 com

inter-valo de credibilidade 95% em vermelho. . . p. 37 6 Estimativas para h0(t) e H0(t) no modelo Cox caso 1. . . p. 37 7 Tra¸co das cadeias - modelo Poisson caso 1 (10% de censura). . . p. 38 8 Correlogramas - modelo Poisson caso 1 (10% de censura). . . p. 38 9 Histogramas dos coeficientes de regress˜ao modelo Poisson caso 1 com

intervalo de credibilidade 95% em vermelho. . . p. 40 10 Fun¸c˜ao de sobrevivˆencia emp´ırica linha (—) e intervalo de confian¸ca de

95% (´area hachurada) . . . p. 40 11 Tra¸co das cadeias - modelo Cox Caso 2 (30% de censura). . . p. 41 12 Correlogramas - modelo Cox Caso 2 (30% de censura). . . p. 42 13 Histogramas dos coeficientes de regress˜ao modelo Cox Caso 2 com

inter-valo de credibilidade 95% em vermelho. . . p. 42 14 Estimativas para h0(t) e H0(t) no modelo Cox Caso 2. . . p. 43 15 Tra¸co das cadeias - modelo Poisson no Caso 2 (30% de censura). . . . p. 43 16 Correlogramas - modelo Poisson no Caso 2 (30% de censura). . . p. 44 17 Histogramas dos coeficientes de regress˜ao modelo Poisson Caso 2 com

(10)

19 Tra¸co das cadeias - modelo Cox Caso 3 (50% de censura). . . p. 46 20 Correlogramas - modelo Cox Caso 3 (50% de censura). . . p. 47 21 Histogramas dos coeficientes de regress˜ao modelo Cox Caso 3 com

inter-valo de credibilidade 95% em vermelho. . . p. 48 22 Estimativas para h0(t) e H0(t) no modelo Cox Caso 3. . . p. 48 23 Tra¸co das cadeias - modelo Poisson Caso 3 (50% de censura). . . p. 49 24 Correlogramas - modelo Poisson Caso 3 (50% de censura). . . p. 49 25 Histogramas dos coeficientes de regress˜ao modelo Poisson Caso 3 com

(11)

1 Estat´ısticas descritivas da amostra a posteriori - modelo Cox caso 1 . . p. 36 2 Estat´ısticas descritivas da amostra a posteriori - modelo Poisson caso 1 p. 39 3 Estat´ısticas descritivas da amostra a posteriori - modelo Cox Caso 2 . . p. 41 4 Estat´ısticas descritivas da amostra a posteriori - modelo Poisson Caso 2 p. 45 5 Estat´ısticas descritivas da amostra a posteriori - modelo Cox Caso 3 . . p. 47 6 Estat´ısticas descritivas da amostra a posteriori - modelo Poisson Caso 3 p. 50

(12)

1

Introdu¸

ao

Os estudos que consideram vari´aveis explicativas se preocupam em definir modelos que descrevam o efeito destas covari´aveis na vari´avel de interesse. Frequentemente, usam-se os modelos lineares e os lineares generalizados por usam-se adequarem a diversos cen´arios. Contudo, h´a situa¸c˜oes em que seu uso produz perda de eficiˆencia ou resultados viciados. Isto ocorre, por exemplo, ao avaliar o tempo entre fenˆomenos onde ´e poss´ıvel que o evento de interesse n˜ao seja observado. Tem-se, ent˜ao, que a vari´avel resposta possui valores incompletos e se recai na abordagem dos chamados dados censurados.

A An´alise de Sobrevivˆencia ´e o ramo da Estat´ıstica que fornece ferramentas para o ajuste de dados censurados. Ela possui in´umeras aplica¸c˜oes estando, geralmente, re-lacionada aos estudos referentes ao tempo desde um instante inicial at´e ocorrˆencia do evento desejado. Em estudos cl´ınicos, por exemplo, pode-se estar interessado nos fatores que influenciam no tempo do diagn´ostico at´e o ´obito por alguma doen¸ca. Desta forma, acompanha-se um grupo de pacientes e se registra o tempo sob observa¸c˜ao al´em de outras caracter´ısticas relevantes. No final, obt´em-se dados completos que registram o tempo do ´

obito e dados incompletos por causas n˜ao control´aveis como o realocamento de pacientes em outros hospitais ou mortes n˜ao relacionadas a doen¸ca observada.

Os dados de sobrevivˆencia incluem, portanto, a vari´avel de interesse denominada tempo de sobrevivˆencia e vari´aveis independentes. O tempo de sobrevivˆencia mede o tempo at´e o evento de interesse dado um ponto de partida. No exemplo anterior, foi definido o diagn´ostico como tempo inicial. Al´em disso, o tempo de sobrevivˆencia ´e sujeito a censura o que nos impede de observar o tempo exato de ocorrˆencia do evento desejado. Logo, a vari´avel resposta ´e formada por dados completos e incompletos.

Um fato importante ao tratar dados censurados ´e com rela¸c˜ao ao tipo de censura. Sendo a principal caracter´ıstica dos dados de sobrevivˆencia, a censura ´e classifica como: tipo I, se ultrapassa o t´ermino do estudo; tipo II quando o n´umero de ocorrˆencias do evento ´e satisfeita ou tipo III por perdas aleat´orias da informa¸c˜ao pretendida. N˜ao obstante, ela

(13)

tamb´em ´e dita censura `a direita, `a esquerda ou intervalar, segundo a posi¸c˜ao da ocorrˆencia do evento com rela¸c˜ao ao tempo registrado. A censura `a direita est´a presente na maioria das vezes tais como no exemplo citado. Neste caso, s´o pode ter havido a morte de um paciente realocado em algum tempo depois da sua ´ultima observa¸c˜ao. Apenas os m´etodos de an´alise que contemplam a censura `a direita ser˜ao abordados neste trabalho.

Perceba que, mesmo sendo dados incompletos, os dados censurados possuem alguma informa¸c˜ao a respeito do evento analisado. Existe, portanto, uma necessidade de incor-por´a-los na an´alise estat´ıstica j´a que eles s˜ao capazes de enriquecer o entendimento sobre a caracter´ıstica estudada. Essa incorpora¸c˜ao deve ser apta a distinguir dados completos e censurados a fim de evitar estima¸c˜oes viciadas. Se fosse aplicado modelos lineares ge-neralizados considerando apenas a distribui¸c˜ao assim´etrica do tempo de sobrevivˆencia, estima¸c˜oes viciadas seriam obtidas. Porque, ao contr´ario dos modelos de sobrevivˆencia, estes modelos n˜ao distinguem dados completos e censurados.

Dentro da an´alise de sobrevivˆencia, os modelos de regress˜ao s˜ao divididos entre pa-ram´etrico, se assume uma distribui¸c˜ao para a vari´avel dependente e semi-param´etrico, caso contr´ario. Existem muitos modelos param´etricos, dentre eles, o modelo de tempo de vida acelerado. A vantagem deste modelo se d´a em sua forma pr´oxima aos modelos de regress˜ao linear tradicionais o que facilita a interpreta¸c˜ao de seus coeficientes. No entanto, na pr´atica ´e dif´ıcil adequar uma distribui¸c˜ao aos dados, principalmente em es-tudos cl´ınicos, pois a presen¸ca de fontes de perturba¸c˜ao (heterogeneidade) nem sempre ´e control´avel.

Na literatura, o modelo semi-param´etrico ´e o mais popular j´a que alivia o ajuste de uma distribui¸c˜ao para a vari´avel resposta, tempo de sobrevivˆencia. O modelo Cox (Cox, 1972)[1], como o ´e conhecido, investiga a rela¸c˜ao entre os preditores e o tempo de sobrevivˆencia atrav´es da fun¸c˜ao de risco (ou hazard ). Como consequˆencia, o modelo Cox possui em sua constru¸c˜ao um componente n˜ao-param´etrico que garante a sua flexibilidade. A ´unica restri¸c˜ao deste modelo ´e com rela¸c˜ao ao efeito dos preditores na fun¸c˜ao de risco que deve ser independente do tempo. Devido a essa restri¸c˜ao, o modelo Cox tamb´em ´e chamado de modelo de riscos proporcionais.

A An´alise de Sobrevivˆencia est´a presente em diversas ´areas e a aplica¸c˜ao do modelo Cox amplamente difundido. Na ´area de finan¸cas, Gepp e Kumar et al (2015)[2] aplicam o modelo Cox para prever se certo neg´ocio sofrer´a uma crise financeira (financial dis-tress). Em oncologia, Damascena (2017) [3] utilizam riscos proporcionais para investigar a ocorrˆencia de mucosite oral grave e os fatores associados em pacientes pedi´atricos com

(14)

tumores hematol´ogicos e s´olidos, submetidos a tratamento oncol´ogico. Em agronomia, Maia (2011) [4], aplicou este mesmo m´etodo na an´alise de anomalias da temperatura da superf´ıcie do mar sobre o tempo at´e o in´ıcio da esta¸c˜ao chuvosa.

Al´em da clara vantagem proporcionada pelo al´ıvio quanto a distribui¸c˜ao, o modelo de riscos proporcionais possui como casos particulares os modelos de riscos proporcionais param´etricos (Kalbfleisch e Prentice, 1980)[5]. Em 2014, George et al [6] publicaram um artigo discutindo o modelo Cox e as abordagens param´etricas. Um fator recorrente e que afeta a condi¸c˜ao de riscos proporcionais ´e a presen¸ca de covari´aveis dependentes do tempo. No entanto, isso n˜ao se torna um problema uma vez que o modelo Cox comporta este tipo de vari´avel explicativa. Bastos (2003)[7], por exemplo, ajustou os modelos de Cox para covari´aveis independentes e dependentes do tempo.

Um m´etodo alternativo para o ajuste de dados censurados ´e o modelo log-linear ou de Poisson. Trata-se de um caso particular dos modelos lineares generalizados (MLG) que ajusta uma regress˜ao para dados de contagem. No caso em que a vari´avel resposta se refere ao tempo at´e evento, transforma-se estes dados em n´umero de ocorrˆencias do fenˆomeno desejado at´e um tempo t. Ao realizar essa contagem por intervalo de tempo, tem-se que a distribui¸c˜ao de Poisson aparece naturalmente. Portanto, os novos dados obtidos por essa transforma¸c˜ao seguem uma distribui¸c˜ao de Poisson que satisfaz indiretamente a condi¸c˜ao de raz˜ao de riscos proporcionais.

Em 2008, Mwangi [8] realizou um estudo comparativo entre os modelos de Cox e de Poisson. Neste estudo, ele verificou que a aplica¸c˜ao desses modelos produziram resultados similares e levaram `as mesmas conclus˜oes independente da natureza dos dados (contagem ou tempo). No entanto, n˜ao foi levado em considera¸c˜ao diferentes n´ıveis de censuras. A proposta deste trabalho ´e realizar tamb´em um estudo comparativo entre esses modelos e verificar a influencia do n´umero de censura nas estima¸c˜oes. Por´em, adotando a abordagem Bayesiana.

Nessa abordagem, por meio das informa¸c˜oes dispon´ıveis a respeito do problema em quest˜ao, busca-se diminuir a incerteza com rela¸c˜ao a quantidade de interesse. Para tanto, utiliza-se o teorema de Bayes como mecanismo formal de atualiza¸c˜ao das incertezas. Isto ´e, tem-se uma quantidade de interesse cuja intensidade de incerteza associada ´e descrita atrav´es de um modelo probabil´ıstico. Ao passo que novas informa¸c˜oes s˜ao obtidas, esse modelo probabil´ıstico ´e atualizado via teorema de Bayes.

(15)

1.1

Objetivos

O presente Trabalho de Conclus˜ao de Curso tem por objetivo comparar os modelos de regress˜ao para dados censurados mais usados segundo a abordagem bayesiana para diferentes porcentagens de censuras. Especificamente, tem-se interesse pelo modelo Cox e pelo modelo de Poisson. Em ambos os casos, a censura ser´a `a direita.

1.2

Organiza¸

ao

Inicialmente, no Cap´ıtulo 1 ´e apresentada a introdu¸c˜ao que comporta uma vis˜ao geral sobre este trabalho, no Cap´ıtulo 2 est˜ao dispostos os conceitos b´asicos em An´alise de Sobrevivˆencia e Inferˆencia Bayesiana. Em seguida, tˆem-se a defini¸c˜ao dos modelos de Cox e de Poisson sob o ponto de vista bayesiano. No Cap´ıtulo 3, os resultados obtidos por meio dos modelos definidos no cap´ıtulo anterior s˜ao apresentados com base em estudos de dados simulados. No Cap´ıtulo 4, as conclus˜oes deste trabalho s˜ao apresentadas.

(16)

2

Materiais e M´

etodos

´

E comum o interesse por analisar dados provenientes de acompanhamentos ao longo do tempo. Neste caso, pode-se citar a obten¸c˜ao de s´eries temporais. No entanto, ao se analisar o tempo decorrido at´e a ocorrˆencia de um fenˆomeno de interesse, tem-se uma nova classe de dados chamados dados de sobrevivˆencia. Eles se caracterizam pela presen¸ca de censura na vari´avel de interesse, tempo de sobrevivˆencia. Tem-se, ent˜ao, que esta vari´avel n˜ao se refere ao registro pontual de um fato no tempo, mas sim ao tempo acumulado at´e que ele o seja observado ou que se perca a unidade sob observa¸c˜ao. A distin¸c˜ao entre dados completos e parciais ocorre por meio da vari´avel indicadora de falha. A presen¸ca desta vari´avel na composi¸c˜ao do tempo de sobrevivˆencia se torna um problema para as t´ecnicas convencionais de an´alise (como lidar com dados incompletos?). Para resolver este problema, desenvolveu-se um conjunto de t´ecnicas para dados censurados, a An´alise de Sobrevivˆencia.

O termo an´alise de sobrevivˆencia refere-se basicamente a situa¸c˜oes m´edicas envol-vendo dados censurados. Entretanto, condi¸c˜oes similares ocorrem em outras ´areas como em engenharia cujo termo mais usado ´e Confiabilidade. Seja qual for o caso, ´e normal o interesse em avaliar o efeito de covari´aveis na vari´avel resposta. Dentre os modelos de regress˜ao para dados de sobrevivˆencia, o mais famoso ´e o modelo semi-param´etrico ou modelo Cox. No entanto, devido a caracter´ıstica assim´etrica do tempo de sobrevivˆencia e a familiaridade dos pesquisadores com os modelos de regress˜ao lineares generalizados (MLG), tamb´em ´e comum o uso do modelo de Poisson como alternativa. O presente tra-balho tem por objetivo fornecer o ajuste desses dois modelos via abordagem bayesiana. Portanto, neste cap´ıtulo, ser˜ao apresentados os conceitos b´asicos em An´alise de Sobre-vivˆencia. Em seguida, apresenta-se os conceitos de Inferˆencia Bayesiana. E, por fim, tem-se a defini¸c˜ao do modelo semi-param´etrico de regress˜ao para dados de sobrevivˆencia (modelo Cox). Bem como um caso particular de modelos lineares generalizados, o modelo de Poisson, sendo ambos definidos sob o ponto de vista bayesiano.

(17)

2.1

An´

alise de Sobrevivˆ

encia

Os dados de sobrevivˆencia tˆem como vari´avel resposta o tempo de sobrevivˆencia, ou seja, o tempo at´e a ocorrˆencia de um determinado evento. Estes eventos por serem na maioria das vezes indesej´aveis s˜ao chamados de falha. Em situa¸c˜oes m´edicas, por exem-plo, a falha, geralmente, se refere ao ´obito do paciente. Da´ı o termo ”sobrevivˆencia”que se refere ao tempo em que o paciente resistiu at´e a ocorrˆencia do ´obito. Al´em disso, como o tempo de sobrevivˆencia ´e uma resposta temporal obtida de estudos prospectivos e de longa dura¸c˜ao, ´e poss´ıvel n˜ao observar o evento de interesse durante o per´ıodo de estudo. Portanto, os dados de sobrevivˆencia s˜ao compostos por dados completos e dados censu-rados que se referem, respectivamente, a observa¸c˜ao completa e incompleta do fenˆomeno de interesse.

A presen¸ca de censura ´e a principal caracter´ıstica dos dados de sobrevivˆencia e comp˜oe a vari´avel resposta. Ela ´e representada por uma vari´avel indicadora de falha, que vale 1 se a observa¸c˜ao falhou e 0 se foi censurada. Dessa forma, os dados de sobrevivˆencia para o i-´esimo indiv´ıduo sob estudo ´e dado pela trinca (ti, δi, xi) tal que ti representa o tempo de sobrevivˆencia, δi a vari´avel indicadora de falha e xi o seu conjunto de covari´aveis. For-malmente, para n indiv´ıduos acompanhados, o tempo de sobrevida do i-´esimo indiv´ıduo ´e dado por ti = min(Fi, Ci) com Fi e Ci vari´aveis independentes referentes ao tempo de falha e tempo de censura, respectivamente e δi = I(Fi ≤ Ci) a vari´avel indicadora de falha. Note que, n˜ao se deve confundir censura com truncamento. Esta ´ultima refere-se a uma condi¸c˜ao que deve ser satisfeita para a observa¸c˜ao do tempo de sobrevivˆencia. Por exemplo, se ao estudar o tempo de vida dos moradores de uma regi˜ao considera-se apenas os dados retirados da previdˆencia, ent˜ao s´o aqueles aposentados ou que se aposentaram durante o estudo fazem parte da amostra. Veja que, em estudos com truncamento, alguns dados n˜ao s˜ao acompanhados a partir do tempo inicial.

As causas da ocorrˆencia de censura (ou mecanismos de censura) s˜ao classificadas da seguinte forma: censura tipo I, se o estudo ser´a terminado ap´os um per´ıodo pr´ e-estabelecido de tempo. Censura tipo II, se o estudo ser´a terminado ap´os uma quantidade pr´e-estabelecida de indiv´ıduos apresentarem falha. E, censura tipo III quando h´a perda de observa¸c˜oes no decorrer do estudo. No entanto, a classifica¸c˜ao mais importante de censura ´e com rela¸c˜ao a posi¸c˜ao entre o evento e o tempo registrado. Neste caso, tem-se as seguintes caracteriza¸c˜oes: censura `a direita quando a ocorrˆencia do evento est´a `a direita do tempo registrado, censura `a esquerda quando o evento j´a ocorreu quando o indiv´ıduo foi observado. Por fim, tem-se a censura intervalar quando se sabe que o evento ocorreu

(18)

dentro de um intervalo de tempo conhecido. A seguir, tem-se alguns exemplos de estudos que apresentaram censura.

Exemplo 2.1.1. Um estudo cl´ınico aleatorizado foi realizado para investigar o efeito da terapia com ester´oide no tratamento de hepatite viral aguda (Gregory et. al., 1976)[9]. Por 16 semanas, cada paciente foi acompanhado ou at´e a morte (evento de interesse) ou at´e a perda de acompanhamento.

Exemplo 2.1.2. Um estudo foi realizado para determinar a idade em que as crian¸cas aprendem a ler em uma comunidade. Quando os pesquisadores come¸caram a pesquisa algumas crian¸cas j´a sabiam ler, por´em elas n˜ao lembravam com que idade tinham apren-dido.

Exemplo 2.1.3. Um estudo retrospectivo foi realizado com 94 mulheres com diagn´ostico precoce de cˆancer de mama com o objetivo de pesquisar duas terapias: (a) somente radio-terapia e (b) radioradio-terapia em conjunto da quimioradio-terapia (Klein e Moeschberger, 1997)[10]. As pacientes foram acompanhadas a cada 4-6 meses e, em cada visita, foram registrados: o tipo de retra¸c˜ao da mama e o tempo at´e o aparecimento de uma retra¸c˜ao moderada ou severa da mama.

No exemplo 2.1.1, tem-se que mecanismo de censura ´e aleat´orio uma vez que houve perdas ao longo do tempo de estudo (16 semanas) e a censura ´e `a direita, pois s´o ´e poss´ıvel observar o efeito da terapia ap´os o seu uso. Com rela¸c˜ao ao exemplo 2.1.2, tem-se que a censura ´e `a esquerda, pois o evento de interesse (aprender a ler) ocorreu em algum tempo anterior ao tempo observado. Neste exemplo, as crian¸cas que aprenderam a ler n˜ao sabiam exatamente quando isso ocorreu. Por fim, no exemplo 2.1.3, tem-se censura intervalar j´a que, ao registrar periodicamente o tempo, tem-se per´ıodos entre os quais o evento de interesse pode ter ocorrido ou n˜ao.

Os mecanismos de censura n˜ao condicionam a uma exclusiva caracteriza¸c˜ao da cen-sura. Em outras palavras, estes mecanismos est˜ao subordinados ao esquema do estudo, mas a caracteriza¸c˜ao da censura com rela¸c˜ao a posi¸c˜ao do evento no tempo, n˜ao. A censura ´e, portanto, uma caracter´ıstica intr´ınseca dos dados na qual o pesquisador n˜ao possui influˆencia (Lee, 1980[11] possui um cap´ıtulo para o condu¸c˜ao de estudos cl´ınicos de sobrevivˆencia). A censura mais comum ´e `a direita (n˜ao importa o mecanismo) Neste trabalho, ser´a analisado apenas dados de sobrevivˆencia com censura do tipo III `a direita que para facilitar ser´a dita censura.

(19)

2.1.1

Especificando o Tempo de Sobrevivˆ

encia

Os tempos de sobrevivˆencia s˜ao vari´aveis que medem o tempo at´e evento de interesse e est˜ao sujeitos a varia¸c˜oes (Lee, 1980)[11]. Portanto, trata-se de uma vari´avel aleat´oria T n˜ao negativa, usualmente cont´ınua e, que pode conter censuras. Sabe-se tamb´em que dados censurados n˜ao s˜ao dados faltantes e sim incompletos, uma vez que cont´em in-forma¸c˜ao relevante ao estudo. Por isso, eles devem ser incorporados `a an´alise estat´ıstica por meio dos m´etodos de an´alise de sobrevivˆencia j´a que s˜ao capazes de distinguir dados completos e censurados. Assim, inicia-se o estudo dos dados de sobrevivˆencia por meio da defini¸c˜ao das principais fun¸c˜oes usadas para especificar a vari´avel aleat´oria T .

Defini¸c˜ao 2.1.4. Fun¸c˜ao de sobrevivˆencia

Seja T uma vari´avel aleat´oria referente ao tempo de sobrevivˆencia. A fun¸c˜ao de sobrevivˆencia, denotada por S(t), ´e definida como a probabilidade de uma observa¸c˜ao n˜ao falhar (ou seja, sobreviver) por pelo menos ao tempo t. Ela ´e dada por:

S(t) = P (T ≥ t) = 1 − F (t), (2.1)

tal que F(·) ´e a distribui¸c˜ao acumulada de T.

A fun¸c˜ao de sobrevivˆencia caracteriza-se por ser decrescente assumindo valor 1 em t = 0 e tender a 0 para valores muito grandes de tempo. Ela fornece tamb´em estat´ısticas de interesse como: tempo mediano, tempo m´edio, percentis.

A pr´oxima fun¸c˜ao muito usada em an´alise de sobrevivˆencia ´e a fun¸c˜ao taxa de risco h(t) respons´avel por descrever a distribui¸c˜ao do tempo de vida dos indiv´ıduos. Ou seja, ela descreve a forma com que a incidˆencia de falha muda com o tempo levando em consi-dera¸c˜ao que o indiv´ıduo havia sobrevivido at´e o in´ıcio do per´ıodo observado.

Defini¸c˜ao 2.1.5. Fun¸c˜ao de taxa de risco

A fun¸c˜ao de taxa de falha de T num intervalo [t, t + ∆t) ´e definida como: h(t) = lim

∆t→0+

P (t ≤ T < t + ∆t|T ≥ t)

∆t . (2.2)

O gr´afico da fun¸c˜ao de risco pode assumir trˆes formas b´asicas: crescente, decrescente ou constante. Podendo ainda, assumir uma forma correspondente a combina¸c˜ao de algu-mas das curvas b´asicas, como por exemplo a curva banheira. Assim, devido a variedade de configura¸c˜oes poss´ıveis, ela ´e mais informativa do que a fun¸c˜ao de sobrevivˆencia e sua modelagem ´e um importante m´etodo para dados de sobrevivˆencia.

(20)

Finalmente, apresenta-se a fun¸c˜ao de taxa de risco acumulada. Esta fun¸c˜ao ´e definida, como o nome sugere, da seguinte forma.

Defini¸c˜ao 2.1.6. Fun¸c˜ao de Taxa de Risco Acumulada

A fun¸c˜ao de taxa de risco acumulada do indiv´ıduo ´e dada por: H(t) =

Z t 0

h(u)du. (2.3)

Trata-se de uma fun¸c˜ao sem interpreta¸c˜ao direta, por´em ´util na avalia¸c˜ao da fun¸c˜ao de maior interesse, a fun¸c˜ao taxa de falha h(t). Isso ´e evidˆenciado na estima¸c˜ao n˜ ao-param´etrica, uma vez que Λ(t) possui um estimador com propriedades ´otimas e h(t) ´e dif´ıcil de ser estimada.

2.1.2

Rela¸

oes entre Fun¸

oes

Tome T uma vari´avel aleat´oria cont´ınua e n˜ao negativa que corresponde ao tempo de sobrevivˆencia, as fun¸c˜oes definidas anteriormente s˜ao matematicamente equivalentes. Ou seja, a partir de uma ´e poss´ıvel obter as outras por meio de opera¸c˜oes matem´aticas. As principais rela¸c˜oes entre as fun¸c˜oes s˜ao:

h(t) = f (t)

S(t), (2.4)

H(t) = −log(S(t)), (2.5)

S(t) = exp{−H(t)}. (2.6)

As demonstra¸c˜oes para as equa¸c˜oes 2.4, 2.5 e 2.6 encontram-se no Anexo A.

Nesta se¸c˜ao, foi vista que a presen¸ca de dados censurados impacta na an´alise dos dados de sobrevivˆencia e que eles devem ser incorporados na an´alise estat´ısticas por meio das t´ecnicas da An´alise de Sobrevivˆencia. A censura ´e classifica como `a direita, `a esquerda ou intervalar dentre as quais a mais comum ´e a censura `a direita. Em seguida, foram definidas as formas de especifica¸c˜ao para a vari´avel aleat´oria tempo de sobrevida. A pr´oxima se¸c˜ao ´e dedicada aos conceitos em Inferˆencia Bayesiana que ser˜ao necess´arios para a defini¸c˜ao dos modelos de regress˜ao para dados de sobrevivˆencia sob esta abordagem.

(21)

2.2

Inferˆ

encia Bayesiana

A inferˆencia estat´ıstica tem como objetivo tirar conclus˜oes a respeito de quantidades n˜ao observ´aveis (parˆametros) de determinada popula¸c˜ao a partir de sua amostra. As t´ecnicas normalmente utilizadas se baseiam na abordagem frequentista que por sua vez s˜ao suscet´ıveis ao tamanho da amostra. Uma maneira de tornar essas conclus˜oes mais consistentes ´e por meio da abordagem bayesiana.

A Inferˆencia Bayesiana ´e baseada nas ideias do pastor inglˆes Thomas Bayes (1702-1761) que foi respons´avel por desenvolver um caso particular do Teorema de Bayes. Por´em, foi Richard Price ao perceber sua importˆancia que o popularizou. A abordagem bayesiana para a inferˆencia estat´ıstica considera que a ´unica maneira satisfat´oria de descrever incer-tezas ´e por meio da probabilidade. Dessa forma, o parˆametro de interesse θ assume um modelo probabil´ıstico que ´e atualizado com novas informa¸c˜oes via aplica¸c˜ao do Teorema de Bayes. A seguir, tem-se o Teorema de Bayes, para uma ´unica vari´avel θ.

Teorema 2.2.1. Teorema de Bayes Aplicado a Inferˆencia Bayesiana

Inicialmente, todo o conhecimento a respeito de θ ´e resumido probabilisticamente atrav´es da distribui¸c˜ao a priori p(θ). Este conhecimento nem sempre ´e suficiente, logo obt´em-se uma amostra aleat´oria X = (X1, ..., Xn) relacionada a θ para adquirir mais informa¸c˜ao. Esta informa¸c˜ao ´e resumida via fun¸c˜ao de verossimilhan¸ca l(θ) ou, analoga-mente, p(x|θ). O Teorema de Bayes ´e a regra de atualiza¸c˜ao que fornece a distribui¸c˜ao a posteriori p(θ|x). Ele ´e definido como:

p(θ|x) = p(θ)p(x|θ)

R p(x, θ)dθ. (2.7)

Como 1/R p(x, θ)dθ n˜ao depende de θ, tem-se que 2.6 ´e usualmente apresentada por:

p(θ|x) ∝ p(θ)p(x|θ). (2.8)

A distribui¸c˜ao a priori deve representar probabilisticamente o conhecimento que se tem sobre o parˆametro de interesse θ antes da realiza¸c˜ao do experimento. Portanto, todos os procedimentos bayesianos exigem a defini¸c˜ao dessa quantidade. As principais formas de especifica¸c˜ao s˜ao: priori conjugada ou priori n˜ao informativa (Migon e Gamerman, 1999)[12]. A distribui¸c˜ao a priori ´e conjugada quando as distribui¸c˜oes a priori e a poste-riori pertencem `a mesma fam´ılia. Caso n˜ao haja informa¸c˜ao dispon´ıvel sobre o parˆametro θ, deseja-se que a distribui¸c˜ao a priori tenha pouca influˆencia nas inferˆencias, isto ´e, que ela seja n˜ao informativa. Selecionada uma distribui¸c˜ao a priori adequada ao problema, o

(22)

outro componente importante ´e a fun¸c˜ao de verossimilhan¸ca. Defini¸c˜ao 2.2.2. Fun¸c˜ao de Verossimilhan¸ca

Suponha uma popula¸c˜ao X relacionada ao parˆametro de interesse θ. Uma amostra aleat´oria simples de tamanho n (X1, ..., Xn) ´e retirada dessa popula¸c˜ao. Assim, dado os valores observados da amostra, a fun¸c˜ao de verossimilhan¸ca ´e definida como:

L(θ|x) = n Y

i=1

f (xi|θ) (2.9)

Em an´alise de sobrevivˆencia, os dados amostrais s˜ao agrupados em completos (n˜ ao-censurados) e censurados. Posto isto, cada dado completo contribui para a fun¸c˜ao de verossimilhan¸ca 2.9 com a densidade e os censurados com a fun¸c˜ao de sobrevivˆencia. Ainda que de acordo com o mecanismo de censura a fun¸c˜ao de verossimilhan¸ca seja modificada por uma constante, ela mant´em o mesmo n´ucleo (Colosimo e Giolo, 2006)[13]. Portanto, a fun¸c˜ao de verossimilhan¸ca 2.9 para qualquer mecanismo de censura ´e dada por: L(θ) = n Y i=1 f (ti, θ)δiS(ti, θ)1−δi. (2.10)

2.2.1

Estima¸

ao dos parˆ

ametros

As estima¸c˜oes em Inferˆencia Bayesiana s˜ao feitas com base na distribui¸c˜ao a posteriori que cont´em toda a informa¸c˜ao probabil´ıstica a respeito do parˆametro de interesse. As estima¸c˜oes s˜ao divididas entre pontuais e intervalares. As estima¸c˜oes pontuais s˜ao obtidas por meio de estat´ısticas apropriadas que resumem numericamente o comportamento do parˆametro θ. J´a as estima¸c˜oes intervalares s˜ao mais informativas, pois consideram a variabilidade dos dados. Os principais estimadores bayesianos s˜ao melhores entendidos no contexto da Teoria da Decis˜ao (Ehlers, 2003; Migon e Gamerman, 1999)[14][12]. A seguir, dado um espa¸co param´etrico Θ que cont´em o parˆametro de interesse θ, os principais estimadores bayesianos s˜ao:

• m´edia a posteriori, E(θ|x):

E(θ|x) = Z

θ∈Θ

θp(θ|x)dθ, com fun¸c˜ao de perda 1 quadr´atica L(δ, θ) = (δ − θ)2.

1A fun¸c˜ao perda, denotada por l(θ, a), pode ser interpretada como a perda sofrida ao tomar a decis˜ao

(23)

• quantil α a posteriori, Q(α): Q(α) = ( θ0 ∈ Θ : Z θ0 −∞ p(θ|x)dθ = α ) ,

se α = 0.5 tem-se a mediana a posteriori e a fun¸c˜ao perda ´e L(δ, θ) = |δ − θ|. • intervalo 100(1 − α)% de credibilidade a posteriori, (LI, LS):

(LI, LS) = ( (LI0, LS0) ⊂ Θ2 : Z LS0 LI0 p(θ|x)dθ = 1 − α ) , α ∈ (0, 1),

se o intervalo ´e sim´etrico, ent˜ao LI = Q(α/2) e LS = Q(1 − α/2).

A seguir, apresenta-se os m´etodos de amostragem da distribui¸c˜ao a posteriori de uma vari´avel de interesse θ (ou de um conjunto de vari´aveis θ). Trata-se das rotinas de simula¸c˜ao Monte Carlo via Cadeias de Markov (MCMC) muito usados em Inferˆencia Bayesiana (´area geralmente com uma necessidade computacional intensa), pois s˜ao r´apidos e eficientes (Barbosa et al., 2010)[16].

2.2.2

Monte Carlo via Cadeia de Markov (MCMC)

A abordagem bayesiana oferece via teorema de Bayes uma forma consistente de se modificar as informa¸c˜oes sobre o parˆametro. No entanto, como em muitas situa¸c˜oes pr´aticas a distribui¸c˜ao a posteriori ´e analiticamente intrat´avel, durante muito tempo sua aplica¸c˜ao esteve limitada devido a exigˆencia computacional. Foi a partir da introdu¸c˜ao dos m´etodos de Monte Carlo via Cadeia de Markov, sendo o amostrador de Gibbs (Geman e Geman, 1984)[17] e o algoritmo de Metropolis-Hastings (Metropolis et al., 1953 e Hastings, 1970)[18][19] os mais famosos, que ela se difundiu.

A ideia central desses m´etodos de simula¸c˜ao ´e construir uma Cadeia de Markov da qual seja f´acil gerar uma amostra e que haja uma distribui¸c˜ao de equil´ıbrio. Ou seja, garante-se que a amostra ´e uma Cadeia de Markov:

• homogˆenea; • irredut´ıvel; • aperi´odica.

Na pr´atica, a verifica¸c˜ao de convergˆencia ´e bastante estudada e pode envolver m´etodos sofisticados de an´alise. Por´em, uma verifica¸c˜ao da convergˆencia muitas vezes suficiente

(24)

pode ser obtida por meio de gr´aficos e medidas descritivas sobre θ. O desenho do com-portamento de θ ao longo das itera¸c˜oes e as an´alises dos gr´aficos com as autocorrela¸c˜oes s˜ao as principais t´ecnicas visuais usadas para a verifica¸c˜ao de convergˆencia. Outra forma de se realizar esse diagn´ostico ´e por meio da estat´ıstica de Gelman-Rubin (Veja (Gelman e Rubin, (1992) [20] e Brooks e Gelman (1997)[21] para descri¸c˜ao completa do m´etodo). Trata-se de uma medida que analisa a diferen¸ca entre m´ultiplas cadeias de Markov ao com-parar as varia¸c˜oes estimadas entre e dentro das cadeias para cada parˆametro do modelo, valores pr´oximos a um indicam convergˆencia.

Algoritmo de Metropolis-Hastings

Seja a distribui¸c˜ao de interesse a distribui¸c˜ao a posteriori (θ|x) com θ = (θ1, ..., θs). Considere, tamb´em, que todas as condicionais completas (θi|θ−i, x) estejam dispon´ıveis (θ−i = θ1, ..., θi−1, θi+1, ..., θs), mas n˜ao se sabe gerar amostras de cada uma delas. As amostras de θi s˜ao obtidas a partir de uma distribui¸c˜ao condicional proposta ao valor atual de θi, q(θ (p) i |θ (a) i ), tal que θ (p) i ´e o valor proposto e θ (a)

i ´e o valor atual para i = 1, ..., s. A seguir, tem-se o esquema de amostragem:

1. Inicialize θ(0) = (θ1(0), ..., θs(0))0 e k = 1;

2. Obtenha um novo valor θ(k) a partir de θ(k−1) por meio de sucessivas gera¸c˜oes de valores. Assim, para i = 1, ..., S, fa¸ca:

(i) Gere uma proposta para θi(k) de θ(p)i ∼ q(θi|θ (k−1)

i );

(ii) Calcule a probabilidade de aceita¸c˜ao

α(θk, θ(k−1)) = min 1,

p(θ(p)ii(a), x)q(θi(k−1)|θ(p)i ) p(θi(k−1)|θ(a)i , x)q(θ(p)ii(k−1))

!

; (2.11)

(ii) Gere um valor u de u U (0, 1);

(ii) Se u < α(θk, θ(k−1)), n˜ao rejeite o valor proposto. 3. Fa¸ca k = k + 1, volte ao passo 2.

Amostrador de Gibbs

Suponha que a distribui¸c˜ao de interesse ´e a distribui¸c˜ao a posteriori p(θ|x) com θ = (θ1, ..., θS). Considere, tamb´em, que todas as condicionais completas a posteriori p(θi|θ−i, x)i = 1, ..., n estejam dispon´ıveis e que sabe-se gerar amostras de cada uma de-las. Assim, o esquema de amostragem ´e dado por:

(25)

1. Inicialize θ(0) = (θ1(0), ..., θs(0))0 e k = 1;

2. Obtenha um novo valor para θ(k) a partir de θ(k−1) atrav´es de sucessivas gera¸c˜oes de valores. Para i = 1 at´e S, gere um valor para θ(k)i de

θi(k)∼ p(θi|θ (k) 1 , ..., θ (k) i−1, θ (k+1) i+1 , ..., θ k−1 S , x),

3. Fa¸ca k = k + 1 e volte para 2, repetindo o procedimento at´e alcan¸car a convergˆencia.

Para o Amostrador de Gibbs, ´e necess´ario conhecer todas as condicionais completas, isto ´e, conhecer a fam´ılia de distribui¸c˜ao ao qual elas pertencem. Enquanto que, no al-goritmo de Metropolis-Hastings, n˜ao ´e necess´ario que a distribui¸c˜ao condicional completa seja conhecida. Assim, com os conceitos vistos em An´alise de Sobrevivˆencia e em In-ferˆencia Bayesiana, pode-se, agora, prosseguir para a defini¸c˜ao dos modelos de Cox e de Poisson sob o ponto de vista bayesiano.

2.3

Modelo Cox

O modelo Cox (1972)[1] ´e um modelo de regress˜ao semi-param´etrico, pois n˜ao assume uma distribui¸c˜ao de probabilidade para o tempo de sobrevivˆencia e, portanto, consi-dera componentes param´etricos e n˜ao-param´etricos. O componente param´etrico pode ser qualquer fun¸c˜ao n˜ao-negativa das covari´aveis e seus coeficientes (Storer et al, 1983)[22], usualmente, fun¸c˜ao exponencial. Assim, o modelo Cox ´e dado por:

h(t, x) = h0(t)exp{xβ}, (2.12)

tal que x ´e a matriz de covari´aveis (n × p) e β ´e o vetor de coeficientes de tamanho p. O modelo Cox sup˜oe que para dois indiv´ıduos distintos, os tempos de sobrevivˆencia s˜ao independentes e que a rela¸c˜ao entre os preditores e o risco ´e multiplicativa. Por´em, a suposi¸c˜ao mais importante desse modelo ´e a raz˜ao de riscos proporcionais ao longo do tempo. Isso significa que, para dois indiv´ıduos distintos i e j presentes na amostra, a raz˜ao dos riscos n˜ao depende do tempo, como pode ser observado a seguir.

hi(t) hj(t)

= h0(t)exp{xiβ} h0(t)exp{xjβ} = exp{β(xi − xj)}

(26)

o risco relativo, i.e., um aumento ou diminui¸c˜ao de exp{xβ} do risco associado a uma varia¸c˜ao unit´aria de determinada caracter´ıstica, tomando todas as outras constantes. Por exemplo, seja uma covari´avel x que assume apenas valores 0 ou 1, o risco ´e dado por:

h(t|x) =    h0(t), se x = 0 h0(t)eβ, se x = 1, logo: h(t|X = 1) = h(t|X = 0)eβ

tal que: se eβ = 1, ent˜ao o risco ´e igual nos dois grupos. Se eβ < 1, o risco ´e eβ vezes menor no grupo 1 do que no grupo 0. Caso contr´ario, o risco no grupo 1 ´e eβ vezes maior do que no grupo 0.

2.3.1

Abordagem bayesiana

Seguindo para a modelagem bayesiana de 2.12, a fun¸c˜ao de verossimilhan¸ca dada por 2.10 para o modelo Cox ´e:

L(β, h0) = n Y i=1 [h0(ti)exp{x0iβ}] δi exp{−H0(ti)exp{x0iβ}}.

Aplicando o teorema de Bayes e assumindo que a distribui¸c˜ao a priori conjunta p(β, h0) = p(β)p(h0), tem-se que a distribui¸c˜ao a posteriori conjunta ´e:

p(β, h0|x) ∝ p(β)p(h0) n Y i=1 [h0(ti)exp{x0iβ}] δi exp{−H0(ti)exp{x0iβ}}. (2.13)

Veja que, os parˆametros de interesse s˜ao os coeficientes β da regress˜ao. Assim, to-mando a condicional completa de β a partir de 2.13, i.e, isolando apenas os termos que dependem de β, tem-se que:

p(β|H0, x) ∝ p(β)exp ( n X i=1 h xiβδi− H0exiβ i ) .

Como β pode assumir qualquer valor em R, a distribui¸c˜ao a priori pode ser definida como:

β ∼ N ormal(m, V ),

(27)

Assim, a distribui¸c˜ao condicional completa de β ´e: p(β|H0, x) ∝ exp  −1 2(β − m) TV−1 (β − m)  (2.14) × exp ( n X i=1 h xiβδi− H0(ti)exiβ i ) .

Note que, a distribui¸c˜ao 2.14 ainda depende da fun¸c˜ao risco acumulada H0. Deve-se, portanto, obter estas quantidades para a estima¸c˜ao de β. Para manter a estrutura semi-param´etrica do modelo Cox, Kalbfleisch porpˆos em 1978 [23] que a priori H0(t) ´e um Processo Gama tal que seus parˆametros s˜ao:

E(H0(t)) = H∗(t), uma fun¸c˜ao positiva conhecida V (H0(t)) =

H∗(t) c .

com incrementos, definidos por h0 = dH0, independentes e com distribui¸c˜ao a priori Gama com parˆametros de forma e escala cdH(t) e c, respectivamente.

dH0(t) ∼ Gama(cdH∗(t), c).

A condicional completa de h0(t) = dH0(t) para todo tempo de falha ti ´e dada por: p(dH0(ti)|x, β) ∝ dH0(ti)cdH ∗(t i)+δi−1 (2.15) × exp    −dh0(ti)(c + X j∈R(ti) exjβ)    ,

tal que R(ti) refere-se ao conjunto de ´ındices das observa¸c˜oes sob risco (observa¸c˜oes que n˜ao falham ou n˜ao foram censuradas) no instante de falha ti. Portanto, a condicional completa de h0(ti) ´e conhecida, dH0(ti) ∼ Gama(cdH∗(ti) + δi, c +

P

j∈R(ti)e

xjβ).

A condicional completa dada por 2.15 ´e para a fun¸c˜ao risco base h0 no tempo de falha ti. ´E necess´ario definir a fun¸c˜ao de risco acumulada H0 em todos os tempos observados para substituir na condicional completa de β. Assumindo que entre tempos de falhas a fun¸c˜ao de risco ´e constante, pode-se aproximar H0 por uma fun¸c˜ao escada. No caso, assumiu-se que H0(t) =

Pt

u=0h0(u) com pontos de descontinuidade nos tempos de falha. Sabe-se que a condicional completa de β possui distribui¸c˜ao desconhecida, enquanto que a condicional completa de H0 ´e conhecida. Portanto, para obter-se os valores de β ´e necess´ario combinar o MCMC via algoritmo de Metropolis-Hastings com o MCMC via

(28)

Amostrador de Gibbs. Essa combina¸c˜ao se deu da seguinte forma:

1. Inicialize θ(0) = (β(0), H0(0)) e k = 1;

2. Obtenha um novo valor para θ(k) a partir de θ(k−1) atrav´es de sucessivas gera¸c˜oes de valores.

(a) Amostre h(k+1)0 ∼ p(h0|β(k−1), X) (condicional completa 2.15) usando passo de Gibbs e aproxima-se H0 por H

(k+1)

0 (ti) =Ptu=0i h0(u);

(b) Amostre β(k+1) ∼ p(β|H0(k−1), X) (condicional completa 2.14) usando passo de Metropolis-Hastings com distribui¸c˜ao proposta dada por: β(p) = β(k−1)+ u, com u ∼ N (0, Vβ)

3. Fa¸ca k = k + 1 e volte para 2.

Um m´etodo alternativo para o ajuste de dados censurados ´e o modelo de Poisson descrito a seguir. Trata-se de um modelo linear generalizado (MLG) respons´avel por ajustar o n´umero de eventos por intervalo de tempo. Portanto, o modelo de Poisson ajusta a contagem de eventos enquanto o modelo Cox ajusta uma fun¸c˜ao do tempo de sobrevivˆencia, taxa de risco. Na pr´oxima se¸c˜ao, tamb´em ser´a discutido como realizar a transforma¸c˜ao dos dados de sobrevivˆencia para dados de contagem.

2.4

Modelo de Poisson

Nelder e Wedderburn (1972)[24] propuseram a classe de modelos lineares generalizados (MLG). Eles tinham como objetivo ampliar as propostas de distribui¸c˜ao de probabilidade para a vari´avel resposta e flexibilizar a rela¸c˜ao funcional entre a m´edia da vari´avel resposta (µ) e o preditor linear (XTβ). Para isso, considera-se que a vari´avel resposta pertence a fam´ılia exponencial e a rela¸c˜ao funcional assume qualquer forma mon´otona (diferenci´avel) ao qual ´e denominada fun¸c˜ao de liga¸c˜ao.

No caso de dados de contagem, tem-se uma amostra de tamanho n dada por y1, ..., yn tal que suas realiza¸c˜oes correspondem a vari´aveis aleat´orias com distribui¸c˜ao de Poisson, Yi ∼ P oisson(µi). O modelo de regress˜ao ´e definido como:

log(µi) = XTi β, (2.16)

(29)

liga¸c˜ao ser a fun¸c˜ao logar´ıtmica. Nesse modelo, os coeficientes βj representam a mudan¸ca esperada no logaritmo da m´edia por mudan¸ca unit´aria em xj.

Um modelo descrito por Armitage (1966) assume que uma vari´avel Ni referente ao n´umero de ocorrˆencias do evento segue distribui¸c˜ao Poisson com m´edia µi = hiTi. De forma que, no subgrupo i (i = 1, ..., I), Ti ´e uma medida de exposi¸c˜ao e se assume que hi segue um modelo log-linear. Isso define um modelo log-linear para taxas tal que:

log(µi) = log(Ti) + XTi β. (2.17)

Veja que, o modelo 2.17 possui exatamente os mesmos coeficientes β presentes no modelo anterior. Logo, os coeficientes β dos modelos considerados s˜ao compar´aveis. A diferen¸ca se d´a pelo termo log(Ti) ao qual ´e chamado offset. Trata-se de um termo conhe-cido de coeficiente fixo igual a 1 e que se relaciona a alguma medida de exposi¸c˜ao. Esta medida, dependendo do contexto, pode ser tanto o tamanho da popula¸c˜ao no subgrupo i quanto o tempo total que a popula¸c˜ao desse subgrupo esteve sob observa¸c˜ao (Holford, 1980) [25].

Em dados de sobrevivˆencia, ´e poss´ıvel aplicar o modelo log-linear para taxas descrito anteriormente, conforme foi notado por Holford (1980) e Laird e Olliver (1981) em artigos independentes. Eles perceberam que, a fun¸c˜ao de verossimilhan¸ca do modelo exponencial por partes (pieacewise exponential ) e do modelo log-linear para taxas 2.17 coincidem.

Para o tempo de sobrevivˆencia dividido em intervalos e supondo que a fun¸c˜ao de risco base ´e constante dentro de cada um, o modelo exponencial por partes ´e dado por:

hij = hjexp{XiTβ}

tal que hj´e fun¸c˜ao assumida constante dentro do intervalo j e exp{xiTβ} ´e o risco relativo para um indiv´ıduo de covari´avel xi em compara¸c˜ao ao grupo base em determinado tempo. Transformando os dados de sobrevivˆencia de forma que os intervalos entram na forma¸c˜ao dos subgrupos. E, supondo que dentro de cada intervalo a fun¸c˜ao risco base ´e constante. O modelo exponencial por partes pode ser aplicado para a nova vari´avel referente ao n´umero de ocorrˆencias do evento no intervalo com m´edias

(30)

conforme foi apresentado por Armitage (1966) [26]. Tomando o logaritmo, segue que: log(µij) = log(tij) + log(hj) + XiTβ, (2.18) sendo tij o tempo de exposi¸c˜ao e log(hj) ´e uma fun¸c˜ao do intervalo j. Esse modelo pode ainda ser reescrito de forma que log(hj) “passa para dentro do preditor linear”tal que log(µij) = log(tij) + XiTβ. Portanto, o modelo exponencial por partes equivale ao modelo log-linear para a vari´avel referente ao n´umero de ocorrˆencias do evento obtida da transforma¸c˜ao dos dados.

A demonstra¸c˜ao das equivalˆencias entre as fun¸c˜oes de verossimilhan¸ca do modelo log-linear e do modelo exponencial por partes pode ser vista em Rodr´ıguez (2007) [27] que, tamb´em, forneceu o passo a passo para a transforma¸c˜ao dos dados de sobrevivˆencia em dados de contagem. Essa transforma¸c˜ao consiste em:

1. Dividir o tempo de sobrevivˆencia em J intervalos definidos como [τj−1, τj);

2. Criar uma medida de exposi¸c˜ao denotada por tij que corresponde ao tempo vivido pelo indiv´ıduo i no intervalo j (tempo sob risco) tal que:

tij =            τj− τj−1, se ti > τj, ti− τj−1, se τj−1 < ti < τj, 0, se ti < τj−1;

3. Criar indicadores de falha denotados por dij tais que:

dij =  

δi, se ti pertence ao intervalo j, 0, caso contr´ario;

4. Criar os subgrupos agrupando segundo intervalo e vari´avel categ´orica.

Na Figura 1, tem-se a visualiza¸c˜ao do passo a passo anterior para a transforma¸c˜ao dos dados de sobrevivˆencia em dados de contagem. Observe que, nesse trabalho, os intervalos considerados foram todos de mesmo tamanho e iguais a 1. A seguir, tem-se a descri¸c˜ao do modelo log-linear 2.18 para dados de sobrevivˆencia transformados via abordagem bayesiana.

(31)

Figura 1: Transforma¸c˜ao para dados de contagem

2.4.1

Abordagem bayesiana

Com a transforma¸c˜ao dos dados de sobrevivˆencias, tem-se que a nova vari´avel ob-servada Yi refere-se ao n´umero de falhas no subgrupo i (i = 1, ..., I) tem distribui¸c˜ao de Poisson com m´edia µi = hiti. O modelo log-linear para taxas 2.17 tem a seguinte fun¸c˜ao de verossimilhan¸ca: L(β) = I Y i=1 " exiTβti(x iTβti)yi yi! # .

Os coeficientes β da regress˜ao podem assumir qualquer valor em R, ent˜ao assumindo como distribui¸c˜ao a priori para β:

β ∼ N ormal(m, V ),

tal que m e V ´e o vetor de m´edia e matriz de variˆancia-covariˆancia, respectivamente. Pelo Teorema de Bayes, segue que a distribui¸c˜ao a posteriori :

p(β|x) ∝ exp  −1 2(β − m) TV−1 (β − m)  I Y i=1 h exiTβti(x iTβti)yi i . (2.19)

(32)

gerados da posteriori ser´a via Metropolis-Hastings com a seguinte distribui¸c˜ao proposta: β(p) = β(a)+ u,

(33)

3

Resultados

Neste cap´ıtulo, ´e apresentado os resultados de um dos estudos simulados realizados para os modelos Cox e Poisson considerando casos com diferentes porcentagem de censura. Todos os estudos apresentaram resultados similares, por´em optou-se por apresentar apenas um deles por quest˜ao de simplicidade. Inicialmente, ´e apresentado os valores usados para a simula¸c˜ao dos dados de sobrevivˆencia e para as distribui¸c˜oes a priori. Em seguida, os resultados obtidos para ambos os modelos s˜ao apresentados divididos em trˆes casos.

3.1

Simula¸

ao

Neste trabalho, foram considerados trˆes casos com diferentes n´ıveis de censura. Para cada caso, foi gerada uma amostra dos tempos de sobrevivˆencia do modelo Cox-Weibull (Bender et al., 2005 [28]) definido por:

h(t|X, β, α, λ) = αλtα−1eXβ, (3.1)

tal que X ´e o vetor de covari´aveis, α e λ s˜ao os parˆametros da distribui¸c˜ao Weibull e β s˜ao os coeficientes da regress˜ao.

Essas amostras geradas foram compostas por 100 observa¸c˜oes e duas covari´aveis (X1, X2) cada uma com distribui¸c˜ao de Bernoulli com p = 0, 5. Os outros parˆametros foram definidos como: (β1, β2)T = (1, −1)T, λ = 1 e α = 1. E, os n´ıveis de censura considerados foram: 10%, 30% e 50%.

Em seguida, os modelos Cox e Poisson foram ajustados via abordagem bayesiana de acordo com o definido nas se¸c˜oes 2.3.1 e 2.4.1, respectivamente. O objetivo foi verificar a qualidade do ajuste do modelo alternativo em capturar os efeitos das covari´aveis. Bem como, analisar o desempenho dessas abordagens em cen´arios com diferentes n´ıveis de censura. A inferˆencia foi feita com base nas amostras a posteriori obtidas para os modelos de interesse atrav´es dos algoritmos MCMC implementados manualmente no programa R

(34)

(R Core Team, 2008 [29]). Os valores assumidos a priori foram: β ∼ N " 0 0 # , " 100 0 0 100 #! ,

para os coeficientes β tanto no modelo Cox quanto no Poisson e, H0∗(t) = 1

10t c = 0, 1

para a fun¸c˜ao risco base do modelo Cox, segundo Soares (2003) [7].

Em ambos os modelos, foram geradas duas cadeias cada uma com 75000 itera¸c˜oes. As amostras a posteriori foram obtidas selecionando uma dessas cadeias e utilizando burn-in de 2000 e lag = 50. Assim, os tamanhos dessas amostras foram de 1461 observa¸c˜oes em todos os casos.

3.1.1

Caso 1

No primeiro caso, considerou-se dados de sobrevivˆencia com 10% de censura. O seu tempo mediano foi de 0, 704. Na Figura 2, tem-se a distribui¸c˜ao emp´ırica dos tempos de sobrevivˆencia gerados sem as covari´aveis para se ter uma ideia visual de sua distribui¸c˜ao. Nos dois primeiros instantes, cerca de 75% das observa¸c˜oes sa´ıram do estudo devido a falha ou censura. As censuras encontram-se indicadas no gr´afico por “|”.

Figura 2: Fun¸c˜ao de sobrevivˆencia emp´ırica linha (—) e intervalo de confian¸ca de 95% (´area hachurada)

(35)

Inicialmente, verificou-se a qualidade das amostras a posteriori obtidas pelo algoritmo MCMC implementado para o modelo Cox por meio da an´alise visual do tra¸co das cadeias e dos gr´aficos de autocorrela¸c˜ao. O diagn´ostico do MCMC para esse modelo encontra-se nas Figuras 3 e 4.

Pela visualiza¸c˜ao do comportamento das cadeias atrav´es do tra¸co para cada coefici-ente de regress˜ao, ´e razo´avel supor que a partir do burn-in especificado anteriormente houve convergˆencia devido `a estabilidade ao redor dos reais valores dos parˆametros e a so-breposi¸c˜ao das cadeias. Formalmente, o c´alculo da estat´ıstica de Gelman-Rubin tamb´em indica a existˆencia de convergˆencia uma vez que os valores obtidos est˜ao muito pr´oximos de 1.

(a) Tra¸co β1 (b) Tra¸co β2

Figura 3: Tra¸co das cadeias - modelo Cox caso 1 (10% de censura).

Pelos correlogramas da Figura 4, percebe-se como as autocorrela¸c˜oes amostrais di-minuem em fun¸c˜ao das defasagens (lag). Veja que, os elementos selecionados a cada 50 observa¸c˜oes, fornecem amostras cujos termos se tornaram independentes a partir dessa distˆancia.

Logo, o algoritmo MCMC implementado para o modelo Cox gerou cadeias capazes de fornecer amostras que produzem boas estimativas para os coeficientes de regress˜ao uma vez que se garantiu a convergˆencia. Garantiu-se tamb´em que essas amostras formadas por elementos retirados a cada 50 observa¸c˜oes s˜ao independentes.

(36)

Figura 4: Correlogramas - modelo Cox caso 1 (10% de censura).

As estat´ısticas sumarizando as informa¸c˜oes obtidas pela amostra do modelo Cox encontram-se na Tabela 1. Os resultados mostrados na tabela abaixo foram retirados da cadeia 1 para ambos os parˆametros. O estimador pontual usado foi a m´edia que forne-ceu estimativas pr´oximas aos verdadeiros valores dos parˆametros. Veja que, as distˆancias entre a m´edia e o real foram de −0, 023 e −0, 103 para os coeficientes β1 e β2, respectiva-mente. E, as amplitudes dos intervalos de credibilidade foram iguais a 0, 979 e 1, 105.

Tabela 1: Estat´ısticas descritivas da amostra a posteriori - modelo Cox caso 1

Parˆametro Real M´edia D.P. 2,5% 50% 97,5%

β1 1 0,977 0,252 0,476 0,977 1,455

β2 −1 −1,103 0,276 −1,674 −1,097 −0,569

A Figura 5 apresenta os histogramas da distribui¸c˜ao a posteriori para os coeficientes de regress˜ao estimados. Perceba que, os verdadeiros valores dos parˆametros est˜ao contidos nos respectivos intervalos de credibilidade de 95% destacados em vermelho. Trata-se de uma representa¸c˜ao visual das medidas resumo presentes na Tabela 1.

(37)

Figura 5: Histogramas dos coeficientes de regress˜ao modelo Cox caso 1 com intervalo de credibilidade 95% em vermelho.

A Figura 6(b) apresenta a fun¸c˜ao risco base acumulada. Os verdadeiros valores da fun¸c˜ao risco (H0(t) = t, ∀t) est˜ao contidos no intervalo de credibilidade. E, na Figura 6(a) tem-se a fun¸c˜ao de risco base obtida por meio de uma aproxima¸c˜ao simples de H0.

(a) h0(t) (b) log(H0(t))

(38)

Analogamente, tem-se o diagn´ostico do MCMC para o modelo Poisson. Assim como no modelo anterior, existe a convergˆencia das cadeias (Figura 7). E, para a mesma distˆancia de defasagem, tem-se que as amostras obtidas s˜ao compostas por elementos independentes (Figura 8).

(a) Tra¸co β1 (b) Tra¸co β2

Figura 7: Tra¸co das cadeias - modelo Poisson caso 1 (10% de censura).

(39)

Com rela¸c˜ao ao diagn´ostico visual dos algoritmos MCMC implementados em cada modelo, tem-se que em ambos ´e poss´ıvel obter boas amostras. Por´em, notou-se que a estat´ıstica de Gelman-Rubin foi maior no modelo Poisson.

Na Tabela 2, encontram-se as estat´ısticas sumarizando as informa¸c˜oes obtidas pela amostra da abordagem alternativa com base na primeira cadeia gerada em cada parˆametro. Pode-se perceber que em compara¸c˜ao ao modelo Cox, as amplitudes dos intervalos de cre-dibilidade dos coeficientes de regress˜ao foram maiores. As distˆancias entre a m´edia e o real valor dos parˆametros β1 e β2 foram, respectivamente, iguais a 0, 049 e −0, 191. E, as amplitudes foram de 2, 144 e 2, 329 para esses mesmos parˆametros. Dessa forma, o modelo Poisson teve um erro maior (em m´odulo) com rela¸c˜ao as estimativas pontuais e, tamb´em, intervalos com maiores amplitudes em compara¸c˜ao ao modelo Cox.

Na Figura 9, encontram-se os histogramas para as distribui¸c˜oes amostrais de cada coeficiente do modelo Poisson com os intervalos de credibilidade 95% destacados em ver-melho. ´E poss´ıvel notar visualmente que as amplitudes no modelo Poisson foram maiores que no modelo anterior. Assim, apesar de ambos os modelos satisfazerem os crit´erios de convergˆencia e fornecerem amostras de boa qualidade para a estima¸c˜ao dos coeficientes, o modelo Poisson apresentou um desempenho inferior ao modelo Cox segundo os crit´erios analisados.

Tabela 2: Estat´ısticas descritivas da amostra a posteriori - modelo Poisson caso 1

Parˆametro Real M´edia D.P. 2,5% 50% 97,5%

β1 1 1,049 0,548 0,006 1,044 2,150 β2 −1 −1,191 0,606 −2, 358 −1,209 −0, 029 Intercepto - −0,098 0,495 −1, 080 −0,078 0,822 Intervalo:2 - −0,359 0,784 −1, 959 −0,306 1,021 Intervalo:3 - −0,659 1,113 −3, 065 −0,568 1,206 Intervalo:4 - −0,950 1,779 −5, 168 −0,716 1,804 Intervalo:5 - 0,134 1,678 −4, 002 0,387 2,584 Intervalo:6 - −15,111 8,733 −30, 515 −15,687 0,727 Intervalo:7 - −11,500 9,783 −34, 149 −8,476 1,525 Intervalo:8 - −15,041 12,829 −41, 875 −13,459 1,939 Intervalo:9 - −13,629 12,917 −43, 122 −9,243 1,763 Intervalo:10 - −2,101 4,070 −11, 234 −1,398 3,725

(40)

Figura 9: Histogramas dos coeficientes de regress˜ao modelo Poisson caso 1 com intervalo de credibilidade 95% em vermelho.

3.1.2

Caso 2

Nesta se¸c˜ao, os resultados apresentados referem-se aos dados de sobrevivˆencia com 30% de censura. Na Figura 10, encontra-se a distribui¸c˜ao emp´ırica sem as covari´aveis. O tempo mediano foi de 0, 883 e cerca de 76% dos dados falharam ou foram censurados nos dois primeiros instantes.

Figura 10: Fun¸c˜ao de sobrevivˆencia emp´ırica linha (—) e intervalo de confian¸ca de 95% (´area hachurada)

(41)

Assim como na se¸c˜ao anterior, avaliou-se primeiro a qualidade dos algoritmos imple-mentados ao considerar dados com porcentagem maior de censura. Nas Figuras 11 e 12, encontram-se, respectivamente, os tra¸cos das cadeias e os correlogramas do modelo Cox.

(a) Tra¸co β1 (b) Tra¸co β2

Figura 11: Tra¸co das cadeias - modelo Cox Caso 2 (30% de censura).

Pela an´alise visual dos tra¸cos das cadeias (Figura 11), pode-se observar que mesmo com dados de sobrevivˆencia com uma maior porcentagem de censura, o algoritmo MCMC implementado para o modelo Cox produziu cadeias que convergiram. As estat´ısticas de Gelman-Rubin foram pr´oximas a 1, mas em compara¸c˜ao ao caso anterior seus valores fo-ram maiores, possivelmente devido ao aumento de censura. As an´alises dos correlogramas (Figura 12) tamb´em indicaram uma diminui¸c˜ao das autocorrela¸c˜oes segundo o n´umero de lags, tornando-se pr´oximos a zero para valores maiores ou iguais a 50.

As estat´ısticas sumarizando as informa¸c˜oes obtidas pela amostra do modelo Cox encontram-se na Tabela 3. As amplitudes dos intervalos foram de 1, 229 e 1, 203, logo houve um aumento em compara¸c˜ao a esse mesmo modelo no caso anterior (0, 979 e 1, 105). Por sua vez, as distˆancias entre a m´edia e os seus reais valores foram de −0, 271 e 0, 116 para β1 e β2, respectivamente.

Tabela 3: Estat´ısticas descritivas da amostra a posteriori - modelo Cox Caso 2

Parˆametro Real M´edia D.P. 2,5% 50% 97,5%

β1 1 0,729 0,318 0,112 0,733 1,341

(42)

Figura 12: Correlogramas - modelo Cox Caso 2 (30% de censura).

Os histogramas com a distribui¸c˜ao a posteriori dos coeficientes de regress˜ao estimados est˜ao na Figura 13. A fun¸c˜ao risco base acumulada e a aproxima¸c˜ao da fun¸c˜ao risco base h0(t) se encontram na Figura 14.

Figura 13: Histogramas dos coeficientes de regress˜ao modelo Cox Caso 2 com intervalo de credibilidade 95% em vermelho.

(43)

(a) h0(t) (b) log(H0(t))

Figura 14: Estimativas para h0(t) e H0(t) no modelo Cox Caso 2.

Analogamente, foi verificada a qualidade do algoritmo MCMC para o modelo Poisson. Em rela¸c˜ao ao caso anterior, foi poss´ıvel observar a convergˆencia atrav´es da an´alise visual dos tra¸cos das cadeias e do c´alculo das estat´ısticas de Gelman-Rubin.

(a) Tra¸co β1 (b) Tra¸co β2

Figura 15: Tra¸co das cadeias - modelo Poisson no Caso 2 (30% de censura).

Por sua vez, a an´alise dos correlogramas tamb´em indicou a diminui¸c˜ao das correla¸c˜oes entre observa¸c˜oes e se observou que esse mesmo modelo necessita de uma defasagem maior

(44)

que 50 para se garantir a independˆencia. No entanto, devido ao n´umero de itera¸c˜oes realizadas, optou-se por selecionar os elementos amostrais a cada 50 observa¸c˜oes para manter o mesmo tamanho de amostra.

Figura 16: Correlogramas - modelo Poisson no Caso 2 (30% de censura).

As amostras obtidas pela cadeia 1 mantendo o burn-in de 2000 observa¸c˜oes e o lag de 50 apresentaram correla¸c˜oes aproximadamente iguais a 0, 15 e 0, 14 para os parˆametros β1 e β2, respectivamente. Na Tabela 4, encontram-se as estat´ısticas descritivas obtidas por essa amostra. As distˆancias entre as m´edias e seus reais valores foram iguais a −0, 179 e 0, 084 para β1 e β2, respectivamente. E, as amplitudes foram de 2, 704 e 2, 505 para esses mesmos parˆametros. Na Figura 17, tem-se os intervalos de credibilidade presentes na tabela destacados em vermelho. Pode-se perceber visualmente que as amplitudes desses intervalos foram maiores no modelo Poisson em compara¸c˜ao ao modelo Cox.

Assim, os algoritmos MCMC aplicados aos dados de sobrevivˆencia com 30% de censura satisfizeram as condi¸c˜oes de convergˆencia segundo o crit´erio de Gelman-Rubin. Compa-rando ambos os modelos, o modelo Poisson apresentou desempenho inferior em rela¸c˜ao ao Cox devido a maior amplitude dos intervalos de credibilidade. Houve tamb´em que devido ao n´umero de itera¸c˜oes, as amostras obtidas pelo modelo Poisson eram compostas por observa¸c˜oes com correla¸c˜oes o que diminuiu a qualidade das estima¸c˜oes realizadas.

(45)

Tabela 4: Estat´ısticas descritivas da amostra a posteriori - modelo Poisson Caso 2

Parˆametro Real M´edia D.P. 2,5% 50% 97,5%

β1 1 0,821 0,677 −0, 477 0,812 2, 227 β2 −1 −0,916 0,650 −2, 206 −0,904 0, 299 Intercepto - −0,393 0,584 −1, 586 −0,363 0, 633 Intervalo:2 - −0,148 0,819 −1, 912 −0,082 1, 263 Intervalo:3 - −0,410 1,475 −3, 882 −0,183 1, 893 Intervalo:4 - −2,578 3,652 −12, 576 −1,632 1, 729 Intervalo:5 - −1,982 3,949 −13, 268 −0,872 2, 676 Intervalo:6 - −22,021 13,015 −51, 716 −20,110 −0, 771 Intervalo:7 - −4,998 7,446 −24, 750 −2,484 3, 082 Intervalo:8 - −15,362 13,939 −46, 115 −12,438 2, 253 Intervalo:9 - −11,199 9,020 −30, 752 −10,889 2, 649 Intervalo:10 - −15,434 15,189 −54, 960 −10,418 2, 921

Figura 17: Histogramas dos coeficientes de regress˜ao modelo Poisson Caso 2 com intervalo de credibilidade 95% em vermelho.

(46)

3.1.3

Caso 3

No ´ultimo caso que corresponde ao cen´ario com 50% dos dados de sobrevivˆencia censu-rados, apresenta-se na Figura 18 o gr´afico com a distribui¸c˜ao emp´ırica sem as covari´aveis. O tempo mediano foi de 1, 27 e aproximadamente 60% das observa¸c˜oes ou, falharam ou foram censuradas nos dois primeiros instantes.

Figura 18: Fun¸c˜ao de sobrevivˆencia emp´ırica linha (—) e intervalo de confian¸ca de 95% (´area hachurada)

Os gr´aficos para os tra¸cos das cadeias (Figura 19) e os correlogramas (Figura 20) confirmaram visualmente a convergˆencia do algoritmo MCMC para o modelo Cox. Os valores das estat´ısticas de Gelman-Rubin pr´oximas a um confirmaram essa afirma¸c˜ao.

(a) Tra¸co β1 (b) Tra¸co β2

(47)

Figura 20: Correlogramas - modelo Cox Caso 3 (50% de censura).

No entanto, vale ressaltar que nesse caso tais estat´ısticas obtiveram os maiores valores em rela¸c˜ao a esse mesmo modelo aplicado nos casos anteriores. Na Tabela , tem-se as estat´ısticas da amostra obtida da cadeia 1 do modelo Cox. Perceba que, os erros das estimativas pontuais foram de 0, 023 e 0, 005 para os coeficientes β1 e β2, respectivamente. As amplitudes dos intervalos de credibilidade foram iguais a 1, 381 e 1, 43 para esses mesmos parˆametros. Em compara¸c˜ao aos casos anteriores para o modelo Cox, este caso obteve as maiores amplitudes.

Tabela 5: Estat´ısticas descritivas da amostra a posteriori - modelo Cox Caso 3

Parˆametro Real M´edia D.P. 2,5% 50% 97,5%

β1 1 0,977 0,358 0,276 0,975 1,657

β2 −1 −1,005 0,367 −1, 735 −1,002 −0, 305

Na Figura 21, encontra-se a distribui¸c˜ao a posteriori dos coeficientes de regress˜ao nos modelos Cox com os intervalos de credibilidade marcados em vermelho. Na Figura 22, tem-se a fun¸c˜ao risco base acumulada H0(t) e a aproxima¸c˜ao da fun¸c˜ao risco base. Veja que, nesse caso a fun¸c˜ao risco base acumulada H0(t) possuiu a maior parte dos seus

(48)

verdadeiros valores fora do intervalo de credibilidade de 95%.

Figura 21: Histogramas dos coeficientes de regress˜ao modelo Cox Caso 3 com intervalo de credibilidade 95% em vermelho.

(a) h0(t) (b) log(H0(t))

Figura 22: Estimativas para h0(t) e H0(t) no modelo Cox Caso 3.

Nas Figuras 23 e 24, encontram-se respectivamente os gr´aficos com os tra¸cos das cadeias e os correlogramas. Pode-se verificar visualmente a convergˆencia e as estat´ısticas

(49)

de Gelman-Rubin pr´oximas a um tamb´em corroboram com essa afirma¸c˜ao.

(a) Tra¸co β1 (b) Tra¸co β2

Figura 23: Tra¸co das cadeias - modelo Poisson Caso 3 (50% de censura).

Figura 24: Correlogramas - modelo Poisson Caso 3 (50% de censura).

Assim como no caso anterior, para alcan¸car amostras com observa¸c˜oes independen-tes ´e necess´ario usar defasagens maiores que 50 conforme indicado pelos correlogramas. No entanto, tamb´em optou-se por manter lag de tamanho igual a 50. Mantendo esse valor e usando um burn-in igual a 2000, obteve-se amostras cujas estat´ısticas descritivas encontram-se na Tabela 6. As distˆancias foram de 0, 086 e −0, 058 para os coeficientes

(50)

β1 e β2, respectivamente. E, as amplitudes foram de 2, 621 e 2, 775 para esses mesmos parˆametros.

Tabela 6: Estat´ısticas descritivas da amostra a posteriori - modelo Poisson Caso 3

Parˆametro Real M´edia D.P. 2,5% 50% 97,5%

β1 1 1,086 0,664 −0, 245 1,079 2,376 β2 −1 −1,058 0,707 −2, 485 −1,043 0,290 Intercepto - −0,955 0,626 −2, 309 −0,905 0,156 Intervalo:2 - 0,577 0,827 −1, 077 0,595 2,154 Intervalo:3 - 0,365 1,196 −2, 476 0,510 2,380 Intervalo:4 - −3,542 4,229 −13, 44 −2,462 2,06 Intervalo:5 - −0,029 2,279 −5, 608 0,359 3,537 Intervalo:6 - −9,174 10,834 −42, 785 −6,208 3, 395 Intervalo:7 - −0,391 4,722 −12, 506 0,748 5,574

Figura 25: Histogramas dos coeficientes de regress˜ao modelo Poisson Caso 3 com intervalo de credibilidade 95% em vermelho.

(51)

4

Conclus˜

ao

Os resultados obtidos confirmam que os modelo Cox e Poisson podem ser usados na an´alise dos dados de sobrevivˆencia apesar da diferen¸ca de natureza das vari´aveis de-pendentes. No modelo Cox, tem-se que a vari´avel dependente se refere ao tempo de sobrevivˆencia, enquanto no modelo de Poisson ela se refere ao n´umero de falhas. Ambos os modelos foram ajustados via inferˆencia bayesiana considerando casos com 10%, 30% e 50% de censura.

Em cada caso, foi realizado um estudo simulado com nove simula¸c˜oes. Contudo, por quest˜oes de simplicidade, o presente trabalho apresentou apenas uma dessas simula¸c˜oes. O tempo computacional do algoritmo MCMC para o modelo Cox foi maior que no Poisson devido a sua complexidade. No modelo Cox, foi necess´ario estimar primeiro fun¸c˜ao risco base via passo de Gibbs para depois estimar os coeficientes de regress˜ao via Metropolis-Hastings. Enquanto que, no modelo Poisson, todos os parˆametros puderam ser estimados via Metropolis-Hastings.

Pode-se perceber que os algoritmos MCMC de ambos os modelos convergiram in-dependentemente do n´umero de censuras. Logo, as amostras obtidas pelos algoritmos implementados foram suficientes para fornecer boas aproxima¸c˜oes das condicionais com-pletas dos coeficientes de regress˜ao. Dessa forma, pode-se afirmar que tanto o modelo Cox quanto o Poisson foram capazes de capturar os efeitos das covari´aveis.

Por´em, ao comparar as estimativas obtidas entre os modelos em cada caso, o mo-delo Cox teve o melhor desempenho. Tanto os erros das estimativas pontuais quanto as amplitudes dos intervalos de credibilidade foram menores no modelo Cox mesmo com o aumento da porcentagem de censura. Portanto, apesar de ser mais pesado computacio-nalmente, o modelo Cox obteve melhor desempenho nas estimativas em compara¸c˜ao ao Poisson que ´e menos intenso computacionalmente.

Referências

Documentos relacionados

Despite the growing number of older patients initiating dialysis, another problem stands out in this group: mortality, mainly from cardiovascular disease, outweighs the risk

Corporate Control and Policies Page 12 UNIVERSIDAD DE PIURA UNIVERSIDAD DEL PACÍFICO UNIVERSIDAD ESAN UNIVERSIDAD NACIONAL AGRARIA LA MOLINA UNIVERSIDAD NACIONAL

3 O presente artigo tem como objetivo expor as melhorias nas praticas e ferramentas de recrutamento e seleção, visando explorar o capital intelectual para

O botão Office, localizado no canto superior esquerdo da janela do Excel fornece acesso às funções mais básicas da folha de cálculo, como sejam abrir um documento,

Aos 50 dias de idade, os valores foram de 14,45 kg e 21,37 kg, para animais desmamados aos 14 e 21 dias de idade, respectivamente, e para o ganho médio diário do nascimento ao

Segundo Chiavenato: A expressão rotatividade de recursos humanos é usada para definir a flutuação de pessoal entre uma organização e seu ambiente (...). O autor afirma

forficata recém-colhidas foram tratadas com escarificação mecânica, imersão em ácido sulfúrico concentrado durante 5 e 10 minutos, sementes armazenadas na geladeira (3 ± 1

ou em áreas afins, com a devida comprovação, mediante a apresentação de relatórios de acompanhamento dos órgãos de fomento e do professor/orientador/pesquisador, sendo