• Nenhum resultado encontrado

Um Estudo de Modelos Flexíveis para Dados de Sobrevivência com Fração de Cura

N/A
N/A
Protected

Academic year: 2021

Share "Um Estudo de Modelos Flexíveis para Dados de Sobrevivência com Fração de Cura"

Copied!
234
0
0

Texto

(1)

Um Estudo de Modelos Flexíveis para Dados de

Sobrevivência com Fração de Cura

Marcos Lima de Oliveira

Orientadores: Prof. Mariane Branco Alves (UFRJ)

Prof. Fábio Nogueira Demarqui (UFF)

Universidade Federal do Rio de Janeiro

Instituto de Matemática

Departamento de Métodos Estatísticos

2017

(2)
(3)

CIP - Catalogação na Publicação

Elaborado pelo Sistema de Geração Automática da UFRJ com os

Oe

Oliveira, Marcos Lima

Um Estudo de Modelos Flexíveis para Dados de Sobrevivência com Fração de Cura / Marcos Lima Oliveira. -- Rio de Janeiro, 2017.

211 f.

Orientadora: Mariane Branco Alves. Coorientador: Fábio Nogueira Demarqui.

Dissertação (mestrado) - Universidade Federal do Rio de Janeiro, Instituto de Matemática, Programa de Pós-Graduação em Estatística, 2017.

1. análise de sobrevivência. 2. tempos de promoção. 3. gama generalizada. 4. exponencial por partes. 5. inferência bayesiana. I. Alves, Mariane Branco, orient. II. Demarqui, Fábio Nogueira, coorient. III. Título.

(4)

DEDICATÓRIA

ÀDeus, que é de onde vem toda minha força e sabedoria.

Aos meus amados pais, Creusilene Lima Ferreira e José Carlos, por todos os momentos ao meu lado, me apoiando, me aconselhando e principalmente me suportando.

(5)

“The biggest mistake isn’t to risk for fear of making mistakes." Geração de Valor.

(6)

Agradecimentos

Agradeço primeiramente e acima de tudo à Deus por todos os dias eu ter a possi-bilidade de acordar, levantar e ver quão bonito é o dia que tenho pela frente, de todas as possibilidades e oportunidades que tive. Por Ele sempre me dar paz, saúde, força e sabedoria e me ensinar a ter humildade, paciência, determinação e perseverança.

A minha mãe, Creusilene Lima Ferreira pelo amor, paciência, companheirismo, ca-rinho, orações e por sempre ter acreditado em mim, em meus sonhos e em meus objetivos. Agradeço por ter me repreendido e me apoiado nos momentos necessários. Agradeço ainda por toda educação, disposição e força de vontade que hoje tenho e que muito venho dela. Agradeço também ao meu pai, José Carlos Jesus de Oliveira por toda ajuda e carinho.

Aos meus avós, Neocelina Ângela Jesus de Oliveira e José de Oliveira por me conce-der muito amor, carinho, companheirismo, assim como, alimentação, moradia, muita torcida e muitas e muitas orações.

Aos meus irmãos Marcelo Ferreira Batista e Mayra Lima de Oliveira por todo com-panheirismo, incentivo, motivação e contribuição para o meu crescimento pessoal e profis-sional. Assim como, por muitos momentos juntos passando por dificuldades e alegrias e podendo comemorar muitas vitórias juntos.

A todos meus primos Lucas Santos, Tadeu Santos, Jaynne Lima, Janaynne Lima, Janynne Lima, Lili(Maria Lina), Hayanne Lima, assim como, meus avós Creuza Lima e Elmo Ferreira e todos meus tios e família pela torcida, pelo carinho, pelas as orações e pela paciência em relação as minhas ausências.

Agradeço a minha amiga e companheira Jessyca Gomes da Silva por todo amor, ca-rinho, companheirismo, dedicação, momentos ao meu lado e paciência pra me aguentar.

Aos meus amigos, Luiz Fernando, Matthaus, Daniel Rodrigues, Maria Emanuele e Ana Claudia por estarem sempre por perto, por todos os nossos momentos e por estarem sempre de alguma forma me ensinando algo.

(7)

Roriz, Frederico Barros Diniz, Luciano Moura, Ana Luíza Coelho, Fátima Liras e Rayanny de Oliveira pelos semestres e matérias compartilhados e por todo o carinho e paciência.

Aos meus amigos do CIL Alex, João Paulo, Rafael e Kerrye por todas as conversas em inglês e momentos juntos.

Agradeço a todos meus colegas da turma de mestrado da UFRJ por muitos estudos em grupos e companheirismo durando todo o mestrado. Agradecimento especial a Lucas Marques por toda a parceria e amizade que apenas se iniciou nesse mestrado.

Agradecimentos especiais ao Roberto Lazarte por tamanha sabedoria e por comparti-lha todo seu conhecimento comigo, além, de estar sempre à disposição.

Agradeço ao departamento de estatística da Universidade de Federal do Rio de Ja-neiro e a todo o corpo docente, por todo o conhecimento que me transmitiram, com bastante empenho, ao longo das diversas disciplinas.

Por último faço um agradecimento especial aos meus orientadores Mariane Branco Alves e Fabio Nogueira Demarqui, por me acompanharem durante o último ano com desen-volvimento desta dissertação e pelas diversas discussões que com toda certeza me fizeram crescer muito pessoalmente e profissionalmente.

(8)

Resumo

Neste trabalho são considerados métodos bayesianos para dados de sobrevivência com censura à direita para populações com uma fração de sobreviventes (cura), em que téc-nicas computacionais conhecidas como Monte Carlo via Cadeia de Markov (MCMC) são usadas para todo o processo inferencial. O objetivo do trabalho é comparar o uso de dife-rentes distribuições para a modelagem dos tempos de promoção, combinadas a difedife-rentes especificações para o número de causas latentes para a falha, tomando-se, portanto, dife-rentes especificações dentro da classe unificada de modelos de fração de cura proposta por Rodrigues et al. (2009). As especificações são comparadas com base em seu desempenho em relação a dados com diferentes padrões para a função de risco. O trabalho parte da pre-missa de que, para situações, em que a função de risco seja mal comportada, são necessárias especificações mais flexíveis do que alguns modelos paramétricos tradicionalmente adotados em análises de sobrevivência, de forma a acomodar as flutuações observadas nessa função.

Essa abordagem também é conhecida na literatura como modelo de longa duração em dois estágios, em que o estágio inicial é representado pelo número de causas latentes de um particular evento de interesse e o segundo estágio é representado pelo o tempo de ocorrência (promoção) do evento de interesse. Dessa forma, são atribuídas diferentes distribuições de contagem ao número de causas latentes, (Bernoulli, Poisson e Binomial Negativa). Cada uma dessas especificações é combinada a diferentes distribuições contínuas conhecidas na literatura como flexíveis para modelagem dos tempos de promoção. Em particular, adota-se, neste trabalho, as distribuições Weibull, Log-Normal, Gama Generalizada e Exponencial por Partes. Para a comparação e avaliação dos modelos foram utilizados estudos simulados e aplicações em dados reais.

Palavras-Chaves:análise de sobrevivência; tempos de promoção; gama generalizada; exponencial por partes; inferência bayesiana; Monte Carlo via cadeia de Markov (MCMC).

(9)

Abstract

In this work, we consider Bayesian methods for right-censored survival data for po-pulations with a surviving(cure) fraction are considered, in which computational techniques known the Monte Carlo via Markov Chain (MCMC) are used for the whole inferential pro-cess. The objective of this work is to compare the use of different distributions for the mode-ling of the promotion times, combined with different specifications for the number of latent causes for the failure, thus taking different specifications within the unified class cure rate models proposed by Rodrigues et al. (2009). The specifications are compared based on their performance against data with different standards for the risk function. The work assumes that, for situations where the risk function is poorly performed, more flexible specifications are required than some parametric models traditionally adopted in survival analyzes, in order to accommodate the observed fluctuations in this function.

This approach is also known in the literature as two-stage long-term survival mo-dels in which the initial stage is represented by the number of latent causes of a particular event of interest and the second stage is represented by the time of occurrence (promotion) of the event of interest. Thus, different counting distributions are attributed to the number of latent causes, (Bernoulli, Poisson and Negative Binomial). Each of these specifications is combined with different continuous distributions known in the literature as being flexible for modeling the promotion times. In particular, we adopt the Weibull, Log-Normal, Gene-ralized Gamma and piecewise exponential distributions. Simulated studies and real data are used to compare and evaluate the models.

Keywords:survival analysis; promotion times; generalized gamma; piecewiece expo-nential; Bayesian inference; Markov chain Monte Carlo (MCMC).

(10)

Sumário

1 Introdução 1

2 Elementos de Inferência Bayesiana 4

2.1 Processo de Inferência Bayesiana. . . 4

2.2 Estimação Bayesiana . . . 6

2.2.1 Estimação Bayesiana Pontual . . . 6

2.2.2 Estimação Bayesiana Intervalar . . . 7

2.3 Previsão Bayesiana . . . 7

2.3.1 Distribuição Preditiva a priori . . . 7

2.3.2 Distribuição Preditiva a posteriori . . . 8

2.4 Métodos Computacionais - Monte Carlo via cadeias de Markov (MCMC) . 8 2.4.1 Algoritmo de Metropolis Hasting . . . 9

2.4.2 Algoritmo de Gibbs . . . 10

2.4.3 Algoritmo de Amostragem de Rejeição Adaptativa . . . 11

2.5 Comparação de Modelos . . . 13

2.5.1 LPML . . . 13

2.5.2 DIC . . . 14

2.5.3 WAIC . . . 14

3 Modelos Probabilísticos em Sobrevivência 16 3.1 Conceitos Básicos de Sobrevivência . . . 16

3.1.1 Função de Verossimilhança. . . 19

3.2 Modelos de Fração de Cura . . . 20

(11)

4 Estudos Simulados 29

4.1 Procedimentos Para Simulação . . . 30

4.2 Resultados do Estudo Simulado . . . 41

4.2.1 Modelos Binomial Negativa . . . 53

4.3 Comparação dos Modelos. . . 58

5 Aplicação 69 6 Conclusão e Trabalhos Futuros 77 Referências Bibliográficas 78 Appendices 83 A Condicionais Completas 84 A.1 Modelos de Mistura . . . 85

A.1.1 Mistura-Weibull (MW) . . . 85

A.1.2 Mistura-Log Normal (MLN) . . . 86

A.1.3 Mistura-Gamma Generalizada (MGG) . . . 87

A.1.4 MEPDN e MEPDG . . . 88

A.2 Modelos Poisson . . . 89

A.2.1 Poisson-Weibull (PW) . . . 89

A.2.2 Poisson-Log Normal (PLN) . . . 90

A.2.3 Poisson-Gamma Generalizada (PGG) . . . 91

A.2.4 Modelos PEPDN e PEPDG . . . 92

A.3 Modelos Binomial Negativo . . . 93

A.3.1 Binomial Negativa-Weibull (BNW) . . . 93

A.3.2 Binomial Negativa-Log Normal (BNLN) . . . 94

A.3.3 Binomial Negativa-Gamma Generalizada (BNGG) . . . 95

A.3.4 Modelos BNEPDN e BNEPDG . . . 96

B Estudo Simulado 97 B.1 Modelos Estudados - Diagnóstico de Convergência . . . 97

(12)

B.1.1 Mistura-Weibull . . . 97

B.1.2 Mistura-Log Normal . . . 101

B.1.3 Mistura-Gama Generalizada . . . 105

B.1.4 Modelo de Mistura Exponencial por Partes com proposta Dinâmica

Log Normal (MEPDN) . . . 109

B.1.5 Modelo de Mistura Exponencial por Partes com proposta Dinâmica

Gamma (MEPDG) . . . 110

B.2 Boxplot dos vícios relativos das médias dos coeficientes regressores - N∼Bernoulli111

B.3 Boxplot dos vícios relativos das mediana dos coeficientes regressores - N∼Bernoulli116

B.3.1 Poisson-Weibull . . . 121

B.3.2 Poisson-Log Normal . . . 125

B.3.3 Poisson-Gama Generalizada . . . 129

B.3.4 Modelo de Poisson Exponencial por Partes com proposta Dinâmica

Log Normal (PEPDN) . . . 133

B.3.5 Modelo de Poisson Exponencial por Partes com proposta Dinâmica

Gamma (PEPDG). . . 134

B.4 Boxplot dos vícios relativos das médias dos coeficientes regressores - N∼Poisson135

B.5 Boxplot dos vícios relativos das mediana dos coeficientes regressores - N∼Poisson140

B.5.1 Binomial Negativa-Weibull. . . 145

B.5.2 Binomial Negativa-Log Normal . . . 149

B.5.3 Binomial Negativa-Gama Generalizada . . . 153

B.5.4 Modelo de Bin Neg Exponencial por Partes com proposta Dinâmica

Log Normal (BNEPDN) . . . 157

B.5.5 Modelo de Bin Neg Exponencial por Partes com proposta Dinâmica

Gamma (BNEPDG) . . . 159

B.6 Boxplot dos vícios relativos das médias dos coeficientes regressores - N∼Binomial

Negativa . . . 161

B.7 Boxplot dos vícios relativos das mediana dos coeficientes regressores - N∼Binomial

Negativa . . . 167

C Aplicações 173

(13)

C.1.1 Mistura-Weibull . . . 173

C.1.2 Mistura-Log Normal . . . 175

C.1.3 Mistura-Gamma Generalizada . . . 176

C.1.4 Modelo de Mistura Exponencial por Partes com proposta Dinâmica Log Normal (MEPDN) . . . 178

C.1.5 Modelo de Mistura Exponencial por Partes com proposta Dinâmica Gamma (MEPDG) . . . 179

C.1.6 Poisson-Weibull . . . 181

C.1.7 Poisson-Log Normal . . . 182

C.1.8 Poisson-Gama Generalizada . . . 183

C.1.9 Modelo de Poisson Exponencial por Partes com proposta Dinâmica Log Normal (PEPDN) . . . 185

C.1.10 Modelo de Poisson Exponencial por Partes com proposta Dinâmica Gamma (PEPDG). . . 187

C.1.11 Binomial Negativa-Weibull . . . 188

C.1.12 Binomial Negativa-Log Normal . . . 190

C.1.13 Binomial Negativa-Gama Generalizada . . . 191

C.1.14 Modelo de Binomial Negativa Exponencial por Partes com proposta Dinâmica Log Normal (BNEPDN). . . 193

C.1.15 Modelo de Binomial Negativa Exponencial por Partes com proposta Dinâmica Gamma (BNEPDG) . . . 194

D Progamação em JAGS 196 D.1 MW . . . 197 D.2 MLN . . . 198 D.3 MGG . . . 199 D.4 MEPDN . . . 200 D.5 MEPDG . . . 201 D.6 PW . . . 202 D.7 PLN . . . 203 D.8 PGG . . . 204 D.9 PEPDN . . . 205

(14)

D.10 PEPDG . . . 206 D.11 BNW . . . 207 D.12 BNLN . . . 208 D.13 BNGG . . . 209 D.14 BNEPDN . . . 210 D.15 BNEPDG . . . 211

(15)

Lista de Figuras

4.1 Funções risco geradas das distribuições dos tempos de promoção. . . 32

4.2 Funções risco populacionais geradas dos modelos em estudo. . . 33

4.3 Representação gráfica de p0do grupo de referência (valor real representado na linha

ver-melha) para diferentes distribuições a priori de β0 quando N ∼ Bernoulli e quando

N ∼ P oisson. . . 35

4.4 Comportamento da fração de cura p0do grupo de referência em relação aos parâmetros β0

e η nos modelos, em que o número de causas latentes seguem distribuição Binomial Negativa. 36

4.5 Uma representação gráfica de p0do grupo de referência para diferentes distribuições a priori

de β0e η quando N ∼ BN , em que a linha vermelha é p0real do grupo de referência. . . 37

4.6 Boxplot da divisão dos V.R. da mediana a posteriori de β0dos modelos ajustados pelos V.R.

da mediana a posteriori de β0do modelo gerador dos dados nos modelos de mistura. . . . 59

4.7 Boxplot da divisão dos V.R. da mediana a posteriori de β0dos modelos ajustados pelos V.R.

da mediana a posteriori de β0do modelo gerador dos dados nos modelos, em que o número

de causas latentes segue distribuição Poisson. . . 60

4.8 Boxplot da divisão dos V.R. da mediana a posteriori de β0dos modelos ajustados pelos V.R.

da mediana a posteriori de β0do modelo gerador dos dados nos modelos, em que o número

de causas latentes segue distribuição BN. . . 61

4.9 Boxplot da divisão dos V.R. da mediana a posteriori de η dos modelos ajustados pelos V.R.

da mediana a posteriori de η do modelo gerador dos dados nos modelos, em que o número

de causas latentes segue distribuição BN . . . 62

4.10 Boxplot da divisão dos V.R. da mediana a posteriori de β1dos modelos ajustados pelos V.R.

da mediana a posteriori de β1do modelo gerador dos dados nos modelos de mistura. . . . 63

5.1 Estimativas de Kaplan-Meier (preto) e da função de sobrevivência populacional dos modelos

PGG, PEPDN e PEPDG de acordo com o sexo: Masculino (Linha sólida) e Feminino (Linha

(16)

5.2 Estimativas das funções de risco dos tempos de promoção fornecidas pelos modelos PGG,

PEPDN e PEPDG para os dados E1673. . . 76

B.1 Verossimilhança Perfilada com o valor teórico (linha azul) para verificar a geração dos dados

para o modelo MW. . . 97

B.2 Traços da cadeia completa dos parâmetros do modelo MW. . . 98

B.3 Gráfico de autocorrealçao da distribuição a posteriori dos parâmetros do modelo MW. . . 99

B.4 Histograma a posteriori com o plot da distribuição a priori (linha vermelha) e o valor teórico

(linha azul) dos parâmetros do modelo MW. . . 100

B.5 Verossimilhança Perfilada com o valor teórico (linha azul) para verificar a geração dos dados

para o modelo MLN. . . 101

B.6 Traços da cadeia completa dos parâmetros do modelo MLN. . . 102

B.7 Gráfico de autocorrealçao da distribuição a posteriori dos parâmetros do modelo MLN. . . 103

B.8 Histograma a posteriori com o plot da distribuição a priori (linha vermelha) e o valor teórico

(linha azul) dos parâmetros do modelo MLN. . . 104

B.9 Verossimilhança Perfilada com o valor teórico (linha azul) para verificar se ao gerar dados

do modelo MGG consegue-se capturar com o modelo MGG. . . 105

B.10 Traços da cadeia completa dos parâmetros do modelo MGG aplicada aos dados do modelo

MGG.. . . 106

B.11 Gráfico de autocorrealçao da distribuição a posteriori dos parâmetros do modelo MGG

aplicado aos dados do modelo MGG. . . 107

B.12 Histograma a posteriori com o plot da distribuição a priori (linha vermelha) e o valor teórico

(linha azul) dos parâmetros do modelo MGG aplicado aos dados do modelo MGG. . . 108

B.13 Vício relativo da média a posteriori do coeficiente regressor β0 dos modelos, em que o

número de causas latentes tem distribuição Bernoulli. . . 111

B.14 Vício relativo da média a posteriori do coeficiente regressor β1 dos modelos, em que o

número de causas latentes tem distribuição Bernoulli. . . 112

B.15 Vício relativo da média a posteriori do coeficiente regressor β2 dos modelos, em que o

número de causas latentes tem distribuição Bernoulli. . . 113

B.16 Vício relativo da média a posteriori do coeficiente regressor β3 dos modelos, em que o

número de causas latentes tem distribuição Bernoulli. . . 114

B.17 Vício relativo da média a posteriori do coeficiente regressor β4 dos modelos, em que o

(17)

B.18 Vício relativo da mediana a posteriori do coeficiente regressor β0 dos modelos, em que o

número de causas latentes tem distribuição Bernoulli. . . 116

B.19 Vício relativo da mediana a posteriori do coeficiente regressor β1 dos modelos, em que o

número de causas latentes tem distribuição Bernoulli. . . 117

B.20 Vício relativo da mediana a posteriori do coeficiente regressor β2 dos modelos, em que o

número de causas latentes tem distribuição Bernoulli. . . 118

B.21 Vício relativo da mediana a posteriori do coeficiente regressor β3 dos modelos, em que o

número de causas latentes tem distribuição Bernoulli. . . 119

B.22 Vício relativo da mediana a posteriori do coeficiente regressor β4 dos modelos, em que o

número de causas latentes tem distribuição Bernoulli. . . 120

B.23 Verossimilhança Perfilada com o valor teórico (linha azul) para verificar a geração dos dados

para o modelo PW. . . 121

B.24 Traços da cadeia completa dos parâmetros do modelo PW. . . 122

B.25 Gráfico de autocorrealçao da distribuição a posteriori dos parâmetros do modelo PW. . . 123

B.26 Histograma a posteriori com o plot da distribuição a priori (linha vermelha) e o valor teórico

(linha azul) dos parâmetros do modelo PW. . . 124

B.27 Verossimilhança Perfilada com o valor teórico (linha azul) para verificar a geração dos dados

para o modelo PLN. . . 125

B.28 Traços da cadeia completa dos parâmetros do modelo PLN. . . 126

B.29 Gráfico de autocorrealçao da distribuição a posteriori dos parâmetros do modelo PLN. . . 127

B.30 Histograma a posteriori com o plot da distribuição a priori (linha vermelha) e o valor teórico

(linha azul) dos parâmetros do modelo PLN. . . 128

B.31 Verossimilhança Perfilada com o valor teórico (linha azul) para verificar se ao gerar dados

do modelo PGG consegue-se capturar com o modelo PGG. . . 129

B.32 Traços da cadeia completa dos parâmetros do modelo PGG aplicada aos dados do modelo

PGG. . . 130

B.33 Gráfico de autocorrealçao da distribuição a posteriori dos parâmetros do modelo PGG

apli-cado aos dados do modelo PGG. . . 131

B.34 Histograma a posteriori com o plot da distribuição a priori (linha vermelha) e o valor teórico

(linha azul) dos parâmetros do modelo PGG aplicado aos dados do modelo PGG. . . 132

B.35 Vício relativo da média a posteriori do coeficiente regressor β0 dos modelos, em que o

(18)

B.36 Vício relativo da média a posteriori do coeficiente regressor β1 dos modelos, em que o

número de causas latentes tem distribuição Poisson. . . 136

B.37 Vício relativo da média a posteriori do coeficiente regressor β2 dos modelos, em que o

número de causas latentes tem distribuição Poisson. . . 137

B.38 Vício relativo da média a posteriori do coeficiente regressor β3 dos modelos, em que o

número de causas latentes tem distribuição Poisson. . . 138

B.39 Vício relativo da média a posteriori do coeficiente regressor β4 dos modelos, em que o

número de causas latentes tem distribuição Poisson. . . 139

B.40 Vício relativo da mediana a posteriori do coeficiente regressor β0 dos modelos, em que o

número de causas latentes tem distribuição Poisson. . . 140

B.41 Vício relativo da mediana a posteriori do coeficiente regressor β1 dos modelos, em que o

número de causas latentes tem distribuição Poisson. . . 141

B.42 Vício relativo da mediana a posteriori do coeficiente regressor β2 dos modelos, em que o

número de causas latentes tem distribuição Poisson. . . 142

B.43 Vício relativo da mediana a posteriori do coeficiente regressor β3 dos modelos, em que o

número de causas latentes tem distribuição Poisson. . . 143

B.44 Vício relativo da mediana a posteriori do coeficiente regressor β4 dos modelos, em que o

número de causas latentes tem distribuição Poisson. . . 144

B.45 Verossimilhança Perfilada com o valor teórico (linha azul) para verificar a geração dos dados

para o modelo BNW. . . 145

B.46 Traços da cadeia completa dos parâmetros do modelo BNW. . . 146

B.47 Gráfico de autocorrealçao da distribuição a posteriori dos parâmetros do modelo BNW. . . 147

B.48 Histograma a posteriori com o plot da distribuição a priori (linha vermelha) e o valor teórico

(linha azul) dos parâmetros do modelo BNW. . . 148

B.49 Verossimilhança Perfilada com o valor teórico (linha azul) para verificar a geração dos dados

para o modelo BNLN. . . 149

B.50 Traços da cadeia completa dos parâmetros do modelo BNLN. . . 150

B.51 Gráfico de autocorrealçao da distribuição a posteriori dos parâmetros do modelo BNLN. . 151

B.52 Histograma a posteriori com o plot da distribuição a priori (linha vermelha) e o valor teórico

(linha azul) dos parâmetros do modelo BNLN. . . 152

B.53 Verossimilhança Perfilada com o valor teórico (linha azul) para verificar se ao gerar dados

(19)

B.54 Traços da cadeia completa dos parâmetros do modelo BNGG aplicada aos dados do modelo

BNGG. . . 154

B.55 Gráfico de autocorrealçao da distribuição a posteriori dos parâmetros do modelo BNGG

aplicado aos dados do modelo BNGG. . . 155

B.56 Histograma a posteriori com o plot da distribuição a priori (linha vermelha) e o valor teórico

(linha azul) dos parâmetros do modelo BNGG aplicado aos dados do modelo BNGG.. . . 156

B.57 Traços da cadeia completa dos parâmetros do modelo BNEPDN aplicada aos dados do

modelo BNEP. . . 157

B.58 Histograma a posteriori com o plot da distribuição a priori (linha vermelha) e o valor teórico

(linha azul) dos parâmetros do modelo BNEPDN aplicado aos dados do modelo BNEP. . . 158

B.59 Traços da cadeia completa dos parâmetros do modelo BNEPDG aplicada aos dados do

modelo BNEP. . . 159

B.60 Histograma a posteriori com o plot da distribuição a priori (linha vermelha) e o valor teórico

(linha azul) dos parâmetros do modelo BNEPDG aplicado aos dados do modelo BNEP. . . 160

B.61 Vício relativo da média a posteriori do coeficiente regressor β0 dos modelos, em que o

número de causas latentes tem distribuição Binomial Negativa.. . . 161

B.62 Vício relativo da média a posteriori do coeficiente regressor β1 dos modelos, em que o

número de causas latentes tem distribuição Binomial Negativa.. . . 162

B.63 Vício relativo da média a posteriori do coeficiente regressor β2 dos modelos, em que o

número de causas latentes tem distribuição Binomial Negativa.. . . 163

B.64 Vício relativo da média a posteriori do coeficiente regressor β3 dos modelos, em que o

número de causas latentes tem distribuição Binomial Negativa.. . . 164

B.65 Vício relativo da média a posteriori do coeficiente regressor β4 dos modelos, em que o

número de causas latentes tem distribuição Binomial Negativa.. . . 165

B.66 Vício relativo da média a posteriori do parâmetro η dos modelos, em que o número de

causas latentes tem distribuição Binomial Negativa.. . . 166

B.67 Vício relativo da mediana a posteriori do coeficiente regressor β0 dos modelos, em que o

número de causas latentes tem distribuição Binomial Negativa.. . . 167

B.68 Vício relativo da mediana a posteriori do coeficiente regressor β1 dos modelos, em que o

número de causas latentes tem distribuição Binomial Negativa.. . . 168

B.69 Vício relativo da mediana a posteriori do coeficiente regressor β2 dos modelos, em que o

número de causas latentes tem distribuição Binomial Negativa.. . . 169

B.70 Vício relativo da mediana a posteriori do coeficiente regressor β3 dos modelos, em que o

(20)

B.71 Vício relativo da mediana a posteriori do coeficiente regressor β4 dos modelos, em que o

número de causas latentes tem distribuição Binomial Negativa.. . . 171

B.72 Vício relativo da mediana a posteriori do parâmetro η dos modelos, em que o número de

causas latentes tem distribuição Binomial Negativa.. . . 172

C.1 Traços da cadeia completa dos parâmetros do modelo MW. . . 173

C.2 Histograma a posteriori com o plot da distribuição a priori (linha vermelha) dos parâmetros

do modelo MLN. . . 176

C.3 Traços da cadeia completa dos parâmetros do modelo MGG. . . 176

C.4 Histograma a posteriori com o plot da distribuição a priori (linha vermelha) dos parâmetros

do modelo MEPDN. . . 179

C.5 Traços da cadeia completa dos parâmetros do modelo MEPDG. . . 179

C.6 Histograma a posteriori com o plot da distribuição a priori (linha vermelha) dos parâmetros

do modelo PW. . . 182

C.7 Traços da cadeia completa dos parâmetros do modelo PLN. . . 182

C.8 Histograma a posteriori com o plot da distribuição a priori (linha vermelha) dos parâmetros

do modelo PGG. . . 185

C.9 Traços da cadeia completa dos parâmetros do modelo PEPDN. . . 185

C.10 Histograma a posteriori com o plot da distribuição a priori (linha vermelha) dos parâmetros

do modelo PEPDG. . . 188

C.11 Traços da cadeia completa dos parâmetros do modelo BNW. . . 188

C.12 Histograma a posteriori com o plot da distribuição a priori (linha vermelha) dos parâmetros

do modelo BNLN. . . 191

C.13 Traços da cadeia completa dos parâmetros do modelo BNGG. . . 191

C.14 Histograma a posteriori com o plot da distribuição a priori (linha vermelha) dos parâmetros

do modelo BNEPDN. . . 194

(21)

Lista de Tabelas

3.1 Modelos de tempo de promoção obtidos a partir da classe unificada de modelos de fração

de cura proposta por Rodrigues et al. (2009), em que a variável latente N assume as

distri-buições bernoulli, poisson e binomial negativa. . . 22

4.1 Modelos de tempo de promoção que serão apresentados nesta dissertação. . . 29

4.2 Percentual médio de indíviduos curados, censurados e que vieram falhar considerando os

modelos em estudo agrupados pela as distribuições atríbuidas ao número de causas latentes. 31

4.3 Resultados das inversas das funções de sobrevivência populacionais associadas aos modelos

estudados. . . 34

4.4 Distribuições a priori atribuídas ao parâmetro λ1nos modelos, em que os tempos de

pro-moção seguem distribuição EP em relação aos dados provenientes de cada modelo. . . 38

4.5 Critérios de comparação de modelos LPML, DIC e WAIC dos modelos em que os tempos

de promoção seguem distribuição EP em relação a três diferentes opções de L = d√n e =

23, 30 e 40. . . 39

4.6 Análise de sensibilidade dos parâmetros τ e κ dos modelos cujo o tempo de promoção são

modelados pela distribuição EP. . . 40

4.7 Média das estimativas, do erro padrão (E.P.) e dos limites do intervalo de credibilidade de

95% (I.C.) a posteriori, juntamente com a probabilidade de cobertura (P.C.) e o vício relativo

(V.R.) das estimativas considerando as 100 réplicas do modelo MW. . . 42

4.8 Média das estimativas, do erro padrão (E.P.) e dos limites do intervalo de credibilidade de

95% (I.C.) a posteriori, juntamente com a probabilidade de cobertura (P.C.) e o vício relativo

(V.R.) das estimativas considerando as 100 réplicas do modelo MLN. . . 43

4.9 Média das estimativas, do erro padrão (E.P.) e dos limites do intervalo de credibilidade de

95% (I.C.) a posteriori, juntamente com a probabilidade de cobertura (P.C.) e o vício relativo

(V.R.) das estimativas considerando as 100 réplicas do modelo MGG.. . . 44

4.10 Média das estimativas, do erro padrão (E.P.) e dos limites do intervalo de credibilidade de

95% (I.C.) a posteriori, juntamente com a probabilidade de cobertura (P.C.) e o vício relativo

(22)

4.11 Média das estimativas, do erro padrão (E.P.) e dos limites do intervalo de credibilidade de 95% (I.C.) a posteriori, juntamente com a probabilidade de cobertura (P.C.) e o vício relativo

(V.R.) das estimativas considerando as 100 réplicas do modelo PW.. . . 48

4.12 Média das estimativas, do erro padrão (E.P.) e dos limites do intervalo de credibilidade de

95% (I.C.) a posteriori, juntamente com a probabilidade de cobertura (P.C.) e o vício relativo

(V.R.) das estimativas considerando as 100 réplicas do modelo PLN. . . 49

4.13 Média das estimativas, do erro padrão (E.P.) e dos limites do intervalo de credibilidade de

95% (I.C.) a posteriori, juntamente com a probabilidade de cobertura (P.C.) e o vício relativo

(V.R.) das estimativas considerando as 100 réplicas do modelo PGG. . . 50

4.14 Média das estimativas, do erro padrão (E.P.) e dos limites do intervalo de credibilidade de

95% (I.C.) a posteriori, juntamente com a probabilidade de cobertura (P.C.) e o vício relativo

(V.R.) das estimativas considerando as 100 réplicas do modelo PEP. . . 51

4.15 Média das estimativas, do erro padrão (E.P.) e dos limites do intervalo de credibilidade de

95% (I.C.) a posteriori, juntamente com a probabilidade de cobertura (P.C.) e o vício relativo

(V.R.) das estimativas considerando as 100 réplicas do modelo BNW. . . 54

4.16 Média das estimativas, do erro padrão (E.P.) e dos limites do intervalo de credibilidade de

95% (I.C.) a posteriori, juntamente com a probabilidade de cobertura (P.C.) e o vício relativo

(V.R.) das estimativas considerando as 100 réplicas do modelo BNLN. . . 55

4.17 Média das estimativas, do erro padrão (E.P.) e dos limites do intervalo de credibilidade de

95% (I.C.) a posteriori, juntamente com a probabilidade de cobertura (P.C.) e o vício relativo

(V.R.) das estimativas considerando as 100 réplicas do modelo BNGG. . . 56

4.18 Média das estimativas, do erro padrão (E.P.) e dos limites do intervalo de credibilidade de

95% (I.C.) a posteriori, juntamente com a probabilidade de cobertura (P.C.) e o vício relativo

(V.R.) das estimativas considerando as 100 réplicas do modelo BNEP. . . 57

4.19 Média dos critérios de comparação em relação as 100 amostras dos modelos de mistura em

estudo. . . 64

4.20 Média dos critérios de comparação em relação as 100 replicações de bancos de dados

dife-rentes dos modelos em que o número de causas latentes segue distribuição Poisson. . . . 65

4.21 Média dos critérios de comparação em relação as 100 replicações de bancos de dados

dife-rentes dos modelos em que o número de causas latentes segue distribuição BN. . . 66

4.22 Proporção de vezes que cada modelo é apontado pelos critérios de seleção -2LPML, DIC

e -2WAIC como sendo o modelo mais bem ajustado aos dados nas 100 réplicas geradas de

(23)

4.23 Proporção de vezes que cada modelo é apontado pelos critérios de seleção -2LPML, DIC e -2WAIC como sendo o modelo mais bem ajustado aos dados nas 100 réplicas geradas de

cada modelo em estudo excluindo o modelo gerador dos dados. . . 68

5.1 Análise de sensibilidade dos parâmetros τ e κ em relação ao número de intervalos L. . . . 70

5.2 Critérios de seleção de modelos fornecidos pelos modelos ajustados. . . 71

5.3 Sumário das distribuições a posteriori fornecidos pelos modelos PGG, PEPDN e PEPDG. 72

5.4 Sumário das distribuições a posteriori da fração de cura p0de acordo com as covariáveis. . 74

5.5 Sumário das distribuições a posteriori das razões das funções risco em relação as covariáveis. 75

A.1 Quadro de distribuições a priori atribuídas aos parâmetros das distribuições do tempo de

(24)

Capítulo 1

Introdução

A análise de sobrevivência tem como objetivo estudar dados relacionados ao tempo decorrido até a ocorrência de um determinado evento de interesse, sendo esse tempo geral-mente denominado tempo de falha. Técnicas de análise de sobrevivência encontram aplica-ções em diversas áreas do conhecimento. Por exemplo, na área da saúde, tem-se interesse no estudo de um determinado tipo de câncer. Neste caso, o evento de interesse pode ser o óbito do indivíduo devido ao câncer, e o tempo de falha é o tempo desde do diagnóstico até o óbito do indivíduo devido ao câncer. Na área financeira, um exemplo de tempo de falha é o tempo que uma pessoa leva para ficar inadimplente. Na área de engenharia, um exemplo de tempo de falha é o tempo que uma máquina leva para falhar (quebrar).

A principal característica de dados de sobrevivência é a presença de informações parciais, chamadas censuras. Censuras podem ocorrer devido a vários motivos, como por exemplo, o paciente morrer por uma causa diferente da estudada, o tempo de acompanha-mento acabar e o evento de interesse ainda não ter ocorrido ou o paciente mudar de cidade, entre outras (Colosimo & Giolo 2006).

Nos estudos de análise de sobrevivência, quanto maior o tempo de acompanhamento, menor a probabilidade de sobrevivência de um indivíduo em estudo, e quando o tempo tende a ser muito grande, a probabilidade de sobrevivência tende a zero. Entretanto, em alguns casos, a probabilidade de sobrevivência pode tender a um valor maior que zero, indicando a presença de indivíduos que não são suscetíveis ao evento de interesse, ou seja, indivíduos que nunca irão falhar. Nestes casos pode-se usar os chamados modelos de fração de cura. Modelos de sobrevivência que incorporam fração de cura estão se tornando cada vez mais populares na análise de dados de sobrevivência. Essa abordagem tem sido utilizada para a modelagem de dados de sobrevivência associados a pacientes diagnosticados com vários tipos de cânceres, incluindo o câncer de mama, leucemia, câncer de próstata, melanoma e câncer cerebral, pois, para essas doenças, uma proporção significativa de pacientes são tidos como "curados" (Chen, Ibrahim & Sinha 2001).

(25)

Dentro do estudo de fração de cura há dois tipos de modelos, os modelos de mistura introduzidos por Berkson & Gage (1952) que pressupõem que há apenas uma causa que possa levar o indivíduo a falhar, e os modelos de tempos de promoção introduzidos por Ya-kovlev et al. (1993), que consideram que o indivíduo possa falhar por mais de uma causa. Rodrigues et al. (2009) propuseram uma classe unificada de modelos de fração de cura que inclui como casos particulares os modelos de mistura e os modelos de tempos de promoção. Essa classe contempla diferentes distribuições de contagem para o número de causas desco-nhecidas que competem para levar o indivíduo a falhar (número de causas latentes). Alguns exemplos de distribuições atribuídas ao número de causas latentes são as distribuições Ber-noulli, Poisson e Binomial Negativa. Exemplos de aplicações desses tipos de modelos podem ser observados em Chen et al. (1999), que consideram um modelo de tempos de promoção, em que o número de causas latentes segue distribuição Poisson e os tempos de promoção seguem distribuição Weibull, em Ibrahim et al. (2001), que considera modelos flexíveis de fração de cura semi-paramétricos, em que assume-se o número de causas latentes do evento de interesse com distribuição Poisson e o tempo de promoção com distribuição exponencial por partes, em Taweab et al. (2012), que considera um modelo de mistura, em que os tempos de promoção seguem distribuição log-normal e em Ortega et al. (2014), que propuseram um modelo flexível de fração de cura assumindo o número de causas latentes do evento de in-teresse com distribuição binomial negativa e os tempos de promoção com distribuição gama generalizada.

A proposta desse estudo é trabalhar com a classe unificada de modelos com fração de cura introduzida por Rodrigues et al. (2009), considerando a comparação de abordagens pa-ramétricas para o tempo de falha, como por exemplo, as distribuições Weibull e log-normal, que são provavelmente as distribuições mais utilizadas em análise de sobrevivência, e a dis-tribuição gama generalizada, que é bastante flexível por acomodar funções risco de variadas formas, além de incluir as distribuições Weibull e log-normal como casos particulares. No entanto, segundo Demarqui et al. (2014) essas distribuições são restritivas em relação a função de risco. Uma distribuição bastante atraente para abordar esta questão é a distri-buição exponencial por partes (EP). Embora paramétrico no sentido estrito, a distridistri-buição EP pode ser considerada como um modelo não paramétrico, na medida em que assume um número grande de intervalos. Esta característica permite o seu uso para aproximar funções de risco com diferentes formas, proporcionando grande flexibilidade para modelagem de dados de sobrevivência. Por esse motivo a distribuição exponencial por partes tem sido ex-tensivamente utilizada na literatura e também será usada neste trabalho. Todo o processo inferencial referente ao trabalho será feito com enfoque bayesiano, através da utilização de técnicas computacionais conhecidas na literatura como Monte Carlo via cadeias de Markov (MCMC).

Este trabalho está organizado da seguinte forma. O Capítulo 2 apresenta os principais conceitos sobre inferência bayesiana e alguns métodos computacionais para aproximação da

(26)

distribuição a posteriori em casos em que não é possível a realização de tratamento analítico desta. No Capítulo 3 são abordados alguns conceitos básicos para a análise de sobrevivência, tais como censura, função de sobrevivência e função risco, além de apresentar os modelos probabilísticos estudados no trabalho. O Capítulo 4 apresenta estudos simulados com o objetivo de avaliar os ajustes e a flexibilidade dos modelos investigados. No Capítulo 5 é apresentada uma aplicação com dados reais dos modelos em estudo. Finalmente, no Capítulo 6 são apresentadas as conclusões obtidas no presente estudo e os possíveis trabalhos a serem desenvolvidos no futuro.

(27)

Capítulo 2

Elementos de Inferência Bayesiana

Neste capítulo são descritos os conceitos básicos para o estudo da abordagem bayesi-ana. Na Seção2.1são apresentados os principais delineamentos relacionados ao processo de inferência bayesiana. Na Seção2.2são apresentados tópicos sobre estimação de parâmetros. A Seção 2.3mostra como a inferência bayesiana lida com a previsão de valores futuros. É possível que o desenvolvimento destes tópicos seja analiticamente tratável, mas se lidarmos com modelos bayesianos complexos, perde-se essa simplicidade da análise e em consequên-cia são necessárias técnicas computacionais a fim de desenvolver a inferênconsequên-cia. Assim, a Seção 2.4 apresentará alguns métodos computacionais baseados na teoria de Monte Carlo via cadeias de Markov. A Seção 2.5 mostra possíveis técnicas de comparação de modelos. Todo este capítulo é fortemente baseado nos trabalhos de Migon, Gamerman & Louzada (1999), Robert (2007) e Unsihuay (2016).

2.1

Processo de Inferência Bayesiana

O objetivo da inferência estatística é a determinação de características de um processo gerador de dados, através da análise de um conjunto de observação Y1, Y2, · · · , Yn com

dis-tribuição de probabilidade P (yi|θ), em que i = 1, 2, · · · , n e θ é o vetor de parâmetros que

caracteriza essa distribuição. Segundo Robert (2007) o que difere a inferência frequentista da inferência bayesiana é que na primeira se trata o parâmetro θ como fixo e no segundo se trata o parâmetro θ como aleatório. Na inferência bayesiana de fato, quantifica-se a incer-teza sobre os parâmetros, préviamente à análise de amostra de dados observados, por meio de modelos probabilísticos.

Como existe a possibilidade de quantificar a informação de um especialista ou qual-quer informação vinda de fonte externa à amostra observada através da distribuição a priori deseja-se combinar essa informação à informação dos dados resumida pela função de veros-similhança. Toda a metodologia é desenvolvida, então, em termos da obtenção da

(28)

distribui-ção a posteriori, que consiste em combinar as duas informações, resultando em um modelo atualizado a respeito das incertezas sobre θ. Assim, existem três componentes importantes na abordagem bayesiana, que são (Robert, 2007):

1. função de verossimilhança 2. distribuição a priori 3. distribuição a posteriori

em que, os dois primeiros são os que definem o modelo bayesiano.

Seja Y = (Y1, · · · , Yn)T uma amostra aleatória tomada de uma distribuição com

função densidade de probabilidade (f.d.p.) ou função de probabilidade (f.p.) P (y|θ). A função de verossimilhança L(θ; y), associa a distribuição com f.d.p. ou f.p. P (y|θ) para cada θ e fornece o conhecimento a partir do conjunto de dados (Unsihuay, 2016):

θ→ P (y|θ) = L(θ; y).L

Logo tem-se a informação preliminar fornecida pelo especialista mediante a distri-buição a priori P (θ). Não existe uma regra única para elicitar estas distribuições a priori, pois vai depender do conhecimento prévio do especialista sobre o parâmetro θ. A fim de evitar procedimentos computacionais complicados, algumas vezes é escolhida uma distri-buição a priori que pertence à classe de distribuições conjugadas com a família da distribui-ção observacional P (y|θ), ou seja, a distribuidistribui-ção a posteriori pertence a mesma família de distribuições da distribuição a priori (Unsihuay, 2016).

Através do Teorema de Bayes, pode-se obter a distribuição a posteriori:

P (θ|y) = π(θ) = L(θ; y)P (θ) P (y) = L(θ; y)P (θ) R θL(θ; y)P (θ)dθ . (2.1)

Algumas observações podem ser feitas sobre a equação2.1:

• Os termos P (θ|y) e π(θ) são intercambiáveis, assim como, L(θ; y) e P (y|θ), ou seja,

têm os mesmos significados.

• O termo do denominador, onde existe uma integral em θ, pode ser substituido por um

somatório se θ for discreto.

• O denominador da equação2.1 não depende de θ, dessa forma, pode-se usar a ideia

de proporcionalidade e usar somente o núcleo da distribuição a posteriori. Em con-sequência:

(29)

P (θ|y) ∝ L(θ; y)P (θ). (2.2) A simplificação da Equação 2.1 para a Equação 2.2 é importante e muito útil, pois em casos que há grande quantidade de parâmetros a integração se torna muito difícil, pois o espaço paramétrico é demasiadamente grande e, em situações específicas, apenas o núcleo dado pela Equação2.2é suficiente para determinação da distribuição a posteriori.

2.2

Estimação Bayesiana

Após obter-se a distribuição a posteriori deseja-se obter informações resumidas sobre a quantidade de interesse, ou seja, os parâmetros. Assim, existem alguns procedimentos para se estimar o valor desses parâmetros pontualmente e de forma intervalar. Dessa forma, nesta seção serão estudados os processos de estimação dos parâmetros.

2.2.1

Estimação Bayesiana Pontual

Abordando a questão da estimação pontual como uma questão de decisão, define-se a chamada função de perda L(δ, θ) = h(ˆθ − θ) que associa uma perda à decisão de escolher δ como estimador de θ e define-se risco R(δ) = E[(δ−θ)2] = E{[(δ−δ1)+(δ1−θ)]2}, em que

objetiva-se encontrar ˆθ que minimize o risco R(δ). O valor mínimo do risco é denominado risco de Bayes e o valor de δ que produz risco mínimo, estimador de Bayes.

Segundo Migon, Gamerman & Louzada (1999), temos os seguintes lemas:

Lemma 5.2.1: Seja L1(δ, θ) = (δ − θ)2 a perda associada com o estimador de θ por δ (Essa

perda é geralmente conhecida como perda quadrática.) O estimador de θ é δ1 = E(θ|Y), a

média da distribuição a posteriori de θ.

Lemma 5.2.2: (δ, θ): Seja L2(δ, θ) = |δ − θ| a perda ssociada com o estimador de θ. O

estimador de θ é δ2 = med(θ), a mediana da distribuição a posteriori de θ.

Lemma 5.2.3: Seja L3(δ, θ) = lim

ε→0I|θ−δ|([ε, ∞)). O estimador de θ é δ3 = moda(θ), a moda

da distribuição a posteriori.

Muitos destes resultados podem ser generalizados para o caso multivariado. A função de perda absoluta não tem extensão clara para o caso multivariado, porém, a perda quadrática e a perda 0-1 podem ser estendidas facilmente para o caso multivariado, respectivamente:

(30)

L1(δ, θ) = (δ − θ)0(δ − θ) ,

L3(δ, θ) = lim

vol(A)→0I|δ−θ|(A)

(2.3) em que A é uma região que contém a origem e vol(A) é o volume da região A. Não é difícil mostrar que os estimadores de Bayes de θ sob função de perda L1e L3são, respectivamente,

dados pela média e moda da distribuição atualizada de θ (Migon, Gamerman & Louzada & 1999).

2.2.2

Estimação Bayesiana Intervalar

É interessante saber como está a dispersão da distribuição a posteriori. Assim, a defi-nição de intervalo de credibilidade se torna muito importante. O livro de Migon, Gamerman & Louzada (1999) apresenta a definição de intervalo de credibilidade da seguinte forma: Definição: Seja θ uma quantidade desconhecida definida em Θ. A região de R ⊂ Θ é uma região de 100(1 − α)% credibilidade se P (θ ∈ R|y) ≥ 1 − α, com 0 < α < 1. Em

particular, para o caso de θ escalar, a região R é um Intervalo de Credibilidade (IC) da forma [r1, r2], com r1, r2 ∈ <.

Assim, o IC pode estar em uma das laterais ([r1, ∞]) ou ([−∞, r2]), ou ainda, em um

intervalo central [r1, r2] sob a distribuição a posteriori.

2.3

Previsão Bayesiana

A seção apresenta a distribuição preditiva, que pode ser obtida antes e após a obser-vação dos dados, ou seja, existe a distribuição preditiva a priori e a distribuição preditiva a posteriori.

2.3.1

Distribuição Preditiva a priori

A distribuição preditiva a priori pode ser usada para avaliar a adequação de uma pos-sível distribuição a priori, ou seja, saber se a distribuição a priori é adequada para o modelo paramétrico de Y |θ. Essa distribuição é também conhecida como distribuição marginal de Y e ela é obtida antes mesmo de se observar os dados.

(31)

P (y) = Z θ P (y, θ)dθ = Z θ P (y|θ)P (θ)dθ = Eθ[P (y|θ)]. (2.4)

2.3.2

Distribuição Preditiva a posteriori

A distribuição preditiva a posteriori serve para fazer uma previsão, ou seja, fazer a estimativa de um valor que ainda não é conhecido. Após observada toda amostra de dados, se faz a inferência e, dessa forma, a distribuição a posteriori preditiva é a distribuição de probabilidade para a nova observação Y∗.

Definição: A distribuição preditiva, é obtida via:

P (Y∗|Y) = Z θ P (Y∗, θ|Y)dθ = Z θ

P (Y∗|θ, Y)P (θ|Y)dθ = Eθ|Y[P (Y∗|θ)]. (2.5)

2.4

Métodos Computacionais - Monte Carlo via cadeias de

Markov (MCMC)

Uma Cadeia de Markov é uma sequência de variáveis aleatórias que podem ser pensadas como se estivessem evoluindo com o tempo. A evolução no tempo se dá com probabilidade de transição do estado Xn, para Xn+1dependendo de um núcleo de transição.

O núcleo de transição para os espaços dos estados DX discreto é dado por (Cowles & Carlin,

1996):

PXY = P (Xn+1 = y|Xn = x), x, y ∈ DX. (2.6)

No caso de espaço de estados DX contínuo, se K(.|x) é um núcleo de transição,

então:

P (X ∈ A|x) = Z

A

K(y|x)dy. (2.7)

Em muitos casos se tem como objetivo construir uma cadeia de Markov que tenha como distribuição estacionária P (θ|y) e existe muita dificuldade de obter uma amostra desta distribuição via métodos analíticos, então, pode-se usar métodos interativos de Monte Carlo via cadeia de Markov (MCMC).

A partir da amostra da distribuição estacionária de P (θ|y) é possível obter estima-tivas para o parâmetro θ, utilizando-se das estimaestima-tivas de Monte Carlo para os estimadores comentados na Seção2.2.

(32)

Esse método é amplamente usado em inferência bayesiana para modelos complexos. Uma de suas vantagens é o fato de se precisar conhecer somente o núcleo da distribuição de interesse. Alguns algoritmos usados no desenvolvimento deste trabalho são: Adaptive Rejection Sampling, Metropolis Hastings e Gibbs Sampling (Unsihuay, 2016).

2.4.1

Algoritmo de Metropolis Hasting

Nas situações em que a densidade P (θ|y), que será chamada de densidade objetiva, é difícil de ser amostrada, será considerada outra densidade, que será chamada de densidade proposta q(θ), de fácil amostragem. Sugere-se que q(θ) seja o mais próximo o possível da distribuição de interesse P (θ|Y), isso é, não alterando as características de θ, como o domínio, variabilidade, simetria, entre outros. Existem algumas opções de amostragem particulares dependendo da escolha da distribuição proposta. A que será apresentada aqui e a que será usada em todas as fases deste trabalho, será a proposta de passeio aleatório (Chib & Greenberg, 1995).

O algoritmo é dado por:

Algoritmo 1: Metropolis-Hastings 1: Inicializar θ(0)e fazer j=1

2: Gerar θprop∼ q(θ|θ(j−1)), em que θ(j−1)é o valor atual da cadeia

3: Calcular a probabilidade de aceitação, α(j)= Mínn1, P (θprop)q(θ(j−1)|θprop)

P (θ(j−1))q(θprop(j−1))

o

4: Gerar u ∼ U (0, 1) 5: Se α(j) > u, então θ(j)

= θprop, caso contrário θ(j) = θ(j−1) 6: Fazer j=j+1 e voltar ao passo 1, até atingir a convergência

• Proposta Passeio Aleatório: A proposta de passeio aleatório propõe construir um

algoritmo de Metropolis e usar o valor atual onde a cadeia está para propor um movi-mento da cadeia, ou seja, considerar uma exploração da vizinhança em torno do valor atual da cadeia. Dessa forma, a densidade proposta pode depender do valor atual da cadeia, q(.|θ(j−1)). Pode-se considerar:

θprop = θ(j−1)+ ε,

sendo ε uma perturbação aleatória simétrica em torno de 0. Assim, considera-se q(θprop|θ(j−1)) = g(|θprop− θ(j−1)|), isto é, g é simétrica em torno de θj−1

. A probabilidade de aceitação é dada por:

(33)

α = mín  1, P (θ prop) P (θ(j−1)) 

, pois, q(θprop|θ(j−1)) = q(θ(j−1)prop).

Note ainda que para P (θprop) > P (θ(j−1)) a proposta é automaticamente aceita e que a variância da distribuição proposta tem que ser ajustada, pois, se a variância é muito pequena, aceita-se mais movimentos, porém, os movimentos são lentos no suporte de θ. Por outro lado, se a variância é grande, aceita-se menos movimentos, porém, visita-se mais rapidamente o domínio de interesse (Chib & Greenberg, 1995).

O algoritmo é dado por:

Algoritmo 1: Metropolis-Hastings 1: Inicializar θ(0)e fazer j=1 2: Gerar θprop∼ q(θ|θ(j−1))

3: Calcular a probabilidade de aceitação, α(j)= Mínn1, P (θprop)

P (θ(j−1))

o

4: Gerar u ∼ U (0, 1)

5: Se αj > u, então θ(j)= θprop, caso contrário θj = θ(j−1) 6: Fazer j=j+1 e voltar ao passo 1, até atingir a convergência

2.4.2

Algoritmo de Gibbs

Quando há uma grande quantidade de parâmetros e não se conhece a distribuição a posteriori, pode-se obter as distribuições condicionais completas, que por sua vez, são mais simples de ser encontradas. Nos casos em que seja possível amostragem dessas distribui-ções condicionais completas, pode-se usar o algoritmo de Gibbs. Este algoritmo usa como proposta de transição no esquema de Monte Carlo via cadeias de Markov a distribuição condicional completa e os pontos propostos são aceitos com probabilidade 1.

Chen, Shao & Ibrahim (2000) apresentam o algoritmo de Gibbs Sampling da seguinte forma:

(34)

Algoritmo 1: Gibbs Sampling 1: Inicializar θ(0) = (θ1(0), · · · , θp(0))T

2: Amostre de cada condicional completa iterativamente: 2.1: θ1(j)com densidade P (θ1|θ (j−1) 2 , · · · , θ (j−1) p ); 2.2: θ2(j)com densidade P (θ2|θ (j) 1 , θ (j−1) 3 , · · · , θ (j−1) p ); 2.3: θ3(j)com densidade P (θ3|θ (j) 1 , θ (j) 2 , θ (j−1) 4 , · · · , θ (j−1) p );

2.4: Assim por diante até θjpcom densidade P (θp|θ (j) 1 , θ (j) 2 , θ (j) 3 , · · · , θ (j) p−1)

3: Fazer j = j + 1 e voltar ao passo 2 até atingir a convergência. 4: Fim.

2.4.3

Algoritmo de Amostragem de Rejeição Adaptativa

Quando se deseja obter uma amostra de uma variável aleatória X com função den-sidade de probabilidade f (x), porém, amostrar de f (x) é difícil. Mas, existe uma função densidade de probabilidade g(x) parecida com f (x), fácil de amostrar. Pode-se dizer que g(x) é envelope para f (x) se existe uma constante C > 0, tal que,

0 ≤ f (x) ≤ Cg(x) ∀ x. (2.8)

Segundo Gilks & Wild (1992) há dois conceitos sobre o método Adaptive Rejection Sampling que são muito importantes. Em primeiro lugar, para usar o Adaptive Rejection Sampling é necessário que f (x) atenda o pressuposto de log-concavidade, assim, evita-se a necessidade de localizar o supremo de g(x). Em segundo lugar, depois de cada rejeição, a probabilidade de avaliação de g(x) é ainda mais reduzida, atualizando o envelope e apertando funções para incorporar as informações mais recentemente adquiridas sobre g(x).

Assume-se que o dominio de f (x) denotado por D seja ligado a g(x). Assim, seja g(x) contínua e diferenciável em D e seja h(x) = logg(x) concavo em D, ou seja, d2dxh(x)2

é estritamente negativa (Dellaportas & Smith. 1993).

Suponha que h(x) e h0(x) tenha sido avaliada em k pontos no eixo das abscissas em D: x1 ≤ x2 ≤ x3 ≤ · · · ≤ xk. Seja Tk = {xi; i = 1, 2, · · · , k}. Defina-se a rejeição por

envelope sobre Tk como expuk(x), em que, uk(x) é uma parte do limite superior linear

formado a partir de tangentes de h(x) e as abscissas em Tk. Para j = 1, 2, · · · , k − 1 as

tangentes de xj e xj+1 se intersectam em (Gilks & Wild. 1992) :

zj =

h(xj+1) − h(xj) − xj+1h0(xj+1) + xjh0(xj)

h0(x

j) − h0(xj+1)

, em que, x  [zj−1, zj] e j = 1, 2, · · · , k, assim, define-se:

(35)

uk(x) = h(xj) + (x − xj)h0(xj),

em que, z0 é o limite inferior de D e zk é o limite superior de D. Dessa forma, também

define-se: sk(x) = expuk(x)  R Dexpuk(x 0) dx 0 .

Finalmente, defina-se a função que comprimi Tk como explk(x), em que, lk(x) é

uma parte do limite inferior linear formado a partir de uma ligação entre as abscissas em Tk.

Assim, defina-se:

lk(x) =

(xj+1− x)h(xj) + (x − xj)h(xj+1)

(xj+1− xj)

, para j = 1, 2, · · · , k − 1. Para x < x1ou x > xkdefine-se lk(x) = −∞.

O envelope e a função de compressão são funções exponenciais por partes. A con-cavidade de h(x) garante que lk(x) < h(x) < uk(X) para todo x em D. Para amostrar n

pontos, independentemente de f (x) pelo método Adaptive Rejection Sampling, execute o seguinte algoritmo (Gilks & Wild. 1992) :

Algoritmo 1: Adaptive Rejection Sampling

1: Inicializar as abscissas em Tk. Se D for ilimitado a esquerda, escolher x1tal que h0(x1) > 0.

Se for ilimitado a direita, escolher xktal que h0(xk) < 0. Definido K, inicie calculando as funções

uk(x), sk(x) e lk(x).

2: Amostre um valor x∗ de sk(x). E amostre um valor w de forma independente de uma distribuição

uniforme(0,1).

• Se w ≤ exp{lk(x∗) − uk(x∗)} então, aceita-se x∗,

• Caso contrário, faça w ≤ exp{hk(x∗) − uk(x∗)} então, aceita-se x∗, • Caso contrário, rejeita-se x∗

3: Se h(x∗) e h0(x) foram avaliadas no passo (2), então inclua x∗ em Tke atualize para Tk+1e

(36)

2.5

Comparação de Modelos

Para avaliar qual dos modelos propostos é possivelmente o melhor é importante o uso de alguns métodos de comparação. Dessa forma, a seção apresenta três medidas de compara-ção para modelos bayesianos, sendo essas, o logaritmo da verossimilhança pseudo marginal (LPML), critério de informação de desvio (DIC) e o Ccitério de informação amplamente aplicável (WAIC).

2.5.1

LPML

É importante dentro do estudo de análise de sobrevivência fazer uma boa seleção de modelos. Assim, após a montagem dos modelos propostos, pode-se calcular a estatística chamada de Ordenação Preditiva Condicional (CP O) (Dey, Chen, e Chang, 1997). O CP O valida a distribuição preditiva condicional a partir de uma observação removida em relação à resposta das outras observações. Dessa forma, o CP O é uma validação cruzada bayesiana que mede a adequação de um determinado modelo.

Seja D(−i) a notação que indica os dados com a i-ésima observação removida. A

função densidade de yié denotada por f (yi|θ) e a densidade a posteriori de θ|Y é dado por

π(θ|D(−i)) , i = 1, · · · , n. Assim, o CP O é a densidade preditiva a posteriori marginal de

yidado D(−i), CP Oi = f (yi|D(−i)) = Z π(θ|D) f (yi|θ) dθ !−1 . (2.9)

Segundo Chen, Shao, & Ibrahim (2000) uma aproximação de Monte Carlo para CP Oi é dado por: [ CP Oi = 1 L L X l=1 1 Li(θl|yi) !−1 . (2.10)

em que, L é o tamanho da amostra de Gibbs após burn-in e os espaçamentos e θlé a amostra

a posterioricorrespondente a l-ésima iteração de Gibbs.

Um resumo dos CP Oi0s pode ser dado pelo logaritmo da verossimilhança pseudo marginal (LPML, do inglês Logarithm of Pseudomarginal Likehood), que é dado por:

LP M L =

n

X

i=1

(37)

2.5.2

DIC

Um indicador de comparação de modelos sob enfoque clássico é apresentada com a medida de Deviance, definida por:

D(θ|y) = −2 log(L(θ|y))

Gelfand e Gosh (1998) definem o critério de informação de desvio (DIC, do inglês Deviance Information Criterion) como um indicador de comparação de modelos com enfo-que bayesiano, enfo-que é formalizado pela seguinte equação:

DIC = D + pD

em que,

• D: Desvio média a posteriori (quantifica a qualidade do ajuste).

• pD : Número efetivo de parâmetros (elemento de penalidade).

Assim,

D = E[D(θ|y)], e

pD =

1

2V ar[D(θ|y)].

Ao decorrer do tempo houve o avanço de técnicas computacionais, como por exem-plo, as técnicas de Monte Carlo via cadeia de Markov (MCMC). Assim, o DIC pode ser da seguinte forma: DIC = 1 L L X l=1 D(θ[l]|y) + 1 2V ar[D(θ[l]|y)], (2.12)

em que, l = 1, 2 · · · , L são os pontos da amostra da distribuição a posteriori, obtida via método MCMC após o burn-in e os espaçamentos. Essa medida avalia a qualidade do ajuste mostrando que o menor o valor do DIC indica o melhor o ajuste (Spiegelhalter et al. 2002).

2.5.3

WAIC

Uma alternativa para a comparação de modelos é abordada por Vehtari & Gelman (2014) e é denominada critério de informação amplamente aplicável (WAIC). O WAIC pode

(38)

ser visto como uma melhoria no critério de informação de desvio (DIC) para os modelos bayesianos. Porém, ao contrário do DIC, o WAIC é invariante a parametrizações e se apro-xima de validação cruzada bayesiana.

Vehtari & Gelman (2014) definem o WAIC da seguinte forma:

W AIC = −2elpd

em que, elpd é o valor esperado do logaritmo da densidade preditiva do indivíduo i, em que i = 1, 2, · · · , n. O elpd é representado por:

elpd = n X i=1 Ehlog Z p(yi|θ)p(θ|y)dθ i .

Assim como o DIC é possível também estimar o WAIC através de métodos computacionais como os métodos de MCMC. Assim, pode-se interpretar o WAIC como uma aproximação computacional conveniente para validação cruzada e o critério é definido por:

W AIC = −2 delpd (2.13)

em que,

d

elpd = clpd −pbwaic,

• lpd é o logaritmo da densidade preditiva do indivíduo i, que tem a seguinte expressão:c

c lpd = n X i=1 log 1 L L X l=1 p(yi|θ[l]) ! e, • b

pwaicé a estimativa do número efetivo de parâmetros, calculados com base na seguinte

expressão: b pwaic = n X i=1 V arlogp(yi|θ[l])  ,

em que as iterações l = 1, 2 · · · , L do método MCMC são consideradas após o burn-in e os espaçamentos. Essa medida avalia a qualidade do ajuste mostrando que o maior o valor do WAIC indica o melhor o ajuste (Vehtari & Gelman, 2014).

(39)

Capítulo 3

Modelos Probabilísticos em

Sobrevivência

Inicia-se este capítulo com a apresentação, na Seção3.1de alguns fundamentos teó-ricos básicos em análise de sobrevivência. Em seguida na Seção 3.2 é descrita a classe unificada de modelos de fração de cura que foram introduzidos por Rodrigues et al. (2009), que será considerada neste trabalho.

3.1

Conceitos Básicos de Sobrevivência

Em análise de sobrevivência, a variável resposta é o tempo até a ocorrência de um evento de interesse. Segundo Colosimo & Giolo (2006), a correta caracterização dos tempos de falha deve envolver uma clara definição do tempo inicial, da escala de medida e do evento de interesse (falha). A falha pode ainda ocorrer devido a uma única causa ou devido a duas ou mais causas. Situações em que causas de falha competem entre si são denominadas na literatura de riscos competitivos (Prentice et al., 1978).

Uma peculiaridade dos dados de sobrevivência é a presença de observações incom-pletas ou parciais da variável resposta, que são chamadas de censuras. Existem três tipos de censuras: a censura à esquerda, a censura à direita, e a censura intervalar.

A censura à esquerda ocorre quando o tempo registrado é maior do que o tempo de falha, isto é, o evento de interesse já aconteceu quando o tempo foi registrado. Um estudo para determinar o momento em que uma pessoa fica inadimplente em um determinado banco pode ilustrar bem a censura à esquerda. Quando o banco iniciou o estudo algumas pessoas já estavam inadimplentes e não lembravam quando isso tinha acontecido, caracterizando, dessa forma, observações censuradas à esquerda.

(40)

uma parcela dos indivíduos em estudo, e em relação ao restante dos indivíduos, sabe-se apenas que o tempo de falha é maior que o tempo registrado (Ibrahim, Chen & Sinha 2001). Existem três tipos de censura à direita, a saber: censura do tipo I, censura do tipo II e censura aleatória. Quando o tempo de acompanhamento é preestabelecido e, ao finalizar-se o estudo, alguns indivíduos ainda não apresentaram o evento de interesse, tem-se a censura do tipo I. Neste caso o número de eventos é aleatório. Censuras do tipo II ocorrem quando o número de eventos é preestabelecido e, ao atingir esse número, todas as demais observações são censuradas. Consequentemente, o tempo de duração do estudo é aleatório. Finalmente, a censura aleatória ocorre quando um indivíduo deixa de ser acompanhado por um motivo que não está relacionado ao evento de interesse. Em geral, a situação que ocorre com mais frequência em ensaios clínicos, é uma combinação das censuras do tipo I ou II com a censura aleatória.

A censura intervalar ocorre quando o tempo de falha T não é conhecido exatamente, mas sabe-se que T pertence a um intervalo, isto é, T  (L, U ], em que, L é o limite inferior do intervalo e U é o limite superior do intervalo (Colosimo e Giolo 2006). Conforme discutido em Lindsey & Ryan. (1998), a censura intervalar corresponde a um caso mais geral de cen-sura, e as censuras à direita e à esquerda podem ser vistas como casos particulares de dados de censura intervalar. De fato, tempos de falha são observados quando L = U , enquanto a censura à direita fica caracterizada quando U = ∞, e a censura à esquerda quando L = 0.

Colosimo & Giolo (2006) ressaltam o fato de que observações censuradas devem ser incluídas na análise de dados de sobrevivência por duas razões: (i) mesmo sendo incom-pletas, as observações censuradas fornecem informações sobre o tempo até a falha; (ii) a omissão das censuras no cálculo das estatísticas de interesse pode acarretar conclusões vici-adas.

Duas funções extremamente importantes para a caracterização dos tempos de falha são a função de sobrevivência e a função de risco. Essas funções serão definidas a seguir.

Assuma que uma variável aleatória contínua T, representando o tempo até a falha, seja caracterizada pela função de distribuição acumulada F (t) ou, equivalentemente, pela função densidade de probabilidade f (t). A função de sobrevivência, para cada argumento t > 0, corresponde à probabilidade de ocorrência de uma falha após o tempo t, ou seja, a probabilidade de um indivíduo sobreviver ao tempo t, e é dada por,

S(t) = P (T > t) =

Z

t

f (t)dt = 1 − F (t). (3.1)

Uma função de sobrevivência própria deve satisfazer as seguintes propriedades:

(41)

(ii) S(t) é uma função monótona não-crescente, e (iii) lim

t→∞S(t) = 0.

A função risco é definida como o limite da probabilidade de um indivíduo falhar no intervalo de tempo de comprimento infinitesimal [t, ∆t), assumindo que este mesmo indiví-duo sobreviveu até o tempo t, dividida pelo comprimento do intervalo, e é representada por (Lawless, 2003): h(t) = lim ∆t→0 P (t ≤ T < t + ∆t|T ≥ t) ∆t = f (t) S(t). (3.2)

A função risco descreve como o potencial instantâneo para a falha (taxa de falha) se modifica com o passar do tempo. É conhecida como taxa de falha instantânea, força de mortalidade e taxa de mortalidade condicional (Cox & Oakes,1984). A função risco é mais informativa do que a função de sobrevivência. Diferentes distribuições podem ter funções de sobrevivência com formas semelhantes, enquanto as respectivas funções risco podem diferir drasticamente. Dessa forma, a modelagem da função risco desempenha um papel de destaque em análise de sobrevivência (Colosimo & Giolo, 2006).

A função risco acumulado é dada por:

H(t) = Z t

0

h(u)du. (3.3)

portanto, das Equações (3.2) e (3.3) decorre que a função risco pode ser obtida a partir da função de sobrevivência: h(t) = f (t) S(t) = − d(log S(t)) dt . (3.4) Reciprocamente: S(t) = exp{−H(t)} = exp  − Z t 0 h(u)du  , (3.5) e como f (t) = −dS(t)/dt, tem-se: f (t) = h(t) exp ( − Z t 0 h(u)du ) . (3.6)

As relações das Equações (3.1) a (3.6) mostram que basta o conhecimento de uma das funções entre S(t), F (t), f (t), h(t) e H(t) para implicar o conhecimento da distribuição do tempo até a falha.

(42)

3.1.1

Função de Verossimilhança

Nesta dissertação serão considerados dados de sobrevivência censurados à direita. Sejam T e C duas variáveis aleatórias contínuas representando, respectivamente o tempo até a falha e o tempo até a censura de uma amostra de tamanho n. Neste contexto, a variável aleatória de fato observável é dada por Y = min(T , C) e, δ = I(T ≤ C), em que, I(.) é a função indicadora de falha, ou seja,

I(T ≤ C) = (

1, se T ≤ C, 0, se T > C.

Portanto, a estrutura de dados observados é composta pelo par (Y, δ) e eventuais covariáveis.

Sejam f (t; ψ) e S(t; ψ) as funções de densidade e de sobrevivência de T , respecti-vamente. Analogamente, denote por g(t; φ) e G(t; φ) as funções de densidade e de sobre-vivência de C, respectivamente. Assuma que T e C são independentes, e que ψ e φ são os vetores de parâmetros associados às distribuições de T e C, respectivamente e, que não haja componentes comuns entre ψ e φ. Então, a contribuição do indivíduo i para a função de verossimilhança é dada da seguinte forma:

1. se for observada uma falha,

P (Yi = y, δi = 1) = P (Ti = y, Ci ≥ Ti)

= P (Ti = y, Ci ≥ y)

= f (y; ψ)G(y; φ); 2. se for observada uma censura, então:

P (Yi = y, δi = 0) = P (Ci = y, Ti > Ci)

= P (Ci = y, Ti > y)

= g(y; φ)S(y; ψ).

Então, a função de verossimilhança pode ser escrita da seguinte forma:

L(ψ, φ|y, δ) =

n

Y

i=1

{[f (yi|ψ)]δi[S(yi|ψ)]1−δi}{[g(yi|φ)]1−δi[G(yi|φ)]δi}.

Como o interesse principal é fazer inferência sobre o vetor de parâmetros ψ que caracteriza a distribuição da variável aleatória T , pode-se então usar a seguinte função ve-rossimilhança para fazer inferências sobre ψ (Lawless, 2003):

Referências

Documentos relacionados

Local de realização da avaliação: Centro de Aperfeiçoamento dos Profissionais da Educação - EAPE , endereço : SGAS 907 - Brasília/DF. Estamos à disposição

Se você vai para o mundo da fantasia e não está consciente de que está lá, você está se alienando da realidade (fugindo da realidade), você não está no aqui e

Nessa situação temos claramente a relação de tecnovívio apresentado por Dubatti (2012) operando, visto que nessa experiência ambos os atores tra- çam um diálogo que não se dá

Resultados: Os parâmetros LMS permitiram que se fizesse uma análise bastante detalhada a respeito da distribuição da gordura subcutânea e permitiu a construção de

Neste capítulo, será apresentada a Gestão Pública no município de Telêmaco Borba e a Instituição Privada de Ensino, onde será descrito como ocorre à relação entre

2. Identifica as personagens do texto.. Indica o tempo da história. Indica o espaço da história. Classifica as palavras quanto ao número de sílabas. Copia do texto três

Em janeiro, o hemisfério sul recebe a radiação solar com menor inclinação e tem dias maiores que as noites, encontrando-se, assim, mais aquecido do que o hemisfério norte.. Em julho,

a) O polícia disse um palavrão, após ter saído da casa de Adrian. Corrige as falsas.. A mãe também está com gripe. “Quase que não consegui ficar calado quando vi que não