• Nenhum resultado encontrado

Modelos flexíveis de sobrevivência com fração de cura: implementação computacional

N/A
N/A
Protected

Academic year: 2017

Share "Modelos flexíveis de sobrevivência com fração de cura: implementação computacional"

Copied!
153
0
0

Texto

(1)

Centro de Ciˆencias Exatas e da Terra

Programa de P´os-gradua¸c˜ao em Matem´atica Aplicada e Estat´ıstica

Rumenick Pereira da Silva

Modelos Flex´ıveis de Sobrevivˆ

encia com Fra¸

ao

de Cura: Implementa¸

ao Computacional

Natal

(2)

Rumenick Pereira da Silva

Modelos Flex´ıveis de Sobrevivˆ

encia com Fra¸

ao de Cura:

Implementa¸

ao Computacional

Disserta¸c˜ao apresentada ao Programa de P´os-Gradua¸c˜ao em Matem´atica Aplicada e Esta-t´ıstica da Universidade Federal do Rio Grande do Norte, em cumprimento com as exigˆencias legais para obten¸c˜ao do t´ıtulo de Mestre.

´

Area de Concentra¸c˜ao: Probabilidade e Esta-t´ıstica

Orientadora: Prof.

a

Dr.

a

Dione Maria Valen¸ca

(3)

Silva, Rumenick Pereira da.

Modelos flex´ıveis de sobrevivˆencia com fra¸c˜ao de cura: implementa¸c˜ao compu-tacional / Rumenick Pereira da Silva. – Natal, Outubro, 2015.

152f.: il.

Orientadora: Prof.a Dr.a

Dione Maria Valen¸ca.

Disserta¸c˜ao (Mestrado) – Universidade Federal do Rio Grande do Norte. Centro de Ciˆencias Exatas e da Terra. Programa de P´os-Gradua¸c˜ao em Matem´atica Aplicada e Estat´ıstica.

1. An´alise de dados de sobrevivˆencia – Disserta¸c˜ao. 2. Estudo de simula¸c˜ao e aplica¸c˜ao – Disserta¸c˜ao. 3. Modelos flex´ıveis com fra¸c˜ao de cura – Disserta¸c˜ao. 4. R-pacote: flexcure– Disserta¸c˜ao. I. Valen¸ca, Dione Maria. II. T´ıtulo.

(4)

Rumenick Pereira da Silva

Modelos Flex´ıveis de Sobrevivˆ

encia com Fra¸

ao de Cura:

Implementa¸

ao Computacional

Disserta¸c˜ao apresentada ao Programa de P´os-Gradua¸c˜ao em Matem´atica Aplicada e Esta-t´ıstica da Universidade Federal do Rio Grande do Norte, em cumprimento com as exigˆencias legais para obten¸c˜ao do t´ıtulo de Mestre.

Aprovado em: 23 de outubro de 2015

Banca Examinadora:

Prof.a

Dr.a

Dione Maria Valen¸ca Departamento de Estat´ıstica – UFRN

Presidente

Prof.a

Dr.a

Luz Milena Zea Fernandez Departamento de Estat´ıstica – UFRN

Examinador Interno

Prof. Dr. Dani Gamerman

Departamento de M´etodos Estat´ısticos – UFRJ Examinador Externo

(5)
(6)

Agradecimentos

Agrade¸co primeiramente `a Deus, por ter me dado for¸ca para concretiza¸c˜ao desse trabalho.

Aos meus pais, Renivaldo e Maria Ramos, pelo suporte dado em toda minha trajet´oria de vida.

A minha irm˜a, Renilma, que acreditou que a Estat´ıstica era o melhor caminho a ser trilhado por mim e nunca desistiu de incentivar na minha escolha por essa profiss˜ao. A meus irm˜aos, Renivaldo Jr. e Reniery, que sempre estiveram presentes em v´arias etapas da minha vida.

A Wilmara, por toda ajuda, paciˆencia e incentivo para conclus˜ao da disserta¸c˜ao. Suas contribui¸c˜oes foram de grande relevˆancia.

A minha orientadora, Dione Valen¸ca, que nunca deixou de acreditar na minha capacidade e determina¸c˜ao. Com certeza, foi um aprendizado muito grande para minha forma¸c˜ao ser orientado por uma professora com tanto conhecimento e experiˆencia. Sua colabora¸c˜ao foi essencial.

Aos professores membros da banca: Prof. Dr. Dani Gamerman e a Prof.a

Dr.a

Luz Milena por aceitarem participar dessa banca de defesa de disserta¸c˜ao.

Agrade¸co aos amigos do Programa de P´os-gradua¸c˜ao em Matem´atica Aplicada e Estat´ıstica, em especial aos discentes: F´abio Azevedo (por ter me ajudado sempre que precisei), Renato Tigre (por ter tornado as aulas mais divertidas), Jhonnata Bezerra (por suas piadas sem gra¸ca que me faziam rir), Wenia, Isaac, La´ıs Loose e Felipe, pois cada um contribuiu de uma forma espec´ıfica para o andamento do meu trabalho.

A professora Carla Vivacqua, por todas as experiˆencias enriquecedoras vividas em disciplinas e conversas durante o curso de mestrado na UFRN. Tudo que aprendi com ela, com certeza fizeram e fazem a diferen¸ca na minha forma¸c˜ao profissional e pessoal.

A Coordena¸c˜ao de Aperfei¸coamento de Pessoal de N´ıvel Superior (CAPES) pelo financiamento que proporcionou o desenvolvimento da minha disserta¸c˜ao.

(7)
(8)

Resumo

Em an´alise de sobrevivˆencia a vari´avel em estudo ´e o tempo at´e a ocorrˆencia de um determinado evento de interesse. Este tempo ´e denominado de tempo de vida ou tempo at´e a falha. A teoria usual assume que, se observado por um longo per´ıodo de tempo todos os indiv´ıduos ir˜ao experimentar o evento em algum momento. Mas, em algumas situa¸c˜oes uma propor¸c˜ao da popula¸c˜ao pode n˜ao estar mais sujeita `a ocorrˆencia deste evento, por mais longo que seja o tempo de observa¸c˜ao. Neste sentido, alguns modelos foram propostos, estes s˜ao conhecidos na literatura como modelos com fra¸c˜ao de cura ou de longa dura¸c˜ao. Considerando o crescente interesse dos pesquisadores em ajustar dados utilizando esses modelos, faz-se necess´ario o desenvolvimento de rotinas amig´aveis que sejam capazes de obter de forma precisa as estimativas de m´axima verossimilhan¸ca dos parˆametros do modelo. Neste contexto, o objetivo principal deste trabalho foi a implementa¸c˜ao de um pacote em linguagem Rcom um conjunto de rotinas amig´aveis (de forma did´atica e de f´acil utiliza¸c˜ao) para analisar dados de sobrevivˆencia com fra¸c˜ao de cura, a partir do uso de alguns modelos param´etricos flex´ıveis. Neste programa, denominado de flexcure, foram considerados os modelos de tempo de falha acelerado log-gama generalizado estendido, log-F generalizado e valor extremo na forma estendida de Marshall-Olkin para modelar os tempos dos indiv´ıduos suscept´ıveis. Para a fra¸c˜ao de curados, foram considerados os modelos usuais de mistura padr˜ao e de tempo de promo¸c˜ao. O desempenho destas implementa¸c˜oes foi avaliado atrav´es de um extensivo estudo de simula¸c˜ao, considerando diferentes cen´arios. Al´em disso, o uso deste pacote foi ilustrado em algumas aplica¸c˜oes.

(9)

In survival analysis, the variable under study is the time until the ocurrence of an event of interest. This time is termed lifetime or time to failure. The usual theory assumes that, if observed for a long period of time, all individuals will experience the event sometime. However, in some situations, a ratio of the population can not be more subject to the occurrence of this event, although the observation time is long. In this sense, some models were proposed, which are known in the literature as cure fraction or long-term models. Considering the increasing interest of the researchers in the fit of data set using these models, becomes necessary the development of friendly routines (didactic and easy to use) capable to compute precisely the maximum likelihood estimates of the parameters of the model. In this context, the main objective of this dissertation was the implementation of a package in R language as a set of friendly routines for analyzing survival data with cure fraction, from the use of some flexible parametric models. In this program, called

flexcure, were considered the acelerated failure time models: extended generalized log-gamma, generalized log-F and Marshall-Olkin extended extreme value, in order to model time of susceptible individuals. For the fraction of cured, were considered the usual models of standard mixture and of promotion time. The performance of these implementations was assessed through a comprehensive simulation study, considering different scenarios. In addition, the use of this package was illustrated in several applications.

(10)

Lista de ilustra¸c˜oes

Figura 1 – Ilustra¸c˜ao de alguns mecanismos de censura `a direita, em que (❼) repre-senta o tempo de falha e (➒) o de censura. . . 25

Figura 2 – Gr´afico da sobrevivˆencia estimada pelo m´etodo de Kaplan-Meier para dados referentes ao tempo at´e a recidiva do cˆancer de mama em 355 pacientes diagnosticadas e previamente tratadas no Hospital Prof. Dr. Luiz Antˆonio, Unidade I da Liga Contra o Cˆancer, Natal-RN, 1991- 1995. 38

Figura 3 – Esquema descritivo dos recursos dispon´ıveis atrav´es do pacote flexcure. 46

Figura 4 – Gr´afico da fun¸c˜ao de sobrevivˆencia estimada usando o m´etodo Kaplan-Meier para os tempos at´e que o cliente abandone a institui¸c˜ao financeira. 70

Figura 5 – Fra¸c˜ao de clientes fidelizados sengundo os perfis de clientes da institui¸c˜ao financeira. . . 71

Figura 6 – Gr´afico da fun¸c˜ao de sobrevivˆencia estimada usando o m´etodo Kaplan-Meier para os tempos at´e que o cliente abandone a institui¸c˜ao financeira segundo o sexo. . . 91

Figura 7 – Gr´afico da fun¸c˜ao de sobrevivˆencia estimada usando o m´etodo Kaplan-Meier para os tempos at´e que o cliente abandone a institui¸c˜ao financeira segundo o estado civil. . . 92

Figura 8 – Gr´afico da fun¸c˜ao de sobrevivˆencia estimada usando o m´etodo Kaplan-Meier para os tempos at´e que o cliente abandone a institui¸c˜ao financeira segundo as faixas de idade. . . 93

Figura 9 – Gr´afico da fun¸c˜ao de sobrevivˆencia estimada usando o m´etodo Kaplan-Meier para os tempos at´e que o cliente abandone a institui¸c˜ao financeira segundo o n´ıvel de escolaridade. . . 94

Figura 10 – Curvas de sobrevivˆencias estimadas pelo m´etodo de Kaplan-Meier e pelos modelos de tempo de promo¸c˜aoF generalizado, gama generalizado estendido, Weibull, log-normal, log-log´ıstico e exponencial, para os dados da institui¸c˜ao financeira. . . 101

Figura 11 – boxplot’s das estimativas dos parˆametros obtidas pelos pacotes flexcure

(11)

de mistura padr˜ao log-gama generalizado estendido (q < 0), assumindo π = 0,45, µ = 5, σ = 1,5, q = −2, 56% de censura observada e amostras de tamanho n= 50, 100,500 e 1000. . . 111

Figura 13 – boxplot’s das estimativas dos parˆametros obtidas pelos pacotes flexcure

e gfcure para cada uma das 10000 amostras simuladas do modelo de mistura padr˜ao log-gama generalizado estendido (q < 0), assumindo π = 0,65, µ = 5, σ = 1,5, q = −2, 72% de censura observada e amostras de tamanho n= 50, 100,500 e 1000. . . 112

Figura 14 – boxplot’s das estimativas dos parˆametros obtidas pelos pacotes flexcure

e gfcure para cada uma das 10000 amostras simuladas do modelo de mistura padr˜ao log-gama generalizado estendido (q > 0), assumindoπ = 0,10,µ= 5,σ = 1,5,q = 2, 28% de censura observada e amostras de tamanho n = 50, 100, 500 e 1000. . . 113

Figura 15 – boxplot’s das estimativas dos parˆametros obtidas pelos pacotes flexcure

e gfcure para cada uma das 10000 amostras simuladas do modelo de mistura padr˜ao log-gama generalizado estendido (q > 0), assumindoπ = 0,45,µ= 5,σ = 1,5,q = 2, 56% de censura observada e amostras de tamanho n = 50, 100, 500 e 1000. . . 114

Figura 16 – boxplot’s das estimativas dos parˆametros obtidas pelos pacotes flexcure

e gfcure para cada uma das 10000 amostras simuladas do modelo de mistura padr˜ao log-gama generalizado estendido (q > 0), assumindoπ = 0,65,µ= 5,σ = 1,5,q = 2, 72% de censura observada e amostras de tamanho n = 50, 100, 500 e 1000. . . 115

Figura 17 – boxplot’s das estimativas dos parˆametros obtidas pelo pacote flexcure

para cada uma das 10000 amostras simuladas domodelo de tempo de promo¸c˜ao log-gama generalizado estendido (q < 0), assumindo

π = 0,10, µ = 5, σ = 1,5, q = −2, 28% de censura observada e amostras de tamanho n= 50, 100, 500 e 1000. . . 117

Figura 18 – boxplot’s das estimativas dos parˆametros obtidas pelo pacote flexcure

para cada uma das 10000 amostras simuladas domodelo de tempo de promo¸c˜ao log-gama generalizado estendido (q < 0), assumindo

(12)

Figura 19 – boxplot’s das estimativas dos parˆametros obtidas pelo pacote flexcure

para cada uma das 10000 amostras simuladas domodelo de tempo de promo¸c˜ao log-gama generalizado estendido (q < 0), assumindo

π = 0,65, µ = 5, σ = 1,5, q = −2, 72% de censura observada e amostras de tamanho n= 50, 100, 500 e 1000. . . 119

Figura 20 – boxplot’s das estimativas dos parˆametros obtidas pelo pacote flexcure

para cada uma das 10000 amostras simuladas domodelo de tempo de promo¸c˜ao log-gama generalizado estendido (q > 0), assumindo

π = 0,10,µ= 5,σ= 1,5,q= 2, 28% de censura observada e amostras de tamanhon = 50, 100, 500 e 1000. . . 120

Figura 21 – boxplot’s das estimativas dos parˆametros obtidas pelo pacote flexcure

para cada uma das 10000 amostras simuladas domodelo de tempo de promo¸c˜ao log-gama generalizado estendido (q > 0), assumindo

π = 0,45,µ= 5,σ= 1,5,q= 2, 56% de censura observada e amostras de tamanhon = 50, 100, 500 e 1000. . . 121

Figura 22 – boxplot’s das estimativas dos parˆametros obtidas pelo pacote flexcure

para cada uma das 10000 amostras simuladas domodelo de tempo de promo¸c˜ao log-gama generalizado estendido (q > 0), assumindo

π = 0,65,µ= 5,σ= 1,5,q= 2, 72% de censura observada e amostras de tamanhon = 50, 100, 500 e 1000. . . 122

Figura 23 – boxplot’s das estimativas dos parˆametros obtidas pelo pacote flexcure

para cada uma das 1000 amostras simuladas do modelo de

mis-tura padr˜ao log-gama generalizado estendido(q <0), assumindo

γ0 = 1,84, γ1 =0,75,β0 =−0,5,β1 = 2,σ = 1,5,q=−2, 28% de censura observada e amostras de tamanho n= 50, 100, 500 e 1000. . 124

Figura 24 – boxplot’s das estimativas dos parˆametros obtidas pelo pacote flexcure

para cada uma das 1000 amostras simuladas do modelo de

mis-tura padr˜ao log-gama generalizado estendido(q <0), assumindo

γ0 = 0,79, γ1 = 1,15, β0 = −0,5, β1 = 2, σ = 1,5, q =−2, 56% de censura observada e amostras de tamanho n= 50, 100, 500 e 1000. . 125

Figura 25 – boxplot’s das estimativas dos parˆametros obtidas pelo pacote flexcure

para cada uma das 1000 amostras simuladas do modelo de

mis-tura padr˜ao log-gama generalizado estendido(q <0), assumindo

(13)

tura padr˜ao log-gama generalizado estendido(q >0), assumindo

γ0 = 1,84, γ1 =0,75, β0 =−0,5, β1 = 2, σ = 1,5, q = 2, 28% de censura observada e amostras de tamanho n= 50, 100, 500 e 1000. . 127

Figura 27 – boxplot’s das estimativas dos parˆametros obtidas pelo pacote flexcure

para cada uma das 1000 amostras simuladas do modelo de

mis-tura padr˜ao log-gama generalizado estendido(q >0), assumindo

γ0 = 0,79, γ1 = 1,15, β0 =−0,5, β1 = 2, σ= 1,5, q = 2, 56% de censura observada e amostras de tamanho n = 50, 100, 500 e1000. . . 128

Figura 28 – boxplot’s das estimativas dos parˆametros obtidas pelo pacote flexcure

para cada uma das 1000 amostras simuladas do modelo de

mis-tura padr˜ao log-gama generalizado estendido(q >0), assumindo

γ0 = 1,11, γ1 = 0,95, β0 =−0,5, β1 = 2, σ= 1,5, q = 2, 72% de censura observada e amostras de tamanho n = 50, 100, 500 e1000. . . 129

Figura 29 – boxplot’s das estimativas dos parˆametros obtidas pelo pacote flexcure

para cada uma das 1000 amostras simuladas domodelo de tempo de promo¸c˜ao log-gama generalizado estendido (q < 0), assumindo

γ0 = 0,5, γ1 = 0,7, β0 = −0,5, β1 = 2, σ = 1,5, q = −2, 28% de censura observada e amostras de tamanho n = 50, 100, 500 e1000. . . 131

Figura 30 – boxplot’s das estimativas dos parˆametros obtidas pelo pacote flexcure

para cada uma das 1000 amostras simuladas domodelo de tempo de promo¸c˜ao log-gama generalizado estendido (q < 0), assumindo

γ0 = 0,5, γ1 =1,5, β0 =−0,5, β1 = 2, σ = 1,5, q =−2, 56% de censura observada e amostras de tamanho n = 50, 100, 500 e1000. . . 132

Figura 31 – boxplot’s das estimativas dos parˆametros obtidas pelo pacote flexcure

para cada uma das 1000 amostras simuladas domodelo de tempo de promo¸c˜ao log-gama generalizado estendido (q < 0), assumindo

γ0 = 0,5, γ1 =3,1, β0 =−0,5, β1 = 2, σ = 1,5, q =−2, 72% de censura observada e amostras de tamanho n = 50, 100, 500 e1000. . . 133

Figura 32 – boxplot’s das estimativas dos parˆametros obtidas pelo pacote flexcure

para cada uma das 1000 amostras simuladas domodelo de tempo de promo¸c˜ao log-gama generalizado estendido (q > 0), assumindo

(14)

Figura 33 – boxplot’s das estimativas dos parˆametros obtidas pelo pacote flexcure

para cada uma das 1000 amostras simuladas domodelo de tempo de promo¸c˜ao log-gama generalizado estendido (q > 0), assumindo

γ0 = 0,5, γ1 = 1,5, β0 = −0,5, β1 = 2, σ = 1,5, q = 2, 56% de censura observada e amostras de tamanho n = 50, 100, 500 e1000. . . 135

Figura 34 – boxplot’s das estimativas dos parˆametros obtidas pelo pacote flexcure

para cada uma das 1000 amostras simuladas domodelo de tempo de promo¸c˜ao log-gama generalizado estendido (q > 0), assumindo

γ0 = 0,5, γ1 = 1,5, β0 = −0,5, β1 = 2, σ = 1,5, q = 2, 56% de censura observada e amostras de tamanho n = 50, 100, 500 e1000. . . 136

Figura 35 – boxplot’s das estimativas dos parˆametros obtidas pelos pacotes flexcure

e gfcure para cada uma das 10000 amostras simuladas do modelo de mistura padr˜ao log-F generalizado, assumindo π = 0,10, µ= 5, σ = 1,5, q = −2, p = 1, 28% de censura observada e amostras de tamanho n = 50,100, 500 e1000. . . 138

Figura 36 – boxplot’s das estimativas dos parˆametros obtidas pelos pacotes flexcure

e gfcure para cada uma das 10000 amostras simuladas do modelo de mistura padr˜ao log-F generalizado, assumindo π = 0,45, µ= 5, σ = 1,5, q = −2, p = 1, 56% de censura observada e amostras de tamanho n = 50,100, 500 e1000. . . 139

Figura 37 – boxplot’s das estimativas dos parˆametros obtidas pelos pacotes flexcure

e gfcure para cada uma das 10000 amostras simuladas do modelo de mistura padr˜ao log-F generalizado, assumindo π = 0,65, µ= 5, σ = 1,5, q = −2, p = 1, 72% de censura observada e amostras de tamanho n = 50,100, 500 e1000. . . 140

Figura 38 – boxplot’s das estimativas dos parˆametros obtidas pelo pacote flexcure

para cada uma das 10000 amostras simuladas do modelo de tempo de promo¸c˜ao log-F generalizado, assumindo π = 0,10, µ = 5, σ = 1,5, q = −2, p = 1, 28% de censura observada e amostras de tamanho n = 50,100, 500 e1000. . . 142

Figura 39 – boxplot’s das estimativas dos parˆametros obtidas pelo pacote flexcure

(15)

de promo¸c˜ao log-F generalizado, assumindo π = 0,65, µ = 5, σ = 1,5, q = −2, p = 1, 72% de censura observada e amostras de tamanho n = 50,100, 500 e1000. . . 144

Figura 41 – boxplot’s das estimativas dos parˆametros obtidas pelo pacote flexcure

para cada uma das 1000 amostras simuladas do modelo de mistura padr˜ao log-F generalizado, assumindo γ0 = 1,84, γ1 = 0,75,

β0 =−0,5, β1 = 2, σ= 1,5,q = 2, p= 1, 28% de censura observada e

amostras de tamanho n= 50, 100, 500 e 1000. . . 146

Figura 42 – boxplot’s das estimativas dos parˆametros obtidas pelo pacote flexcure

para cada uma das 1000 amostras simuladas do modelo de mistura padr˜ao log-F generalizado, assumindo γ0 =0,79, γ1 = 1,15,

β0 =−0,5, β1 = 2, σ= 1,5,q = 2, p= 1, 56% de censura observada e

amostras de tamanho n= 50, 100, 500 e 1000. . . 147

Figura 43 – boxplot’s das estimativas dos parˆametros obtidas pelo pacote flexcure

para cada uma das 1000 amostras simuladas do modelo de mistura padr˜ao log-F generalizado, assumindo γ0 = 1,11, γ1 = 0,95,

β0 =−0,5, β1 = 2, σ= 1,5,q = 2, p= 1, 72% de censura observada e

amostras de tamanho n= 50, 100, 500 e 1000. . . 148

Figura 44 – boxplot’s das estimativas dos parˆametros obtidas pelo pacote flexcure

para cada uma das 1000 amostras simuladas do modelo de tempo de promo¸c˜ao log-F generalizado, assumindo γ0 = 0,5,γ1 = 0,7,

β0 =−0,5, β1 = 2, σ= 1,5,q =−2, p= 1, 28% de censura observada

e amostras de tamanho n = 50, 100, 500 e 1000. . . 150

Figura 45 – boxplot’s das estimativas dos parˆametros obtidas pelo pacote flexcure

para cada uma das 1000 amostras simuladas domodelo de tempo de promo¸c˜ao log-F generalizado, assumindo γ0 = 0,5, γ1 = 1,5,

β0 =−0,5, β1 = 2, σ= 1,5,q =−2, p= 1, 56% de censura observada

e amostras de tamanho n = 50, 100, 500 e 1000. . . 151

Figura 46 – boxplot’s das estimativas dos parˆametros obtidas pelo pacote flexcure

para cada uma das 1000 amostras simuladas domodelo de tempo de promo¸c˜ao log-F generalizado, assumindo γ0 = 0,5, γ1 = 3,1,

β0 =−0,5, β1 = 2, σ= 1,5,q =−2, p= 1, 72% de censura observada

(16)

Lista de tabelas

Tabela 1 – Parˆametros para simula¸c˜ao dos cen´arios do modelo de mistura padr˜ao e tempo de promo¸c˜ao sem covari´aveis: . . . 49

Tabela 2 – Parˆametros para simula¸c˜ao dos modelos de mistura padr˜ao e tempo de promo¸c˜ao com covari´aveis: . . . 51

Tabela 3 – Estimativas (m´edia), erros padr˜ao (EP) e raiz dos erros quadr´aticos m´edios emp´ıricos (REQM) dos parˆametros do modelo de mistura padr˜ao log-gama generalizado estendido (q <0) com base em 10000 r´eplicas, com 20% de censura e variando o tamanho da amostra e o percentual de imunes: . . . 53

Tabela 4 – Estimativas (m´edia), erros padr˜ao (EP) e raiz dos erros quadr´aticos m´edios emp´ıricos (REQM) dos parˆametros do modelo de mistura padr˜ao log-gama generalizado estendido (q >0) com base em 10000 r´eplicas, com 20% de censura e variando o tamanho da amostra e o percentual de imunes: . . . 54

Tabela 5 – Estimativas (m´edia), erros padr˜ao (EP) e raiz dos erros quadr´aticos m´edios emp´ıricos (REQM) dos parˆametros do modelo de tempo de promo¸c˜ao log-gama generalizado estendido (q <0eq >0) com base em 10000 r´eplicas, com 20% de censura e variando o tamanho da amostra e o percentual de imunes: . . . 55

Tabela 6 – Estimativas (m´edia), erros padr˜ao (EP) e raiz dos erros quadr´aticos m´edios emp´ıricos (REQM) dos parˆametros do modelo de mistura padr˜ao log-F generalizado com base em 10000 r´eplicas, com 20% de censura e variando o tamanho da amostra e o percentual de imunes: . . . 56

Tabela 7 – Estimativas (m´edia), erros padr˜ao (EP) e raiz dos erros quadr´aticos m´edios emp´ıricos (REQM) dos parˆametros do modelo de tempo de promo¸c˜ao log-F generalizado com base em 10000 r´eplicas, com 20% de censura e variando o tamanho da amostra e o percentual de imunes: . . 57

(17)

mistura padr˜ao log-gama generalizado estendido (q >0) com base em 1000 r´eplicas, com 20% de censura e variando o tamanho da amostra e o percentual de imunes: . . . 60

Tabela 10 – Estimativa (m´edia), erros padr˜ao (EP) e raiz dos erros quadr´aticos m´edios emp´ıricos (REQM) dos parˆametros do modelo de regress˜ao tempo de promo¸c˜ao log-gama generalizado estendido (q <0) com base em 1000 r´eplicas, com 20% de censura e variando o tamanho da amostra e o percentual de imunes: . . . 61

Tabela 11 – Estimativa (m´edia), erros padr˜ao (EP) e raiz dos erros quadr´aticos m´edios emp´ıricos (REQM) dos parˆametros do modelo de regress˜ao tempo de promo¸c˜ao log-gama generalizado estendido (q >0) com base em 1000 r´eplicas, com 20% de censura e variando o tamanho da amostra e o percentual de imunes: . . . 62

Tabela 12 – Estimativa (m´edia), erros padr˜ao (EP) e raiz dos erros quadr´aticos m´edios emp´ıricos (REQM) dos parˆametros do modelo de regress˜ao mistura padr˜ao log-F generalizado com base em 1000 r´eplicas, com 20% de censura e variando o tamanho da amostra e o percentual de imunes: 63

Tabela 13 – Estimativa (m´edia), erros padr˜ao (EP) e raiz dos erros quadr´aticos m´edios emp´ıricos (REQM) dos parˆametros do modelo de regress˜ao tempo de promo¸c˜ao log-F generalizado com base em 1000 r´eplicas, com 20% de censura e variando o tamanho da amostra e o percentual de imunes: . . . 64

Tabela 14 – Estimativas dos parˆametros do modelo de regress˜ao log-gama genera-lizado com fra¸c˜ao de cura do tipo mistura padr˜ao, para os dados de mobilididade e estratifica¸c˜ao social apresentados em Yamaguchi (1992). 67

(18)

Sum´ario

1 Introdu¸c˜ao. . . 19

1.1 Objetivos . . . 22

1.1.1 Objetivo geral . . . 22

1.1.2 Objetivos espec´ıficos . . . 23

1.2 Organiza¸c˜ao da disserta¸c˜ao. . . 23

2 An´alise de sobrevivˆencia . . . 24

2.1 Conceitos b´asicos . . . 24

2.2 O estimador de Kaplan-Meier . . . 26

2.3 Alguns modelos flex´ıveis da fam´ılia de posi¸c˜ao e escala . . . 27

2.3.1 Fam´ılia de posi¸c˜ao e escala . . . 27

2.3.2 Modelos flex´ıveis . . . 29

2.3.2.1 Distribui¸c˜ao Weibull na forma estendida de Marshall-Olkin 29 2.3.2.2 Distribui¸c˜ao gama generalizada . . . 31

2.3.2.3 Distribui¸c˜ao F generalizada . . . 33

3 Modelando dados de sobrevivˆencia com fra¸c˜ao de cura. . . 37

3.1 Formula¸c˜ao do modelo . . . 38

3.2 Inferˆencia em modelos de tempo de falha acelerado com fra¸c˜ao de cura . . 40

3.3 Crit´erio para sele¸c˜ao de modelos . . . 43

4 O pacote flexcure . . . 46

5 Estudo de simula¸c˜ao . . . 48

5.1 Resultados . . . 51

6 Reprodu¸c˜ao de resultados e aplica¸c˜ao . . . 65

6.1 Reprodu¸c˜ao de Yamaguchi (1992) . . . 65

6.2 Reprodu¸c˜ao de Ortega, Cancho e Paula (2009) . . . 68

6.3 Aplica¸c˜ao: an´alise de dados da ´area financeira . . . 69

7 Considera¸c˜oes finais . . . 72

Referˆencias . . . 74

Apˆ

endices

80

APˆENDICE A Demonstra¸c˜ao da obten¸c˜ao da fun¸c˜ao de verossimilhan¸ca. . . 81

(19)

C.2 Exemplo do uso do pacoteflexcure . . . 88

APˆENDICE D Gr´aficos das Simula¸c˜oes. . . 108

D.1 Modelo log-gama generalizado estendido com fra¸c˜ao de cura sem covari´aveis108 D.1.1 Mistura padr˜ao . . . 108

D.1.2 Tempo de promo¸c˜ao . . . 116

D.2 Modelo log-gama generalizado estendido com fra¸c˜ao de cura com covari´aveis123 D.2.1 Mistura padr˜ao . . . 123

D.2.2 Tempo de promo¸c˜ao . . . 130

D.3 Modelo log-F generalizado com fra¸c˜ao de cura sem covari´aveis . . . 137

D.3.1 Mistura padr˜ao . . . 137

D.3.2 Tempo de promo¸c˜ao . . . 141

D.4 Modelo log-F generalizado com fra¸c˜ao de cura com covari´aveis . . . 145

D.4.1 Mistura padr˜ao . . . 145

(20)

19

1 Introdu¸c˜ao

Em an´alise de sobrevivˆencia a vari´avel em estudo, comumente, ´e o tempo at´e a ocorrˆencia de um determinado evento de interesse. Este tempo ´e denominado tempo de vida ou at´e a falha e pode ser, por exemplo, o tempo at´e que um paciente venha a ´obito devido `a alguma doen¸ca ou ainda o tempo at´e que um cliente abandone uma determinada institui¸c˜ao financeira. A teoria usual assume que, se observado por um longo per´ıodo de tempo todos os indiv´ıduos ir˜ao falhar em algum momento. Mas, em algumas situa¸c˜oes uma propor¸c˜ao da popula¸c˜ao pode n˜ao estar mais sujeita `a ocorrˆencia deste evento e, por mais longo que seja o tempo de observa¸c˜ao, o evento nunca ocorrer´a para esta parte da popula¸c˜ao. Neste sentido, alguns modelos foram propostos e s˜ao conhecidos na literatura como modelos com fra¸c˜ao de cura ou de longa dura¸c˜ao.

Uma abordagem foi dada, inicialmente, por Boag(1949) e Berkson e Gage (1952) que consideram uma mistura de distribui¸c˜oes. Neste modelo, conhecido como modelo de mistura padr˜ao ´e assumido que uma fra¸c˜ao πda popula¸c˜ao est´a curada e a restante(1−π)

n˜ao est´a. Alternativamente, Yakovlev e Tsodikov (1996) prop˜oem uma nova classe de modelos que envolve uma estrutura de riscos competitivos a qual foi estendida por Chen, Ibrahim e Sinha (1999), e que, neste trabalho ser´a referido como modelo de tempo de promo¸c˜ao (YIN; IBRAHIM,2005;RODRIGUES et al.,2009a). Uma abordagem unificada que inclui o modelo de mistura padr˜ao e o modelo de tempo de promo¸c˜ao como casos particulares ´e proposta por Rodrigues et al. (2009a). Para tal, os autores definem uma vari´avel alet´oria latente, que representa o n´umero de causas que competem para a ocorrˆencia de um determinado evento em estudo, da´ı quando definida a distribui¸c˜ao desta vari´avel, fica determinada uma classe de modelos. As distribui¸c˜oes de Bernoulli e de Poisson representam, respectivamente, os modelos de mistura padr˜ao e de tempo de promo¸c˜ao.

(21)

de vigilˆancia de infec¸c˜oes hospitalares francˆes, em que foi estudado o tempo at´e a ocor-rˆencia de infec¸c˜oes devido `a cateteriza¸c˜ao urin´aria de pacientes internados em Unidades de Terapia Intensiva. Uma outra aplica¸c˜ao diferenciada foi realizada por Araujo(2004), que considerou o modelo de mistura padr˜ao Weibull para ajustar dados de reincidˆencia ao crime, a fim de estimar a propor¸c˜ao de ex-detentos que eram imunes `a reincidˆencia do crime. Louzada Neto, Granzotto e Perdon´a (2010) utilizaram estes modelos na ´area financeira, no contexto de fideliza¸c˜ao e reten¸c˜ao de clientes em institui¸c˜oes financeiras (bancos, seguradoras, financiadoras, etc.). Neste trabalho, foi analisado o tempo at´e que o cliente mudasse de uma empresa para outra, pois tinha-se interesse em saber qual seria o percentual de clientes fidelizados.

Ao considerar os aspectos supracitados e o aumento do interesse no ajuste desses modelos, ´e importante a existˆencia de rotinas amig´aveis e capazes de obter de forma adequada as estimativas de m´axima verossimilhan¸ca dos parˆametros para esses modelos. Muitas vezes, por complica¸c˜oes computacionais ou at´e mesmo por falta de experiˆencia com o software, os usu´arios podem utilizar modelos inadequados que s˜ao ajustados de forma simples em alguns pacotes como, por exemplo, survival (Survival Analysis) deTherneau e Grambsch (2000) e Therneau(2015), pertencente ao dom´ınio do R (R Core Team, 2015) e

S-PLUS.

Historicamente, observa-se em diversossoftwares estat´ısticos, que algumas rotinas foram implementas para ajustar modelos com fra¸c˜ao de cura. Umas das primeiras propostas apresentadas foi a de Peng, Dear e Denham (1998), que implementaram um programa em linguagem em C, intitulado degfcure. Este possui uma vers˜ao avaliada como pacote do S-PLUS, mas pode ser adaptado em ambienteR com ressalvas, uma vez que, funciona apenas nos sistemas operacionaisLINUXeWindows, com vers˜oes doRque sejam32 bits para ambos sistemas. Podem ser ajustados pelo gfcure os modelos de mistura padr˜ao exponencial, de Weibull, gama, de Rayleigh, log-normal, log-log´ıstico, log-gama generalizado, log-F

generalizado e outros casos particulares do log-F generalizado, todos com covari´aveis no parˆametro de forma (modelo de tempo de falha acelerado) e na fra¸c˜ao de cura. No tocante ao m´etodo de otimiza¸c˜ao, para obter as estimativas de m´axima verossimilhan¸ca ´e usado o algoritmo de Newton-Raphson combinado com o de arrefecimento simulado (ou simulated annealing), por´em essa combina¸c˜ao ´e utilizada apenas para distribui¸c˜oes de trˆes ou mais parˆametros, nas demais ´e usada o m´etodo de Newton-Raphson. Os erros padr˜ao associados `as estimativas s˜ao calculados utilizando `a inversa da matriz de informa¸c˜ao observada.

(22)

Cap´ıtulo 1. Introdu¸c˜ao 21

modelar os parˆametros de forma, de escala e os relacionados com a fra¸c˜ao de cura atrav´es de covari´aveis, segundo a parametriza¸c˜ao de Gamel et al. (2000). ´E ainda poss´ıvel ajustar aos dados um modelo semiparam´etrico com fra¸c˜ao de cura, bem como, uma generaliza¸c˜ao que possui o modelo proposto por Boag (1949) e Berkson e Gage (1952) como caso particular. As estimativas dos parˆametros e dos erros padr˜ao associados s˜ao obtidas maximizando a fun¸c˜ao de verossimilhan¸ca, usando o algoritmo de Newton-Raphson. O software tamb´em disponibiliza um conjunto de recursos para an´alise de dados de sobrevivˆencia, a exemplo, tˆem-se os gr´aficos de perfil de verossimilhan¸ca e de res´ıduos deviance.

Lambert (2007) descreve e menciona uma s´erie de fun¸c˜oes desenvolvidas para o

software estat´ıstico STATA, que permite analisar dados de sobrevivˆencia na presen¸ca de fra¸c˜ao de cura. O autor destaca as fun¸c˜oes: lncure, spsurv, cureregr,strsmix estrsnmix. A rotina lncure elaborada por Mario A. Cleves da Stata Corporation, ajusta o modelo de mistura padr˜ao log-normal com covari´aveis na fra¸c˜ao de cura. O programa fornece tamb´em a possibilidade de utilizar um modelo de mistura padr˜ao de riscos proporcionais para dados de tempos discretos, pois solicitando a fun¸c˜ao spsurv desenvolvida porJenkins (2001), obtem-se as estimativas dos efeitos das covari´aveis na taxa de risco e na fra¸c˜ao de cura. J´a a fun¸c˜ao

cureregr comporta os modelos de mistura padr˜ao e de tempo de promo¸c˜ao exponencial, Weibull, gama e log-normal com enfoque param´etrico. Para este caso ´e permitido que todos os parˆametros sejam modelados atrav´es de covari´aveis. As implementa¸c˜oes mais abrangentes s˜ao: strsmix e strsnmix, pois estendem os recursos dispon´ıveis nos comandos supracitados e adicionam o uso de distribui¸c˜oes mais flex´ıveis, como a gama generalizada, mistura de duas distribui¸c˜oes Weibull e mistura de uma distribui¸c˜ao Weibull com uma exponencial. Com rela¸c˜ao aos efeitos das covari´aveis, estes podem ser estudados com respeito a qualquer parˆametro do modelo, ou seja, todos os parˆametros podem ser escritos como fun¸c˜ao das covari´aveis.

Corbi`ere e Joly (2007) desenvolveram um macro1

para Statistical Analysis System

(SAS), denominada de PSPMCM(Parametric and SemiParametric Mixture Cure Models), que possibilita os ajustes dos modelos de mistura padr˜ao param´etrico e semiparam´etrico com covari´aveis nos parˆametros relacionados com fra¸c˜ao de cura e com tempo/taxa de falha. No caso param´etrico, permite considerar as distribui¸c˜oes: exponencial, Weibull, log-normal e log-log´ıstica para modelar os tempos dos indiv´ıduos suscept´ıveis. J´a para o caso semiparam´etrico, pode-se usar o modelo de riscos proporcionais de Cox com fra¸c˜ao de cura, segundo a abordagem de Peng e Dear (2000) e Sy e Taylor (2000). Com rela¸c˜ao aos aspectos computacionais, para maximizar a fun¸c˜ao de verossimilhan¸ca os autores utilizaram a PROC NLMIXED (SAS Institute Inc.,2000), na situa¸c˜ao param´etrica e o algoritmo EM (Expectation Maximization), para o caso semiparam´etrico. Al´em disso, os erros padr˜ao associados `as estimativas dos parˆametros s˜ao obtidos invertendo a matriz de informa¸c˜ao

1

(23)

observada.

Cai et al. (2012, 2013) propuseram o pacote smcure para o dom´ınio do software

R, que permite estimar os parˆametros dos modelos de mistura padr˜ao considerando m´etodos semiparam´etricos. Assim como, na PSPMCM, este pacote ajusta o modelo de riscos proporcionais de Cox com fra¸c˜ao de cura, de acordo com a abordagem de Peng e Dear (2000), Sy e Taylor (2000) e Peng (2003). Al´em disso, ajusta o modelo de tempo de falha acelerado semiparam´etrico proposto por Li e Taylor (2002) e considera a abordagem para estima¸c˜ao deste, apresentada por Zhang e Peng (2007). Para maximizar a fun¸c˜ao de verossimilhan¸ca, faz uso do algoritmo EM e obtˆem os erros padr˜ao associados `as estimativas atrav´es do m´etodo bootstrap.

De modo geral, notou-se que o uso dos modelos de longa dura¸c˜ao ´e efetivado em sua maioria por us´arios que possuem muita experiˆencia em linguagens de programa¸c˜ao com dados, e usam, por exemplo: R,S-PLUS, SAS, STATA, Python,Ox,C, C++ eFortran, para fazer a implementa¸c˜ao desses modelos em seus trabalhos. Pode-se citar, Rodrigues et al.

(2009b) eCastro, Cancho e Rodrigues(2010), que atrav´es do pacoteGAMLSS (Generalized

Additive Models for Location, Scale and Shape)(STASINOPOULOS; RIGBY, 2007) do

R programaram o modelo de Weibull com fra¸c˜ao de cura assumindo que o n´umero de causas que competem para a ocorrˆencia do evento tem distribui¸c˜ao, respectivamente, COM-Poisson e binomial negativa. J´a Ortega et al. (2014) usa a distribui¸c˜ao binomial negativa para o n´umero de risco e a distribui¸c˜ao log-gama generalizada estendida para os tempos dos individuos suscept´ıveis e, desenvolve uma rotina em Ox, que permite ajustar uma nova classe de modelos de regress˜ao com fra¸c˜ao de cura, possuindo com caso particular os modelos de mistura padr˜ao e de tempo de promo¸c˜ao.

Sendo assim, ao considerar as propostas dos autores abordados, a existˆencia de usu´arios sem experiˆencia, a facilidade de acesso ao software2

e a necessidade de ajustar modelos mais flex´ıveis atrav´es da implementa¸c˜ao de uma rotina amig´avel, surgiu a necessi-dade de propor um pacote intitulado flexcure desenvolvido em ambiente R para estimar MTFA com fra¸c˜ao de cura. Este, admitindo covari´aveis no parˆametro de forma e no termo de longa dura¸c˜ao.

1.1 Objetivos

1.1.1

Objetivo geral

O objetivo principal do presente trabalho ´e implementar um pacote na liguagem

R (flexcure) que possua um conjunto de rotinas amig´aveis (de forma did´atica e de f´acil

2

(24)

Cap´ıtulo 1. Introdu¸c˜ao 23

utiliza¸c˜ao) para analisar dados de sobrevivˆencia com fra¸c˜ao de cura, baseado em alguns modelos flex´ıveis.

1.1.2

Objetivos espec´ıficos

❼ Descrever aspectos probabil´ısticos e inferenciais dos modelos gama generalizado, F

generalizado e Weibull na forma estendida de Marshall-Olkin;

❼ Avaliar via simula¸c˜ao o desempenho do pacote proposto considerando diferentes cen´arios;

❼ Comparar resultados de aplica¸c˜oes apresentados na literatura com os obtidos por este pacote para o mesmo conjunto de dados;

❼ Aplicar a ferrementa desenvolvida para um conjunto de dados da ´area financeira.

1.2 Organiza¸c˜ao da disserta¸c˜ao

Os cap´ıtulos deste trabalho est˜ao dispostos da seguinte forma: no Cap´ıtulo 2 s˜ao apresentados alguns conceitos b´asicos de an´alise de dados de sobrevivˆencia, o estimador de Kaplan-Meier, a fam´ılia de posi¸c˜ao e escala e alguns modelos flex´ıveis. No Cap´ıtulo 3 s˜ao abordados a modelagem para dados de sobrevivˆencia com fra¸c˜ao de cura e alguns crit´erios para sele¸c˜ao de modelos. No Cap´ıtulo4s˜ao detalhados algumas especificidades dos aspectos computacionais do pacote flexcure. O Cap´ıtulo 5 aborda o estudo de simula¸c˜ao para os modelos com fra¸c˜ao de cura gama generalizado e F generalizado, com e sem covari´aveis. No Cap´ıtulo 6s˜ao realizadas duas aplica¸c˜oes com conjuntos de dados reais apresentados na literatura, bem como, uma aplica¸c˜ao a um conjunto de dados reais da ´area financeira. Finalmente, no Cap´ıtulo 7 s˜ao enfatizados os principais resultados desenvolvidos neste trabalho e algumas sugest˜oes para trabalhos futuros. S˜ao inclu´ıdos ainda os Apˆendices

(25)

2 An´alise de sobrevivˆencia

Neste cap´ıtulo s˜ao apresentados alguns conceitos b´asicos em an´alise de dados de sobrevivˆencia, a defini¸c˜ao do estimador n˜ao param´etrico de Kaplan-Meier, caracter´ısticas dos modelos probabil´ısticos da fam´ılia de posi¸c˜ao e escala. Ao final, descreve-se trˆes modelos flex´ıveis que representam extens˜oes ou generaliza¸c˜oes dos principais modelos usados em an´alise de dados de sobrevivˆencia, a saber: Weibull na forma estendida de Marshall Olkin, gama generalizado e F generalizado. Sendo estes, apresentados dentro do contexto da fam´ılia de posi¸c˜ao e escala.

2.1 Conceitos b´asicos

An´alise de Sobrevivˆencia ´e um conjunto de m´etodos estat´ısticos que servem para analisar dados correspondentes ao tempo at´e a ocorrˆencia de um determinado evento de interesse, e este tempo ´e na literatura, comumente, denotado de tempo de sobrevivˆencia ou tempo at´e a falha. O conjunto de observa¸c˜oes ´e chamado de dados de sobrevivˆencia. Alguns exemplos s˜ao: o tempo at´e a morte de um paciente devido a alguma enfermidade previamente diagnosticada, o tempo at´e a cura da mesma ap´os algum tratamento, o tempo at´e a falha de um componente eletrˆonico ou o tempo at´e que um indiv´ıduo deixe de ser cliente de uma institui¸c˜ao financeira, entre outros.

Uma caracter´ıstica marcante em dados de sobrevivˆencia ´e a presen¸ca de observa¸c˜oes censuradas, isto ´e, para alguns elementos ocorre algo que impede que o tempo exato da ocorrˆencia do evento de interesse seja observado. Segundo Colosimo e Giolo(2006), dados censurados podem ser encontrados em muitos estudos e por diversos motivos. Dentre estes, a conclus˜ao do acompanhamento antes que todos os elementos pesquisados apresentem o evento de interesse, em estudos cl´ınicos alguns pacientes podem desistir do tratamento ou falecer por uma causa diferente da estudada, em estudos na ´area de confiabilidade o componente eletrˆonico pode n˜ao ter apresentado a falha no momento que os dados foram encaminhados para an´alise, j´a em estudos da ´area financeira o indiv´ıduo pode ter morrido sendo cliente da institui¸c˜ao ou ainda era cliente desta ao fim do estudo. Existem diversos tipos de censura, por´em, neste trabalho ser´a considerado censura `a direita, n˜ao informativa e mecanismo aleat´orio (ver Figura 1desenho (d)), ou seja, o evento de interesse ocorreu `a direita do tempo registrado e o acontecimento da censura n˜ao influencia no que provoca o evento estudado, al´em de ser a encontrada com maior frequˆencia nos dados de sobrevivˆencia.

(26)

Cap´ıtulo 2. An´alise de sobrevivˆencia 25

Sendo assim, no desenho (a) todos os elementos experimentaram o evento at´e o final do estudo, no (b) alguns elementos n˜ao experimentaram o evento de interesse at´e o final do estudo, no (c) o estudo finalizou ap´os uma quantidade pr´e-estabelecida de falhas e no (d) o acompanhamento dos elementos foram interrompidos por alguma causa e alguns pacientes n˜ao experimentaram o evento at´e o final do estudo.

0 5 10 15

Tempos

E

lement

os

(a) Dados completos

1 2 3 4 5 6

7 Final do estudo

0 5 10 15

Tempos

E

lement

os

(b) Dados censurados Mecanismo: tipo I

1 2 3 4 5 6

7 Final do estudo

0 5 10 15

Tempos

E

lement

os

(c) Dados censurados Mecanismo: tipo II

1 2 3 4 5 6

7 Final do estudo

0 5 10 15

Tempos

E

lement

os

(d) Dados censurados Mecanismo: tipo aleatório

1 2 3 4 5 6

7 Final do estudo

Figura 1 – Ilustra¸c˜ao de alguns mecanismos de censura `a direita, em que (❼) representa o tempo de falha e (➒) o de censura.

Seja T uma vari´avel aleat´oria cont´ınua e n˜ao negativa que representa o tempo de sobrevivˆencia de um elemento, com fun¸c˜ao de densidade de probabilidade fT (t) e

fun¸c˜ao de distribui¸c˜ao acumulada FT (t). Define-se as fun¸c˜oes de sobrevivˆencia e de risco,

respectivamente, da seguinte forma:

ST (t) =P (T > t) = 1−FT (t),∀t >0

e

hT (t) = lim △t→0

P(t ≤T < t+△t|Tt)

△t ,

em que estas representam, respectivamente, a probabilidade de um elemento sobreviver pelo menos at´e o tempo t e a taxa instantˆanea de falha ou morte no tempo t condicional `a sobrevivˆencia do elemento at´e o tempo t. Note que ST(t) ´e uma fun¸c˜ao mon´otona

decrescente, cont´ınua, com as seguintes propriedades: ST (0) = 1 e limt→∞ST (t) = 0.

(27)

de sobrevivˆencia impr´oprias (RODRIGUES et al., 2009a), e s˜ao objeto de estudo deste trabalho. Al´em disso, em termo das defini¸c˜oes das fun¸c˜oes de sobrevivˆencia e de risco, exibidas anteriormente, pode-se determinar as seguintes rela¸c˜oes matem´aticas:

fT (t) =−

dST (t)

dt e hT (t) =

fT (t)

ST (t)

. (2.1)

Observe que, conhecendo umas das fun¸c˜oes as demais s˜ao obtidas diretamente por essas rela¸c˜oes, ou seja, pode-se especificar a distribui¸c˜ao da vari´avel ale´atoria T por qualquer uma destas fun¸c˜oes, pois s˜ao igualmente equivalentes.

2.2 O estimador de Kaplan-Meier

Quando se analisa dados censurados ´e necess´ario munir-se de uma metodologia conveniente para tratar deste problema. Entre alguns poss´ıveis estimadores de ST (t), o

estimador n˜ao param´etrico mais utilizado ´e o estimador Produto-Limite, popularmente conhecido como estimador de Kaplan-Meier, pois estes autores foram os pioneiros a propor e discutir suas propriedades (KAPLAN; MEIER,1958).

Sejam t1, t2, . . . , tm os tempos distintos de falha observados em uma amostra de

tamanho n com fun¸c˜ao de sobrevivˆencia ST (t). Suponha que dj elementos falham no

instante tj (j = 1,2, . . . , m) e cj elementos s˜ao censurados no intervalo [tj;tj+1) nos

tempos tj1, tj2, . . . , tjmj, (j = 1,2, . . . , m), sendo t0 = 0. Denote-se tamb´em por nj o

n´umero de elementos em risco em tj, ou seja, n´umero de elementos que n˜ao falharam

nem censuraram no instante exatamente anterior a tj, que pode ser representado por

nj = (cj +dj) +· · ·+ (cm+dm). O estimador de Kaplan-Meier de ST (t), ´e definido para

tkt < tk+1 como:

ˆ ST (t) =

          

1 , t < t1 Qk

j=1

1− dj

nj

, tkt < tk+1

Qm

j=1

1− dj

nj

, tktm.

, k= 1,2, . . . , m−1

O estimador de Kaplan-Meier ´e uma fun¸c˜ao escada mon´otona n˜ao crescente, igual a 1 quandot = 0 e com decrescimento determinado pelo fator(njdj)/nj . Esta fun¸c˜ao

atinge zero no valor tm se, e somente se, este ´ultimo valor representar uma falha. As

principais propriedades de SˆT (t) dizem que este ´e um estimador consistente de ST (t)e

(28)

Cap´ıtulo 2. An´alise de sobrevivˆencia 27

2.3 Alguns modelos flex´ıveis da fam´ılia de posi¸c˜ao e escala

Apesar de existirem t´ecnicas n˜ao param´etricas que tratam deste tipo de dados, em diversas situa¸c˜oes, deseja-se ajustar modelos param´etricos. Alguns modelos ocupam uma posi¸c˜ao de destaque por sua comprovada adequa¸c˜ao a v´arias situa¸c˜oes pr´aticas e, os usados com mais frequˆencia s˜ao os modelos: exponencial, Weibull, gama, log-normal e log-log´ıstico (COLOSIMO; GIOLO,2006).

Diversas propostas de distribui¸c˜oes generalizadas e estendidas vˆem sendo apresen-tadas, com o intuito de oferecer uma estrutura mais flex´ıvel para modelar os dados de sobrevivˆencia (LAI, 2013). O termo flex´ıvel, neste estudo, se refere em geral ao fato destes modelos representarem uma fam´ılia param´etrica de distribui¸c˜oes que permite acomodar fun¸c˜oes de risco que tenham formas n˜ao mon´otonas. Al´em disso, um outro fator impor-tante ´e que na maioria das vezes os modelos usados com mais frequˆencia, dependendo da distribui¸c˜ao, podem ser obtidos como casos particulares dessa fam´ılia e, nestes casos os modelos generalizados ou modificados podem ser utilizados para discrimina¸c˜ao destes submodelos.

H´a, obviamente, muitas outras distribui¸c˜oes que podem ser usadas para analisar dados de sobrevivˆencia, mas neste trabalho deu-se destaque aos modelos cl´assicos: exponen-cial, Weibull, gama, log-normal, log-log´ıstico e algumas de suas extens˜oes e generaliza¸c˜oes, como a gama generalizada e F generalizada, pois s˜ao as mais citadas em livros de referˆen-cia base como Kalbfleisch e Prentice (2002), Lawless (2003) e Colosimo e Giolo (2006). Considerou tamb´em, uma extens˜ao do modelo Weibull, a distribui¸c˜ao Weibull na forma estendida de Mhashall-Olkin (MARSHALL; OLKIN, 1997) e (CORDEIRO; LEMONTE,

2013). Est´a foi escolhida pelo fato de adicionar maior flexibilidade a uma distribui¸c˜ao que se mostra bastante ´util na an´alise de dados de sobrevivˆencia (LAI,2013). Uma revis˜ao dos modelos usuais pode ser encontrada tamb´em em Balakrishnan, Johnson e Kotz (1994) e

Balakrishnan, Johnson e Kotz (1995). A seguir, s˜ao apresentadas as distribui¸c˜oes e suas vers˜oes reparametrizadas, quando for o caso. Bem como, as distribui¸c˜oes associadas ao logaritmo do tempo de falha inseridas dentro do contexto dos modelos de posi¸c˜ao e escala. Este fato ser´a posteriomente explorado na formula¸c˜ao dos modelos com fra¸c˜ao de cura.

2.3.1

Fam´ılia de posi¸c˜

ao e escala

Seja Y = log (T) o logaritmo do tempo de falha. Diz-se que, a distribui¸c˜ao de Y ´e membro da fam´ılia de posi¸c˜ao e escala se for poss´ıvel escrever esta vari´avel aleat´oria da seguinte forma:

Y =µ+σW, (2.2)

(29)

sendo W uma vari´avel aleat´oria com fun¸c˜ao densidade de probabilidade fW (w)e fun¸c˜ao

de sobrevivˆencia SW(w). Assume-se, inicialmente, que esta n˜ao depende de parˆametros

desconhecidos. Desta forma, pode-se denfinir as fun¸c˜oes de densidade de probabilidade e sobrevivˆencia de Y, na devida ordem, como:

fY (y;µ, σ) =

1 σfW

yµ

σ

, y ∈R (2.3)

e

SY (y;µ, σ) =SW

yµ

σ

, y∈R. (2.4)

Analogamente, a distribui¸c˜ao associada ao tempo de sobrevivˆencia pode ser obtida atrav´es da transforma¸c˜ao T = exp (Y)e a fun¸c˜ao de sobrevivˆencia relacionada, neste caso, pode ser expressa por:

ST (t) = SW "

log (t)−µ σ

#

= SW ( log "t α β#) ,

sendo α = exp (µ) e β =σ−1 os parˆametros vinculados a distribui¸c˜ao de T.

Como exposto em Lawless (2003), v´arias das distribui¸c˜oes comuns em an´alise de dados de sobrevivˆencia possuem a propriedade de Y = log (T) ser pertencente a fam´ılia de posi¸c˜ao e escala. Quando assumidos, por exemplo, os modelos: Weibull, log-normal e log-log´ıstico para T, as distribui¸c˜oes deY, de modo respectivo, s˜ao: valor extremo, normal e log´ıstico. Sendo as fun¸c˜oes de sobrevivˆencia de W, dadas nessa ordem:

SW (w) = exp (−ew),

SW (w) = 1−Φ (w)

e

SW (w) = (1 +ew)−1,

com w∈R e sendo Φa fun¸c˜ao de distribui¸c˜ao acumulada da normal padr˜ao.

´

(30)

Cap´ıtulo 2. An´alise de sobrevivˆencia 29

pertence a fam´ılia de posi¸c˜ao e escala, sendo Y =µ+W eW com fun¸c˜ao de sobrevivˆencia dada por:

SW (w;k) = Q(k, ew), w∈R, (2.5)

em que Q(k, a)a fun¸c˜ao integral gama incompleta (ABRAMOWITZ; STEGUN, 1972), obtida por meio de:

Q(k, a) = 1 Γ (k)

∞ ˆ

a

xk−1exdx, (2.6)

que depende da fun¸c˜ao gama (ABRAMOWITZ; STEGUN,1972), definida por:

Γ (k) =

ˆ ∞

0

tk−1etdt. (2.7)

Note que a diferen¸ca deste modelo entre os j´a citados ´e que a distribui¸c˜ao deW

depende de um parˆametro de forma. Al´em de que, sob as condi¸c˜oes apresentadas quando

k = 1, tem-se o modelo exponencial (para T = exp (Y)) como caso particular.

2.3.2

Modelos flex´ıveis

Observe que as distribui¸c˜oes citadas at´e momento s˜ao compostas por, no m´aximo, dois parˆametros e a distribui¸c˜ao de W n˜ao depende de parˆametros desconhecidos, salvo a distribui¸c˜ao gama. Contudo, como pode ser visto em Kalbfleisch e Prentice (2002) e

Lawless (2003), fam´ılias de distribui¸c˜oes com trˆes ou mais parˆametros podem ser obtidas quando permiti-se que em (2.2) a distribui¸c˜ao de W dependa de um ou mais parˆametros de forma.

Neste trabalho s˜ao estudadas trˆes fam´ılias que adicionam a distribui¸c˜ao deW um ou dois parˆametros de forma e incluem algumas distribui¸c˜oes cl´assicas como casos especiais. Esta generaliza¸c˜ao fornece uma maior flexibilidade aos modelos, permitindo um melhor ajuste aos dados de sobrevivˆencia, bem como, possibilitando o uso de procedimentos para discrimina¸c˜ao de modelos encaixados.

2.3.2.1 Distribui¸c˜ao Weibull na forma estendida de Marshall-Olkin

A primeira fam´ılia a ser tratada ser´a a distribui¸c˜ao Weibull na forma estendida de Marshall-Olkin, proposta por (MARSHALL; OLKIN, 1997; MARSHALL; OLKIN,

(31)

distribui¸c˜oes com trˆes parˆametros, como a gama generalizada (STACY,1962) e a log-Burr generalizada (LAWLESS,2003). Essa distribui¸c˜ao permite modelar uma fun¸c˜ao de risco constante, crescente, descrescente ou unimodal e possui como casos particulares os modelos exponencial, Weibull e exponencial na forma estendida de Marshall-Olkin (MARSHALL; OLKIN, 1997).

Se T ´e uma vari´avel aleat´oria com distribui¸c˜ao Weibull na forma estendida de Marshall-Olkin de parˆametrosα >0,β >0eλ >0, as fun¸c˜oes de sobrevivˆencia, densidade de probabilidade e risco s˜ao dadas, respectivamente, por:

ST (t :α, β;λ) =

λexp

t α

β

1−λ¯exp

t α

β, t >0,

fT (t :α, β;λ) =

λβtβ−1expt α

β

αβ

1−¯λexp

t α

β2, t >0

e

hT(t :α, β;λ) =

βtβ−1

αβ

1−¯λexp

α

, t >0,

sendo λ¯ = 1−λ. Ent˜ao, fixando β = 1, obtem-se a distribui¸c˜ao denotada de exponencial na forma estendida de Marshall-Olkin, se λ = 1, obtem-se a distribui¸c˜ao Weibull e se

β = 1 eλ= 1, a distribui¸c˜ao exponencial ´e obtida.

Al´em disso, tomando Y = log (T), tem-se:

SY (y) = P (Y > y) =P (log (T)> y) = P (T > ey) = ST (ey)

=

λexp

eα

1−¯λexp

eα

=

λexp

"

elog(eyα)

(β−1)−1#

1−¯λexp

"

elog(eyα)

(β−1)−1#

(32)

Cap´ıtulo 2. An´alise de sobrevivˆencia 31

SY (y) =

λexp

ey

1

σ

1−¯λexp

ee 1

σ

= λexp

h

−expyσµi

1−¯λexph−expyσµi

= SW

yµ

σ

, y∈R,

sendo as fun¸c˜oes de sobrevivˆencia e densidade de probabilidade de W, respectivamente, expressas da seguinte forma:

SW(w;λ) =

λexp (−ew)

1−λ¯exp (−ew), w∈R

e

fW(w;λ) =

λexp (w−ew) n

1−λ¯exp (−ew)o2, w∈R.

Neste caso ´e dito queW tem distribui¸c˜ao valor extremo padr˜ao na forma estendida de Marshall-Olkin e conforme (2.4), a distribui¸c˜ao de Y ´e membro da fam´ılia de posi¸c˜ao e escala. Al´em disso, pode-se afirmar que Y segue um modelo de valor extremo na forma estendida de Marshall-Olkin (ou log-Weibull na forma estendida de Marshall-Olkin), uma vez que, satisfaz a defini¸c˜ao geral dada para esta extens˜ao (MARSHALL; OLKIN,1997, express˜ao 1.1).

2.3.2.2 Distribui¸c˜ao gama generalizada

A segunda extens˜ao de modelo utilizada neste trabalho ´e a distribui¸c˜ao gama generaliza proposta por Stacy(1962), que tornou-se muito importante na an´alise de dados de sobrevivˆencia, pelo fato de representar uma fam´ılia param´etrica que apresenta diversas formas de fun¸c˜oes de risco (crescente, descrescente e unimodal). Como exemplos de casos particulares, tˆem-se as distribui¸c˜oes exponencial, Weibull, gama, log-normal, dentre outros, que podem ser vistos em Valen¸ca (1994) e Khodabin e Ahmadabadi(2010), que discorrem sobre algumas propriedades dessa distribui¸c˜ao.

SeT ´e uma vari´avel aleat´oria com distribui¸c˜ao gama generalizada de parˆametros

(33)

ST (t;α, β, k) =Q " k, t α β#

, t >0,

fT (t;α, β, k) =

β αΓ (k)

t

α

βk−1

exp " − t α β#

, t >0

e

hT (t;α, β, k) =

β αΓ (k)

t

α

βk−1

exp

"

t

α

β# (

Q

"

k,

t

α

β#)−1

, t >0,

em que α representa o parˆametro de escala, β e k os parˆametros de forma, sendo Q(k, a)

a fun¸c˜ao integral gama incompleta definida em (2.6) e Γ (k) a fun¸c˜ao gama dada em (2.7).

Note que, fixando β = 1 e k = 1, a distribui¸c˜ao exponencial ´e obtida como caso particular da gama generalizada, no caso em que k = 1 tem-se a distribui¸c˜ao Weibull, se

β = 1, a distribui¸c˜ao gama e a distribui¸c˜ao log-normal ´e obtida quando k → ∞.

Prentice(1974) mostrou que se T tem distribui¸c˜ao gama generalizada, Y = log (T)

segue um modelo da fam´ılia de posi¸c˜ao e escala, podendo ser representado porY =µ+σW, em queµ= log (α),σ=β−1eW ´e uma vari´avel aleat´oria que possui distribui¸c˜ao log-gama

com fun¸c˜ao de sobrevivˆencia dada pela equa¸c˜ao (2.5) e fun¸c˜ao densidade de probabilidade dada por:

fW(w;k) =

exp (kw−ew)

Γ (k) , w∈R. (2.8)

SegundoValen¸ca (1994), existe uma s´erie de dificuldades na estima¸c˜ao dos parˆame-tros associados a distribui¸c˜ao do Y, denotada de distribui¸c˜ao log-gama generalizada. Al´em disso, Lawless(2003) cita que se o conjunto de dados n˜ao for suficientemente grande a estimativa do parˆametro k pode ser imprecisa. Ainda segundo este autor ´e frequentemente ´

util reparametrizar este modelo, uma vez que, a reparametriza¸c˜ao torna a distribui¸c˜ao log-gama generalizada mais est´avel computacionalmente. Neste tabalho, deu-se preferˆencia `a reparametriza¸c˜ao proposta por Prentice (1974), pois al´em de estender o modelo (2.8) atenua algumas dificuldades t´ecnicas que surgem ao usar essa distribui¸c˜ao. Partindo deste ponto de vista, ´e descrito a seguir a extens˜ao do modelo log-gama generalizado, denotado de modelo log-gama generalizado estendido, considerando a simplifica¸c˜ao deste apresentada em Farewell e Prentice(1977) e Lawless (1980).

(34)

Cap´ıtulo 2. An´alise de sobrevivˆencia 33

dito estendido, pois Prentice (1974) considera que o parˆametro q pode ser negativo, como pode ser visto na fun¸c˜ao de densidade de probabilidade de W, dada por:

fW (w;q) =     

|q|

Γ(q−2)(q−2) q−2

exp [q−1wq−2exp (qw)], se q 6= 0 1

√ 2π exp

w22, se q = 0, w∈R.

A fun¸c˜ao de sobrevivˆencia de W depende da fun¸c˜ao de distribui¸c˜ao acumulada da normal padr˜ao (Φ) e da fun¸c˜ao integral gama incompleta definida em (2.6), sendo determinada por:

SW(w) =           

Q[q−2, q−2exp (qw)], q >0

1−Q[q−2, q−2exp (qw)], q <0

1−Φ (w), q = 0

, w∈R.

Por consequˆencia de (2.3) e de (2.4), as fun¸c˜oes de densidade de probababilidade e sobrevivˆencia de Y s˜ao, respectivamente:

fY (y;µ, σ, q) =     

|q|

Γ(q−2)(q−2) q−2

expnq−1yµ σ

q−2exphqyµ σ

io

, se q 6= 0

1 √

2πexp

−1 2

yµ

σ

2

, se q= 0, y∈R

e

SY (y) =           

Qnq−2, q−2exphqyµ σ

io

, se q >0

1−Qnq−2, q−2exphqyµ σ

io

, se q <0

1−Φyσµ, se q = 0

, y ∈R.

Como casos particulares do modelo log-gama generalizado estendido, tˆem-se, por exemplo, os modelos exponencial (q=σ = 1), Weibull (q = 1), Weibull rec´ıproco (q=−1), log-normal (q = 0) e log-gama generalizado parametrizado (q > 0). Para mais detalhes

sobre reparametriza¸c˜ao e simplifica¸c˜ao do modelo log-gama generalizado, pode-se consultar

Valen¸ca (1994) e Lawless (2003).

2.3.2.3 Distribui¸c˜ao F generalizada

(35)

Prentice (2002), a principal caracter´ıstica deste modelo ´e que ele ´e ´util na discrimina¸c˜ao entre modelos probabil´ısticos alternativos para an´alise dos dados, bem como, tamb´em possui a vantagem de poder adaptar-se a uma ampla variedade de formas de distribui¸c˜oes. Al´em disso, aF generalizada pode relaxar fortes suposi¸c˜oes de distribui¸c˜ao mais habituais, permitindo assim descobrir estruturas nos dados que poderiam ter sido perdidas (PENG;

DEAR; DENHAM, 1998).

SejaV uma vari´avel aleat´oria com distribui¸c˜ao F com2s1 e2s2 graus de liberdade,

com fun¸c˜ao de densidade de probabilidade definida por:

fV (v) =

(s1/s2)s1vs1−1

B(s1, s2) [1 + (s1/s2)v]s1+s2

, v >0,

sendo s1 >0,s2 >0 eB(a, b)a fun¸c˜ao beta (ABRAMOWITZ; STEGUN, 1972),

determi-nada da seguinte forma:

B(a, b) =

ˆ ∞

0

xa−1

(1 +x)a+bdx=

Γ (a) Γ (b) Γ (a+b) .

Pode-se mostrar queT =αVβ−1

, possui distribui¸c˜aoF generalizada com parˆametros

α >0, β >0, s1 >0 es2 >0 (BALAKRISHNAN; JOHNSON; KOTZ, 1995). Para esta

distribui¸c˜ao as fun¸c˜oes de sobrevivˆencia, densidade de probabilidade e risco s˜ao dadas, respectivamente, por:

ST (t;α, β, s1, s2) = Iu(s2, s1), t >0,

fT (t;α, β, s1, s2) =

β(s1/s2)s1(t/α)βs1−1

αB(s1, s2) h

1 + (s1/s2) (t/α)β

is1+s2, t >0

e

hT (t;α, β, s1, s2) =

tβus2(1u)s1

B(s1, s2)Iu(s1, s2)

t >0

em que u=s2 h

s2 +s1(t/α)β i1

e Ik(a, b) ´e a fun¸c˜ao beta incompleta (ABRAMOWITZ;

STEGUN, 1972), definida da seguinte forma:

Ik(a, b) =

ˆ k

0

B(a, b)−1xa−1(1−x)b−1dx 0< k <1. (2.9)

Imagem

Figura 1 – Ilustra¸c˜ao de alguns mecanismos de censura `a direita, em que (❼) representa o tempo de falha e ( ➒) o de censura.
Figura 2 – Gr´afico da sobrevivˆencia estimada pelo m´etodo de Kaplan-Meier para dados referentes ao tempo at´e a recidiva do cˆancer de mama em 355 pacientes diagnosticadas e previamente tratadas no Hospital Prof
Figura 3 – Esquema descritivo dos recursos dispon´ıveis atrav´es do pacote flexcure.
Tabela 3 – Estimativas (m´edia), erros padr˜ao (EP) e raiz dos erros quadr´aticos m´edios emp´ıricos (REQM) dos parˆametros do modelo de mistura padr˜ao log-gama generalizado estendido (q &lt; 0) com base em 10000 r´eplicas, com 20% de censura e variando o
+7

Referências

Documentos relacionados

Este artigo está dividido em três partes: na primeira parte descrevo de forma sumária sobre a importância do museu como instrumento para construção do conhecimento, destaco

Disto pode-se observar que a autogestão se fragiliza ainda mais na dimensão do departamento e da oferta das atividades fins da universidade, uma vez que estas encontram-se

Local de realização da avaliação: Centro de Aperfeiçoamento dos Profissionais da Educação - EAPE , endereço : SGAS 907 - Brasília/DF. Estamos à disposição

A estabilidade do corpo docente permanente permite atribuir o conceito muito bom, segundo os parâmetros da área, para o item 2.2 (pelo menos 75% dos docentes permanentes foram

De seguida, vamos adaptar a nossa demonstrac¸ ˜ao da f ´ormula de M ¨untz, partindo de outras transformadas aritm ´eticas diferentes da transformada de M ¨obius, para dedu-

•   O  material  a  seguir  consiste  de  adaptações  e  extensões  dos  originais  gentilmente  cedidos  pelo 

Código Descrição Atributo Saldo Anterior D/C Débito Crédito Saldo Final D/C. Este demonstrativo apresenta os dados consolidados da(s)

In: VI SEMINÁRIO NACIONAL DE PESQUISADORES DA HISTÓRIA DAS COMUNIDADES TEUTO-BRASILEIRAS (6: 2002: Santa Cruz do Sul).. BARROSO, Véra Lúcia