• Nenhum resultado encontrado

Modelos log-simétricos com fração de cura

N/A
N/A
Protected

Academic year: 2021

Share "Modelos log-simétricos com fração de cura"

Copied!
92
0
0

Texto

(1)

Programa de Pós-Graduação em Matemática Aplicada e Estatística

Mestrado em Matemática Aplicada e Estatística

Modelos log-simétricos com fração de cura

Joyce Bezerra Rocha

Natal-RN Maio 2018

(2)

Modelos log-simétricos com fração de cura

Trabalho apresentado ao Programa de Pós-Graduação em Matemática Aplicada e Es-tatística da Universidade Federal do Rio Grande do Norte, em cumprimento com as exigências legais para obtenção do título de Mestre.

Área de Concentração: Probabilidade e Es-tatística.

Linha de Pesquisa: Modelos de Regressão.

Orientador(a)

Dra. Dione Maria Valença

Co-orientador

Dr. Francisco Moisés C. de Medeiros

Universidade Federal do Rio Grande do Norte  UFRN

Programa de Pós-Graduação em Matemática Aplicada e Estatística  PPGMAE

Natal-RN Maio 2018

(3)

Rocha, Joyce Bezerra.

Modelos log-simétricos com fração de cura / Joyce Bezerra Rocha. - 2018.

91f.: il.

Dissertação (mestrado) - Universidade Federal do Rio Grande do Norte, Centro de Ciências Exatas e da Terra, Programa de Pós-Graduação em Matemática Aplicada e Estatística. Natal, 2018. Orientadora: Dione Maria Valença.

Coorientador: Francisco Moisés Cândido de Medeiros.

1. Análise de sobrevivência - Dissertação. 2. Fração de cura - Dissertação. 3. Modelos log-simétricos - Dissertação. I. Valença, Dione Maria. II. Medeiros, Francisco Moisés Cândido de. III. Título.

RN/UF/CCET CDU 519.24-7:61

Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Ronaldo Xavier de Arruda - CCET

(4)

tada por Joyce Bezerra Rocha e aceita pelo Programa de Pós-Graduação em Matemática Aplicada e Estatística da Universidade Federal do Rio Grande do Norte, sendo aprovada por todos os membros da banca examinadora abaixo especicada:

Dra. Dione Maria Valença Orientador(a)

Departamento de Estatística UFRN

Dr. Francisco Moisés Cândido de Medeiros Co-orientador

Departamento de Estatística UFRN

Dra. Mariana Correia de Araújo

Departamento de Estatística UFRN

Dra. Michelli Karinne Barros da Silva

Departamento de Estatística UFCG

(5)
(6)

Agradecimentos

A Deus, por me dar força e determinação em todos os momentos.

À Professora Dr. Dione Maria Valença, que sempre esteve me incentivando para que pudesse concretizar este trabalho e aprimorar meus conhecimentos.

Ao Professor Dr. Francisco Moisés Cândido de Medeiros, co-orientador desta disser-tação, por sua ajuda, interesse e paciência no nosso trabalho.

A toda minha família por acreditarem em mim.

Aos meus irmãos, Emannuel Rocha e Jéssica Rocha por compreenderem a minha ausência, acreditarem em cada passo desta caminhada e serem exemplos para minha vida.

Aos meus pais, Marliete e Alcidézio, por nunca medirem esforços para que eu pudesse estudar e por sempre me incentivarem, mesmo distante.

Ao Professor Dr. Pledson Guedes de Medeiros, que foi muito mais que um professor, foi um amigo, sempre incentivando para que eu e meus colegas pudéssemos continuar no curso. Esteve presente sempre que pôde, sempre justo, compreensivo e disposto a nos ajudar no que fosse preciso.

Aos meus amigos e companheiros da vida Felipe, Inara, Francimário, Fidel, pela ami-zade, cooperação e lealdade.

Às minhas amigas Amanda Carla, Clara Andrade, Amanda de França, Lílian Sabino e aos meus amigos Mário, Wellington e Victor que me incentivaram muito, principalmente nesta etapa nal. A vocês agradeço, também, a amizade sincera, o companheirismo e o carinho que sempre demonstraram.

À Comissão de Apoio Pessoal do Ensino Superior CAPES pelo suporte nanceiro. A todas as pessoas que, direta ou indiretamente, contribuíram para a execução deste trabalho.

(7)
(8)

Autor: Joyce B. Rocha Orientadora: Profa Dra. Dione M. Valença

Co-orientador: Prof. Dr. Francisco M. C. de Medeiros

Resumo

Os modelos de longa duração são de grande interesse na modelagem estatística que en-volve dados referentes ao tempo até a ocorrência de um determinado evento em que uma parcela da população é imune ao mesmo. Para estes modelos, também conhecidos com modelos de sobrevivência com fração de cura, existem na literatura diversas propostas para a modelagem com abordagem paramétrica. Este trabalho tem como objetivo propor e estudar propriedades do modelo de longa duração considerando que a distribuição de probabilidade para modelar os tempos dos indivíduos susceptíveis segue algum modelo da classe log-simétrica de distribuições. Esta classe de distribuições é caracterizada por dis-tribuições contínuas, estritamente positivas e assimétricas, incluindo disdis-tribuições como, por exemplo, t-Student, logística I, logística II, normal-contaminada, log-exponencial-potência e log-slash, entre outras. A classe log-simétrica é bastante exível para incluir distribuições bimodais e acomodar outliers. Neste modelo, chamado aqui de modelo log-simétrico com fração de cura, as variáveis explicativas são incluídas no pa-râmetro associado à fração de cura. Avaliamos o desempenho do modelo proposto por meio de amplos estudos de simulação e, nalmente, consideramos uma aplicação a dados reais em um estudo que busca identicar fatores que inuenciam na imunidade a reações hansênicas de pacientes portadores de hanseníase.

(9)

Author: Joyce Bezerra Rocha Advisor: Profa Dra. Dione M. Valença

Co-advisor: Prof. Dr. Francisco M. C. de Medeiros

Abstract

Long-term models are of great interest in statistical modeling that involves time-to-event data in which a fraction of the population is immune to this event. For these models, also known as cure fraction models, there are in the literature several proposals considering parametric aproach. We propose and study properties of the long-term model conside-ring that the distributions of lifetimes of the susceptible individuals belong to the log-symmetric class of distributions. This class is characterized by continuous, strictly positive and asymmetric distributions including distributions such as log-t-Student, log-logistic I, log-logistic II, log-normal-contaminated, log-exponential-power, log-slash, among others. The log-symmetric class is quite exible to include bimodal distributions and t dataset with outlying observations. In this model, here called the log-symmetric model with cure rate, the explanatory variables are included through the parameter associated with the cure fraction. We evaluate the performance of the proposed model through extensive si-mulation studies and consider an application to real data in a study to identify factors which inuence the immunity of leprosy reactions in patients with leprosy.

(10)

Sumário

1 Introdução p. 11

2 Modelos de sobrevivência com fração de cura p. 15

2.1 Conceitos básicos . . . p. 16 2.2 Modelo unicado de longa duração . . . p. 17 2.3 Inferência para o modelo unicado de longa duração . . . p. 20 2.4 Critério para seleção dos modelos . . . p. 22

3 Modelos log-simétricos com fração de cura p. 24

3.1 A classe log-simétrica . . . p. 24 3.2 A classe log-simétrica em Análise de Sobrevivência . . . p. 26 3.3 Modelo log-simétrico com fração de cura . . . p. 29 3.3.1 Modelo de mistura padrão log-simétrico . . . p. 31 3.3.2 Modelo de tempo de promoção log-simétrico . . . p. 34 3.3.3 Modelo geométrico log-simétrico . . . p. 37

4 Estudo de Simulação p. 41

4.1 Geração dos dados e obtenção das estimativas . . . p. 41 4.2 Resultados . . . p. 43 4.2.1 Modelo de tempo de promoção log-normal . . . p. 43 4.2.2 Modelo de tempo de promoção log-t-Student . . . p. 48 4.2.3 Modelo de tempo de promoção Birnbaum Saunders estendido . p. 57

(11)

5.1 Introdução . . . p. 67 5.2 Incluindo variáveis regressoras no modelo . . . p. 70

6 Considerações nais p. 73

Referências p. 75

Apêndice A -- Aspectos computacionais p. 78

A.1 Simulação . . . p. 78 A.2 Aplicação . . . p. 84

(12)

1 Introdução

A Análise de Sobrevivência é uma área da estatística que estuda o tempo até a ocor-rência de um determinado evento de interesse. Este tempo é comumente chamado de tempo de falha, podendo ser o tempo até a morte de um paciente, o tempo até a cura ou da remissão (cura) até recidiva (retorno) de um câncer e também o tempo até a falha de um equipamento. A principal característica de dados de sobrevivência é a presença de censura, que é uma observação parcial da resposta, isto é, quando por algum motivo não é possível observar o tempo até a ocorrência do evento em todos os indivíduos. Por exemplo, o paciente pode morrer por uma causa diferente do estudo ou desistir do tratamento e o pesquisador perde o seu acompanhamento, ou ainda quando o estudo é nalizado antes que o evento de interesse ocorra para todos os pacientes.

Segundo Colosimo e Giolo (2006), embora exista uma série de modelos probabilísticos utilizados em análise de dados de sobrevivência, alguns deles ocupam uma posição de destaque por sua comprovada adequação a várias situações práticas. Entre estes mode-los, é possível citar o exponencial, o Weibull e o log-normal, (ver Rutqvist e Wallgren (1985), Dantas (2008), Santos (2009) e Fonseca et al. (2013)). Existe na literatura uma extensa quantidade de distribuições cujo o suporte é o intervalo (0, ∞). Por exemplo, podemos citar dentre algumas distribuições exíveis, a distribuição Weibull modicada generalizada (Carrasco et al., 2008), Gaussiana inversa generalizada (Jorgenson, 1982) e a distribuição gama generalizada (Stacy, 1962), que são distribuições com vários modelos co-nhecidos como casos particulares, por exemplo, a exponencial, Weibull, gama, log-normal e log-logística. Essas duas últimas distribuições fazem parte de uma classe de distribuição conhecida como classe de distribuições log-simétricas.

A classe de distribuições log-simétricas é caracterizada por distribuições contínuas, estritamente positivas e assimétricas. Ela é obtida a partir de uma transformação expo-nencial de uma variável aleatória com distribuição simétrica. Segundo Medeiros e Ferrari (2017), essa classe inclui distribuições com caudas mais leves e mais pesadas do que as da distribuição log-normal. Esta família inclui as distribuições log-normal, log-t-Student,

(13)

Harmonic law, Birnbaum-Saunders, Birnbaum-Saunders-t, Birnbaum-Saunders generali-zada, log-normal-contaminada, log-exponencial-potência, log-slash, entre outras. Vanegas e Paula (2016) estudaram as propriedades estatísticas dessa classe e, dentre várias pro-priedades, vericaram que os dois parâmetros envolvidos são interpretados diretamente como medidas de posição e escala, sendo um deles a mediana, que é uma medida robusta na presença de outliers, e o outro a dispersão dos dados. Na análise de sobrevivência a mediana é uma medida muito informativa, de acordo com Lawless (2011) página 93, a es-timativa média de uma distribuição é útil em muitos contextos, mas para distribuições de tempo de vida os quantis da distribuição são geralmente mais interessantes. A mediana, por exemplo, é frequentemente usada como medida de localização ou tendência central e possui duas vantagens sobre a média, a primeira é que ela sempre existe desde que S(x) < 0.5, quando x tende ao innito, enquanto a média pode não existir, e a segunda, que é mais fácil de estimar quando os dados são censurados.

Vanegas e Paula (2017) estudaram modelos log-simétricos para ajustar dados de so-brevivência. Especicamente, eles propõem um modelo de regressão semiparamétrico para análisar dados estritamete positivos e assimétricos na presença de censura não informativa. Os autores adotam uma estrutura não linear para a mediana e uma estrutura não para-métrica para modelar o parâmetro de assimetria, considerando algum modelo da classe de distribuições log-simétricas. Esses modelos exibilizam a suposição de erros log-normais incluindo outras distribuições dessa classe.

Um dos pressupostos básicos dos modelos de sobrevivência é de que todos os indi-víduos irão apresentar o evento de interesse dado que eles sejam acompanhados por um período sucientemente grande de tempo. No entanto, em algumas situações, nem todos os indivíduos estarão susceptíveis ao evento de interesse por mais longo que seja o tempo de acompanhamento, esses indivíduos são denominados como imunes ou curados (Maller e Zhou, 1996). Os modelos de longa duração (long term) ou modelos com fração de cura, ajustam dados com estas características. Os modelos de longa duração mais conhecidos são: o modelo de mistura padrão, introduzido inicialmente por Boag (1949) e desenvolvido por Berkson e Gage (1952), e o modelo de tempo de promoção, proposto por Yakovlev et al. (1993) e estendido por Chen et al. (1999). O modelo de mistura padrão divide a população em dois grupos e consiste na mistura de duas distribuições para estes dois gru-pos. Já o modelo de tempo de promoção envolve uma estrutura de riscos competitivos em que n fatores competem para a ocorrência do evento de interesse. Rodrigues et al. (2009) propuseram um modelo unicado de longa duração que tem como casos particulares o modelo de mistura padrão e o modelo de tempo de promoção. Ortega et al. (2009)

(14)

apre-sentaram o modelo de regressão log-gama generalizado com fração de cura, englobando como casos especiais os modelos de regressão exponencial, Weibull e log-normal com fra-ção de cura. Cancho et al. (2012) apresentaram um modelo de longa durafra-ção assumindo que o número de causas competindo para a ocorrência do evento de interesse, também conhecido como distribuição de incidência, segue uma distribuição geométrica e os tempos até a ocorrência do evento de interesse, também chamado de distribuição de latência, se-gue uma distribuição Birnbaum-Saunders. Fonseca et al. (2013) apresentaram um estudo simulação nos modelos de sobrevivência com fração de cura envolvendo uma estrutura de risco competitivo com covariáveis categóricas faltantes, na qual avaliam separadamente os efeitos do aumento da fração de curados e da proporção de censura entre os indivíduos imunes nas estimativas de máxima verossimilhança dos parâmetros dos modelos estuda-dos. Hashimoto et al. (2014) propuseram um modelo de sobrevivência de longa duração em que a distribuição de incidência segue uma distribuição de Poisson e a distribuição de latência segue uma distribuição Birnbaum-Saunders.

Neste trabalho, propomos o modelo de longa duração log-simétrico, isto é, consi-deramos que a distribuição de probabilidades para modelar os tempos dos indivíduos susceptíveis ao evento de interesse segue uma distribuição da classe de distribuições log-simétricas e para os casos particulares apresentados, consideramos para a distribuição de incidência as distribuições de Bernoulli, de Poisson e geométrica. São obtidas as funções de sobrevivência, densidade e risco populacional para o modelo geral e para alguns casos particulares, assim como as funções de verossimilhança e a função escore. Este trabalho generaliza os resultados dos modelos propostos por Hashimoto et al. (2014) e Cancho et al. (2012) citados anteriormente. Avaliamos o desempenho do modelo proposto através de amplos estudos de simulação. Finalmente, aplicamos este modelo a dados reais em um estudo que busca identicar fatores que inuenciam na imunidade a reações hansênicas de pacientes portadores de hanseníase.

No Capítulo 2 são resumidos os conceitos básicos sobre análise de sobrevivência, bem como os conceitos associados a modelos com fração de cura, através da abordagem uni-cada proposta por Rodrigues et al. (2009). No Capítulo 3 apresentamos alguns conceitos da classe de distribuições log-simétricas e propomos no caso geral os modelos log-simétricos com fração de cura, detalhando alguns casos particulares. No Capítulo 4 são apresentados os resultados do estudo de simulação, com o objetivo de avaliar o desempenho das esti-mativas de máxima verossimilhança dos modelos propostos no Capítulo 3. No Capítulo 5 apresentamos uma aplicação deste modelo a um conjunto de dados reais em um estudo que busca identicar fatores que inuenciam na imunidade a reações hansênicas de

(15)

paci-entes portadores de hanseníase. No Capítulo 6 apresentamos as considerações nais e as possibilidades de pesquisas futuras. Por m, no Apêndice A, disponibilizamos o código em R utilizado no estudo de simulação e na aplicação deste trabalho.

(16)

2 Modelos de sobrevivência com

fração de cura

A análise de sobrevivência é formada por técnicas estatísticas para analisar dados que consistem nos tempos até a ocorrência de um determinado evento de interesse, comu-mente chamado de tempo de sobrevivência ou tempo de vida. Por exemplo, o tempo até a morte de um paciente, o tempo até a recidiva de um tumor, o tempo até a falência de uma empresa ou ainda o tempo até a falha de um equipamento eletrônico.

O fato mais importante que caracteriza os estudos desta área é a presença de censura nos dados, que é a observação parcial da resposta, isto é, quando, por algum motivo, não é possível observar o tempo até a ocorrência do evento em todos os indivíduos. Por exemplo, o paciente pode morrer por uma causa diferente do estudo ou desistir do tratamento e o pesquisador perde o seu acompanhamento, ou ainda quando o estudo é nalizado antes que o evento de interesse ocorra para todos os pacientes. Dessa forma, a única informação que dispomos é a que o tempo até a ocorrência do evento de interesse é maior do que o tempo observado. De acordo com Colosimo e Giolo (2006), se as observações censuradas forem omitidas desse tipo de estudo, podemos obter estimativas viesadas, tendo em vista que existem informações sobre o tempo de vida daqueles pacientes, embora incompletas. Um dos pressupostos básicos dos modelos de sobrevivência usuais é de que todos os indivíduos irão apresentar o evento de interesse desde que eles sejam acompanhados por um período sucientemente grande de tempo. Contudo, nem sempre todos os indivíduos estarão susceptíveis ao evento, sendo possível, nestes casos, separar a população em dois grupos: susceptíveis e imunes. Os indivíduos do grupo dos imunes sempre serão censurados ao nal do estudo, não sendo possível diferenciá-los das censuras ocorridas nos indivíduos susceptíveis ao evento. Por essa razão, há o interesse em estimar a fração de indivíduos imunes presente na população. Os chamados modelos de longa duração ou modelos com fração de cura foram elaborados para modelar dados com essa característica. Os dois mo-delos mais conhecidos desta área são o modelo de mistura padrão introduzido inicialmente

(17)

por Boag (1949) e Berkson e Gage (1952) e o modelo de tempo promoção proposto por Yakovlev et al. (1993) e estendido por Chen et al. (1999). Rodrigues et al. (2009) pro-põem o modelo unicado de longa duração que tem como casos particulares os modelos de mistura padrão e tempo promoção.

Segundo Maller e Zhou (1996), se em um estudo de sobrevivência existem indiví-duos imunes presentes e os dados são modelados com base em modelos convencionais que ignoram esta ocorrência, os resultados podem ser enganosos. Estes mesmos autores comentam ainda que o tempo de acompanhamento deve ser sucientemente grande para se ter indícios reais de que existe uma fração de curados (ou imunes). Se o tempo de acompanhamento for sucientemente grande e ocorrer um alto percentual de censura à direita no m do estudo, existe indícios da presença da fração de curados na população.

Uma forma de perceber se existe fração de cura é por meio do gráco da função de sobrevivência empírica, que estima a curva de sobrevivência teórica também conhecida como estimador de Kaplan-Meier (Kaplan e Meier, 1958). Podemos supor a existência de imunes na população se existe um alto percentual de censura e se este gráco se estabiliza em um valor estritamente positivo durante um intervalo de tempo razoável.

2.1 Conceitos básicos

Considere T uma variável aleatória contínua não-negativa, que representa o tempo até a ocorrência de um determinado evento, com função densidade de probabilidade f(·). A função de distribuição acumulada (f.d.a.) de T é dada por:

F (t) = P (T ≤ t) = Z t

0

f (x)dx, t ∈ R+.

Denimos a função de sobrevivência S(·) por S(t) = P (T > t) =

Z ∞

t

f (x)dx = 1 − F (t), t ∈ R+,

sendo interpretada como a probabilidade de um indivíduo car livre do evento de interesse pelo menos t unidades de tempo, ou seja, a probabilidade do evento ocorrer no instante superior a t.

A função risco da variável T , denotada por h(·), é denida por: h(t) = lim ∆t→0 P (t < T ≤ ∆t|T > t) ∆t = f (t) S(t), t ∈ R +.

(18)

Essa função representa o risco de falha instantânea no tempo t, dado que o indivíduo sobreviveu até este tempo. A distribuição do tempo de vida pode ser melhor compreendida, em alguns casos, por esta função (também conhecida como taxa de falha), pois descreve a forma pela qual a taxa instantânea de falha muda com o tempo.

Abaixo temos algumas relações matemáticas entre as funções f(·), S(·) e h(·). f (t) = −∂S(t) ∂t , h(t) = f (t) S(t) = − ∂ log S(t) ∂t , H(t) = Z t 0 h(x)dx = − log S(t), S(t) = exp  − Z t 0 h(x)dx  = exp[−H(t)].

Note que S(0) = 1, limt→∞S(t) = 0, h(t) ≥ 0 e R ∞

0 h(t)dt = ∞. Além disso, o p-ésimo

quantil de T , denotado tp, é denido por P (T ≤ tp) = p, isto é, tp = F−1(p).

2.2 Modelo unicado de longa duração

A teoria proposta por Rodrigues et al. (2009) usa a função geradora de uma sequência de números reais denida por Feller (1968), formada por probabilidades de uma variável aleatória discreta, para denir a função de sobrevivência de longa duração de um modelo. Esta abordagem que relaciona os principais modelos propostos de sobrevivência com fração de cura em uma única classe é descrita a seguir.

Suponha que existam n indivíduos em um estudo e associados a cada um deles estejam denidas as seguintes variáveis:

• M ≡ O número de causas ou fatores competindo para a ocorrência do evento de interesse, com distribuição de probabilidade pm = Pθ(M = m), sendo θ o parâmetro

da distribuição;

• Zk ≡ O tempo até a ocorrência do evento devido à k-ésima causa. Dado M =

m, as variáveis aleatórias Z1, Z2, ..., Zm são i.i.d. (independentes e identicamente

distribuídas) e independentes de M, com função de sobrevivência S(t);

• T ≡O tempo até a ocorrência do evento, denido como T = min {Z0, Z1, Z2, ..., ZM},

(19)

com-petindo para a ocorrência do evento de interesse, ou seja, esta suposição permite a ocorrência de um tempo de vida innito para o indivíduo imune.

As variáveis M e Zk, k = 1, · · · , m, são variáveis aleatórias latentes (não observáveis),

enquanto que a variável T é observável. A seguir temos a função de sobrevivência para este modelo, que é conhecida como função de sobrevivência de longa duração (Rodrigues et al., 2009). Sp(t) = P (T > t) = ∞ X m=0 P (T > t, M = m) = ∞ X m=0 P (T > t | M = m)Pθ(M = m) = Pθ(M = 0) + ∞ X m=1 P (T > t | M = m)Pθ(M = m) = p0+ ∞ X m=1 P (min{Z1, Z2, · · · , Zm} > t | M = m)pm = p0+ ∞ X m=1 P (Z1 > t)P (Z2 > t) · · · P (Zm> t)pm = p0+ ∞ X m=1 pm[S(t)]m, (2.1)

em que P (T > t | M = 0) = 1 e Pθ(M = 0) = p0. A função S(t) é a função de

sobrevivência (própria) para os indivíduos em risco, e satisfaz limt→∞S(t) = 0. Já a função

de sobrevivência de longa duração ou também chamada de função de sobrevivência para a população total (imune ou não ao evento de interesse) Sp(t), é uma função de sobrevivência

imprópria, ou seja,

lim

t→∞Sp(t) = p0 = Pθ(M = 0),

sendo p0 um valor positivo representando a fração de cura ou a proporção de indivíduos

curados ou imunes na população.

As funções de sub-densidade e sub-risco para representar a população total podem ser obtidas através das seguinte relações,

fp(t) = − ∂Sp(t) ∂t e hp(t) = fp(t) Sp(t) .

Os modelos de mistura padrão, de tempo de promoção e geométrico, como mencio-nado anteriormente, são casos particulares deste modelo unicado de longa duração, como veremos a seguir.

(20)

1. Modelo de mistura padrão: Considere que a variável aleatória M segue uma distribuição de Bernoulli com parâmetro 1−θ, com θ em (0; 1), ou seja, existe no máximo uma causa competindo para a ocorrência do evento de interesse. Dessa forma, o modelo unicado denido em (2.1) reduz-se ao modelo de mistura padrão (Berkson e Gage (1952) e Boag (1949)). Neste caso, a função de sobrevivência de longa duração é dada por:

Sp(t) = θ + (1 − θ)S(t),

em que θ = Pθ(M = 0) = p0, que neste modelo representa a fração de indivíduos imunes,

e S(t) = P (T > t | M = 1) é a função de sobrevivência própria de Z1 referente a

distribuição associada aos indivíduos não curados. A função Sp(t) é tal que,

lim

t−→∞Sp(t) = θ,

e as funções de sub-densidade e sub-risco são dadas, respectivamente, por: fp(t) = (1 − θ)f (t) e hp(t) = f (t)

(1 − θ) θ + (1 − θ)S(t).

2. Modelo de tempo de promoção: Suponha que a variável aleatória M segue uma distribuição de Poisson com parâmetro θ > 0, ou seja, admite ter até innitas causas concorrendo para a ocorrência do evento de interesse. Assim, o modelo de longa duração (2.1) reduz-se ao modelo de tempo de promoção. Pode-se mostrar (ver por exemplo, Carneiro (2012)) que a função de sobrevivência de longa duração é dada por:

Sp(t) = exp{−θ[1 − S(t)]},

sendo S(t) a função de sobrevivência própria das variáveis Zk, k = 1, ..., m. A função Sp(t)

é tal que,

lim

t−→∞Sp(t) = exp(−θ),

em que exp(−θ) = Pθ(M = 0) = p0, é a fração de indivíduos imunes da população. As

funções de sub-densidade e sub-risco são dadas, respectivamente, por: fp(t) = θf (t) exp[−θF (t)] e hp(t) = θf (t).

3. Modelo geométrico: Considere que a variável aleatória M segue uma distribuição geométrica com função de probabilidade Pθ(M = m) = θ(1 − θ)m, sendo θ o parâmetro

(21)

da distribuição, ou seja, pode-se ter até innitas causas concorrendo para a ocorrência do evento de interesse, até que uma causa desencadeia o evento. Nesta situação, o modelo de longa duração reduz-se ao modelo geométrico. A função de sobrevivência de longa duração de acordo com (2.1) é dada a seguir

Sp(t) = p0+ ∞ X m=1 pm[S(t)]m = θ + ∞ X m=1 θ(1 − θ)m[S(t)]m = θ + θ ∞ X m=1 [(1 − θ)S(t)]m = θ + θ(1 − θ)S(t) 1 − (1 − θ)S(t) = θ 1 − (1 − θ)S(t),

sendo S(t) a função de sobrevivência própria das variáveis Zk, k = 1, ..., m. A função Sp(t)

é tal que,

lim

t−→∞Sp(t) = θ

em que θ = Pθ(M = 0) = p0 é a fração de indivíduos imunes da população. As funções

sub-densidade e sub-risco são dadas, respectivamente, por: fp(t) =

θ(1 − θ)f (t)

[1 − (1 − θ)S(t)]2 e hp(t) =

(1 − θ)f (t) 1 − (1 − θ)S(t).

2.3 Inferência para o modelo unicado de longa

dura-ção

Com base em uma amostra de tamanho n, denimos a seguir as variáveis aleatórias envolvidas no modelo unicado. Seja Yi, o tempo de sobrevivência observável para o

indivíduo i, com Yi = min{Ti; Ci}, sendo Ti = min {Zi0, Zi1, . . . , ZiMi}, e Ci o tempo censurado à direita (aleatória e não informativa), independente de Ti, i = 1, ..., n. As

variáveis Mi e Zik são latentes, sendo que Mi representa o número de causas que podem

levar o i-ésimo indivíduo a apresentar o evento de interesse e Zik o tempo até a ocorrência

do evento no i-ésimo indivíduo devido à k-ésima causa. Consideramos que, dado Mi = mi,

as variáveis Zi1, . . . , Zimi são independentes e identicamente distribuídas, com função de distribuição acumulada F (·|ξ) = 1 − S(·|ξ), sendo ξ = (η, φ)> os parâmetros refentes

(22)

à distribuição de Zik. Além disso, consideramos um vetor de variáveis explicativas xi =

(xi1, xi2, . . . , xip)> associadas ao i-ésimo indivíduo (xi1 = 1 para todo i = 1, . . . , n) e

denimos o indicador de censura δi, isto é, δi = 1se Ti ≤ Ci e δi = 0se Ti > Ci. Com isso,

o conjunto de dados completos é representado da forma Dc= (n, Y , δ, M , X), na qual

Y =        Y1 Y2 ... Yn        , δ =        δ1 δ2 ... δn        , M =        M1 M2 ... Mn        e X =        x>1 x>2 ... x>n        .

Como M é um vetor de variáveis latentes, os dados observavéis cam denotados por D = (n, Y , δ, X). No que segue, as variáveis explicativas serão incluídas no modelo através do parâmetro associado à distribuição de Mi por meio de alguma relação θi ≡

θ(x>i β), sendo β = (β0, β1, . . . , βp)> um vetor de parâmetros da regressão a ser estimado.

Dessa forma, o parâmetro θi, que é associado com a fração de cura, é diferente para cada

indivíduo i, i = 1, 2, . . . , n. Denotamos a função de probabilidade de Mi por pθi(mi) = Pθi(Mi = mi), em que pθi(0) corresponde a proporção de indivíduos imunes.

No modelo de mistura padrão e no modelo geométrico, a relação mais usada para associar o parâmetro θicom as variáveis explicativas é dada pela função de ligação logística

(ver Maller e Zhou (1996)), sendo; θi =

exp(x>i β) 1 + exp(x>

i β)

. (2.2)

No modelo de tempo de promoção, a relação mais utilizada para associar o parâmetro θi com as variáveis explicativas é a função de ligação logarítmica, isto é,

θi = exp(x>i β). (2.3)

Seja λ = (ξ>, β>)>o vetor de parâmetros desconhecidos que desejamos estimar, segue

de Carneiro (2012) que a função de verossimilhança de λ correspondente ao conjunto dos dados completos Dc é dada por

L(λ; Dc) = n

Y

i=1

(23)

O logaritmo da função de verossimilhança ca dado por: `(λ; Dc) = log L(λ; Dc) = n X i=1 δilog mi+ n X i=1 milog S(yi|λ) + n X i=1 δilog f (yi|λ) S(yi|λ) + n X i=1 log pθi(mi). (2.5)

As funções dadas nas equações (2.4) e (2.5) são não observáveis, pois dependem das variáveis latentes Mi. Na prática é utilizada a função de verossimilhança marginal obtida

através do somatório da distribuição conjunta nas variáveis Mi. Portanto, a função de

verossimilhança marginal (ver Carneiro (2012)) para os dados observáveis D, é dada por: L(λ; D) =

n

Y

i=1

fp(yi|λ)δiSp(yi|λ)1−δi. (2.6)

Como consequência, o logaritmo da função de verossimilhança marginal é dado por: `(λ; D) = n X i=1 δilog fp(yi|λ) + n X i=1 (1 − δi) log Sp(yi|λ). (2.7)

Então, sob condições de regularidade (Cox e Hinkley (1974, Cap. 9)), o estimador de máxima verossimilhança de λ, denotado por bλ, é obtido pela resolução da equação:

U (λ) = ∂`(λ; D)

∂λ = 0. (2.8)

Em geral, não é possível obter as expressões analíticas para bλ, sendo necessário algum procedimento numérico para obter as estimativas.

2.4 Critério para seleção dos modelos

Para analisar um conjunto de dados usando algum modelo paramétrico, é necessário escolher uma distribuição de probabilidade que melhor represente a realidade dos dados e assim poder usar o método da máxima verossimilhança. De acordo com Kalbeisch e Prentice (2002), existem muitos métodos formais e informais para avaliar a qualidade do ajuste de um modelo ou selecionar o mais adequado entre vários. Além disso, existem métodos que fornecem medidas da qualidade do ajuste. Para a seleção do modelo mais adequado aos dados da aplicação do Capítulo 5, foram considerados os seguintes critérios:

(24)

• Critério gráco: Bastante utilizado na análise de dados de sobrevivência para com-parar a curva de sobrevivência estimada, aplicando o estimador de Kaplan-Meier, com as curvas de sobrevivência estimadas pelos modelos paramétricos concorrentes. A curva que mais se aproxima do Kaplan-Meier será selecionada.

• Critério de Informação Akaike (AIC): É baseado na informação de Kullback-Leiber (K-L) e foi desenvolvido por Akaike (1974), e de acordo com Silva (2015), é uma medida relativa da informação perdida por usar um modelo aproximado, pois este critério admite que existe um modelo verdadeiro, que é desconhecido, e escolhe dentre um grupo de modelos o que minimiza a informação de K-L. A estimativa de avaliação do AIC pode ser obtida da forma a seguir:

AIC = −2`(ˆλ; D) + 2p

em que `(ˆλ; D) é o valor do logaritmo da função de verossimilhança do modelo avaliado nas estimativas de máxima verossimilhança e p é o número de parâmetros que indexam este modelo. O modelo selecionado será aquele com menor AIC. • Critério de Informação Bayesiano (BIC): Proposto por Schwarz et al. (1978),

con-siste em selecionar os modelos em termos da probabilidade a posteriori. Ao contrário do AIC, este método propõe que dentre os modelos avaliados, há o modelo verda-deiro, aquele que melhor descreve os dados. Desta maneira, ele é denido como a estatística que maximiza a probabilidade de se identicar o verdadeiro modelo dentre os concorrentes e o valor desse critério é dado por:

BIC = −2`(ˆλ; D) + 2pln(n)

em que `(ˆλ; D) é o valor do logaritmo da função de verossimilhança do modelo avaliado nas estimativas de máxima verossimilhança, p é o número de parâmetros que indexam este modelo e n o tamanho amostral. Assim como o AIC, o modelo selecionado será aquele com menor BIC.

(25)

3 Modelos log-simétricos com fração

de cura

A classe de distribuições log-simétricas é caracterizada por distribuições contínuas, estritamente positivas e assimétricas. Ela é derivada a partir de uma transformação expo-nencial de uma variável aleatória da classe de distribuições simétricas (Vanegas e Paula 2016) e segundo Medeiros e Ferrari (2017), contempla distribuições com caudas mais leves e mais pesadas do que as da distribuição log-normal. Esta família inclui distribui-ções como a log-normal, log-t-Student, Harmonic law, Saunders, Birnbaum-Saunders-t, Birnbaum-Saunders generalizada, log-normal-contaminada, log-exponencial-potência e log-slash.

A classe de distribuições log-simétrica é bastante exível, comportando distribuições bimodais e modelando dados com a presença de outliers. Segundo Vanegas e Paula (2017), para qualquer variável aleatória T com distribuição pertencente a esta classe, cT seguirá a mesma distribuição para qualquer c > 0; e 1/T também seguirá a mesma distribuição da variável T , isso signica que a classe de distribuições log-simétricas é fechada sob mudança de escala e sob reciprocidade. Essas são propriedades muito importantes para distribuições que são usadas para descrever dados positivos, de acordo com Puig (2008). Além disso, os dois parâmetros que indexam a classe de distribuições são ortogonais e podem ser interpretados diretamente como a mediana e a dispersão relativa dos dados.

3.1 A classe log-simétrica

Seja X uma variável aleatória pertencente à classe de distribuições simétricas, com parâmetros de locação µ ∈ R, escala φ > 0 e função geradora de densidades g(·), em que g(u) > 0 para u ≥ 0 e R0∞u−1/2g(u)du = 1, se sua função densidade de probabilidade é

(26)

da forma f (x; µ, φ) = √1 φg  x − µ √ φ 2! , x ∈ R.

Fazendo a transformação T = exp(X) obtemos a classe de distribuições log-simétricas, cujo suporte é o intervalo (0, ∞), e denotamos por T ∼ LS(η, φ, g(·)), em que η = exp(µ) e φ são os parâmetros de localização (mediana) e dispersão, respectivamente. A função densidade de probabilidade de T é dada por

f (t; η, φ) = g(˜t 2) t√φ t > 0, com ˜ t = log   (t/η) 1 √ φ   . (3.1)

A função g(·) pode envolver um ou mais parâmetros adicionais que normalmente são assumidos como conhecidos. Na Tabela 1 apresentamos as funções geradoras de densi-dade para algumas distribuições log-simétricas, em que B(·, ·), Γ(·) são as funções beta e gamma, respectivamente, e C(k) = Γ(1 + 1+k

2 )2

1+(1+k)/2.

Tabela 1: Função geradora de densidade para algumas distribuições log-simétricas Modelo g(u), u > 0 log-normal exp(−u/2)√ 2π log-t-Student v−1/2 B(1/2, v/2)  1 + u v  −(v + 1) 2 Birnbaum-Saunders √1 2πexp  −2 α2 sinh 2[u] 2 αcosh( √ u) log-logística I c e −u (1 + e−u)2, c ∼= 1.4843 log-logística II e− √ u (1 + e−√u)2 log-exp. potência 1 C(k)exp  −1 2 u 1/(1+k)  , − 1 < k ≤ 1

(27)

3.2 A classe log-simétrica em Análise de Sobrevivência

Qualquer distribuição probabilística com suporte positivo pode ser utilizada para mo-delar os tempos até a ocorrência de um determinado evento de interesse. Entretanto, algumas ocupam uma posição de destaque por sua comprovada adequação em situações práticas, tais como as distribuições exponencial, Weibull e gamma (ver Jácome et al. (2014) e Muñoz et al. (1995)) e as distribuições log-normal e Birnbaum-Saunders (ver Vallejos e Steel (2015), Cordeiro et al. (2013), Hashimoto et al. (2014) e Cancho et al. (2012)). De acordo com Vanegas e Paula (2017), as distribuições log-simétricas genera-lizam e tornam mais exíveis as distribuições que foram desenvolvidas para descrever dados de tempos de vida sob suposição de dano acumulado (ou dano por fadiga), por exemplo, a distribuição Birnbaum-Saunders (Birnbaum e Saunders, 1969) e a distribuição Birnbaum-Saunders-t.

Tendo em vista as propriedades já citadas dessa classe de distribuições, apresentamos algumas funções úteis na análise de sobrevivência. A função de sobrevivência e a função risco são dadas, respectivamente, por:

S(t; η, φ) = 1 − Z t 0 1 x√φg "  1 √ φ log  x η 2# dx = 1 − Z ˜t −∞ g(w2)dw = 1 − FW(˜t), e h(t; η, φ) = f (t; η, φ) S(t; η, φ) = 1 t√φ g(˜t2) (1 − FW(˜t)) ,

em que W tem uma distribuição simétrica padrão, ou seja, W ∼ S(0, 1, g(.)), FW(·) é

a função de distribuição acumulada de W e ˜t é denido em (3.1). Nas Figuras 1 a 4 apresentamos as funções densidade, de sobrevivência e risco para algumas distribuições da classe log-simétrica.

(28)

Figura 1: Distribuição log-normal(η = 1,φ). 0 2 4 6 8 10 0.0 0.2 0.4 0.6 0.8 t f ( t ) φ =0.3 φ =0.5 φ =0.7 φ =1 φ =1.5

(a) Função densidade

0 2 4 6 8 10 0.0 0.2 0.4 0.6 0.8 1.0 t S ( t ) φ =0.3 φ =0.5 φ =0.7 φ =1 φ =1.5 (b) Função de sobrevivência 0 2 4 6 8 10 0.0 0.5 1.0 1.5 t h ( t ) φ =0.3 φ =0.5 φ =0.7 φ =1 φ =1.5 (c) Função risco

Figura 2: Distribuição log-t-Student(η = 1,φ,ν = 3).

0 2 4 6 8 10 0.0 0.5 1.0 1.5 t f ( t ) φ =0.05 φ =0.1 φ =0.3 φ =1 φ =1.5

(a) Função densidade

0 2 4 6 8 10 0.0 0.2 0.4 0.6 0.8 1.0 t S ( t ) φ =0.05 φ =0.1 φ =0.3 φ =1 φ =1.5 (b) Função de sobrevivência 0 2 4 6 8 10 0.0 0.5 1.0 1.5 2.0 2.5 t h ( t ) φ =0.05 φ =0.1 φ =0.3 φ =1 φ =1.5 (c) Função risco

Figura 3: Distribuição log-t-Student(η = 1,φ,ν = 8).

0 2 4 6 8 10 0.0 0.5 1.0 1.5 t f ( t ) φ =0.05 φ =0.1 φ =0.3 φ =1 φ =1.5

(a) Função densidade

0 2 4 6 8 10 0.0 0.2 0.4 0.6 0.8 1.0 t S ( t ) φ =0.05 φ =0.1 φ =0.3 φ =1 φ =1.5 (b) Função de sobrevivência 0 2 4 6 8 10 0.0 0.5 1.0 1.5 2.0 2.5 3.0 t h ( t ) φ =0.05 φ =0.1 φ =0.3 φ =1 φ =1.5 (c) Função risco

(29)

Figura 4:Distribuição Birnbaum-Saunders estendida(η = 1,φ,α = 3)). 0 1 2 3 4 5 0.0 0.2 0.4 0.6 0.8 1.0 t f ( t ) φ =0.1 φ =0.3 φ =0.5 φ =1 φ =1.5

(a) Função densidade

0 1 2 3 4 5 0.0 0.2 0.4 0.6 0.8 1.0 t S ( t ) φ =0.1 φ =0.3 φ =0.5 φ =1 φ =1.5 (b) Função de sobrevivência 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.5 1.0 1.5 2.0 2.5 t h ( t ) φ =0.1 φ =0.3 φ =0.5 φ =1 φ =1.5 (c) Função risco

Figura 5: Distribuição Birnbaum-Saunders estendida(η = 1,φ,α = 1.5)).

0 1 2 3 4 5 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 t f ( t ) φ =0.1 φ =0.3 φ =0.5 φ =1 φ =1.5

(a) Função densidade

0 1 2 3 4 5 0.0 0.2 0.4 0.6 0.8 1.0 t S ( t ) φ =0.1 φ =0.3 φ =0.5 φ =1 φ =1.5 (b) Função de sobrevivência 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.5 1.0 1.5 2.0 2.5 t h ( t ) φ =0.1 φ =0.3 φ =0.5 φ =1 φ =1.5 (c) Função risco

Figura 6: Distribuição Birnbaum-Saunders(α,η = 1).

0 1 2 3 4 5 0.0 0.2 0.4 0.6 0.8 t f ( t ) α =0.5 α =0.7 α =0.9 α =1.5 α =2 α =3

(a) Função densidade

0 1 2 3 4 5 0.0 0.2 0.4 0.6 0.8 1.0 t S ( t ) α =0.5 α =0.7 α =0.9 α =1.5 α =2 α =3 (b) Função de sobrevivência 0 1 2 3 4 5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 t h ( t ) α =0.5 α =0.7 α =0.9 α =1.5 α =2 α =3 (c) Função risco

Perceba a exibilidade desta classe que permite diferentes formas para as funções f (·), S(·) e h(·), podendo em alguns casos ter a sua função densidade de probabilidade (f.d.p) bimodal (ver Figura 4 - (a)). A função risco h(·) possui diferentes formas para cada modelo, podendo ser monótona crescente ou monótona decrescente (ver Figura 6

(30)

-(c)) e também não monótona, em que o risco inicia em zero, atinge um máximo e decresce para zero (ver Figura 3 - (c)). De acordo com Lawless (2011) esta forma da função risco pode surgir para modelar uma população que consiste em uma mistura de indivíduos que tendem a ter tempos curto ou longo de vida.

3.3 Modelo log-simétrico com fração de cura

Consideramos agora, de forma geral, o modelo com fração de cura cuja distribuição de latência é da classe de distribuições log-simétricas. Especicamente, consideramos a abordagem proposta por Rodrigues et al. (2009), dada na Seção 2.2. em que, como antes, M é uma variável aleatória discreta com função de probabilidade pm = Pθ(M = m)e que,

dado M = m, Zk, k = 1, . . . , m são variáveis aleatórias independentes e identicamente

distribuídas com distribuição pertencente à classe log-simétrica com função de sobrevi-vência S(t). Assim, sendo T = min{Z0; Z1; . . . ; ZM} e com base no resultado em (2.1),

suas derivações e que as somas innitas precisam ser absolutamente convergentes, temos Sp(t) = ∞ X m=0 pmS(t)m = ∞ X m=0 pm(1 − FW(˜t))m, fp(t) = f (t) ∞ X m=0 mpmS(t)m−1 = g(˜t2) t√φ ∞ X m=0 mpm(1 − FW(t))m−1, (3.2) hp(t) = fp(t) Sp(t) = g(˜t 2)P∞ m=0mpm[1 − FW(˜t)]m−1 t√φP∞ m=0pm[1 − FW(˜t)]m ,

que são, respectivamente, as função de sobrevivência de longa duração, a função sub-risco e a função sub-densidade populacional. FW(·) é a função de distribuição acumulada de

uma variável W com distribuição simétrica padrão, e ˜t é conforme denido em (3.1). A seguir incluímos os resultados de (3.2) para diferentes suposições para a distribuições de M. a) Se M ∼ Bernoulli(1 − θ), temos Sp(t) = θ + (1 − θ)(1 − FW(˜t)), fp(t) = 1 t√φ(1 − θ)g(˜t 2), (3.3) hp(t) = (1 − θ)g(˜t2) t√φ[θ + (1 − θ)(1 − FW(˜t))] .

(31)

b) Se M ∼ Poisson(θ), temos Sp(t) = exp[−θFW(˜t)], fp(t) = θg(˜t2) exp[−θF W(˜t)] t√φ , (3.4) hp(t) = θg(˜t2) exp[−θF W(˜t)] t√φ exp[−θFW(˜t)] . c) Se M ∼ Geométrica(θ), temos Sp(t) = θ 1 − (1 − θ)[1 − FW(˜t)] , fp(t) = θ(1 − θ)g(˜t2) t√φ[1 − (1 − θ)(1 − FW(˜t))]2 , (3.5) hp(t) = (1 − θ)g(˜t2) t√φ[1 − (1 − θ)(1 − FW(˜t))] .

Agora, com base em uma amostra de tamanho n, considere o modelo conforme denido em (3.2) resumido na estrutura de dados completos Dc = (n, Y , δ, M , X) e de dados

observáveis D = (n, Y , δ, X). Assumimos aqui que, dado Mi = Mi, Zik ∼ LS(η, φ, g(·)),

com função de sobrevivência S(t|ξ), para i = 1, · · · , n e k = 1, · · · , mi, sendo ξ = (η, φ)>.

As variáveis explicativas serão incluídas no modelo através do parâmetro θi associado à

distribuição de Mi ∼ pθi(mi), por meio de alguma relação θi ≡ θ(x >

iβ). Assim, para

estimar o vetor de parâmetros desconhecido λ = (ξ>, β>), a função de verossimilhança

marginal e o logaritmo desta função, avaliado com respeito aos dados observáveis (ver (2.6) e (2.7)), são dadas por:

L(λ; D) = n Y i=1 " g(˜yi2) yi √ φ ∞ X mi=0 mipmi(1 − FW(˜yi)) mi−1 #δi" X mi=0 pmi(1 − FW(˜yi)) mi #1−δi , `(λ; D) = n X i=1 δi log(g(˜y2i)) − log(yi p φ) + log ∞ X mi=0 mipmi(1 − FW(˜yi)) mi−1 !! + + n X i=1 (1 − δi) log ∞ X mi=0 pmi(1 − FW(˜yi)) mi !! ,

em que ˜yi é denido de forma equivalente a (3.1), ou seja, ˜yi = log[(yi/η) 1 √

(32)

O vetor escore é representado por U (λ) = ∂`(λ; D) ∂λ =        ∂`(λ, D) ∂β ∂`(λ, D) ∂η ∂`(λ, D) ∂φ        . (3.6)

O estimador de máxima verossimilhança ˆλ é obtido pela solução do sistema de equa-ções não lineares U(ˆλ) = 0. Em geral, não é possível encontrar uma solução analítica, sendo necessário algum procedimento numérico para obtenção das estimativas. Sob condi-ções de regularidade (Cox e Hinkley (1974, Cap. 9)), a distribuição assintótica do estima-tor de máxima verossimilhança ˆλ segue uma distribuição normal multivariada de média λ = (ξ>, β>)> e matriz de covariância J−1(λ) =  −∂ 2`(λ, D) ∂λ∂λ> −1 .

Consideramos neste trabalho três distribuições diferentes para a variável latente Mi,

a distribuição de Bernoulli, a distribuição de Poisson e a distribuição geométrica. De-nominaremos os modelos resultantes, respectivamente, de modelos de mistura padrão simétricos, modelos de tempo de promoção simétricos e modelos geométrico log-simétricos.

3.3.1 Modelo de mistura padrão log-simétrico

No modelo log-simétrico com fração de cura, vamos supor que para cada indivíduo i, Mi segue uma distribuição de Bernoulli com probabilidade de sucesso 1 − θi em que as

covariáveis são consideradas conforme dado em (2.2). Chamaremos essa classe de modelos de mistura padrão log-simétricos. Para esta classe, a função de verossimilhança marginal de λ dado o conjunto de dados observáveis D é obtida com base em (3.3) e expressa por:

L(λ; D) = n Y i=1  (1 − θi)g(˜y2i) yi √ φ δi [θi+ (1 − θi)(1 − FW(˜yi))]1−δi.

O logaritmo da função de verossimilhança marginal de λ é dada por: l(λ; D) =

n

X

i=1

δi(log(1 − θi) + log(g(˜yi2)) − log(yi

p φ)) + n X i=1 (1 − δi) log [θi+ (1 − θi)(1 − FW(˜yi))] .

(33)

A seguir apresentamos alguns exemplos de modelos dessa classe.

1. Modelo de mistura padrão log-normal: Nesse modelo, dado Mi = mi, Zik, k =

1, 2, ..., mi, seguem uma distribuição log-normal de parâmetros η e φ e, consequentemente

W tem distribuição normal padrão com função de distribuição acumulada (f.d.a) FW(·).

A função de verossimilhança marginal de λ dado o conjunto de dados observáveis D é dada por: L(λ; D) = n Y i=1  1 − θi yi √ 2πφexp  −y˜i 2 2 δi [θi+ (1 − θi)FW(− ˜yi)]1−δi,

e o logaritmo da função de verossimilhança marginal de λ é dada por: `(λ; D) = n X i=1 δi  log(1 − θi) − log(yi p 2πφ) −y˜i 2 2  + n X i=1 (1 − δi) log (θi+ (1 − θi)FW(− ˜yi)) . (3.7)

Derivando (3.7) com relação ao vetor de parâmetros λ, obtemos as seguintes compo-nentes do vetor escore para l = 1, . . . , p,

∂`(λ, D) ∂βl = n X i=1 −δi(θixil(1 − θi)) 1 − θi + (1 − δi)(1 − FW(−˜yi)) (θixil(1 − θi)) θi+ (1 − θi)FW(−˜yi) , ∂`(λ, D) ∂η = n X i=1 δiy˜i η√φ + n X i=1 (1 − δi)(1 − θi)fW(−˜yi) η√φ(θi+ (1 − θi)FW(−˜yi)) , ∂`(λ, D) ∂φ = n X i=1 −δi 2φ + δiy˜i[log(yi) − log(η)] 2φ3/2 + n X i=1 (1 − δi)(1 − θi)fW(−˜yi)[log(yi) − log(η)] 2φ3/2 i+ (1 − θi)FW(−˜yi)] ,

sendo fW(·)a função densidade da variável aleatória W .

2. Modelo de mistura padrão log-t-Student: Nesse modelo, dado Mi = mi, Zik,

k = 1, 2, ..., mi, seguem uma distribuição log-t-Student de parâmetros η, φ e ν (graus de

liberdade), sendo W uma distribuição t-Student padrão com ν graus de liberdade e f.d.a. FW(·).

(34)

é dada por: L(λ; D) = n Y i=1         (1 − θi) yi √ φνB(122) δi 1 + y˜i 2 ν − δi(ν + 1) 2 [θi + (1 − θi) (FW(− ˜yi))]1−δi        ,

e o logaritmo da função de verossimilhança marginal de λ por: `(λ; D) = n X i=1 δi  log(1 − θi) − 1 2log(ν) − log  yi p φB 1 2, ν 2  −(ν + 1) 2 log  1 + y˜i 2 ν  + n X i=1 (1 − δi) log (θi+ (1 − θi)FW(− ˜yi)) . (3.8)

Derivando (3.8) com relação ao vetor de parâmetros λ, obtemos as seguintes componentes do vetor escore para l = 1, . . . , p,

∂`(λ, D) ∂βl = n X i=1 −δi 1 − θi [θixil(1 − θi)] + n X i=1 (1 − δi)(1 − FW(−˜yi)) θi + (1 − θi)FW(−˜yi) [θixil(1 − θi)], ∂`(λ, D) ∂η = n X i=1 δi(ν + 1)˜yi √ φη(ν + ˜y2 i) + n X i=1 (1 − δi)(1 − θi)fW(−˜yi) η√φ[θi+ (1 − θi)FW(−˜yi)] , ∂`(λ, D) ∂φ = n X i=1 −δi 2φ + −δiy˜i(ν + 1)[log(yi) − log(η)] 2φ3/2(ν + ˜y2 i) + n X i=1 (1 − δi)(1 − θi)fW(−˜yi)[log(yi) − log(η)] 2φ3/2 i+ (1 − θi)FW(−˜yi)] .

3. Modelo de mistura padrão Birnbaum-Saunders estendido: Nesse modelo, dado Mi = mi, Zik, k = 1, 2, ..., mi, seguem uma distribuição Birnbaum-Saunders

es-tendida de parâmetros η, φ e α, que é um caso particular da classe log-simétrica com função geradora g(u) = 1

2πexp( −2 α2 sinh

2

[√u])α2 cosh(√u), u > 0 e W ∼ SHN(0, 1, α), ou seja, W segue uma distribuição Seno Hiperbólico Normal com a f.d.a dada por FW(w) =

Φ(α2 sinh(w)), em que Φ(·) é a f.d.a da distribuição normal padrão. Vale ressaltar que Rieck e Nedelman (1991) apresentaram a distribuição seno hiperbólico normal e prova-ram que se T ∼ BS(α, η), então, Y = log(T ) ∼ SY N(α, µ, σ = 2), na qual µ = log(η). Dessa forma, se quisermos fazer uso da distribuição de Birnbaum-Saunders ao invés da Birnbaum-Saunders estendida, basta xar o parâmetro φ = 2.

(35)

dada por: L(λ; D) = n Y i=1 (  2(1 − θi) yiα √ 2πφexp  − 2 α2 sinh 2 ( ˜yi)  cosh ( ˜yi) δi  θi+ (1 − θi)Φ  −2 αsinh ( ˜yi) 1−δi) ,

e o logaritmo da função de verossimilhança marginal de λ por: `(λ; D) = n X i=1 δi 

log(2) + log(1 − θi) − log(yiα

p 2πφ) + log(cosh(˜yi)) − 2 α2 sinh 2y i)  + n X i=1 (1 − δi) log  θi+ (1 − θi)Φ  −2 αsinh(˜yi)  . (3.9)

Derivando (3.9) com relação ao vetor de parâmetros λ, obtemos as seguintes compo-nentes do vetor escore para l = 1, . . . , p,

∂`(λ, D) ∂βl = n X i=1 −δi 1 − θi [θixil(1 − θi)] + n X i=1 (1 − δi)1 − Φ −α2 sinh(˜yi)  θi+ (1 − θi)Φ −α2 sinh(˜yi)  [θixil(1 − θi)], ∂`(λ, D) ∂η = n X i=1 δisinh(˜yi) η√φ  − 1 cosh(˜yi) + 4 cosh(˜yi) α2  + n X i=1 (1 − δi)(1 − θi)fW(−α2 sinh(˜yi)) θi+ (1 − θi)Φ(−α2 sinh(˜yi)) 2 cosh(˜yi) αη√φ , ∂`(λ, D) ∂φ = n X i=1 −δi 2φ +

δisinh(˜yi)[log(yi) − log(η)]

2φ3/2  − 1 cosh(˜yi) +4 cosh(˜yi) α2  + n X i=1

(1 − δi)(1 − θi)fW −α2 sinh(˜yi) cosh(˜yi)[log(yi) − log(η)]

[θi+ (1 − θi)Φ(−2αsinh(˜yi))]αφ3/2

.

3.3.2 Modelo de tempo de promoção log-simétrico

Considere que Mi ∼ P oisson(θi)no modelo log-simétrico com fração de cura, em que

θi é denido em (2.3), vamos denominar esta classe de modelos de tempo de promoção

log-simétricos com fração de cura.

A função de verossimilhança marginal de λ dado o conjunto de dados observáveis D é expressa por: L(λ; D) = n Y i=1  θig(˜yi2) exp(−θiFW(˜yi)) yi √ φ δi [exp(−θiFW(˜yi))] 1−δi ,

(36)

e o logaritmo da função de verossimilhança marginal de λ por: `(λ; D) = n X i=1 δi h

log(θi) + log(g(˜y2i)) − θiFW(˜yi) − log(yi

p φ)i+ n X i=1 (1 − δi) [−θiFW(˜yi)] .

A seguir são apresentados alguns exemplos dessa classe.

1. Modelo de tempo de promoção log-normal: Nesse modelo, dado Mi = mi,

Zik, k = 1, 2, ..., mi, seguem uma distribuição log-normal de parâmetros η e φ e

conse-quentemente W tem distribuição normal padrão com f.d.a FW(·).

A função de verossimilhança marginal de λ, dado o conjunto de dados observáveis D, é expressa por: L(λ; D) = n Y i=1  θi yi √ 2πφexp  −y˜ 2 i 2  exp (−θiFW(˜yi)) δi [exp (−θiFW(˜yi))]1−δi

e o logaritmo da função de verossimilhança marginal de λ por: `(λ; D) = n X i=1 δi  log(θi) − log(yi p 2πφ) −y˜ 2 i 2 − θiFW(˜yi)  + (1 − δi) [−θiFW(˜yi)] . (3.10) Derivando (3.10) com relação ao vetor de parâmetros λ, obtemos as seguintes com-ponentes do vetor escore para l = 1, . . . , p,

∂`(λ, D) ∂βl = n X i=1 δi  1 θi − FW(˜yi)  θixil− (1 − δi)FW(˜yi)θixil, ∂`(λ, D) ∂η = n X i=1 δi  ˜yi+ θifW(˜yi) η√φ  + (1 − δi)θifW(˜yi) η√φ , ∂`(λ, D) ∂φ = n X i=1 −δi 2φ + δi[log(yi) − log(η)] 2φ3/2 [˜yi+ θifW(˜yi)] + n X i=1 (1 − δi)θifW(˜yi)[log(yi) − log(η)] 2φ3/2 ,

sendo fW(·)a função densidade da variável aleatória W .

2. Modelo de tempo de promoção log-t-Student: Nesse modelo, dado Mi = mi,

Zik, k = 1, 2, ..., mi seguem uma distribuição log-t-Student de parâmetros η, φ e ν (graus

de liberdade), sendo W uma distribuição t-Student padrão com ν graus de liberdade e f.d.a. FW(·).

(37)

é expressa por: L(λ; D) = n Y i=1     θiν−1/2 yi √ φB(122)  1 + y˜i 2 ν  −(ν + 1) 2 exp (−θiFW( ˜yi))     δi [exp (−θiFW ( ˜yi))] 1−δi ,

e o logaritmo da função de verossimilhança marginal de λ por: `(λ; D) = n X i=1 δi  log(θi) − 1 2log(ν) − log  yi p φB 1 2, ν 2  − (ν + 1) 2 log  1 + y˜i 2 ν  + n X i=1 δi[−θiFW( ˜yi)] + (1 − δi)[−θiFW(˜yi)]. (3.11)

Derivando (3.11) com relação ao vetor de parâmetros λ, obtemos as seguintes com-ponentes do vetor escore para l = 1, . . . , p,

∂`(λ, D) ∂βl = n X i=1  δi θi − δiFW(˜yi)  θixil− n X i=1 (1 − δi)FW(˜yi)θixil, ∂`(λ, D) ∂η = n X i=1 δi  (ν + 1)˜yi η√φ(ν + ˜y2 i) +θifW(˜yi) η√φ  + n X i=1 (1 − δi)  θifW(˜yi) η√φ  , ∂`(λ, D) ∂φ = n X i=1 δi  − 1 2φ + (ν + 1)˜yi(log(yi) − log(η)) 2(ν + ˜y2 i)φ3/2 +θifW(˜yi)(log(yi) − log(η)) 2φ3/2  + n X i=1 (1 − δi)  θifW(˜yi)(log(yi) − log(η)) 2φ3/2  ,

sendo fW(·)a função densidade da variável aleatória W .

3. Modelo de tempo de promoção Birnbaum-Saunders estendido: Nesse mo-delo, dado Mi = mi, Zik, k = 1, 2, ..., mi, seguem uma distribuição Birnbaum-Saunders

de parâmetros η, φ e α, W ∼ SHN(0, 1, α) com a f.d.a dada por FW(w) = Φ(α2 sinh(w)),

em que Φ(·) é a f.d.a da distribuição normal padrão.

A função de verossimilhança marginal de λ, dado o conjunto de dados observáveis D, é expressa por: L(λ; D) = n Y i=1 (  2θi yiα √ 2πφexp  − 2 α2 sinh 2 (˜yi)  cosh(˜yi) exp  −θiΦ  2 αsinh( ˜yi) δi  exp  −θiΦ  2 αsinh( ˜yi) 1−δi) ,

(38)

e o logaritmo da função de verossimilhança marginal de λ por: `(λ; D) = n X i=1 δi  log(2θi) − log(yiα p 2πφ) + log(cosh(˜yi)) − 2 sinh2(˜yi) α2  + n X i=1 δi  −θiΦ  2 sinh(˜yi) α  + (1 − δi)  −θiΦ  2 sinh(˜yi) α  . (3.12) Derivando (3.12) com relação ao vetor de parâmetros λ, obtemos as seguintes com-ponentes do vetor escore para l = 1, . . . , p,

∂`(λ, D) ∂βl = n X i=1  δi θi − Φ 2 sinh(˜y) α  θixil, ∂`(λ, D) ∂η = n X i=1 δisinh(˜yi) η√φ  4 cosh2(˜yi) − α2 α2cosh(˜y i)  + 2θifW  2 sinh(˜yi) α  cosh(˜yi) αη√φ , ∂`(λ, D) ∂φ = n X i=1 −δi 2φ +

δi(log(yi) − log(η)) sinh(˜yi)

2φ3/2  4 cosh2 (˜yi) − α2 cosh(˜yi)α2  + n X i=1 θifW  2 sinh(˜yi) α 

cosh(˜yi)[log(yi) − log(η)]

αφ3/2 .

3.3.3 Modelo geométrico log-simétrico

Considere que Mi ∼ geométrica(θi) no modelo log-simétrico com fração de cura, em

que θi é denido em (2.2). Denimos esta classe como modelos geométricos log-simétricos

com fração de cura.

A função de verossimilhança marginal de λ dado o conjunto de dados observável D é expressa por: L(λ; D) = n Y i=1  θi(1 − θi)g( ˜yi2) yi √ φ[1 − (1 − θi)(1 − FW( ˜yi))]2 δi θi 1 − (1 − θi)[1 − FW( ˜yi)] 1−δi ,

e o logarítmo da função de verossimilhança marginal de λ por: l(λ; D) = n X i=1 δi h

log(θi) + log(1 − θi) + log(g( ˜yi2)) − log(yi

p φ) i + n X i=1 δi[−2 log(1 − (1 − θi)[1 − FW(˜yi)])] + n X i=1 (1 − δi) [log(θi) − log(1 − (1 − θi)[1 − FW(˜yi)])] .

(39)

A seguir serão apresentados alguns exemplos dessa classe.

1. Modelo geométrico log-normal: Nesse modelo, dado Mi = mi, Zik, k =

1, 2, ..., mi seguem uma distribuição log-normal de parâmetros η e φ e consequentemente

W tem distribuição normal padrão com f.d.a FW(·).

A função de verossimilhança marginal de λ, dado o conjunto de dados observável D, é dada por: L(λ; D) = n Y i=1   θi(1 − θi) exp  −y˜i2 2  (1 − (1 − θi)FW(−˜yi))2yi √ 2πφ   δi  θi 1 − (1 − θi)FW(−˜yi) 1−δi ,

e o logarítmo da função de verossimilhança marginal de λ por: `(λ; D) = n X i=1 δi  log(θi) + log(1 − θi) − ˜ yi2 2 − 2 log(1 − (1 − θi)FW(−˜yi)) − log(yi p 2πφ)  + n X i=1 (1 − δi) [log(θi) − log(1 − (1 − θi)FW(−˜yi))] , (3.13)

em que ˜yi = log(yi√)−log(η)φ .

Derivando (3.13) com relação ao vetor de parâmetros λ, obtemos as seguintes com-ponentes do vetor escore para l = 1, . . . , p,

∂`(λ, D) ∂βl = n X i=1  δi θi − δi (1 − θi) − 2δiFW(−˜yi) 1 − (1 − θi)FW(−˜yi)  θixil(1 − θi) + n X i=1  (1 − δi) θi − (1 − δi)FW(−˜yi) 1 − (1 − θi)FW(−˜yi)  θixil(1 − θi), ∂`(λ, D) ∂η = n X i=1 δi  ˜ yi η√φ + 2(1 − θ)fW(−˜yi) η√φ[1 − (1 − θ)FW(−˜yi)]  + n X i=1 (1 − δi)  (1 − θi)fW(−˜yi) η√φ[1 − (1 − θi)FW(−˜yi)]  , ∂`(λ, D) ∂φ = n X i=1 δi  ˜yi[log(yi) − log(η)] 2φ3/2 + (1 − θi)fW(−˜yi)[log(yi) − log(η)] φ3/2[1 − (1 − θ i)FW(−˜yi)] − 1 2φ  + n X i=1  (1 − δi)(1 − θi)fW(−˜yi)[log(yi) − log(η)] 2φ3/2[1 − (1 − θ i)FW(−˜yi)]  ,

sendo fW(·)a função densidade da variável aleatória W .

2. Modelo geométrico log-t-Student: Nesse modelo, dado Mi = mi, Zik, k =

(40)

li-berdade), sendo W uma distribuição t-Student padrão com ν graus de liberdade e f.d.a. FW(·).

A função de verossimilhança marginal de λ dado o conjunto de dados observável D é dada por: L(λ; D) = n Y i=1   θi(1 − θi)ν−1/2 [1 − (1 − θi)FW(−˜yi)]2yi √ φB 1 2, ν 2   1 + y˜ 2 i ν  −(ν+1) 2   δi  θi 1 − (1 − θi)FW(−˜yi) 1−δi ,

e o logarítmo da função de verossimilhança marginal de λ por: `(λ; D) = n X i=1 δi h

log(θi(1 − θi)) + log(ν−1/2) − 2 log(1 − (1 − θi)FW(−˜yi))

i + n X i=1 δi  − log  yi p φB 1 2, ν 2  − δi  (v + 1) 2 log  1 +y˜ 2 i ν  + n X i=1 (1 − δi) [log(θi) − log(1 − (1 − θi)FW(−˜yi))] . (3.14)

Derivando (3.14) com relação ao vetor de parâmetros λ, obtemos as seguintes compo-nentes do vetor escore para l = 1, . . . , p,

∂`(λ, D) ∂βl = n X i=1 δi  1 θi − 1 (1 − θi) − 2FW(−˜yi) 1 − (1 − θi)FW(−˜yi)  θixil(1 − θi) + n X i=1 (1 − δi)  1 θi − FW(−˜yi) 1 − (1 − θi)FW(−˜yi)  θixil(1 − θi), ∂`(λ, D) ∂η = n X i=1 δi  2(1 − θi)fW(−˜yi) η√φ[1 − (1 − θi)FW(−˜yi)] + (v + 1)˜yi η√φ (ν + ˜y2 i)  + n X i=1 (1 − δi)  (1 − θi)fW(−˜yi) η√φ[1 − (1 − θi)FW(− ˜yi)]  , ∂`(λ, D) ∂φ = n X i=1 −δi 2φ + δi[log(yi) − log(η)] 2φ3/2  2(1 − θi)fW(−˜yi) 1 − (1 − θi)FW(−˜yi) + (ν + 1)˜yi (ν + ˜y2 i)  + n X i=1 (1 − δi)(1 − θi)fW(−˜yi)[log(yi) − log(η)] 2φ3/2[1 − (1 − θ i)FW(−˜yi)]

sendo fW(·)a função densidade da variável aleatória W .

3. Modelo geométrico Birnbaum-Saunders estendido: Nesse modelo, dado Mi = mi, Zik, k = 1, 2, ..., mi seguem uma distribuição Birnbaum-Saunders de

(41)

Φ(·) é a f.d.a da distribuição normal padrão.

A função de verossimilhança marginal de λ dado o conjunto de dados observável D é dada por: L(λ; D) = n Y i=1    2θi(1 − θi) cosh(˜yi) exp  −2 sinh2y i) α2  h 1 − (1 − θi)Φ −2 sinh(˜ yi) α i2 yiα √ 2πφ    δi " θi 1 − (1 − θi)Φ −α2 sinh(˜yi)  #1−δi ,

e o logaritmo da função de verossimilhança marginal de λ por: `(λ; D) = n X i=1 δi  log(2θi(1 − θi)) + log(cosh(˜yi)) − 2 sinh2(˜yi) α2  + n X i=1 δi  −2 log  1 − (1 − θi)Φ  −2 sinh(˜yi) α  + δi h − log(yiαp2πφ)i + n X i=1 (1 − δi)  log(θi) − log  1 − (1 − θi)Φ  −2 sinh(˜yi) α  . (3.15)

Derivando (3.15) com relação ao vetor de parâmetros λ, obtemos as seguintes compo-nentes do vetor escore para l = 1, . . . , p,

∂`(λ, D) ∂βl = n X i=1 δi  1 − 2θi θi(1 − θi) − 2Φ(− 2 αsinh( ˜yi)) 1 − (1 − θi)Φ(−α2 sinh(˜yi))  [θixil(1 − θi)] + n X i=1 (1 − δi)  1 θi − Φ(− 2 αsinh( ˜yi)) 1 − (1 − θi)Φ(−α2 sinh(˜yi))  [θixil(1 − θi)], ∂`(λ, D) ∂η = n X i=1 δi  − sinh(˜yi) η√φ cosh(˜yi) + 4 cosh(˜yi) sinh(˜yi) α2ηφ  + n X i=1 δi  4(1 − θi)fW(−α2 sinh(˜yi)) cosh(˜yi) [1 − (1 − θi)Φ(−α2 sinh(˜yi))]αη √ φ  + n X i=1 (1 − δi)  2(1 − θi)fW(−2αsinh(˜yi)) cosh(˜yi) [1 − (1 − θi)Φ(−α2 sinh(˜yi))]αη √ φ  , ∂`(λ, D) ∂φ = n X i=1 δi 

−sinh(˜yi)[log(yi) − log(η)] 2 cosh(˜yi)φ3/2

+2 sinh(˜yi) cosh(˜yi)[log(yi) − log(η)] φ3/2α2  + n X i=1 δi " 2(1 − θi)fW(− 2 sinh(˜yi)

α ) cosh(˜yi)[log(yi) − log(η)]

[1 − (1 − θi)Φ(−2 sinh(˜α yi))]φ3/2α − 1 2φ # + n X i=1 (1 − δi) " (1 − θi)fW(− 2 sinh(˜yi)

α ) cosh(˜yi)[log(yi) − log(η)]

[1 − (1 − θi)Φ(−2 sinh(˜α yi))]φ3/2α

# .

(42)

4 Estudo de Simulação

Apresentaremos agora os resultados dos estudos de simulação que foram realizados com o objetivo de avaliar o desempenho da estimativa de máxima verossimilhança do vetor de parâmetros em alguns modelos log-simétricos com fração de cura apresentados no Capítulo 3. Avaliamos os efeitos do aumento da fração de cura e da censura dentre os indivíduos susceptíveis ao evento de interesse nas estimativas.

As covariáveis foram incluídas apenas no parâmetro θi referente à distribuição de

incidência. Consideramos o modelo de tempo de promoção log-normal, log-t-Student e Birnbaun-Saunders estendido discutidos no Capítulo 3. As simulações foram desenvolvidas e realizadas no software R (R Development Core Team, 2014) com o uso da função de otimização optim, sendo utilizada o método BFGS para maximizar o logaritmo da função de verossimilhança.

4.1 Geração dos dados e obtenção das estimativas

Para obter os dados simulados consideramos três covariáveis associadas a cada indi-víduo. Para cada i = 1, . . . , n, com n xado (n = 50; 150; 250 e 500), os valores de xi1 e

xi3 foram obtidos a partir de uma distribuição uniforme no intervalo (0, 1) e os valores

de xi2 foram obtidos a partir de uma distribuição Bernoulli com probabilidade de sucesso

0.5. Essas distribuições foram escolhidas com o objetivo de ilustrar uma situação real, envolvendo covariáveis contínuas e categóricas.

Para cada indivíduo tem-se associado uma variável aleatória Mi que representa o

número de causas competindo para a ocorrência do evento de interesse. Os valores de Mi foram gerados como uma amostra aleatória da distribuição de Poisson com média

θi = exp(x>i β). Os valores do vetor β foram xados de forma que quando combinados

com as covariáveis, a média das frações de cura, pθi = exp(−θi), para i = 1, . . . , n, fossem em torno de 10%, 20% e 30% para cada situação considerada. Dessa forma, os vetores

(43)

xados para β são dados na Tabela 2 a seguir,

Tabela 2: Vetores xados para os β's nas simulações Fracão de cura Vetor β

10% β10%f.c.= (0.42, 0.25, 0.24, 0.34)>

20% β20%f.c.= (0.34, 0.13, 0.10, 0.03)>

30% β30%f.c.= (0.10, 0.05, 0.07, 0.03)>

Foi gerada uma amostra de tamanho mi das distribuições log-normal, log-t-Student e

Birnbaum Saunders estendida para cada indivíduo não imune, ou seja, Mi > 0. O

parâ-metro de localização foi xado como η = 5 e o parâparâ-metro de dispersão como φ = 1 para todos os modelos simulados. Com o objetivo de avaliar o efeito dos parâmetros adicionais das distribuições log-t-Student e Birnbaum-Saunders estendida nas estimativas, para a distribuição log-t-Student consideramos ν = 3 e ν = 7 e para a distribuição Birnbaun-Saunders estendida consideramos α = 0.8 e 1.5. Os tempos de falha são obtidos tomando o mínimo da amostra gerada, ou seja, ti = min{zik; k = 1, . . . , mi}.

Para controlar o percentual de censura na amostra, os tempos de censura foram ge-rados a partir de uma distribuição U(0,u), em que o valor de u controla o percentual de censura, afetando inversamente a proporção na amostra, ou seja, quanto maior for o valor de u, menor será proporção de censura e quanto menor for o valor de u, maior será a proporção de censura. Com o intuito de avaliar o efeito do aumento da proporção de censura nas estimativas, o percentual de censura será calculado em relação ao número de indivíduos susceptíveis ao evento de interesse, aqui denotado por pcs. Em Fonseca et al.

(2013) temos uma relação entre esta proporção e a proporção de censuras com relação ao total da amostra (pct), a saber

pct = pcs(1 − f c) + f c,

em que fc representa a fração de curados na amostra.

Depois de gerar os tempos de censura, os tempos observados são obtidos fazendo yi = min(ti, ci), i = 1, . . . , n. Associado a cada tempo observado tem-se uma variável

indicadora δi, na qual δi = 1 se ti ≤ ci e δi = 0 se ti > ci. Quando o indivíduo é curado

(Mi = 0), o tempo observado recebe innito (valor sucientemente grande) e a variável

indicadora recebe zero.

Após a obtenção dos dados simulados, todos os modelos estudados foram avaliados através de simulações de Monte Carlo. Consideramos 10.000 réplicas para cada caso. As

(44)

estimativas de máxima verossimilhança dos parâmetros foram obtidas através da função optim utilizando o método BFGS. Em seguida, para cada réplica, estimamos β0, β1, β2,

β3, η e φ e calculamos a média, o desvio padrão, o viés relativo e a raiz do erro quadrático

médio relativo, dadas por: média(ˆλ) = 1 10000 10000 X r=1 ˆ λr (média), vr = média(ˆλ) − λ λ (viés relativo), √eqmr = 1 10000 10000 X r=1 ˆλr− λ λ !2

(erro quadrático médio relativo),

sd =

s

P10000

r=1 ( ˆλi−média(ˆλ))2

10000 − 1 (desvio padrão),

em que ˆλr representa a estimativa do parâmetro λ na r-ésima réplica. Todos os

coman-dos para geração coman-dos dacoman-dos e obtenção das estimativas de máxima verossimilhança coman-dos parâmetros podem ser vistos na Apêndice A.

4.2 Resultados

4.2.1 Modelo de tempo de promoção log-normal

As Tabelas 3 e 4 apresentam os resultados da simulação do modelo de tempo de promoção log-normal no cenário em que η = 5 e φ = 1. Na Tabela 3 temos que o viés relativo das estimativas médias de β0 se distancia do zero com o aumento da proporção

de censura (pcs), por exemplo, para n = 50, fc = 10% e pcs = 0%, 15% e 30%, o viés

relativo é igual a 0.2174, −0.4660 e −1.1071, respectivamente. Podemos perceber no item (a) da Figura 7, que as estimativas de β0 cam ainda mais distantes do verdadeiro valor

do parâmetro com o aumento da proporção de censura, independentemente do tamanho da amostra. Na Tabela 3, vemos que as estimativas para β1, β2 e β3 mostram-se próximas,

em média, do verdadeiro valor do parâmetro, já que o viés relativo está na maioria dos casos bem próximo de zero, mesmo com o aumento da proporção de censura ou da fração de cura. Por exemplo, para em que n = 150, pcs = 0% e fc = 20%, o viés relativo para

a estimativa média de β1 é igual a 0.0215, quando n = 150, pcs = 15% e fc = 20%, o

Referências

Documentos relacionados

O docente só deverá contabilizar a seu favor as horas semanais em disciplinas básicas e optativas efetivamente ministradas em cursos de graduação e de

Neste trabalho é proposto um modelo de regressão com fração de cura para dados grupados utilizando a distribuição Weibull, que pode ser usada para modelar dados de sobrevivência

A partir do estudo desenvolvido neste trabalho e dos resultados encontrados, conclui-se que o modelo com mais parâmetros, Modelo de Regressão Beta - Burr XII é o mais adequado

Neste capítulo ajustamos os modelos log-Birnbaum-Saunders (log-BS) e log-Birnbaum-Saunders-t (log-BS-t) de efeitos fixos, como também os modelos log-BS e log-BS-t de

Desta forma, apesar de não rejeitar a hipótese nula, através da análise do conjunto de dados, o modelo sem cura será ajustado, pois pelo valor do parâmetro estimado a estimativa

Os elementos caracterizadores da obra são: a presença constante de componentes da tragédia clássica e o fatalismo, onde o destino acompanha todos os momentos das vidas das

Tendo em vista as inúmeras solicitações de participantes interessados em promover ações judiciais com o objetivo de obrigar a Petros cumprir o Regulamento do Plano de Benefício

Pøi vypnutí TAK1 servisním klí- èem nelze spustit poplach ani rozvá- žením servisní smyèky ani poklesem napìtí baterie pøi napájení ústøedny pouze z baterie..