Estimação da função de distribuição conjunta para dados com censura intervalar bivariados

Texto

(1)Universidade de Brasília Instituto de Ciên ias Exatas Departamento de Estatísti a. Dissertação de Mestrado. Estimação da Função de Distribuição Conjunta para Dados om Censura Intervalar Bivariados. por. Mar os Paulo da Ro ha Eirado Orientador: Prof. Dr. Antnio Eduardo Gomes Julho de 2010.

(2) Mar os Paulo da Ro ha Eirado. Estimação da Função de Distribuição Conjunta para Dados om Censura Intervalar Bivariados. Dissertação apresentada ao Departamento de Estatísti a. do. Instituto de. Ciên ias Exatas. da Universidadede de Brasília omo requisito par ial à obtenção do. Estatísti a.. Universidade de Brasília Brasília, Julho de 2010. título. de. Mestre. em.

(3) Termo de Aprovação Mar os Paulo da Ro ha Eirado. Estimação da Função de Distribuição Conjunta para Dados om Censura Intervalar Bivariados. Dissertação apresentada ao Departamento de Estatísti a do Instituto de Ciên ias Exatas da Universidade de Brasília omo requisito par ial à obtenção do título de Mestre em Estatísti a.. Data de defesa: 28 de junho de 2010. Orientador: Prof. Dr. Antnio Eduardo Gomes Departamento de Estatísti a, UnB. Comissão Examinadora: Prof. Dr. George Freitas von Borries Departamento de Estatísti a, UnB. Prof. Dr. Frederi o Rodrigues Borges da Cruz Departamento de Estatísti a, UFMG. Brasília, Julho de 2010.

(4) Fi ha Catalográ a. EIRADO, MARCOS PAULO DA ROCHA Estimação da Função de distribuição onjunta para dados om ensura intervalar bivariados, (UnB - IE, Mestre em Estatísti a, 2010).. Dissertação de Mestrado - Universidade de Brasília. Departamento de Estatísti a - Instituto de Ciên ias Exatas.. 1.. Censura intervalar 2.. Distribuição bivariada 3.. Análise de sobrevivên ia 4.. Estimador não paramétri o de máxima verossimilhança. É on edida à Universidade de Brasília a permissão para reproduzir ópias desta dissertação de mestrado e para emprestar ou vender tais ópias somente para propósitos a adêmi os e ientí os.. O autor reserva outros direitos de publi ação e nenhuma. parte desta monograa de Projeto Final pode ser reproduzida sem a autorização por es rito do autor.. Mar os Paulo da Ro ha Eirado.

(5) À minha esposa, Fernanda, e aos meus pais, Fátima e Dato Eirado. i.

(6) Agrade imentos •. Primeiramente a DEUS, pois tudo que tenho e sou foi dado por Ele.. Todo. louvor seja dado a Ele!. •. À minha esposa, pelo apoio em todas as vezes que pre isei de ajuda. Por me ompreender em todas as noites que passei em laro e por todas as vezes que abdiquei de nosso lazer para on luir essa tarefa.. •. A meus pais, pelo arinho om que me riaram e por me ensinarem a importân ia que a edu ação tem na vida de um idadão.. •. A meus irmãos, olegas de prossão, por todos os bons momentos que vivemos.. •. Ao professor Antnio Eduardo Gomes, por estar sempre a essível e disposto a me ajudar, em todas as vezes que seu auxílio foi ne essário.. •. À família de minha esposa, por ter me a olhido e ter me ajudado.. •. À minha unhada Fabrí ia, por ter me emprestado o seu notebook por um mês para que as simulações fossem on luídas a tempo.. •. A todos os professores e servidores do programa de pós-graduação do Departamento de Estatísti a da UnB, por todo o suporte e estrutura ne essária.. •. Aos meus olegas e todas as outras pessoas que ontribuiram para que esse objetivo fosse al ançado.. ii.

(7) Sumário Lista de Figuras. 4. Lista de Tabelas. 7. Resumo. 8. Abstra t. 9. Introdução. 10. 1 Con eitos em Análise de Sobrevivên ia. 12. 1.1. Censura à direita. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 13. 1.2. Censura Intervalar. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 15. 1.3. Caso Bivariado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 18. 2 Estimação da função de distribuição univariada. 26. 2.1. Método de Imputação Múltipla. . . . . . . . . . . . . . . . . . . . . .. 27. 2.2. Estimador não paramétri o de máxima verossimilhança . . . . . . . .. 29. 2.2.1. Estimação de F no Caso 1 de ensura intervalar . . . . . . . .. 31. 2.2.2. Algoritmo ICM. 33. . . . . . . . . . . . . . . . . . . . . . . . . . .. 3 Estimação da função de distribuição bivariada. 41. 4 Cópulas. 46. 4.1. Simulação om ópulas. . . . . . . . . . . . . . . . . . . . . . . . . .. 49. 4.2. Medidas de dependên ia. . . . . . . . . . . . . . . . . . . . . . . . . .. 51. de Kendall . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 51. 4.2.1. τ. 1.

(8) 4.2.2 4.3. ρ. de Spearman. . . . . . . . . . . . . . . . . . . . . . . . . . .. 52. Famílias de Cópulas . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 53. 5 Suavização 5.1. 5.2. 57. Caso Univariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 58. 5.1.1. Bootstrap. 61. 5.1.2. Validação Cruzada de Verossimilhança. Caso Bivariado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 62. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 63. 6 Simulações e apli ação. 66. 6.1. Simulações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6.2. Apli ação. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7 Con lusões e Trabalhos Futuros. 66 102. 107. 7.1. Con lusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 107. 7.2. Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 108. 2.

(9) Lista de Figuras 1.1. Dados om ensura intervalar bivariada . . . . . . . . . . . . . . . . .. 18. 2.1. Estimativas om algoritmo ICM . . . . . . . . . . . . . . . . . . . . .. 40. 3.1. Estimador não paramétri o de máxima verossimilhança de. 4.1. Modelo de ópula Clayton. 4.2. H. . . . . .. 45. . . . . . . . . . . . . . . . . . . . . . . . .. 55. Modelo de ópula Frank. . . . . . . . . . . . . . . . . . . . . . . . . .. 55. 6.1. Densidade estimada para. α ˆ. - Caso 1. . . . . . . . . . . . . . . . . . .. 69. 6.2. Densidade estimada para. α ˆ. - Caso 2. . . . . . . . . . . . . . . . . . .. 69. 6.3. Densidade estimada para. α ˆ. - Caso 3. . . . . . . . . . . . . . . . . . .. 70. 6.4. Densidade onjunta estimada para janelas Caso 1, n = 50 . . . . . . .. 70. 6.5. Densidade onjunta estimada para janelas Caso 1, n = 100 . . . . . .. 71. 6.6. Densidade onjunta estimada para janelas Caso 1, n = 200 . . . . . .. 71. 6.7. Comparativo - Densidade das janelas - Estimador Cópula - Caso 1 . .. 72. 6.8. Comparativo - Densidade das janelas - Estimador ENPMV - Caso 1 .. 72. 6.9. Densidade onjunta estimada para janelas Caso 2, n = 50 . . . . . . .. 73. 6.10 Densidade onjunta estimada para janelas Caso 2, n = 100 . . . . . .. 73. 6.11 Densidade onjunta estimada para janelas Caso 2, n = 200 . . . . . .. 74. 6.12 Comparativo - Densidade das janelas - Estimador Cópula - Caso 2 . .. 74. 6.13 Comparativo - Densidade das janelas - Estimador ENPMV - Caso 2 .. 75. 6.14 Densidade onjunta estimada para janelas Caso 3, n = 50 . . . . . . .. 75. 6.15 Densidade onjunta estimada para janelas Caso 3, n = 100 . . . . . .. 76. 6.16 Densidade onjunta estimada para janelas Caso 3, n = 200 . . . . . .. 76. 6.17 Comparativo - Densidade das janelas - Estimador Cópula - Caso 3 . .. 77. 3.

(10) 6.18 Comparativo - Densidade das janelas - Estimador ENPMV - Caso 3 .. 77. 6.19 Valores esperados para o Caso 1 . . . . . . . . . . . . . . . . . . . . .. 96. 6.20 Valores esperados para o Caso 2 . . . . . . . . . . . . . . . . . . . . .. 96. 6.21 Valores esperados para o Caso 3 . . . . . . . . . . . . . . . . . . . . .. 97. 6.22 Valores esperados - Caso 1, n = 50. . . . . . . . . . . . . . . . . . . .. 97. 6.23 Valores esperados - Caso 1, n = 100 . . . . . . . . . . . . . . . . . . .. 98. 6.24 Valores esperados - Caso 1, n = 200 . . . . . . . . . . . . . . . . . . .. 98. 6.25 Valores esperados - Caso 2, n = 50. . . . . . . . . . . . . . . . . . . .. 99. 6.26 Valores esperados - Caso 2, n = 100 . . . . . . . . . . . . . . . . . . .. 99. 6.27 Valores esperados - Caso 2, n = 200 . . . . . . . . . . . . . . . . . . .. 100. 6.28 Valores esperados - Caso 3, n = 50. . . . . . . . . . . . . . . . . . . .. 100. 6.29 Valores esperados - Caso 3, n = 100 . . . . . . . . . . . . . . . . . . .. 101. 6.30 Valores esperados - Caso 3, n = 200 . . . . . . . . . . . . . . . . . . .. 101. 6.31 Estimativas das funções de distribuição marginais . . . . . . . . . . .. 102. 6.32 Estimativa om ópula Clayton. . . . . . . . . . . . . . . . . . . . . .. 103. . . . . . . . . . . . . . . . . . . . . . .. 104. 6.33 Estimativa om ópula Frank. 6.34 Estimativa om ópula Gumbel-Hougaard. . . . . . . . . . . . . . . .. 104. 6.35 Estimativa - estimador ENPMV . . . . . . . . . . . . . . . . . . . . .. 105. 4.

(11) Lista de Tabelas 4.1. Algumas famílias lássi as de ópulas Arquimedianas. . . . . . . . . .. 54. 6.1. Parâmetros utilizados nas simulações (i = 1, 2). . . . . . . . . . . . .. 66. 6.2. Número de asos em que. não foi obtido . . . . . . . . . . . . . . . .. 67. 6.3. Ví io - estimador Cópula - aso 1, n = 50 . . . . . . . . . . . . . . . .. 78. 6.4. Variân ia. 6.5. EQM. ×10−3. α ˆ. . . . . . . . . .. 78. . . . . . . . . . . .. 78. 6.6. Ví io - estimador ENPMV - aso 1, n = 50 . . . . . . . . . . . . . . .. 79. 6.7. Variân ia. 6.8. EQM. 6.9. ×10−3. - estimador Cópula - aso 1, n = 50. - estimador Cópula - aso 1, n = 50. ×10−3. . . . . . . . .. 79. - estimador ENPMV - aso 1, n = 50 . . . . . . . . . . .. 79. Ví io - estimador Cópula - aso 1, n = 100 . . . . . . . . . . . . . . .. 80. ×10−3. 6.10 Variân ia. ×10−3. - estimador ENPMV - aso 1, n = 50. - estimador Cópula - aso 1, n = 100 . . . . . . . . .. 80. - estimador Cópula - aso 1, n = 100 . . . . . . . . . . .. 80. 6.12 Ví io - estimador ENPMV - aso 1, n = 100 . . . . . . . . . . . . . .. 81. 6.11 EQM. ×10−3. 6.13 Variân ia. ×10−3. - estimador ENPMV - aso 1, n = 100 . . . . . . . .. 81. - estimador ENPMV - aso 1, n = 100 . . . . . . . . . .. 81. 6.15 Ví io - estimador Cópula - aso 1, n = 200 . . . . . . . . . . . . . . .. 82. 6.14 EQM. ×10−3. 6.16 Variân ia. ×10−3. - estimador Cópula - aso 1, n = 200 . . . . . . . . .. 82. - estimador Cópula - aso 1, n = 200 . . . . . . . . . . .. 82. 6.18 Ví io - estimador ENPMV - aso 1, n = 200 . . . . . . . . . . . . . .. 83. 6.17 EQM. ×10−3. 6.19 Variân ia. ×10−3. - estimador ENPMV - aso 1, n = 200 . . . . . . . .. 83. - estimador ENPMV - aso 1, n = 200 . . . . . . . . . .. 83. 6.21 Ví io - estimador Cópula - aso 2, n = 50 . . . . . . . . . . . . . . . .. 84. 6.20 EQM. ×10−3. 6.22 Variân ia 6.23 EQM. ×10−3. ×10−3. - estimador Cópula - aso 2, n = 50. - estimador Cópula - aso 2, n = 50. 5. . . . . . . . . .. 84. . . . . . . . . . . .. 84.

(12) 6.24 Ví io - estimador ENPMV - aso 2, n = 50 . . . . . . . . . . . . . . .. ×10−3. . . . . . . . .. 85. - estimador ENPMV - aso 2, n = 50 . . . . . . . . . . .. 85. 6.27 Ví io - estimador Cópula - aso 2, n = 100 . . . . . . . . . . . . . . .. 86. 6.25 Variân ia 6.26 EQM. ×10−3. ×10−3. - estimador ENPMV - aso 2, n = 50. 85. - estimador Cópula - aso 2, n = 100 . . . . . . . . .. 86. - estimador Cópula - aso 2, n = 100 . . . . . . . . . . .. 86. 6.30 Ví io - estimador ENPMV - aso 2, n = 100 . . . . . . . . . . . . . .. 87. 6.28 Variân ia 6.29 EQM. ×10−3. ×10−3. - estimador ENPMV - aso 2, n = 100 . . . . . . . .. 87. - estimador ENPMV - aso 2, n = 100 . . . . . . . . . .. 87. 6.33 Ví io - estimador Cópula - aso 2, n = 200 . . . . . . . . . . . . . . .. 88. 6.31 Variân ia 6.32 EQM. ×10−3. 6.34 Variân ia. ×10−3. - estimador Cópula - aso 2, n = 200 . . . . . . . . .. 88. - estimador Cópula - aso 2, n = 200 . . . . . . . . . . .. 88. 6.36 Ví io - estimador ENPMV - aso 2, n = 200 . . . . . . . . . . . . . .. 89. 6.35 EQM. ×10−3. 6.37 Variân ia. ×10−3. - estimador ENPMV - aso 2, n = 200 . . . . . . . .. 89. - estimador ENPMV - aso 2, n = 200 . . . . . . . . . .. 89. 6.39 Ví io - estimador Cópula - aso 3, n = 50 . . . . . . . . . . . . . . . .. 90. 6.38 EQM. ×10−3. 6.40 Variân ia. ×10−3. . . . . . . . . .. 90. . . . . . . . . . . .. 90. 6.42 Ví io - estimador ENPMV - aso 3, n = 50 . . . . . . . . . . . . . . .. 91. 6.41 EQM. ×10−3. - estimador Cópula - aso 3, n = 50. - estimador Cópula - aso 3, n = 50. ×10−3. . . . . . . . .. 91. - estimador ENPMV - aso 3, n = 50 . . . . . . . . . . .. 91. 6.45 Ví io - estimador Cópula - aso 3, n = 100 . . . . . . . . . . . . . . .. 92. 6.43 Variân ia 6.44 EQM. ×10−3. 6.46 Variân ia. ×10−3. - estimador ENPMV - aso 3, n = 50. - estimador Cópula - aso 3, n = 100 . . . . . . . . .. 92. - estimador Cópula - aso 3, n = 100 . . . . . . . . . . .. 92. 6.48 Ví io - estimador ENPMV - aso 3, n = 100 . . . . . . . . . . . . . .. 93. 6.47 EQM. ×10−3. 6.49 Variân ia. ×10−3. - estimador ENPMV - aso 3, n = 100 . . . . . . . .. 93. - estimador ENPMV - aso 3, n = 100 . . . . . . . . . .. 93. 6.51 Ví io - estimador Cópula - aso 3, n = 200 . . . . . . . . . . . . . . .. 94. 6.50 EQM. ×10−3. 6.52 Variân ia. ×10−3. - estimador Cópula - aso 3, n = 200 . . . . . . . . .. 94. - estimador Cópula - aso 3, n = 200 . . . . . . . . . . .. 94. 6.54 Ví io - estimador ENPMV - aso 3, n = 200 . . . . . . . . . . . . . .. 95. 6.53 EQM. ×10−3. 6.55 Variân ia. ×10−3. - estimador ENPMV - aso 3, n = 200 . . . . . . . .. 6. 95.

(13) 6.56 EQM. ×10−3. - estimador ENPMV - aso 3, n = 200 . . . . . . . . . .. 6.57 Estimativas para. α. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6.58 Estimativas para o estimador ENPMV. 95 103. . . . . . . . . . . . . . . . . .. 105. 6.59 Dados do ACTG 181 . . . . . . . . . . . . . . . . . . . . . . . . . . .. 106. 7.

(14) Resumo Estudamos dois métodos diferentes para estimar a função de distribuição um vetor aleatório. (X, Y ). om ensura intervalar em ambas as variáveis.. H. de. No pri-. meiro, usamos o algoritmo proposto por Maathuis (2005) para obter o estimador não paramétri o de máxima verossimilhança (ENPMV) bivariado de. H. e, depois,. suavizamo-no om o nú leo estimador bivariado. No segundo método, ombinamos os ENPMV's das marginais, suavizados pelo nú leo estimador, om um modelo de ópula para obtermos uma estimativa suave de. H.. Por m, fazemos a omparação. desses métodos em relação a ví io, variân ia e EQM.. Palavras Chave: Censura intervalar, distribuição bivariada, análise de sobrevivên ia, estimador não paramétri o de máxima verossimilhança.. 8.

(15) Abstra t We study two dierent methods to estimate the joint distribution fun tion of a bivariate interval ensored random ve tor. (X, Y ).. H. In the rst one, we use the. algorithm proposed by Maathuis (2005) to get the bivariate nonparametri maximum likelihood estimator (NPMLE) of. H. and, then, smooth it with a bivariate kernel esti-. mator. In the se ond approa h, we ombine the kernel smoothed NPMLE estimator of the marginal distributions with opulas to get a kernel smoothed estimate of. H.. After that, we ompare these estimates using bias, varian e and MSE as riteria.. key words: Interval ensoring, bivariate distribution, survival analysis, nonparametri maximum likelihood estimator.. 9.

(16) Introdução O homem moderno está sempre tentando aperfeiçoar seus pro essos. Por isso, bus a onhe er o mundo que o er a, estudando fenmenos biológi os, físi os, so iais, entre outros.. Em qualquer um dos asos, a análise de dados experimentais é um etapa. fundamental para que se hegue a on lusões. Todavia, nem sempre é possível observar esses dados da melhor forma possível. Às vezes, temos restrições nan eiras, barreiras te nológi as ou algum outro fato que impede que mensuremos a gradeza estudada om perfeição. Isso a onte e, por exemplo, quando observamos o tempo de desenvolvimento de algumas doenças letais, em que só é possível saber se houve o desenvolvimento itado se o animal usado no estudo for sa ri ado. Nesse ontexto, surge a Análise de Sobrevivên ia omo ferramenta estatísti a apaz de aproveitar, de a ordo om algumas premissas, dados que são observados par ialmente, hamados de dados ensurados, na análise estatísti a. Desenvolver metodologias de análise a mais difí il dependendo de omo a onte e essa ensura na observação do fenmeno. Na investigação dos fenmenos de que falamos, muitas vezes é importante en ontrar relações entre dois fatores. Se esses fatores podem ser mensurados, o pesquisador pode querer saber omo eles interagem, isto é, atuam onjuntamente.. Em termos. matemáti os, o pesquisador tem interesse em estimar a distribuição onjunta desses dois fatores.. No entanto, se há ensura na observação dos dois fatores, ria-se um. problema maior. Seja. X. e. Y. H. a função de distribuição onjunta de um vetor aleatório. (X, Y ),. em que. são variáveis aleatórias positivas, ambas om ensura intervalar. No presente. esforço, estudamos dois métodos diferentes para estimar. 10. H,. a m de ompará-los em.

(17) relação ao ví io e varibilidade, por meio de simulações. No primeiro método, usamos o algoritmo proposto por Maathuis (2005) para estimar não-parametri amente. H. de forma direta e depois suavizamos essa estimativa. om o nú leo estimador bivariado. O outro método estima. H. fazendo o uso de ópu-. las para unir as estimativas não paramétri as das funções de distribuição marginais, suavizadas pelo nú leo estimador, obtidas om o algoritmo iterativo da minorante onvexa máxima apresentado por Groeneboom e Wellner (1992). O trabalho está organizado omo segue. No apítulo 1, apresentamos alguns on eitos bási os de Análise de Sobrevivên ia. No apítulo 2, tratamos de dois estimadores não paramétri os da função de distribuição univariada. No apítulo 3, tratamos do estimador não paramétri o de máxima verossimilhança da função de distribuição bivariada. No apítulo 4, dis utimos Cópulas. No apítulo 5, apresentamos o método de suavização para funções de distribuição por meio do nú leo estimador. No apítulo 6, são exibidos os resultados en ontrados nas simulações realizadas. Finalmente, o apítulo 7 traz as on lusões de nossos estudos. A inspiração para essa dissertação veio do trabalho desenvolvido por Romeo, Tanaka e Lima (2006), que usam uma abordagem bayesiana e modelos de ópulas para estimar a função de sobrevivên ia em dados om ensura à direita.. 11.

(18) Capítulo 1 Con eitos em Análise de Sobrevivên ia Começamos esse texto denindo alguns on eitos importantes e xando a notação que será utilizada ao longo da leitura. Supomos que o leitor tem onhe imentos bási os em Teoria de Probabilidades e está familiarizado om alguns métodos e pro edimentos estatísti os, omo, por exemplo, a estimação pelo método de máxima verossimilhança. Em Análise de Sobrevivên ia, geralmente estudamos o tempo. a o orrên ia de um evento de interesse, Por isso, hamamos a variável aleatória. T. T trans orrido até. que hamamos generi amente de falha. de. tempo de falha.. Queremos des rever a. T , que aqui vamos supor ontínua.. distribuição de probabilidades da variável aleatória. Isso pode ser feito se onhe ermos a sua função de distribuição, que é denida por. F (t) = P (T ≤ t), A função de Sobrevivên ia de. T , S,. t ∈ R.. é dada por. S(t) = P (T > t) = 1 − F (t). A função taxa de falha é. P (t ≤ T < t + ∆t) f (t) = , ∆t→0 ∆t S(t). h(t) = lim. 12.

(19) em que. f. é a função densidade de probabilidades de. T,. ou seja,. f (t) =. dF (t). dt. Mesmo om um bom delineamento amostral, às vezes é difí il ou até mesmo impossível ter erteza de quando o orre a falha em uma unidade amostral. Assim sendo, quando a onte e a observação par ial de. T , dizemos que houve ensura. há ensura, dizemos que a observação é. exata.. em. T.. Se não. Portanto, a ara terísti a prin ipal. dos dados em Análise de Sobrevivên ia é a presença de ensura. De fato, as observações ensuradas de. T. são importantes e não podem ser des artadas.. Queremos. in orporá-las em nossas análises, visto que há informação nelas e omiti-las pode levar a estimativas vi iadas e on lusões equivo adas. Algumas hipóteses são assumidas para prosseguirmos om nossas on lusões. Vamos supor que o me anismo que produz a ensura é aleatório e independente de. T.. Dessa maneira, podemos obter a função de verossimilhança para um dado tipo de ensura. Para tornar o on eito de ensura mais laro e delimitar o ampo de estudo em que se pode atuar, é essen ial ara terizar omo se deu a o orrên ia de ensura. A literatura lassi a a ensura em três tipos: ensura à esquerda, ensura à direita e ensura intervalar. Na ensura à esquerda,. T. assume um valor inferior ao tempo. registrado (tempo de ensura). Na ensura à direita,. T. assume um valor superior ao. tempo de ensura. Na ensura intervalar, sabemos que o tempo de falha assume um valor entre dois instantes de observação. A estrutura mais omum em dados de sobrevivên ia apresenta valores om ensura à direita e valores exatos para o tempo de falha.. 1.1. Censura à direita. Na ensura à direita, sabemos que o tempo de falha mente observado, que denotamos por. X.. Seja. C. T. o orre após o tempo efetiva-. a variável aleatória que representa. o tempo trans orrido até que o orra a ensura na observação de dito, supomos que. T. e. C. T.. Conforme já foi. são independentes. Nesse aso de ensura, temos que. X = min{C, T }. Esse tipo de ensura é omum em estudos líni os, em que o pa iente abandona a. 13.

(20) pesquisa antes de desenvolver um determinada doença. Com esta onguração, obtemos, portanto, uma amostra aleatória de. X,. onde. Xi. X1 , X2 , . . . , Xn. pode ser uma observação exata ou ensurada. Pre isamos en ontrar. a função de verossimilhança para estes dados oletados. Antes, denimos a variável. δ=. A variável. δ.   1,. se. T ≤ C; (1.1).  0,. se. T > C.. indi a se houve ensura à direita (δ. unidade amostral.. = 0). ou observação exata (δ. (X1 , δ1 ), (X2 , δ2 ), . . . , (Xn , δn ). Dada uma amostra. = 1). na. de dados om. ensura à direita, pode-se mostrar (Colosimo e Giolo (2006)) que a verossimilhança para esses dados é. L(F ) =. n Y. [f (Xi )]δi [S(Xi )]1−δi ,. (1.2). i=1. F. onde. é a função de distribuição de. T.. Podemos ver na expressão a ima que a. verossimilhança onta om a ontribuição dos dados exatos, om os termos om a ontribuição dos dados ensurados, por meio dos termos. S(Xi ).. f (Xi ),. e. O estimador. não paramétri o de máxima verossimilhança (Colosimo e Giolo (2006)) de. S(t). é o. estimador de Kaplan-Meier (ou estimador limite-produto), denido por. Y ni − di ˆ = , S(t) n i i:y ≤t i. onde em. y1 , y2, . . . , yn são os valores ordenados de X1 , X2 , . . . , Xn , di. yi. e. ni. é o número de observações sob ris o até. foram ensuradas até. yi ,. é o número de falhas. ou seja, que não falharam nem. yi .. O estimador de Kaplan-Meier é muito onhe ido e está implementado em muitos pa otes estatísti os, o que o torna fá il de usar.. 14.

(21) 1.2. Censura Intervalar. Em dados om ensura intervalar, só temos onhe imento de que tervalo. [L, U].. T. perten e a um in-. Essa situação é típi a em estudos em que o orrem inspenções periódi as. nas unidades amostrais. Nesse aso, não podemos observar exatamente quando o orre a falha, mas sabemos que ela o orreu entre as duas últimas inspenções. Supomos que as variáveis aleatórias. T.. L. Também o orre que. e. U. que são efetivamente observadas são independentes de. P (L ≤ U) = 1.. Podemos generalizar as outras formas de ensura usando a estrutura de dados da ensura intervalar: na ensura à direita, tomamos. L=C. e. T ∈ [C, ∞); na ensura à esquerda, olo amos L = 0 e U = C se observamos. T. de fato, es revemos. L=T. e. U = T,. U =∞. para obtermos. para termos. para termos. maneira, é possível olo ar todas as observações om a estrutura. T ∈ (0, C];. T ∈ [T, T ].. Dessa. [Li , Ui ].. Suponhamos, então, que não foi possível obter uma amostra de observações exatas. T1 , T2 , . . . , Tn. res. [L1 , U1 ], [L2 , U2 ], . . . , [Ln , Un ],. 1, 2, . . . , n,. de. T. e, por assim ser, possuímos apenas uma amostra de pasendo que pode o orrer. ou. Ui = ∞, i =. de a ordo om a observação que zemos no parágrafo anterior. Denimos. as variáveis. δ= e. γ=.   1,  0,.   1,  0,. Como podemos ver, a variável isto é,. Li = 0. δ = 1{T ≤L} .. se. se. T ≤ L;. aso ontrário.. 0 6= L < T ≤ U < ∞. ,. aso ontrário. δ. é indi adora da existên ia de ensura à esquerda,. Analogamente,. unidade amostral, o que signi a que. γ. indi a a presença de ensura intervalar na. γ = 1{L<T ≤U } .. A verossimilhança para dados. om ensura intervalar (ver Groeneboom e Wellner (1992)) é dada por. L(F ) =. n Y. [F (Li )]δi [F (Ui ) − F (Li )]γi [1 − F (Ui )]1−δi −γi .. (1.3). i=1. Como. fL,U (x, y) = 0. para. x > y,. pois. P (L ≤ U) = 1,. 15. a demonstração desse.

(22) resultado é a que segue:. P (L ≤ l, U ≤ u, δ = 1, γ = 0) = P (L ≤ l, U ≤ u, T ≤ L) Z u Z l Z x = fL,U,T (x, y, t)dtdxdy = =. Z. −∞ u. −∞ Z u. −∞. pela independên ia entre. T. e. (L, U),. f (l, u, 1, 0) =. −∞ l. Z. −∞ Z l. −∞ x. Z. fT (t)fL,U (x, y)dtdxdy. −∞. FT (x)fL,U (x, y)dxdy,. −∞. segue que. ∂2 P (L ≤ l, U ≤ u, δ = 1, γ = 0) ∂l∂u. = FT (l)fL,U (l, u),. para. l < u.. Também,. P (L ≤ l, U ≤ u, δ = 0, γ = 1) = P (L ≤ l, U ≤ u, L ≤ T ≤ U) Z u Z l Z y = fL,U,T (x, y, t)dtdxdy −∞ u. = =. Z. −∞ Z u −∞. Z. −∞ l. −∞ Z l. x. Z. y. fT (t)fL,U (x, y)dtdxdy. x. [FT (y) − FT (x)]fL,U (x, y)dxdy,. −∞. o que nos dá. f (l, u, 0, 1) =. ∂2 P (L ≤ l, U ≤ u, δ = 0, γ = 1) ∂l∂u. = [FT (u) − FT (l)]fL,U (l, v),. 16. para. l < u..

(23) Para o último aso, om. δ = γ = 0,. tem-se. P (L ≤ l, U ≤ u, δ = 0, γ = 0) = P (L ≤ l, U ≤ u, T > U) Z u Z l Z ∞ = fL,U,T (x, y, t)dtdxdy −∞ u. = =. Z. −∞ Z u −∞. Z. −∞ l. −∞ Z l. u. Z. ∞. fT (t)fL,U (x, y)dtdxdy. u. [1 − FT (x)]fL,U (x, y)dxdy,. −∞. de onde segue que. f (l, u, 0, 0) =. ∂2 P (L ≤ l, U ≤ u, δ = 0, γ = 0) ∂l∂u. = [1 − FT (u)]fL,U (l, u),. para. l < u.. Convém observar que a expressão da verossimilhança em (1.3) tem essa forma se estamos onsiderando a notação om a quádrupla essa notação, quando. δi + γi = 0,. δi = 1,. não registramos. não observamos de fato. = 1). e. Ui .. Na práti a, usando. Da mesma forma, quando. Li .. Por outro lado, se usarmos a notação (δi. {(Li , Ui , δi , γi )}.. Ui = ∞ (δi + γi = 0),. (Li , Ui ) om Li. e. Ui. podendo assumir. Li = 0. a verossimilhança (1.3) pode ser rees rita omo. L(F ) =. n Y. [F (Ui ) − F (Li )] .. i=1. Existe ainda um aso parti ular de ensura intervalar, hamado de. aso 1. de. ensura intervalar ou dados de estado orrente, em que só o orrem ensura à direita ou ensura à esquerda. Neste aso, há apenas um instante de observação (tempo de ensura). Se assim for, usando a notação da ensura intervalar, a verossimilhança é dada por. L(F ) =. n Y. [F (Li )]δi [1 − F (Ui )]1−δi .. (1.4). i=1. Diferentemente do aso em que só há ensura à direita, quando temos dados om ensura intervalar, o estimador não-paramétri o de máxima verossimilhança de. 17. S. não.

(24) tem forma fe hada. O apítulo 2 trata esse problema om detalhe. Uma vez denidas quantidades importantes e apresentadas as funções de verossimilhança de que pre isaremos em nossos estudos para o aso univariado, podemos agora nos ater ao aso bivariado, tema de estudo nesse trabalho.. 1.3 Sejam. Caso Bivariado T1. e. T2 duas váriaveis aleatórias ontínuas e positivas.. onjunta do vetor aleatório. (T1 , T2 ). A função de distribuição. é denida por. H(t1 , t2 ) = P (T1 ≤ t1 , T2 ≤ t2 ),. t1 , t2 ∈ R.. Se temos ensura intervalar nos valores de ambas as variáveis uma amostra. T1. e. T2 ,. teremos. [L11 , U11 ] × [L21 , U21 ], [L12 , U12 ] × [L22 , U22 ], . . . , [L1n , U1n ] × [L2n , U2n ] de R2 .. Apresentamos um exemplo para esse tipo de dados na gura 1.1.. L11. U11. U24 L22 L23 U22U23 L21 L24. Y. U21 L25 L26. U25. retângulos em. L12. L15. L16. U15. U16. L13. U12. U13. L14. X. Figura 1.1: Dados om ensura intervalar bivariada. Assim, a função de verossimilhança para esses dados, que depende de. H,. é (ver. Gentleman e Vandal (2002)). L(H) =. n Y. [H(U1i , U2i ) − H(U1i , L2i ) − H(L1i , U2i ) + H(L1i , L2i )] ,. i=1. 18. (1.5).

(25) em que empregamos a notação ompa ta. δ.i = 1). U.i = ∞. e. (sempre que. (L.i , U.i ), isto é, pode o orrer L.i = 0 (quando. δ.i + γ.i = 0).. Demonstraremos omo obter a expressão (1.5). Temos nove possibilidades diferentes, de a ordo om os valores de. δ1 , γ2 , δ1. e. γ2 .. Mostraremos omo se obtém a. verossimilhança aso a aso:. 1o aso P (L1 ≤ l1 , U1 ≤ u1 , δ1 = 1, γ1 = 0, L2 ≤ l2 , U2 ≤ u2 , δ2 = 1, γ2 = 0) = P (L1 ≤ l1 , U1 ≤ u1 , T1 < L1 , L2 ≤ l2 , U2 ≤ u2 , T2 < L2 ) Z u2 Z l2 Z x2 Z u1 Z l1 Z x1 = fL1 ,U1 ,T1 ,L2 ,U2 ,T2 (x1 , y1 , t1 , x2 , y2, t2 ) −∞. =. Z. u2 −∞. −∞. Z. l2. −∞. =. −∞. Z. u1 −∞. Z. u2. −∞. −∞. Z. l1. −∞. Z. l2. −∞. −∞. Z. x2. −∞. Z. u1 −∞. −∞. × dt1 dx1 dy1 dt2 dx2 dy2. Z. x1. fT1 ,T2 (t1 , t2 ). −∞. Z. × fL1 ,U1 ,L2 ,U2 (x1 , y1 , x2 , y2)dt1 dt2 dx1 dy1 dx2 dy2 l1. H(x1 , x2 )fL1 ,U1 ,L2 ,U2 (x1 , y1 , x2 , y2 )dx1 dy1 dx2 dy2,. −∞. pela independên ia dos vetores aleatórios. (T1 , T2 ). e. (L1 , U1 , L2 , U2 ).. Diferen iando,. segue que. f (l1 , u1, 1, 0, l2, u2 , 1, 0) = ∂4 P (L1 ≤ l1 , U1 ≤ u1 , δ1 = 1, γ1 = 0, L2 ≤ l2 , U2 ≤ u2 , δ2 = 1, γ2 = 0) ∂l1 ∂u1 ∂l2 ∂u2 = H(l1 , l2 )fL1 ,U1 ,L2 ,U2 (l1 , u1, l2 , u2),. para l1. 19. < u 1 , l2 < u 2 ..

(26) 2o aso P (L1 ≤ l1 , U1 ≤ u1 , δ1 = 1, γ1 = 0, L2 ≤ l2 , U2 ≤ u2 , δ2 = 0, γ2 = 1) = P (L1 ≤ l1 , U1 ≤ u1 , T1 < L1 , L2 ≤ l2 , U2 ≤ u2 , L2 ≤ T2 ≤ U2 ) Z u2 Z l2 Z u1 Z l1 Z y2 Z x1 = fT1 ,T2 (t1 , t2 )fL1 ,U1 ,L2 ,U2 (x1 , y1, x2 , y2 ) −∞. =. Z. u2 −∞. −∞. Z. l2. −∞. −∞. Z. u1 −∞. −∞. Z. x2. −∞. × dt1 dt2 dx1 dy1 dx2 dy2 l1. [H(x1 , y2 ) − H(x1 , x2 )] fL1 ,U1 ,L2 ,U2 (x1 , y1, x2 , y2 ). −∞. × dx1 dy1 dx2 dy2. Daí,. f (l1 , u1, 1, 0, l2, u2 , 0, 1) = ∂4 P (L1 ≤ l1 , U1 ≤ u1 , δ1 = 1, γ1 = 0, L2 ≤ l2 , U2 ≤ u2 , δ2 = 0, γ2 = 1) ∂l1 ∂u1 ∂l2 ∂u2 = [H(l1 , u2 ) − H(l1 , l2 )] fL1 ,U1 ,L2 ,U2 (l1 , u1 , l2 , u2),. para l1. U2 ) Z u2 Z l2 Z u1 Z l1 Z ∞ Z x1 = fT1 ,T2 (t1 , t2 )fL1 ,U1 ,L2 ,U2 (x1 , y1 , x2 , y2 ) −∞. =. Z. u2 −∞. −∞. Z. l2. −∞. −∞. Z. u1 −∞. −∞. Z. y2. −∞. × dt1 dt2 dx1 dy1 dx2 dy2 l1. [FT1 (x1 ) − H(x1 , y2 )]. −∞. × fL1 ,U1 ,L2 ,U2 (x1 , y1 , x2 , y2 )dx1 dy1 dx2 dy2.. 20.

(27) Portanto,. f (l1 , u1, 1, 0, l2, u2 , 0, 0) = ∂4 P (L1 ≤ l1 , U1 ≤ u1 , δ1 = 1, γ1 = 0, L2 ≤ l2 , U2 ≤ u2 , δ2 = 0, γ2 = 0) ∂l1 ∂u1 ∂l2 ∂u2 = [FT1 (l1 ) − H(l1 , u2)] fL1 ,U1 ,L2 ,U2 (l1 , u1 , l2 , u2 ),. para l1. < u 1 , l2 < u 2 .. 4o aso P (L1 ≤ l1 , U1 ≤ u1 , δ1 = 0, γ1 = 1, L2 ≤ l2 , U2 ≤ u2 , δ2 = 1, γ2 = 0) = P (L1 ≤ l1 , U1 ≤ u1 , L1 ≤ T1 ≤ U1 , L2 ≤ l2 , U2 ≤ u2, T2 < L2 ) Z u2 Z l2 Z u1 Z l1 Z x2 Z y1 = fT1 ,T2 (t1 , t2 )fL1 ,U1 ,L2 ,U2 (x1 , y1, x2 , y2 ) −∞. =. Z. u2 −∞. −∞. Z. l2. −∞. −∞. Z. u1 −∞. −∞. Z. −∞. x1. × dt1 dt2 dx1 dy1 dx2 dy2 l1. [H(y1, x2 ) − H(x1 , x2 )]. −∞. × fL1 ,U1 ,L2 ,U2 (x1 , y1 , x2 , y2 )dx1 dy1 dx2 dy2. Logo,. f (l1 , u1, 0, 1, l2, u2 , 1, 0) = ∂4 P (L1 ≤ l1 , U1 ≤ u1 , δ1 = 0, γ1 = 1, L2 ≤ l2 , U2 ≤ u2 , δ2 = 1, γ2 = 0) ∂l1 ∂u1 ∂l2 ∂u2 = [H(u1 , l2 ) − H(l1 , l2 )] fL1 ,U1 ,L2 ,U2 (l1 , u1 , l2 , u2),. 21. para l1. < u 1 , l2 < u 2 ..

(28) 5o aso P (L1 ≤ l1 , U1 ≤ u1 , δ1 = 0, γ1 = 1, L2 ≤ l2 , U2 ≤ u2 , δ2 = 0, γ2 = 1) = P (L1 ≤ l1 , U1 ≤ u1 , L1 ≤ T1 ≤ U1 , L2 ≤ l2 , U2 ≤ u2, L2 ≤ T2 ≤ U2 ) Z u2 Z l2 Z u1 Z l1 Z y2 Z y1 = fT1 ,T2 (t1 , t2 )fL1 ,U1 ,L2 ,U2 (x1 , y1 , x2 , y2 ) −∞. =. Z. u2 −∞. −∞. Z. l2. −∞. −∞. Z. u1 −∞. −∞. Z. x2. x1. × dt1 dt2 dx1 dy1 dx2 dy2 l1. [H(y1, y2 ) − H(y1, x2 ) − H(x1 , y2) + H(x1 , x2 )]. −∞. × fL1 ,U1 ,L2 ,U2 (x1 , y1 , x2 , y2 )dx1 dy1 dx2 dy2. Assim,. f (l1 , u1, 0, 1, l2, u2 , 0, 1) = ∂4 P (L1 ≤ l1 , U1 ≤ u1 , δ1 = 0, γ1 = 1, L2 ≤ l2 , U2 ≤ u2 , δ2 = 0, γ2 = 1) ∂l1 ∂u1 ∂l2 ∂u2 [H(u1, u2 ) − H(u1, l2 ) − H(l1 , u2 ) + H(l1 , l2 )] fL1 ,U1 ,L2 ,U2 (l1 , u1, l2 , u2),. = para l1. U2 ) Z u2 Z l2 Z u1 Z l1 Z ∞ Z y1 = fT1 ,T2 (t1 , t2 )fL1 ,U1 ,L2 ,U2 (x1 , y1 , x2 , y2 ) −∞. =. Z. u2 −∞. −∞. Z. l2. −∞. −∞. Z. u1 −∞. −∞. Z. y2. x1. × dt1 dt2 dx1 dy1 dx2 dy2 l1. [FT1 (y1 ) − FT1 (x1 ) − H(y1, y2 ) + H(x1 , y2 )]. −∞. × fL1 ,U1 ,L2 ,U2 (x1 , y1 , x2 , y2 )dx1 dy1 dx2 dy2.. 22.

(29) Então,. f (l1 , u1, 0, 1, l2, u2 , 0, 0) = ∂4 P (L1 ≤ l1 , U1 ≤ u1 , δ1 = 0, γ1 = 1, L2 ≤ l2 , U2 ≤ u2 , δ2 = 0, γ2 = 0) ∂l1 ∂u1 ∂l2 ∂u2 [FT1 (u1 ) − FT1 (l1 ) − H(u1 , u2) + H(l1 , u2 )] fL1 ,U1 ,L2 ,U2 (l1 , u1, l2 , u2),. = para l1. U1 , L2 ≤ l2 , U2 ≤ u2 , T2 < L2 ) Z u2 Z l2 Z u1 Z l1 Z x2 Z ∞ fT1 ,T2 (t1 , t2 )fL1 ,U1 ,L2 ,U2 (x1 , y1 , x2 , y2 ) = −∞. =. Z. u2 −∞. −∞. Z. l2. −∞. −∞. Z. u1 −∞. −∞. Z. −∞. y1. × dt1 dt2 dx1 dy1 dx2 dy2 l1. [FT2 (x2 ) − H(y1 , x2 )]. −∞. × fL1 ,U1 ,L2 ,U2 (x1 , y1 , x2 , y2 )dx1 dy1 dx2 dy2. Com isso,. f (l1 , u1, 0, 0, l2, u2 , 1, 0) = ∂4 P (L1 ≤ l1 , U1 ≤ u1 , δ1 = 0, γ1 = 0, L2 ≤ l2 , U2 ≤ u2 , δ2 = 1, γ2 = 0) ∂l1 ∂u1 ∂l2 ∂u2 = [FT2 (l2 ) − H(u1, l2 )] fL1 ,U1 ,L2 ,U2 (l1 , u1 , l2 , u2 ),. 23. para l1. U1 , L2 ≤ l2 , U2 ≤ u2 , L2 ≤ T2 ≤ U2 ) Z u2 Z l2 Z u1 Z l1 Z y2 Z ∞ = fT1 ,T2 (t1 , t2 )fL1 ,U1 ,L2 ,U2 (x1 , y1 , x2 , y2 ) −∞. =. Z. u2 −∞. −∞. Z. l2. −∞. −∞. Z. u1 −∞. −∞. Z. x2. y1. × dt1 dt2 dx1 dy1 dx2 dy2 l1. [FT2 (y2 ) − FT2 (x2 ) − H(y1, y2 ) + H(y1, x2 )]. −∞. × fL1 ,U1 ,L2 ,U2 (x1 , y1 , x2 , y2 )dx1 dy1 dx2 dy2. Logo,. f (l1 , u1, 0, 0, l2, u2 , 0, 1) = ∂4 P (L1 ≤ l1 , U1 ≤ u1 , δ1 = 0, γ1 = 0, L2 ≤ l2 , U2 ≤ u2 , δ2 = 0, γ2 = 1) ∂l1 ∂u1 ∂l2 ∂u2 [FT2 (u2 ) − FT2 (l2 ) − H(u1 , u2) + H(u1 , l2 )] fL1 ,U1 ,L2 ,U2 (l1 , u1, l2 , u2),. = para l1. U1 , L2 ≤ l2 , U2 ≤ u2 , T2 > U2 ) Z u2 Z l2 Z u1 Z l1 Z ∞ Z ∞ fT1 ,T2 (t1 , t2 )fL1 ,U1 ,L2 ,U2 (x1 , y1 , x2 , y2 ) = −∞. =. Z. u2 −∞. −∞. Z. l2. −∞. −∞. Z. u1 −∞. −∞. Z. y2. y1. × dt1 dt2 dx1 dy1 dx2 dy2 l1. [1 − FT1 (y1 ) − FT2 (x2 ) + H(y1, y2 )]. −∞. × fL1 ,U1 ,L2 ,U2 (x1 , y1 , x2 , y2 )dx1 dy1 dx2 dy2.. 24.

(31) Portanto,. f (l1 , u1, 0, 0, l2, u2 , 0, 0) = ∂4 P (L1 ≤ l1 , U1 ≤ u1 , δ1 = 0, γ1 = 0, L2 ≤ l2 , U2 ≤ u2 , δ2 = 0, γ2 = 0) ∂l1 ∂u1 ∂l2 ∂u2 [1 − FT1 (u1 ) − FT2 (u2 ) + H(u1, u2 )] fL1 ,U1 ,L2 ,U2 (l1 , u1, l2 , u2),. = para. l1 < u 1 , l2 < u 2 .. Como teríamos uma expressão muito extensa para a função. de verossimilhança no aso bivariado, preferimos adotar a notação om as duplas. (L.i , U.i ). Se admitirmos alguma família paramétri a para mos estimar. H. (ou. H. ou. F , no aso univariado, pode-. F ) maximizando a verossimilhança em (1.5) (ou a verossimilhança H. em (1.3)) em relação aos parâmetros de estrutura de dependên ia entre. T1. e. T2. (ou. F ).. Mesmo assim, assumir alguma. pode ser uma tarefa difí il. Por isso, faremos. uso de modelos de ópulas para tentar lidar om esse desao. Assim omo no aso univariado, o estimador não-paramétri o de máxima verossimilhança de. H. não possui forma fe hada. Na verdade, muitos avanços feitos nesse. sentido são re entes e serão onsiderados aqui. Conforme já men ionamos, nosso interesse, nesse trabalho, está em estimar. H.. Faremos isso usando té ni as expostas nos apítulos que seguirão. Uma dessas té ni as onsiste em estimar as funções de distribuição marginais de. H. T1. e. T2. para estimar. pelo uso de modelos de ópulas, que são modelos paramétri os de distribuição on-. junta om distribuições marginais. U(0, 1).. Assim sendo, apresentamos agora métodos. para estimar a função de distribuição de uma variável aleatória ujas observações possuem ensura intervalar.. 25.

(32) Capítulo 2 Estimação da função de distribuição univariada A distribuição de uma variável aleatória de distribuição. F.. T. é totalmente ara terizada por sua função. Por isso, a sua estimação é de suma importân ia. Com dados de. F. ensura intervalar, a tarefa de estimar. não parametri amente é mais omplexa que. para dados ompletos. Vários estudos foram desenvolvidos ao longo do tempo para estimar. F. não pa-. rametri amente, sendo notáveis os trabalhos de Peto (1973), Turnbull (1976), entre outros, que pro uraram formas de omputar o estimador de máxima verossimilhança não paramétri o. Fˆ. de. F.. Peto (1973) ara teriza as regiões onde. Fˆ. enquanto Turnbull (1976) obtém equações de auto- onsistên ia que. irá ter saltos,. Fˆ. deve satisfa-. zer, além de desenvolver o algoritmo de auto- onsistên ia para o ál ulo de. Fˆ .. Uma. ontribuição muito importante foi dada por Groeneboom e Wellner (1992), om o algoritmo. Iterative Convex Minorant. (ICM), que al ula. Fˆ. onsideravelmente mais. rápido que o algoritmo de auto- onsistên ia dado por Turnbull (1976). Além do estimador de máxima de verossimilhança não paramétri o, existem outros métodos não pamétri os para estimar. F.. Entre eles, está o Método de Imputação. Múltipla proposto por Pan (2000), que faz a imputação de dados e uso do estimador de Kaplan-Meier para al ançar seus ns.. Apresentamos esses dois métodos aqui,. omeçando om a metodologia de Pan (2000).. 26.

(33) 2.1. Método de Imputação Múltipla. Nesta seção, apresentamos o método de imputação múltipla para dados om ensura intervalar proposto por Pan (2000).. Na verdade, fazemos uma adaptação da idéia. original, pois Pan (2000) estuda o efeito de ovariáveis na estimação da função de sobrevivên ia. S.. Em nosso trabalho, ontudo, não abrangemos o estudo de ovariáveis.. Suponhamos, portanto, que não observamos diretamente os valores de uma variável aleatória. T. que tem função de sobrevivên ia. amostra de intervalos aso. Ui = ∞ é o aso. [Li , Ui ]. que ontém. Ti ,. reita, om os vetores onde. Tji ∈ [Li , Ui ],. para. e, por isso, obtemos apenas uma. i = 1, 2, . . . , n.. Li = 0 orresponde. de ensura à direita e. m. A idéia desse método é a seguinte: gerar. S. Lembremos que o. a ensura à esquerda.. onjuntos de dados om ensura à di-. Tj = (Tj1 , Tj2 , . . . , Tjn) e δj = (δj1 , δj2 , . . . , δjn ), j = 1, 2, . . . , m,. e, a partir desses dados imputados, obter um estimativa. S¯. de. S. usando métodos para dados om ensura à direita, que são amplamente difundidos e fa ilmente omputados. Para usar os estimadores para dados ensurados à direita, é ne essário termos a estrutura para dados om esse tipo de ensura, que é aquela omposta pelos pares. (T1 , δ1 ), (T2 , δ2 ), . . . , (Tn , δn ), onde a variável δ , onforme denimos na expressão (1.1), indi a a presença de ensura à direita (δ. = 0). ou falha (δ. = 1).. Faremos essa onver-. são da estrutura dos dados por meio do algoritmo Poor Man's Data Augmentation (PDMA), apresentado por Wei e Tanner (1991), des rito a seguir:. 1. Suponha que a atual estimativa de. 2. Gere. da distribuição dada por. Tji = Li. 3. Para ada de dados. 4. Faça. é. S¯(k) .. m onjuntos de dados possivelmente ensurados à direita {(T1 , δ1 ), (T2 , δ2 ),. . . ., (Tm , δm )} da seguinte maneira:. faça. S. e. S¯(k). Fixe. dado que. j ∈ {1, 2, . . . , m}; Se Ui < ∞, gere Tji. Tji ∈ [Li , Ui ]. e faça. δji = 1;. Se. Ui = ∞,. δji = 0.. (k) j = 1, 2, . . . , m, obtenha uma estimativa S¯j. de. S. usando o onjunto. (Tj , δj ).. S¯(k+1) =. 1 m. m X. (k) S¯j .. Se. |S¯(k+1) − S¯(k) | < ε,. j=1. k =k+1. e volte ao passo 1.. 27. pare.. Caso ontrário, faça.

(34) Analisando o algoritmo, vemos que a mudança da estrutura de dados se dá da seguinte maneira: nas observações em que não há ensura à direita, é gerada uma observação de uma variável aleatória. Tji ∼ S¯(k) (.|Li < Tji ≤ Ui ). e essa observação. simulada é tratada omo se fosse exata; por outro lado, o algoritmo mantém as observações ensuradas à direita omo elas são originalmente. Com esses novos dados, podemos estimar. S. fa ilmente, uma vez que agora temos uma amostra de tempos de. falha ensurados à direita ou exatos. Ainda pela des rição do algoritmo, é ne essário que tenhamos uma estimativa ini ial de. S , S¯(0) .. Para obter isso, PPan (2000) re omenda que geremos. passo 2, mas teremos. Tij ∼ U(Li , Ui ), i = 1, 2, . . . , n, j = 1, 2, . . . , m,. ensura à direita, ao invés de fazermos al ulamos. S¯(0). Tji ∼ S¯(k) (.|Li < Tji ≤ Ui ).. omo nos passos 3 e 4. O ál ulo de. (k). Sj. Tij. omo no. quando não há. Com essa amostra,. , no passo 3, pode ser feito. om o estimador de Kaplan-Meier. É importante notarmos que a estimativa. S¯(k). obtida da forma estipulada pelo. algoritmo é uma função es ada, ou seja, é dis reta. Assim sendo, existe um número nito de saltos estimados intervalo. [Li , Ui ]. {s1 , s2 , . . . , ski } em pontos {t1 , t2 , . . . , tki } ontidos em ada. em que não há ensura à direita. Isso faz om que o valor de. gerado seja igual a um dos valores em elementos de. {t1 , t2 , . . . , tki }.. Tji. Com isso, a ada iteração, os. {t1 , t2 , . . . , tki } que não forem amostrados no pro esso de imputação não. serão pontos de salto de. S¯(k+1). e, portanto, não serão onsiderados nas imputações. das iterações seguintes. Isto pode fazer om que. S¯. evolua para uma estimativa om. ada vez menos saltos. Para ontornarmos esse problema, pode-se suavizar. S¯(k). om. o uso de nú leo estimadores, a m de que tenhamos uma amostragem ontínua no pro esso de imputação. Pan (2000) arma que o valor de sejam obtidos.. m não pre isa ser grande para que bons resultados. Em suas simulações, foi usado. m = 10.. É essen ial registrarmos. que apesar de estudos de simulação apresentarem bons resultados, não há provas ou ritérios que determinam a distribuição de. S¯ ou sua onvergên ia para S .. Na verdade,. Paz (2005) observou indí ios de não onvergên ia do algoritmo quando apli ado ao ajuste do modelo de Cox para dados simulados om a presença de ovariável.. 28.

(35) 2.2. Estimador não paramétri o de máxima verossimilhança. Uma vez apresentada a estimação pela imputação múltipla, atemo-nos agora ao estimador não paramétri o de máxima verossimilhança de. C. Queremos en ontrar, na lasse. vas, uma função de distribuição. F,. que denotaremos por. Fˆ .. de todas as funções de distribuição de v.a.'s positi-. Fˆ. que maximixa a função de verossimilhança para. dados om ensura intervalar, que é dada, onforme a expressão (1.3), por. L(F ) =. n Y. [F (Li )]δi [F (Ui ) − F (Li )]γi [1 − F (Ui )]1−δi −γi ,. F ∈ C.. (1.3). i=1. Conforme já observamos, pode o orrer. L(F ). Li = 0 ou Ui = ∞.. é o produto das diferenças. F (Ui ) − F (Li ),. em que. Isto signi a que o valor da função de verossimilhança. é indiferente à forma de uma função de distribuição qualquer no interior dos intervalos. [Li , Ui ].. Mais ainda, essa observação nos leva a on luir que todas as funções de. distribuição ujos valores. F (Ui ) − F (Li ). Assim sendo, duas funções de distribuição o orrer. são iguais terão o mesmo valor para. L.. F1 e F2 podem ser diferentes, mas é possível. L(F1 ) = L(F2 ).. Os argumentos do parágrafo anterior nos mostram que interior dos intervalos. [Li , Ui ],. em que pode o orrer. porque o valor da verossimilhança avaliada em. Fˆ. Li = 0. Fˆ ou. pode não ser úni a no. Ui = ∞.. Isso a onte e. é indiferente à forma de. Fˆ. em. (Li , Ui ). De qualquer forma, en ontrar. Fˆ. bastante difí il, uma vez que a lasse. da maneira omo temos denido até agora é. C. denida omo a ima tem dimensão innita.. Além disso, há innitas formas de redenirmos uma função que maximiza (1.3) para en ontrarmos outro estimador de máxima verossimilhança para ar sua forma nos intervalos. (Li , Ui ).. ne essário ara terizarmos melhor. Fˆ ,. F,. bastando modi-. Portanto, pelo que a abamos de expli ar, é. de forma que onsigamos al ular. Fˆ. de forma. úni a, em um espaço menor de funções de distribuição. Nesse sentido, o trabalho de Peto (1973) é fundamental e, por esse motivo, resumiremos sua ontribuição para este assunto aqui. Peto (1973) mostra que o ál ulo de. Fˆ. onsiste, na verdade, na estimação de um. 29.

(36) número nito de parâmetros. Para tanto, dene um onjunto de intervalos disjuntos fe hados. {[aj , bj ] : j = 1, . . . , J},. perten em ao onjunto onjunto. que são os intervalos ujos extremos inferiores. {Li , i = 1, 2, . . . , n}. {Ui , i = 1, 2, . . . , n}. e os extremos superiores. e que não ontêm nenhum ponto de. bj. {Li }. aj. perten em ao ou de. {Ui },. a. não ser em seus pontos extremos inferiores ou superiores, respe tivamente. Com essa denição dos intervalos. [aj , bj ],. que hamamos de. interseções máximas,. Peto (1973) prova a seguinte. Proposição 2.1. Na pro ura por Fˆ , é su iente onsiderar apenas as funções de distribuição que são horizontais em todos os pontos ex eto nos intervalos [aj , bj ] e que res em em alguns ou em todos os intervalos [aj , bj ]. Turnbull (1976) mostrou também que qualquer função de sobrevivên ia que res e fora de. SJ. j=1 [aj , bj ] não pode ser uma estimativa de máxima verossimilhança de. Pela Proposição 2.1, vemos que ou seja, haverá um salto em de. Fˆ ,. Fˆ. Fˆ. terá res imento apenas nos intervalos. se darão totalmente nos pontos. intervalos. [aj , bj ].. [aj , bj ],. nessas regiões. Por isso, para uni armos o ál ulo. vamos onven ionar que esses saltos em. [aj , bj ],. F.. bj. Fˆ ,. e, assim,. isto é, os in rementos de. Fˆ. Fˆ. em. será onstante no interior dos. Note-se que, pela proposição anterior e om essa onvenção, saimos. de uma pro ura de uma função em um espaço innito de funções para a estimação de um número nito de parâmetros. Por isso, o ál ulo dos intervalos. [aj , bj ]. é hamado. de passo da redução de dimensão.. Fˆ ,. Postas as onsiderações a ima sobre. [aj , bj ] Fˆ salto. pj. falta-nos saber em quais dos intervalos. terá saltos e quanto valerá ada salto desse.. no intervalo. [aj , bj ]. é dado por. Em termos matemáti os, o. pj = F (bj ) − F (aj ), j = 1, 2, . . . , J .. Podemos rees rever a verossimilhança (1.3) em função do vetor Antes, denimos, para. Mostraremos que. i = 1, 2, . . . , n e j = 1, 2, . . . , J , as   1, se [aj , bj ] ⊆ [Li , Ui ]; αij =  0, aso ontrário. L(F ) = L(p) =. n J Y X i=1. 30. j=1. αij pj. !. p = (p1 , p2 , . . . , pJ ).. variáveis. ..

(37) Fixe i. Suponha que temos a que. [ak1 , bk1 ], [ak2 , bk2 ], . . . , [aki , bki ] ⊆ [Li , Ui ],. αk 1 = αk 2 = . . . = αk i = 1. e os outros. aij. o que signi-. são iguais a zero. Suponha, sem. perda de generalidade, que esses intervalos estão ordenados. Assim, tem-se. F (Ui ) − F (Li ) = F (Ui ) − F (bki ) + F (bki ) − F (aki ) + F (aki ) − F (bki−1 ) + . . . + F (ak1 ) − F (Li ) = F (Ui ) − F (bki ) + pki + F (aki ) − F (bki−1 ) + pki−1 + . . . + pk1 + F (ak1 ) − F (Li ) Como. Fˆ. teremos que. é horizontal ( onstante) fora dos intervalos. Fˆ (Ui )−Fˆ (Li ) = pki +pki−1 +. . .+pk1 =. PJ. j=1. [aj , bj ], αij pj .. a função de verossimilhança dependendo apenas dos saltos. L(p) =. n J X Y i=1. F maximizando PJ restrição j=1 pj = 1.. Logo, estimaremos. pJ ,. sujeitos à. j=1. αij pj. !. pj. pela proposição 2.1,. Por isso, rees revemos da seguinte maneira:. .. (2.1). (2.1) em relação aos parâmetros. p1 , p2 , . . .,. Qualquer algoritmo de otimização, omo o. de Newton-Raphson, pode ser usado para resolver este problema. Entre alguns algoritmos se desta a, por sua importân ia história, o algoritmo de auto- onsistên ia proposto por Turnbull (1976), que é, na verdade, uma apli ação do algoritmo EM. Atualmente, o algoritmo mais e iente para en ontrar. Fˆ. é o algoritmo iterativo da mi-. iterative onvex. norante onvexa máxima, que abreviaremos aqui por algoritmo ICM (. minorant ).. Esse algoritmo usa a teoria de regressões isotni as na estimação de. F.. Expomos brevemente aqui a apli ação de regressões isotni as no Caso 1 de ensura intervalar para nos familiarizarmos om o algoritmo ICM posteriormente.. 2.2.1. Estimação de F no Caso 1 de ensura intervalar. Conforme já olo amos, o orre o. aso 1 de. ensura intervalar (ou dados de estado. orrente) quando, ao olhermos nossos dados, só sabemos se o real tempo de falha o orreu antes ou depois do tempo registrado. Isto signi a que há presença apenas de ensura à direita ou à esquerda em nossos dados. No aso 1, nossos dados são os pares. (Y1 , δ1 ), (Y2 , δ2 ), . . . , (Yn , δn ), em que δ 31. indi a.

(38) a presença de ensura à esquerda (δ. = 1). a notação da ensura intervalar, temos. ou de ensura à direita (δ. Yi = Ui ,. se. δ = 1. e. = 0).. Yi = Li ,. se. Usando. δ = 0.. Rees revendo a verossimilhança (1.4), temos. L(F ) =. n Y. [F (Li )]δi [1 − F (Ui )]1−δi. i=1. =. n Y. [F (Yi )]δi [1 − F (Yi )]1−δi .. i=1. Para nossa exposição ar lara, vamos denir alguns on eitos preliminares ne essários para a apresentação da regressão isotni a. Dizemos que uma função. X → R, X ⊆ R, distribuição. F. é isotni a se. f (x) ≤ f (y). X ⊆R. um onjunto nito e. para todo. x ∈ X.. Então, dizemos que. g∗. x < y.. Uma função de. é isotni a, por exemplo.. Sejam. se. sempre que. f :. g, w : X → R. g∗. é uma regressão isotni a de. minimiza, na lasse de funções isotni as. X. funções, sendo que. f : X → R,. g. w(x) > 0. om pesos. w. a soma. [g(x) − f (x)]2 w(x),. x∈X. isto é,. g ∗ = arg min. P. x∈X. [g(x) − f (x)]2 w(x) : f. é isotni a em. X. .. No ontexto do Caso 1 de ensura intervalar, um resultado importante é o. Teorema 2.2.1. Se f : X → I é isotni a, Φ : I → R é estritamente onvexa e g , w e g ∗ são omo na denição a ima de regressão isotni a, então g ∗ é a úni a função que maximiza Q(f ) =. X. {Φ (f (x)) + [g(x) − f (x)] φ (f (x))} w(x),. x∈X. em que φ(y) = Φ′ (y).. Portanto, pelo Teorema a ima, a regressão isotni a de. g. om pesos. g(Yi ) = δi , w(Yi ) = 1. e. Φ(y) = y log(y) + (1 −. o logaritmo de (2.2.1), se tomarmos. y) log(1 − y).. Assim,. Fˆ = g ∗.. Logo, pode-se al ular. 32. Fˆ. w. maximiza. usando a função minorante.

(39) onvexa máxima, apresentada em Groeneboom e Wellner (1992) om. Fˆ (Y(m) ) = max min i≤m k≥m. onde. δ(j). é valor de. δ. asso iado a. Y(j) ,. a. X. δ(j). i≤j≤k. k−i+1. j -ésima. ,. estatísti a de ordem de (Y1 ,. Y2 , . . .,. Yn ). Uma interpretação geométri a é que. Fˆ (Y(m) ). também é dada pela derivada à. m-ésimo ponto do diagrama de somas a umuladas formado pelos pontos P Pi Pi i Pi = w(Y ), w(Y )g(Y ) = (i, (j) (j) (j) j=1 j=1 j=1 δ(j) ), i = 1, 2, . . . , n.. esquerda no. (0, 0). e. 2.2.2. Algoritmo ICM. Uma vez salientada a importân ia da teoria de regressões isotni as para a estimação de. F. no aso 1, voltamos nossa atenção agora para o aso geral de ensura intervalar.. Como já vimos, o estimador não paramétri o de máxima verossimilhança é en ontrado se al ularmos o vetor. p. que maximiza a verossimilhança em (2.1) ou então. se en ontrarmos diretamente a função. Fˆ. que maximiza (1.3). Fazer isso diretamente. não é fá il e, por isso, bus amos resultados que possam auxiliar nossa bus a. O estimador não paramétri o de máxima verossimilhança de. F. é al ulado pelo. algoritmo ICM. Para apresentá-lo aqui, usaremos a linha de ra io ínio exibida em Jongbloed (1998). De fato, existe um resultado importante para formas quadráti as muito usado na teoria de regressões isotni as que é rela ionado aos nossos interesses. Para olo á-lo aqui, primeiro denamos o onjunto. xN },. o onjunto. K = {(x1 , x2 , . . . , xN ) ∈ RN : x1 ≤ x2 ≤ . . . ≤. K1 = {x ∈ K : x1 ≥ 0}. e a forma quadráti a. ψ : RN → (−∞, ∞],. isto é, um função om a forma. 1 ψ(x) = (x − y)T M(x − y), 2 em que. y = (y1 , y2, . . . , yN ) ∈ RN. e a matriz diagonal positiva denida. são ambos xos. Seja também o vetor. (2.2). M = diag(mi ). xˆ = arg min ψ(x). x∈K. Dena ainda o Diagrama de Somas A umuladas (DSA) omo o onjunto de pontos. 33.

(40) Pi. em. R2 ,. ou seja, DSA. Pj =. = {Pi : 0 ≤ i ≤ N} j X. ml ,. l=1. j X. ml yl. l=1. !. , dados por. ,. para. P0 = (0, 0). e. 1 < j < N.. Um resultado usado no desenvolvimento do algoritmo ICM (ver Jongbloed (1998)) é o seguinte:. Proposição 2.2. Sejam K, K1 , ψ e o DSA omo denimos a ima. Então, a omponente xˆi do vetor xˆ é al ulada omo a derivada à esquerda, avaliada em Pi , da função minorante onvexa máxima (isto é, a maior função onvexa situada abaixo) do DSA. Se o espaço em que minimizamos φ é K1 , então, as omponentes negativas de xˆ têm seu valor alterado para zero. Podemos rees rever a função. x ∈ K.. ψ. Com essa forma, vemos que. elemento. x ∈ K. y ∈ RN ,. que é xo.. em (2.2) omo. ψ. ψ(x) =. Como os elementos de. ψ. PN. i=1 (xi. − yi )2 mi ,. para. é, na realidade uma função que atribui a ada. uma soma quadrada de erros, om pesos. ordenadas, temos que. 1 2. K ⊂ RN. mi ,. em relação ao vetor. têm suas suas omponentes. é a soma quadráti a dos erros que minimizamos no problema. da regressão isotni a. A função de verossimilhança dos dados om ensura intervalar em (1.3), ontudo, não é uma forma quadráti a e, portanto, não podemos apli ar diretamente a Proposição 2.2. Por isso, pre isamos usar o resultado da Proposição 2.2 de forma mais geral. Assim sendo, seja. φ. uma função denida em. K. satisfazendo o seguinte:. (i). φ. é onvexa, ontínua, e atinge seu mínimo em. (ii). φ. é ontinuamente diferen iável no onjunto. K. em um úni o ponto. {x ∈ RN : φ(x) < ∞}.. Uma aproximação de Taylor de segunda ordem, em torno de. 34. xˆ;. x(k) para φ(x), x ∈ K,.

(41) é dada por. 1 φ(x) ≈ φ(x(k) ) + (x − x(k) )T ∇φ x(k) + (x − x(k) )T Hφ x(k) (x − x(k) ) 2 !T 1 ≈c+ x − x(k) + Hφ−1 x(k) ∇φ x(k) Hφ x(k) 2 ! × x − x(k) + Hφ−1 x(k) ∇φ x(k) , em que. c. não depende de. Como al ular. Hφ−1. x. e. Hφ. é a matriz hessiana de. pode tomar muito tempo, é omum sustituir a matriz. outro tipo de matriz semidenida positiva usualmente, toma-se. φ.. M. M. Hφ. por. mais fá il de ser invertida. Por isso,. diagonal om entradas positivas. Isso posto, podemos fazer. aproximações lo ais para. φ em torno de um ponto x(k). om uma forma quadráti a do. tipo. −1 1 qφ (x, x ) = ∇φ x(k) x − x(k) +M x(k) 2 (k). (k). ×M x. onde. M x(k). . se usualmente. . !T. (k). x−x. (k) −1. +M x. (k). ∇φ x. é uma matriz diagonal positiva denida que depende de. M x(k). φ.. omo a diagonal da matriz hessiana de. qφ (., x(k) ). dado pelos pontos. Pj =. j X l=1. sendo. (k). ml. !. x(k) .. ,. Toma-. De a ordo om. a Proposição 2.2, a partir dessa aproximação, podemos obter o ponto maximiza. . x(k+1). que. omo a derivada à esquerda do Diagrama de Somas A umuladas. P0 = (0, 0). e. ! j X ∂φ (k) (k) (k) x(k) , ml , ml xl − ∂x l l=1. o l -ésimo elemento da diagonal de. M x(k). A idéia do algoritmo ICM é, portanto, tomar. . para. 1 < j < N,. .. φ = − log L(F ). e, om o pro-. edimento que a abamos de exibir, en ontrar o estimador não paramétri o de máxima verossimilhança de idéia mais lara.. F. iterativamente, dado um valor ini ial. x(0) .. Tornemos essa. Tomando o logaritmo da expressão (1.3), obtemos a função de. 35.

(42) log-verossimilhança para dados om ensura intervalar omo sendo. − log L(F ) = −. n X. δi log F (Li )+γi log [F (Ui ) − F (Li )]. i=1. !. (2.3). + (1 − δi − γi ) log [1 − F (Ui )] .. Olhando essa expressão, vemos que, em prin ípio, temos ter saltos e, portanto, há. . . ., F (Ln ), F (Un ).. 2n. 2n. pontos em que. Fˆ. pode. F (L1 ), F (U1 ),. parâmetros a estimar, que são os valores. Entretanto, ao fazermos uma análise mais detalhada, vemos. que alguns desses parâmetros na verdade não inuem na log-verossimilhança ou não pre isam ser al ulados. É o que o orre quando o menor dos um. δ=0. ou o maior dos. olo ar diretamente na unidade. i,. Ui , U(n) ,. Fˆ (L(1) ) = 0 e Fˆ (U(n) ) = 1.. isto é, quando. γ i = 0, Fˆ. Fˆ (Li ). nos pontos. Li ,. teremos que al ular. {1, 2, . . . , p} • I1. Li. Li. Fˆ (Ui ).. Ui. Na práti a, isto signi a. δi = γi = 0 e. Ui. não tem inuên ia em. ou. Ui ,. se. t1 ≤ t2 ≤ . . . ≤ tp , p = n +. Pn. γi ,. 1. em que. Além disso, podemos parti ionar o onjunto de índi es. = 1). e. tj. é um. = 1). e. tj. é um. Ui ;. é o onjunto de índi es em que há ensura à direita, isto é,. Um primeiro ponto a observar é que quando o orre poten iais pontos de salto de. k ∈ I2a. δ = 1;. Li ;. é o onjunto dos índi es em que há ensura intervalar (γ. dois índi es. δi = 1.. inuen iam de fato na log-. é o onjunto dos índi es em que há ensura intervalar (γ. tempo do tipo. Li < Ui. ou. da seguinte maneira:. tempo do tipo. • I3. Nesses asos, podemos. é o onjunto de índi es em que há ensura à esquerda, isto é,. • I2a. • I2b. Fˆ (tj ).. ou. se. Depois de averiguarmos quais dos valores verossimilhança (2.3), teremos os tempos. orresponde a. Quando não temos ensura intervalar. um dos tempos. (2.3) e, portanto, não é ne essário al ular que não é ne essário al ular. δ + γ = 1.. orresponde a. Li , L(1) ,. e. e o onjunto. l ∈ I2b. Fˆ ,. por termos. tais que. {t1 , t2 , . . . , tp }. tk = Li. Li 6= 0 e. é ordenado. 36. e. tl = Ui .. γ i = 1,. δ + γ = 0;. os pontos. Ui < ∞.. Li. e. Ui. são. Portanto, existem. Isso impli a que. k < l,. pois.

(43) Mas os onjuntos tivamente, om. o orre. e. γ i = 1.. l ∈ I2b ,. asso iado. I2a. I2b. são formados justamente pelos pontos. Por isso, para todo elemento. determinado pela relação úni a entre. r : I2a → I2b. portanto, podemos determinar os elementos de Mais ainda, temos. Ui ,. respe -. k ∈ I2a ,. existe um elemento. Li. Além disso, sempre. e. Ui .. r(i) > i. para todo. I2b. entre os onjuntos. I2a. e. I2b. e,. por intermédio dos elementos de. i ∈ I2a .. Daí, todo termo. da função de verossimilhança em (1.3) pode ser sustituído por algum. e. k < l.. Portanto, podemos denir uma bijeção. I2a .. Li. F (Ui ) − F (Li ). F (tj ) − F (tr(j) ),. para. j ∈ I2a .. Temos que estimar, portanto, o vetor. βi = F (ti ),. sendo que o orre. β ∈ Rp ,. ujas omponentes são os valores. 0 ≤ β1 ≤ β2 ≤ . . . ≤ βp .. Feitas todas as onsiderações. a ima, podemos rees rever a log-verossimilhança (2.3) omo. φ(β) = −. X i∈I1. log βi −. X. i∈I2a. X log βr(i) − βi − log [1 − βi ] .. (2.4). i∈I3. Agora, podemos ver laramente que o problema de en ontrar o estimador não paramétri o de máxima verossimilhança de. F. é, na verdade, uma apli ação do pro e-. dimento que des revemos anteriormente: a maximização de uma função n ava no onjunto. K1 .. ordens de. Temos, então, que al ular as derivadas par iais de primeira e segunda. φ(β) para obtermos os pontos Pj. o resultado da 2.2, a hamos o vetor. qφ (., x(k) ).. do Diagrama de Somas A umuladas e, om. β (k+1). Assim, temos:.    −βi−1 , se i ∈ I1 ;        βr(i) − βi −1 , se i ∈ I2a ; ∂φ (β) = −1  ∂βi   −1 (i) − β − β , se i ∈ I2b ; i r      [1 − β ]−1 , se i ∈ I . 3. i. e também. que maximiza a aproximação quadráti a. 37.

(44)    βi−2 , se i ∈ I1 ;        βr(i) − βi −2 , se i ∈ I2a ; 2 ∂ φ (β) = ml = −2  ∂βi2   βi − βr−1 (i) , se i ∈ I2b ;      [1 − β ]−2 , se i ∈ I . 3. i. Com as derivadas par iais al uladas e lembrando que igual a. Lj. valores. {Li , Ui , δi , γi }. ou. Uj ,. βi = F (ti ),. podemos es rever as omponentes dos pontos da amostra.. onde. Pj. ti. pode ser. em termos dos. Mas antes, vamos denir algumas funções que. fa ilitarão a notação aqui empregada. São as seguintes:. GF (t) =. WF (t) =. X. X δi γi 2 + [F (Li )] [F (Ui ) − F (Li )]2 Li ≤t Li ≤t X 1 − δi − γi X γi + , + [F (Ui ) − F (Li )]2 Ui ≤t [1 − F (Ui )]2 Ui ≤t X δi γi − F (Li ) L ≤t F (Ui ) − F (Li ) L ≤t X i. i. +. X. X 1 − δi − γi γi − , F (U ) − F (L ) 1 − F (U ) i i i U ≤t U ≤t i. e. VF (t) = WF (t) +. X. F (ti ) [GF (ti ) − GF (ti−1 )] .. ti ≤t. Cal ulamos a primeira omponente de. Pj :. 38. i.

(45) j X. ml =. l=1. βi ≤F (tj ). j X ∂2φ. X. (β) = 2. ∂βl. l=1. X . X. X . βr(i) − βi. i∈I2a. βi − βr−1 (i). i∈I2b. =. +. i∈I1. βi ≤F (tj ). +. βi ≤F (tj ). βi−2. X. −2. βi ≤F (tj ). +. X. −2. [1 − βi ]−2. i∈I3. δi γi 2 + [F (Li )] [F (Ui ) − F (Li )]2 Li ≤tj Li ≤tj X X 1 − δi − γi γi + + [F (Ui ) − F (Li )]2 Ui ≤tj [1 − F (Ui )]2 Ui ≤tj. = GF (tj ). É interessante observarmos, pelo que a abamos de mostrar, que. mj =. j X. ml −. l=1. j−1 X. ml = GF (tj ) − GF (tj−1 ).. l=1. Analogamente, pode-se obter a segunda omponente de. Pj,2. Pj , Pj,2,. omo. j j j X X X ∂φ ∂φ = ml βl − (β) = − (β) + ml βl ∂βl ∂βl l=1. l=1. βi ≤F (tj ). X. =. βi−1 −. i∈I1. X. =. Li ≤tj. X −1 βr(i) − βi. βi ≤F (tj ). +. i∈I2a. βi ≤F (tj ). −. l=1. βi ≤F (tj ). X. i∈I2b. j. [1 − βi ]−1 +. i∈I3. X. X −1 βi − βr−1 (i). βl ml. l=1. X X δi γi γi − + F (Li ) L ≤t F (Ui ) − F (Li ) U ≤t F (Ui ) − F (Li ) i. j. i. j. j. X 1 − δi − γi X + F (tl ) [GF (tl ) − GF (tl−1 )] 1 − F (U i) Ui ≤tj l=1 X = WF (tj ) + F (tl ) [GF (tl ) − GF (tl−1 )] −. tl ≤tj. = VF (tj ) Feitos todos esses ál ulos, temos todos os elementos ne essários para pro eder à estimação de. F. pelo algoritmo ICM. Dena o vetor. F (k) = (F (k) (t1 ), F (k) (t2 ), . . . , F (k) (tp )). 39.