• Nenhum resultado encontrado

UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE MATEMÁTICA DEPARTAMENTO DE ESTATÍSTICA

N/A
N/A
Protected

Academic year: 2021

Share "UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE MATEMÁTICA DEPARTAMENTO DE ESTATÍSTICA"

Copied!
51
0
0

Texto

(1)

INSTITUTO DE MATEMÁTICA

DEPARTAMENTO DE ESTATÍSTICA

LORENA ROGACIANO SANTANA RIBEIRO

ANÁLISE DE SOBREVIVÊNCIA: ESTUDO EM

PACIENTES COM CARCINOMAS

ESPINOCELULAR NA GENGIVA E PALATO DURO

Salvador 2014

(2)

LORENA ROGACIANO SANTANA RIBEIRO

ANÁLISE DE SOBREVIVÊNCIA: ESTUDO EM

PACIENTES COM CARCINOMAS

ESPINOCELULAR NA GENGIVA E PALATO DURO

Trabalho monográco apresentado ao Curso de Ba-charelado em Estatística, Departamento de Estatís-tica, Instituto de MatemáEstatís-tica, Universidade Federal da Bahia, como requisito para aprovação na disci-plina de Trabalho de Conclusão de Curso II para obtenção do grau de Bacharel em Estatística. Orientador(a): Prof(a). Dra Giovana Oliveira

Silva.

Salvador 2014

(3)

Dedico este trabalho aos meu pais, Moisés e Selêde. Aqui está a recompensa de seus esforços e orações.

(4)

AGRADECIMENTOS

A Deus, o doador da vida e sabedoria. Todas as coisas foram feitas por intermédio dele, e sem ele nada do que foi feito se fez.

Aos meus pais, Moisés e Selêde, que desde os primeiros momentos da minha vida, torceram, oraram, me apoiaram e deram o melhor de si para que eu pudesse ser vitoriosa. Ao meu esposo Heitor, pela paciência, dedicação incentivo e apoio nesse processo de graduação.

Ao meu irmão Mateus, meus familiares e amigos que estivaram torcendo por mim. À minha orientadora, profa Dra Giovana Oliveira, por toda paciência, dedicação e

competência. Aprendi e amadureci muito neste um ano de trabalho.

Ao profo Dro Jalmar Carrasco que disponibilizou o seu tempo para elaborar e me

auxiliar com o processador de texto TeX.

À profa Dra Leila Amorim, pelo auxílio na elaboração do abstract.

Aos professores que, por meio do conhecimento compartilhado ao decorrer deste curso, me auxiliaram para que eu pudesse desenvolver este trabalho.

À Juliana Passos pelo fornecimento do conjunto de dados utilizados neste trabalho. Aos colegas pelos conhecimentos divididos, pelas vitórias conquistadas, pela força con-cedida, pelas angústias compartilhada.

(5)
(6)

RESUMO

O presente trabalho fez uso de técnicas de análise de sobrevivência am de estudar o tempo de vida de pacientes que morreram devido ao câncer na gengiva e/ou palato duro e identicar quais covariáveis podem inuenciar neste tempo de vida. O conjunto de dados estudado é composto por informações de uma amostra de 114 pacientes atendidos no Departamento de Cabeça e Pescoço e Otorrinolaringologia do Hospital A.C. Camargo, localizado na cidade de São Paulo, no período de Janeiro de 1980 a Dezembro de 2006, diagnosticados com carcinomas espinocelulares (CEC) de gengiva e/ou palato duro. O percentual de observações censuradas foi igual a 31,58%. Por meio do teste da razão de verossimilhança e análise gráca dos resíduos, percebeu-se que o modelo de regressão log-normal seria o mais adequado para os dados em estudo. Das vinte e duas covariáveis observadas, apenas três mostraram-se signicativas. Estas variáveis são: (i) O tempo que o paciente percebeu a lesão, (ii) realização de cirurgia e (iii) realização de radioterapia. Houve interação entre estas duas últimas variáveis. Concluiu-se que a localização do cân-cer, na gengiva ou no palato duro, não interfere no tempo de vida do paciente. Apesar de a literatura considerar o tabagismo e etilismo como fatores de risco para o desenvolvimento deste tipo de câncer, o modelo usado não os considerou como variáveis signicativas em relação ao tempo de vida do paciente.

Palavras-chave: Análise de sobrevivência; Carcinomas espinocelular; gengiva; palato duro; Estimador de Kaplan-Meier; Modelo de regressão log-normal.

(7)

ABSTRACT

In this work we used survival analysis techniques in order to study the lifetime of patients who died due to gums cancer and/or hard palate and to identify covariates that may inuence this lifetime. The dataset consists of information from a sample of 114 patients evaluated at the Department of Head and Neck Surgery and Otorhinolaryngology, AC Camargo Hospital, located in the city of São Paulo, from January 1980 to December 2006, and whom had been diagnosed as squamous cell carcinoma (SCC) in the gums and/or hard palate . The percentage of censored observations was equal to 31.58% . Through the likelihood ratio test and graphical analysis of the residuals, we veried that the log - normal regression model was the most appropriate for this data. From the twenty two available covariates, only three of them were signicant. These variables were: (i) the time when the patient noticed the lesion, (ii) indicator that the patient underwent surgery and (iii) radiotherapy . Interaction was observed between the latter two. We concluded that the location of the cancer (gums or hard palate) does not interfere in the lifetime of the patient. Although the literature considers smoking and alcohol consumption as risk factors for the development of this type of cancer, the selected model did not nd them statistically signicant.

Keywords: Survival analysis; squamous cell carcinomas; gingiva; and hard palate; Kaplan-Meier estimator; log-normal model regression.

(8)

SUMÁRIO LISTA DE FIGURAS . . . 9 LISTA DE TABELAS . . . 10 1 INTRODUÇÃO . . . 11 2 REFERENCIAL TEÓRICO . . . 13 2.1 Análise de Sobrevivência . . . 13 2.1.1 Censura . . . 13

2.2 Função de sobrevivência e Função taxa de falha . . . 14

2.3 Estimador de Kaplan-Meier . . . 15 2.4 Modelos Probabilísticos . . . 17 2.4.1 Distribuição Exponencial . . . 17 2.4.2 Distribuição de Weibull . . . 17 2.4.3 Distribuição Log-Normal . . . 18 2.4.4 Distribuição Log-Logística . . . 19 2.4.5 Outras distribuições . . . 19

2.5 Estimador de máxima verossimilhança . . . 20

2.6 Escolha do Modelo Probabilístico . . . 21

3 MATERIAIS E MÉTODOS . . . 23

3.1 DESCRIÇÃO DOS DADOS . . . 23

3.2 MODELO DE REGRESSÃO PARAMÉTRICO . . . 25

3.2.1 Análise de Resíduos . . . 25

3.2.2 Interpretação dos Coecientes Estimados . . . 26

3.2.3 Modelo de regressão Log-Normal . . . 26

4 RESULTADOS . . . 28

5 CONCLUSÕES . . . 35

REFERÊNCIAS . . . 36

(9)

LISTA DE FIGURAS

Figura 1 - Curvas de sobrevivência estimadas por Kaplan-Meier para a covariável cirurgia. . . 29 Figura 2 - Curvas de sobrevivência estimadas por Kaplan-Meier para a covariável

radioterapia. . . 31 Figura 3 - Sobrevivência do resíduo de Cox-Snell estimada pelo método de

Kaplan-Meier e pelo modelo exponencial padrão, usando as distribuições expo-nencial (a) e log-normal (b). . . 32 Figura 4 - Curva de sobrevivência do resíduo de Cox-Snell estimada pelo método de

Kaplan-Meier e pelo modelo exponencial padrão, usando as distribuições exponencial (a) e log-normal (b). . . 33

(10)

LISTA DE TABELAS

Tabela 1 - Resultado dos testes da razão de verossimilhanças para seleção de cova-riáveis. . . 30 Tabela 2 - Resultado do teste da razão de verossimilhança para seleção de modelo. 32 Tabela 3 - Coecientes estimado usando o modelo log-normal . . . 33

(11)

1 INTRODUÇÃO

O guia médico de Santa Cruz dene câncer como sendo o termo usado para designar um conjunto de mais de cem doenças caracterizadas pela proliferação descontrolada de células, o que leva à formação de um tecido anormal: o tumor. Quando há disseminação de células cancerosas para outras regiões do corpo e formação de tumores secundários, trata-se de uma metástase.

Os tipos de câncer são agrupados em cinco categorias, a saber, carcinomas, sarcomas, leucemias, linfomas e mielomas e tumores do sistema nervoso central. O presente estudo dá enfoque aos carcinomas espinocelulares que é um tumor maligno da pele. Muitos autores denominam o câncer de boca por carcinoma espinocelulares (CEC) pelo fato deste representar 90% a 95% dos cânceres bucais. Sendo assim, no trabalho vigente, ambas nomenclaturas são adotadas.

O câncer bucal é o sexto mais comumente encontrado entre norte-americanos e o terceiro mais comum nos países em desenvolvimento. A cada ano nos EUA, 30 mil novos casos são diagnosticados ocorrendo 9 mil mortes (Harras, 1996; Wong et al., 1996 ).

Informações obtidas no sítio do Instituto Nacional de Câncer (INCA) indicam que, no Brasil, o câncer da cavidade oral ocupa o nono lugar entre os tumores malignos, correspondendo a 2,8% das mortes por câncer. A literatura coloca o estado de São Paulo entre os locais com taxas de câncer de boca mais elevadas do mundo, com índices de 25,3 casos por 100 mil habitantes (Franco et al.,1989; Wünsch-Filho, 2002).

O sítio do INCA, na seção tipo de câncer de boca, classica os cânceres de lábio e de cavidade oral (mucosa bucal, gengivas, palato duro, língua oral e assoalho da boca) como participantes desta classe. Diversos trabalhos apresentam fatores de risco para o desenvolvimento do câncer da boca. Este tipo de câncer acomete principalmente tabagista e os riscos aumentam quando o tabagista é também alcoólatra. Além disso, pessoas com idade superior a 40 anos, má higiene bucal, ou uso prótese dentária mal ajustada, são mais propensas a possuírem esse tipo de câncer. Segundo Andreotti et al. (2006), trabalhadores de ocinas mecânicas e pintores conguram-se como uma situação de risco para desenvolver o câncer bucal.

A gengiva é uma mucosa oral imóvel que envolve as arcadas dentárias e onde se en-contra o osso alveolar. Já o palato duro é a parte anterior do céu da boca. Ambos são mucosas queratinizadas. Os sintomas mais frequentes do carcinoma do palato duro são a dor e o intumescimento plano, e estes são observados com mais frequência em países onde é comum o hábito de fumar cigarro invertido. Já lesões na gengiva representam cerca de 10% de CEC da boca.

O presente trabalho tem como objetivo estudar a inuência de fatores no tempo de vida de pacientes que deram entrada no Departamento de Cabeça e Pescoço e

(12)

Otorrino-laringologia do Hospital A.C. Camargo no período de 1980 a 2006, com a presença de carcinoma na gengiva e/ou palato duro. Este é um estudo retrospectivo, analisando todos os casos diagnosticados como CEC de gengiva e/ou palato duro no período de janeiro de 1980 a dezembro de 2006. Os critérios de inclusão no estudo foram pacientes com tumor primário diagnosticados como CEC, conrmado por meio de exames anatomopatológi-cos, localizados em gengiva e/ou palato duro; disponibilidade dos blocos de parana dos referidos tumores sucientes para conrmação histopatológica e novos cortes, bem como adequada conservação dos espécimes.

De acordo com Colosimo e Giolo (2006), análise de sobrevivência é uma das áreas da estatística que mais cresceram nas últimas duas décadas do século passado, devido ao aprimoramento de técnicas estatísticas combinado com computadores cada vez mais velozes. Na área médica, por exemplo, houve um crescimento de 11%, em 1979, para 32%, em 1989, segundo artigos do conceituado periódico The New England Journal of Mecicine. Assim, no presente trabalho, foi utilizado este ramo da estatística que estuda o tempo até a ocorrência de um evento de interesse, neste estudo, morte por carcinoma espinocelular na gengiva e/ou palato duro, e foi realizada modelagem para identicar as inuências de determinados fatores neste tempo. Espera-se que este trabalho possibilite a ampliação do conhecimento de fatores que inuenciam o tempo de vida de pacientes com carcinomas espinocelulares na região da gengiva e/ou palato duro. A partir dos resultados obtidos, apresenta-se uma contribuição para o estudo de prevenção de mortes causadas por esse tipo de tumor.

O trabalho está organizado da seguinte maneira: no capítulo 2, apresentou-se os concei-tos básicos de análise de sobrevivência, os estimadores não paramétricos e as distribuições de probabilidade mais usadas em análise de sobrevivência; o capítulo 3 traz informações a respeito dos dados e da metodologia utilizada; os resultados são apresentados no capítulo 4; Por m, o capítulo 5 apresenta as conclusões obtidas com este trabalho.

(13)

2 REFERENCIAL TEÓRICO

2.1 Análise de Sobrevivência

Análise de sobrevivência engloba técnicas estatísticas usadas para análise de dados em que a variável em estudo representa o tempo até a ocorrência de um evento, denotado por tempo de sobrevivência. Estes dados podem ser obtidos a partir de estudos experimentais (ensaios controlados aleatorizados) ou de coorte observacionais em que as informações podem ser obtidas por meio de uma base de dados já existentes (dados secundários). O tempo que corresponde ao período inicial, pré-determinado, até o evento de interesse, é chamado de tempo de sobrevivência. Essa metodologia originou-se na medicina em que era comum o estudo do tempo de vida do indivíduo, explicando assim o nome análise de sobrevivência.

Além da medicina, o estudo de análise de sobrevivência tem aplicação em muitas outras áreas. Por exemplo, na área criminalista, é comum o estudo do tempo da liberação de um preso até a sua reincidência no crime. Na educação, é comum o estudo do tempo até a conclusão do curso. Já na engenharia, usa-se o termo conabilidade ao invés de análise de sobrevivência, e o interesse é estudar o tempo até a falha de um equipamento (Colosimo e Giolo, 2006).

Associadas ao tempo de sobrevivência podem existir fatores denominados por variáveis independentes que inuenciam no tempo de sobrevivência. Estas são imprescindíveis em modelo de regressão.

Em geral, os dados em análise de sobrevivência apresentam observações censuradas, ou seja, informações incompletas em que não se tem a informação exata sobre o momento da ocorrência do evento em algumas das observações. Outra característica dos modelos tradicionais, é o fato da suposição de normalidade para os dados não ser adequada, visto que o tempo apresenta, na maioria das vezes, uma assimetria positiva. Essas característi-cas impossibilitam o uso das técnicaracterísti-cas estatísticaracterísti-cas tradicionais que supõe normalidade das variável resposta.

A seguir são descritas denições importantes em análise de sobrevivência. 2.1.1 Censura

Como citado anteriormente, a censura ocorre quando não se tem o valor do tempo de sobrevivência de todos elementos da amostra, tem-se, apenas, informação parcial sobre este tempo. Isso pode ocorrer por vários motivos, por exemplo, se em um estudo sobre o tempo de vida de um paciente com câncer, este morre devido a outro motivo, como no caso de um acidente de carro, esta observação é considerada censurada visto que não se sabe o tempo de sobrevivência por conta da doença.

(14)

Existem três tipos de censura, a saber, à direita, a esquerda e intervalar. A primeira ocorre quando o tempo de sobrevivência está à direita do tempo registrado. Já a segunda ocorre quando o tempo registrado é maior do que o tempo de sobrevivência, isto é, o evento de interesse já ocorreu no momento do experimento. Por m, a terceira ocorre quando a observação em estudo é acompanhada periodicamente, sabendo-se apenas o intervalo de tempo em que ocorreu o evento de interesse.

Além disso, os três tipos de mecanismo de censura à direita são:

• Tipo I: o tempo de acompanhamento é pré-determinado, podendo acontecer que no nal deste tempo o evento não tenha ocorrido para todos elementos da amostra. • Tipo II: é determinada uma quantidade de falhas que devem ser observadas. As

observações que falharão após a obtenção destas, são ditas observações censuradas. • Aleatória: ocorre quando o elemento em estudo deixa de ser acompanhado por motivo distinto ao estudado, não sendo possível a obtenção do tempo da ocorrência do evento de interesse.

No presente trabalho foi utilizado censura à direita juntamente com o mecanismo de censura aleatória.

Em termos de notação, seja T uma variável aleatória que representa o tempo de sobrevivência de um elemento e C uma variável aleatória que representa o tempo de censura para este elemento, portanto, os dados observados são:

t = min(T, C) e δ = ( 1, se T ≤ C 0, se T > C. em que δ é a variável que indica censura.

Em análise de sobrevivência, o principal interesse está em estimar a função de sobre-vivência e a função de taxa de falha. Estas serão descritas a seguir.

2.2 Função de sobrevivência e Função taxa de falha

A probabilidade de uma observação não falhar até o instante t é encontrada a partir da função de sobrevivência que é dada por:

S(t) = P (T ≥ t) =

Z ∞

t

f (u)du, t > 0. Sendo assim, a sua função de distribuição acumulada é dada por:

(15)

F (t) = 1 − S(t). (2.1) Por meio desta obtêm-se a probabilidade de uma observação falhar até o instante de tempo t. É possível mostrar que esta função possui as seguintes propriedades:

• S(0) = 1 e,

• lim

t→∞S(t) = 0.

Sabendo-se que o indivíduo sobreviveu até um instante de tempo t, a probabilidade que ele não sobreviverá por mais um intervalo de tempo ∆t tendendo a zero, dividido pelo comprimento deste intervalo, é dada pela função taxa de falha de T denida como:

λ(t) = lim ∆t→0 P (t ≤ T < t + ∆t|T ≥ t) ∆t = f (t) S(t). (2.2)

A função taxa de falha é mais informativa que a função de sobrevivência, pois esta apresenta várias formas, tais como, constante, crescente, decrescente, banheira e unimo-dal. Já com relação ao comportamento da função de sobrevivência, espera-se que esta seja decrescente tendendo a zero. A função taxa de falha também pode ser usada para selecionar o modelo de probabilidade que melhor se ajusta aos dados. Neste trabalho foi usado a função de sobrevivência para a escolha inicial de um modelo de probabilidade. 2.3 Estimador de Kaplan-Meier

Para estimar a função de sobrevivência pode-se usar estimadores não-paramétricos, pelo fato de que não precisa ter conhecimento da distribuição de probabilidade do qual os dados são provenientes. Os métodos mais conhecidos para estimar a função de sobre-vivência são:

• Estimador de Kaplan-Meier ou limite-produto; • Estimador de Nelson-Aalen;

• Estimador da Tabela de vida ou Atuarial.

Os estimadores de Kaplan-Meier e Nelson-Aalan possuem as mesmas características, no entanto o primeiro é mais utilizado. Em relação ao estimador da Tabela de vida, o estimador de Kaplan- Meier apresenta superioridade, visto que ele é um estimador não-viciado para função de sobrevivência. Entretanto, o vício do estimador da Tabela de Vida ou Atuarial diminui quando a amplitude do intervalo diminui. Neste trabalho, será utilizado o estimador de Kaplan- Meier que será descrito a seguir.

(16)

Criado por Kaplan e Meier (1958), este estimador tem como base a função de so-brevivência empírica utilizado na ausência de censura. Para o cálculo desse estimador, considera-se:

• t1<t2<...<tk , os k tempos distintos e ordenados de falhas,

• dj o número de falhas em tj, j=1,...,k, e

• nj o número de indivíduos sob risco em tj, ou seja, os indivíduos que não falharam

e não foram censurados até o instante imediatamente anterior a tj.

O estimador de Kaplan-Meier é obtido por meio de:

d S(t) = Y j:tj<t  nj − dj nj  = Y j:tj<t  1 − dj nj  . (2.3)

De acordo com Colosimo e Giolo (2006), as principais propriedades do estimador de Kaplan-Meier são basicamente as seguintes:

• é não-viciado para grandes amostras; • é fracamente consistente;

• converge assintoticamente para um processo Gaussiano; e • é estimador de máxima verossimilhança de S(t).

A variância assintótica para o estimador de Kaplan-Meier é dada por:

d V ar( dS(t)) =hS(t)d i2 X j:tj<t dj nj(nj− dj) .

O intervalo de conança aproximado para S(t) com 100(1 − α)% de conança é dado por: d S(t) ± zα 2 q d V ar( dS(t)), em que zα 2 é o percentil 1 − α

2 da distribuição normal padrão. Este intervalo é obtido da

distribuição normal assintótica para os estimadores de máxima verossimilhança.

Outro método de estimação é o máxima verossimilhança. Este supõe distribuição de probabilidade para o tempo de sobrevivência. A seguir são descritas as distribuições mais utilizadas em análise de sobrevivência e posteriormente o método máxima verossimilhança.

(17)

2.4 Modelos Probabilísticos

Os modelos probabilísticos são apresentados pela função de sobrevivência, função taxa de falha ou função de densidade, que são funções equivalentes.

Em análise de sobrevivência, os modelos probabilísticos mais usados por se adequarem à maioria das situações são: exponencial, de Weibull, log-normal e log-logística. Além desses, também são usados a gama e a gama generalizada. A seguir, são apresentados estes modelos.

2.4.1 Distribuição Exponencial

Este modelo probabilístico é o mais simples. Ele possui apenas um parâmetro e sua taxa de falha é constante. Isso signica que qualquer que seja a observação em estudo, ela apresenta a mesma probabilidade de falhar em um intervalo de tempo [t1, t2[ . Essa

propriedade é chamada falta de memória.

A função densidade de probabilidade para a variável aleatória (v.a.) T, com distribui-ção exponencial é dada por:

f (t) = 1 αexp  −t α  , t ≥ 0, α > 0.

A esperança e a variância da variável aleatória T que segue a distribuição exponencial são dadas,respectivamente, por: E[T ] = α e V [T ] = α2

A função de sobrevivência correspondente é dada por:

S(t) = exp  −t α  , e a função taxa de falha é dada por:

λ(t) = 1

α. (2.4)

2.4.2 Distribuição de Weibull

A distribuição de Weibull é bastante usada e, diferentemente da distribuição expo-nencial, a sua função taxa de falha assume um comportamento crescente, decrescente ou constante.

A distribuição de Weibull possui dois parâmetros: γ o parâmetro de forma e α o parâmetro de escala. A função densidade de probabilidade, a função de sobrevivência e a função taxa de falha são dadas, respectivamente, por:

(18)

f (t) = γ αγt γ−1exp  − t α γ , S(t) = exp  − t α γ , λ(t) = γ αγt γ−1, em que t ≥ 0, α > 0 e γ > 0.

Quando γ = 1, a distribuição de Weibull reduz-se a distribuição exponencial com parâmetro α.

Sendo T uma variável aleatória com distribuição de Weibull, sua esperança e variância são dadas, respectivamente, por:

E(T ) = αΓ[1 + (1/γ)],

V (T ) = α2Γ[1 + (2/γ)] − Γ[1 + (1/γ)2] , em que Γ(k) = R∞

0 x

k−1exp {−x} dxé a função gama.

Os percentis correspondentes são dados por: tp = α[− log(1 − p)]1/γ.

2.4.3 Distribuição Log-Normal

Sendo T uma variável aleatória com distribuição log-normal, sua função densidade de probabilidade é dada por:

f (t) = √ 1 2πtσexp ( −1 2  log(t) − µ σ 2) , t ≥ 0, µ > 0, σ > 0,

em que µ é a média do logaritmo do tempo de sobrevivência e σ é o desvio-padrão. A função de sobrevivência e função taxa de falha correspondentes são, respectivamente:

S(t) = Φ − log(t) + µ σ  e λ(t) = f (t) S(t).

O comportamento da função taxa de falha é crescente até um momento, e depois que atinge um valor máximo ela decresce, ou seja, é unimodal.

Para encontrar os percentis desta distribuição usa-se: tp = exp {zpσ + µ} ,

(19)

em que zp é o 100p% percentil da distribuição normal padrão.

A média e a variância são dadas,respectivamente, por:

E(T ) = expµ + (σ2/2) ,

V (T ) = exp2µ + σ2 (exp σ2 − 1).

Quando o tempo segue uma distribuição log-normal, o logaritmo do tempo seguirá uma distribuição normal.

2.4.4 Distribuição Log-Logística

Sendo T uma v.a. com distribuição log-logística, a função densidade de probabilidade é expressa por:

f (t) = γ αγt

γ−1

(1 + (t/α)γ)−2, t > 0, α > 0, γ > 0.

Igualmente a distribuição de Weibull e log normal, esta também possui dois parâme-tros, um de escala, α, e um de forma, γ. Esta distribuição pode ser uma alternativa para a log-normal e a Weibull pois sua função taxa de falha tem comportamento unimodal ou decrescente.

A função de sobrevivência e a taxa de falha são dadas, respectivamente por:

S(t) = 1

1 + (t/α)γ,

λ(t) = γ(t/α)

γ−1

α [1 + (t/α)γ].

A esperança e a variância da v.a. T são dadas, respectivamente, por: E(T ) = [παCsc(π/γ)]/γ e

V (T ) = [(2πα2Csc(2π/γ))/γ] − E(T )2,

em que Csc é a função cossecante.

Também é possível encontrar o percentil 100p% por meio da expressão: tp = α  p (1 − p) 1/γ 2.4.5 Outras distribuições

Existem outras distribuições que também são usadas em análise de sobrevivência, como é o caso da distribuição do valor extremo e distribuição logística. A primeira é

(20)

obtida a partir da aplicação do logaritmo numa variável com distribuição de Weibull, já a segunda distribuição surge quando se toma o logaritmo de uma variável com distribuição log-logística.

Uma outra distribuição que vale ser destacada é a distribuição gama generalizada cuja a função densidade de probabilidade é dada por:

f (t) = γ Γ(k)αγkt γk−1 exp  − t α γ , t > 0, α > 0, k > 0, γ > 0, em que α é o parâmetro de escala, e γ e k são parâmetros de forma.

É possível perceber que quando os dois parâmetros de forma são iguais a 1, T segue uma distribuição exponencial com parâmetro α. Quando k = 1, T segue uma distribuição de Weibull com parâmetros γ e α. No caso de apenas γ ser igual a 1, T segue uma distribuição gama com parâmetros k e α. Quando k → ∞, a distribuição log-normal aparece como caso limite da distribuição gama generalizada.

Portanto, a distribuição gama generalizada engloba várias funções, assim pode ser usada para seleção de modelos.

2.5 Estimador de máxima verossimilhança

Todas distribuições de probabilidade possuem parâmetros que devem ser estimados a partir de dados amostrais. O método de máxima verossimilhança é o mais usado, por ser de fácil entendimento e possuir propriedades para grandes amostras. A função de verossimilhança para o vetor de parâmetro, θ, da distribuição é denida por:

L(θ) =

n

Y

i=1

f (ti; θ).

É possível provar que para qualquer mecanismo de censura à direita, a expressão para a função de verossimilhança é dada por:

L(θ) ∝

n

Y

i=1

[f (ti; θ)δi][S(ti; θ)1−δi]. (2.5)

Os valores de θ que maximizam L(θ) são encontrados a partir da solução de:

U (θ) = ∂logL(θ)

∂θ = 0

De acordo com Sen e Singer (1993), quando o tamanho da amostra é grande e sob certas condições de regularidade para a função de verossimilhança, é possível obter o

(21)

intervalo de conança e testes de hipóteses usando a distribuição assintótica do estimador de máxima verossimilhança bθ, que é a normal multivariada de vetor de médias θ e matriz de covariâncias V(ˆθ). Sendo a matriz de variâncias e covariâncias assintótica de θ dado por :

V (bθ) ≈ − [E(I(θ))]−1,

em que I(θ) é a matriz de derivadas de segunda ordem do logarítimo da expressão dada em (2.5).

Em situações em que a esperança é impossível de ser calculada, usa-se simplesmente −[I(θ)]−1, que é um estimador consistente de V (bθ) (Colosimo e Giolo, 2006). Portanto,

a distribuição assintótica para bθ é dada por bθ> ∼ N(q)θ>; I(θ)−1

, em que I(θ) é a matriz de informação observada e q é o número de parâmetros do modelo (Silva, 2008). 2.6 Escolha do Modelo Probabilístico

Para se estimar um vetor de parâmetros por meio do método de máxima verossi-milhança, faz-se necessário o conhecimento da distribuição de probabilidade. Portanto a escolha do modelo deve ser feita com cautela para que os resultados não sejam distorcidos. A forma mais simples e eciente para a escolha de um modelo que melhor se adeque, é por meio de técnicas grácas. Uma dessas técnicas é a comparação da função de so-brevivência de um modelo proposto com o estimador de Kaplan-Meier. Após estimar o vetor de parâmetros da distribuição proposta encontra-se a sua função de sobrevivência estimada. Ao ser traçada a curva da função de sobrevivência o melhor modelo é aquele que mais se aproxima da curva de sobrevivência estimada por Kaplan-Meier.

Outro método de seleção por meio de análise gráca, é a linearização da função de sobrevivência. Para o modelo exponencial, o gráco − log[ ˆS(t)] versus t, em que ˆS(t) é a função de sobrevivência estimada, deve ser aproximadamente linear. Para o modelo de Weibull, o gráco log[− log[ ˆS(t)]] versus log(t) deve se aproximar a uma reta, caso o modelo se ajuste bem aos dados. Já no modelo log-normal, os dados estarão bem ajustados se o gráco Φ−1(S(t)) versus log(t), em que Φ−1(S(t)) = − log(t)+µ

σ , seja aproximadamente

linear. O modelo que mais se aproximar de uma reta é o que melhor se ajusta aos dados. Apesar da análise gráca ser a mais usada, ela é subjetiva. Diferentes analistas podem escolher modelos diferentes. Mas existe uma outra forma de seleção do modelo, que é o teste da razão de verossimilhança, usado para modelos encaixados. Nesta forma, que é mais direta, testa-se as seguintes hipóteses:

H0 : Modelo de interesse é adequado (θ = θ0)

(22)

em que θ0 é o vetor de parâmetros do modelo testado.

Os passos para realização deste teste são:

1. Deve-se escolher os modelos que serão testados;

2. Ajustar o modelo generalizado e obter o valor do logaritmo da função de verossimi-lhança (log L(ˆθG));

3. Ajustar o modelo de interesse e obter o valor do logaritmo da função de verossimi-lhança (log L(ˆθM));

4. Calcular o valor da estatística do teste da razão de verossimilhanças dada por: T RV = −2 log " L(ˆθM) L(ˆθG) # = 2[logL(ˆθG) − logL(ˆθM)]. (2.6)

TRV aproxima-se de uma distribuição qui-quadrado com p graus de liberdade, em que p=(quantidade de parâmetros do modelo geral - quantidade de parâmetros do modelo de interesse).

5. Ho é rejeitada , ao nível de 100α% de signicância, se T RV > χ2

p,1−α, em que χ2p,1−α

é o percentil 1 − α da distribuição qui-quadrado com p graus de liberadade. Outros testes podem ser usados para esta nalidade, que são:

• Teste de Wald: Baseado na distribuição assintótica de ˆθ e generaliza o teste t de student. A estatística para esse teste é dada por:

W = (ˆθ − θ0)>[−I(θ0)](ˆθ − θ0)

em que rejeita-se H0 quando W > χ2p,1−α

• Teste Escore: A estatística de teste é dada por:

S = U>(θ0)[−I(θ0)]−1U (θ0)

em que U(θ) = ∂ log L(θ)

∂θ , avaliada em θ0, e −I(θ0) é a matriz de informação

(23)

3 MATERIAIS E MÉTODOS

3.1 DESCRIÇÃO DOS DADOS

Um estudo retrospectivo foi realizado para estudar os casos de pacientes atendidos no Departamento de Cabeça e Pescoço e Otorrinolaringologia do Hospital A.C. Camargo no período de Janeiro de 1980 a Dezembro de 2006, diagnosticados como carcinomas espino-celulares (CEC) de gengiva e/ou palato duro. As informações clínicas do ato cirúrgico e peça cirúrgica foram registradas em cha própria padronizada para o estudo. Os critérios de inclusão no estudo foram de pacientes com tumor primário diagnosticados como CEC, conrmado através de exames anatomopatológicos, localizados em gengiva e/ou palato duro. Foram excluídos do estudo, pacientes tratados previamente, pacientes com tumores primários múltiplos metastáticos, indivíduos que apresentaram o tempo de falha igual a zero e indivíduos que apresentaram missing em alguma das covariáveis em estudo. A amostra nal contém 114 indivíduos e o percentual de observações censuradas foi igual a 31,58%.

A variável resposta é o tempo (em anos) de vida de pacientes, a partir do momento em que deram entrada no Departamento de Cabeça e Pescoço e Otorrinolaringologia do Hospital A.C. Camargo no período de Janeiro de 1980 a Dezembro de 2006, até a morte por este câncer. Dentre as covariáveis que foram estudas, existem duas variáveis categóricas, que apresentam mais de duas categorias. Estas são referentes ao estadiamento clínico T e N. O primeiro tipo de estadiamento clínico, divide-se em 4 categorias, a saber,tumor com 2 cm ou menos em sua maior dimensão; tumor com mais de 2 cm e até 4 cm em sua maior dimensão; tumor com mais de 4 cm em sua maior dimensão; tumor invade estruturas adjacentes. O segundo tipo de estadiamento clínico, divide-se em 6 categorias, a saber, ausência de metástases em linfonodos regionais; metástase em um único linfonodo homolateral, com 3 cm ou menos em sua maior dimensão; metástase em um único linfonodo homolateral, com mais de 3 cm e até 6 cm em sua maior dimensão; metástase em linfonodos homolaterais múltiplos, nenhum deles com mais de 6 cm em sua maior dimensão; metástase em linfonodos bilaterais ou contralaterais, nenhum deles com mais de 6 cm em sua maior dimensão; metástase em linfonodo com mais de 6 cm em sua maior dimensão.

Essas categorias foram transformadas em variáveis dummies, na qual, com relação a variáveis referente ao estadiamento clínico T, a categoria tumor com 2 cm ou menos em sua maior dimensão, foi tomada como referência. Quanto à variável referente ao estadiamento clínico N, a categoria ausência de metástases em linfonodos regionais  foi considerada como referência.

(24)

• X1: Idade do paciente ao dar entrada no hospital, em anos;

• X2: Gênero - 1 se feminino, 0 se masculino ;

• X3: Tempo que percebeu a lesão, em anos;

• X4: Tabagismo - 1 para pacientes dependentes do uso da nicotina, substância

pre-sente no tabaco, 0 caso contrário;

• X5: Etilismo - 1 para pacientes dependentes de bebidas alcoólicas, 0 caso contrário;

• X6: Local do tumor - 1 se o tumor estiver localizado no palato duro, 0 se o tumor

estiver localizado na gengiva;

• X7: Estadiamento Clínico T2 - 1 se o tumor tem mais de 2 cm até 4 cm em sua

maior dimensão, 0 caso contrário ;

• X8: Estadiamento Clínico T3 - 1 se o tumor tem mais de 4 cm em sua maior

dimensão, 0 caso contrário.

• X9: Estadiamento Clínico T4 - 1 se o tumor invade estruturas adjacentes, 0 caso

contrário.

• X10: Estadiamento Clínico N1 - 1 se ocorre metástase em um único linfonodo

ho-molateral, com 3 cm ou menos em sua maior dimensão, 0 caso contrário;

• X11: Estadiamento Clínico N2a - 1 se ocorre metástase em um único linfonodo

homolateral, com mais de 3 cm e até 6 cm em sua maior dimensão, 0 caso contrário; • X12: Estadiamento Clínico N2b - 1 se ocorre metástase em linfonodos homolaterais

múltiplos, nenhum deles com mais de 6 cm em sua maior dimensão, 0 caso contrário; • X13: Estadiamento Clínico N2c -1 se ocorre metástase em linfonodos bilaterais ou

contralaterais, nenhum deles com mais de 6 cm em sua maior dimensão, 0 caso contrário;

• X14: Estadiamento Clínico N3 - 1 se ocorre metástase em linfonodo com mais de 6

cm em sua maior dimensão, 0 caso contrário;

• X15: Cirurgia - 1 se paciente realizou cirurgia, 0 caso contrário;

• X16: RXT (Radioterapia) - 1 se paciente realizou radioterapia, 0 caso contrário;

• X17: QT (Quimioterapia) - 1 se paciente realizou quimioterapia, 0 caso contrário;

• X18: Mandibulectomia - 1 se paciente foi tratado com mandibulectomia, 0 caso

(25)

• X19: Palatectomia - 1 se paciente foi tratado com palatectomia, 0 caso contrário;

• X20: Esvaziamento Cervical - 1 se foi realizado esvaziamento cervical, 0 caso

con-trário;

• X21: Reconstrução - 1 se foi realizado reconstrução no paciente, 0 caso contrário;

• X22: Recidiva - 1 se houve recidiva, 0 caso contrário.

Os dados não apresentaram ocorrências de pacientes com estadiamento clínico N2c e estadiamento clínico N3, portanto, estas variáveis não foram inclusas na modelagem. 3.2 MODELO DE REGRESSÃO PARAMÉTRICO

A técnica estatística mais apropriada que leva em consideração covariáveis, é o uso do modelo de regressão para dados censurados. As covariáveis que podem inuenciar no tempo de sobrevivência, T, são chamadas de variáveis independentes e são representadas por x = (x1, ..., xk), em que k é a quantidade de covariáveis.

No presente trabalho será dado um enfoque ao modelo paramétrico de locação e escala na qual aplica-se o logaritmo no tempo de sobrevivência.

No modelo de locação e escala, o parâmetro de locação depende do vetor de variáveis aleatórias x, podendo ser escrito da forma µ(x) = x>β, e o parâmetro de escala, σ, é

constante. Desta forma, o modelo log-linear é descrito por:

log(T ) = Y = µ(x) + σ (3.1)

em que pertence a família locação e escala, T é uma variável aleatória que representa o tempo de sobrevivência e  é o erro aleatório.

A função densidade de probabilidade que representa a família de distribuições que tem um parâmetro de locação, µ, e um de escala, σ, é dada por:

f (y; µ, σ) = 1 σg  y − µ σ  . (3.2)

Quando T segue uma das distribuições de probabilidade: de Weibull, exponencial, log-normal ou log-logística, o log(T) pertence a família de locação e escala (Colosimo e Giolo, 2006)

3.2.1 Análise de Resíduos

A avaliação da adequabilidade de um modelo de regressão pode ser feita por meio de uma análise de resíduos. Por meio de técnicas grácas dos diferentes resíduos propostos, é possível avaliar a distribuição dos erros e assim rejeitar modelos claramente inadequado. No entanto, não se pode armar que um certo modelo está correto, visto que dois ou

(26)

mais modelos podem fornecer ajustes razoáveis. O resíduo utilizado no trabalho vigente foi o de Cox-Snell ˆei, que é denido por ˆei = ˆΛ(ti|x>i), em que Λ é a função de taxa

de falha acumulada obtida pelo modelo ajustado. Se o tempo segue uma distribuição exponencial, de Weibull ou log-normal, o resíduo de Cox-Snell deve seguir uma distribuição exponencial padrão. Uma forma de fazer análise gráca é vericando se as curvas de sobrevivência desses resíduos, obtidos por Kaplan-Meier e pelo modelo exponencial padrão estão próximas.

3.2.2 Interpretação dos Coecientes Estimados

Como a escala da variável resposta foi transformada para logarítmica, a interpretação também altera. Esta é realizada através da razão de tempos medianos. É possível mostrar que, para uma variável binária, a razão dos tempos medianos é:

t0,5(x = 1, ˆβ)

t0,5(x = 0, ˆβ)

= eβˆ

Ou seja, esta razão informa a proporção que difere o tempo mediano dos dois grupos. Esta forma também é estendida para variável contínua, na qual a exponencial do parâmetro estimado informará o percentual de acréscimo/diminuição do tempo mediano de vida, para cada unidade da variável em análise.

Na seção seguinte, é apresentado o modelo de regressão utilizado na análise de dados, o log-normal.

3.2.3 Modelo de regressão Log-Normal

Considerando que T é uma variável aleatória e segue uma distribuição log-normal com parâmetros µ e σ, e que Y = log(T ) , então por meio do método Jacobiano, encontra-se que f (y) = √1 2πσ exp  −(y − µ(x)) 2 2σ2  , (3.3)

em que µ(x) = x>β, sendo β o vetor de parâmetros desconhecidos a serem estimados.

Pelo método Jacobiano, demonstra-se que  segue uma distribuição normal padrão dada por: f () = √1 2πexp  − 2 2  .

A função de sobrevivência para Y condicional a x é dada por:

S(y|x) = Φ µ(x) − y σ



(27)

em que Φ é a função acumulada da distribuição normal.

Após a especicação do modelo, o próximo passo é a estimação do vetor de parâmetros, θ = (β1, ..., βp, σ), por meio do método de máxima verossimilhança.

Substituindo as expressões 3.3 e 3.4 em 2.5 a função de verossimilhança para a esti-mação de θ, quando T segue uma distribuição log-normal é dada por:

L(θ) = n Y i=1  1 √ 2πσ exp  −(y − µ(x)) 2 2σ2 δi Φ µ(x) − y σ 1−δ1 . (3.5)

Tomando o logaritmo de L(θ) dado em 3.5, tem-se:

l(θ) = n X i=1  δi  log  1 √ 2πσ  − (y − µ(x)) 2 2σ2  + (1 − δi) log Φ  µ(x) − y σ  .(3.6) Para encontrar o valor de θ que maximiza a função l(θ), deve-se encontrar a derivada da expressão 3.6 em função dos componentes de θ, e igualar as expressões obtidas a zero. Como não existe solução analítica, os parâmetros estimados foram obtidos por meio do método numérico de Newton-Raphson.

No trabalho vigente foi realizado a análise de resíduos de Cox-Sell, para vericar a adequação do modelo, quando T segue uma distribuição de log-normal. Este resíduo é dado por: ˆ ei = − log  1 − Φ log(ti) − µ(x) ˆ σ  .

(28)

4 RESULTADOS

A análise estatística foi realizada por meio do software estatístico R. Os pacotes usados para a realização da modelagem foram: survival e exsurv.

A média da idade dos pacientes em estudo foi de 60,44 anos tendo um desvio padrão de 14,34 anos. Já a média do tempo que o indivíduo percebeu a lesão foi de 0,91 anos, tendo uma grande variabilidade que foi medida através do desvio padrão igual 2,21 anos. No que diz respeito ao sexo, 34 dos pacientes eram do sexo feminino e 80 do sexo masculino. O percentual de pacientes que eram tabagista foi relativamente alto, 77%, comprovando as informações obtidas através da literatura, que pacientes dependentes do uso da nicotina são propensos a terem esse tipo de tumor. Já o percentual de pacientes dependentes de bebidas alcoólicas é de 44%. Quanto a localidade do tumor, 58 dos pacientes tinham câncer no palato duro e 56 na gengiva. Dos 114 pacientes, 56% deles realizaram cirurgia e 67% deles realizaram radioterapia.

Para a seleção de covariáveis, utilizou-se o teste da razão de verossimilhanças (TRV), tendo como distribuição a gama generalizada , visto que esta engloba os modelos mais frequentes em análise de sobrevivência. Os passos para a realização do processo de seleção, e o nível de signicância adotado de 10%, foram baseados na estratégia proposta por Collett(1994), que são descritos a seguir:

1. Ajustou-se todos os modelos contendo uma única covariável, sendo estes os mo-delos gerais, e os comparou, por meio do teste da razão de verossimilhança, com o modelo sem covariáveis, sendo este o modelo especíco. O objetivo foi vericar quais variáveis, modeladas separadamente, eram signicativas. Todas as covariáveis signicativas ao nível de signicância de 10% foram incluídas nesta primeira etapa. 2. As covariáveis signicativas no passo 1 foram ajustadas conjuntamente. Este mo-delo é usado como o geral para a realização do TRV. Como na presença de certas covariáveis, outras podem deixar de ser signicativa, ajustou-se modelos reduzidos, excluindo uma variável de cada vez. Somente as que deram signicativas permane-ceram no modelo.

3. Ajustou-se um modelo com as covariáveis retidas no passo 2 e o comparou com outros modelos acrescidos das covariáveis que foram excluídas neste mesmo passo (uma de cada vez), am de conrmar que elas não são estatisticamente signicativas. 4. As covariáveis signicativas no passo 3 foram incluídas em um novo modelo. Nesta etapa, as variáveis excluídas no passo 1 voltaram ao modelo (uma de cada vez) am de conrmar que não são signicativas.

(29)

5. Para completar a modelagem, vericou-se a possibilidade de inclusão de termos de interação dupla entre as covariáveis incluídas no modelo.

A Tabela1 mostra os p-valores obtidos por meio do teste da razão de verossimilhanças. A partir dos resultados obtidos, concluiu-se que as variáveis signicativas foram X3, X15, X16 e a interação entre X15 e X16. Estas são referentes ao tempo que percebeu a lesão, a realização de cirurgia, a realização de radioterapia e a interação destas duas últimas, respectivamente.

Com a nalidade de realizar uma análise descritiva dos dados e comparar o com-portamento dos dois grupos das covariáveis categóricas, foram construídas as curvas de sobrevivência estimada por Kaplan-Meier das variáveis X15 e X16.

0 5 10 15 20 0.0 0.2 0.4 0.6 0.8 1.0

Tempo até morte(anos)

S(t)

Cirurgia

Sim Não

Figura 1  Curvas de sobrevivência estimadas por Kaplan-Meier para a covariável cirur-gia.

Analisando a Figura 1, é possível perceber que a probabilidade do paciente não mor-rer até 10 anos após ter dado entrada no hospital com câncer, é bem maior em pacientes

(30)

Tabela 1  Resultado dos testes da razão de verossimilhanças para seleção de covariáveis.

Passos Variável P-valor

Passo 1 X1 0,5814 X2 0,2369 X3 0,0314* X4 0,0460* X5 0,1964 X6 0,7254 X7 0,3330 X8 0,6985 X9 0,1664 X10 0,1926 X11 0,4554 X12 0,7139 X15 2x10-08* X16 0,1453 X17 0,7765 X18 0,0865* X19 0,0021* X20 0,0184* X21 4x10-05* X22 0,0071* Passo 2 X3 0.0030* X4 0.4055 X15 0,0003* X18 0,2542 X19 0,1675 X20 0,3366 X21 0,6949 X22 0,7925 Passo 3 X4 0,5697 X18 0,3349 X19 0,8763 X20 0,2182 X21 0,7919 X22 0,6160 Passo 4 X1 0,8262 X2 0,5870 X5 0,6778 X6 0,3632 X7 0,6043 X8 0,4908 X9 0,9261 X10 0,7218 X11 0,7039 X12 0,6044 X16 0,0406* X17 0,7295 Passo 5 X3*X15 0,6783 X3*X16 0,3993 X15*X16 0,0112*

(31)

que realizaram cirurgia. Com relação a pacientes que não realizaram este procedimento, percebe-se que a probabilidade dele sobreviver é baixa partir de aproximadamente 2 anos de quando entrou no hospital com câncer, e esta se mantém constante até aproximada-mente 20 anos quando ela decresce para zero. Isto implica que a maioria dos pacientes que não realizaram cirurgia morreram em torno de dois anos após ter dado entrado no hospital. Aqueles que realizam cirurgia tem possibilidade de sobreviver até um pouco depois dos 20 anos, tempo superior ao limite de tempo de vida dos pacientes que não zeram esse procedimento.

0 5 10 15 20 0.0 0.2 0.4 0.6 0.8 1.0

Tempo até morte(anos)

S(t)

Radioterapia

Sim Não

Figura 2  Curvas de sobrevivência estimadas por Kaplan-Meier para a covariável radio-terapia.

Da Figura 2, não foi possível vericar uma ecácia no aumento do tempo de vida de pacientes com câncer bucal quanto ao uso de radioterapia.

O próximo passo da análise foi selecionar a distribuição de probabilidade que melhor se ajusta ao modelo. Para este m, foi realizado o teste da razão de verossimilhanças usando o modelo gama generalizada. Os modelos testados e seus respectivos p-valores são dados na Tabela 2. Ao nível de 5% de signicância, é possível perceber que tanto o modelo exponencial quanto o modelo log-normal se mostram adequados. Já ao nível de 10% de signicância, a distribuição log-normal é a que melhor se ajusta aos dados.

(32)

Tabela 2  Resultado do teste da razão de verossimilhança para seleção de modelo.

Modelo de regressão P-valor

Exponencial (H0 : γ = k = 1) 0,0840

Weibull (H0 : k = 1) 0,0260

Log-Normal (H0 : k → ∞) 0,3289

A Figura 3 apresenta evidências de que o modelo log-normal está melhor ajustado do que o exponencial, visto que o gráco se aproxima mais da forma linear, havendo apenas um afastamento no início da curva.

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 (a) S(ei): Kaplan−Meier

S(ei): Exponencial padr

ão ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 (b) S(ei):Kaplan−Meier S(ei):Exponencial padr ão

Figura 3  Sobrevivência do resíduo de Cox-Snell estimada pelo método de Kaplan-Meier e pelo modelo exponencial padrão, usando as distribuições exponencial (a) e log-normal (b).

Da Figura 4 é possível vericar que, apesar de existir um afastamento no nal da curva de sobrevivência usando o modelo log-normal, o restante da curva de sobrevivência estimada por este modelo se aproxima mais da curva estimada por Kaplan-Meier do que aquela que utiliza o modelo exponencial.

Levando em consideração os grácos apresentados, e os p-valores encontrados, optou-se em utilizar a distribuição log-normal.

A Tabela 3 apresenta os valores dos coecientes estimados usando o modelo log-normal. Também os p-valores apresentados conrmam a signicância das covariáveis e os erros-padrão, com valores pequenos e menores que as estimativas, mostram que as mesmas estão coerentes. Esses valors foram obtidos a partir da metodologia apresentada na seção 2.5.

(33)

0 1 2 3 4 5 6 0.0 0.2 0.4 0.6 0.8 1.0 (a) Resíduos de Cox−Snell Sobre viv ência estimada Kaplan−Meier Exponencial padrão 0.0 1.0 2.0 3.0 0.0 0.2 0.4 0.6 0.8 1.0 (b) Resíduos de Cox−Snell Sobre viv ência estimada Kaplan−Meier Exponencial padrão

Figura 4  Curva de sobrevivência do resíduo de Cox-Snell estimada pelo método de Kaplan-Meier e pelo modelo exponencial padrão, usando as distribuições ex-ponencial (a) e log-normal (b).

Tabela 3  Coecientes estimado usando o modelo log-normal

Coeciente Estimativa Erro padrão P-valor

ˆ β0 -1,481 0,3519 2,58e-05 ˆ β1 0,154 0,0524 3,33e-03 ˆ β2 2,703 0,4386 7,16e-10 ˆ β3 1,354 0,4138 1,06e-03 ˆ β4 -1,258 0,5318 1,80e-02 log(σ) 0,189 0,0806 1,90e-02 Y = −1, 481 + 0, 154X3+ 2, 703X15+ 1, 354X16− 1, 258X15X16

A partir dos coecientes estimados foi possível obter as seguintes interpretações: 1. Para cada unidade de tempo que o paciente percebeu a lesão, o tempo mediano

até a morte do paciente por câncer bucal, na gengiva ou palato duro, mantendo as demais variáveis constantes, é aumentado em 16,6%. (exp {0, 154} = 1, 166)

2. Assumindo que o tempo que o paciente percebeu a lesão é uma variável constante, tem-se que o tempo mediano de vida de pacientes que morreram por câncer, quando estes realizam tanto a cirurgia quanto a radioterapia, é 16,43 vezes maior do que quando eles não realizam nenhum dos dois procedimentos. (Resultado obtido

(34)

atra-vés da razão dos tempos mediano que é dado por: exp {2, 703 + 1, 354 − 1, 258} = 16, 43)

(35)

5 CONCLUSÕES

O presente trabalho utilizou técnicas de análise de sobrevivência am de estudar as inuências das covariáveis no tempo de vida de pacientes que deram entrada no Departa-mento de Cabeça e Pescoço e Otorrinolaringologia do Hospital A.C. Camargo no período de Janeiro de 1980 a Dezembro de 2006 com câncer na gengiva e/ou palato duro. A distri-buição utilizada na modelagem estatística foi a log-normal. Das 23 covariáveis observadas, apenas 3 destas se mostraram signicativas, a saber, tempo em que o paciente percebeu a lesão (em anos), realização de cirurgia e realização de radioterapia. Foi constatado a existência de interação entre estas duas últimas.

Portanto, quanto mais rápido a doença for detectada e começar a ser tratada, a chance do paciente viver por mais tempo aumenta. A realização de cirurgia e radioterapia, também apresenta fator importante no aumento da expectativa de vida.

Nas condições deste trabalho, as demais variáveis não se mostraram signicativas. Isto implica que a localidade do câncer, na gengiva ou no palato duro, não são fatores de importância signicativa no tempo de vida do paciente.

Apesar da literatura identicar que indivíduos tabagistas e/ou dependente de bebida alcoólica têm propensão para contrair o tipo de câncer estudado, essas variáveis não se mostraram signicativas com relação ao tempo de vida desses pacientes.

Com o surgimento de novas distribuições de probabilidade, pode-se tentar melhorar o ajuste dos dados am de validar os resultados na literatura.

(36)

REFERÊNCIAS

Andreotti, M; Rodrigues, A.N; Cardoso, L.M.N; Figueiredo, R.A.O; Neto, J.E; Filho, V.W . Ocupação e câncer da cavidade oral e orofaringe. Cad Saúde Pública, 2006; BARASCH, A., GOFA, A. KRUTCHKOFF, D.J., EISENBERG, E. Squamous cell carcinoma of the gingiva. Oral Surg. Oral med. Oral Pathol Oral Radiol. Endod., v.80, p.183-7, 1995;

CHEN, J. KATZ, R.V., KRUTCHKOFF, D.J.. Intraoral squamous cell carcinoma tfr. Câncer, v.66, p.1288-96, 1990;

COLLET, D. Modelling Survival Data in Medical Research. Champan and Hall, London, 1994;

COLOSIMO, Enrico Antonio; GIOLO, Suely Ruiz.(2006) Análise de sobrevivência aplicada. São Paulo: Edgard Blücher, 2006;

FRANCO, E.L., KOWALSKI, L.P., OLIVEIRA, B.V., CURADO.M.P., PEREIRA,R.N., SILVA, M.E., et al. Risk factors for oral cancer in Brazil: a case-control study. Int. J. Cancer, v.43, p.992-1000, 1989;

Guia Médico Santa Cruz, Câncer - O que é. Acessado em 12/08/2013.

HARRAS, A. . Cancer rates and risks. Bethesda, Md: National Institute Of Health, NIH publication n. 96-691, 1996;

Instituto Nacional de Câncer (Brasil). Câncer de boca. <Disponível em: http://www.inca.gov.br/conteudo_view.asp?id=324> Acesso em 07/08/2013;

Kaplan, E.L., Meier, P. Nonparametric estimation from incomplete observations. Journal of the American Statistical Association, 1958;

SEN, P.K.; SINGER, J.M. Large Sample Methods in Statistics: An introduction with applications. New York: Chapman and Hall, 382p, 1993;

SILVA, Giovana Oliveira.Modelos de regressão quando a função taxa de falha não é monótona e o modelo probabilístico beta Weibull modicada, 2008. Tese (Doutorado em Agronomia) - Piracicaba, 2008;

WONG, D.T.W., TODD, R., TSUJI, T., DONOFF, R.B. . Molecular Biology of Human Oral Cancer. Crit. Rev. Oral Biol. Med., v.7, p.319-28, 1996;

WÜNSCH-FILHO, V. The epidemiology of oral and pharynx cancer in Brazil. Oral Oncology, v.38, p.737-46, 2002.

(37)
(38)

APÊNDICE - COMANDOS NO R dados<-read.table("dados_11.txt",h=T) dados attach(dados) require(survival) require(flexsurv) tempo<-Y censura<-C

#Passo 1: Seleção de variáveis. Usando a gama generalizada. Ho: Beta=0 versus H1:Beta diferente de zero

Modelo específico

ajuste_reg<-flexsurvreg(Surv(tempo,censura)~1,dist="gengamma") ajuste_reg

log_geral=-192.8619 # Modelo específico.

ajuste_X1<-flexsurvreg(Surv(tempo,censura)~X1,dist="gengamma") ajuste_X1 log_X1=-192.7099 TRVX1= 2*(log_X1 - log_geral) TRVX1 p-valor=1-pchisq(TRVX1,1) ajuste_X2<-flexsurvreg(Surv(tempo,censura)~X2,dist="gengamma") ajuste_X2 log_X2=-192.1625 TRVX2= 2*(log_X2 - log_geral) TRVX2 1-pchisq(TRVX2,1) ajuste_X3<-flexsurvreg(Surv(tempo,censura)~X3,dist="gengamma") ajuste_X3 log_X3=-190.5479 TRVX3= 2*(log_X3 - log_geral) TRVX3 1-pchisq(TRVX3,1)

(39)

ajuste_X4<-flexsurvreg(Surv(tempo,censura)~X4,dist="gengamma") ajuste_X4 log_X4=-190.8726 TRVX4= 2*(log_X4 - log_geral) TRVX4 1-pchisq(TRVX4,1) ajuste_X5<-flexsurvreg(Surv(tempo,censura)~X5,dist="gengamma") ajuste_X5 log_X5=-192.0273 TRVX5= 2*(log_X5 - log_geral) TRVX5 1-pchisq(TRVX5,1) ajuste_X6<-flexsurvreg(Surv(tempo,censura)~X6,dist="gengamma") ajuste_X6 log_X6=-192.8002 TRVX6= 2*(log_X6 - log_geral) TRVX6 1-pchisq(TRVX6,1) ajuste_X7<-flexsurvreg(Surv(tempo,censura)~X7,dist="gengamma") ajuste_X7 log_X7=-192.3933 TRVX7= 2*(log_X7 - log_geral) TRVX7 1-pchisq(TRVX7,1) ajuste_X8<-flexsurvreg(Surv(tempo,censura)~X8,dist="gengamma") ajuste_X8 log_X8=-192.7869 TRVX8= 2*(log_X8 - log_geral) TRVX8 1-pchisq(TRVX8,1) ajuste_X9<-flexsurvreg(Surv(tempo,censura)~X9,dist="gengamma") ajuste_X9 log_X9=-191.9045 TRVX9= 2*(log_X9 - log_geral)

(40)

TRVX9 1-pchisq(TRVX9,1) ajuste_X10<-flexsurvreg(Surv(tempo,censura)~X10,dist="gengamma") ajuste_X10 log_X10=-192.0132 TRVX10= 2*(log_X10 - log_geral) TRVX10 1-pchisq(TRVX10,1) ajuste_X11<-flexsurvreg(Surv(tempo,censura)~X11,dist="gengamma") ajuste_X11 log_X11=-192.5833 TRVX11= 2*(log_X11 - log_geral) TRVX11 1-pchisq(TRVX11,1) ajuste_X12<-flexsurvreg(Surv(tempo,censura)~X12,dist="gengamma") ajuste_X12 log_X12=-192.7947 TRVX12= 2*(log_X12 - log_geral) TRVX12 1-pchisq(TRVX12,1) ajuste_X15<-flexsurvreg(Surv(tempo,censura)~X15,dist="gengamma") ajuste_X15 log_X15=-177.0584 TRVX15= 2*(log_X15 - log_geral) TRVX15 1-pchisq(TRVX15,1) ajuste_X16<-flexsurvreg(Surv(tempo,censura)~X16,dist="gengamma") ajuste_X16 log_X16=-191.8015 TRVX16= 2*(log_X16 - log_geral) TRVX16 1-pchisq(TRVX16,1) ajuste_X17<-flexsurvreg(Surv(tempo,censura)~X17,dist="gengamma")

(41)

ajuste_X17 log_X17=-192.8216 TRVX17= 2*(log_X17 - log_geral) TRVX17 1-pchisq(TRVX17,1) ajuste_X18<-flexsurvreg(Surv(tempo,censura)~X18,dist="gengamma") ajuste_X18 log_X18=-191.3929 TRVX18= 2*(log_X18 - log_geral) TRVX18 1-pchisq(TRVX18,1) ajuste_X19<-flexsurvreg(Surv(tempo,censura)~X19,dist="gengamma") ajuste_X19 log_X19=-188.1435 TRVX19= 2*(log_X19 - log_geral) TRVX19 1-pchisq(TRVX19,1) #0.002126743 ajuste_X20<-flexsurvreg(Surv(tempo,censura)~X20,dist="gengamma") ajuste_X20 log_X20=-190.0849 TRVX20= 2*(log_X20 - log_geral) TRVX20 1-pchisq(TRVX20,1) ajuste_X21<-flexsurvreg(Surv(tempo,censura)~X21,dist="gengamma") ajuste_X21 log_X21=-184.3566 TRVX21= 2*(log_X21 - log_geral) TRVX21 1-pchisq(TRVX21,1) ajuste_X22<-flexsurvreg(Surv(tempo,censura)~X22,dist="gengamma") ajuste_X22 log_X22=-189.2355 TRVX22= 2*(log_X22 - log_geral)

(42)

TRVX22 1-pchisq(TRVX22,1) ######################### #Passo 2: ajuste_geral<-flexsurvreg(Surv(tempo,censura)~X3+X4+X15+X18+X19+X20+ X21+X22,dist="gengamma") LOG_GERAL= -170.2354 ajuste_semX3<-flexsurvreg(Surv(tempo,censura)~X4+X15+X18+X19+X20+X21+ X22,dist="gengamma") LOG_SEMX3= -174.6335 TRV_X3= 2*(LOG_GERAL-LOG_SEMX3) 1-pchisq(TRV_X3,1) ajuste_semX4<-flexsurvreg(Surv(tempo,censura)~X3+X15+X18+X19+X20+X21+ X22,dist="gengamma") LOG_SEMX4= -170.5813 TRV_X4= 2*(LOG_GERAL-LOG_SEMX4) 1-pchisq(TRV_X4,1) ajuste_semX15<-flexsurvreg(Surv(tempo,censura)~X3+X4+X18+X19+X20+X21+ X22,dist="gengamma") LOG_SEMX15= -176.7811 TRV_X15= 2*(LOG_GERAL-LOG_SEMX15) 1-pchisq(TRV_X15,1) ajuste_semX18<-flexsurvreg(Surv(tempo,censura)~X3+X4+X15+X19+X20+X21+ X22,dist="gengamma") LOG_SEMX18= -170.8855 TRV_X18= 2*(LOG_GERAL-LOG_SEMX18) 1-pchisq(TRV_X18,1) ajuste_semX19<-flexsurvreg(Surv(tempo,censura)~X3+X4+X15+X18+X20+X21+ X22,dist="gengamma") LOG_SEMX19= -171.1879 TRV_X19= 2*(LOG_GERAL-LOG_SEMX19) 1-pchisq(TRV_X19,1)

(43)

ajuste_semX20<-flexsurvreg(Surv(tempo,censura)~X3+X4+X15+X18+X19+X21+ X22,dist="gengamma") ajuste_semX20 LOG_SEMX20= -170.697 TRV_X20= 2*(LOG_GERAL-LOG_SEMX20) 1-pchisq(TRV_X20,1) ajuste_semX21<-flexsurvreg(Surv(tempo,censura)~X3+X4+X15+X18+X19+X20+ X22,dist="gengamma") ajuste_semX21 LOG_SEMX21= -170.3123 TRV_X21= 2*(LOG_GERAL-LOG_SEMX21) 1-pchisq(TRV_X21,1) ajuste_semX22<-flexsurvreg(Surv(tempo,censura)~X3+X4+X15+X18+X19+X20+ X21,dist="gengamma") ajuste_semX22 LOG_SEMX22= -170.27 TRV_X22= 2*(LOG_GERAL-LOG_SEMX22) 1-pchisq(TRV_X22,1) ################################## #Passo 3: ajuste_esp<-flexsurvreg(Surv(tempo,censura)~X3+X15,dist="gengamma") ajuste_esp log_esp= -172.435 ajuste_comX4<-flexsurvreg(Surv(tempo,censura)~X3+X4+X15,dist="gengamma") ajuste_comX4 log_comX4= -172.2734 trv_comX4= 2*(log_comX4-log_esp) 1-pchisq(trv_comX4,1) ajuste_comX18<-flexsurvreg(Surv(tempo,censura)~X3+X18+X15,dist="gengamma") ajuste_comX18 log_com18= -171.97 trv_com18= 2*(log_com18-log_esp) 1-pchisq(trv_com18,1)

(44)

ajuste_comX19<-flexsurvreg(Surv(tempo,censura)~X3+X19+X15,dist="gengamma") ajuste_comX19 log_com19= -172.4229 trv_com19= 2*(log_com19-log_esp) 1-pchisq(trv_com19,1) ajuste_comX20<-flexsurvreg(Surv(tempo,censura)~X3+X20+X15,dist="gengamma") ajuste_comX20 log_com20= -171.6768 trv_com20= 2*(log_com20-log_esp) 1-pchisq(trv_com20,1) ajuste_comX21<-flexsurvreg(Surv(tempo,censura)~X3+X21+X15,dist="gengamma") ajuste_comX21 log_com21= -172.4002 trv_com21= 2*(log_com21-log_esp) 1-pchisq(trv_com21,1) ajuste_comX22<-flexsurvreg(Surv(tempo,censura)~X3+X22+X15,dist="gengamma") ajuste_comX22 log_com22= -172.3092 trv_com22= 2*(log_com22-log_esp) 1-pchisq(trv_com22,1) #################### #Passo 4 ajuste_esp1<-flexsurvreg(Surv(tempo,censura)~X3+X15,dist="gengamma") ajuste_esp1 log_esp1= -172.435 ajuste_comX1<-flexsurvreg(Surv(tempo,censura)~X1+X3+X15,dist="gengamma") ajuste_comX1 log_com1= -172.4109 trv_com1= 2*(log_com1-log_esp1) 1-pchisq(trv_com1,1) ajuste_comX2<-flexsurvreg(Surv(tempo,censura)~X2+X3+X15,dist="gengamma")

(45)

ajuste_comX2 log_com2= -172.2875 trv_com2= 2*(log_com2-log_esp1) 1-pchisq(trv_com2,1) ajuste_comX5<-flexsurvreg(Surv(tempo,censura)~X5+X3+X15,dist="gengamma") ajuste_comX5 log_com5= -172.3487 trv_com5= 2*(log_com5-log_esp1) 1-pchisq(trv_com5,1) ajuste_comX6<-flexsurvreg(Surv(tempo,censura)~X6+X3+X15,dist="gengamma") ajuste_comX6 log_com6= -172.0216 trv_com6= 2*(log_com6-log_esp1) 1-pchisq(trv_com6,1) ajuste_comX7<-flexsurvreg(Surv(tempo,censura)~X7+X3+X15,dist="gengamma") ajuste_comX7 log_com7= -172.3007 trv_com7= 2*(log_com7-log_esp1) 1-pchisq(trv_com7,1) ajuste_comX8<-flexsurvreg(Surv(tempo,censura)~X8+X3+X15,dist="gengamma") ajuste_comX8 log_com8= -172.1976 trv_com8= 2*(log_com8-log_esp1) 1-pchisq(trv_com8,1) ajuste_comX9<-flexsurvreg(Surv(tempo,censura)~X9+X3+X15,dist="gengamma") ajuste_comX9 log_com9= -172.4307 trv_com9= 2*(log_com9-log_esp1) 1-pchisq(trv_com9,1) ajuste_comX10<-flexsurvreg(Surv(tempo,censura)~X10+X3+X15,dist="gengamma") ajuste_comX10 log_com10= -172.3716

(46)

trv_com10= 2*(log_com10-log_esp1) 1-pchisq(trv_com10,1) ajuste_comX11<-flexsurvreg(Surv(tempo,censura)~X11+X3+X15,dist="gengamma") ajuste_comX11 log_com11= -172.3628 trv_com11= 2*(log_com11-log_esp1) 1-pchisq(trv_com11,1) ajuste_comX12<-flexsurvreg(Surv(tempo,censura)~X12+X3+X15,dist="gengamma") ajuste_comX12 log_com12= -172.3008 trv_com12= 2*(log_com12-log_esp1) 1-pchisq(trv_com12,1) ajuste_comX16<-flexsurvreg(Surv(tempo,censura)~X16+X3+X15,dist="gengamma") ajuste_comX16 log_com16= -170.338 trv_com16= 2*(log_com16-log_esp1) 1-pchisq(trv_com16,1) ajuste_comX17<-flexsurvreg(Surv(tempo,censura)~X17+X3+X15,dist="gengamma") ajuste_comX17 log_com17= -172.3752 trv_com17= 2*(log_com17-log_esp1) 1-pchisq(trv_com17,1) # 0.7294687 não É significativa ################################################# # Confirmando se X3, X15 e X16 são significativas

ajustegeral<-flexsurvreg(Surv(tempo,censura)~X16+X3+X15,dist="gengamma") ajustegeral log_geral= -170.338 ajuste_semX3<-flexsurvreg(Surv(tempo,censura)~X16+X15,dist="gengamma") ajuste_semX3 log_semX3= -174.1351 trv_semX3= 2*(log_geral-log_semX3)

(47)

1-pchisq(trv_semX3,1) # 0.005855637 É significativa ajuste_semX15<-flexsurvreg(Surv(tempo,censura)~X16+X3,dist="gengamma") ajuste_semX15 log_semX15= -189.6626 trv_semX15= 2*(log_geral-log_semX15) 1-pchisq(trv_semX15,1) # 5.072405e-10 É significativa ajuste_semX16<-flexsurvreg(Surv(tempo,censura)~X15+X3,dist="gengamma") ajuste_semX16 log_semX16= -172.435 trv_semX16= 2*(log_geral-log_semX16) 1-pchisq(trv_semX16,1) # 0.04056727 É significativa ########################################### #Passo 5: ajustegeral<-flexsurvreg(Surv(tempo,censura)~X16+X3+X15,dist="gengamma") ajustegeral log_geral= -170.338 ajuste_int3e15<-flexsurvreg(Surv(tempo,censura)~X3+X15+X16+X3*X15,dist="gengamma") ajuste_int3e15 log_int3e15= -170.252 trv_int3e15= 2*(log_int3e15-log_geral) 1-pchisq(trv_int3e15,1) ajuste_int3e16<-flexsurvreg(Surv(tempo,censura)~X3+X15+X16+X3*X16, dist="gengamma") ajuste_int3e16 log_int3e16= -169.9828 trv_int3e16= 2*(log_int3e16-log_geral) 1-pchisq(trv_int3e16,1) ajuste_int15e16<-flexsurvreg(Surv(tempo,censura)~X3+X15+X16+X15*X16, dist="gengamma")

(48)

ajuste_int15e16

log_int15e16= -167.1234

trv_int15e16= 2*(log_int15e16-log_geral) 1-pchisq(trv_int15e16,1)

######################################

# As seguinte covariáveis serão inclusas no modelo final: X3 X15 X16 X15*X16

######################Comparar curvas X15 e X16################### #X15

ekmX15<-survfit(Surv(tempo,censura)~X15) summary(ekmX15)

survdiff(Surv(tempo,censura)~X15,rho=0)

plot(ekmX15,lty=c(1,4),mark.time=F,xlab="Tempo até morte(anos)",ylab="S(t)") text(13.5,0.93,c("Cirurgia"),bty="n",cex=0.85) legend(9.5,0.9,lty=c(4),c("Sim"),bty="n",cex=0.8) legend(13.5,0.9,lty=c(1),c("Não"),bty="n",cex=0.8) #X16 ekmX16<-survfit(Surv(tempo,censura)~X16) summary(ekmX16) survdiff(Surv(tempo,censura)~X16,rho=0)

plot(ekmX16,lty=c(1,4),mark.time=F,xlab="Tempo até morte(anos)",ylab="S(t)") text(13.5,0.93,c("Radioterapia"),bty="n",cex=0.85)

legend(9.5,0.9,lty=c(4),c("Sim"),bty="n",cex=0.8) legend(13.5,0.9,lty=c(1),c("Não"),bty="n",cex=0.8)

############################################################## #Testando distribuições

#Testando a distribuição Exponencial

modelogg<-flexsurvreg(Surv(tempo,censura)~X3+X15+X16+X15*X16,dist="gengamma") modelogg

(49)

modeloe<-survreg(Surv(tempo,censura)~X3+X15+X16+X15*X16,dist="exponential") summary(modeloe) log_exp=-169.6 TRVe=2*(log_geral-log_exp) TRVe 1-pchisq(TRVe,2)

#Testando a distribuição Weibull

modelow<-survreg(Surv(tempo,censura)~X3+X15+X16+X15*X16,dist="weibull") summary(modelow) log_w=-169.6 TRVw=2*(log_geral-log_w) TRVw 1-pchisq(TRVw,1)

#Testando a distribuição Log-Normal

modeloln<-survreg(Surv(tempo,censura)~X3+X15+X16+X15*X16,dist="lognormal") summary(modeloln) log_ln=-167.6 TRVln=2*(log_geral-log_ln) TRVln 1-pchisq(TRVln,1) #################################################### #Resíduos de cox-snell para o modelo exponencial #Exponencial

interacao=X15*X16

ajuste_rege<-survreg(Surv(tempo,censura)~X3+X15+X16+interacao,dist="exponential") summary(ajuste_rege)

(50)

xbe=ajuste_rege$coefficients[1] + ajuste_rege$coefficients[2]*X3 + ajuste_rege$coefficients[3]*X15+ajuste_rege$coefficients[4]*X16+ ajuste_rege$coefficients[5]*interacao sigma<-ajuste_rege$scale alfa=exp(xbe) gamae=1/sigma

ei<- (tempo*exp(-(xbe))) # resíduos de Cox-Snell quando

#t segue distribuição exponencial ekm1<-survfit(Surv(ei,censura)~1) #Função de sobrevivencia estimada

#por kaplan-meier t<-ekm1$time

st<-ekm1$surv

sexp<-exp(-t) # Os resíduos deve seguir uma distribuição exponencial

#padrão se o modelo for adequado. par(mfrow=c(1,2))

plot(st,sexp,xlab="S(ei): Kaplan-Meier",ylab="S(ei): Exponencial padrão",pch=16) lines(c(0,1),c(0,1),type="l",lty=1)

plot(ekm1,conf.int=F,mark.time=F, xlab="Resíduos de Cox-Snell", ylab="Sobrevivência estimada")

lines(t,sexp,lty=4)

legend(1.0,0.8,lty=c(1,4),c("Kaplan-Meier","Exponencial padrão"),cex=0.8,bty="n") #######################################

#Cox-Snell Log normal

modeloln<-survreg(Surv(tempo,censura)~X3+X15+X16+interacao,dist="lognormal") summary(modeloln) xbln<-modeloln$coefficients[1]+modeloln$coefficients[2]*X3+ modeloln$coefficients[3]*X15+modeloln$coefficients[4]*X16+ modeloln$coefficients[5]*interacao sigmaln<-modeloln$scale res<-(log(tempo)-(xbln))/sigmaln eiln<- -log(1-pnorm(res)) ekm<-survfit(Surv(eiln,censura)~1) tln<-ekm$time

(51)

stln<-ekm$surv sexpln<-exp(-tln) par(mfrow=c(1,2)) plot(stln,sexpln,xlab="S(ei):Kaplan-Meier",ylab="S(ei):Exponencial padrão",pch=16) lines(c(0,1),c(0,1),type="l",lty=1) plot(ekm,conf.int=F,mark.time=F,xlab="Resíduos de Cox-Snell", ylab="Sobrevivência estimada",pch=16) lines(tln,sexpln,lty=4) legend(1.0,0.8,lty=c(1,4),c("Kaplan-Meier","Exponencial padrão"),cex=0.8,bty="n")

Referências

Documentos relacionados

Esta dissertação pretende explicar o processo de implementação da Diretoria de Pessoal (DIPE) na Superintendência Regional de Ensino de Ubá (SRE/Ubá) que

A presente dissertação é desenvolvida no âmbito do Mestrado Profissional em Gestão e Avaliação da Educação (PPGP) do Centro de Políticas Públicas e Avaliação

De acordo com o Consed (2011), o cursista deve ter em mente os pressupostos básicos que sustentam a formulação do Progestão, tanto do ponto de vista do gerenciamento

Dessa forma, diante das questões apontadas no segundo capítulo, com os entraves enfrentados pela Gerência de Pós-compra da UFJF, como a falta de aplicação de

A versão reduzida do Questionário de Conhecimentos da Diabetes (Sousa, McIntyre, Martins &amp; Silva. 2015), foi desenvolvido com o objectivo de avaliar o

Neste estudo foram estipulados os seguintes objec- tivos: (a) identifi car as dimensões do desenvolvimento vocacional (convicção vocacional, cooperação vocacio- nal,

Os dados referentes aos sentimentos dos acadêmicos de enfermagem durante a realização do banho de leito, a preparação destes para a realização, a atribuição

Janaína Oliveira, que esteve presente em Ouagadougou nas últimas três edições do FESPACO (2011, 2013, 2015) e participou de todos os fóruns de debate promovidos