AN ´
ALISE DE SOBREVIV ˆ
ENCIA APLICADA
Introduc¸ ˜ao e T ´ecnicas N ˜ao-Param ´etricas - Caps 1 e 2
Enrico A. Colosimo/UFMG
http://www.est.ufmg.br/˜enricoc
Disciplina
An ´alise de Sobreviv ˆencia??
Para que?
Porque?
Pesquisa Cient´ıfica Análise Estatística Desenho Estudo Pergunta Tipos de Desenho Efeitos: transversal/longitudinal Viés/Confundimento Validade externa Descritiva/Exploratória Inferencial/Confirmatória
Pesquisa Cient´ıfica
1 Pergunta de Interesse;
2 Desenho do Estudo/Coleta dos Dados/Observar; 3 An ´alise Estat´ıstica: Modelar/Predizer;
Conhecer o Banco de Dados;
An ´alise Descritiva (cada vari ´avel separadamente); An ´alise Bivariada (resposta vs cada covari ´avel);
Modelo de Regress ˜ao (param ´etrico ou n ˜ao-param ´etrico); Infer ˆencia: Cl ´assica ou Bayesiana;
Pergunta de Interesse
Comparac¸ ˜ao de Grupos.
Identificac¸ ˜ao de Fatores de Risco ou Progn ´ostico. Estimac¸ ˜ao/Predic¸ ˜ao.
Dados de Hepatite (Gregory et al., 1976)
Pacientes com Hepatite Viral Aguda;
Objetivo: investigar o efeito da terapia com ester ´oide; Estudo Cl´ınico Aleatorizado;
Vinte e nove pacientes com hepatite foram aleatorizados para receber placebo ou o tratamento com ester ´oide.
Cada paciente foi acompanhado por 16 semanas ou at ´e a morte (evento de interesse) ou at ´e a perda de acompanhamento.
Modelo de Predic¸ ˜ao
Framingham Risk Score Calculator for Coronary Heart Disease
This Framingham risk score calculator estimates the 10-year coronary heart disease risk of any person based on certain criteria like gender, age, cholesterol and systolic pressure. You can discover more about this heart disease scoring system and about all the cardiovascular risk factors involved below the form.
Gender:*
Select Age:*
Total cholesterol (mg/dL):*
HDL cholesterol (mg/dL):*
Under hypertension treatment? Select Systolic blood pressure (mmHg):*
Smoker?
Select
Calculate
The Patient Age is required!The Total cholesterol in mg/dL is required!The HDL cholesterol in mg/dL is required!The Systolic blood pressure in mmHg is required!
The 10-year cardiovascular risk for coronary heart disease (CHD) is 5%.
Disclaimer: This tool should NOT be considered as a substitute for any professional medical
service, NOR as a substitute for clinical judgement.
https://www.thecalculator.co/health/Framingham-Risk-Score-Calculator-for-Coronary-Heart-Desenho do Estudo
1 Tipos de Desenho de Estudo.
2 Efeito Transversal vs Longitudinal.
3 Confundimento e Vi ´es.
Perguntas Relevantes
Os grupos s ˜ao compar ´aveis?
As vari ´aveis de confus ˜ao foram medidas/controladas? ´
E poss´ıvel alocar tratamento `as unidades amostrais de forma aleat ´oria?
Os erros de medic¸ ˜ao podem ser medidos e controlados? As perdas (dados perdidos) podem viciar os resultados? Podemos estender os resultados para outros estudos?
Tipos de Estudos
1 Estudos Transversais 2 Estudos Longitudinais
Observacionais;
Coorte (prospectivo ou hist ´orico); Caso-controle (retrospectivo);
Desenho e Planejamento de Estudos
An ´alise de Sobreviv ˆencia: LONGITUDINAL
Coorte (observacional);
Cl´ınico Aleatorizado (experimental). Na ´area industrial:
Teste de campo/laborat ´orio; Teste de vida acelerado; Teste de degradac¸ ˜ao.
Estudo de Coorte/Teste Industrial
Caracter´ısticas B ´asicas
Estudos observacionais;
Grupos de comparac¸ ˜ao (brac¸os da coorte): usualmente definido pela presenc¸a ou n ˜ao da covari ´avel de interesse;
Podem ser prospectivos (forma mais comum) ou retrospectivo/hist ´orico.
Estudo Cl´ınico Aleatorizado
Caracter´ısticas B ´asicas
Presenc¸a de grupos de comparac¸ ˜ao.
Estudos experimentais. Isto ´e, a intervenc¸ ˜ao do investigador consiste em aleatorizar indiv´ıduo ao grupo;
Vantagem: controla por fatores de confus ˜ao medidos en ˜ao
Vi ´es (coleta de dados)
Vi ´es??
O que ´e vi ´es?
Como surge?
Vi ´es na coleta de dados
1 Desvio da verdade por defeito no delineamento ou na conduc¸ ˜ao
de um estudo.
2 Erro sistem ´atico no delineamento, conduc¸ ˜ao e an ´alise de um
estudo resultando em erro na estimativa da magnitude da associac¸ ˜ao entre covari ´aveis e a resposta de interesse.
Fontes de Vi ´es
1 Fatores de confus ˜ao.
2 Vi ´es de Selec¸ ˜ao: alocac¸ ˜ao das unidades de an ´alise privilegia
subgrupos com probabilidade diferenciada de apresentar a resposta. Exemplo: Perda de acompanhamento em estudos longitudinais.
3 Vi ´es de Informac¸ ˜ao: erro sistem ´atico na classificac¸ ˜ao/medic¸ ˜ao
das vari ´aveis sob estudo.
Fator de Confus ˜ao
Definic¸ ˜ao: Um terceiro fator que est ´a associado tanto com a exposic¸ ˜ao/covari ´avel quanto com a resposta/doenc¸a, mas n ˜ao se encontra no elo causal entre eles.
?
Exposição Doença
Fator de Confus ˜ao
Duas condic¸ ˜oes para caracterizar um fator de confus ˜ao:
Ser associado com a covari ´avel/exposic¸ ˜ao sem ser sua consequ ˆencia.
Estar associado com o resposta/desfecho independente da exposic¸ ˜ao.
Confundimento: Exemplos
Idade na associc¸ ˜ao entre fumo e c ˆancer de pulm ˜ao. Fumo na associac¸ ˜ao entre caf ´e e c ˆancer de pulm ˜ao.
(contra-exemplo: no elo causal?) Colesterol na associac¸ ˜ao entre dieta e infarto.
Validac¸ ˜ao do Estudo
Validade Interna: sujeito a confundimento e vi ´es; Validade Externa: representatividade da amostra.
Validade do Estudo/Amostra
1 Crit ´erio de inclus ˜ao e exclus ˜ao restritivo ==> populac¸ ˜ao pequena Validade Interna: aumenta;
Validade Externa: diminue.
2 Crit ´erio de inclus ˜ao e exclus ˜ao flex´ıvel ==> populac¸ ˜ao grande
Validade Interna: dimunue. Validade Externa: aumenta.
Estrutura dos Dados
1 Resposta
Cont´ınua ==> An ´alise de Sobreviv ˆencia (presenc¸a de censura); Categ ´orica, Discreta.
2 Covari ´aveis
Exemplo: Leucemia e Mortalidade
Pacientes com Leucemia (Feigl e Zelen, 1965).
Livro: Cox e Snell (1981, Applied Statistics: Principles and Examples.), p. 148.
Y : tempo do diagn ´ostico da leucemia at ´e a morte (em semanas). ´unica covari ´avel X : log10(contagem de c ´elulas brancas no diagn ´ostico).
Objetivo: descrever a (poss´ıvel) relac¸ ˜ao entre Y e X .
Analise estes dados utilizando o seu conhecimento de estat´ıstica (regress ˜ao linear/infer ˆencia).
Exemplo: Leucemia e Mortalidade
#
# Dados sem Censura
# Leucemia (Feigl e Zelen, 1965) # Livro: Cox e Snell (1981), p. 148
# Y:tempo do diagn´ostico at´e a morte (em semanas)
# X: log10(contagem de c´elulas brancas no diagn´ostico)
# n=17
# Objetivo: descrever a relac¸˜ao entre Y e X
#===================================================== #
y<-c(65,156,100,134,16,108,121,4,39,143,56,26,22,1,1,5,65) x<-c(3.36,2.88,3.63,3.41,3.78,4.02,4,4.23,3.73,3.85,
3.97,4.51,4.54,5,5,4.72,5)
Exemplo: Leucemia e Mortalidade
Modelo 1 - linear-normal
E [Y ] = β0+ β1X
Modelo 2 - log-linear - normal
logE [Y ] = β0+ β1X
Modelo 3 - log-linear-exponencial
Exemplo: Leucemia e Mortalidade ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 3.0 3.5 4.0 4.5 5.0 0 50 100 150 log10 leucócitos
tempo até a mor
te
M1: linear−normal M2: log−linear−normal M3: exponencial
AN ´ALISE DE SOBREVIV ˆENCIA: CARACTER´ISTICAS
I Resposta: tempo at ´e a ocorr ˆencia de um evento de interesse;
tempo inicial (linha de base); escala de medida;
definic¸ ˜ao do evento.
TIPOS DE CENSURA e TRUNCAMENTO
Censura `a direita: T´ıpica
Censura `a esquerda: tempo registrado maior que o tempo de falha.
Censura Intervalar: o evento ocorreu em um intervalo.
TRUNCAMENTOS: condic¸ ˜ao que exclui certos indiv´ıduos do estudo. Truncamento `a Esquerda.
Censura `a Direita 5 10 15 20 1 2 3 4 5 6
(a) Dados completos
Tempos Pacientes Final do Estudo 5 10 15 20 1 2 3 4 5 6
(b) Dados com censura tipo I
Tempos Pacientes o o o Final do Estudo 5 10 15 20 1 2 3 4 5 6
(c) Dados com censura tipo II
Tempos Pacientes o o Final do Estudo 5 10 15 20 1 2 3 4 5 6
(d) Dados com censura aleatória
Tempos Pacientes o o o o Final do Estudo
Escala de Tempo
Tempo de durac¸ ˜ao: t´ıpica. Idade.
Calend ´ario.
Escala de Tempo T´ıpica 1 2 3 4 5 6 ● ● ● ● ● ● 2002 2006 2010 Pct
*
*
*
º º º 1 2 3 4 5 6 ● ● ● ● ● ● 0 1 2 3 4 5 6 Pct*
*
*
º º ºEXEMPLOS
tempo do diagn ´ostico da doenc¸a at ´e a morte do paciente ou da sua cura;
tempo at ´e a recorr ˆencia de crimes ou pris ˜oes;
tempo at ´e a ocorr ˆencia do primeiro sinistro em uma empresa de seguros;
mudanc¸a de empregos, promoc¸ ˜oes ou aposentadorias; mortalidade infantil, casamento, separac¸ ˜oes ou migrac¸ ˜oes; tempo at ´e a quebra/falha de um componente el ´etrico.
Dados de Hepatite (Gregory et al., 1976)
Pacientes com Hepatite Viral Aguda;
Objetivo: investigar o efeito da terapia com ester ´oide; Estudo Cl´ınico Aleatorizado;
Vinte e nove pacientes com esta doenc¸a foram aleatorizados para receber um placebo ou o tratamento com ester ´oide.
Cada paciente foi acompanhado por 16 semanas ou at ´e a morte (evento de interesse) ou at ´e a perda de acompanhamento.
Dados de Hepatite (Gregory et al., 1976)
Os tempos de sobreviv ˆencia observados, em semanas, para os dois grupos (+ indica censura).
Grupo Tempo de sobreviv ˆencia em semanas
Controle 1+, 2+, 3, 3, 3+, 5+, 5+, 16+, 16+, 16+, 16+, 16+, 16+, 16+, 16+
Representac¸ ˜ao Probabil´ıstica do Mecanismo de Censura Aleat ´oria
T : Tempo de Falha; C: Tempo de Censura;
T e C independentes (mecanismo n ˜ao-informativo); Os valores observados s ˜ao:
t = min(T , C) e δ = 1, T ≤ C 0, T > C.
ESPECIFICAC¸ ˜AO DA RESPOSTA T
Func¸ ˜ao de Sobreviv ˆencia
S(t) = P(T ≥ t)
Func¸ ˜ao de Taxa de Falha λ(t) = lim
∆t→0
P(t ≤ T < t + ∆t/T ≥ t) ∆t
Func¸ ˜ao de Taxa de Falha Acumulada Λ(t) =
Z t
0
Exemplo: Func¸ ˜oes de Sobreviv ˆencia 0 5 10 15 20 25 30 35 0.0 0.2 0.4 0.6 0.8 1.0 S(t) Grupo 1 Grupo 2
Exemplo: Func¸ ˜oes de Taxas de Falha 0 5 10 15 20 25 30 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Tempo Taxa de falha
Func¸ ˜ao de Taxa de Falha: Tipo Banheira Tempos λ ( t ) 0 t1 t2 0 0.5 1 1.5 2 Fase de
falhas prematuras Fase devida útil
Fase de envelhecimento
Relac¸ ˜oes entre as Func¸ ˜oes
λ(t) = f (t) S(t) Λ(t) = −logS(t)
Tempo M ´edio de Vida e Vida M ´edia Residual
Tempo M ´edio de Vida
E (T ) = Z ∞
0
S(t)dt Vida M ´edia Residual
vmr (t) = E (T − t/T > t) = R∞
t S(u)du
Sobreviv ˆencia vs Taxa de Falha: Sem Censura
Situac¸ ˜ao
Em um estudo contendo N indiv´ıduos cujo tempo ´e dado em anos, no intervalo de [1, 2) anos foram observadas d falhas:
A func¸ ˜ao de sobreviv ˆencia avaliada no tempo t = 1 ´e estimada por: ˆ
S(1) = node indiv´ıduos que n˜ao falharam at´e o tempo t=1N A taxa de falha no intervalo [1; 2) ´e estimada por: ˆ
Exemplo: 45 unidades acompanhadas por 8 anos t Intervalo Sobrevi-v ˆencia Taxa de falha (1/ano) 0 0 `1 1,00 0,04 1 1 `2 0,96 0,07 2 2 `3 0,89 0,25 3 3 `4 0,67 0,53 4 4 `5 0,31 0,14 5 5 `6 0,27 0,58 6 6 `7 0,11 0,80 7 7 `8 0,02 1,00 ˆ S(4) = 2+7+4+145 = 1445 =0, 31 ˆ λ([5, 6)) = 7+4+17 = 127 =0, 583/ano
Func¸ ˜oes de Sobreviv ˆencia e Taxa de Falha
Func¸ ˜ao de Taxa de Falha λ(t) = lim ∆t→0 P(t 6 T < t + ∆t|T > t) ∆t λ(t) > 0;
Descreve como a taxa instant ˆanea de falha muda com o tempo;
O numerador representa a probabilidade de que o evento v ´a ocorrer no intervalo [t, t + ∆t) dado que n ˜ao ocorreu antes de t;
A divis ˜ao por ∆t garante uma taxa de ocorr ˆencia por unidade de tempo. Dif´ıcil de ser estimada de forma n ˜ao-param ´etrica.
Descric¸ ˜ao de Dados de Sobreviv ˆencia - T ´ecnicas N ˜ao-Param ´etricas
1 Estimar λ(t) e f (t) ´e muito dif´ıcil (splines/kernel). 2 Estimar a Func¸ ˜ao de Sobreviv ˆencia S(t)
Estimador de Kaplan-Meier. Estimador de Nelson-Aalen. 3 Comparar Curvas de Sobreviv ˆencia:
Teste log-rank. Teste de Wilcoxon.
Func¸ ˜ao de Sobreviv ˆencia Emp´ırica (aus ˆencia de censuras)
b
S(t) = no. de observac¸ ˜oes que n ˜ao falharam at ´e o tempo t no. total de observac¸ ˜oes no estudo .
b
S(t) ´e uma func¸ ˜ao escada com degraus nos tempos observados de falha de tamanho 1/n, em que n ´e o tamanho da amostra.
Func¸ ˜ao de Sobreviv ˆencia Emp´ırica
O procedimento para obter a estimativa de curvas de sobreviv ˆencia envolve uma sequ ˆencia de passos; ou seja, o pr ´oximo passo depende do anterior;
como ilustrac¸ ˜ao,o exemplo do grupo ester ´oide dos dados de hepatite, em que aconteceram mortes na primeira e quinta semanas:
S(5) = P(T ≥ 5) = P(T ≥ 1, T ≥ 5) = P(T ≥ 1)P(T ≥ 5 | T ≥ 1)
Estimador de Kaplan-Meier
De forma a construir o estimador de Kaplan-Meier, ou estimador limite-produto, vamos assumir que:
o comprimento do intervalo ´e infinitesimal (muito, muito pequeno). S(t) ´e, ent ˜ao, o produto de infinitos termos da forma
1 − qu=1 − P(u− < T ≤ u, | T ≥ u−).
No entanto, somente aqueles intervalos que incluem falha v ˜ao contribuir para a estimac¸ ˜ao de S(t). Os demais v ˜ao contribuir com o valor 1 no produt ´orio.
Estimador de Kaplan-Meier
Em teoria estamos assumindo massa para os tempos de falha e tratando S(t) como cont´ınua `a esquerda. Kaplan e Meier (1958) mostraram que o estimador de m ´axima verossilhanc¸a para qj ´e:
b qj =
no. de falhas em tj
no. de observac¸ ˜oes sob risco em tj−
,
Construc¸ ˜ao do Estimador de Kaplan-Meier
1 Ordenar os tempos distintos de falha
t1<t2< . . . <tk 2 Utilizando a seguinte notac¸ ˜ao:
di: n ´umero de falhas no tempo ti;
ni: n ´umero de observac¸ ˜oes sob risco (n ˜ao falhou e n ˜ao foi
censurado) at ´e o tempo ti (exclusive).
O estimador de Kaplan-Meier ´e
b S(t) = Y i/ti<t ni − di ni = Y i/ti<t 1 − di ni .
ESTIMATIVAS DE KAPLAN-MEIER
Exemplo da Hep ´atite: grupo ester ´oide.
Tempo No. sob risco No. de falhas ˆqi S(t)b
ti ni di 1 5 7 8 10
Exemplo da Hep ´atite: Kaplan-Meier para os dois grupos: placebo e ester ´oide. 0 5 10 15 0.0 0.2 0.4 0.6 0.8 1.0 Tempo (semanas) S(t) estimada Controle Esteróide
ESTIMADOR DE NELSON-AALEN
Uma outra forma de expressar a func¸ ˜ao de sobreviv ˆencia ´e a seguinte S(t) = exp(−Λ(t)).
Um estimador para Λ(t) foi proposto por Nelson(1969; 1972): ˜ Λ(t) = X i/ti<t di ni .
O estimador de Nelson-Aalen para a func¸ ˜ao de sobreviv ˆencia ´e dado por
˜
S(t) = exp(−˜Λ(t)).
Vari ˆancia - Kaplan-Meier
A vari ˆancia assint ´otica do estimador Kaplan-Meier ´e dada pela f ´ormula de Greenwood (ver Kalbfleisch e Prentice, 1980, p. 12-14):
d Var (bS(t)) = bS(t)2 X i/ti<t di ni(ni− di) .
A estimativa da vari ˆancia bS(6) ´e
d Var (bS(6)) = 0, 6982 3 14 × 11 + 1 9 × 8 =0, 0163 = 0, 1282. IC para S(6) : 0, 698 ± 196 × 0, 128 = (0, 448; 0, 948).
PROBLEMA: para valores extremos de t o intervalo de confianc¸a pode apresentar limite inferior negativo ou limite superior maior que um.
Vari ˆancia - Kaplan-Meier
Uma SOLUC¸ ˜AO ´e usar uma transformac¸ ˜ao de S(t). Por exemplo, a vari ˆancia assint ´otica (m ´etodo delta) de
b U(t) = log[−log(bS(t))] ´e d Var ( bU(t)) = P i/ti<t di ni(ni−di) h P i/ti<t log ni−di ni i2.
Um intervalo aproximado de 95% de confianc¸a para S(t) ´e
b
S(t)exp(±1,96
q d Var ( bU(t)),
que assume valores no intervalo [0, 1]. O que resulta no intervalo (0, 38; 0, 88) de 95% de confianc¸a para S(6).
Estimac¸ ˜ao de Quantidades de Interesse
1 Frac¸ ˜ao de Falha ou Probabilidade de Sobreviv ˆencia Estimador de Kaplan-Meier ou de Nelson-Aalen;
Interpolac¸ ˜ao pode ser ´util (Colosimo e colegas, 2002, JSCS); Vari ˆancia estimada pela f ´ormula de Greenwood. Transformac¸ ˜oes podem ser ´uteis.
2 Tempo m ´edio de vida. 3 Percentis
Utilizar a inversa do Estimador de Kaplan-Meier ou de Nelson-Aalen;
Interpolac¸ ˜ao ´e bastante ´util (Colosimo e colegas, 2002, JSCS); Vari ˆancia d´ıficil de ser estimada.
Estimac¸ ˜ao do Tempo M ´edio de Vida
µ =E [T ] = Z ∞
0
S(t)dt
Uma estimativa para µ ´e substituir S(t) por bS(t). A integral se transforma em uma soma de ´areas de ret ˆangulos.
OBSERVAC¸ ˜OES:
1 Na aus ˆencia de censuras
b
µ ´e a m ´edia amostral;
2 Esta estimativa ´e apropriada quando a maior observac¸ ˜ao ´e uma
Propostas de Soluc¸ ˜ao (maior observac¸ ˜ao ´e uma censura):
1 Terminar na maior observac¸ ˜ao (Efron, 67) (subestimando); 2 Propor um valor m ´aximo (τ ) de observac¸ ˜ao razo ´avel para o
estudo e assumir:
µ =E [T ] = Z τ
0
S(t)dt
Vari ˆancia do Estimador de µ = E [T ] d Var (µ) =b k −1 X i=1 (Ai)2 di ni(ni− di) em que Ai = bS(ti)(ti+1− ti) . . . bS(tk −1)(tk − tk −1)
Estimador dos Percentis (btp)
Utilizar a inversa do Estimador de Kaplan-Meier ou de
Nelson-Aalen para obter uma estimativa do percentil de ordem p. O Kaplan-Meier ´e uma func¸ ˜ao escada e, portanto, n ˜ao atinge b
S(tp) =1 − p.
Definimos btp=min bS(t) < 1 − p ;
Vari ˆancia do Estimador dos Percentis (btp)
Var [btp] =
Var (bS(btp))
f2(bt
p)
Uma estimativa para Var [btp] ´e dif´ıcil de ser obtida pois depende f (btp).
Propostas de Soluc¸ ˜oes:
1 Utilizar uma estimativa n ˜ao-param ´etrica para f (.), por exemplo, do
tipo kernel:
bf (t) = b
S(t − b) − bS(t + b) 2b
em que, b ´e o tamanho da janela.
2 Brookmeier e Crowley (1982) invertendo a regi ˜ao de rejeic¸ ˜ao um
teste de hip ´oteses que n ˜ao depende de f (.). Ou seja,inverter o IC de S(t).
Comparac¸ ˜ao de Curvas de Sobreviv ˆencia
logrank (Mantel, 1966) Wilcoxon (Gehan, 1965) Outros testes.
Teste Logrank (dois grupos)
H0:S1(t) = S2(t)
para todo t no per´ıodo de acompanhamento.
Sejam t1<t2< . . . <tk os tempos de falha distintos obtido pela
combinac¸ ˜ao das duas amostras.
No tempo tj acontecem dj falhas e nj indiv´ıduos est ˜ao sob risco
em tj− da amostra combinada. Ou seja, dij e nij na amostra i; i = 1, 2 e j = 1, . . . , k . Grupos 1 2 Falha d1j d2j dj N ˜ao Falha n1j − d1j n2j − d2j nj− dj
Teste Logrank (dois grupos)
Condicional `a experi ˆencia de falha e censura at ´e o tempo tj (fixando as marginais de coluna) e ao n ´umero de falhas no tempo tj (fixando as marginais de linha), a distribuic¸ ˜ao de d2j ´e uma
hipergeom ´etrica, sob H0.
A m ´edia de d2j ´e w2j =n2jdjnj−1e
a vari ˆancia de d2j ´e (Vj)2=n2j(nj− n2j)dj(nj − dj)n−2j (nj − 1)−1.
A estat´ıstica d2j − w2j tem m ´edia zero e vari ˆancia (Vj)2.
Assumindo independ ˆencia das k tabelas de conting ˆencia, a estat´ıstica T = h Pk j=1(d2j − w2j) i2 Pk j=1(Vj)2 .
Teste Logrank - Dados da Hep ´atite
O valor do teste logrank para a comparac¸ ˜ao entre os dois grupos dos dados de hepatite ´e
T = 3, 67
o que implica em um valor p = 0, 055, indicando uma diferenc¸a entre as duas curvas de sobreviv ˆencia.
Fam´ılia de Testes S = h Pk j=1uj(d2j− w2j) i2 Pk j=1uj2(Vj)2 , Logrank: uj =1, j = 1, . . . , k . Wilcoxon: uj =nj. Tarone e Ware: uj = √ nj.
Obs.: os pesos determinam como s ˜ao ponderadas diferenc¸as ao longo do per´ıodo de acompanhamento.
Fam´ılia de pesos de Harrington-Fleming: uj = h b S(tj−1) iρ .
Uma fam´ılia de pesos din ˆamicos pois o peso em tj ´e o valor do
Kaplan-Meier em tj−1 elevado a pot ˆencia ρ.
Se ρ = 0, obtemos uj =1 e temos o teste logrank.
Se ρ = 1, ent ˜ao o peso ´e o Kaplan-Meier no tempo de falha anterior, que ´e aproximadamente o teste de Wilcoxon. O R utiliza esta fam´ılia de testes no seu comando survdiff.
Teste Logrank - Dados da Hep ´atite
Os resultados para os dados de hepatite.
Teste Estat´ıstica (valor-p) Logrank 3,67 (0,055) Wilcoxon 3,19 (0,074) Tarone-Ware 3,43 (0,064)
Generalizac¸ ˜ao do Teste Logrank (r > 2 grupos)
H0:S1(t) = S2(t) = . . . = Sr(t)
para todo t no per´ıodo de acompanhamento.
Arranjando os dados em uma tabela de conting ˆencia com no caso anterior para o tempo da j- ´esima falha tj
Grupos
1 2 . . . r
Falha d1j d2j . . . drj dj
N ˜ao Falha n1j − d1j n2j− d2j . . . nrj− drj nj− dj
Teste Logrank (r > 2 grupos)
Vamos seguir a mesma ideia de dois grupos.
Ou seja, condicionar na experi ˆencia de falha e censura at ´e o tempo tj e fixando as marginais de coluna e linha.
A distribuic¸ ˜ao de vj0 = (d2j − w2j, . . . ,drj− wrj) ´e uma
hipergeom ´etrica multivariada, sob H0.
Isto ´e, vj0 = (d2j− w2j, . . . ,drj− wrj), v0 = k X j=1 vj0 e V = k X j=1 Vj
em que Vj ´e a matriz de vari ˆancia-covari ˆancia (r − 1 × r − 1) da
Teste Logrank (r > 2 grupos)
Temos que, a forma quadr ´atica,
T = v0V−1v
tem, sob H0, uma distribuic¸ ˜ao qui-quadrado com r − 1 graus de
liberdade para grandes amostras.
Obs. Se H0for rejeitada ´e necess ´ario realizar comparac¸ ˜oes m ´ultiplas
para identificar quais grupos se diferem. Usualmente, utilizamos o m ´etodo de Bonferroni.
Dados de Mal ´aria (pag. 14, Colosimo e Giolo, 2006)
Estudo experimental com camundongos conduzido no Centro de Pesquisas Ren ´ee Rachou, FioCruz, MG.
44 camundongos foram infectados pela mal ´aria (Plasmodium berguei).
Os camundongos foram aleatoriamente alocados em tr ˆes grupos:
Grupo 1: infectado tamb ´em pela esquistossomose e imunizado. Grupo 2: controle.
Grupo 3: infectado tamb ´em pela esquistossomose.
Exemplo: KM - Dados de Mal ´aria 0.0 0.2 0.4 0.6 0.8 1.0 S(t) estimada Grupo 1 Grupo 2 Grupo 3
Exemplo: Logrank - Dados de Mal ´aria
H0:S1(t) = S2(t) = S3(t)
T= 12,6 (logrank) com 2 degrees of freedom, p= 0,00187 Buscar diferenc¸as utilizando o teste dois a dois com α =0, 05/3 = 0, 017.
1-2: valor-p = 0,112. 2-3: valor-p = 0,0047 1-3: valor-p = 0,005.
Os grupos 1 e 2 n ˜ao se diferem mas ambos s ˜ao significativamente diferentes do grupo 3.
DIGITAC¸ ˜AO DE DADOS - PLANILHA DE DADOS
1 RESPOSTA: duas colunas
Tempo de vida; Indicador de Falha.
2 VARI ´AVEIS EXPLICATIVAS OU COVARI ´AVEIS: uma em cada
T ´ECNICAS N ˜AO-PARAM ´ETRICAS
1 VANTAGENS
F ´acil de entender;
Suposic¸ ˜oes fracas (n ˜ao imp ˜oe distribuic¸ ˜ao para T ).
2 DESVANTAGENS
Pouco eficientes;