• Nenhum resultado encontrado

2.3 An´ alise de Sobrevivˆ encia

2.3.3 Modelo de regress˜ ao de Cox

Em estudos de sobrevivˆencia, admite-se que o tempo de vida dos indiv´ıduos ´e in- fluenciado por alguns factores, nomeadamente caracter´ısticas do pr´oprio indiv´ıduo (i.e. sexo, idade) e factores externos (i.e. tipos de tratamento, h´abitos de vida). Esses factores s˜ao geralmente representados por vari´aveis explicativas.

´

E importante estudar a rela¸c˜ao existente entre o tempo de vida dos indiv´ıduos e as diversas vari´aveis explicativas, obtendo as estimativas do respectivo efeito na fun¸c˜ao de risco. A forma adequada de realizar esta an´alise ser´a atrav´es de um modelo de regress˜ao. O modelo de regress˜ao mais importante e utilizado na an´alise de tempos de vida foi introduzido por Cox (1972) e designa-se por modelo de riscos proporcionais de Cox.

O modelo de Cox (1972) ´e um modelo de regress˜ao semi-param´etrico, uma vez que, para al´em da suposi¸c˜ao da proporcionalidade das fun¸c˜oes de risco, n˜ao se as- sume nenhuma distribui¸c˜ao para o tempo de vida dos indiv´ıduos em estudo. Embora

o efeito das vari´aveis explicativas seja modelado parametricamente, a fun¸c˜ao de risco subjacente (h0(t)) n˜ao ´e especificada.

Formula¸c˜ao do modelo

Seja T uma vari´avel aleat´oria cont´ınua que representa o tempo de sobrevivˆencia e z = (z1, ..., zp)0 o vector de vari´aveis explicativas associadas a cada indiv´ıduo. Cox

(1972) propˆos um modelo de regress˜ao em que, no instante t, a fun¸c˜ao de risco de T , dado z ´e definida por

h(t; z) = h0(t) exp(β0z), (2.21)

onde h0(t) ´e uma fun¸c˜ao arbitr´aria e n˜ao negativa, designada por fun¸c˜ao de risco

subjacente, e β = (β1, ..., βp)0´e o vector dos coeficientes de regress˜ao (desconhecidos)

que representam a influˆencia das vari´aveis explicativas no tempo de sobrevivˆencia. A fun¸c˜ao h0(t) representa a fun¸c˜ao de risco de referˆencia para um indiv´ıduo a

que est´a associado o vector z = 0, ou seja, a fun¸c˜ao de risco comum a todos os indiv´ıduos, sendo a parte n˜ao param´etrica do modelo.

A fun¸c˜ao de risco (2.21) depende do tempo e das vari´aveis explicativas mas como produto de dois factores distintos, ou seja, h0(t) que ´e uma fun¸c˜ao arbitr´aria

do tempo e exp(β0z).

As duas caracter´ısticas fundamentais deste modelo s˜ao: • Trata-se de um modelo de riscos proporcionais.

As fun¸c˜oes de risco correspondentes a dois indiv´ıduos diferentes com vectores de vari´aveis explicativas z1 e z2 s˜ao proporcionais, pelo que a raz˜ao entre estas

fun¸c˜oes em qualquer instante t h(t; z1) h(t; z2) = h0(t) exp(β 0 z1) h0(t) exp(β0z2) = exp β0(z1 − z2), n˜ao depende de t.

• As covari´aveis tˆem um efeito multiplicativo na fun¸c˜ao de risco, de acordo com o factor exp(β0z), designado por risco relativo.

O risco relativo representa o risco de morte de um dado indiv´ıduo relativamente ao indiv´ıduo padr˜ao.

Interpreta¸c˜ao dos coeficientes

Habitualmente, exp(βj) ´e preferida relativamente a βj, no que diz respeito `a in-

terpreta¸c˜ao, dado que esta quantidade apresenta um significado mais directo no que se refere ao risco de morte. Assim, exp(βj) representa o risco relativo de ocorrˆencia

do acontecimento para dois indiv´ıduos que diferem de uma unidade nos valores da vari´avel explicativa zj, sendo iguais os valores das restantes vari´aveis explicativas.

Considerando ent˜ao z como uma vari´avel explicativa bin´aria definida para o caso de duas popula¸c˜oes, grupo 1 vs grupo 2, a que o indiv´ıduo pode pretencer, temos

z = 

0 se o indiv´ıduo pertence ao grupo 1 1 se o indiv´ıduo pertence ao grupo 2

Considerando, como acontecimento de interesse, por exemplo, a morte ou a reca´ıda de determinada doen¸ca, tem-se que:

• se β < 0 ⇔ eβ < 1, pelo que os indiv´ıduos do grupo 2 tˆem um melhor

progn´ostico do que os do grupo 1;

• se β > 0 ⇔ eβ > 1, os indiv´ıduos do grupo 2 tˆem pior progn´ostico do que os

do grupo 1;

• se β = 0 ⇔ eβ = 1, os indiv´ıduos do grupo 2 tˆem um progn´ostico igual aos do

grupo 1.

Fun¸c˜ao de verosimilhan¸ca

Considerando n indiv´ıduos em estudo, observaram-se k instantes distintos de morte, tal que t1 < t2 < .... < tk, em que k ≤ n. O conjunto de risco no instante ti,

designado por Ri, ´e definido por

Ri = R(ti) = {j : tj ≥ ti} , (2.22)

sendo o conjunto de ´ındices associados aos indiv´ıduos em observa¸c˜ao imediatamente antes do instante ti.

A fun¸c˜ao de verosimilhan¸ca, proposta por Cox (1972) para a realiza¸c˜ao de in- ferˆencia sobre β, ´e dada por

L(β) = k Y i=1 exp(β0zi) P l∈Riexp(β 0 zl) , (2.23)

em que zi ´e o vector de vari´aveis explicativas associado ao indiv´ıduo que morreu no

instante ti.

Cox (1975) designou a fun¸c˜ao (2.23) por fun¸c˜ao de verosimilhan¸ca parcial. Assim, mostrou que, embora n˜ao se trate de uma fun¸c˜ao de verosimilhan¸ca no sentido usual, dado n˜ao representar a probabilidade de realiza¸c˜ao de um acontecimento observ´avel, permite a obten¸c˜ao de um estimador do vector de parˆametros β e, sob condi¸c˜oes bastante gerais, verifica as propriedades usuais dos estimadores de m´axima verosimilhan¸ca. Desta forma, ˆβ ´e consistente, assintoticamente normal de valor m´edio β e matriz de covariˆancia I(β)−1, onde I(β) ´e a matriz de informa¸c˜ao de Fisher, i.e., −  E ∂ 2 log L ∂βj∂βk  p×p .

Os coeficientes de regress˜ao β1, β2, ...., βp s˜ao estimados pelos valores ˆβ1, ˆβ2, ...., ˆβp

que maximizam a fun¸c˜ao de verosimilhan¸ca parcial L(β) ou, de modo equivalente, o logaritmo dessa fun¸c˜ao de verosimilhan¸ca.

Notemos que a fun¸c˜ao de verosimilhan¸ca (2.23) proposta por Cox (1972) n˜ao de- pende de h0(t), o que permite a realiza¸c˜ao de inferˆencia sobre o vector de parˆametros

β, sem que seja necess´ario fazer qualquer restri¸c˜ao `a forma de h0(t). O facto de (2.23)

poder ser interpretada como uma verosimilhan¸ca parcial permite que seja usada para a realiza¸c˜ao de inferˆencia na presen¸ca de parˆametros perturbadores. Notemos que h0(t) poder´a ser considerada como uma fun¸c˜ao perturbadora.

Na situa¸c˜ao em que tenha ocorrido a morte de mais do que um indiv´ıduo em simultˆaneo ou sempre que o registo dos dados n˜ao ´e feito com precis˜ao, dando origem a valores iguais, a fun¸c˜ao (2.23) n˜ao poder´a ser aplicada. Nesta situa¸c˜ao, para os n indiv´ıduos em estudo, suponhamos que foram observados os instantes distintos de morte t1 < t2 < .... < tk. Seja di o n´umero de mortes ocorridas

no instante ti e zij o vector de vari´aveis explicativas associadas ao indiv´ıduo j,

que morre em ti, j = 1, ..., di, i = 1, ..., k. Se, quando comparado com o n´umero

de indiv´ıduos pertencentes ao conjunto de risco Ri, i = 1, ..., k, o n´umero di de

indiv´ıduos que morrem em ti for pequeno, ent˜ao a fun¸c˜ao de verosimilhan¸ca parcial

pode ser aproximada pela fun¸c˜ao, proposta por Peto e Peto (1972) e Breslow (1974),

L(β) = k Y i=1 exp(β0si) P l∈Riexp(β 0 zl) di, (2.24)

em que si = Pdj=1i zij, para i = 1, ..., k. Esta ´e a verosimilhan¸ca habitualmente

usada no software estat´ıstico. No caso de n˜ao existirem observa¸c˜oes empatadas, ou seja, di = 1 para i = 1, ..., k, a fun¸c˜ao (2.24) reduz-se `a verosimilhan¸ca parcial (2.23).

M´etodo de selec¸c˜ao de vari´aveis

Quando se efectua uma an´alise de regress˜ao pretende-se construir um modelo que se ajuste bem aos nossos dados, identificando quais as vari´aveis explicativas que tˆem influˆencia significativa na sobrevivˆencia dos indiv´ıduos, de entre todas as que foram registadas. ´E importante referir que, em estudos de sobrevivˆencia, a contribui¸c˜ao dos profissionais de sa´ude ´e fundamental, no sentido de indicar a relevˆancia cl´ınica de alguma vari´avel explicativa que n˜ao tenha revelado significˆancia estat´ıstica, sendo apesar disso importante inclu´ı-la no modelo final.

Pretendemos ent˜ao avaliar se cada vari´avel explicativa influencia significativa- mente o tempo de sobrevivˆencia do indiv´ıduo. Trata-se de testar a hip´otese nula de que a vari´avel explicativa zj n˜ao tem influˆencia significativa na sobrevivˆencia do

indiv´ıduo (βj = 0), na presen¸ca das restantes vari´aveis explicativas, i.e.,

Para tal utiliza-se frequentemente o teste de Wald, cuja estat´ıstica de teste ´e dada por βˆj

var( ˆβj)

, que tem, sob H0, distribui¸c˜ao assint´otica N (0, 1).

Como forma de encontrar o modelo que melhor se ajusta aos dados baseamo- nos num m´etodo, sugerido por Collett (2003), que permite a compara¸c˜ao de v´arios modelos alternativos. Para se efectuar a compara¸c˜ao entre os modelos, precisamos de uma medida da qualidade do ajustamento do modelo. Assim, uma estat´ıstica apropriada ´e o valor da fun¸c˜ao de verosimilhan¸ca quando os parˆametros s˜ao subs- titu´ıdos pelas respectivas estimativas de m´axima verosimilhan¸ca, uma vez que a fun¸c˜ao de verosimilhan¸ca resume a informa¸c˜ao acerca dos parˆametros desconhecidos contida nos dados. Quanto maior for o valor da verosimilhan¸ca maximizada, para um certo conjunto de dados, melhor ser´a o ajustamento do modelo aos dados. Por quest˜oes de ordem pr´atica ser´a utilizada a estat´ıstica −2 log ˆL, onde ˆL designa a verosimilhan¸ca maximizada. Pelo facto de ˆL resultar do produto de probabilidades condicionais vai apresentar um valor inferior `a unidade, pelo que −2 log ˆL apresenta sempre um valor positivo e, para um certo conjunto de dados, quanto menor for, melhor ser´a o modelo.

Considerando a estat´ıstica −2 log ˆL ´e poss´ıvel comparar modelos ajustados aos mesmos dados, ( ˆL depende da dimens˜ao da amostra), e averiguar se a inclus˜ao de uma ou mais vari´aveis explicativas no modelo contribui para melhorar significati- vamente o ajustamento do modelo aos dados. Desta forma, os modelos podem ser comparados com base na diferen¸ca entre os valores da estat´ıstica −2 log ˆL para cada modelo.

Sendo q o n´umero de vari´aveis explicativas adicionais inclu´ıdas no modelo, que- remos ent˜ao testar a hip´otese

H0 : βp+1= ... = βp+q = 0

utilizando um teste de raz˜ao de verosimilhan¸cas, cuja estat´ıstica de teste ´e dada por −2 log ( ˆL1/ ˆL2). A estat´ıstica tem, sob a validade de H0, distribui¸c˜ao assint´otica

de Qui-quadrado com um n´umero de graus de liberdade igual `a diferen¸ca entre o n´umero de vari´aveis explicativas de cada um dos modelos, ou seja, q graus de liber- dade.

A estrat´egia de selec¸c˜ao do modelo sugerida por Collett (2003) ´e composta por quatro fases. A primeira fase consiste em ajustar aos dados um modelo contendo cada vari´avel explicativa e comparar o valor da estat´ıstica −2 log ˆL de cada modelo, com o valor da estat´ıstica para o modelo nulo (sem vari´aveis explicativas). Se ao incluir uma vari´avel explicativa se verificar uma redu¸c˜ao significativa do valor da estat´ıstica −2 log ˆL, ent˜ao essa vari´avel ser´a potencialmente importante, influen- ciando o tempo de sobrevivˆencia dos indiv´ıduos.

Na segunda fase, inclu´ımos num modelo todas as vari´aveis explicativas que se revelaram importantes na fase anterior, sendo calculado o respectivo valor da es- tat´ıstica −2 log ˆL. A seguir, omitimos uma vari´avel explicativa de cada vez e obte- mos o valor da estat´ıstica −2 log ˆL. Todas as vari´aveis explicativas que, ao serem

omitidas, levam a um aumento significativo do valor da estat´ıstica ser˜ao mantidas do modelo.

Na terceira fase, no modelo que se obteve na fase dois ser˜ao inclu´ıdas, uma de cada vez, as vari´aveis explicativas que n˜ao foram consideradas importantes na primeira fase. Deste modo, ´e poss´ıvel verificar se estas vari´aveis, na presen¸ca de outras vari´aveis explicativas, revelam influˆencia e aquelas que levarem a uma redu¸c˜ao significativa da estat´ıstica −2 log ˆL ser˜ao inclu´ıdas no modelo.

Com a ´ultima fase ´e feita uma verifica¸c˜ao final, com o objectivo de confirmar que nenhuma vari´avel explicativa pode ser omitida sem levar a um aumento significativo do valor da estat´ıstica −2 log ˆL, bem como que nenhuma vari´avel explicativa foi acrescentada que n˜ao leve a uma diminui¸c˜ao significativa do valor da estat´ıstica.

Collett (2003) recomenda que o n´ıvel de significˆancia usado para a inclus˜ao ou omiss˜ao das vari´aveis explicaticas n˜ao seja muito pequeno e aconselha o valor 0.10.