• Nenhum resultado encontrado

Amostragem retrospectiva

No documento MODELOS DE REGRESSÃO com apoio computacional (páginas 113-121)

2.6 Regress˜ao log´ıstica linear

2.6.4 Amostragem retrospectiva

Em muitas situa¸c˜oes pr´aticas, especialmente no estudo de doen¸cas raras, pode ser mais conveniente a aplica¸c˜ao de uma amostragem retrospectiva em que um conjunto de n1

casos (indiv´ıduos com y = 1) e n2 controles (indiv´ıduos com y = 0) ´e selecionado aleatori-

amente e classificado segundo os valores de x = (x1, . . . , xp)T. Esse tipo de planejamento

´e muitas vezes motivado por quest˜oes econˆomicas ligadas ao custo e a dura¸c˜ao do exper- imento. A amostragem retrospectiva assim constitu´ıda levaria diretamente a um modelo para P r(X = x|y), ao contr´ario dos dados prospectivos que est˜ao associados ao modelo π(x) = P r(Y = y|x). Como o desenvolvimento de um modelo para P r(X = x|y) pode tornar-se muito complexo `a medida que o valor x envolve um n´umero maior de vari´aveis explicativas, particularmente cont´ınuas, a proposta de uma abordagem alternativa atrav´es da especifica¸c˜ao de um modelo para P r(Y = y|x), de modo a induzir um modelo para P r(X = x|y), tem sido bastante utilizada. Vamos supor ent˜ao um modelo log´ıstico linear para explicar π(x) = P r(Y = 1|x). Mostraremos a seguir que a probabilidade π(x), a menos de uma constante adicionada ao intercepto do modelo, coincide com a probabili- dade π∗(x) = P r(Y = 1|x, Z = 1) se a sele¸c˜ao amostral n˜ao depende de x, em que Z ´e

uma vari´avel indicadora da classifica¸c˜ao amostral (vide, por exemplo, Armitage, 1971). Denotaremos

γ1 = P r(Z = 1|Y = 1) e γ2 = P r(Z = 1|Y = 0),

em que γ1 ´e a probabilidade de um caso ser selecionado e γ2 ´e a probabilidade de um

de x. Portanto

π∗(x) = P r(Y = 1|x, Z = 1)

= P P r(Z = 1|Y = 1)P r(Y = 1|x)

y=0,1P r(Z = 1|Y = y)P r(Y = y|x)

= γ1π(x) γ2{1 − π(x)} + γ1π(x) = γ1 γ2 h π(x) 1−π(x) i 1 + γ1 γ2 h π(x) 1−π(x) i, ou melhor π∗(x) = e log{γ1/γ2}+η 1 + elog{γ1/γ2}+η, em que η =Ppj=1xjβj.

Portanto, se fazemos uma amostragem retrospectiva e ajustamos um modelo log´ıstico como se fosse uma amostragem prospectiva, os coeficientes devem coincidir desde que a sele¸c˜ao tenha sido feita independente de x. Se, no entanto, h´a interesse particular em estimar π(x), isto ´e, fazer predi¸c˜oes dado x, deve-se corrigir a constante do modelo ajustado, obtendo o novo intercepto

ˆ

β1 = ˆβ1∗− log(γ1/γ2),

em que ˆβ∗

1 ´e o intercepto do modelo ajustado. Apresentamos um exemplo ilustrativo na

pr´oxima se¸c˜ao.

2.6.5

Sele¸c˜ao de modelos

Uma vez definido o conjunto de covari´aveis (ou fatores) a ser inclu´ıdo num modelo log´ıstico, resta saber qual a melhor maneira de encontrar um modelo reduzido que in- clua apenas as covari´aveis e intera¸c˜oes mais importantes para explicar a probabilidade de sucesso π(x). Esse problema poderia ser resolvido pelos m´etodos usuais de sele¸c˜ao de modelos discutidos nas Se¸c˜oes 1.8.5 e 1.9.4. Contudo, a quest˜ao de interpreta¸c˜ao dos parˆametros ´e crucial num modelo log´ıstico, implicando que uma forma puramente mecˆanica de sele¸c˜ao pode levar a um modelo sem sentido e de dif´ıcil interpreta¸c˜ao. Par- ticularmente, a inclus˜ao de certas intera¸c˜oes imp˜oe a permanˆencia no modelo de seus respectivos efeitos principais de ordem inferior, na ´otica do princ´ıpio hier´arquico. Muitas vezes, vari´aveis consideradas biologicamente importantes n˜ao devem ser deixadas de lado

pela sua falta de significˆancia estat´ıstica. Assim, a sele¸c˜ao de um modelo log´ıstico deve ser um processo conjugado de sele¸c˜ao estat´ıstica de modelos e bom senso.

Um dos m´etodos mais aplicados em regress˜ao log´ıstica ´e o m´etodo stepwise. O m´etodo, como foi visto na Se¸c˜ao 1.8.5, baseia-se num algoritmo misto de inclus˜ao e elimina¸c˜ao de covari´aveis segundo a importˆancia das mesmas de acordo com algum crit´erio estat´ıstico. Esse grau de importˆancia pode ser avaliado, por exemplo, pelo n´ıvel de significˆancia do teste da raz˜ao de verossimilhan¸ca entre os modelos que incluem ou excluem as covari´aveis em quest˜ao. Quanto menor for esse n´ıvel de significˆancia tanto mais importante ser´a considerada a covari´avel. Como a covari´avel mais importante por esse crit´erio n˜ao ´e necessariamente significativa do ponto de vista estat´ıstico, h´a que impor um limite superior PE (os valores usuais est˜ao no intervalo [0, 15; 0, 25]) para esses n´ıveis descritivos, a fim

de atrair candidatos importantes em princ´ıpio `a entrada.

Dado que a inclus˜ao de novas covari´aveis num modelo pode tornar dispens´aveis out- ras covari´aveis j´a inclu´ıdas, faremos a verifica¸c˜ao da importˆancia dessas covari´aveis con- frontando os seus respectivos n´ıveis com um limite superior PS. As covari´aveis com um

n´ıvel descritivo maior do que PS ser˜ao assim candidatas `a remo¸c˜ao.

Descrevemos a seguir uma variante desse algoritmo usada por Hosmer e Lemeshow (1989, Cap. 3) ( vide tamb´em Silva, 1992). A etapa inicial come¸ca com o ajustamento do modelo apenas com o intercepto e ´e completada pelos passos seguintes:

1. constru´ımos testes da raz˜ao de verossimilhan¸ca entre o modelo inicial e os modelos log´ısticos simples formados com cada uma das covari´aveis do estudo. O menor dos n´ıveis descritivos associados a cada teste ser´a comparado com PE. Se PE for maior,

inclu´ımos a covari´avel referente `aquele n´ıvel e passamos ao passo seguinte; caso contr´ario, paramos a sele¸c˜ao e adotamos o ´ultimo modelo;

2. partindo do modelo incluindo a covari´avel selecionada no passo anterior, introduzi- mos individualmente as demais covari´aveis. Cada um desses novos modelos ´e testado contra o modelo inicial desse passo. Novamente, o menor valor dos n´ıveis descritivos ´e comparado com PE. Se for menor do que PE, implica na inclus˜ao no modelo da

covari´avel correspondente e a passagem ao passo seguinte. Caso contr´ario, paramos a sele¸c˜ao;

3. comparamos o desvio do modelo log´ıstico contendo as covari´aveis selecionadas nos passos anteriores com os desvios dos modelos que dele resultam por exclus˜ao individ-

ual de cada uma das covari´aveis. Se o maior n´ıvel descritivo dos testes da raz˜ao de verossimilhan¸ca for menor do que PS, a covari´avel associada a esse n´ıvel descritivo

permanece no modelo. Caso contr´ario, ela ´e removida. Em qualquer circunstˆancia, o algoritmo segue para o passo seguinte;

4. o modelo resultante do passo anterior ser´a ajustado, no entanto, antes de tornar- se o modelo inicial da etapa 2 (sele¸c˜ao de intera¸c˜oes de primeira ordem entre as covari´aveis inclu´ıdas), avaliamos a significˆancia de cada um dos coeficientes das covari´aveis selecionadas, por exemplo atrav´es de um teste de Wald. Se alguma covari´avel ou fator n˜ao for significativo podemos exclu´ı-los do modelo;

5. uma vez selecionadas as covari´aveis “mais importantes”, ou os efeitos principais, damos entrada na etapa 2 com o passo 1 que agora envolve apenas intera¸c˜oes de primeira ordem entre as covari´aveis selecionadas, e assim por diante.

´

E comum que algumas covari´aveis ou intera¸c˜oes de interesse ou com algum significado no estudo sejam mantidas no modelo desde o in´ıcio, mesmo que n˜ao sejam significativas. ´E tamb´em comum que a sele¸c˜ao de intera¸c˜oes seja feita dentre aquelas de interesse ou com algum significado no problema.

Uma desvantagem do procedimento descrito pelos passos 1-5 ´e de exigir as estimativas de m´axima verossimilhan¸ca em cada passo, o que encarece o trabalho computacional, particularmente quando h´a muitas covari´aveis (ou fatores). Alguns autores tˆem sugerido aproxima¸c˜oes para esse processo de sele¸c˜ao. O aplicativo cient´ıfico BMDP (Dixon, 1987) usa aproxima¸c˜oes lineares nos testes da raz˜ao de verossimilhan¸ca. Peduzzi, Hardy e Holford (1980) apresentam uma variante desse m´etodo baseada no uso da estat´ıstica de Wald.

Aplica¸c˜ao

Voltemos agora ao exemplo discutido na Se¸c˜ao 1.10.2 em que 175 pacientes com processo infeccioso pulmonar foram classificados de acordo com as vari´aveis tipo de tumor, sexo, idade, n´ıvel de HL e n´ıvel de FF. Para simplicidade das an´alises, iremos reagrupar os n´ıveis de HL e FF de modo que os n´ıveis de intensidade “ausente”e “discreto”sejam agora considerados como intensidade “baixa”e os n´ıveis “moderado”e “intenso”sejam agora de intensidade “alta”(vide Tabela 2.6).

Nesse estudo os pacientes foram amostrados retrospectivamente, sendo que os controles (processo benigno) foram formados por uma amostra de 104 pacientes de uma popula¸c˜ao de 270, enquanto que os casos (processo maligno) foram todos os pacientes diagnosticados com processo infeccioso pulmonar maligno durante o per´ıodo da pesquisa. Portanto, seguindo a nota¸c˜ao da Se¸c˜ao 2.6.4 , temos que γ1 = 1 e γ2 = 104/270 1.

Aplicaremos a seguir o m´etodo de sele¸c˜ao stepwise proposto por Hosmer e Lemeshow (1989). Na etapa 1 consideraremos apenas os efeitos principais. Adotaremos PE = 0, 20

(n´ıvel para inclus˜ao de covari´aveis) e PS = 0, 25 (n´ıvel para elimina¸c˜ao de covari´aveis).

Tabela 2.6

Descri¸c˜ao das novas vari´aveis referentes ao exemplo sobre processo infeccioso pulmonar.

Vari´avel Descri¸c˜ao Valores Y Processo Infecioso 1:maligno

0:benigno IDADE Idade em anos SEXO Sexo 0:masculino

1:feminino HL Intensidade de 1:alta

Histi´ocitos-linf´ocitos 0:baixa FF Intensidade de 1:alta

Fibrose-frouxa 0:baixa

No passo 1 inclu´ımos a covari´avel IDADE, uma vez que o n´ıvel descritivo dessa covari´avel foi o menor dentre os n´ıveis descritivos das demais covari´aveis e tamb´em foi menor do que PE. No passo seguinte inclu´ımos a covari´avel HL, e agora com duas covari´aveis

inclu´ıdas no modelo verificamos se ´e poss´ıvel eliminar uma das duas. O maior n´ıvel descritivo ´e da IDADE que encontra-se na Tabela 2.7 na linha de referˆencia do passo 3 e abaixo da curva tipo escada. O n´ıvel descritivo dessa covari´avel n˜ao ´e superior a PS, logo mantemos a IDADE no modelo. Seguindo essa l´ogica, encontramos os menores

n´ıveis descritivos em cada passo como sendo o primeiro elemento acima da curva tipo escada. Sendo todos inferiores a PE, decidimos pela inclus˜ao de todas as covari´aveis no

modelo. Relativamente `a elimina¸c˜ao, observamos que os n´ıveis com asterisco (maiores n´ıveis decritivos) s˜ao sempre inferiores a PS, indicando pela manuten¸c˜ao das covari´aveis

no modelo. Em resumo, o modelo resultante na etapa 1 ´e o modelo com todos os efeitos principais.

1Estamos supondo que a raz˜ao γ

1/γ2 = 270/104 vale tamb´em se as amostras tivessem sido feitas

De forma an´aloga procedemos a etapa 2, cujos n´ıveis descritivos para tomada de decis˜ao em cada passo encontram-se na Tabela 2.8. Conclu´ımos ent˜ao que apenas trˆes intera¸c˜oes de primeira ordem ser˜ao inclu´ıdas no modelo, sendo que nenhuma delas foi exclu´ıda posteriormente. Essas intera¸c˜oes s˜ao IDADE ∗ HL, HL ∗ FF e SEXO ∗ FF.

Tabela 2.7

N´ıveis descritivos referentes `a etapa 1 do processo de sele¸c˜ao stepwise. Passo IDADE HL SEXO FF

1 0,000 0,000 0,288 0,001 2 0,000 0,000 0,100 0,003 3 0,000∗ 0,000 0,050 0,124 4 0,000 0,000 0,050∗ 0,182 5 0,000 0,000 0,050 0,182∗ Tabela 2.8

N´ıveis descritivos referentes `a etapa 2 do processo de sele¸c˜ao stepwise. Passo IDA*HL HL*FF SEX*FF IDA*FF IDA*SEX HL*SEX

1 0,012 0,014 0,050 0,056 0,663 0,063 2 0,012 0,027 0,060 0,232 0,218 0,099 3 0,023 0,027∗ 0,012 0,233 0,275 0,176

4 0,028∗ 0,005 0,012 0,207 0,403 0,791

Na etapa 3 nenhuma intera¸c˜ao de segunda ordem foi selecionada, uma vez que o menor n´ıvel descritivo dos testes de inclus˜ao foi menor do que PE. Assim, o modelo resul-

tante cont´em os efeitos principais e trˆes intera¸c˜oes de primeira ordem. As estimativas dos parˆametros bem como os valores padronizados pelos respectivos desvios padr˜ao aproxima- dos encontram-se na Tabela 2.9. O desvio do modelo foi de D(y; ˆµ) = 146, 22 (167 graus de liberdade), indicando um ajuste adequado. As Figuras 2.1a-2.1d apresentam alguns gr´aficos de diagn´ostico. Na Figura 2.1a temos o gr´afico de ˆhii contra os valores ajustados

(ver discuss˜ao sobre esse tipo de gr´afico na Se¸c˜ao 2.6.6) e nota-se dois pontos com maior destaque, #6 e #69. No gr´afico de res´ıduos tDi, Figura 2.1b, a maioria dos pontos cai

dentro do intervalo [-2,2], com apenas duas observa¸c˜oes, #21 e #172, fora do intervalo, por´em muito pr´oximas aos limites. J´a o gr´afico de influˆencia LDi destaca novamente a

observa¸c˜ao #69 e a observa¸c˜ao #172. O paciente #172 ´e do sexo feminino, tem processo maligno, idade 55 anos e n´ıveis altos para HL e FF. Pelos resutaldos das estimativas seria mais prov´avel esperar de um paciente com esse perfil um processo benigno. O paciente

#69 ´e tamb´em do sexo feminino, tem 78 anos, n´ıveis altos para HL e FF e n˜ao tem pro- cesso maligno. Aqui seria um pouco menos prov´avel processo benigno para o paciente. Perfil parecido tem o paciente #6. J´a o paciente #21 tem processo benigno, 82 anos, ´e do sexo feminino e tem n´ıvel alto para HL e baixo para FF. Seria mais prov´avel nesse caso processo maligno para o paciente. Finalmente, temos na Figura 2.1d o gr´afico normal de probabilidades para o res´ıduo tDi e n˜ao notamos nenhum ind´ıcio de que a distribui¸c˜ao

utilizada seja inadequada.

Tabela 2.9

Estimativas dos parˆametros associados ao modelo log´ıstico resultante do processo de sele¸c˜ao stepwise.

Efeito Parˆametro Estimativa E/D.padr˜ao Constante β∗ 1 -1,409 -1,50 IDADE β2 0,039 2,29 HL β3 -5,521 -3,29 SEXO β4 1,402 2,40 FF β5 -1,978 -2,23 IDADE*HL β6 0,062 2,14 HL*FF β7 2,908 2,64 SEXO*FF β8 -3,349 -2,27

Como o interesse principal ´e estudar a associa¸c˜ao entre o tipo de processo infeccioso pulmonar e as covari´aveis histol´ogicas HL e FF, formamos algumas raz˜oes de chances envolvendo essas covari´aveis. Para ilustrar, a raz˜ao de chances de processo infeccioso maligno entre um paciente no n´ıvel alto de HL e um paciente no n´ıvel baixo de HL, que denotaremos por ψHL, supondo que os pacientes tenham o mesmo sexo, idade e n´ıvel de

FF, ´e estimada por ˆ

ψHL = exp{−5, 521 + 0, 062IDADE + 2, 908FF}.

Logo, podemos concluir que a chance de processo maligno ´e maior para pacientes com n´ıvel baixo de HL do que para pacientes com n´ıvel alto de HL, quando ambos est˜ao no n´ıvel baixo de FF e tamb´em tenham a mesma idade. Por outro lado, quando ambos est˜ao na categoria alta de FF, ˆψHL torna-se maior do que um ap´os a idade de 42 anos

(aproximadamente), indicando uma chance maior de processo maligno para pacientes no n´ıvel alto de HL ap´os essa idade.

Analogamente, seja ψF F a raz˜ao de chances de processo infeccioso maligno entre um

pacientes s˜ao semelhantes nas demais covari´aveis esse parˆametro ´e estimado por ˆ

ψF F = exp{−1, 978 − 3, 349SEXO + 2, 908HL}.

Dessa express˜ao podemos deduzir que a chance de processo maligno ´e maior para pacientes com intensidade baixa de FF do que para pacientes com intensidade alta de FF, isso entre as mulheres independentemente do n´ıvel de HL e para os homens com baixa intensidade de HL. Para os homens com alta intensidade de HL ocorre o contr´ario.

Valores ajustados Alavanca 0.0 0.2 0.4 0.6 0.8 0.0 0.1 0.2 0.3 0.4 0.5 (a) 6 69 Valores ajustados Componente do desvio 0.0 0.2 0.4 0.6 0.8 -2 -1 0 1 2 (b) 21 172 Valores ajustados Distancia de Cook 0.0 0.2 0.4 0.6 0.8 0.0 0.2 0.4 0.6 0.8 1.0 (c} 69 172 Percentis da N(0,1) Componente do Desvio -2 -1 0 1 2 -2 -1 0 1 2 3 (d)

Figura 2.1: Gr´aficos de diagn´ostico do exemplo sobre processo infeccioso pulmonar. Se houver interesse em prever P r{Y = 1|x}, probabilidade de um paciente da pop- ula¸c˜ao com um determinado conjunto de valores para as covari´aveis estar com processo infeccioso maligno, devemos antes estimar β1 fazendo a corre¸c˜ao

ˆ

β1 = ˆβ1∗− log(270/104) = −1, 409 − 0, 954 = −2, 363.

Tabela 2.10

Previs˜oes para algumas configura¸c˜oes dadas. Idade Sexo HL FF P r{Y = 1|x}

29 feminino baixo alto 0,005 51 masculino alto alto 0,142 44 masculino baixo baixo 0,343 62 feminino alto baixo 0,445 29 feminino baixo baixo 0,542 50 feminino baixo baixo 0,593

A regress˜ao log´ıstica tem m´ultiplas utilidades, entre as quais a possibilidade de tamb´em ser utilizada em an´alise discriminante quando h´a apenas dois grupos para serem discrim- inados. O objetivo aqui ´e encontrar um modelo ajustado que melhor discrimine os dois grupos. Um crit´erio ´e classificar como “sucesso”todo indiv´ıduo com probabilidade ajus- tada de pelo menos 0,50. Caso contr´ario o indiv´ıduo ´e classificado como “fracasso”. A Tabela 2.11 apresenta a discrimina¸a˜ao feita pelo modelo ajustado do exemplo analisado nesta se¸c˜ao. Note que a taxa de acertos ´e de 139/175 = 0,795 (79,5%).

Tabela 2.11

Discrimina¸c˜ao atrav´es do modelo ajustado. Classifica¸c˜ao Classifica¸c˜ao pelo modelo

Correta Benigno Maligno

Benigno 86 18

Maligno 18 53

No documento MODELOS DE REGRESSÃO com apoio computacional (páginas 113-121)

Documentos relacionados