Segundo MALDONADO & GREENLAND (1993), a selecao de variaveis em situacks
onde nao se tenha conhecimento suficiente sobre o processo de determinacao em estudo deve obedecer as especificidades de cada situacAo em particular. Segundo os autores, o conhecimento aprioristico, o tipo de desenho de estudo, a prevalencia do desfecho, o tipo de modelo estatistico que esta sendo utilizado e a estrutura dos dados com relacao as associaceies entre covariada, exposicao e desfecho sAo alguns dos itens que devem basear a escolha da metodologia a ser empregada. Cada uma das estrategias de selecao de variaveis tern vantagens e desvantagens que devem ser levadas em consideracAo quando se pretende chegar a urn modelo final eficiente, que seja capaz de estabelecer medidas de efeito das exposicOes que se aproximem do parametro populacional.
Uma alternativa a aplicacdo automatica destes algoritimos é a realizacao de uma analise de dados interativa, na qual o pesquisador nao se redime da responsabilidade de assumir determinadas questOes, julgadas subjetivas, baseadas nas informacties existentes a priori, oriundas do conhecimento cientifico ja estabelecido sobre o processo em questa°. Por exemplo, é mais sensato que os fatores de confusAo e termos de internal:), ja previamente estudados sejam forcados no modelo, durante o processo de selecao das outras variaveis, cujos efeitos ainda sAo desconhecidos. Outra forma de se chegar a urn modelo final eficiente seria a manutencAo arbitraria de uma variavel-resumo de cada dimensao envolvida no processo em estudo. De certa forma, este procedimento garantiria que as dimensOes consideradas relevantes, de acordo corn estudos anteriores, nao fossem excluidas do modelo final, contribuindo assim para a garantia da validade das estimativas de efeito.
Em suma, segundo a maioria dos autores, os processos automaticos de selecao de variaveis sao bastante influenciados por algumas questhes, que passam despercebidas para o pesquisador. Tais estrategias escondem aspectos importantes relacionados ao banco de dados, tais como a nao linearidade das relaciies entre as variaveis, colinearidade entre variaveis, outliers, etc. 0 ideal é que se procure ter o maximo de informacoes sobre os processos de interesse, para que estas, possam ser utilizadas pelo pesquisador na etapa de selecao de variaveis. Nas situacOes onde o conhecimento cientifico for ainda incipiente e a
utilizacao de tecnicas automaticas para a selecao de variaveis seja necessaria, as
estrategias baseadas na observacao de mudanca no efeito parecem ser mais eficientes do que as tecnicas que se utilizam da significancia estatistica na maioria das situacifies.Termos de interacao
Algumas consideraciies devem ser tecidas em relacao aos criterios utilizados para a entrada de termos de interacao no modelo. E fundamental a distincao entre os termos que envolvem a variavel de exposicao e os que sao compostos apenas por covariadas.
Teoricamente, o criterio para a entrada de termos de interacao que nao incluam a variavel de exposicao e o mesmo que o de entrada de covariadas. Porem, a necessidade destes termos indica que o modelo estatistico pode nao ser eficiente para o controle adequado do confundimento pelas covariadas.
A entrada de termos de interacao, que envolvam a exposicao, sempre modifica o coeficiente da variavel de exposicao, na medida em que o significado deste passa a ser diferente. Logo, a mudanca no coeficiente da variavel de exposicao nao deve servir como dnico criterio para a entrada destes termos no modelo. Na maioria das situacOes, a entrada de termos que envolvem duas ou mais variaveis requer a presenca das mesmas isoladamente no modelo. Esta regra a denominada de "principio da hierarquia"
(GREENLAND, 1989).
Quando se trata de avaliacdo da necessidade de termos de interacao formado por uma covariada e a exposicao, a observacao do nivel de significancia tern um papel importante.
Um p-valor pequeno do coeficiente estimado para o termo de interacao indica que, pelo menos, a direcao da mudanca de efeito da exposicao é bem estimada, se o termo permanecer no modelo. Por outro lado, niveis de significancia pequenos (p-valores grandes) indicam que, se realmente, houver mudanca de efeito, sua direcao no é estimada corn precisao pela entrada do termo no modelo. Neste caso, nao sendo possivel estimar corn precisdo estes coeficientes, o efeito medio da exposiedo é melhor estimado corn a exclusab dos mesmos do modelo (GREENLAND, 1989).
Em contrapartida, sabe-se que a maioria dos estudos epidemiologicos tern urn pequeno poder para detectar interacoes, na medida em que, em geral, a populacao de estudo é reduzida. Logo, urn nivel de significancia maior do que os usualmente utilizados, nao indica, necessariamente, que nao haja variacao do efeito da exposicao nos diferentes extratos da covariada em questa°. 0 que pode estar ocorrendo é apenas a incapacidade do estudo detectar interacOes. Da mesma forma, a interpretacao de niveis de significancia pequenos tambem e ambigua. A necessidade de termos de interacao para um melhor ajuste do modelo pode significar que o modelo estrutural escolhido, para representar as relaciies entre as variaveis de interesse, pode nao ser o mais adequado. Ou seja, pode estar ocorrendo erro de especificacao (GREENLAND, 1979; LSTH, 1992).
ConsideracOes finals
As questoes abordadas acima sao apenas algumas dentre muitas que devem ser discutidas quando se pretende elaborar urn piano de analise para um determinado estudo epidemiologico. Logo, nao se pretende esgotar a discussao das diferentes estrategias de analise existentes, mas apenas, destacar algumas questoes que devem nortear o planejamento desta etapa do estudo. A seguir, opta-se por apresentar as sugestOes de alguns autores para contornar os problemas relativos a utilizacan das dual estrategias, aqui discutidas: analise estratificada e regressao multivariada.
A interpretacao dos resultados de uma regressao multivariada exige uma reflexao acerca da impossibilidade de identificacao de urn processo biologico a partir de dados