• Nenhum resultado encontrado

No estágio inicial de uma pesquisa envolvendo a proposição de modelo, há sempre a suspeita de que muitas variáveis são potenciais preditores de uma ou mais VD’s de interesse. Após a coleta de tais dados, cabe ao analista verificar se cada uma daquelas variáveis afetam ou não a saída estudada, bem como o grau em que isso ocorre, sendo aquele um importante preditor ou não. Wiesberg (2005) relata que há problemas em que o pesquisador depara-se com centenas e algumas vezes milhares até, de variáveis potencialmente preditoras.

Hosmer & Lemeshow (2007) defendem o uso de métodos concebidos para lidar com a situação em que hajam muitas variáveis a serem incluídas ou não como covariáveis em um modelo. Para os referidos autores, o objetivo de qualquer método gerado para esse fim é selecionar aquelas variáveis que resultem em uma melhor modelo dentro de um contexto científico. Para alcançar isso, deve-se ter:

ii) Um conjunto de métodos para verificar a adequação do modelo em termos de suas variáveis individuais e seu ajuste como um todo.

A busca estatística por um modelo, envolve a eleição de um tal que, sendo o mais simples possível, ainda seja capaz de explicar os dados. Modelos contendo um excessivo número de covariáveis além de não serem práticos do ponto de vista de sua utilização, possui uma maior instabilidade numérica e dependência dos dados originais (HOSMER & LEMESHOW, 2007).

A estratégia de eleição de um modelo muda com o tipo de estudo em que este seja empregado. Alguns estudos são elaborados para responder a determinadas questões, e assim, estas questões devem guiar a escolha dos termos no modelo. É o caso de analise confirmatória, onde há um conjunto restrito de modelos a serem utilizados, por exemplo, para checar a hipótese de um sobre um efeito, comparando modelos com e sem aquele efeito. Em estudos exploratórios, a busca entre possíveis modelos devem buscar indícios sobre a estrutura de dependência e levantar questões para futuras pesquisas (AGRESTI, 2002).

É útil em ambos os casos, primeiro estudar o efeito em Y de cada preditor, graficamente para preditores contínuos e através de tabelas de contingências, para preditores discretos.

Verificar a correlação entre as VI’s, de modo a não permitir que variáveis altamente correlacionadas participem do mesmo modelo são tidas como primárias nesse caso. Agresti (2002) relata que o problema da multicolinearidade é um problema pertencente a não apenas regressão linear, mas a qualquer modelo de regressão abarcado por MLG’s.

3.6.1 COLINEARIDADE

Dois termos X1 e X2 são ditos colineares, ou linearmente dependentes, se é

possível obter uma equação linear do tipo:

c1X1 + c2X2 = c0 (64)

Ou seja, se a partir de uma combinação linear uma variável possa ser obtida através de outra.

A colinearidade entre variáveis é medida através da correlação da amostra, YR,R. A colinearidade perfeita entre duas variáveis ocorre quando , YR,R 1, e a não

Quando duas variáveis são colineares, uma precisa ser deletada do modelo. A parte difícil reside em escolher qual a variável a ser deletada (WEISBERG, 2005, pg.216). O conhecimento do analista sobre as variáveis em relação ao assunto em estudo pesa significativamente na hora de tomar a decisão de qual variável deve deixar o modelo.

3.6.2 MÉTODOS COMPUTACIONAIS – MÉTODOS STEPWISE

Estes métodos fornecem compromisso computacional , já que nesse conjunto de algoritmos, apenas algumas possibilidades de combinações das variáveis são verificadas, entre todas as possibilidades. Por causa disso, os métodos Stepwise não garantem achar o subconjunto de variáveis dito ótimo, porém seus resultados são úteis (WEISBERG, 2005). De acordo com Agresti (2002), Goodman (1971) propôs métodos análogos, para regressão logística, da seleção forward e da eliminação backward, usados vastamente em regressão linear.

Seleção Forward – Esse método consiste em ir adicionando variáveis ao modelo até que adições futuras não melhorem o ajuste ou não haja mais variáveis a serem adicionadas.

Esse algoritmo facilita muito na seleção de variáveis quando é grande o número das mesmas. Por exemplo, quando no estudo estão presente 10 variáveis, há 2k possibilidades de combinações entre variáveis que resultem em um modelo, ou seja, o modelo final precisaria ser eleito entre 1024 possibilidades, através do exame um a um. Com o uso desse algoritmo, o número de possibilidades seria k + (k-1) + ...+ 1 = k(k-1)/2 = 45 das 1024 possibilidades iniciais.

O Algoritmo de eliminação Backward vai na direção oposta ao algoritmo apresentado anteriormente, começando com um modelo mais complexo e sequencialmente ir removendo termos. Em cada estágio, elimina-se o termo que a sua eliminação cause o menor dano ao ajuste do modelo, como por exemplo, aquela que apresente o maior p-valor. O processo termina quando a eliminação de qualquer variável leve a um ajuste significantemente mais pobre.

Deve haver um cuidado especial com variáveis dummies presentes no modelo, devendo ser toda ela adicionada ou excluída do modelo, não podendo permanecer apenas algumas categorias da mesma ou ser retirada (AGRESTI, 2002).

Uma outra variante stepwise também é utilizada, sendo uma combinação dos algoritmos forward e backward, onde em cada passo pode ser adicionada ou deletada uma variável de tal forma que o subconjunto candidato minimize o critério de informação observado. Esse algoritmo tem a vantagem de fazer uma varredura em um número maior de possibilidades de subconjuntos, sem varrer os 2k candidatos possíveis.

3.6.3 MÉTODO DE SELEÇÃO BASEADO EM CRITÉRIO DE

INFORMAÇÃO

O critério para comparar os vários modelos gerados pela combinação de covariáveis é baseado na falta de ajuste de um modelo e sua complexidade. Isso porque, se por um lado é de interesse que o modelo final possua uma melhor sensibilidade aos dados, errando menos, é de igual modo que o modelo seja parcimonioso, ou seja, que seja o mais simples possível. De modo a manter o compromisso entre esses interesses conflitantes, Akaike propôs um critério que penaliza o modelo por ter muitas variáveis e por apresentar falta de ajuste. O critério de informação de Akaike é então dado por:

AIC = -2 (log verossimilhança maximizada – número de parâmetros no modelo) (65)

Esse critério pode ser observado em métodos stepwise para indicar a superioridade ou não de um modelo em relação a uma tentativa anterior. O modelo que apresentar menor índice AIC apresenta superioridade em termos do critério de informação e este deve ser preferível em relação a outro que apresente índice menor.

Documentos relacionados