Análise de regressão logística binária - Técnicas estatísticas multivariadas empregadas

4.3 Técnicas estatísticas multivariadas empregadas

4.3.1 Análise de regressão logística binária

Técnica pertencente ao grupo do Modelo Linear Generalizado (em inglês, Generalized

Linear Model – GLM), do qual é um caso particular (assim como os modelos de regressão

linear simples, regressão linear múltipla e regressão de Poisson), é freqüentemente utilizada na área médica, embora, de acordo com Dias e Corrar (2007), também venha contribuindo para o avanço do conhecimento em outros campos, tais como finanças, ciências contábeis, sociologia, economia e administração.

Aplica-se a problemas em que há uma variável dependente dicotômica e duas ou mais variáveis independentes métricas. Cumpre ressaltar que existe a modalidade de regressão logística multinomial, em que a variável dependente apresenta mais de duas categorias, situação que não se aplica neste estudo. Como resposta, a regressão logística binária fornece a probabilidade (ou seja, um número entre 0 e 1) de um evento ocorrer, ou seja, a chance de que uma observação (caso) pertença a uma das duas classes da variável dependente. Nesse sentido, procura predizer ou explicar os valores da variável dependente em função das variáveis preditoras.

Em termos de escala, a variável dependente é (ou foi transformada para ser) categórica (nominal ou ordinal) dicotômica. Já as variáveis independentes, embora originalmente devessem ser métricas, podem ser, também, dummies, o que permite trabalhar com variáveis categóricas (em sua origem), após a devida transformação.

É uma alternativa à análise discriminante, com vantagem sobre esta por ter menores exigências acerca dos dados.

Segundo Hair Jr. et al (2005), a regressão logística, como técnica de análise multivariada, vem se tornando popular entre pesquisadores, e de acordo com Garson (2008c), mesmo em situações em que ambas as técnicas podem ser empregadas, pesquisadores têm preferido o emprego da regressão logística.

4.3.1.1 Estimação do modelo e ajuste

Nesta técnica, tal como na regressão múltipla, estabelece-se um modelo inicial (modelo base) em relação ao qual os demais modelos (com outras variáveis incluídas) serão comparados.

Como critério de entrada de variáveis no modelo foi selecionada a opção forward Wald no pacote estatístico SPSS 13.0. Sendo este um procedimento stepwise, a questão da

(multi)colinearidade fica afastada, uma vez que o próprio algoritmo verifica a contribuição extra trazida pelas variáveis que irão (ou não) ingressar no modelo, a cada passo.

Como contraponto à escolha feita, cabe lembrar que o procedimento forward Wald, apesar de ser com freqüência utilizado, não é unanimidade, sendo preterido por alguns (Garson, 2008c, por exemplo, prefere e recomenda o teste da razão de verossimilhança).

Hair Jr. et al (2005), lembram que ao utilizar-se o método stepwise, é recomendável respeitar uma proporção (mínima) de 50 observações para cada variável independente, elevando consideravelmente o requisito básico de 5 casos por variável preditora.

A avaliação do ajuste do modelo pode ser feita por diversas medidas, como: “-2LL”, R2 de Cox e Snell; R2 de Nagelkerke; o teste de Hosmer e Lemeshow.

A expressão “-2LL” significa -2 multiplicado pelo logaritmo decimal da probabilidade (em inglês likelihood) de obter os resultados da amostra com base nas estimativas obtidas pelo modelo logístico.

Menores valores de “-2LL” indicam melhores ajustes do modelo, ao comparar probabilidades previstas e observadas. Mas não há padrões pré-estabelecidos de valores com os quais se balizar, nem essa estatística tem limites superior ou inferior (HAIR JR. et al, 2005, p. 264).

As medidas de R2 (de Cox e Snell e de Nagelkerke) buscam aproximarem-se do R2 em regressão múltipla, de modo a facilitar a avaliação da qualidade do ajuste, sendo consideradas comparáveis. Dias e Corrar (2007, p. 295) ensinam que tais medidas permitem apenas verificar se a qualidade das predições melhora (ou não) com determinado modelo em relação a outros concorrentes. Então, segundo estes autores, havendo modelos igualmente válidos, aquele que apresentar maior R2 é preferível.

Para Hair Jr. et al (2005, p. 264), a “medida final” do ajustamento do modelo é dada pelo teste de Hosmer e Lemeshow. O bom ajuste é indicado por diferenças pequenas entre a

classificação observada e a prevista, sendo, assim, desejável não rejeitar a hipótese nula (de que não há diferenças entre as distribuições observada e prevista). Ou seja, busca-se encontrar um valor qui-quadrado abaixo do valor crítico.

Garson (2008c) corrobora os ensinamentos de Hair Jr. e colaboradores, ao esclarecer que esse é o teste recomendado para o ajuste geral do modelo de regressão logística, e esclarece que ele (teste) deve ser preferido, para essa finalidade, também em relação às matrizes de classificação.

Para o autor citado, apesar de ser um teste qui-quadrado (aliás, outro nome pelo qual é conhecido), é considerado como mais robusto do que os testes tradicionais baseados nessa estatística (em especial, se a amostra é pequena ou há covariáveis contínuas).

Já a matriz de classificação, por apresentar as proporções de sucesso (classificação correta), e permitir, assim, verificar o desempenho do modelo em relação a cada um dos grupos, pode fornecer informações úteis sobre possíveis problemas do modelo com a classificação de algum grupo em particular, ainda que no geral tenha se mostrado adequado.

4.3.1.2 Suposições estatísticas

As suposições e recomendações para esta técnica são poucas, e menos exigentes, comparativamente, por exemplo, às da análise discriminante. Segundo Dias e Corrar (2007, p. 291), esse é um dos motivos que explicar a popularidade desta técnica para se realizarem predições.

As suposições são, segundo Hair Jr. et al (2005) e Garson (2008c): − Independência das observações;

− Existência de pelo menos 5 casos para cada variável independente; − Cada um dos grupos deve ter 20 observações, ou mais;

Adicionalmente, Hair Jr. et al (2005) sugerem que no caso de se empregar o procedimento stepwise a proporção entre casos e variáveis independentes deve ser de 50 para 1. Já Dias e Corrar (2007, p. 292) destacam que não existe consenso sobre a relação mínima entre observações e variáveis preditoras, embora entendam como razoável obter 30 casos para cada parâmetro estimado.

Neste trabalho, os procedimentos de amostragem e de coleta de dados empregados pelo instituto de pesquisas que realizou o estudo que deu origem ao banco de dados analisado permitem admitir como satisfeitas as três primeiras suposições.

O método stepwise de entrada de variáveis no modelo, por sua vez, afasta o problema da multicolinearidade. Assim, parece razoável pensar que as suposições básicas foram devidamente atendidas, possibilitando que os resultados sejam generalizados, respeitadas outras limitações.

No documento Perfil de consumo de classes de baixa renda (páginas 122-126)