4.3 Técnicas estatísticas multivariadas empregadas
4.3.1 Análise de regressão logística binária
Técnica pertencente ao grupo do Modelo Linear Generalizado (em inglês, Generalized
Linear Model – GLM), do qual é um caso particular (assim como os modelos de regressão
linear simples, regressão linear múltipla e regressão de Poisson), é freqüentemente utilizada na área médica, embora, de acordo com Dias e Corrar (2007), também venha contribuindo para o avanço do conhecimento em outros campos, tais como finanças, ciências contábeis, sociologia, economia e administração.
Aplica-se a problemas em que há uma variável dependente dicotômica e duas ou mais variáveis independentes métricas. Cumpre ressaltar que existe a modalidade de regressão logística multinomial, em que a variável dependente apresenta mais de duas categorias, situação que não se aplica neste estudo. Como resposta, a regressão logística binária fornece a probabilidade (ou seja, um número entre 0 e 1) de um evento ocorrer, ou seja, a chance de que uma observação (caso) pertença a uma das duas classes da variável dependente. Nesse sentido, procura predizer ou explicar os valores da variável dependente em função das variáveis preditoras.
Em termos de escala, a variável dependente é (ou foi transformada para ser) categórica (nominal ou ordinal) dicotômica. Já as variáveis independentes, embora originalmente devessem ser métricas, podem ser, também, dummies, o que permite trabalhar com variáveis categóricas (em sua origem), após a devida transformação.
É uma alternativa à análise discriminante, com vantagem sobre esta por ter menores exigências acerca dos dados.
Segundo Hair Jr. et al (2005), a regressão logística, como técnica de análise multivariada, vem se tornando popular entre pesquisadores, e de acordo com Garson (2008c), mesmo em situações em que ambas as técnicas podem ser empregadas, pesquisadores têm preferido o emprego da regressão logística.
4.3.1.1 Estimação do modelo e ajuste
Nesta técnica, tal como na regressão múltipla, estabelece-se um modelo inicial (modelo base) em relação ao qual os demais modelos (com outras variáveis incluídas) serão comparados.
Como critério de entrada de variáveis no modelo foi selecionada a opção forward Wald no pacote estatístico SPSS 13.0. Sendo este um procedimento stepwise, a questão da
(multi)colinearidade fica afastada, uma vez que o próprio algoritmo verifica a contribuição extra trazida pelas variáveis que irão (ou não) ingressar no modelo, a cada passo.
Como contraponto à escolha feita, cabe lembrar que o procedimento forward Wald, apesar de ser com freqüência utilizado, não é unanimidade, sendo preterido por alguns (Garson, 2008c, por exemplo, prefere e recomenda o teste da razão de verossimilhança).
Hair Jr. et al (2005), lembram que ao utilizar-se o método stepwise, é recomendável respeitar uma proporção (mínima) de 50 observações para cada variável independente, elevando consideravelmente o requisito básico de 5 casos por variável preditora.
A avaliação do ajuste do modelo pode ser feita por diversas medidas, como: “-2LL”, R2 de Cox e Snell; R2 de Nagelkerke; o teste de Hosmer e Lemeshow.
A expressão “-2LL” significa -2 multiplicado pelo logaritmo decimal da probabilidade (em inglês likelihood) de obter os resultados da amostra com base nas estimativas obtidas pelo modelo logístico.
Menores valores de “-2LL” indicam melhores ajustes do modelo, ao comparar probabilidades previstas e observadas. Mas não há padrões pré-estabelecidos de valores com os quais se balizar, nem essa estatística tem limites superior ou inferior (HAIR JR. et al, 2005, p. 264).
As medidas de R2 (de Cox e Snell e de Nagelkerke) buscam aproximarem-se do R2 em regressão múltipla, de modo a facilitar a avaliação da qualidade do ajuste, sendo consideradas comparáveis. Dias e Corrar (2007, p. 295) ensinam que tais medidas permitem apenas verificar se a qualidade das predições melhora (ou não) com determinado modelo em relação a outros concorrentes. Então, segundo estes autores, havendo modelos igualmente válidos, aquele que apresentar maior R2 é preferível.
Para Hair Jr. et al (2005, p. 264), a “medida final” do ajustamento do modelo é dada pelo teste de Hosmer e Lemeshow. O bom ajuste é indicado por diferenças pequenas entre a
classificação observada e a prevista, sendo, assim, desejável não rejeitar a hipótese nula (de que não há diferenças entre as distribuições observada e prevista). Ou seja, busca-se encontrar um valor qui-quadrado abaixo do valor crítico.
Garson (2008c) corrobora os ensinamentos de Hair Jr. e colaboradores, ao esclarecer que esse é o teste recomendado para o ajuste geral do modelo de regressão logística, e esclarece que ele (teste) deve ser preferido, para essa finalidade, também em relação às matrizes de classificação.
Para o autor citado, apesar de ser um teste qui-quadrado (aliás, outro nome pelo qual é conhecido), é considerado como mais robusto do que os testes tradicionais baseados nessa estatística (em especial, se a amostra é pequena ou há covariáveis contínuas).
Já a matriz de classificação, por apresentar as proporções de sucesso (classificação correta), e permitir, assim, verificar o desempenho do modelo em relação a cada um dos grupos, pode fornecer informações úteis sobre possíveis problemas do modelo com a classificação de algum grupo em particular, ainda que no geral tenha se mostrado adequado.
4.3.1.2 Suposições estatísticas
As suposições e recomendações para esta técnica são poucas, e menos exigentes, comparativamente, por exemplo, às da análise discriminante. Segundo Dias e Corrar (2007, p. 291), esse é um dos motivos que explicar a popularidade desta técnica para se realizarem predições.
As suposições são, segundo Hair Jr. et al (2005) e Garson (2008c): − Independência das observações;
− Existência de pelo menos 5 casos para cada variável independente; − Cada um dos grupos deve ter 20 observações, ou mais;
Adicionalmente, Hair Jr. et al (2005) sugerem que no caso de se empregar o procedimento stepwise a proporção entre casos e variáveis independentes deve ser de 50 para 1. Já Dias e Corrar (2007, p. 292) destacam que não existe consenso sobre a relação mínima entre observações e variáveis preditoras, embora entendam como razoável obter 30 casos para cada parâmetro estimado.
Neste trabalho, os procedimentos de amostragem e de coleta de dados empregados pelo instituto de pesquisas que realizou o estudo que deu origem ao banco de dados analisado permitem admitir como satisfeitas as três primeiras suposições.
O método stepwise de entrada de variáveis no modelo, por sua vez, afasta o problema da multicolinearidade. Assim, parece razoável pensar que as suposições básicas foram devidamente atendidas, possibilitando que os resultados sejam generalizados, respeitadas outras limitações.