CAPÍTULO III – METODOLOGIA DA INVESTIGAÇÃO
3.12 Procedimentos de análise estatística
3.12.5 Avaliação da bondade do ajustamento do modelo logit
Existem várias maneiras de fazer a análise global do modelo, ou seja, de avaliar a bondade do ajustamento do modelo. Os métodos a utilizar nesta investigação são descritos a seguir: o teste da significância geral das variáveis explicativas incluídas no modelo; o pseudo-R2; o teste de Hosmer e Lemershow; a média ponderada dos indicadores
Nagelkerk e McFadden para o pseudo-R2; análise do poder de previsão do modelo logit.
O modelo de regressão logística indica a probabilidade de um acontecimento ocorrer para uma dada unidade de análise. No caso da presente tese, o modelo informa, para cada turista, qual a probabilidade da reserva ter ocorrido por CD.
Deste modo, para um dado turista, Y será 0 (o resultado “reserva por CD” não ocorre) ou 1 (o resultado ocorre) e o valor previsto ou esperado P(Y) estará entre 0 (não é provável que o resultado “reserva por CD” ocorra) e 1 (haverá uma forte probabilidade do resultado ocorrer). Os valores (frequências) observados e os valores (frequências) previstos da variável dependente em 560 casos são utilizados para analisar o ajustamento do modelo aos valores (frequências) observados.
Teste da significância geral das variáveis explicativas incluídas no modelo logit:
estatística de teste LR (Likelihood Ratio)
Neste teste compara-se o modelo final (modelo geral com as variáveis relevantes incluídas) com um modelo restrito estimado apenas com o intercepto ou termo constante.
Testa-se, então, a hipótese nula (H0) de que os valores dos coeficientes do modelo
final são todos iguais a zero conta a hipótese alternativa (Ha) de, pelo menos um deles, ser diferentes de zero. Este teste é feito com a utilização da estatística G2 em que
2 2 ( 2 ) 0 G LL LLp β = − − − , sendo 0 LL
β o log-likelihood do modelo inicial sem as variáveis explicativas, ou seja, apenas com o parâmetro ß0 ou constante (também
designado por modelo nulo) e LLp o log-likelihood do modelo final com as variáveis explicativas relevantes incluídas. A estatística G2 tem uma distribuição 2 com tantos graus de liberdade quantos os regressores incluídos no modelo final (excluindo o intercepto). Este teste é habitualmente designado por teste Omnibus no output do SPSS.
A estatística -2LL é um indicador de quanta informação não é explicada após o modelo ter sido ajustado aos dados da amostra, tal como já referido. Valores elevados da estatística -2LL significam um ajustamento fraco do modelo, pois quanto maior for, menor será a percentagem de variabilidade explicada.
O pseudo-R2
Não existe uma medida de ajustamento na regressão logística com variável dependente binária idêntica ao coeficiente de determinação R2 na regressão linear (Long, 1997). Não obstante, a medida McFadden pseudo-R2, surgida em 1973, tem sido a mais
utilizada como indicador de bondade do ajustamento do modelo logit, cuja expressão é definida por: 2 2 McFadden- 1 2 0 LLp R LL β − = − − [3.8]
Este coeficiente indica até que ponto o modelo final é melhor do que o modelo nulo muito embora não exista nenhum valor de referência que determine um “bom” ajustamento. De qualquer forma, quanto mais elevado (próximo de 1) for o valor de pseudo-R2 melhor o ajustamento do modelo.
Teste de Hosmer-Lemeshow
No teste de Hosmer and Lemeshow, testa-se a hipótese nula de não existência de diferença entre os valores observados e os previstos pela equação do modelo de regressão.
O SPSS fornece um output relativo ao teste de Hosmer-Lemeshow, indicando o valor da estatística de teste, ou seja, o valor 2 com p graus de liberdade, isto é, o número de parâmetros do modelo final, excluindo a constante. Indica também o valor-p que, sendo superior ao nível de significância assumido ( = 0,05), conduz à decisão de não se rejeitar a hipótese nula (H0) de não existência de diferença entre os valores observados e previstos
da variável dependente. Se o valor-p for igual ou inferior a 0,05, então rejeita-se H0.
Concretamente, testa-se a hipótese nula de que os dados observados foram gerados pelo modelo especificado. Não se rejeitando a hipótese nula, existe então evidência estatística de que os parâmetros estimados se ajustam ao modelo.
Análise do poder de previsão do modelo logit
Esta análise incide sobre a Tabela de Classificação fornecida com o output de regressão logística do SPSS, tal como referido no título anterior. Esta Tabela indica as probabilidades estimadas correcta e incorrectamente relativamente à variável dependente Y, isto é, estima a proporção de casos classificados correcta e incorrectamente entre os dois grupos de dados no caso em análise, um referente à reserva por CD e outro à reserva por intermédio de AV (isto é, não efectuada por CD).
A Tabela 3.12.3 apresenta o resultado da classificação dos dados (frequências observadas e previstas) representados pelas letras a, b, c e d. Estas letras são utilizadas apenas para efeitos de descrição da metodologia a seguir, sendo substituídas pelos resultados reais no capítulo seguinte.
Tabela 3.12.3 - Tabela de classificação: comparação do número observado de casos com o número previsto em cada um dos valores da variável dependente Y
Previsto Reserva por CD Observado
Y=0 (não reserva
por CD) Y=1 (reserva por CD)
Percentagem correcta Y=0 (não reserva
por CD) a b a/(a+b)
Y=1 (reserva por
CD) c d d/(c+d)
Reserva por CD
Total a+c b+d (a+d)/(a+d+b+c)
Fonte - Elaboração própria.
Na tabela são apresentados os seguintes dados:
- duas linhas com o número observado de casos em cada um dos valores da variável dependente Y, sendo (a+b) o número total observado de casos no grupo dos que não reservaram por CD e (c+d) o número total observado de casos no grupo dos que reservaram por CD;
- duas colunas com dois valores previstos ou esperados para os mesmos dois grupos de casos nos valores da variável dependente, ou seja, (a+c) para o grupo dos que não reservaram por CD e (b+d) para o grupo dos que reservaram por CD;
- a proporção a / (a+b) de casos observados classificados correctamente no grupo em que a variável dependente assume o valor “0=não reserva por CD;”
- a proporção d / (c+d) de casos observados classificados correctamente no grupo em que a variável dependente assume o valor “1=reserva por CD;”
- a proporção total, (a+d) / (a+d+b+c) de casos classificados correctamente. A partir da mesma Tabela são obtidos os seguintes dados:
- a proporção (b+c) / (a+d+b+c) de casos classificados incorrectamente;
- a proporção c / (a+c) de casos observados com reserva por CD mas previstos como casos com reserva por intermédio de AV (não efectuada por CD);
- a proporção b / (a+b) de casos observados com reserva por intermédio de AV (não efectuada por CD) mas previstos como casos com reserva efectuada por CD.
A preocupação do investigador consiste basicamente em saber se os resultados da classificação são ou não bons. Para avaliar a bondade da classificação é necessário aplicar um teste, sendo utilizado nesta investigação o teste proposto por Huberty (1984) para testar a hipótese nula (H0) do número de casos correctamente classificados com a
aplicação da regressão logística ser igual ao número de casos correctamente classificados devido ao acaso, contra a hipótese alternativa (Ha) do número de casos correctamente
classificados com a aplicação da regressão logística não ser igual ao número de casos correctamente classificados devido ao acaso.
A probabilidade do número observado de casos considerados correctamente classificados com reserva por CD devido ao acaso (escolha aleatória) é dada por (c+d) / (a+d+b+c). Esta probabilidade é comparada com a probabilidade estimada (a+d) /
(a+d+b+c)referente ao número de casos correctamente classificados com a utilização do modelo logit.
Os procedimentos do teste proposto por Huberty (1984) a uma amostra ou a cada um dos dois grupos de casos, conforme os valores da variável dependente, são adoptados para avaliar a significância estatística da probabilidade estimada (a+d) / (a+d+b+c) de casos correctamente classificados com a utilização do modelo logit, tal como indicado na Tabela 3.12.3 de classificação. Esses procedimentos abrangem:
a) a utilização da estatística Z que segue uma distribuição normal padrão, cujas expressões adaptadas de Huberty (1984) para a amostra e dois grupos, um em cada valor da variável dependente, são apresentadas com as letras da Tabela 3.12.3:
[(a+d)-e] (a+d+b+c) Z= e[(a+d+b+c)-e] , sendo 2 2 1 e= [( ) ] (a+d+b+c) a b+ +d [3.9] e 0 0 0 0 ( ) ( ) [( ) ] a e a b Z e a b e − + = + − , sendo 2 0 1 e = ( ) (a+d+b+c) a b+ [3.10] e 1 1 1 1 ( ) ( ) [( ) ] d e c d Z e c d e − + = + − , sendo 2 1 1 e = ( ) (a+d+b+c) c+d [3.11]
b) o valor obtido da estatística de teste Z é comparado com o valor Zα da tabela de distribuição normal padrão em Newbold et al. (2003) para verificar se o valor obtido pertence ou não à região crítica, assumindo = 0,05, e tomar a decisão de rejeitar ou não a
H0 antes descrita, sendo esta rejeitada se Z>Zα ou Z < −Zα com valor-p < . A rejeição
da hipótese nula (H0) sugere estatisticamente que o número de casos correctamente
classificados com a aplicação da regressão logística é significativamente diferente do número de casos correctamente classificados devido ao acaso. Deste modo, sendo
diferente, evidencia uma melhoria na classificação resultante da aplicação modelo sobre a classificação efectuada ao acaso.
Seguindo o que Huberty (1984) propõe a este propósito, adapta-se a seguinte expressão à sua fórmula, utilizando novamente a Tabela 3.12.3 para verificar essa melhoria na classificação do número de casos:
[( ) /( )] [ /( )] 1 [ /( )] a d a d b c e a d b c I e a d b c + + + + − + + + =