Avaliação da bondade do ajustamento do modelo logit

CAPÍTULO III – METODOLOGIA DA INVESTIGAÇÃO

3.12 Procedimentos de análise estatística

3.12.5 Avaliação da bondade do ajustamento do modelo logit

Existem várias maneiras de fazer a análise global do modelo, ou seja, de avaliar a bondade do ajustamento do modelo. Os métodos a utilizar nesta investigação são descritos a seguir: o teste da significância geral das variáveis explicativas incluídas no modelo; o pseudo-R2_{; o teste de Hosmer e Lemershow; a média ponderada dos indicadores}

Nagelkerk e McFadden para o pseudo-R2_{; análise do poder de previsão do modelo logit.}

O modelo de regressão logística indica a probabilidade de um acontecimento ocorrer para uma dada unidade de análise. No caso da presente tese, o modelo informa, para cada turista, qual a probabilidade da reserva ter ocorrido por CD.

Deste modo, para um dado turista, Y será 0 (o resultado “reserva por CD” não ocorre) ou 1 (o resultado ocorre) e o valor previsto ou esperado P(Y) estará entre 0 (não é provável que o resultado “reserva por CD” ocorra) e 1 (haverá uma forte probabilidade do resultado ocorrer). Os valores (frequências) observados e os valores (frequências) previstos da variável dependente em 560 casos são utilizados para analisar o ajustamento do modelo aos valores (frequências) observados.

Teste da significância geral das variáveis explicativas incluídas no modelo logit:

estatística de teste LR (Likelihood Ratio)

Neste teste compara-se o modelo final (modelo geral com as variáveis relevantes incluídas) com um modelo restrito estimado apenas com o intercepto ou termo constante.

Testa-se, então, a hipótese nula (H0) de que os valores dos coeficientes do modelo

final são todos iguais a zero conta a hipótese alternativa (Ha) de, pelo menos um deles, ser diferentes de zero. Este teste é feito com a utilização da estatística G2 em que

2 ₂ _{( 2} ₎ 0 G LL _LLp β = − − − , sendo 0 LL

β o log-likelihood do modelo inicial sem as variáveis explicativas, ou seja, apenas com o parâmetro ß0 ou constante (também

designado por modelo nulo) e _LLp o log-likelihood do modelo final com as variáveis explicativas relevantes incluídas. A estatística G2 tem uma distribuição 2 com tantos graus de liberdade quantos os regressores incluídos no modelo final (excluindo o intercepto). Este teste é habitualmente designado por teste Omnibus no output do SPSS.

A estatística -2LL é um indicador de quanta informação não é explicada após o modelo ter sido ajustado aos dados da amostra, tal como já referido. Valores elevados da estatística -2LL significam um ajustamento fraco do modelo, pois quanto maior for, menor será a percentagem de variabilidade explicada.

O pseudo-R2

Não existe uma medida de ajustamento na regressão logística com variável dependente binária idêntica ao coeficiente de determinação R2 na regressão linear (Long, 1997). Não obstante, a medida McFadden pseudo-R2, surgida em 1973, tem sido a mais

utilizada como indicador de bondade do ajustamento do modelo logit, cuja expressão é definida por: 2 2 McFadden- 1 2 0 LLp R LL β − = − − [3.8]

Este coeficiente indica até que ponto o modelo final é melhor do que o modelo nulo muito embora não exista nenhum valor de referência que determine um “bom” ajustamento. De qualquer forma, quanto mais elevado (próximo de 1) for o valor de pseudo-R2 melhor o ajustamento do modelo.

Teste de Hosmer-Lemeshow

No teste de Hosmer and Lemeshow, testa-se a hipótese nula de não existência de diferença entre os valores observados e os previstos pela equação do modelo de regressão.

O SPSS fornece um output relativo ao teste de Hosmer-Lemeshow, indicando o valor da estatística de teste, ou seja, o valor 2 com p graus de liberdade, isto é, o número de parâmetros do modelo final, excluindo a constante. Indica também o valor-p que, sendo superior ao nível de significância assumido ( = 0,05), conduz à decisão de não se rejeitar a hipótese nula (H0) de não existência de diferença entre os valores observados e previstos

da variável dependente. Se o valor-p for igual ou inferior a 0,05, então rejeita-se H0.

Concretamente, testa-se a hipótese nula de que os dados observados foram gerados pelo modelo especificado. Não se rejeitando a hipótese nula, existe então evidência estatística de que os parâmetros estimados se ajustam ao modelo.

Análise do poder de previsão do modelo logit

Esta análise incide sobre a Tabela de Classificação fornecida com o output de regressão logística do SPSS, tal como referido no título anterior. Esta Tabela indica as probabilidades estimadas correcta e incorrectamente relativamente à variável dependente Y, isto é, estima a proporção de casos classificados correcta e incorrectamente entre os dois grupos de dados no caso em análise, um referente à reserva por CD e outro à reserva por intermédio de AV (isto é, não efectuada por CD).

A Tabela 3.12.3 apresenta o resultado da classificação dos dados (frequências observadas e previstas) representados pelas letras a, b, c e d. Estas letras são utilizadas apenas para efeitos de descrição da metodologia a seguir, sendo substituídas pelos resultados reais no capítulo seguinte.

Tabela 3.12.3 - Tabela de classificação: comparação do número observado de casos com o número previsto em cada um dos valores da variável dependente Y

Previsto Reserva por CD Observado

Y=0 (não reserva

por CD) Y=1 (reserva por CD)

Percentagem correcta Y=0 (não reserva

por CD) a b a/(a+b)

Y=1 (reserva por

CD) c d d/(c+d)

Reserva por CD

Total a+c b+d (a+d)/(a+d+b+c)

Fonte - Elaboração própria.

Na tabela são apresentados os seguintes dados:

- duas linhas com o número observado de casos em cada um dos valores da variável dependente Y, sendo (a+b) o número total observado de casos no grupo dos que não reservaram por CD e (c+d) o número total observado de casos no grupo dos que reservaram por CD;

- duas colunas com dois valores previstos ou esperados para os mesmos dois grupos de casos nos valores da variável dependente, ou seja, (a+c) para o grupo dos que não reservaram por CD e (b+d) para o grupo dos que reservaram por CD;

- a proporção a / (a+b) de casos observados classificados correctamente no grupo em que a variável dependente assume o valor “0=não reserva por CD;”

- a proporção d / (c+d) de casos observados classificados correctamente no grupo em que a variável dependente assume o valor “1=reserva por CD;”

- a proporção total, (a+d) / (a+d+b+c) de casos classificados correctamente. A partir da mesma Tabela são obtidos os seguintes dados:

- a proporção (b+c) / (a+d+b+c) de casos classificados incorrectamente;

- a proporção c / (a+c) de casos observados com reserva por CD mas previstos como casos com reserva por intermédio de AV (não efectuada por CD);

- a proporção b / (a+b) de casos observados com reserva por intermédio de AV (não efectuada por CD) mas previstos como casos com reserva efectuada por CD.

A preocupação do investigador consiste basicamente em saber se os resultados da classificação são ou não bons. Para avaliar a bondade da classificação é necessário aplicar um teste, sendo utilizado nesta investigação o teste proposto por Huberty (1984) para testar a hipótese nula (H0) do número de casos correctamente classificados com a

aplicação da regressão logística ser igual ao número de casos correctamente classificados devido ao acaso, contra a hipótese alternativa (Ha) do número de casos correctamente

classificados com a aplicação da regressão logística não ser igual ao número de casos correctamente classificados devido ao acaso.

A probabilidade do número observado de casos considerados correctamente classificados com reserva por CD devido ao acaso (escolha aleatória) é dada por (c+d) / (a+d+b+c). Esta probabilidade é comparada com a probabilidade estimada (a+d) /

(a+d+b+c)referente ao número de casos correctamente classificados com a utilização do modelo logit.

Os procedimentos do teste proposto por Huberty (1984) a uma amostra ou a cada um dos dois grupos de casos, conforme os valores da variável dependente, são adoptados para avaliar a significância estatística da probabilidade estimada (a+d) / (a+d+b+c) de casos correctamente classificados com a utilização do modelo logit, tal como indicado na Tabela 3.12.3 de classificação. Esses procedimentos abrangem:

a) a utilização da estatística Z que segue uma distribuição normal padrão, cujas expressões adaptadas de Huberty (1984) para a amostra e dois grupos, um em cada valor da variável dependente, são apresentadas com as letras da Tabela 3.12.3:

[(a+d)-e] (a+d+b+c) Z= e[(a+d+b+c)-e] , sendo 2 2 1 e= [( ) ] (a+d+b+c) a b+ +d [3.9] e 0 0 0 0 ( ) ( ) [( ) ] a e a b Z e a b e − + = + − , sendo 2 0 1 e = ( ) (a+d+b+c) a b+ [3.10] e 1 1 1 1 ( ) ( ) [( ) ] d e c d Z e c d e − + = + − , sendo 2 1 1 e = ( ) (a+d+b+c) c+d [3.11]

b) o valor obtido da estatística de teste Z é comparado com o valor Z_α da tabela de distribuição normal padrão em Newbold et al. (2003) para verificar se o valor obtido pertence ou não à região crítica, assumindo = 0,05, e tomar a decisão de rejeitar ou não a

H0 antes descrita, sendo esta rejeitada se Z>Z_α ou Z < −Z_α com valor-p < . A rejeição

da hipótese nula (H0) sugere estatisticamente que o número de casos correctamente

classificados com a aplicação da regressão logística é significativamente diferente do número de casos correctamente classificados devido ao acaso. Deste modo, sendo

diferente, evidencia uma melhoria na classificação resultante da aplicação modelo sobre a classificação efectuada ao acaso.

Seguindo o que Huberty (1984) propõe a este propósito, adapta-se a seguinte expressão à sua fórmula, utilizando novamente a Tabela 3.12.3 para verificar essa melhoria na classificação do número de casos:

[( ) /( )] [ /( )] 1 [ /( )] a d a d b c e a d b c I e a d b c + + + + − + + + =

No documento UNIVERSIDADE TÉCNICA DE LISBOA INSTITUTO SUPERIOR DE ECONOMIA E GESTÃO (páginas 174-180)