Adequabilidade do modelo - Modelagem da probabilidade de aprova¸ c˜ ao

3.3 Modelagem da probabilidade de aprova¸ c˜ ao

3.3.5 Adequabilidade do modelo

A classifica¸cão das frequências para calcular a estat´ıstica de adequabilidade de ajuste bC de Hosmer e Lemeshow para o modelo final preliminar são dadas na Tabela 15. Os dez intervalos de probabilidades estimadas foram formados dividindo-se a varia¸cão destas probabilidades em grupos de aproximadamente o mesmo número de observa¸cões. Assim, os limites superiores de cada intervalo correspondem aos decis das probabilidades estimadas. Com base nesta classifica¸cão, o valor da estat´ıstica é bC = 7, 8937 com 10 − 2 = 8 graus de liberdade. O valor P dessa estat´ıstica sob aproxima¸cão qui-quadrado é 0,4439, sugerindo que a hipótese de que o ajuste é adequado é suportada pelos dados. Embora aproxima¸cão a qui-quadrado possa ser afetada pelo fato que 20% das frequências esperadas são inferiores a cinco, a concordância geral entre as frequências observadas e esperadas parece ser razoavelmente boa.

Tabela 15 – Frequˆencias observadas e esperadas por intervalos de decis (limite superior do intervalo) das probabilidades estimadas

Probabilidade Observada Esperada

estimada N˜ao aprovado Aprovado N˜ao aprovado Aprovado

[0,0.0001] 151 0 151.0 0.0 (0.0001,0.0004] 94 0 94.0 0.0 (0.0004,0.0064] 136 0 135.8 0.2 (0.0064,0.2353] 122 5 117.8 9.2 (0.2353,0.6345] 62 65 66.9 60.1 (0.6345,0.8024] 31 96 34.1 92.9 (0.8024,0.8853] 18 110 19.6 108.4 (0.8853,0.9356] 17 109 10.9 115.1 (0.9356,0.9744] 4 124 5.4 122.6 (0.9744,0.9991] 2 124 1.6 124.4

Fonte: Diego Silva Campos Carelli

Elementos para análise dos res´ıduos e de diagnóstico do modelo final preliminar são dados na Figura 4 e Tabelas 16 e 17. Estas análises foram realizadas adaptando- se programas computacionais em R discutidos em Paula (2013) e disponibilizados em hhttps://www.ime.usp.br/∼_{giapaula/textoregressao.htmi. Para efeitos de formata¸c˜}_{ao, os}

termos do modelo mostrados na Tabela 17 foram representados em letras maiúsculas e as categorias das variáveis DUREM e INSTP foram representadas por variáveis indicadoras tomando a primeira categoria como referência.

3.3. Modelagem da probabilidade de aprova¸c˜ao 55

Figura 4 – Gráficos de diagnósticos para os res´ıduos do modelo de regressão log´ıstica da probabilidade de aprova¸cão no curso

0.0 0.2 0.4 0.6 0.8 1.0 0.00 0.10 0.20 0.30 Valor Ajustado Medida h 727 0 200 400 600 800 1000 1200 0.0 0.2 0.4 0.6 0.8 Índice Distância de Cook 609 719 0 200 400 600 800 1000 1200 -4 -2 0 2 4 Índice

Resíduo Componente do Desvio

257 491 719 838 1020 0.0 0.2 0.4 0.6 0.8 1.0 -3 -2 -1 0 1 2 Valor Ajustado

Resíduo Componente do Desvio

Fonte: Diego Silva Campos Carelli

Tabela 16 – Valores das variável dependente, variáveis explanatórias, probabilidade estimada (_bπ), alavanca (h), res´ıduo do desvio td) e estat´ıstica de Cook (LD) para sete observa¸cões com maior discrepância

Observa¸c˜ao

Medida 727 609 719 838 1020 491 257

situacao RP AP AP RP RP RP RP

sexo Fem Masc Masc Fem Masc Masc Masc

idade 41 15 34 19 37 17 34 argf 549.66 536.46 582.61 512.14 577.70 617.88 633.41 nf 54 16 148 0 32 0 50 durem 1 3 1 1 1 1 2 instp 3 5 1 1 1 2 1 b π 0.426 0.212 0.027 0.979 0.977 0.971 0.966 h 0.289 0.158 0.021 0.005 0.007 0.005 0.014 td −1.25 1.92 2.72 −2.79 −2.76 −2.67 −2.62 LD 0.42 0.83 0.78 0.22 0.33 0.17 0.41

Tabela 17 – Coeficientes estimados do modelo final, mudan¸ca percentual nos coeficientes após exclusão de sete observa¸cões discrepantes uma de cada vez e todas as setes observa¸cões simultaneamente, e valores das estat´ıstica desvio e bC para cada modelo

Modelo Observa¸c˜oes descartadas

final 727 609 719 838 1020 491 257 Sete Intercepto −3.0924 16.8 6.3 19.6 −7.9 8.5 2.4 8.1 59.3 SEXO −2.8961 −17.9 0.5 0.4 4.0 7.7 −1.6 5.5 0.8 IDADE 0.0256 117.4 2.4 97.3 3.2 41.2 −15.9 22.0 291.5 NF −0.0398 1.5 −0.7 −23.9 8.0 −9.0 2.7 −2.7 −28.8 ARG 0.0126 −0.3 2.8 2.1 −0.3 1.3 2.6 2.6 11.9 DUREM2 0.2538 −5.0 −2.2 23.7 −0.5 −1.5 −13.6 99.2 115.0 DUREM3 −2.7045 −1.1 32.7 −1.5 0.9 −2.2 2.4 −2.0 29.6 DUREM4 −0.8192 −2.9 −0.8 −2.5 5.6 −4.5 6.3 −5.6 -5.3 INSTP2 −0.3839 −3.2 1.2 −6.5 12.6 11.1 −22.8 16.2 11.0 INSTP3 −0.4187 −6.0 −1.0 −7.1 9.9 9.0 2.1 11.7 20.7 INSTP4 −1.1131 −1.4 1.1 −1.7 4.1 4.4 1.8 5.7 15.3 INSTP5 −0.6121 0.7 15.1 0.2 6.7 6.5 2.0 8.5 42.8 INSTP6 −1.0885 0.3 0.4 −4.8 4.1 6.4 0.6 7.5 16.0 SEXO×IDADE 0.0973 −31.4 0.3 0.7 −3.0 13.7 −1.0 9.3 −7.7 SEXO×NF 0.0185 0.3 −0.6 −0.5 16.5 −1.3 -2.1 0.5 13.2 IDADE×NF −0.0012 −2.8 1.3 46.0 0.1 17.2 −3.5 8.0 76.6 Desvio 620.0 618.6 616.2 611.9 612.0 612.1 612.7 612.8 575.2 b C 7.9 6.5 8.9 9.0 8.0 7.6 10.4 9.0 9.4

Fonte: Diego Silva Campos Carelli

De acordo com os resultados obtidos, pode-se observar que:

• (pontos de alavanca) todas as medidas h são inferiores a 0,3 e apenas uma observa¸cão (#727) tem maior destaque que as demais. Esta observa¸cão se trata de um aluno com reprova¸cão, do sexo feminino, com 41 anos de idade, argumento 549,66, 54 faltas no curso, com dura¸cão do ensino médio de no máximo 3 anos e instru¸cão do Pai na categoria EM com/ES inc. Os valores h, res´ıduo componente do desvio e estat´ıstica de Cook para esta observa¸cão são respectivamente 0.289, −1.25 e 0.42. O impacto da exclusão desta observa¸cão no ajuste do modelo afeta claramente a estimativa do coeficiente da variável IDADE e a intera¸cão SEXO × IDADE. Contudo, o impacto nas estat´ısticas desvio e bC parecem ser de menor importância;

• (distância de Cook) as observa¸cões com maior destaque para esta medida são a #609 e a #719. As distâncias de Cook para estas duas medidas são respectivamente 0,83 e 0,78. A primeira destas observa¸cões tem maior impacto na estima¸cão do coeficiente de DUREM3 e a segunda nos coeficientes de IDADE e IDADE × NF. Apesar da exclusão de cada uma dessas observa¸cões aumentar o valor de bC em 13% e 14%, respectivamente, em ambos os casos o valor da estat´ıstica após exclusão

3.3. Modelagem da probabilidade de aprova¸c˜ao 57

ainda n˜ao indica uma falta de ajuste significativa (Valores P = 0,3531 e 0,4287, respectivamente).

• (res´ıduo componente do desvio) todos os res´ıduos padronizados se encontram entre -2,79 e 2,72. A porcentagem de res´ıduos com valor absoluto maior que 2 é aproximadamente igual a 2,6%, sendo assim inferior a porcentagem próxima a 5% que seria esperada se não houvesse res´ıduos discrepantes. As observa¸cões com maior valor absoluto deste res´ıduo são #719, #838, #1020, #491 e #257. A observa¸cão # 719 trata-se de um caso de aprova¸cão, porém com probabilidade estimada de aprova¸cão próxima de zero em razão, possivelmente, do alto número de faltas (superior a me- diana 48 faltas). As observa¸cões #838, #1020, #491 e #257 referem-se a casos de reprova¸cão que apresentam probabilidades de aprova¸cão próximas de um. Contudo, a exclusão individual de cada uma destas cinco observa¸cões não indicou falta de ajuste significativa (Valores P variando de 0,2371 a 0,4694);

• a exclusão conjunta das observa¸cões #727, #609, #719, #838, #1020, #491 e #257 altera os coeficientes estimados principalmente da IDADE (291,5%), DU- REM2 (115,0%), IDADE × NF (76,6%) e INSTP5 (42,8%). Contudo, o ajuste medido pela estat´ıstica bC tem aumento relativo percentual de 19%, implicando em uma redu¸cão no valor P de 0,4439 no modelo com todas as observa¸cões para 0,3131 para o ajuste sem as sete observa¸cões. Este valor sugere ainda que a falta de ajuste não é significativa.

• (res´ıduo componente do desvio versus probabilidade ajustada) este gráfico apresenta maior dificuldade de interpreta¸cão pelo fato da variável resposta do modelo ser binária. Contudo, o padrão apresentado é compat´ıvel com os padrões normalmente encontrados nestes gráficos em respostas dicotômicas.

Portanto, há evidências que as observa¸cões destacadas nestas análises têm maior po- tencial para influenciar os coeficientes das variáveis no modelo. Uma análise cuidadosa deveria ser feita para averiguar se seria poss´ıvel identificar algum erro nos registros dessas observa¸cões. Contudo, devido a dificuldade para se realizar esta etapa com a informa¸cão dispon´ıvel, suportado pelo fato que o modelo com todas observa¸cão se ajusta aos dados ( bC = 7, 8937 com 8 graus de liberdade, P = 0,4439), será considerada nas análises a seguir os resultados do modelo final com todas as 1270 observa¸cões. Um outro suporte para esta decisão é o gráfico quantil-quantil Normal na Figura 5 com envelopes simulados sob a suposi¸cão de componente aleatória binomial – ou melhor, componente aleatória Bernoulli neste caso – para os res´ıduos do desvio. Claramente, todos os pontos desse gráfico se aglomeram dentro dos envelopes em torno da linha média central. Este comportamento sugere que a suposi¸cão de distribui¸cão Bernoulli para a variável situa¸cão do aluno, medida como indicador de aprova¸cão ou não dos mesmos, é razoável para estes dados.

Figura 5 – Gráfico quantil-quantil Normal com envelopes para os res´ıduos do modelo de regressão log´ıstica da probabilidade de aprova¸cão no curso

-3 -2 -1 0 1 2 3 -2 0 2 4 Percentil da N(0,1) Componente do Desvio

Fonte: Diego Silva Campos Carelli

Um outro critério para sumariza¸cão do modelo final é obtido quando ele é usado para predizer observa¸cões “aprovado” e “não aprovado” e comparar os resultados obtidos com os valores observados da variável resposta. Uma vez que a propor¸cão observada de aprova¸cão foi próxima 0,50, então utilizou-se a regra de classifica¸cão “aprovado” se a probabilidade estimada pelo modelo é maior ou igual a 0,5 e “não aprovado” caso contrário. A classifica¸cão de todas as observa¸cões segundo esta regra é apresentada na Tabela 18. Tem-se, portanto, que a taxa global de classifica¸cão correta do modelo é

Tabela 18 – Tabela de classifica¸c˜ao da observa¸c˜oes pelo modelo final

Casos Casos preditos

observados N˜ao aprovado (Y = 0) Aprovado (Y = 1) Total

N˜ao aprovado (Y = 0) 537 100 637

Aprovado (Y = 1) 37 596 633

Total 574 696 1270

Fonte: Diego Silva Campos Carelli

estimada em 89,21%=100[(537 + 596)/1270]. A especifidade e a sensibilidade do modelo são estimadas em 84,3% (537/637) e 94,2% (596/633), respectivamente. Isto significa que cerca de 84,3% dos casos com não aprova¸cão (especificidade) e 94,2% dos casos de aprova¸cão (sensibilidade) são classificados corretamente. Pode-se ainda dizer que a taxa de casos falsos positivo é (100 - 84,3)=15,7% e de casos verdadeiros positivo de 94,2%.

A curva ROC para o modelo final preliminar, obtida usando o pacote pROC (ROBIN et al., 2011) do software R, ´e dada na Figura 6. A reta tracejada conectando os pontos (0,0)

No documento Predição de aprovação em um curso em tecnologia da Informação no Instituto Metrópole Digital da UFRN: uma aplicação da análise de regressão logística (páginas 54-59)