• Nenhum resultado encontrado

3.3 Modelagem da probabilidade de aprova¸ c˜ ao

3.3.5 Adequabilidade do modelo

A classifica¸c˜ao das frequˆencias para calcular a estat´ıstica de adequabilidade de ajuste bC de Hosmer e Lemeshow para o modelo final preliminar s˜ao dadas na Tabela 15. Os dez intervalos de probabilidades estimadas foram formados dividindo-se a varia¸c˜ao destas pro- babilidades em grupos de aproximadamente o mesmo n´umero de observa¸c˜oes. Assim, os limites superiores de cada intervalo correspondem aos decis das probabilidades estimadas. Com base nesta classifica¸c˜ao, o valor da estat´ıstica ´e bC = 7, 8937 com 10 − 2 = 8 graus de liberdade. O valor P dessa estat´ıstica sob aproxima¸c˜ao qui-quadrado ´e 0,4439, sugerindo que a hip´otese de que o ajuste ´e adequado ´e suportada pelos dados. Embora aproxima¸c˜ao a qui-quadrado possa ser afetada pelo fato que 20% das frequˆencias esperadas s˜ao inferi- ores a cinco, a concordˆancia geral entre as frequˆencias observadas e esperadas parece ser razoavelmente boa.

Tabela 15 – Frequˆencias observadas e esperadas por intervalos de decis (limite superior do intervalo) das probabilidades estimadas

Probabilidade Observada Esperada

estimada N˜ao aprovado Aprovado N˜ao aprovado Aprovado

[0,0.0001] 151 0 151.0 0.0 (0.0001,0.0004] 94 0 94.0 0.0 (0.0004,0.0064] 136 0 135.8 0.2 (0.0064,0.2353] 122 5 117.8 9.2 (0.2353,0.6345] 62 65 66.9 60.1 (0.6345,0.8024] 31 96 34.1 92.9 (0.8024,0.8853] 18 110 19.6 108.4 (0.8853,0.9356] 17 109 10.9 115.1 (0.9356,0.9744] 4 124 5.4 122.6 (0.9744,0.9991] 2 124 1.6 124.4

Fonte: Diego Silva Campos Carelli

Elementos para an´alise dos res´ıduos e de diagn´ostico do modelo final preliminar s˜ao dados na Figura 4 e Tabelas 16 e 17. Estas an´alises foram realizadas adaptando- se programas computacionais em R discutidos em Paula (2013) e disponibilizados em hhttps://www.ime.usp.br/∼giapaula/textoregressao.htmi. Para efeitos de formata¸c˜ao, os

termos do modelo mostrados na Tabela 17 foram representados em letras mai´usculas e as categorias das vari´aveis DUREM e INSTP foram representadas por vari´aveis indicadoras tomando a primeira categoria como referˆencia.

3.3. Modelagem da probabilidade de aprova¸c˜ao 55

Figura 4 – Gr´aficos de diagn´osticos para os res´ıduos do modelo de regress˜ao log´ıstica da probabilidade de aprova¸c˜ao no curso

0.0 0.2 0.4 0.6 0.8 1.0 0.00 0.10 0.20 0.30 Valor Ajustado Medida h 727 0 200 400 600 800 1000 1200 0.0 0.2 0.4 0.6 0.8 Índice Distância de Cook 609 719 0 200 400 600 800 1000 1200 -4 -2 0 2 4 Índice

Resíduo Componente do Desvio

257 491 719 838 1020 0.0 0.2 0.4 0.6 0.8 1.0 -3 -2 -1 0 1 2 Valor Ajustado

Resíduo Componente do Desvio

Fonte: Diego Silva Campos Carelli

Tabela 16 – Valores das vari´avel dependente, vari´aveis explanat´orias, probabilidade esti- mada (bπ), alavanca (h), res´ıduo do desvio td) e estat´ıstica de Cook (LD) para sete observa¸c˜oes com maior discrepˆancia

Observa¸c˜ao

Medida 727 609 719 838 1020 491 257

situacao RP AP AP RP RP RP RP

sexo Fem Masc Masc Fem Masc Masc Masc

idade 41 15 34 19 37 17 34 argf 549.66 536.46 582.61 512.14 577.70 617.88 633.41 nf 54 16 148 0 32 0 50 durem 1 3 1 1 1 1 2 instp 3 5 1 1 1 2 1 b π 0.426 0.212 0.027 0.979 0.977 0.971 0.966 h 0.289 0.158 0.021 0.005 0.007 0.005 0.014 td −1.25 1.92 2.72 −2.79 −2.76 −2.67 −2.62 LD 0.42 0.83 0.78 0.22 0.33 0.17 0.41

Tabela 17 – Coeficientes estimados do modelo final, mudan¸ca percentual nos coeficientes ap´os exclus˜ao de sete observa¸c˜oes discrepantes uma de cada vez e todas as setes observa¸c˜oes simultaneamente, e valores das estat´ıstica desvio e bC para cada modelo

Modelo Observa¸c˜oes descartadas

final 727 609 719 838 1020 491 257 Sete Intercepto −3.0924 16.8 6.3 19.6 −7.9 8.5 2.4 8.1 59.3 SEXO −2.8961 −17.9 0.5 0.4 4.0 7.7 −1.6 5.5 0.8 IDADE 0.0256 117.4 2.4 97.3 3.2 41.2 −15.9 22.0 291.5 NF −0.0398 1.5 −0.7 −23.9 8.0 −9.0 2.7 −2.7 −28.8 ARG 0.0126 −0.3 2.8 2.1 −0.3 1.3 2.6 2.6 11.9 DUREM2 0.2538 −5.0 −2.2 23.7 −0.5 −1.5 −13.6 99.2 115.0 DUREM3 −2.7045 −1.1 32.7 −1.5 0.9 −2.2 2.4 −2.0 29.6 DUREM4 −0.8192 −2.9 −0.8 −2.5 5.6 −4.5 6.3 −5.6 -5.3 INSTP2 −0.3839 −3.2 1.2 −6.5 12.6 11.1 −22.8 16.2 11.0 INSTP3 −0.4187 −6.0 −1.0 −7.1 9.9 9.0 2.1 11.7 20.7 INSTP4 −1.1131 −1.4 1.1 −1.7 4.1 4.4 1.8 5.7 15.3 INSTP5 −0.6121 0.7 15.1 0.2 6.7 6.5 2.0 8.5 42.8 INSTP6 −1.0885 0.3 0.4 −4.8 4.1 6.4 0.6 7.5 16.0 SEXO×IDADE 0.0973 −31.4 0.3 0.7 −3.0 13.7 −1.0 9.3 −7.7 SEXO×NF 0.0185 0.3 −0.6 −0.5 16.5 −1.3 -2.1 0.5 13.2 IDADE×NF −0.0012 −2.8 1.3 46.0 0.1 17.2 −3.5 8.0 76.6 Desvio 620.0 618.6 616.2 611.9 612.0 612.1 612.7 612.8 575.2 b C 7.9 6.5 8.9 9.0 8.0 7.6 10.4 9.0 9.4

Fonte: Diego Silva Campos Carelli

De acordo com os resultados obtidos, pode-se observar que:

• (pontos de alavanca) todas as medidas h s˜ao inferiores a 0,3 e apenas uma observa¸c˜ao (#727) tem maior destaque que as demais. Esta observa¸c˜ao se trata de um aluno com reprova¸c˜ao, do sexo feminino, com 41 anos de idade, argumento 549,66, 54 faltas no curso, com dura¸c˜ao do ensino m´edio de no m´aximo 3 anos e instru¸c˜ao do Pai na categoria EM com/ES inc. Os valores h, res´ıduo componente do desvio e estat´ıstica de Cook para esta observa¸c˜ao s˜ao respectivamente 0.289, −1.25 e 0.42. O impacto da exclus˜ao desta observa¸c˜ao no ajuste do modelo afeta claramente a estimativa do coeficiente da vari´avel IDADE e a intera¸c˜ao SEXO × IDADE. Contudo, o impacto nas estat´ısticas desvio e bC parecem ser de menor importˆancia;

• (distˆancia de Cook) as observa¸c˜oes com maior destaque para esta medida s˜ao a #609 e a #719. As distˆancias de Cook para estas duas medidas s˜ao respectivamente 0,83 e 0,78. A primeira destas observa¸c˜oes tem maior impacto na estima¸c˜ao do coeficiente de DUREM3 e a segunda nos coeficientes de IDADE e IDADE × NF. Apesar da exclus˜ao de cada uma dessas observa¸c˜oes aumentar o valor de bC em 13% e 14%, respectivamente, em ambos os casos o valor da estat´ıstica ap´os exclus˜ao

3.3. Modelagem da probabilidade de aprova¸c˜ao 57

ainda n˜ao indica uma falta de ajuste significativa (Valores P = 0,3531 e 0,4287, respectivamente).

• (res´ıduo componente do desvio) todos os res´ıduos padronizados se encontram entre -2,79 e 2,72. A porcentagem de res´ıduos com valor absoluto maior que 2 ´e aproxima- damente igual a 2,6%, sendo assim inferior a porcentagem pr´oxima a 5% que seria esperada se n˜ao houvesse res´ıduos discrepantes. As observa¸c˜oes com maior valor absoluto deste res´ıduo s˜ao #719, #838, #1020, #491 e #257. A observa¸c˜ao # 719 trata-se de um caso de aprova¸c˜ao, por´em com probabilidade estimada de aprova¸c˜ao pr´oxima de zero em raz˜ao, possivelmente, do alto n´umero de faltas (superior a me- diana 48 faltas). As observa¸c˜oes #838, #1020, #491 e #257 referem-se a casos de reprova¸c˜ao que apresentam probabilidades de aprova¸c˜ao pr´oximas de um. Contudo, a exclus˜ao individual de cada uma destas cinco observa¸c˜oes n˜ao indicou falta de ajuste significativa (Valores P variando de 0,2371 a 0,4694);

• a exclus˜ao conjunta das observa¸c˜oes #727, #609, #719, #838, #1020, #491 e #257 altera os coeficientes estimados principalmente da IDADE (291,5%), DU- REM2 (115,0%), IDADE × NF (76,6%) e INSTP5 (42,8%). Contudo, o ajuste medido pela estat´ıstica bC tem aumento relativo percentual de 19%, implicando em uma redu¸c˜ao no valor P de 0,4439 no modelo com todas as observa¸c˜oes para 0,3131 para o ajuste sem as sete observa¸c˜oes. Este valor sugere ainda que a falta de ajuste n˜ao ´e significativa.

• (res´ıduo componente do desvio versus probabilidade ajustada) este gr´afico apresenta maior dificuldade de interpreta¸c˜ao pelo fato da vari´avel resposta do modelo ser bin´aria. Contudo, o padr˜ao apresentado ´e compat´ıvel com os padr˜oes normalmente encontrados nestes gr´aficos em respostas dicotˆomicas.

Portanto, h´a evidˆencias que as observa¸c˜oes destacadas nestas an´alises tˆem maior po- tencial para influenciar os coeficientes das vari´aveis no modelo. Uma an´alise cuidadosa deveria ser feita para averiguar se seria poss´ıvel identificar algum erro nos registros dessas observa¸c˜oes. Contudo, devido a dificuldade para se realizar esta etapa com a informa¸c˜ao dispon´ıvel, suportado pelo fato que o modelo com todas observa¸c˜ao se ajusta aos dados ( bC = 7, 8937 com 8 graus de liberdade, P = 0,4439), ser´a considerada nas an´alises a seguir os resultados do modelo final com todas as 1270 observa¸c˜oes. Um outro suporte para esta decis˜ao ´e o gr´afico quantil-quantil Normal na Figura 5 com envelopes simulados sob a suposi¸c˜ao de componente aleat´oria binomial – ou melhor, componente aleat´oria Bernoulli neste caso – para os res´ıduos do desvio. Claramente, todos os pontos desse gr´afico se aglomeram dentro dos envelopes em torno da linha m´edia central. Este comportamento sugere que a suposi¸c˜ao de distribui¸c˜ao Bernoulli para a vari´avel situa¸c˜ao do aluno, medida como indicador de aprova¸c˜ao ou n˜ao dos mesmos, ´e razo´avel para estes dados.

Figura 5 – Gr´afico quantil-quantil Normal com envelopes para os res´ıduos do modelo de regress˜ao log´ıstica da probabilidade de aprova¸c˜ao no curso

-3 -2 -1 0 1 2 3 -2 0 2 4 Percentil da N(0,1) Componente do Desvio

Fonte: Diego Silva Campos Carelli

Um outro crit´erio para sumariza¸c˜ao do modelo final ´e obtido quando ele ´e usado para predizer observa¸c˜oes “aprovado” e “n˜ao aprovado” e comparar os resultados obtidos com os valores observados da vari´avel resposta. Uma vez que a propor¸c˜ao observada de aprova¸c˜ao foi pr´oxima 0,50, ent˜ao utilizou-se a regra de classifica¸c˜ao “aprovado” se a probabilidade estimada pelo modelo ´e maior ou igual a 0,5 e “n˜ao aprovado” caso contr´ario. A classifica¸c˜ao de todas as observa¸c˜oes segundo esta regra ´e apresentada na Tabela 18. Tem-se, portanto, que a taxa global de classifica¸c˜ao correta do modelo ´e

Tabela 18 – Tabela de classifica¸c˜ao da observa¸c˜oes pelo modelo final

Casos Casos preditos

observados N˜ao aprovado (Y = 0) Aprovado (Y = 1) Total

N˜ao aprovado (Y = 0) 537 100 637

Aprovado (Y = 1) 37 596 633

Total 574 696 1270

Fonte: Diego Silva Campos Carelli

estimada em 89,21%=100[(537 + 596)/1270]. A especifidade e a sensibilidade do modelo s˜ao estimadas em 84,3% (537/637) e 94,2% (596/633), respectivamente. Isto significa que cerca de 84,3% dos casos com n˜ao aprova¸c˜ao (especificidade) e 94,2% dos casos de aprova¸c˜ao (sensibilidade) s˜ao classificados corretamente. Pode-se ainda dizer que a taxa de casos falsos positivo ´e (100 - 84,3)=15,7% e de casos verdadeiros positivo de 94,2%.

A curva ROC para o modelo final preliminar, obtida usando o pacote pROC (ROBIN et al., 2011) do software R, ´e dada na Figura 6. A reta tracejada conectando os pontos (0,0)

Documentos relacionados