• Nenhum resultado encontrado

e que a especicidade do modelo sejam 0.86 e 0.91, respectivamente.

A gura 4.10 mostra, a evolução da taxa de acertos, da sensibilidade, da especicidade e do desempenho do modelo para os distintos pontos de corte possíveis. A vermelho está assinalado o ponto de corte óptimo (0.375) de modo a que possa ser percebido o compromisso que o mesmo representa entre a taxa de verdadeiros positivos e a taxa de falsos positivos.

Figura 4.10: Acertos, sensibilidade, especicidade e performance do modelo II.

4.2 Modelação da amostra censurada

Para a construção deste modelo de regressão logística foi utilizada uma amostra censurada. Para a obtenção desta amostra censurada considerou-se

a amostra completa e retiraram-se os serviços que apresentavam o conjunto dos três limites inferiores nulos.

Uma vez que a interpretação da maioria dos resultados é semelhante à apresentada aquando da análise da modelação da amostra completa, a mai- oria das justicações serão suprimidas.

4.2.1 Estratégias de modelação

Mais uma vez é necessário dividir as observações disponíveis em dois conjuntos de dados: o conjunto training data e o conjunto test data, cada um formado por 50% das observações que constituem a amostra censurada. A variável resposta e as covariáveis utilizadas para ajustar o modelo de re- gressão logística são as utilizadas na secção 4.1.1. As variáveis deste modelo, que irá ser referido como modelo III, assim como os coecientes associados e respectivo p-value, são apresentadas na tabela 4.5.

Como se pode vericar há certos coecientes que não são considerados signicativos, o que faz com que o modelo não seja o melhor possível. Utili- zando o mesmo método iterativo que na secção 4.1.1, o modelo resultante do método stepwise, método esse parcialmente apresentado na tabela 4.6, será referenciado como modelo IV e o seu sumário é apresentado na tabela 4.7.

É de frisar que, apesar das variáveis explicativas serem as mesmas para o modelo II e para o modelo IV, os coecientes das mesmas são distintos, não conduzindo obrigatoriamente aos mesmos resultados.

4.2.2 Diagnóstico do modelo

Uma vez que as variáveis utilizadas no modelo IV são as mesmas que as utilizadas no modelo II, não faz sentido analisar novamente a correlação entre as variáveis, uma vez que será igual. Assim, a única medida que real- mente depende dos dados utilizados para ajustar o modelo (que são o único critério diferenciador entre o modelo II e o modelo IV) é o variance ination factor, apresentado na tabela 4.8.

63

> summary(modeloIII) Call:

glm(formula = break_out ~ down_A_set + down_B_set + down_C_set + down_A_ago + down_B_ago +

down_C_ago + down_A_jul + down_B_jul + down_C_jul + down_A_jun + down_B_jun + down_C_jun + down_A_mai + down_B_mai +

down_C_mai, family = "binomial", data = training_data) Deviance Residuals:

Min 1Q Median 3Q Max

-2.4135 -0.4289 -0.2274 -0.2169 2.7937 Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) -3.64206 0.02577 -141.333 < 2e-16 *** down_A_set 0.08079 0.03139 2.574 0.010055 * down_B_set 1.99062 0.02710 73.442 < 2e-16 *** down_C_set 1.55367 0.03228 48.138 < 2e-16 *** down_A_ago 0.02442 0.03279 0.745 0.456536 down_B_ago 0.51511 0.03121 16.505 < 2e-16 *** down_C_ago 0.05727 0.03463 1.654 0.098177 . down_A_jul -0.09229 0.03335 -2.767 0.005657 ** down_B_jul 0.55153 0.03391 16.266 < 2e-16 *** down_C_jul -0.09625 0.03701 -2.600 0.009309 ** down_A_jun 0.11842 0.03165 3.742 0.000183 *** down_B_jun 0.67240 0.03479 19.327 < 2e-16 *** down_C_jun -0.02132 0.03867 -0.551 0.581514 down_A_mai 0.18534 0.03095 5.987 2.13e-09 *** down_B_mai 0.74912 0.03450 21.714 < 2e-16 *** down_C_mai -0.03003 0.03765 -0.798 0.425144 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1)

Null deviance: 99402 on 89309 degrees of freedom Residual deviance: 51058 on 89294 degrees of freedom AIC: 51090

Number of Fisher Scoring iterations: 6

Step: AIC=51086.34

break_out ~ down_A_set + down_B_set + down_C_set + down_B_ago + down_C_ago + down_A_jul + down_B_jul + down_C_jul + down_A_jun + down_B_jun + down_A_mai + down_B_mai

Df Deviance AIC <none> 51060 51086 - down_C_ago 1 51062 51086 - down_A_set 1 51068 51092 - down_A_jul 1 51069 51093 - down_C_jul 1 51071 51095 - down_A_jun 1 51075 51099 - down_A_mai 1 51098 51122 - down_B_jul 1 51331 51355 - down_B_ago 1 51340 51364 - down_B_jun 1 51505 51529 - down_B_mai 1 51568 51592 - down_C_set 1 53494 53518 - down_B_set 1 56632 56656

Tabela 4.6: Step do modelo III.

Mais uma vez, todos os VIF's são menores do que 5 o que indica baixa multicolinearidade entre as covariáveis do modelo IV.

Em relação aos resíduos do modelo, representados na gura 4.11, 96% dos mesmos encontram-se no intervalo [−2, 2], revelando um bom ajuste. Não é visível qualquer padrão nos resíduos, o que elimina a hipótese de hete- rocedasticidade, estando, no entanto, muito concentrados em torno do valor 0.

A representação gráca dos resíduos versus valores ajustados é apresen- tada na gura 4.12. Tal como na gura 4.2, as observações que apresentam resíduos mais elevados estão identicadas e, mais uma vez, apenas corres- pondem a resíduos positivos. A correlação entre os valores preditos e os resíduos do modelo é 0.178, ainda mais baixa que no modelo II.

Mais uma vez o Q-Q plot dos resíduos apresentado na gura 4.13 revela uma distribuição subjacente aos resíduos aparentemente simétrica mas com caudas mais pesadas que uma Normal(0,1). Tal pode ser conrmado no his- tograma dos resíduos apresentado na gura 4.14.

65

> summary(modeloIV) Call:

glm(formula = break_out ~ down_A_set + down_B_set + down_C_set + down_B_ago + down_C_ago +

down_A_jul + down_B_jul + down_C_jul + down_A_jun + down_B_jun + down_A_mai + down_B_mai, family = "binomial", data = training_data)

Deviance Residuals:

Min 1Q Median 3Q Max

-2.4007 -0.4291 -0.2272 -0.2150 2.7826 Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) -3.64431 0.02556 -142.565 < 2e-16 *** down_A_set 0.08610 0.03109 2.769 0.00562 ** down_B_set 1.99521 0.02685 74.321 < 2e-16 *** down_C_set 1.54617 0.03156 48.997 < 2e-16 *** down_B_ago 0.52054 0.03085 16.874 < 2e-16 *** down_C_ago 0.04881 0.03382 1.443 0.14900 down_A_jul -0.09481 0.03271 -2.899 0.00375 ** down_B_jul 0.55713 0.03365 16.559 < 2e-16 *** down_C_jul -0.11114 0.03398 -3.271 0.00107 ** down_A_jun 0.11899 0.03077 3.867 0.00011 *** down_B_jun 0.67213 0.03158 21.283 < 2e-16 *** down_A_mai 0.18715 0.03042 6.151 7.69e-10 *** down_B_mai 0.73596 0.03246 22.674 < 2e-16 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1)

Null deviance: 99402 on 89309 degrees of freedom Residual deviance: 51060 on 89297 degrees of freedom AIC: 51086

Number of Fisher Scoring iterations: 6

Variável VIF down A set 1.795798 down B set 1.296326 down C set 1.682733 down B ago 1.661392 down C ago 2.047919 down A jul 1.953152 down B jul 2.011153 down C jul 2.052603 down A jun 1.705128 down B jun 1.817897 down A mai 1.670541 down B mai 1.925403

Tabela 4.8: Variance Ination Factors das covariáveis do modelo IV.

67

69

que a distribuição dos resíduos é constante ao longo do intervalo dos valores ajustados. A análise desta representação gráca deve conduzir a conclusões semelhantes que a análise da representação gráca dos resíduos versus valores ajustados. Tal como na gura 4.12, os valores discordantes estão assinalados.

Figura 4.15: Scale-location plot do modelo IV.

Através da gura 4.16 pode-se concluir que todas as observações que apresentam resíduos elevados (e portanto maus ajustamentos, podendo ser considerados outliers da regressão) têm leverage baixa, signicando que não são observações inuentes aquando da estimação dos coecientes da regres- são. Por outro lado, todas as observações que apresentam leverage alta, sendo, por isso mesmo, inuentes, apresentam também resíduos próximos de 0, sendo resultado de bons ajustamentos. Ainda assim, todas as obser- vações apresentam leverages muito abaixo de 2 (valor a partir do qual uma observação é considerada inuente), não constituindo, portanto, motivos de preocupação.

4.2. MODELAÇÃO DA AMOSTRA CENSURADA 71

Figura 4.16: Resíduos versus leverage para o modelo IV.

Outra forma de encontrar observações inuentes (com leverage elevada) e mal ajustadas (com resíduos grandes) é através da análise da distância de Cook apresentada no gráco da gura 4.17. Segundo este gráco, as ob- servações identicadas são as que apresentam maior distância de Cook, não sendo esta, no entanto, sucientemente elevada para se poder ponderar em retirar estas observações da amostra.

A mesma conclusão pode ser retirada do gráco da gura 4.18, que apre- senta a distância de Cook como função da leverage. As observações identi- cadas na gura 4.17 como sendo potencialmente discordantes são também identicadas na gura 4.18. No entanto, e tal como visto anteriormente, todas as observações que apresentam leverage elevada apresentam um valor para a distância de Cook baixo (reectindo também um resíduo próximo de 0) enquanto que as observações que apresentam um valor para a distância de

Cook elevado apresentam leverage baixa, revelando a baixa inuência destas observações aquando da estimação dos coecientes do modelo.

Figura 4.17: Distância de Cook para o modelo IV.

A curva ROC para o modelo IV, apresentada na gura 4.19, permite, mais uma vez, encontrar o valor óptimo para a sensibilidade e para a espe- cicidade do modelo, o que conduz ao cálculo do cut-o óptimo.

O método utilizado para encontrar o ponto de corte (cut-o ) óptimo foi o mesmo utilizado para o modelo II:

1. Encontrar, através do método Youden index, o valor óptimo para o par (sensibilidade, 1-especicidade);

2. Uma vez sabendo o valor óptimo para a sensibilidade (0.84) e para a especicidade (0.88), e sabendo que a sensibilidade e a especicidade

73

de um modelo são dadas por, respectivamente: #{ˆy = 1, y = 1} #{y = 1} (4.4) #{ˆy = 0, y = 0} #{y = 0} (4.5) resolver o sistema        #{ˆy=1,y=1} #{y=1} = 0.84 #{ˆy=0,y=0} #{y=0} = 0.88 (4.6) dado que #{y = 0} e que #{y = 1} são conhecidos;

3. Uma vez calculadas as quantidades #{ˆy = 1, y = 1} e #{ˆy = 0, y = 0}, descobrir, por tentativa e erro, qual o ponto de corte a aplicar ao modelo de modo a que a sensibilidade e a especicidade óptimas do modelo sejam as dadas pela curva ROC.

Neste caso, utilizando o ponto de corte 0.225 tem-se que a sensibilidade e que a especicidade do modelo sejam 0.84 e 0.88, respectivamente e que a area under the curve seja 0.92.

A gura 4.20 mostra, a evolução da taxa de acertos, da sensibilidade, da especicidade e da performance do modelo para os distintos pontos de corte possíveis. A vermelho está assinalado o ponto de corte óptimo (0.225) de modo a que possa ser percebido o compromisso que o mesmo representa entre a taxa de verdadeiros positivos e a taxa de falsos positivos.

Documentos relacionados