• Nenhum resultado encontrado

6.2 Resultados

6.2.2 Aplica¸c˜ao em dados reais

O conjunto de dados reais utilizado foi proveniente de uma institui¸c˜ao financeira com 45719 observa¸c˜oes no total, sendo 25459 observa¸c˜oes de solicitantes aceitos e 25% de prevalˆencia de inadimplˆencia. Al´em dos aceitos, constam 20260 solicitantes rejeitados na amostra, que correspondem a 44, 3% do total de indiv´ıduos. Inicialmente, a amostra dos aceitos foi dividida em 70% para treinamento e 30% para a teste, sendo esta ´ultima utilizada para valida¸c˜ao das medidas de capacidade preditiva. Ap´os a gera¸c˜ao dos valores para os rejeitados utilizando vari´avel latente, reclassifica¸c˜ao, parcelamento, pondera¸c˜ao, a amostra de treinamento inicial de aceitos foi acrescida dos rejeitados formando a amostra de treinamento final. Ent˜ao foi gerado novamente o modelo de regress˜ao log´ıstica, probit e ´arvore de decis˜ao/classifica¸c˜ao e seus resultados foram combinados via regras de decis˜ao. Os valores das medidas de capacidade preditiva podem ser encontrados nas Tabe- las (6.13), (6.14), (6.15), (6.16) para o uso de vari´avel latente, reclassifica¸c˜ao, parcelamento e pondera¸c˜ao, respectivamente. A descri¸c˜ao das vari´aveis, an´alise descritiva e os modelos est˜ao no Apˆendice.

Tabela 6.13: Medidas preditivas dos modelos e do uso combinado - uso de vari´avel latente

M´etodo SENS ESPEC VPP VPN ACC

logit 0,7059 0,6910 0,4336 0,8761 0,6947

probit 0,7001 0,6969 0,4365 0,8749 0,6977

CART 0,6641 0,7195 0,4425 0,8655 0,7057

Conservadora 0,7313 0,6585 0,4175 0,8805 0,6767

Combina¸c˜ao via voto ma- jorit´ario

0,7013 0,6958 0,4358 0,8751 0,6972

Modelo mais sens´ıvel e mais espec´ıfico

Tabela 6.14: Medidas preditivas dos modelos e do uso combinado - reclassifica¸c˜ao

M´etodo SENS ESPEC VPP VPN ACC

logit 0,6979 0,6815 0,4223 0,8712 0,6856

probit 0,6973 0,6834 0,4235 0,8713 0,6869

CART 0,6382 0,7306 0,4413 0,8582 0,7075

Conservadora 0,7225 0,6499 0,4076 0,8753 0,6681

Combina¸c˜ao via voto ma- jorit´ario

0,6973 0,6820 0,4224 0,8716 0,6851

Modelo mais sens´ıvel e mais espec´ıfico

0,7219 0,6501 0,4076 0,8752 0,6681

Tabela 6.15: Medidas preditivas dos modelos e do uso combinado - parcelamento

M´etodo SENS ESPEC VPP VPN ACC

logit 0,6555 0,7397 0,4564 0,8655 0,7186

probit 0,6591 0,7369 0,4551 0,8663 0,7174

CART 0,3607 0,9462 0,6910 0,8161 0,7998

Conservadora 0,6589 0,7360 0,4517 0,8663 0,7174

Combina¸c˜ao via voto ma- jorit´ario

0,6554 0,7396 0,4564 0,8665 0,7186

Modelo mais sens´ıvel e mais espec´ıfico

0,6549 0,7451 0,4590 0,8634 0,7184

Tabela 6.16: Medidas preditivas dos modelos e do uso combinado - pondera¸c˜ao

M´etodo SENS ESPEC VPP VPN ACC

logit 0,7078 0,6785 0,4234 0,8744 0,6859

probit 0,7109 0,6751 0,4218 0,8750 0,6840

CART 0,3947 0,9261 0,6406 0,8210 0,7932

Conservadora 0,7136 0,6726 0,4209 0,8756 0,6829

Combina¸c˜ao via voto ma- jorit´ario

0,7052 0,6810 0,4243 0,8738 0,6870

Modelo mais sens´ıvel e mais espec´ıfico

Nota-se que os trˆes m´etodos, individualmente, apresentam valores pr´oximos nas medidas de capacidade preditiva, exceto o parcelamento, que teve desempenho inferior aos demais. A ´arvore de decis˜ao/classifica¸c˜ao apresenta menor sensibilidade e maior es- pecificidade do que os modelos log´ıstico, probit e as combina¸c˜oes via regras de decis˜ao, sobretudo, quando utilizado o parcelamento e a pondera¸c˜ao. Ao combinar os resultados dos modelos, obt´em-se maior sensibilidade como o uso da regra (1) - conservadora.

De um modo geral, a vari´avel latente pode ser utilizada como alternativa em inferˆencia dos rejeitados uma vez que apresenta valores satisfat´orios em rela¸c˜ao as todas as medidas de capacidade preditiva conjuntamente utilizadas.

Cap´ıtulo 7

Considera¸c˜oes Finais

7.1

Conclus˜oes

As t´ecnicas de inferˆencia dos rejeitados tem por objetivo incluir os solicitantes que tiveram pedido de cr´edito negado na formula¸c˜ao do modelo. Muitas vezes, somente as t´ecnicas de inferˆencia dos rejeitados e o uso de uma ´unica t´ecnica de modelagem de dados n˜ao s˜ao suficientes para que se tenha medidas de capacidade preditiva satisfat´orias. Dessa forma, optou-se por combinar o resultado dos trˆes modelos regress˜ao log´ıstica, probit e ´arvore de decis˜ao/classifica¸c˜ao via algoritmo CART.

A performance da combina¸c˜ao em que ´e utilizada regra conservadora e a utiliza¸c˜ao do modelo mais sens´ıvel e mais espec´ıfico alcan¸caram melhor performance, sobretudo, quanto a sensibilidade. O uso da regra da combina¸c˜ao via voto majorit´ario e os modelos individualmente apresentaram maior especificidade.

De maneira geral, melhorias nas medidas de capacidade preditiva foram alcan- ¸cadas quando foi utilizada das combina¸c˜oes de resultados dos trˆes modelos, regress˜ao log´ıstica, probit, ´arvore de decis˜ao/classifica¸c˜ao via regras de decis˜ao para todas as t´ecni- cas utilizadas, uso de vari´avel latente, reclassifica¸c˜ao, parcelamento e pondera¸c˜ao.

No conjunto de dados simulados, os valores m´edios das medidas de capacidade preditiva obtidas foram similares para os trˆes modelos. Houve um ligeiro aumento na sensibilidade quando utilizada a regra de decis˜ao conservadora em todas as t´ecnicas. Al´em disso, no cen´ario 3, em que a prevalˆencia foi de 50%, os modelos apresentaram melhor desempenho individualmente e com os uso da combina¸c˜ao via regras de decis˜ao em todas as t´ecnicas de inferˆencia dos rejeitados.

O conjunto de dados reais apresentou o mesmo comportamento dos dados simu- lados. A sensibilidade foi maior quando foram utilizadas as combina¸c˜oes de resultados

via regras de decis˜ao. Dessa forma, se o analista busca um modelo que identifique melhor os maus pagadores ´e indicada a utiliza¸c˜ao de combina¸c˜ao atrav´es da regra de decis˜ao conservadora ou uso do modelo mais sens´ıvel e mais espec´ıfico.

A estrat´egia do uso da vari´avel latente mostrou-se interessante, n˜ao somente pelo aumento na sensibilidade, mas por apresentar boas medidas de capacidade preditiva de maneira geral, sobretudo quando foi utilizado conjunto de dados reais. Quanto a escolha do m´etodo de inferˆencia dos rejeitados, o pesquisador deve optar por aquele que apresentar melhor desempenho para o conjunto de dados investigado uma vez que todas as t´ecnicas apresentaram desempenho satisfat´orio.

Documentos relacionados