• Nenhum resultado encontrado

Credit scoring : regressão logística aplicada à dados de uma instituição financeira brasileira

N/A
N/A
Protected

Academic year: 2022

Share "Credit scoring : regressão logística aplicada à dados de uma instituição financeira brasileira"

Copied!
34
0
0

Texto

(1)

Departamento de Estatística

Credit Scoring

Regressão Logística aplicada à dados de uma Instituição Financeira Brasileira

Diana Oberdá Carneiro Marques

Monograa apresentada para obtenção do título de Bacharel em Estatística.

Brasília 2015

(2)

Credit Scoring

Regressão Logística aplicada à dados de uma Instituição Financeira Brasileira

Orientador:

Prof. Dr. JHAMES MATOS SAMPAIO

Monograa apresentada para obtenção do título de Bacharel em Estatística.

Brasília 2015

(3)

Aos meus queridos pais Taís e Antero e amado esposo Mário

(4)

Agradeço aos meus pais por todo o suporte dado à minha formação acadêmica desde seu início.

Muito obrigada ao meu esposo pela compreensão e ajuda para a contrução desse documento.

Meus agradecimentos também ao professor Dr. Jhames Sampaio pela orienta- ção e aos colegas de trabalho que me emprestaram seus conhecimentos para enriquecer esta monograa.

(5)

Credit Scoring

Regressão Logística aplicada à dados de uma Instituição Financeira Brasileira Para a concessão de crédito de forma mais segura e mensurável, as instituições nanceiras utilizam ferramentas quantitativas como os modelos de Credit Scoring. Estes mo- delos permitem ao banco prever o comportamento de um cliente em relação aos compromissos que ele assume junto à instituição, ou seja, se ele será um bom ou mau pagador após obter o crédito que solicitou. Este trabalho apresenta uma aplicação da técnica de Regressão Lo- gística para a construção de um modelo de Behavior Scoring baseado num banco de dados real de produtos de micronanças fornecido por uma instituição nanceira brasileira. Foram abordados todos os passos para a sua criação, desde a análise descritiva de cada variável, até a validação do modelo por meio de critérios estatísticos.

Palavras-chave: Credit Scoring, Behavior Scoring, Regressão Logística, Micronanças

(6)

Credit Scoring

Logistic Regression applied to data from a Brazilian Financial Institucion For granting credit more secure and measurable manner, nancial institutions use quantitative tools such as credit scoring models. These models allow the bank to predict the behavior of a client in relation to the commitments it assumed at the institution, ie whether it will be a good or bad payer after getting the credit you requested. This paper presents an application of regression technique Logistics to build a model of Behavior Scoring based on a real database micronance products provided by a Brazilian nancial institution.

They were approached all steps towards its creation, from the descriptive analysis of each variable to the model validation through statistical criteria.

Keywords: Credit Scoring, Behavior Scoring, Logistic Regression models, Micronance

(7)

SUMÁRIO

1 INTRODUÇÃO . . . 8

2 METODOLOGIA . . . 10

2.1 Material . . . 10

2.2 Métodos . . . 10

3 RESULTADOS E DISCUSSÃO . . . 16

3.1 Análise Descritiva . . . 16

3.2 Modelo . . . 18

3.3 Escore . . . 20

3.4 Avaliação do Modelo . . . 20

4 CONSIDERAÇÕES FINAIS . . . 22

REFERÊNCIAS . . . 23

ANEXOS . . . 24

(8)

1 INTRODUÇÃO

Instituições Financeiras realizam diariamente concessão de crédito a diferentes proponentes. Ao ceder o crédito, o banco assume o chamado risco de crédito - o risco do cliente pagar o empréstimo ou não.

Há algumas décadas, o método para a concessão de um empréstimo era feita por um analista de crédito de forma julgamental e subjetiva, não permitindo a mensuração da probabilidade de perda, o que dicultava o entendimento dos bancos sobre seus lucros e prejuízos futuros.

Segundo Andrade (2004), esse método não suportava mais as necessidades das instituições nanceiras em gerenciar o risco de crédito, e então surgiram os modelos quan- titativos, que permitiam uma análise mais apurada das características do cliente, e como elas inuenciavam o seu comportamento de pagamento. Além de medir a inadimplência, o aumento signicativo no volume de empréstimos nas últimas décadas forçou os bancos a procurarem métodos mais rápidos e ecazes para conceder o crédito.

Santos e Famá (2007) apontam Fisher e Durand como os precursores da me- todologia para identicar bons e maus pagadores conhecida como Credit Scoring. Frente às diculdades nanceiras nas décadas de 80 e 90, surge em 1988 o Acordo de Basiléia - um documento regulatório que determina exigências mínimas de capital para evitar um colapso do sistema nanceiro em face do risco de crédito. Em 1990 cresce o interesse, inclusive acadê- mico, por modelos de risco de crédito (Caouette, Altman e Narayanan, 1998), que pudessem auxiliar o cumprimento das exigências do acordo e mitigar o risco ao ceder o crédito.

Com a evolução computacional e a possibilidade de trabalhar com grandes bancos de dados, várias técnicas para a construção de modelos de Credit Scoring foram desenvolvidas, valendo-se de Regressão Logística, Análise Discriminante, Redes Neurais etc.

Instituições Financeiras brasileiras também utilizam estas técnicas para decisão da concessão do crédito, ou mesmo para denir taxas, prazos, garantias e limites.

Sicsú (2010) enumera as vantagens ao utilizar um modelo de Credit Scoring para avaliação de risco, que podem ser interpretadas como justicativa para sua construção:

- Consistência nas decisões: a nota obtida pelo modelo para o cliente não se

(9)

altera por questões subjetivas.

- Decisões rápidas: recursos computacionais permitem que o risco seja calculado de forma quase instantânea, conferindo agilidade e segurança à concessão de crédito.

- Decisões adequadas: o credor consegue precicar as operações de crédito de forma adequada, podendo calcular as perdas e ganhos, e empregando regras de concessão de acordo com o resultado da aplicação do modelo.

- Monitorar e administrar o risco de um portfólio de crédito.

- Atender as exigências de órgãos reguladores.

- Estabelecer um padrão entre os decisores de crédito.

Então, os modelos de Credit Scoring são fundamentais para a manutenção da saúde do banco e do sistema nanceiro, evitando falências e perdas generalizadas.

Este trabalho teve como objetivo construir um modelo de Credit Scoring, mais especicamente um tipo especial chamado de Behavior Scoring, para produtos de micro- nanças, empregando-se a técnica de Regressão Logística à uma base de dados de um banco brasileiro, que possibilitou obter o escore (nota) para os clientes do banco. O escore é o produto nal do modelo, utilizado para a decisão da concessão do crédito, e/ou denição de limites, prazos e outras características do empréstimo . Prezou-se por um modelo de quali- dade, que distingui-se de forma ecaz bons e maus pagadores e que também tivesse sentido negocial para o banco. A Regressão Logística foi escolhida por ser uma técnica amplamente utlizada no mercado de crédito.

Primeiramente, foram denidas questões conceituais do modelo. Em seguida, foi construído o banco de dados. Prosseguindo, as variáveis disponíveis foram estudadas de forma exploratória, para assim, possibilitar a construção do modelo estatístico. Por último foi apresentada uma análise crítica do modelo encontrado, a m de validá-lo.

(10)

2 METODOLOGIA 2.1 Material

O banco de dados fornecido pela instituição nanceira é composto por clientes que possuiam um contrato de micronanças junto à insituição em junho de 2014, e as variáveis relacionadas a cada cliente são do tipo cadastrais, como idade, sexo, endereço residencial e outras e informações de comportamento de débitos e créditos dentro da instituição, tais quais dias em atraso dentro de algum contrato, limite utilizado do cartão, tempo de relacionamento com a instituição etc.

Micronanças são operações voltadas para um público normalmente às margens do processo principal do mercado nanceiro, como pessoas de baixa renda e o micro e pequeno empresário. É uma alternativa fornecida pelos bancos para clientes que não possuem condições ou capital para arcar com um produto de crédito tradicional da praça devido à diversos fatores, como prazo e taxas. Pode ter um objetivo assistencialista, como o crédito para adquirir eletrodomésticos, ou injetar capital de giro nas micro e pequenas empresas ajudando-as a produzir e se autosustentar no futuro.

Por questão de sigilo e inteligência de mercado, as variáveis estudadas não poderão ser descritas além das suas características estatísticas de interesse desse estudo.

2.2 Métodos

A construção de um modelo de Credit Scoring é baseada no comportamento dos clientes da instituição que já conseguiram o crédito, na crença de que o comportamento de novos clientes no futuro será semelhante ao deles.

Os modelos de Credit Scoring podem ser classicados de acordo com o relaci- onamento entre o proponente e o banco. Quando não há qualquer tipo de relação inicial, o modelo é chamado de Application Scoring e, já existindo relacionamento entre o cliente e a instituição, o modelo é o Behavioral Scoring.

Abordou-se o segundo modelo, tendo em vista que o banco de dados fornecido pela instituição nanceira é de clientes que já possuem algum dos produtos alvo das operações que serão modeladas.

O modelo nal retorna uma nota (escore) para o proponente segundo suas características e a fórmula encontrada durante a modelagem. Este escore representa a proba-

(11)

bilidade do cliente ser bom, e assim mitigar o risco desse causar prejuízos ao banco decorrente de inadimplência.

Um passo importante então para a modelagem é decidir como classicar o cliente como bom ou mau. Para este grupo de operações será considerado como mau o cliente que estiver inadimplente com o banco em relação à operação estudada há pelo menos 31 dias ao nal do período de desempenho.

Para encontrar os clientes que foram utilizados na modelagem, deniu-se o período de referência, o período de desempenho e o período histórico.

Tratando-se de um modelo de Behavioral Score, os clientes que serão analisados já possuem contrato de algum produto das operações estudadas. Na base de dados utilizada neste estudo, foi retirado um retrato desses clientes em junho de 2014, o período de referência N. É importante que em junho de 2014, os indivíduos considerados na análise não sejam maus, portanto, não podem possuir atraso no pagamento superior a 30 dias.

Período de desempenho é um intervalo de tempo posterior ao período de re- ferência, onde será observado o comportamento do cliente. Na base de dados deste estudo, é de seis meses após o retrato na data de referência. O período histórico diz respeito ao comportamento do cliente antes da data de referência, em relação a operação alvo do estudo, e em relação a outras operações que ele tenha contratado, como, por exemplo , nanciamento habitacional, caso essa variável se mostre signicativa. No caso da base de dados utilizada neste estudo, é de seis meses anteriores à data de referência.

Abaixo temos uma tabela representando os períodos citados acima.

Tabela 1 Horizonte Temporal

Histórico Data de Referência Desempenho

2013 2014

Dez Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez

N-6 N-5 N-4 N-3 N-2 N-1 N N+1 N+2 N+3 N+4 N+5 N+6

Para a criação do modelo, foram construídas duas amostras pelo método da amostragem aleatória simples sem reposição: a de desenvolvimento, com setenta por cento do total da base, e de validação, com os trinta por cento restantes da base. Bolfarine e Bussab (2005) denem a amostragem aleatória simples como o método mais simples e importante para a seleção de uma amostra, onde sorteiam-se com igual probabilidade n unidades, de uma

(12)

lista com N unidades elementares. No método de amostragem simples sem reposição, após ser sorteado, o elemento é retirado da população para que se dê continuidade ao processo de seleção.

Com a base de desenvolvimento construída, deu-se início à analise dos dados.

No primeiro momento foi realizada a Análise Univariada, como descrita por Sicsú (2010).

Ela consiste em vericar a distribuição de frequências, procurando por inconsistências, dados faltantes e outliers (valores que fogem da distribuição mostrada pelos dados). Também nessa fase, pode-se pensar na construção de novas variáveis e a categorização de algumas.

Ainda dentro da análise dos dados, foi realizada a Análise Bivariada, onde comparou-se a variável de interesse (bom ou mau), com as variáveis do banco, buscando encontrar aquelas que conseguem discriminar bons e maus clientes, também comparando as variáveis entre si para vericar correlações e multicolinearidades, podendo já eliminar variá- veis que não se mostraram signicativas, aquelas que são correlacionadas ou apresentaram colinearidade. Na Análise Bivariada, as variáveis quantitativas foram discretizadas utilizando decis, e as qualitativas de acordo com cada categoria que possuíam, criando classes dentro de cada variável. A discretização foi realizada porque . Duas medidas medidas foram utlizadas na Análise Bivariada - o Risco Relativo (RR) e o Variance Inaction Factor (VIF).

O Risco Relativo (RR) é obtido dividindo-se o percentual de bons da classe em relação à todos os bons da variável pelo percentual de maus da classe em relação à todos os maus da variável. Assim, quando o Risco Relativo é próximo de 1, signica que aquela classe da variável tem um percentual parecido de bons e maus clientes, e então classicamos ela como neutra. Quanto mais o RR ca próximo de zero, signica que o percentual de maus clientes naquela classe é maior que o percentual de bons, então eles são considerados clientes com maior risco de inadimplir e, consequentemente, receberão um coeciente pior dentro do modelo que os clientes das outras classes daquela variável.

No mesmo raciocínio, quanto maior o RR, maior o percentual de bons clientes naquela classe, e então, no modelo, os clientes que se encaixem nessa classe, receberão co- eciente melhor que os que se encontram em classes com RR menor. Pode ocorrer junção entre classes e ela é subjetiva, sendo que agregam-se as variáveis que possuírem RR próximo, e no caso de variáveis ordenadas é importante observar se elas não apresentam inversão na

(13)

ordem da classicação do cliente. Tabela 2 mostra a referência para a classicação do cliente segundo o RR calculado.

Tabela 2 Referência Risco Relativo

Risco Relativo Classicação

< 0,5 Péssimo

>= 0,5 e <= 0,67 Muito Mau

>= 068 e <=0,90 Mau

>= 0,91 e <= 1,10 Neutro

>= 1,11 e <= 1,50 Bom

>= 1,51 e <= 2,00 Muito Bom

> 2,00 Excelente

O VIF é o aumento da variância dos parâmetros estimados, determinado pela correlação entre as variáveis independentes. Utilizando o coeciente de determinação da regressão de uma variável explicativa Xj sobre todas as outras explicativas, o R2j, calcula-se o VIF segundo a fórmula abaixo.

V IFj = 1

1−R2j (1)

Concluída essa primeira análise sobre o banco de dados, deu-se a construção do modelo.

A técnica utilizada para a modelagem foi a Regressão Logística. Casella e Berger (2010) apresentam este modelo como um Modelo Linear Generalizado que descreve a relação entre a média da variável resposta e uma ou mais variáveis independentes. O modelo linear generalizado (MLG) é composto pelos componentes aleatório, sistemático e a função de ligação.

No caso da Regressão Logística, um tipo de MLG, o componente aleatório são as respostasYi, independentes e que tem distribuição Bernoulli(πi).

O componente determinístico é o vetor resultado da combinação linear entre o vetor de variáveis independentes (explicativas) e o vetor de parâmetros desconhecidos do modelo.

Neste tipo de regressão, πi (a probabilidade de ser bom) é relacionada com o vetor de característicasxi por:

log πi

1−πi

=α+βxi (2)

Onde o lado esquerdo é o log das chances de sucesso de Yi, uma função linear da preditorax também chamada de logito, a função de ligação.

(14)

Ainda segundo Casella e Berger (2010), os parâmetros α e β da regressão lo- gística tem interpretação similar ao da regressão linear clássica. Quando x=0 temos que α é log-chances do sucesso em x=0. O parâmetro β é a mudança na log-chances do sucesso, correspondente ao aumento de uma unidade em x.

Os parâmetros do modelo serão gerados utilizando-se a máxima verossimi- lhança, da forma:

L(α,β|y) =

n

Y

1

π(xi)yi(1−π(xi))1−yi (3) Ao derivarmos esta função em relação aos parâmetros a serem estimados, obtem- se equações não lineares emα e β que devem ser resolvidas numericamente.

Assim, a probabilidade de ser bomπi pode ser obtida pela equação:

P(bom) = πi =π(xi) = eα+βxi

1 +eα+βxi (4)

Com esta probabilidade é possível classicar o indivíduo como bom ou mau, adotando-se um critério k, onde P(bom) sendo maior ou igual a k, classica-se o cliente como bom, e caso contrário, o cliente é mau.

A interpretação da probabilidade pode ser complexa para os operadores do crédito, por isso ela foi transformada em escore (nota), que torna mais simples o processo de concessão. Esta transformação é dada pela fórmula a seguir e, sabendo que a probabilidade de ser bom varia entre 0 e 1, o escore do cliente pode variar de 0 a 100 após esta transformação.

Escore= 100P(bom) (5)

Para a seleção das variáveis, podem ser utilizados um dos três métodos mais populares, dependendo do modelo retornado por elas: Forward onde as variáveis são adici- onadas uma a uma ao modelo até que a inclusão de qualquer nova variável não melhore o poder do modelo; Backward onde o modelo inicial possui todas as variáveis e vai retirando-se uma a uma até que a exclusão de alguma delas prejudique o poder preditivo do modelo; e o Stepwise que é uma mescla das duas técnicas anteriores, onde as variáveis são adicionadas uma a uma, e após a inclusão de uma nova variável, é vericado se a exclusão de outra já presente no modelo é possível (Sicsú, 2010).

Para validar o modelo, são considerados críterios estatísticos e negociais. Os critérios estatísticos que foram aplicados para a avaliação do modelo selecionado são alguns

(15)

indicadores do poder discriminatório do modelo, como o índice de Kolmogorov-Smirnov (KS) e o AUROC (Area Under Receiver Operanting Characteristic Curve).

O KS normalmente é expresso em porcentagem e mede a distância máxima entre as funções de distribuição acumulada dos scores dos bons e maus clientes. As distribuições de bons e maus clientes são calculadas segundo Sícsu (2010) utilizando as seguintes fórmulas, onde k são todas as notas possíveis do modelo:

Fbons(k) = numero de bons clientes com nota do modelo <=k

numero de bons clientes (6)

Fmaus(k) = numero de maus clientes com nota do modelo <=k

numero de maus clientes (7)

Com essas duas informações é possível obter o KS, calculando-se a máxima diferença entre essas distribuições, como na equação abaixo.

KS =max[Fmaus(k)−Fbons(k)]100 (8) O AUROC (Area Under Receiver Operanting Characteristic Curve), calcula a área sob a curva ROC (Receiver Operator Characteristic Curve), que se baseia na sensitividade e na especicidade. A sensitividade representa a proporção de maus clientes classicados como maus pelo modelo, ou seja, a proporção de maus cuja nota é inferior a k. Enquanto a especicidade, para uma certa nota, é a proporção de bons clientes classicados como bons pelo modelo, ou seja, a proporção de bons clientes cuja nota é maior ou a k. Então, a curva ROC é obtida criando um gráco dos falsos alarmes (clientes classicados como bons erroneamente pelo modelo = 1-Especicidade) pela sensitividade, percorrendo todos os possíveis k. A área sob a curva desse gráco é o AUROC (Sicsú, 2010).

Os critérios negociais são relacionados a experiências e políticas de crédito do banco, que devem ser levadas em consideração, mesmo que forçando a entrada ou saída de variáveis do modelo estatisticamente melhor. O modelo sendo bem avaliado nos dois critérios, poderá ser aprovado na instituição.

(16)

3 RESULTADOS E DISCUSSÃO 3.1 Análise Descritiva

O banco é composto por diferentes grupos de variáveis, num total de sessenta e oito. Algumas são identicadoras, que podem utilizar informações como o CPF ou CNPJ, número do contrato, ou alguma outra informação que pode identicar o cliente. No banco, a VAR3 se encaixa nessa categoria. Outro tipo de variável são as cadastrais, e neste grupo encaixam-se as variáveis VAR 1, VAR13, VAR14, VAR28 e VAR51. As variáveis restantes se encaixam no grupo de informações referentes aos contratos que o cliente possui no banco, como prazo e valor do contrato, quantidade de transações realizadas no mês e outras.

O primeiro passo em uma análise estatística é a análise descritiva dos dados.

Para a análise inicial, a Univariada, obteve-se as principais medidas para as variáveis, a m de observar sua distribuição, presença de outliers, problemas de povoamento etc.

As Tabelas 8, 9, 10 e 11 do anexo mostram as estatísticas básicas para as variá- veis quantitativas. Nas Tabelas 8 e 9 notam-se variáveis que possuem 100% de seus campos missing (não preenchidos), que foram descartadas do estudo. São elas: VAR17, VAR30, VAR33, VAR34, VAR35, VAR42, VAR47, VAR50, VAR51, VAR54, e também VAR55, VAR56, VAR62, VAR63, VAR64, VAR65 e VAR66 . As variáveis VAR15 e VAR31 não apresentaram variação, assumindo o valor zero para todas as observações, e também foram excluídas do processo de modelagem.

Com relação ao missing nas outras variáveis, após a discretização das mesmas, foi criada uma categoria especíca, que foi testada na modelagem, visto que a ausência de informação pode trazer signicado ao modelo nal.

As Tabelas 10 e 11 do anexo mostram a distribuição de cada variável. As variá- veis VAR4, VAR5, VAR6, VAR7, VAR8, VAR9, VAR10, VAR11, VAR26, VAR43, VAR44, VAR45, VAR46 e VAR60 são assimétricas à direita, ou seja, existe uma concentração de observações nos menores valores dessas variáveis. O coeciente de variação para as variáveis quantitativas é alto, superando 100% em boa parte delas. Isso pode ocorrer pela presença de outliers, ou mesmo pela variação natural da variável.

Para um melhor resultado, pode-se transformar essas variáveis, com o intuito de diminuir efeitos da grande variabilidade. Neste estudo a única transformação aplicada foi

(17)

a criação de variáveis binárias (que assumem apenas o valor 1 ou 0). Ela foi utilizada porque permite associar valores numéricos à variáveis qualitativas, e também para as quantitativas que foram discretizadas.

Para as variáveis qualitativas, os resultados podem ser conferidos nas Tabelas 12 a 25 do anexo. As variáveis VAR13, VAR23 e VAR24 apresentaram alto percentual de valores sem preenchimento, enquanto as variáveis VAR19, VAR20, VAR21 e VAR22 apresentaram pouca variação, tendo apenas uma categoria com mais de 90% das observações, e assim, foram descartadas da modelagem.

Problemas de preenchimento dos dados no sistema podem acontecer por diver- sos motivos, como uma falta de atenção do operador ou pane no sistema ou ferramenta. A variável VAR28 representa a quantidade de contratos por Unidade da Federação Brasileira (UF). Nota-se que existe a categoria S9 com uma única observação, mas não corresponde a nenhum estado brasileiro, o que sugere um erro de preenchimento. Como mais de uma UF tem sua sigla iniciada por S, não é possível incluir esta observação em outra, e por isso, ela foi excluída.

O próximo passo é realizar a Análise Bivariada. Nesta etapa verica-se a re- lação entre as variáveis independentes e a variável dependente, identicando a correlação e construindo categorias de forma que se discrimine melhor os bons dos maus clientes. Para decidir quais intervalos ou categorias foram agregadas, utilizou-se o RR como método.

A Tabela 3 mostra um exemplo da distribuição em decis e o RR para a VAR27.

Tabela 3 VAR27 - Risco Relativo

VAR27 Lim Inf Lim Sup % Bom %Mau % Total RR Classicação

1oDecil 0,11 294,23 83% 17% 10,0 1,32 5-BOM

2oDecil 294,24 447,48 83% 17% 10,0 1,34 5-BOM

3oDecil 447,5 593,41 81% 19% 10,0 1,16 5-BOM

4oDecil 593,42 739,06 78% 22% 10,0 1,00 4-NEUTRO

5oDecil 739,08 901,35 78% 22% 10,0 1,00 4-NEUTRO

6oDecil 901,36 1026,68 76% 24% 10,0 0,85 3-MAU

7oDecil 1026,69 1244,61 74% 26% 10,0 0,76 3-MAU

8oDecil 1244,62 1693,97 77% 23% 10,1 0,94 4-NEUTRO

9oDecil 1693,98 2360,8 77% 23% 9,9 0,94 4-NEUTRO

10oDecil 2360,81 13505,88 77% 23% 10,0 0,93 4-NEUTRO

No exemplo da Tabela 3, pode-se agrupar o primeiro, segundo e terceiro decil, pois todos apresentam o mesmo RR.

As variáveis VAR2, VAR29, VAR41, VAR52, VAR53, VAR57, VAR58, VAR59

(18)

e VAR60 apresentaram inversão do risco relativo e por isso foram excluídas da modelagem, ou seja, quando esperava-se que o RR aumenta-se e o cliente fosse melhor qualicado, ele diminuiu, contrariando a lógica da variável. A Tabela 4 mostra o exemplo para VAR41, onde esperava-se que à medida que o valor da variável aumentasse, o RR também aumenta-se, mas não foi o que se observou, pois quando se passou do 1o para o 9o o RR foi de bom para péssimo, quando teria que, ou se manter bom, ou melhorar para muito bom ou excelente.

Tabela 4 VAR41 - Risco Relativo

VAR41 Lim Inf Lim Sup % Bom % Mau % Total RR Classicação

Missing 77% 23% 11% 0,921 4-NEUTRO

1oDecil 0 0 82% 18% 80% 1,264 5-BOM

9oDecil 0,26 0,59 44% 56% 0% 0,219 1-PESSIMO

10oDecil 0,6 2992,86 47% 53% 9% 0,244 1-PESSIMO

As variáveis VAR25, VAR24, VAR23, VAR22, VAR21, VAR20, VAR19, VAR13 e VAR12 não apresentaram variação de risco relativo entre as categorias de uma variável, ou seja, todas as categorias, todos os decis, possuíam o mesmo RR, assim, elas não tem poder de discriminar bons e maus clientes.

Realizada a discretização, foram criadas variáveis indicadoras, ou seja, para uma variável com n categorias, foram criadas n-1 variáveis binárias. Exemplo - se a variável X foi discretizada em três classes, serão criadas duas novas variáveis indicadoras (binárias) que indicam se a variável X está ou não dentro daquela classe.

Na construção do modelo foi criada uma amostra aleatória simples de desen- volvimento e uma de validação, correspondentes à setenta e trinta por cento da base respec- tivamente.

Após obter as bases, foi vericada a correlação entre as variáveis utilizando o VIF. As variáveis VAR4, VAR8, VAR9, VAR40, VAR43, VAR44, VAR45, VAR46, VAR48, VAR49, VAR68 apresentaram VIF superior a 10 e por isso foram retiradas da modelagem.

3.2 Modelo

Realizados esses passos anteriores de preparação, iniciou-se a modelagem.

Utilizou-se uma procedure (procedimento, processo) especíca para regressão logística do SAS e com o método de seleção de variáveis Stepwise. Os parâmetros estimados no primeiro processamento podem ser observados na Tabela 26 do anexo.

(19)

Algumas variáveis apresentaram inversão no sinal, e outras no sentido de cres- cimento (ou descrescimento) do coeciente de acordo com o RR, e foram retiradas da mode- lagem. Por exemplo, para a variável v11, Tabela 5, onde, esperava-se pela característica da variável e pelo RR, que o coeciente de v11_a02 fosse menor que o coeciente de v11_a01.

As variáveis que apresentaram essas características foram a v11_a02, v37_a01, v43_a02, v61_a01.

Tabela 5 VAR11 - Risco Relativo e parâmetros estimados na primeira regressão

VAR11 % Bom % Mau % Total RR Classicação Coeciente Estimado

v11_a01 79% 21% 73% 1,04 4-NEUTRO -0,01712

v11_a02 77% 23% 27% 0,90 3-MAU 0

Computou-se uma nova regressão e algumas variáveis ainda apresentaram algum tipo de inversão na relação entre os coecientes estimados, e elas foram a v11_a01 e v43_a01, que também foram retiradas para uma nova realização da regressão. Nesta terceira regressão, apenas a variável v38_a01 apresentou inversão.

A quarta regressão foi a nal, onde os coecientes estimados corresponderam ao risco relativo associado à eles. Os parâmetros estimados podem ser observados na Tabela 27 do anexo.

A função de ligação logito como na Equação 2, representada pela função linear preditora obtida com os parâmetros α eβ da quarta regressão, pode ser descrita por:

log πi

1−πi

= 1,8804−0,1773v28_a01−0,0649v28_a02−0,1410v14_a01

+ 0,1370v14_a03 + 0,0700v10_a02−0,0851v27_a02−0,1063v32_a01

− 0,5795v36_a02 + 0,1801v36_a03 + 0,0599v37_a02 + 0,0383v37_a03 + 0,0930v38_a03−0,0415v39_a01 + 0,1396v39_a03−1,1811v43_a03

− 0,7329v46_a02−0,3271v48_a01 + 0,2124v48_a03−0,0480v61_a02 + 0,2875v61_a03−0,0706v67_a01 + 0,0453v67_a03 + 0,3093v67_a04 Pode-se interpretar os parâmetros estimados de forma similar aos de uma re- gressão linear clássica. Por exemplo, para a variável v14_a03, o log-chances do cliente ser bom aumenta em 0,1370 quando ela assume o valor 1, ou seja, quando o cliente pertence à categoria 3 da variável 14.

(20)

3.3 Escore

Com os parâmetros encontrados, foi possível calcular a probabilidade de ser bom tal qual na Equação 4. O escore é o objetivo nal do modelo e representa a nota do cliente utilizada no momento da decisão da concessão ou não do crédito, e foi calculada como descrito pela Equação 5.

Tabela 6 Distribuição do Escore

Escore % Bom % Mau % Total

Escore <= 10 0,0% 0,0% 0,0%

10 < Escore <= 20 16,7% 83,3% 0,1%

20 < Escore <= 30 24,2% 75,8% 2,6%

30 < Escore <= 40 34,2% 65,8% 7,1%

40 < Escore <= 50 46,0% 54,0% 3,2%

50 < Escore <= 60 55,2% 44,8% 2,7%

60 < Escore <= 70 69,7% 30,3% 3,8%

70 < Escore <= 80 77,0% 23,0% 15,8%

80 < Escore <= 90 87,5% 12,5% 40,9%

90 < Escore <= 100 92,1% 7,9% 23,7%

A Tabela 6 acima, mostra a distribuição de bons e maus clientes dentro de faixas de escore, que foram divididas de dez em dez. Pode-se notar, observando as colunas dos percentuais de bons e maus clientes, uma concentração de bons nos escore acima de 50, e de maus nos escores menores ou iguais a 50. Nota-se também que, de forma geral, os clientes deste banco tem escore superior 70, já que na coluna percentual do total, que apresenta a relação entre a quantidades de clientes em determinada faixa de escore e o total de clientes, existe uma concentração nas notas mais altas.

Cabe então aos gestores do crédito, de acordo com as políticas da instituição, decidir que escore, nota, será utilizada como ponto de corte para a concessão do crédito, e também para atribuir prazos, taxas, limites etc.

3.4 Avaliação do Modelo

Encontrado o modelo nal, é preciso avaliá-lo. Os critérios estatísticos utili- zados para avaliar o desempenho do modelo encontrado neste trabalho foram o Índice de Kolmogorov-Smirnov (KS) e Area Under Receiver Operating Characteristic (AUROC).

A Tabela 7 a seguir, mostra os valores encontrados para os indicadores KS e AUROC, tanto para a base utilizada para a construção do modelo (desenvolvimento) quanto para a base de validação da fórmula.

(21)

Tabela 7 Critérios para Validação do Modelo

Base KS AUROC

Desenvolvimento 41,33% 0,7680

Validação 41,37% 0,7681

Verica-se que para o KS as duas bases obtiveram o mesmo resultado de 41%, dentro da faixa Aceitável, segundo tabela apresentada por Sicsú (2010). Para o indicador AUROC, os resultados foram também iguais e de 0,76, que é considerado como um nível aceitável também segundo Sícsu (2010).

(22)

4 CONSIDERAÇÕES FINAIS

A avaliação negocial ocorre conjuntamente ao processo estatístico de criação do modelo, pois a experiência do gestor de crédito pode apontar variáveis que não neces- sariamente entrariam ou sairiam por critérios estatísticos, mas são importantes e relevantes do ponto de vista da instituição nanceira. Por isso deve haver um diágolo constante entre o técnico responsável pela parte operacional do modelo e o gestor de crédito, que traz suas impressões empíricas do negócio.

O modelo então pode ser aprovado nos dois critérios, e no estudo apresentado neste trabalho ele foi considerado aceitável. A efetiva implantação do modelo vai depender não só da aprovação estatística e negocial, mas da visão do banco sobre os ganhos que ele pode proporcionar levando em conta todos os custos pra sua implementação e uso, pois pode ser apresentado um modelo considerado de alta qualidade nos dois critérios (estatístico e negocial), mas que não seja aplicado, seja por uma limitação tecnológica, por questão de visão de mercado ou outros motivos.

Importante salientar que existem outras técnicas que podem ser utilizadas para construir um modelo de credit scoring, como citado no início deste trabalho. Também é necessário lembrar que o modelo encontrado deve ser monitorado, pois com o tempo sua acurácia pode diminuir, como consequência, por exemplo, de uma mudança nas características da população alvo. Vericada a diminuição no seu poder, ele pode ser recalibrado, ou mesmo ter que ser criado um novo modelo.

Além de existirem para cumprir determinações legais, os modelos contribuem pra saúde da instituição, evitando prejuízos e melhorando a alocação de recursos, podendo contribuir para o aumento de receitas.

(23)

REFERÊNCIAS

ANDRADE, F. W. M. Desenvolvimento de modelo de risco de portifólio para carteiras de crédito a pessoas físicas. 2004. 196f. Tese de Doutorado apresentada ao curso de Doutorado em Administração de Empresas da EAESP, Fundação Getúlio Vargas.

BOLFARINE, H; BUSSAB, W. O. Elementos de Amostragem. 1 ed. São Paulo:

Blucher, 2005. Bibliograa: p. 61 e 74

CAOUETTE, J. B.; ALTMAN, E. I.; NARAYANAN, P. Gestão do Risco de Crédito: o próximo grande desao nanceiro. Trad de Allan Hasting; técnica de João Carlos Douat. São Paulo: Qualitymark, 2000.

CASELLA, G; BERGER, R. L. Inferência Estatística. 2 ed. São Paulo: Cengage Learning, 2010. Bibliograa: p. 527-532

GHERARDI, C. e GHIELMETTI, S. Escoragem de Crédito: Metodologia que Identica Estatisticamente o Risco de Crédito Revista Tecnologia do Crédito, São Paulo: Serasa, Setembro, 1997.

LEWIS, E. An Introduction to Credit scoring. Fair Isaac: San Rafael, California. 1992.

PEREIRA, G. H. A. Modelos de risco de crédito de clientes: uma aplicação a dados reais.2004. 104 f. Dissertação de Mestrado em Estatística Curso de Pós-graduação em Estatística, Instituto de Matemática e Estatística da Universidade de São Paulo, São Paulo, 2004.

ROSA, P. T. M. Modelos de Credit Scoring: Regressão Logística, CHAID e REAL. 2000. 125 f. Dissertação de Mestrado em Estatística Curso de Pós-graduação em Estatística, Instituto de Matemática e Estatística da Universidade de São Paulo, São Paulo, 2000.

SANTOS, J. O. dos; Famá, R. Avaliação da aplicabilidade de um modelo de credit scoring com variáveis sistêmicas e não-sistêmicas em carteiras de crédito bancário rotativo de pessoas físicas. Revista Contabilidade & Finanças, São Paulo, v.18, n. 44, p.105-117, 2007.

SICSÚ, A. L. Credit Scoring - Desenvolvimento, Implatação e Acompanhamento.

1 ed. São Paulo: Edgar Blucher Ltda, 2010.

(24)

ANEXOS

(25)

Anexo A: Tabelas

A seguir, serão apresentadas as tabelas discutidas ao longo da monograa.

Tabela 8 Análise Univariada - Variáveis Quantitativas

Variável % Missing Média Desv Padrão Mediana CV

VAR2 0,00% 1851,229673 1271,566721 1484,95 68,69

VAR4 0,00% 2,153326362 5,819623934 0 270,26

VAR5 50,91% 0,807266194 5,298534471 0 656,36

VAR6 38,53% 1,025603072 5,961371737 0 581,26

VAR7 38,53% 1,025603072 5,961371737 0 581,26

VAR8 23,37% 1,776284277 8,027317419 0 451,92

VAR9 14,97% 2,081693703 8,651649923 0 415,61

VAR10 6,85% 1,715830209 7,873392598 0 458,87

VAR11 0,00% 509,8439513 1154,855211 0 226,51

VAR15 0,00% 0 0 0 -

VAR16 0,00% 11,66203161 4,301747352 12 36,89

VAR17 100,00% - - - -

VAR26 0,00% 0,215246543 0,410993558 0 190,94

VAR27 0,00% 1123,871615 911,3571918 901,35 81,09

VAR29 0,00% 464,4424021 964,8833491 20 207,75

VAR30 100,00% - - - -

VAR31 0,00% 0 0 0 -

VAR32 10,86% 165,8064123 85,74511749 171,08 51,71

VAR33 100,00% - - - -

VAR34 100,00% - - - -

VAR35 100,00% - - - -

VAR36 10,86% 135,512428 105,7243794 145,36 78,02

VAR37 56,27% 160,0845481 111,1914459 166,07 69,46

VAR38 34,45% 155,1026736 107,7512467 166,15 69,47

VAR39 27,75% 147,2402841 106,5428547 158,61 72,36

VAR40 18,97% 153,9658331 103,3429413 170,37 67,12

VAR41 10,86% 20,6869348 78,22134025 0 378,12

VAR42 100,00% - - - -

VAR43 0,00% 4,51113127 11,69531368 0 259,25

VAR44 0,00% 4,284776556 11,34440413 0 264,76

VAR45 0,00% 3,811907232 10,49235678 0 275,25

VAR46 0,00% 3,066532837 8,820406267 0 287,63

VAR47 98,53% 155,9710062 120,7075435 135 77,39

Missing - Dado faltante

CV - Coeciente de Variação em porcentagem

(26)

Tabela 9 Continuação da Tabela 8 - Análise Univariada - Variáveis Quantitativas

Variável % Missing Média Desv Padrão Mediana CV

VAR48 0,00% 161,6083358 102,8287065 171 63,63

VAR49 0,00% 172,2453471 101,9079767 178 59,16

VAR50 100,00% - - - -

VAR51 100,00% - - - -

VAR52 22,76% 14,92553174 7,394359769 17 49,54

VAR53 0,00% -193,1056515 122,8481103 -163 -63,62

VAR54 100,00% - - - -

VAR55 100,00% - - - -

VAR56 100,00% - - - -

VAR57 22,76% 17,0291522 7,192971992 20 42,24

VAR58 27,59% 18,0159273 10,40046635 20 57,73

VAR59 0,00% 171,2197472 101,241493 175 59,13

VAR60 10,86% 0,078213613 1,956630235 0 2501,65

VAR61 10,86% 0,368666113 1,91898101 0,168359771 520,52

VAR62 100,00% - - - -

VAR63 100,00% - - - -

VAR64 100,00% - - - -

VAR65 100,00% - - - -

VAR66 100,00% - - - -

VAR67 0,00% 5,322046369 41,16393807 1,648168701 773,46

VAR68 18,78% 0,401273916 3,325291839 0,144098732 828,68

Missing - Dado faltante

CV - Coeciente de Variação em porcentagem

(27)

Tabela10AnáliseUnivariada-VariáveisQuantitativas VariávelPercentil 0%10%20%30%40%50%60%70%80%90%95%99%100% VAR2100692,5989,011084,051172,91484,951970,119802692,83943,173960599814850 VAR400000000010202530 VAR50000000000021445 VAR60000000000326476 VAR70000000000326476 VAR800000000001539535 VAR900000000021745565 VAR1000000000001539595 VAR1100000000970,711979,942877,34773,1414999,98 VAR150000000000000 VAR1616612121212121218182424 VAR17------------- VAR260000000011111 VAR270,11294,23447,5593,41739,06901,351026,681244,611693,972360,82857,414197,2113505,88 VAR2918,9910,911,916,92028,2940969,261974,042549,893999,9514995,06 VAR30------------- VAR310000000000000 VAR32064,8586,18117,82151,84171,08174,36185,95225,09256,84341,88427,51018,22 VAR33------------- VAR34------------- VAR35------------- VAR36000,4380,99101,74145,36171,11184,65202,86254,5340,58427,712703,08 VAR37026,177,589,94127,66166,07171,11191,33231320,29342,55466,046181,74 VAR380068,8187,47125,85166,15171,12196,62230,92291,27342,22461,56062 VAR390051,0985,59117158,61171,11185,95230,29261,8342,14437,513324,67 VAR400071,2690,99128,33170,37171,78185,95225,83260,94342,14452,834353,75

(28)

Tabela11ContinuaçãoTabela11-AnáliseUnivariada-VariáveisQuantitativas VariávelPercentil 0%10%20%30%40%50%60%70%80%90%95%99%100% VAR410000000000,59181,28365,082992,86 VAR42------------- VAR43000000005202351595 VAR44000000004202251595 VAR45000000002172050595 VAR46000000000152035595 VAR4764811021121171351451691912322924883519 VAR48-2825711071401711932062322703204273885 VAR49041811121541782012172412843264383885 VAR50------------- VAR51------------- VAR5204713131718192125262828 VAR53-749-355-314-230-194-163-143-125-96-53-34-23519 VAR54------------- VAR55------------- VAR56------------- VAR570610141420202024262831231 VAR583610141720202124272852392 VAR59-2140801121531752002172382833244243885 VAR600000000000,0008060,1851130,59337362,795 VAR6100,0833190,0927690,1263260,1446050,168360,20,249990,333320,511,004066100,4097 VAR62------------- VAR63------------- VAR64------------- VAR65------------- VAR66------------- VAR670,4877530,9792071,1668661,318411,4618751,6481691,9257011,9547292,3373,8570935,842782999882 VAR680000,0788130,1018390,1440990,1683560,2016220,2515220,3360540,5010281,004089278,925

(29)

Tabela 12 Análise Univariada - VAR 13

VAR13 %

Missing 99,86757

00 0,13229

0032 0,00014

Tabela 13 Análise Univariada - VAR 23

VAR23 %

Missing 100

Tabela 14 Análise Univariada - VAR 24

VAR24 %

Missing 99,8676

00 0,1323

0041 0,0001

Tabela 15 Análise Univariada - VAR 19

VAR19 %

0 98,95484 1 0,759023 3 0,285999

7 0,00014

Tabela 16 Análise Univariada - VAR 20

VAR20 %

0 99,83

1 0,10

3 0,07

Tabela 17 Análise Univariada - VAR 21

VAR21 %

0 99,96

1 0,03

3 0,01

Tabela 18 Análise Univariada - VAR 22

VAR22 %

1 99,99944

3 0,00056

Tabela 19 Análise Univariada - VAR 25

VAR25 %

0 0,00

1 80,32

2 0,02

3 19,65

Tabela 20 Análise Univariada - VAR 18

VAR18 %

0 0,03

1 73,91

3 15,96

5 10,09

(30)

Tabela 21 Análise Univariada - VAR 12

VAR12 %

1 0,352

3 0,181

4 0,001

5 0,001

6 48,233

7 0,000

8 51,232

Tabela 22 Análise Univariada - VAR 28

VAR28 %

AC 0,57

AL 0,97

AM 0,91

AP 0,24

BA 4,83

CE 4,43

DF 2,29

ES 2,07

GO 5,41

MA 1,96

MG 12,88

MS 0,90

MT 1,64

PA 1,10

PB 1,09

PE 2,84

PI 1,28

PR 5,53

RJ 11,53

RN 1,72

RO 0,45

RR 0,18

RS 5,62

S9 0,00

SC 4,17

SE 0,92

SP 23,46

TO 0,98

(31)

Tabela 23 Análise Univariada - VAR 14

VAR14 %

Missing 0,00098

0 0,00238

0000 9,688817 0001 0,904473 0002 5,568505 0003 0,084554 0004 46,37112 0005 0,113812 0006 0,383711 0007 2,882105 0008 0,645912

0009 2,00955

0010 0,028698

0011 0,40751

0012 1,049642 0013 0,174287 0014 1,083519 0015 0,232803 0016 0,384691 0017 0,031918

0018 0,26626

0019 0,184506 0020 0,039617 0021 0,823699 0022 0,504242 0023 0,453286 0024 0,066915 0025 0,489543 0026 0,017919 0027 0,142509 0028 0,063695

0029 0,13005

0030 0,052916 0031 0,033038 0032 0,032058 0033 0,591176 0035 0,020998 0037 0,019319

0038 0,0028

0039 0,020998 0041 0,042557 0043 0,191086 0044 0,039057 0045 0,038357

(32)

Tabela 24 Continuação Tabela 23 - Análise Univariada - VAR 14

VAR14 %

0046 0,214324 0047 0,091973 0048 0,198365 0049 0,049836

0050 0,00042

0051 0,237142

0052 0,0007

0053 0,080774

0054 0,0042

0055 0,00308

0056 0,322956 0057 0,961728 0059 0,026178

0060 0,00448

0061 0,058376 0062 0,009099 0063 1,315762 0064 0,084694

0065 0,00042

0067 0,021278

0068 0,00238

0069 1,267605 0070 0,012319 0071 0,007979

0072 0,00126

0074 0,013999

0075 0,00028

0076 0,00168

0077 0,013859 0079 0,106532 0080 0,028138

0081 0,0028

0082 0,014419

0083 0,00098

0084 0,010359 0085 0,068175

0086 0,00014

0087 0,00504

0088 0,00126

0089 0,00014

0090 0,00042

0091 0,00028

0092 0,00084

0093 0,00238

0095 0,00084

Tabela 25 Continuação Tabela 23 - Análise Univariada - VAR 14

VAR14 %

0096 0,007699

0097 0,00532

0099 18,38007 0101 0,024078

0102 0,00028

0103 0,0007

0105 0,0014

0107 0,00112

0111 0,00448

0112 0,00476

0113 0,00392

0115 0,0007

Referências

Documentos relacionados

A poorly de- signed plan can affect the latency significantly and lead to disruption in control plane communications by, for example, migrating nodes in a way that forces multiple

A escola, sob a pressão da performatividade, dos exames, dos resultados, dos rankings, do cumprimento do programa, das metas, está, progressivamente, a transformar-se

Os resultados obtidos pelos testes econométricos podem ser vistos como relevantes para a literatura referente, pois indicam não só que, de fato, existe uma

O presente trabalho é fruto de uma trajetória que nos desafiou a analisar as teias de relações no âmbito organizacional à luz das sutilezas das emoções e sentimentos

Ainda no mesmo mês, outra importante nova funcionalidade foi incorporada ao sistema: o envio automático de e-mails a clientes solicitando atualizações

Algoritmo de sistema de colônia de formigas para o problema do job shop fuzzy O algoritmo de colônia de formigas utilizado para resolver o problema do job shop fuzzy é semelhante

u Regular a temperatura para um valor mais elevado (mais quente): Premir o botão de regulação Up do compartimento congelador Fig. A temperatura ajusta- -se gradualmente

Neste contexto, este artigo tem dois objetivos: analisar o impacto do conteúdo online gerado pelos usuários na gestão dos meios de hospedagem em diferentes categorias de