• Nenhum resultado encontrado

2. Base de Dados

3.4 Regressão Logística

A análise Logit ou regressão logística é uma técnica estatística utilizada na separação de dois grupos, que visa obter a probabilidade de que uma observação pertença a um conjunto determinado, em função do comportamento das variáveis independentes. Na aplicação ao risco de crédito, esta técnica é utilizada para avaliação da inadimplência de determinado grupo de clientes em relação à concessão de crédito, assumindo que a probabilidade de inadimplência é logisticamente distribuída, com resultado binomial 0 ou 1. A equação geral da regressão logística pode ser escrita como:

ou Y = (3)

A esperança condicional E (Y/X) é então representada pela seguinte função:

(4)

onde π(X), por comodidade, representa E[Y/X]; X representa o conjunto de variáveis explicativas X1, X2, ... , Xj; β representa os parâmetros a serem estimados β0, β1 , ... , βj.

Esta função assume valores ajustados no intervalo [0,1], propriedade muito importante no estudo de dados binários, e é não linear em seus parâmetros.

O valor da variável dependente Y é então dado por:

Y = π(X) + ε (5)

onde o termo ε refere-se ao erro aleatório, representado pela diferença entre o valor observado de Y e a esperança condicional de Y dado X.

Os parâmetros desconhecidos do modelo são geralmente estimados pelo método da máxima verossimilhança, maximizando-se a função de log-verossimilhança L(β) abaixo:

(6)

Os valores estimados β0, β2 , ... , βjsão os que maximizam L(β) e são obtidos derivando-se L(β) em relação a cada um dos parâmetros e igualando as expressões resultantes, denominadas equações de verossimilhança, iguais a zero:

(7)

Na segunda equação de verossimilhança estão representadas p variáveis explicativas contidas em Xi.

Considerando a utilização da técnica CHAID para categorizar as variáveis explicativas, estas estão representadas por variáveis dummy (variáveis que assumem valores 0 ou 1). Assim, se existem 3 variáveis explicativas, cada uma com 3 categorias, teremos 6 dummies criadas (2 para cada variável). A tabela abaixo retrata um exemplo hipotético para o caso de 3 variáveis exemplificadas:

TABELA 14 - Exemplo de variáveis dummies categorizadas

variáveis dummy Variável Explicativa Categoria D11 D12 D21 D31 D32 1 - até 1 imóvel 1 0 . . . 2 - 2 imóveis 0 1 . . . Qtde de imóveis

3 - 3 ou mais imóveis (categoria de

referência) 0 0 . . . 1 - feminino . . 1 . . Sexo 3 –masculino . . 0 . . 1 - até R$9.950,00 . . . 1 0 2 - de R$9.950,00 a R$12.450,00 . . . 0 1 Valor do veículo 3 - R$12.451,00 ou mais (categoria de referência) . . . 0 0

A categoria selecionada como referência (quando as demais dummies de sua categoria forem iguais a 0) foi aquela que apresentou o maior número de casos em sua categoria. Por exemplo, se a variável “sexo” possui mais representantes da categoria “masculino”, esta será a dummy de referência, sendo representada pela combinação das demais dummies de sua categoria.

O score da proponente ao crédito é calculado multiplicando-se o resultado da expressão (4) (probabilidade deste proponente ser um cliente bom) por 100. Assim, se o resultado da expressão for 0,90, teremos um score de 90, ou seja, há 90% de probabilidade deste tomador ter a qualidade de crédito igual a 1 (crédito bom), dadas as características do tomador.

3.4.1 Método para seleção das variáveis explicativas – foward stepwise

A variável dependente na regressão logística do modelo credit scoring é a qualidade de crédito da operação, a qual deverá ser classificada por 45 potenciais variáveis explicativas. É possível que algumas destas potenciais variáveis mostrem-se não significantes estatisticamente, ou seja, forneçam informações não relevantes à qualidade de crédito. Assim, faz-se necessária a escolha de um método para seleção das variáveis explicativas mais relevantes à predição da variável resposta. Alguns dos métodos comumente utilizados são o

foward stepwise, backward stepwise e enter, os quais possuem diferenças sutis entre si.

O método enter é utilizado quando se conhece previamente quais as variáveis explicativas são relacionadas à qualidade de crédito, tornando-se indispensáveis ao modelo. Desta forma, o modelo é estimado “forçando” a presença destas variáveis na equação final, testando os coeficientes estimados e o poder de classificação do modelo.28

O método stepwise computa uma seqüência de equações de regressão, adicionando ou deletando uma variável explicativa em cada passo, de acordo com a significância estatística de entrada e saída desta variável29. A rotina de regressão stepwise permite que uma variável independente, trazida para dentro do modelo em um estágio anterior, seja removida subseqüentemente se ela não ajudar na conjunção com variáveis adicionadas nos últimos estágios. Esta rotina empregada conduz a um teste para rastrear alguma variável independente que seja altamente correlacionada com variáveis independentes já incluídas no modelo. As principais variantes do método stepwise são duas: foward e backward stepwise, cujas diferenças são apenas pequenas modificações no seu algoritmo básico. Em suma, o método

backward parte de um modelo inicial com todas as possíveis variáveis explicativas, que vão

sendo testadas e eliminadas caso o nível de significância de exclusão seja inferior ao nível de significância da variável em teste. Este procedimento é executado a cada uma das variáveis até se chegar a um modelo final com as variáveis relevantes. Já o método foward stepwise se inicia com um modelo sem nenhuma variável explicativa e a cada passo são incluídas

28 GAZOLA, Sebastião. Construção de um modelo de regressão para avaliação de imóveis. Florianópolis:

Dissertação de Mestrado. Universidade Federal de Santa Catarina, 2002.

variáveis relevantes, caso o nível de significância de inclusão seja superior à significância da variável em teste, até a obtenção do modelo final30.

O método escolhido no presente trabalho para as regressões logística e de análise de sobrevivência foi o foward stepwise, enquanto os níveis de significância de entrada e saída de variáveis explicativas foram respectivamente de 0,15 e 020, para que se garanta a presença de variáveis importantes e com coeficientes significativamente diferentes de zero31. A utilização do método backward stepwise também é possível, mas frequentemente os resultados obtidos são idênticos aos da opção foward, conforme constatado em Vasconcellos (2002).