UTILIZAÇÃO DE SUPPORT VECTOR MACHINE EM PREVISÃO DE INSOLVÊNCIA DE EMPRESAS

(1)

UTILIZAÇÃO DE SUPPORT VECTOR MACHINE EM PREVISÃO DE

INSOLVÊNCIA DE EMPRESAS

Rodrigo Arnaldo Scarpel

ITA/IEMB (Engenharia Mecânica-Aeronáutica)

Praça Marechal Eduardo Gomes, 50 ,sala 2311 São José dos Campos, SP CEP: 12.228-900.

Resumo

A análise discriminante paramétrica linear é uma técnica estatística amplamente empregada na classificação de observações em populações, sendo historicamente o método quantitativo mais utilizado em previsão de insolvência. Uma alternativa a essa abordagem é a utilização de support vector machine devido ao seu maior poder de generalização. No presente trabalho, comparamos o desempenho do support vector machine com diferentes abordagens de análise discriminante (linear e quadrática) em previsão de insolvência de empresas.

Palavras-chave: support vector machine, problema de classificação, previsão de insolvência.

Abstract

Parametric linear discriminant analysis is widely used to classify observations within different populations, being historically the most used quantitative method in bankruptcy prediction. An alternative approach is the usage of support vector machine because of its better generalization power. In this paper we compared the performance between support vector machine and different discriminant analysis approaches (linear and quadratic) in enterprises bankruptcy prediction.

Keywords: support vector machine, classification problem, bankruptcy prediction.

1. INTRODUÇÃO

A análise discriminante é historicamente o método quantitativo mais utilizado na determinação dos pesos dos índices em modelos de previsão de insolvência. Ela é uma técnica estatística que permite estudar diferenças entre dois ou mais grupos, em função de um conjunto de informações conhecidas para todos os elementos dos grupos. Em gerenciamento de crédito é possível utilizar análise discriminante para avaliar se determinado cliente (pessoa física ou jurídica) é confiável ou não em termos de risco de crédito, sendo possível, também, estimar a magnitude desse risco, ou seja, se ele é pequeno ou grande.

Diferentes métodos quantitativos como análise discriminante (paramétrica e não paramétrica), regressão logística e, mais recentemente, técnicas de programação matemática como support vector machine são empregados na área de reconhecimento de padrões supervisionado onde o grupo ou a classificação, ao qual os casos ou observações pertencem, são conhecidos. Nesse caso, a tarefa é classificar os casos ou observações futuros ou prever quais dos futuros casos serão enquadrados em cada um dos grupos ou classificações existentes. Nos casos de previsão de insolvência e de credit scoring a classificação é binária, ou seja só há dois grupos ou classificações (bons e maus).

Edward Altman [ALTMAN,1968] foi o pioneiro na utilização de análise discriminante em previsão de insolvência. No Brasil, Stephen C. Kanitz [KANITZ,1978] foi quem propôs a utilização de análise discriminante, desenvolvendo o chamado “Termômetro de Insolvência”, no qual, o autor calibrou uma função chamada Fator de Insolvência para previsão de insolvência de empresas.

(2)

672

Em 1978, Alberto Borges Matias, citado por SILVA (1997), desenvolveu um modelo utilizando análise discriminante, ao trabalhar com 100 empresas de diversos ramos de atividade, das quais 50 eram solventes e 50 insolventes.

Altman et al.(1979), abordam estatísticas baseadas no nível de endividamento sobre o patrimônio líquido de uma amostra de empresas brasileiras. Verificaram que a despesa financeira das empresas teve um crescimento percentual maior que o lucro líquido antes do imposto de renda, concluindo, assim, que as empresas, em geral, vinham endividando-se em escala crescente. Além disso, desenvolveram um modelo para previsão de insolvência e análise da situação financeira de empresas, utilizando análise discriminante em um conjunto de 23 empresas com problemas financeiros e 35 empresas sem problemas financeiros. Na construção desse modelo, utilizaram balanços de três exercícios. Para as empresas com problemas financeiros, usaram a demonstração financeira do ano anterior ao exercício em que ocorreu a falência ou outros problemas e para as empresas sem problemas financeiros, utilizaram as demonstrações financeiras dos anos correspondentes. No que diz respeito às variáveis explicativas, foram utilizadas as mesmas cinco variáveis do modelo original de Altman(1968) com algumas alterações, devido à necessidade de compatibilizar o modelo com as demonstrações financeiras feitas pelas empresas brasileiras. Quanto à escolha das empresas, consideraram como empresas com problemas financeiros, aquelas com pedidos formais de falência ou concordata, com soluções extrajudiciais com intervenção do credor na reorganização da empresa, ou aquelas que encerraram suas atividades sem recorrer a meios legais.

Em 1982, José Pereira da Silva, citado por SILVA (1997), desenvolveu um modelo para classificação de empresas com vistas à concessão de crédito, utilizando análise discriminante. O modelo desenvolvido visou, inicialmente, auxiliar em operações de crédito de curto prazo para empresas médias e grandes.

Modelos que utilizam outros métodos quantitativos são objetos de contínua investigação, sempre objetivando a melhoria das decisões de crédito. Dentre esses outros modelos estão os de programação linear inteira, como o desenvolvido por Gehrlein e Wagner (1997), os modelos econométricos, como os desenvolvidos por Scarpel (2000) e Scarpel e Milioni (2001) e os modelos discriminantes não paramétricos testados por Scarpel (2003).

No presente trabalho, objetivou-se comparar o desempenho do support vector machine e diferentes abordagens de análise discriminante (linear e paramétrica quadrática) em previsão de insolvência de empresas.

2. SUPPORT VECTOR MACHINE

Segundo Vapnik (1999), o “support vector machine” (SVM) é um procedimento construtivo universal de aprendizagem baseado em “statistical learning theory”. O termo universal significa que o SVM pode ser utilizado para o aprendizado de várias representações como as redes neurais, as funções de base radial, “splines” e funções polinomiais.

Tratando-se de classificação binária, o problema é o de achar uma função paramétrica, linear ou não, para um hiperplano de separação dos pontos em dois conjuntos no Rm, em que m é o número de dimensões existentes. No caso onde o problema seja separável por um hiperplano linear com um conjunto de N observações xi = (xi1,..., xim) e respostas binárias yi ∈ -1,1 têm-se três hiperplanos:

1. Hiperplano de Separação: H0: y = w t

x + b = 0 que separa as observações. 2. Hiperplano Superior: H1: y = w

t

x + b = +1 que é definido por pelo menos 1 ponto pertencente ao grupo com y = +1.

3. Hiperplano Inferior: H2: y = wtx + b = -1 que é definido por pelo menos 1 ponto pertencente

ao grupo com y = -1.

A Figura 1 ilustra os hiperplanos de separação, superior e inferior no espaço m=2.

Os pontos que definem os hiperplanos H1 e H2 são chamados de “support vectors” e a orientação

do plano de separação (H0) é feita de forma que a distância entre H1 e H2 seja máxima [Cherkassky

(3)

673

Figura 1 – Hiperplanos de Separação, superior e inferior formados no espaço m=2.

Uma vez que a distância entre os hiperplanos H1 e H2 é calculada por w

w w H H

D( ₁, ₂)= 2 = 2_t e o objetivo é encontrar os parâmetros w que maximizem essa distância, define-se a função objetivo do problema como sendo

w

Minimizar

t

2

1

Como restrição, no problema separável por um hiperplano linear, para que não haja pontos entre H1 e H2 faz-se w

t_{x - b ≥ +1 para y = +1 e w}t_{x - b ≤ -1 para y = -1. Essas duas restrições podem}

ser combinadas fazendo com que a formulação matemática desse problema tenha como restrição

y(w

t

x - b) ≥ +1

Assim, esse problema de separação tem m+1 incógnitas (w1,…,wM,b). A estimativa dos

parâmetros é definida pelos pontos sobre H1 e H2, chamados de “support vectors”, de forma que os outros pontos podem ser movidos livremente sem alterar o resultado da otimização.

A extensão natural desse modelo é o tratamento dos problemas não separáveis por um hiperplano linear. Nesse caso, introduz-se N variáveis de folga (ξi ≥ 0, i=1,…,N), de forma a criar uma penalidade na função objetivo e uma folga nas restrições. Portanto, a formulação do problema de separação no caso inseparável por um hiperplano linear é

x

1 x

2

y = wtx + b = 0 y = wtx + b = +1 y = wtx + b = -1 w 1

⎟

⎠

⎞

⎜

⎝

⎛

+

∑

= N 1 i

C

2

1 w

t

w

_i

Min

ξ

(4)

674 S.A. y

i

(w

t

x

i

- b) ≥ +1 - ξ

i

ξi ≥ 0, i=1,…,N

em que C é uma constante de penalização (C > 0). Esse problema tem N+m+1 incógnitas (ξ1,…,ξN,w1,…,wM,b).

3. ANÁLISE DISCRIMINANTE

Segundo Huberty (1994), a análise discriminante implica na estimativa das densidades de probabilidades específicas nas diferentes populações. Para estimar essas densidades específicas, utilizam-se duas abordagens, a paramétrica e a não paramétrica. Em relação a escolha da função discriminante, segundo Webb (2002), ela pode depender do conhecimento prévio dos padrões que serão utilizados no processo de classificação ou pode-se optar por utilizar uma forma funcional específica com parâmetros estimados utilizando o conjunto de treinamento.

Na abordagem paramétrica assume-se que os dados seguem uma distribuição normal conhecida com os parâmetros média (μi) e matriz de variância-covariância (Ci) também conhecidos

(X~ Np{μi,Ci}). A equação 1 demonstra a função de densidade de probabilidade normal para uma

amostra x, no caso p-dimensional, com matriz de variância-covariância C, com centro de distribuição em x=μi (com i=1,...,k) e para x pertencente a classe i.

(1)

para

)]

(

)

(

)

(

2

1 exp[

)

(

)

2 (

)

(

p/2 _i 1/2 _i T _i 1 _i p i

x

C

x

C

x

p

=

π

− −

−

μ

−

μ

∈

ℜ

A abordagem paramétrica é utilizada, principalmente, com os métodos linear e quadrático. No método discriminante linear, a matriz de variância-covariância utilizada é a média das matrizes Ci. Assim, por esse método, considera-se que as classes apresentam as mesmas

características de dispersão, com matrizes de variância-covariância iguais nas diferentes classes [Khattree e Naik, 2000].

A função discriminante linear g(x) é composta pela combinação linear dos componentes de

x = (x1,...,xc)T de forma que

(2)

)

(

1 0 0

∑

=

+

=

+

=

c i i i T

w

x

w

x

w

x

g

A equação 2 é a equação do hiperplano ou superfície que separa as classes.

No método discriminante quadrático, a matriz de variância-covariância utilizada é aquela estimada em cada classe [Khattree e Naik,2000]. Assim, no processo de classificação pelo método discriminante quadrático, leva-se em conta a característica da dispersão própria de cada classe. Nesse caso a superfície de separação entre as classes terá uma forma paramétrica quadrática.

4. UTILIZAÇÃO DE SUPPORT VECTOR MACHINE E ANÁLISE DISCRIMINANTE EM PREVISÃO DE INSOLVÊNCIA

O modelo de previsão de insolvência foi construído utilizando índices financeiros calculados a partir dos dados do balanço e do demonstrativo de resultados emitidos pelas empresas. Buscando abranger as análises de liquidez, de atividade e de lucratividade, selecionou-se o índice mais representativo de cada uma dessas análises, de forma que o modelo construído fizesse uma análise completa a partir de índices normalmente utilizados e de amplo conhecimento.

O índice selecionado referente à análise de liquidez foi o de liquidez corrente (LC). Esse índice é calculado dividindo-se o ativo circulante (caixa, estoques e contas a receber) pelo passivo circulante (obrigações a vencer no próximo exercício). Assim, esse é um índice que se relaciona de forma inversamente proporcional ao risco de curto prazo da empresa, pois indica quanto a empresa

(5)

675

possui em dinheiro, em bens e direitos realizáveis no curto prazo, comparado com as dívidas a serem pagas no mesmo período. Naturalmente, a interpretação do índice de liquidez corrente é no sentido de quanto maior, melhor.

No que diz respeito a análise de atividade, que também é conhecida como análise de eficiência, escolheu-se o índice giro do ativo total (GA). Esse índice relaciona-se à eficiência da empresa na utilização do seu ativo total na geração de receita, uma vez que é calculado dividindo a receita (ou vendas) total pelo ativo total. A interpretação do giro do ativo total é no sentido de quanto maior, melhor, uma vez que um baixo valor do giro de ativo indica que a empresa está gerando pouca receita a partir dos ativos que possui.

Na análise de lucratividade, o índice utilizado foi a taxa de retorno sobre o ativo total (ROA). Esse índice é calculado dividindo-se o lucro líquido pelo ativo total, medindo a eficiência global da administração na geração de lucros a partir de seus ativos. Assim, quanto mais alto for esse índice, melhor.

Em relação aos dados das empresas do presente estudo, utilizou-se somente dados de empresas de capital aberto, uma vez que suas demonstrações financeiras estão disponíveis na Comissão de Valores Mobiliários (CVM) e na Bolsa de Valores do Estado de São Paulo (Bovespa).

Adotou-se o mesmo critério de Matias (1978) para a diferenciação entre empresas solventes e insolventes, ou seja, empresas solventes são aquelas que desfrutam de crédito amplo no sistema bancário, sem restrições ou objeções a financiamentos ou empréstimos, enquanto empresas insolventes são aquelas que tiveram processos de concordata, requerida e/ou diferida, e/ou falência decretada.

Para a seleção das empresas insolventes, fez-se uma busca no Suplemento de Orientação ao Investidor editado semanalmente pela Bovespa, uma vez que ele publica os nomes das empresas concordatárias negociadas nessa bolsa de valores. Acompanhando as edições desse suplemento de agosto de 1995 a fevereiro de 1999, foi possível identificar as empresas que entraram em concordata nesse período, assim como as que saíram da concordata (faliram ou retornaram à situação operacional), além das que permaneceram concordatárias. Fez-se também um levantamento, com o auxílio da CVM, das empresas de capital aberto que faliram nos anos de 1996, 1997 e 1998. Dessa forma foram identificadas 39 empresas como insolventes.

No caso das empresas solventes, foram selecionadas 60 empresas com base em informações publicadas nas revistas Conjuntura Econômica e Exame (edição das Maiores e Melhores).

As 99 empresas solventes e insolventes selecionadas foram particionadas aleatoriamente em 2 conjuntos, os quais foram utilizados no treino e na validação dos modelos. No conjunto de treino dos modelos, ficaram os dados de 18 empresas insolventes e de 32 empresas solventes e no conjunto de validação ficaram os dados de 17 empresas insolventes e 32 empresas solventes.

A Figura 2 apresenta a distribuição das empresas insolventes (×) e solventes (•) nos conjuntos de treino e de validação em função das 3 variáveis utilizadas no trabalho (ROA, LC e GA).

A validação dos modelos foi feita utilizando as matrizes de confusão geradas a partir dos conjuntos de treino e de validação dos modelos. A matriz de confusão com os dados de treino do modelo foi feita para garantir que não está havendo over fitting.

As Tabelas 1, 2 e 3 apresentam as matrizes de confusão obtidas a partir dos conjuntos de calibração e de validação, para os modelos SVM, e de análise discriminante paramétrica linear e quadrática, respectivamente.

Verifica-se, a partir das matrizes de confusão (Tabelas 1, 2 e 3) que os modelos paramétricos linear e quadrático foram muito mais eficientes na classificação das empresas insolventes do que na classificação das empresas solventes, tanto no conjunto de treino como na conjunto de validação.

O SVM classificou corretamente 43 das 50 empresas no conjunto de treino, o que representa uma eficiência de 86% e 42 das 49 empresas no conjunto de validação, o que representa uma eficiência de 85,7%. Já o modelo de análise discriminante paramétrica linear classificou

(6)

676

corretamente 39 das 50 empresas no conjunto de treino, o que representa uma eficiência de 78% e 40 das 49 empresas no conjunto de validação, o que representa uma eficiência de 81,6%.

Figura 2 - Distribuição das empresas insolventes (×) e solventes (•) nos conjuntos de treino e de validação para as variáveis liquidez corrente (LC), giro do ativo (GA) e retorno sobre o ativo (ROA).

Tabela 1 – Matrizes de confusão dos conjuntos de treino e validação para o SVM.

PARA PARA TREINO SOLVENTE INSOLVENTE VALIDAÇÃO SOLVENTE INSOLVENTE SOLVENTE 86,7% 14,3% SOLVENTE 86,7% 14,3% DE INSOLVENTE 13,3% 85,7% DE INSOLVENTE 13,3% 85,7%

Tabela 2 – Matrizes de confusão dos conjuntos de treino e validação para a discriminante linear.

Tabela 3 – Matrizes de confusão dos conjuntos de treino e validação para a discriminante quadrática.

O modelo de análise discriminante paramétrico quadrático classificou corretamente 38 das 50 empresas no conjunto de treino, o que representa uma eficiência de 76% e 38 das 49 empresas no conjunto de validação, representando uma eficiência de 77,5%.

Comparando o desempenho das três abordagens verifica-se que além do SVM ser a mais eficiente na classificação das empresas, tanto no conjunto de treino como na validação, este também foi o método mais consistente se compararmos as performances nos dois conjuntos, indicando assim que este é um método com grande poder de generalização.

(7)

677

5. CONCLUSÃO

Dentre os modelos existentes na literatura de reconhecimento de padrões, os modelos discriminantes paramétricos são reconhecidamente os mais utilizados. Porém, até então, em previsão de insolvência, a utilização se restringe aos modelos discriminantes paramétricos lineares.

Verificou-se, a partir de uma amostra de empresas, que possibilidades de ganho existem se utilizarmos outras metodologias como o SVM, que tem como vantagens:

- Melhor desempenho previsão de insolvência; - Maior poder de generalização da previsão;

- Rápida convergência do algoritmo, isto porque apenas os “support vectors” são restrições ativas no modelo.

Outros ganhos de eficiência da abordagem por support vector machine, em previsão de insolvência, podem ser obtidos pela incorporação de outras formas funcionais como modelos polinomiais e RBF (radial-basis-function), o que futuramente será explorado.

6. BIBLIOGRAFIA

[1] Altman, E.L. (1968). Financial ratios, discriminant analysis, and the prediction of corporate bankruptcy. Journal of Finance, v. 23, n. 4, p. 589-609.

[2] Altman, E.L., Baidya, T.K.N., Dias, L.M.R. (1979). Previsão de problemas financeiros em empresas. Revista de administração de empresas, v. 19, n. 1.

[3] Cherkassky, V., Mulier, F. (1998). Learning from data. John Wiley & Sons, Inc.

[4] Gehrlein, W.V., Wagner, B.J. (1997). A two-stage least cost credit scoring model. Annals of Operations Research, v. 74, p. 159-171.

[5] Huberty, C. J. (1994). Applied Discriminant Analysis. Wiley Series in Probability and Mathematical Statistics. Ed. John Wiley & Sons, Inc..

[6] Kanitz, S.C. (1978). Como prever falências. São Paulo: Mc-Graw-Hill.

[7] Khattree, R., Naik, D.N. (2000). Multivariate data reduction and discrimination with SAS software. Cary, NC: SAS Institute Inc.

[8] Matias, A.B. (1978). Contribuição às técnicas de análise financeira: um modelo de concessão de crédito. Tese (Doutorado) - Departamento de Administração da Faculdade de Economia, Administração e Contabilidade da Universidade de São Paulo.

[9] Silva, J.P. (1997) Gestão e análise de risco de crédito. São Paulo: Editora Atlas.

[10] Scarpel, R.A. (2000). Modelos Matemáticos em Análise Financeira de Empresas, de Setores Industriais E de Crédito. Tese apresentada no Curso de Engenharia Aeronáutica e Mecânica do Instituto Tecnológico de Aeronáutica, São José dos Campos, SP.

[11] Scarpel, R.A., Milioni, A.Z. (2001). Aplicação de modelagem econométrica à análise financeira de empresas. RAUSP - Revista de Administração da USP, 36, 80,88.

[12] Scarpel, R.A. (2003). Modelos de previsão de insolvência : uma abordagem discriminante paramétrica e não paramétrica. SPOLM (Simpósio de Pesquisa Operacional e Logística da Marinha), Rio de Janeiro.

[13] Webb, A. (2002). Statistical Pattern Recognition. Ed. John Wiley & Sons,Inc, 2a.edição.

[14] Vapnik, V. N. (1999). An overview of statistical learning theory. IEEE Transactions on neural networks, Vol.10, No.5.