2.5 Trabalhos correlatos
2.5.2 Credit scoring e os MCS
Diante da ’fraqueza’ de alguns modelos individuais de classificadores, algumas pesquisas passaram a ser feitas na direção de se usar métodos baseados em sistemas de múltiplos classificadores (MCS), com o objetivo de obter melhores resultados em problemas relacionados à avaliação de crédito (Wo´zniak et al., 2014).
2.5.2.1 Classificadores base e métodos de geração de ensembles
Na busca por identificar quais modelos de classificadores base seriam os me- lhores para serem usados em ensembles no contexto do credit scoring, Marqués
et al. (2012a) avaliaram 7 modelos de classificador – 1-nearest neighbour (1-NN), naive Bayes classifier (NBC), logistic regression (logR), multilayer perceptron (MLP), radial basis function (RBF) e support vector machine (SVM), decision tree (DT), em 5 diferentes métodos de geração de ensembles– Bagging, Boosting, RS, DECORATE, RF.
Este trabalho concluiu que, dentre o os 7 modelos avaliados nos 5 métodos utilizados, a árvore de decisão (DT) era o melhor modelo de classificador base para ser adotado em MCS para credit scoring, seguido de perto pelo MLP e da Regressão Logística (método estatístico).
Por sua vez, Nanni e Lumini (2009) investigaram o desempenho dos métodos de geração de ensembles no mesmo contexto da predição de falência e credit
scoring. Neste estudo foram avaliados 4 diferentes métodos: Bagging, Random Subspace, Class Switching, Rotation Forest, cada um utilizando 4 tipos de classi-
ficadores base diferentes – Rede Neural treinada com o algoritmo de Levenberg-
2.5. TRABALHOS CORRELATOS final, a análise permitiu concluir que, entre os métodos analisados, o Random
Subspace (Ho, 1998) foi o de melhor desempenho para aplicações de predição
de falência e credit scoring.
2.5.2.2 Incrementando a diversidade e a precisão
Wang et al. (2012) realizaram um trabalho com o objetivo de construir um método, baseado em sistemas de múltiplos classificadores, que potenciali- zasse a utilização de classificadores fracos, como Árvores de Decisão (DT), em aplicações de credit scoring. A proposta do trabalho consistiu fundamental- mente na indução de maior diversidade entre os classificadores do ensemble por meio da utilização de uma estratégia dual de treinamento, utilizando para isso dois dos mais tradicionais métodos para construção de MCS: Bagging e
Random-Subspace (RS). Esses métodos foram escolhidos pelas suas capacida-
des de ampliarem a precisão dos classificadores, ao tratarem dados com ruídos e redundância de atributos, respectivamente.
Esta estratégia dual é assim considerada, porque há dois tratamentos em
sequência a serem aplicados sobre os dados:a)redução de ruídos eb)redução
da redundância de atributos. E, como esses tratamentos podem ser proces-
sados em duas sequências diferentes: a) primeiro reduz o ruído e depois a
redundância de atributos, oub)primeiro reduz a redundância e depois reduz o
ruído, foi possível a criação de duas estratégias de criação de ensembles de DT:
Bagging-RS DT e RS-Bagging DT. Em cada uma dessas estratégias, é produzido
um ensemble final, composto por subensembles de DT, sendo a classificação final obtida pela combinação dos resultados desses subensembles.
Os resultados deste trabalho mostraram que ambas as estratégias (Bagging-
RS DT e RS-Bagging DT ) superaram, em termos de taxa de acerto, tanto classi-
ficadores simples (single classifiers) como ensembles simples, ou seja, aqueles produzidos por métodos tradicionais. Como consequência desses resultados, o uso de comitês de DT treinados sob esta estratégia dual tornou-se mais uma alternativa eficaz para solução de problemas de avaliação de crédito.
Seguindo a mesma linha de indução de diversidade, com aumento da preci-
são do ensemble, Marqués et al. (2012b) avaliaram outras possibilidades de uso
da estratégia dual de formação de ensembles, a qual denominaram de estratégia
de treinamento em 2 níveis. Neste trabalho, foi experimentada a combinação
2.5. TRABALHOS CORRELATOS (Bagging e Adaboost ) e 2 baseados em seleção de atributos (RandomSubspace
e Rotation Forest ). Sendo assim, os 4 métodos combinados entre si geraram 8
possibilidades de combinação. Nessa pesquisa também adotou-se a DT como classificador base.
A conclusão de Marqués et al. (2012b) é semelhante à de Wang et al. (2012), ou seja, com a diversidade proporcionada pela combinação dos métodos, além da redução dos ruídos e da redundância, esta estratégia de treinamento e cons- trução do ensemble em 2 níveis alcança resultados satisfatórios para aplicações de credit scoring. O desempenho preditivo dos sistemas produzidos por este método foi melhor do que o de comitês formados por métodos simples e tra- dicionais, e, significativamente melhor do que os obtidos por classificadores individuais (single classifiers).
Uma diferença importante entre esses dois trabalhos está na forma de en- contrar a classificação final. Em Marqués et al. (2012b), para cada uma das 8 possibilidades de combinação é gerado apenas um único comitê composto
por uma quantidade de classificadores individuais igual a M × L, sendoM a
quantidade de subamostras de dados geradas durante a execução do método de treinamento do primeiro nível, e L a quantidade de subamostras geradas durante a execução do método do segundo nível. Ao final, é feita uma única operação de combinação das saídas de todos os classificadores membros do
ensemble.
2.5.2.3 Otimizando a eficiência dos ensembles
Conforme observado na seção1.1, na medida em que se aumenta a quantidade de classificadores do ensemble na busca por melhores taxas de acerto, amplia-se a necessidade de memória e tempo de processamento. Para tratar desse efeito colateral na utilização de MCS, a poda de ensembles é uma abordagem sobre a qual diversos autores têm se debruçado nos últimos anos (Martínez-Muñoz e Suárez (2006),Martinez-Muñoz et al. (2009), Lu et al. (2010),Dai (2013)). A
poda de ensembles visa encontrar subensembles que possuam desempenho
equivalente ou superior ao ensemble completo.
As abordagens para encontrar esses subensembles mais eficientes do que o
ensemble completo podem ser agrupadas em duas grandes categorias (Lu et al.,
2010):(1)as que tratam essa busca como um problema de otimização matemá-
2.5. TRABALHOS CORRELATOS em algum critério predefinido, como por exemplo, a taxa de acerto dos classifi- cadores, e selecionam um subconjunto desta lista ordenada.
Para fins desta pesquisa, priorizamos as abordagens da segunda categoria. Especificamente, Martínez-Muñoz e Suárez (2006) e Lu et al. (2010) desen- volveram os métodos de poda Orientation Ordering (OO) e o EPIC - Ensemble
Prunning via Individual Contribution Ordering (EPIC), respectivamente. Ambos
os métodos utilizam o Bagging para realizar o treinamento dos classificadores que irão compor o pool inicial.
Em seguida, os classificadores são ordenados, adotando-se como chave de ordenação uma medida indicativa do quanto cada classificador contribui para melhoria da taxa de acerto global do ensemble. Ao final os classificadores são selecionados segundo um critério específico de seleção, formando assim o
subensemble a ser utilizado nos testes.
Em ambos os trabalhos, o desempenho do subensemble superou o do en-
semble completo, atingindo taxas de poda entre 70% e 85%. É interessante
observar que os experimentos de Martínez-Muñoz e Suárez (2006) foram re- alizados sobre diversas bases, dentre elas algumas com entradas relativas a perfis de tomadores de empréstimo, usadas, inclusive, em pesquisas sobre aprendizagem de máquina aplicadas a credit scoring.
3
Arquitetura proposta
A natureza ama a simplicidade.
—KEPLER (1619)
A arquitetura proposta, descrita neste capítulo, baseia-se em sistemas de múltiplos classificadores (MCS) otimizados por métodos de poda de ensembles. Essa arquitetura é dividida em 3 (três) grandes fases - Treinamento, Poda e
Teste. Na fase de treinamento é produzido um único pool de classificadores, cujas predições são combinadas a fim de produzir a decisão final desse pool ou ensemble. Antes, contudo, da efetiva combinação dessas saídas, o ensemble produzido na primeira fase é submetido a um processo de poda, com o objetivo de reduzir os custos computacionais decorrentes do processamento da predição final do sistema, sem que haja perda, ou até obtendo-se ganho, no desempenho preditivo do ensemble. Na última fase, o ensemble obtido pelo processo de poda é finalmente testado por meio de um método de fusão de classificadores.
O capítulo está estruturado da seguinte forma: na seção 3.1 é apresentada uma visão geral da arquitetura proposta; nas seções 3.2, 3.3 e 3.4 são descritas, respectivamente, as 3 fases que compõem a arquitetura – Treinamento, Poda e Teste; por fim, na seção 3.5 são relacionados os conceitos e fundamentos da teoria de combinação de classificadores nos quais se baseou o modelo proposto nesta pesquisa.
3.1. VISÃO GERAL DA ARQUITETURA
3.1
Visão geral da arquitetura
Conforme já mencionado, a arquitetura proposta neste trabalho possui 3 (três) fases - Treinamento, Poda e Teste (Figura 3.1). Na primeira fase, um único pool
de classificadoresL = {l1, ..., lm}é treinado a partir de uma estratégia de treina-
mento, na qual há a composição de dois métodos de geração de ensembles, visando induzir uma maior diversidade entre os seus componentes (Marqués
et al., 2012b). No caso específico da aplicação da arquitetura proposta a pro-
blemas de credit scoring, os métodos de geração utilizados foram escolhidos em função de suas capacidades em lidar com ruídos e com redundância de
atributos. Na fase seguinte, o poolLé submetido a um processo de poda, cujo
método utiliza o conceito de agregação ordenada dos classificadores (Martınez- Munoz e Suárez, 2004). O processo de poda visa selecionar um subensemble
P = {p1, ..., pk},P ⊂ L, que possua um desempenho igual ou melhor queL, com
menor necessidade de recursos computacionais de memória e processador.
Na última fase, o ensemble podadoP é avaliado utilizando um método não-
ponderado de combinação dos classificadores-membros, no qual todos os componentes do ensemble opinam sobre todos os padrões apresentados nesta fase.
Os arquivosDB1,DB2eDB3usados como entradas nas 3 fases descritas na
Figura 3.1 são subconjuntos disjuntos de uma mesma base de dados. Embora as quantidades de registros de cada subconjunto de dados sejam diferentes, todos preservam a mesma proporcionalidade em relação às classes existentes na base de dados completa.