• Nenhum resultado encontrado

Soluções Neurais Híbridas para o Processo de KDD

7. ESTUDO DE CASO: ANÁLISE DE RISCO DE CRÉDITO

7.5. Soluções Neurais Híbridas para o Processo de KDD

Analisando os resultados obtidos, é possível identificar as vantagens e desvantagens dos modelos e técnicas investigados quando aplicados ao problema de análise de crédito.

Apesar de ter apresentado um desempenho (taxa de classificação) aproximadamente igual ao dos modelos MLP e FuNN, o modelo FWD possui uma grande limitação: capacidade de resolver apenas problemas linearmente separáveis. Além desta limitação, as regras extraídas de uma rede FWD são bastante extensas, o que dificulta o entendimento do conhecimento minerado. A funcionalidade do modelo FWD que tem se destacado bastante é a seleção de atributos. Em [Li et al. 2002] 50% dos atributos foram removidos. Em [Amorim et al. 2003], a rede foi validada com duas bases de dados

médicas. Na primeira base, 11% dos atributos foram removidos. Na segunda base, 50%. Nesta dissertação, que lida com uma base de dados extensa e de alta dimensionalidade, 61% dos atributos foram removidos. Estes resultados experimentais demonstram a efetividade e a viabilidade prática da técnica de seleção de atributos do modelo FWD. Portanto, este modelo é bastante promissor para ser aplicado na etapa de seleção de dados do processo de KDD.

Ao contrário da rede FWD, os modelos MLP e FuNN são capazes de resolver problemas não linearmente separáveis. Por esta razão, estes modelos são mais adequados para serem aplicados na etapa de mineração de dados.

Com relação à extração de regras do modelo FuNN, a técnica AREFuNN se destacou mais do que a técnica REFuNN, apresentando regras menores e mais precisas. No entanto, quando os conjuntos de regras extraídos pelas duas técnicas são agrupados, a precisão é melhorada. A interpretação dessas regras pode ser facilitada a partir da aplicação de técnicas visuais que representem as funções de pertinência das condições e conclusões das regras e o mecanismo de inferência fuzzy decorrente da aplicação de um exemplo ao sistema.

A técnica TREPAN apresentou desempenho (taxa de classificação) aproximadamente igual ao da rede MLP e a fidelidade da árvore de decisão extraída foi bastante representativa (85,78%). Com relação à seleção de atributos realizada com o auxílio da árvore de decisão, apesar de ter ocorrido um decréscimo na média da taxa de classificação na maioria dos modelos, tal técnica mostrou resultados satisfatórios quando aplicada aos modelos FuNN e MLP. Considerando o aspecto de extração de conhecimento, TREPAN gerou uma árvore de decisão bastante simples. Como resultado, a interpretação e aplicação direta do conhecimento extraído foram facilitadas. Portanto, TREPAN pode ser usada nas etapas de apresentação do conhecimento e seleção de dados.

A partir da constatação das vantagens e desvantagens de cada modelo e técnica, foi possível propor duas soluções neurais híbridas para o processo de KDD utilizando os modelos e técnicas investigados. As Figuras 7.17 e 7.18 mostram as soluções propostas.

Na primeira solução (Figura 7.17), a técnica de seleção de atributos da rede FWD é usada na etapa de seleção de dados. Após a identificação dos atributos relevantes, aplica-se a base reduzida (sem os atributos irrelevantes) à rede FuNN. Quando o treinamento da rede FuNN é finalizado, as técnicas de extração de regras REFuNN e AREFuNN podem ser utilizadas de duas formas: aplicar a técnica AREFuNN isoladamente ou em conjunto com a técnica REFuNN. O objetivo desta fase é apresentar o conhecimento incorporado pela rede na forma de regras fuzzy Se-Então.

Como a base de dados resultante do processo de seleção de atributos da rede FWD não pode ser mapeada para a base de dados utilizada pela técnica TREPAN, única técnica investigada nesta dissertação que extrai conhecimento de uma rede MLP, o modelo MLP não é aplicado na etapa de mineração de dados desta solução.

Na segunda solução (Figura 7.18), a técnica de seleção de atributos utilizando a árvore de decisão extraída por TREPAN é usada na etapa de seleção de dados. Como esta técnica mostrou resultados melhores para os modelos MLP e FuNN, estes modelos são utilizados na etapa de mineração de dados. Outro motivo que levou à aplicação dos modelos MLP e FuNN na etapa de mineração de dados é a capacidade destes modelos resolver problemas não linearmente separáveis. Na etapa de apresentação do conhecimento, quatro alternativas podem ser aplicadas. Como TREPAN não faz

nenhuma restrição com relação à arquitetura da rede ou ao algoritmo de treinamento aplicado, esta técnica pode ser usada em conjunto com a rede FuNN ou MLP. Outras possibilidades para a rede FuNN é a aplicação das técnicas de extração de regras REFuNN e AREFuNN. Estas técnicas podem ser utilizadas de duas formas: aplicar a técnica AREFuNN isoladamente ou em conjunto com a técnica REFuNN.

Avaliação dos padrões Identificação

do problema

Integração dos dados

Mineração de dados: FuNN Apresentação do conhecimento FuNN + AREFuNN ou FuNN + ( REFuNN +AREFuNN ) + Técnicas de visualização

Seleção dos dados:

Técnica de seleção de atributos da

rede FWD

Transformação dos dados Limpeza dos dados

Figura 7.17 - Primeira solução neural híbrida para o processo de KDD

Identificação do problema

Integração dos dados

Mineração de dados: FuNN ou MLP Apresentação do conhecimento: FuNN + AREFuNN ou FuNN + ( REFuNN +AREFuNN ) ou FuNN + TREPAN ou MLP + TREPAN + Técnicas de visualização Avaliação dos padrões Seleção dos dados:

Utilizando a árvore de decisão gerada por TREPAN Transformação dos dados Limpeza dos dados

Nas duas soluções propostas, técnicas de visualização podem ser aplicadas na etapa de apresentação do conhecimento com o objetivo de representar as funções de pertinência das condições e conclusões das regras fuzzy e o mecanismo de inferência fuzzy decorrente da aplicação de um exemplo ao sistema. Desta forma, a interpretação das regras fuzzy seria facilitada. As técnicas de visualização [Fayyad et al. 2001] também podem ser aplicadas para representar as árvores de decisão e as regras fuzzy e clássicas sobre diversas perspectivas (Ex.: confiança, suporte e outras medidas de interesse).

As etapas das soluções neurais híbridas propostas nesta dissertação para o processo de KDD diferem das etapas descritas por [Han & Kamber 2001] em dois aspectos: adição de uma nova etapa (identificação do problema) e realização da etapa de avaliação de padrões depois da etapa de apresentação do conhecimento. A primeira alteração foi realizada porque é muito importante, nas aplicações de KDD, estabelecer os objetivos que devem ser alcançados e compreender o domínio do problema que será investigado. A segunda alteração foi realizada porque as técnicas de extração de conhecimento simbólico de RNA e as técnicas de visualização são aplicadas apenas na etapa de apresentação do conhecimento, pois a capacidade de geração de conhecimento compreensível não é inerente aos modelos neurais aplicados na etapa de mineração de dados. Portanto, não é possível realizar a avaliação de padrões antes do conhecimento minerado ter sido apresentado numa forma compreensível.

7.6. Considerações Finais

Este capítulo apresentou os resultados da investigação experimental realizada com a rede MLP; o modelo neuro-fuzzy FWD e sua técnica de extração de regras; o modelo neuro-fuzzy FuNN e suas técnicas de extração de regras REFuNN e AREFuNN; e a técnica TREPAN, usada em conjunto com a rede MLP da qual uma árvore de decisão é extraída. Os modelos foram avaliados e comparados considerando os seguintes aspectos: desempenho em relação à generalização e capacidade de gerar conhecimento compreensível através de suas técnicas de extração de regras. O desempenho dos classificadores em relação à generalização foi avaliado observando as taxas de classificação no conjunto de teste (total e por classe), analisando as curvas ROC e o impacto das decisões dos classificadores no contexto específico da aplicação investigada (análise de crédito ao consumidor). A compreensibilidade do conhecimento extraído foi avaliada analisando a facilidade de interpretação e aplicação do conhecimento descoberto. Outro aspecto considerado na avaliação do conhecimento extraído foi a precisão. Além da análise nas etapas de mineração de dados e apresentação do conhecimento, também foram investigadas duas técnicas de seleção de atributos: a técnica da rede FWD e através da árvore de decisão gerada pela técnica TREPAN. Ao final da investigação, considerando as vantagens de cada modelo e técnica, foram propostas duas soluções neurais híbridas para o processo de KDD.

Os resultados obtidos comprovaram que várias etapas do processo de KDD podem ser realizadas através da aplicação de Sistemas Neurais Híbridos e a integração de RNA com outras técnicas que utilizam representação simbólica, como Sistemas Fuzzy e algoritmos simbólicos convencionais, contribui para uma maior aceitação das RNA como uma alternativa bastante viável para ser aplicada no processo de KDD.

A maior dificuldade encontrada na execução do estudo de caso foi o tempo requerido para realizar os experimentos. Além de utilizar uma base de dados extensa e de alta dimensionalidade, foram investigados três modelos neurais (MLP, FWD e FuNN), quatro técnicas de extração de conhecimento simbólico (TREPAN, da rede FWD, REFuNN e AREFuNN) e duas técnicas de seleção de atributos (da rede FWD e através da árvore de decisão gerada por TREPAN). Entre os modelos neurais, o modelo que em geral apresentou menor tempo de treinamento foi a rede MLP. Isto pode ser resultado dos demais modelos apresentarem mais camadas intermediárias, o que requer mais processamento. Na maioria das configurações investigadas, o treinamento da rede FWD foi finalizado apenas no número máximo de épocas (3000). Por outro lado, no geral, o treinamento da rede FuNN foi interrompido antes da época 1000. A técnica TREPAN apresentou dois problemas. Quando o número máximo de nós internos ou o tamanho mínimo das amostras eram grandes, o tempo necessário para geração da árvore era estendido. Além disso, em algumas configurações a geração da árvore não foi concluída. Como TREPAN armazena os exemplos de treinamento e artificiais que alcançam cada nó, a memória requerida é bastante extensa, por isso, em alguns casos, foi gerada exceção de memória indisponível.

Capítulo 8