• Nenhum resultado encontrado

Os objetivos propostos inicialmente foram:

• Investigar as metodologias para o desenvolvimento de projetos de KDD, enfatizando os aspectos relacionados à preparação dos dados;

• Como resultado da investigação, propor uma metodologia para montagem de visões em bases de dados dirigidas a problemas de MD, com foco em dados cadastrais e comportamentais;

• Aplicar a metodologia proposta em um problema de larga escala no domínio de análise de crédito.

As próximas seções analisam os resultados alcançados em relação a cada um dos objetivos propostos.

6.1.1. Investigação das Metodologias para KDD

Uma parte considerável deste trabalho foi dedicada ao estudo de KDD e de metodologias para o desenvolvimento de projetos de KDD. Durante a execução desta fase, foi realizada uma investigação teórica das principais características, vantagens e deficiências das metodologias propostas, enfatizando os aspectos relacionados à preparação dos dados. Esta investigação foi realizada com o objetivo de identificar as metodologias que seriam usadas como base para o desenvolvimento da metodologia proposta nesta dissertação.

O resultado deste estudo está relatado nos capítulos iniciais da dissertação. O Capítulo 2 descreve detalhadamente todas as etapas do processo de KDD e destaca algumas das principais áreas de aplicação de KDD. O Capítulo 3 descreve algumas metodologias de KDD ou de preparação de dados, suas características e onde essas metodologias são falhas no processo de preparação de dados.

6.1.2. Metodologia Proposta: DMBuilding

Este trabalho se propôs, como objetivo principal, desenvolver uma metodologia para montagem de visões em bases de dados dirigidas a problemas de mineração de dados (DMBuilding). A metodologia desenvolvida englobou, de forma detalhada todo processo de preparação dos dados, desde o entendimento do problema até a geração da base.

Capítulo 6 – Conclusões e Trabalhos Futuros 127

A metodologia DMBuilding é fortemente baseada nos fundamentos das principais metodologias de KDD (proposta por Fayyad et al, CRISP-DM e DMEasy) e nas metodologias que são mais focadas na área de preparação dos dados (abordagens de Yu et al. e da empresa Quadstone). As três primeiras metodologias são voltadas para o desenvolvimento de projetos de KDD, englobando todas as etapas do processo. As demais são mais focadas no processo de preparação dos dados.

Levando em consideração as atividades relacionadas ao processo de Montagem da Visão em base de dados, a metodologia DMBuilding possui as principais características das metodologias investigadas.

Da abordagem de Fayyad et al., suas características foram incorporadas por ser a primeira metodologia a possuir como foco a solução do problema de KDD como um todo, e não simplesmente dar importância aos resultados obtidos com a aplicação das técnicas de mineração de dados, assim como dar a importância à fase de tratamento de variáveis, a fim de apresentar as variáveis no formato correto para a aplicação de alguma técnica de MD.

Da metodologia CRISP-DM, suas características foram incorporadas por dar importância da fase de levantamento e definição do problema e por fazer menção a necessidade da verificação dos dados para garantir a qualidade dos mesmos.

As principais características da metodologia DMEasy incorporadas à metodologia

DMBuilding foram a especificação mais detalhada dos processos com relação as outras

metodologias, o suporte à documentação do processo e a ênfase a especificação do negócio associado ao problema.

A abordagem de Yu et al., por ser mais focada na fase de preparação dos dados, possui quatro características importantes incorporadas à metodologia proposta, por levar em consideração a aquisição do conhecimento do domínio para o entendimento do problema, a importância da fase de integração de dados, a importância da homologação dos dados que visa à qualidade dos mesmos, a especificação de problemas relacionados aos dados e a apresentação de uma série de técnicas de processamento que podem ser aplicadas para tratamento dos dados.

Por fim, uma característica da metodologia da empresa Quadstone foi incorporada à metodologia DMBuilding por tratar a modelagem de variáveis comportamentais, que são de extrema importância para resolução de problemas de KDD.

A metodologia DMBuilding aborda as principais características das metodologias investigadas, como também a abordagem com detalhes dos seguintes aspectos não focados em outras metodologias:

• Trata com detalhes a maioria das atividades realizadas na fase de preparação dos dados, como a integração, a transformação e o tratamento dos dados;

• Relaciona o conjunto de problemas relacionados às bases de dados e realiza sugestões de correções e transformações para o enriquecimento da base de dados final;

A metodologia proposta é abordada, em detalhes, no Capítulo 4.

6.1.3. Estudo de Caso Investigado

O estudo de caso desta dissertação, descrito no Capítulo 5, compreendeu uma investigação bastante detalhada da aplicação da metodologia DMBuilding em um problema de larga escala no domínio de análise de crédito. O estudo de caso abrangeu praticamente todas as fases, processos e atividades da metodologia.

O domínio aplicado como estudo de caso foi o de análise de crédito ao consumidor, um problema de classificação que define a aprovação ou não de crédito a um determinado solicitante, considerando suas características pessoais e financeiras. Este domínio foi escolhido por se tratar de um problema de larga escala, envolver dados reais com múltiplos atributos relacionados e ser de interesse de diversas instituições e empresas. Tais características permitiram a verificação da viabilidade prática da metodologia.

A base de dados utilizada no estudo de caso era composta de 38.607 registros, dos quais 3.706 (9,6%) são classificados como inadimplentes (MAU) e 34.901 (90,4%) como adimplentes (BOM). Esta base de dados possui os dados fornecidos pelos solicitantes no momento da solicitação de crédito a uma instituição financeira especializada em financiamento de produtos no Brasil. Essas informações são utilizadas pela empresa para decidir pela concessão ou não de crédito ao solicitante. Todos os clientes que obtiveram a aprovação do crédito foram armazenados na base. Com o passar do tempo, alguns desses clientes, que foram considerados bons pagadores pelo sistema decisório da operadora, se tornaram maus pagadores. Portanto, o problema aplicado ao estudo de caso contém informações parciais, pois a base de dados possui apenas informações a respeito dos proponentes aceitos e que vieram a se tornarem adimplentes ou inadimplentes na carteira de clientes da empresa. Tal característica tornou o problema ainda mais complexo.

A maior dificuldade encontrada na execução do estudo de caso foi a obtenção de uma base de dados consistente. As homologações realizadas inicialmente detectaram diversas

Capítulo 6 – Conclusões e Trabalhos Futuros 129

inconsistências, sendo necessário que o cliente re-gerasse a base várias vezes, o que resultou no atraso do cronograma do projeto. Um fator que contribuiu para ganho de tempo durante a realização do projeto foi a utilização da ferramenta Neural Scorer Development®6 em diversas atividades da metodologia.