• Nenhum resultado encontrado

5.3 Aplicação da Metodologia DMBuilding

5.3.3 Montagem da Visão

Para a visualização das atividades realizadas nesta fase, os processos do fluxograma apresentado no Capítulo 4 (Figura 4.5) foram desmembrados.

A Figura 5.8 apresenta o processo de Tratamento de Variáveis Brutas. Os círculos numerados representam as atividades realizadas neste estudo de caso. Cada atividade é descrita a seguir conforme numeração da Figura 5.8.

Figura 5.8 – Processo de Tratamento de Variáveis Brutas

(1) A primeira atividade desta fase é o tratamento das variáveis brutas, cujo objetivo é verificar se os atributos selecionados possuem preenchimento apropriado para a fase de aprendizagem.

Os seguintes tratamentos foram utilizados:

• Colunas com um único valor: Por se tratar de uma base de dados com muitas variáveis, essa verificação já foi realizada na fase anterior durante a seleção de variáveis;

• Colunas com um valor predominante: Atributos que praticamente apresentam um único valor devem ser analisados. Seguem alguns exemplos de

Capítulo 5 – Estudo de Caso 115

atributos que foram removidos por causa desse problema e o percentual de preenchimento do valore predominante: ALIQUOTA_IOF (99,99%), AVALISTA2 (99,74%), FLAG_EXPERIENCIA_CREDITO (99,21%) e NACIONALIDADE_CLI (99,9%);

• Colunas com muitos valores distintos: Variáveis categóricas que possuem quase todos os valores distintos e apresentam alguma estrutura interna em seu conteúdo. As variáveis de CEP fazem parte deste cenário e foram transformadas da seguinte forma: CEP_COMERCIAL_CLI foi subdividida em CEP_COMERCIAL_CLI1 (primeiro dígito do CEP_COMERCIAL_CLI), CEP_COMERCIAL_CLI2 (dois primeiros dígitos do CEP_COMERCIAL_CLI), CEP_COMERCIAL_CLI3 (três primeiros dígitos do CEP_COMERCIAL_CLI) e CEP_COMERCIAL_CLI4 (quatro primeiros dígitos do CEP_COMERCIAL_CLI). A mesma transformação foi realizada a variável RESCEP;

• Criação do alvo: Como a variável alvo deste projeto não estava presente nas bases de dados disponíveis, foi gerada a variável “BOM_MAU”, que contém a informação sobre a conclusão da proposta de crédito. Se o cliente possuía, no momento da geração da base, alguma parcela não paga a mais de 90 dias, esse cliente era considerado MAU, caso contrário, BOM.

O analista de dados ficou responsável pela elaboração de um documento que especificava as variáveis eliminadas (e o motivo), como também a descrição das variáveis criadas.

(2) Após essa atividade, realizou-se a homologação dos dados para garantir que todas as variáveis foram tratadas de forma correta. Essa atividade foi concluída com sucesso e nenhum erro foi detectado.

Iniciou-se, então, o processo de transformação de variáveis, cujo objetivo é analisar as variáveis que teoricamente deveriam ser removidas devido ao seu conteúdo, mas que podem ser aproveitadas através da aplicação de algumas transformações. A Figura 5.9 apresenta este processo. Os círculos numerados representam as atividades realizadas neste estudo de caso. Cada atividade é descrita a seguir conforme numeração da Figura 5.9.

Figura 5.9 – Processo de Transformação de Variáveis (1) Os seguintes tratamentos foram utilizados:

• Tratamento de variáveis do tipo Data/Hora: Esse tratamento foi aplicado à variável DATA_NASCIMENTO_CLI. A idade dos clientes foi calculada pela diferença (em anos) entre as variáveis DATA_NASCIMENTO_CLI e DATA_PROPOSTA, que indica a data da consulta;

• Categoria “Outros”: Algumas variáveis categóricas possuíam uma distribuição não uniforme, concentrada em um conjunto de categorias. Os valores foram agrupados de acordo com o seguinte critério: categorias com menos de 30 exemplos foram consideradas como sendo da categoria “outros”. Seguem alguns exemplos de variáveis que foram afetadas por este tratamento e o percentual de exemplos da categoria “outros”: NATURAL_CLI (16,96%), CEP_RESIDENCIAL_CLI3 (1,24%) e CEP_RESIDENCIAL_CLI4 (9,06%). Esse tipo de tratamento foi aplicado em 37 variáveis;

• Variáveis indicativas de ausência/presença (flags): Das variáveis categóricas restantes, muitas possuíam a distribuição de valores muito concentrada em um único valor ou o seu formato não era apropriado (por exemplo, número de telefone). Nesse caso, foram construídas variáveis de indicativo de ausência/presença de determinado valor. Alguns exemplos em que essa técnica foi aplicada: NOME_CONJUGE_CLI (nome do cônjuge não traz benefício algum, porém a informação se foi ou não cadastrado com cônjuge pode ser relevante) e FONE_RESIDENCIAL_CLI (mesma lógica da variável

Capítulo 5 – Estudo de Caso 117

NOME_CONJUGE_CLI). Esse tipo de tratamento foi realizado em 22 variáveis.

(2) Uma nova atividade de homologação dos dados foi realizada para garantir que as variáveis foram tratadas de forma correta. Essa atividade foi concluída com sucesso e nenhum erro foi detectado.

(3) Foi verificado que, para esse projeto, existiam dados para a realização da fase de agrupamento transacional, pois as tabelas PARCELAS e PROPOSTAS fornecem informações de todo histórico daqueles clientes que já tiveram algum tipo de negociação com Empresa “X” (seja uma simples proposta de crédito que foi negada ou a efetivação de algum contrato).

Iniciou-se, então, o processo de Agrupamento Transacional. A Figura 5.10 apresenta este processo. Os círculos numerados representam as atividades realizadas neste estudo de caso. Cada atividade é descrita a seguir conforme numeração da Figura 5.10.

Figura 5.10 – Processo de Agrupamento Transacional

(1) O analista de dados propôs a criação de 22 atributos contendo agrupamento transacional, entre as quais podem ser citados:

• Medidas de agregação - Exemplos: QTD_CONTRATOS_ANTERIORES (quantidade de contratos realizados antes da proposta atual), QTD_PARCELAS_PAGAS (quantidade de parcelas pagas referentes a contratos anteriores), VALOR_PARCELAS_PAGAS (valor das parcelas pagas referentes a contratos anteriores) e QTD_NEGADAS (quantidade de propostas de crédito que foram negadas);

• Funções de tendência - Exemplos: ATRASO_MEDIO (atraso médio do cliente nos contratos anteriores) e ATRASO_MAXIMO (atraso máximo do cliente nos contratos anteriores);

• Indicativo de freqüência Exemplos:

TEMPO_DESDE_PRIMEIRA_NEGADA (tempo desde a primeira proposta negada) e TEMPO_DESDE_ULTIMA_NEGADA (tempo desde a última proposta negada);

• Variação de tempo e tipo Exemplos:

QTD_PARCELAS_PAGAS_ATRASO_ATE_90 (Quantidade de parcelas

pagas com atraso de até 90 dias),

VALOR_PARCELAS_PAGAS_ATRASO_ATE_90 (Valor de parcelas pagas com atraso de até 90 dias), QTD_PARCELAS_NAO_PAGAS_MAIOR_90 (Quantidade de parcelas vencidas e não pagas com atraso superior a 90 dias) e VALOR_PARCELAS_NAO_PAGAS_MAIOR_90 (Valor de parcelas vencidas e não pagas com atraso superior a 90 dias).

(2) Durante a realização dessa atividade, não surgiram propostas de criação de novas variáveis.

(3) Após a geração das novas variáveis, realizou-se a homologação dos dados. Foram encontrados problemas no cálculo de algumas variáveis.

(4) Foram documentados quais os erros encontrados, o motivo do erro e qual a correção para o mesmo. As correções foram realizadas e as variáveis foram novamente geradas (seguindo os passos das atividades 1 a 3). Uma nova fase de homologação foi realizada, porém sem apresentar erros.

Por fim, o processo de Integração dos Dados é realizado. A Figura 5.11 apresenta este processo. Os círculos numerados representam as atividades realizadas neste estudo de caso. Cada atividade é descrita a seguir conforme numeração da Figura 5.11.

Capítulo 5 – Estudo de Caso 119

(1) Foi realizada a integração das bases geradas nos 3 (três) processos anteriores. O objetivo dessa integração é gerar uma tabela desnormalizada em que cada linha representa uma proposta de financiamento. A tabela agrupa informações dos clientes (dados cadastrais e comportamentais), dos avalistas (dados cadastrais) e das propostas. A geração da tabela final é a última atividade da fase de Montagem de Visão.

5.3.4 Tratamento dos Dados

Para a visualização das atividades realizadas nesta fase, os processos do fluxograma apresentado no Capítulo 4 (Figura 4.7) foram desmembrados.

A Figura 5.8 apresenta o processo de Tratamento de Dados. Os círculos numerados representam as atividades realizadas neste estudo de caso. Cada atividade é descrita a seguir conforme numeração da Figura 5.8.

(1) Como a técnica de mineração de dados utilizada neste estudo de caso é RNA, os seguintes tratamentos foram realizados:

• Limpeza dos dados: Foi verificada a presença de valores ausentes (missing) e valores espúrios (outliers), utilizando a ferramenta Neural Scorer

Development®5. Para tratar os valores ausentes, algumas técnicas foram aplicadas. A primeira técnica utilizada foi o preenchimento de um valor específico, tendo em vista o conhecimento do domínio das variáveis e do problema. Alguns atributos (Ex.: SALARIO_CLI, SALARIO_CONJUGE_CLI e ATRASO_MEDIO) possuíam a ausência de valor como indicativo de um

valor fixo (zero) que foi utilizado no preenchimento. Além dessa técnica, foi aplicada a substituição pela média (Ex.: IDADE_CLI, VALOR_COMPRA e VALOR_ENTRADA). Para tratar outliers, utilizou-se a técnica de

winsorizing, ou seja, foram estipulados valores mínimos e máximos aceitáveis

para variável e todo valor que estava fora daquela faixa, era jogado para o extremo mais próximo;

• Redução de dimensionalidade de variáveis: As variáveis foram pré- selecionadas com o auxílio do especialista do domínio;

• Casamento de padrões (String Matching): Algumas variáveis categóricas apresentaram problemas de preenchimento manual de valores. Um exemplo é a variável CIDADE_RESIDENCIAL_CLI (cidade residencial). Como é um campo de digitação manual, valores como “São Paulo”, “Sao Paulo”, “SP” “S.Paulo” representam a mesma informação. Um algoritmo de Força Bruta foi utilizado para realizar o casamento de padrões dessas variáveis;

• Mudança de formato: Todos os atributos numéricos foram normalizados utilizando a técnica de Min-Max. Como resultado, todos os valores ficaram dentro do intervalo [0, 1]. Para os atributos categóricos foram usadas duas técnicas de codificação binária. A codificação 1 de N foi aplicada para os atributos cujo conjunto de valores possíveis era pequeno (Ex.: SEXO_CLI, TIPO_FINANCIAMENTO, ORIGEM e ESTADO_CIVIL_CLI). A codificação M de N foi aplicada para os atributos cujo conjunto de valores possíveis era extenso (Ex.: CEP_RESIDENCIAL_CLI3, BAIRRO_RESIDENCIAL_CLI, CIDADE_RESIDENCIAL_CLI e NATURAL_CLI). Os atributos passaram a ser denominados da seguinte forma: nome_do_atributo + n, onde n varia de 1 (um) até o tamanho do vetor binário resultante da codificação.

(2) Após a geração das novas variáveis, foi realizado o processo de homologação. Esse processo foi realizado e nenhum erro foi encontrado.

5.3.5 Processos Extras

Essa é a fase onde as atividades que estão fora do escopo da metodologia DMBuilding devem ser documentadas, pois podem servir de melhoria futura para esta metodologia.

Capítulo 5 – Estudo de Caso 121

Para o estudo de caso em questão, nenhuma atividade extra foi realizada, pois a metodologia proposta conseguiu englobar todas as atividades necessárias para a realização do projeto.