• Nenhum resultado encontrado

Junto aos especialistas da SEF, para alcance do levantamento dos perfis desejados, objetivou-se, a partir das informações dos documentos fiscais, a inclusão de dados que descrevessem pessoas físicas e jurídicas. Realizando o cruzamento entre os bancos de dados, poderiam ser obtidas informações que pudessem descrever de forma clara padrões e comportamentos.

No contexto de mineração de dados, verificou-se que determinadas tarefas seriam ade- quadas para determinação dos perfis. Por conta da limitação do tempo para conclusão da pesquisa e para obtenção de resultados concretos, o escopo deste projeto foi dividido em duas fases:

• Na fase 1, que se trata da pesquisa atual, seguindo o CRISP-DM, a extração dos bancos de dados deveriam ser selecionados, processados e transformados em bases de dados prontas para mineração de dados. Para modelagem poderiam ser utilizadas técnicas de sumarização e de visualização nas bases de dados. A avaliação dos padrões explicitados poderia ser realizada junto aos especialistas da SEF.

• Na fase 2, em uma próxima pesquisa, pretende-se utilizar as bases de dados da fase 1, usando técnicas de associação e de clustering com o framework WEKA.

No que tange a modelagem na fase 1, para sumarização poderia ser utilizada análise estatística e para a visualização seria possível a utilização do software Qlikview1 para

obtenção de painéis de informações em suporte aos dados sumarizados.

Para execução da fase 1, decidiu-se extrair os documentos fiscais do banco de dados do PNL já processados e validados desde seu início até o final de 2013. Ou seja, documentos fiscais inválidos ou não processados, com créditos ainda não calculados, deveriam ser descartados.

Seriam geradas duas extrações de dados. A primeira que, através de comandos de Linguagem de Consulta Estruturada, tradução para Structured Query Language (SQL), faria a extração das informações de documentos fiscais em conjunto com informações de pessoas físicas. A outra extração de dados seria feita com os dados disponíveis de pessoas jurídicas. Evitou-se uma única extração de dados devido à grande quantidade de informações e dificuldade posterior de processamento para eliminar a redundância dos dados.

De posse dos dados, deveriam ser removidos campos que não agregassem informações à pesquisa. Objetivou-se a inclusão de variáveis que descrevessem idade das pessoas físicas, as atividades econômicas existentes no PNL para as pessoas jurídicas e informações sobre endereços postais para pessoas físicas e jurídicas.

O próximo passo avaliaria a qualidade das informações existentes, com correção de dados onde aplicável, e remoção dos dados em casos sem solução. Possíveis casos de outliers já eram presumidos, uma vez que a validação do LFE se restringe ao tipo de dados sem realizar críticas aos valores das variáveis.

Com estas informações validadas seria possível a junção das duas bases de dados e extração de estatísticas descritivas sobre cada uma das variáveis a serem analisadas.

Para avaliação do perfil de créditos de consumo, a quantidade de créditos obtida por documento fiscal poderia ser agrupada em faixas de crédito que descrevessem compor- tamentos similares das pessoas. Variáveis escolhidas que descrevessem a obtenção de créditos de consumo deveriam ser tabuladas duas a duas, em tabelas com sua probabili-

1(

dade de ocorrência, ao longo das faixas de crédito. Para cada tabela gerada deveria ser criado seu gráfico correspondente. Com tabelas e gráficos sobre as variáveis, seria possível extrair informações sobre os padrões observados. Estas faixas poderiam ser analisadas por clustering na próxima fase.

Para avaliação do perfil de fidelidade, deveria ser levado em conta a variação do tempo sobre as pessoas físicas que participaram do PNL. Desta forma poderiam ser analisados comportamentos em períodos de tempo. Da mesma forma que no perfil de créditos de consumo, variáveis escolhidas que descrevessem a fidelidade dos consumidores deveriam ser tabuladas duas a duas, em tabelas com sua probabilidade de ocorrência, ao longo de faixas de fidelidade que fossem encontradas. Para cada tabela gerada deveria ser criado seu gráfico correspondente. Com tabelas e gráficos sobre as variáveis seria possível extrair informações sobre os padrões observados. Ainda sobre o perfil de fidelidade, deveriam ser propostos indicadores para avaliação do PNL. Uma vez que estes indicadores estivessem definidos, poderiam ser extraídas informações de seu desempenho ao longo das faixas de fidelidade. Estas faixas poderiam ser analisadas por associação na próxima fase.

Capítulo 6

Compreensão dos Dados

Com o objetivo de determinar os padrões de consumo e de fidelidade dos beneficiários, foi feito o levantamento das informações no banco de dados do PNL, no cadastro fiscal de empresas e nos dados de pessoas físicas disponibilizados pela RFB. A Seção6.1 apresenta como os dados foram originalmente extraídos e as descrições de seus campos. A Seção6.2

apresenta remoção de campos que não estão alinhados ao objetivo da pesquisa. A Seção

6.3 analisa problemas de qualidade e suas soluções. A Seção 6.4 analisa, via estatística descritiva, os campos selecionados.

A sequência dos passos desta fase não foram rigidamente seguidos conforme o CRISP- DM. Os passos de Seleção de Dados e de Limpeza de Dados da fase de Preparação dos Dados foram realizadas em conjunto à fase de Compreensão dos Dados.

Para maior clareza textual, neste Capítulo e nos seguintes, consumidores equivalem aos beneficiários e empresas equivalem aos contribuintes do PNL.

Documentos relacionados