Data Mining aplicada aos dados Financeiros e suas Arrecadações

Para que os dados estejam disponíveis para a sua manipulação o primeiro passo foi escolher quais dados seriam utilizados no processo. Como o ponto principal para a descoberta foi definido que as informações a serem colhidas seriam as relacionadas com os tipos de produtos vendidos nos últimos 12 meses e as relações que estas têm com os clientes e os dados financeiros envolvidos neste processo. Os comandos SQL abaixo foram executados com o auxílio da ferramenta consultas SQL do próprio software comercial da

Capítulo 3. Resultados e discussões 29

empresa Sete Sistemas.

SELECT ProdutoVendido.CodCliente, ProdutoVendido.NomeCliente,

Cliente.CNPJ_CPF, Cliente.InscricaoEstadual,

Sum(ItemprodutoVendido.Quantidade ∗ ItemProdutoVendido.ValorU nitarioLiquido) as ’Valor TotalCompra’

FROM ProdutoVendido

JOIN ItemProdutoVendido ON ProdutoVendido.CodProdutoVendido = ItemProdutoVendido.CodProdutoVendido

AND ProdutoVendido.CodEmpresa = ItemProdutoVendido.CodEmpresa JOIN Produto ON ItemProdutoVendido.CodProduto = Produto.CodProduto JOIN Cliente ON ProdutoVendido.CodCliente = Cliente.CodCliente

WHERE ProdutoVendido.CodEmpresa = 1

AND ProdutoVendido.DataVenda BETW EEN 001/06/20150 AND 001/06/20160 /* AND Produto.CodTipoProduto = ’MO’

AND Produto.CodTipoProduto =0ME0∗ /

GROUP BY ProdutoVendido.CodCliente, ProdutoVendido.NomeCliente, Cliente.CNPJ_CPF,Cliente.InscricaoEstadual

Para que os dados necessários para a consulta fossem coletados executei a consulta de três formas. A primeira com o código SQL acima me trouxe das informações do cliente, o código, o Nome e CNPJ ou o CPF e o campo Inscrição Estadual quando existir, relacionado ao cliente o somatório do total das compras que o mesmo realizou nos últimos 12 meses. A segunda consulta SQL foi acrescentada esta linha de código, - AND Produto.CodTipoProduto = ’MO’ - que filtra somente os produtos adquiridos do tipo Mão de Obra ou MO para totalizar o valor total de Serviços que a empresa prestou a cada cliente. A terceira consulta foi acrescentada ao código inicial da primeira consulta a linha de código a seguir, - AND Produto.CodTipoProduto = ’ME’ – filtrando agora somente os produtos do tipo mercadoria ou ME e calculando o somatório das compras que cada cliente realizou. Estes comandos estão inseridos antes do Group BY que no código acima foram inseridos como um comentário do código /* ...*/ do banco de dados Sql Server 2008. Executado o comando a própria ferramenta disponibiliza um recurso personalizado de exportação dos dados para vários tipos de arquivos. Para a utilização exportei os dados para o formato xls, que me permitiu fazer as adequações necessárias nos dados para mais tarde serem usados nos softwares de mineração. O passo a seguir foi a filtragem e a junção

Capítulo 3. Resultados e discussões 30

das três tabelas de dados e remoção dos dados desnecessários, mas antes da exclusão foram realizadas conversões nos dados para que estes ficassem como na imagem 14.

Figura 12 – Tabela de dados após passar pela etapa de transformação, Elaborado Pelo Autor.

Para chegar a esta tabela final o primeiro procedimento realizado foi utilizar a tabela com o total de compras e adicionar as colunas MO e ME provenientes das outras duas consultas. Após esta junção inserir a coluna TipoCliente que contém a classificação dos clientes em três grupos, pessoa física ou PF convertido dos clientes que possuem CPF mas não possuem Inscrição Estadual, pessoa jurídica ou PJ são os clientes que possuem CNPJ e o ultimo Produtor rural ou PR cliente que possuem CPF e Inscrição estadual. Após essa transformação as informação dos campos CPF/CNPJ e Inscrição Estadual foram removidas da tabela. Agora a tabela de dados está pronta para a mineração de dados no software SAS, mas para o software WEKA são necessárias várias alterações. A primeira é transformar os dados em um formato que o software possa reconhecer, então o arquivo foi convertido para o formato csv separado por virgulas, mas ainda não puderam ser abertos no software pois vários erros ocorreram nos nomes de clientes que possuem aspas simples e também decorrente das virgulas usadas para a separação de valores decimais, obrigando a realizar a exclusão das aspas e a troca dos separadores decimais de virgulas por pontos. Agora o software reconheceu o tipo de dados e foi realizada uma última conversão de csv para arff, o tipo de arquivos do WEKA. Já ao abrir o Weka Explorer e selecionar o atributo tipo do cliente o software retornou uma informação muito importante a quantidade de cliente que Pessoa Física, Empresas e Produtores Rurais que compraram produtos ou

Capítulo 3. Resultados e discussões 31

serviços nestes últimos 12 meses, juntamente com um gráfico indicando que de um total de 548 clientes, 226 são empresas, 297 são pessoas físicas e apenas 25 são produtores rurais. Essa relação pode ser verificada na imagem 15. Ao aplicar o algoritmo de classificação NaiveBayes ele mostrou que a porcentagem de clientes PJ é de 41%, PF 54% e PR apenas 5%. Ao aplicar o algoritmo de classificação Trees DecisionStump nos dados selecionando o valor total de compras, o resultado mostrou que o cliente que mais comprou foi uma empresa de contabilidade, ela adquiriu um total de R$ 31.244,40 em mercadorias e serviços no período.

Figura 13 – Quantidade de Clientes PJ, PF e PR constatada pelo Weka, Elaborado Pelo Autor.

Já no SAS a importação da tabela de dados pode ser feita de várias maneiras, manualmente através de códigos, com o recurso snippets que oferece trechos de códigos prontos. Para importar basta inserir o caminho onde o arquivo está armazenado ou ainda com um recurso arrastar o arquivo até área de trabalho do SAS que o software cria automaticamente todos os códigos necessários para a importação. Ao testar os dados no software o mesmo resultado é obtido na criação de um gráfico do próprio aplicativo, é possível observar os detalhes com um nível de qualidade visual impressionante como pode-se observar no gráfico 2.

Capítulo 3. Resultados e discussões 32

Figura 14 – Gráfico da Quantidade de Clientes PJ, PF e PR produzido pelo SAS, Elaborado Pelo Autor.

Ainda temos na figura 17 outro gráfico gerado pelo software Sas University que detalha os principais clientes da empresa responsáveis pela maior arrecadação. Juntas somam mais de 27% do total arrecadado, mostrando também todos os clientes que mais usam os serviços prestados pela Excellence são do tipo empresas PJ.

Figura 15 – Gráfico dos melhores Clientes dos Últimos 12 Meses, Elaborado Pelo Autor.

Ao cruzar os dados dos tipos de clientes com os totais de compras no SAS pode ser notado que os clientes do tipo pessoa jurídica PJ compram produtos e serviços com valores mais elevados ou em maiores quantidades do que os clientes pessoa física PF

Capítulo 3. Resultados e discussões 33

e produtores rurais PR. As empresas estão comprando mais, com quantidades e ou valores maiores gerando maior lucratividade para o negócio. A figura 18 mostra a distribuição desses totais de compra para cada tipo de cliente.

Figura 16 – Gráfico da Distribuição dos valores totais de compra de cada tipo de cliente, Elaborado Pelo Autor.

O sas mesmo em sua versão acadêmica disponibiliza poderosos recursos de estatísticos para serem aplicados aos dados. Ao usar o recurso de caracterização de dados obtive o gráfico da figura 19. Nela é mostrado como está distribuído o total das compras. Observando o gráfico a maior concentração do total de compras está em valores menores que R$ 2.500,00, alcançando 90% das vendas, o restante está concentrado principalmente em totais de compra de R$ 2.500,00 a R$ 5.000,00.

A análise inicial por tipo de produto no weka retornou a quantidade de vendas de cada tipo de produtos, mostrando que foram vendidas mais mercadorias totalizando 2436 contra 1271 serviços realizados nos últimos dois semestres.

Analisando a figura 19, no primeiro gráfico vemos o total de vendas por tipo de cliente totalizando uma arrecadação de R$ 339.136,28. As empresas PJ são responsáveis por 78,82% do total arrecadado pela Excellence Tecnologia, cerca de R$ 267.311,81 nestes últimos dois semestres. Os usuários domésticos PF mesmo sendo maioria contribuíram com apenas 16,54% e os Produtores Rurais apenas 4,63% deste total. No segundo gráfico, o valor total de vendas de mercadorias, de um total de 2436 vendas de mercadorias realizadas

Capítulo 3. Resultados e discussões 34

Figura 17 – Gráfico da distribuição dos valores totais das compras separados por faixas de valores, Elaborado Pelo Autor.

nos últimos 12 meses as empresas são as responsáveis pela compra de R$ 173.844,23, cerca de 76% do total de mercadorias vendido. Enquanto as PF adquiriram pouco mais de 18% do total cerca de R$ 41.417,075 três vezes mais que os PR comprando apenas 6% correspondendo a R$ 13.616,00. Já no gráfico de vendas de serviços que totalizam 1271 vendas nos últimos 12 meses, as empresas PJ também são as responsáveis pela maior fatia 84,77% o que totalizou uma arrecadação de R$ 93.467,58, enquanto as PF apenas 13,33% do total cerca de R$ 14.699,40, os PR comprando apenas 1,89%, R$ 2.092,00.

Para analisar mais a fundo a rentabilidade média que cada tipo de cliente fornece a empresa, foi criado o gráfico para visualizar a média de compras por tipo de cliente. Temos 297 clientes do tipo pessoa física com uma média dos últimos 12 meses totalizando R$ 188,95 por pessoa, enquanto os Produtores Rurais que são apenas 25 pessoas tem uma média de compras de R$ 628,32. Os clientes com uma melhor média de compras são as Pessoas Jurídicas PJ com uma média de R$ 1.182,80 e um total de 226 clientes no período.

Capítulo 3. Resultados e discussões 35

Figura 18 – Gráficos do total de arrecadação por vendas nos últimos 12 meses, Elaborado Pelo Autor.

3.6 Data Mining aplicada aos Itens Vendidos pela Loja

Após a realização destes testes com os dados financeiros relativos aos tipos de clientes que utilizam os recursos que Excellence Tecnologia disponibiliza ao mercado, foi realizada uma nova análise com os dados retirados das vendas dos últimos 12 meses a fim de encontrar mais informações úteis para a tomada de decisão da empresa em questão. A consulta SQL abaixo foi utilizada e retornou todos os campos da tabela ItemProduto- Vendido inseridos entre 01/05/2015 e 30/05/2016 e da mesma forma que as informações financeiras a exportação dos dados para um arquivo xls foi realizada com o auxílio das ferramentas do sistema.

Capítulo 3. Resultados e discussões 36

Figura 19 – Gráfico do valor médio de compra de cada tipo de cliente, Elaborado Pelo Autor.

SELECT∗

FROM ItemProdutoVendido

W HERE CodProdutoVendido IN(SELECT CodProdutoVendido from ProdutoVendido

W HERE ProdutoVendido.DataVenda BETW EEN 001/05/20150 AND 030/05/20160 AND codempresa = 1)

O arquivo de dados exportado estava poluído com uma grande quantidade de colunas desnecessárias para a mineração de dados como pode ser observado na imagem 22. Foi realizada então a filtragem destes dados enxugando a quantidade de colunas para apenas 5 colunas de dados como é mostrado na imagem 23. Passada a etapa de Transformação, agora os dados estão prontos para serem minerados no software SAS.

Ao importar o arquivo de dados xls para o SAS e caracterizar os dados foi possível gerar um gráfico através do software que identificou a quantidade dos itens vendidos do tipo Mão de Obra MO e Mercadoria ME. Chegando a um total de 5.484,5 produtos do tipo ME contra 2.347 de MO, mostrando que a empresa vende uma quantidade maior de Mercadorias do que de execução de serviços, mostrando que 70% da quantidade de produtos que a empresa vende é mercadoria. Essas informações podem ser examinadas na figura 24.

Capítulo 3. Resultados e discussões 37

Figura 20 – Dados Extraídos do DB Sem Tratamento de Dados, Elaborado Pelo Autor.

Capítulo 3. Resultados e discussões 38

Figura 22 – Gráfico da quantidade de itens de produtos vendidos nos últimos 12 meses, Elaborado Pelo Autor.

Para iniciar a mineração de dados no software WEKA o processo teve uma de- mora enorme para que os dados fossem reconhecidos no software. Uma enorme quantidade de nome de produtos com acento, aspas e abreviações teve que ser reparada, assim como os separadores de casas decimais das colunas Quantidade, Preço Unitário e Custo Médio também tiveram que ser substituídos, padronizando o ponto como separador decimal. Foi aplicado vários algoritmos de mineração nos dados, o que trouxe um melhor resultado foi a aplicação da técnica de Cluster Hierarchical Clusterer utilizado a classe nome do produto para avaliar a formação dos clusters e retorno dois grupos de cluster. No cluster 0 ficaram agrupados os dados de produtos do tipo MO e no Cluster 1 os dados de produtos ME. Como resultado da execução mostrou que no grupo do cluster 0 o produto que mais se destacou ou produto mais vendido foi o serviço de Formatação com Backup e do grupo do Cluster 1 o produto mais vendido foi o toner HP 85 da marca Htcompany. Essa descoberta pode ser analisada na imagem 14 e na imagem 15.

Capítulo 3. Resultados e discussões 39

Figura 23 – Resultado da execução do algoritmo Hierarchical Clusterer no WEKA, Elabo- rado Pelo Autor.

CAPÍTULO 4

CONCLUSÕES

A mineração de dados provou ser uma tarefa eficaz quando aplicada de forma a seguir à risca todas as etapas em sua devida ordem e auxiliada de poderosas ferramentas de software. Iniciando a primeira etapa a descoberta de conhecimento, foi definindo o problema específico, aplicar algoritmos de mineração de dados nas informações provenientes de vendas de produtos e serviços e aos dados financeiros da empresa Excellence Tecnologia. Auxiliado pelos softwares Weka e SAS e comparando através da obtenção dos resultados, qual das ferramentas tem melhor produtividade e encontra informações mais completas para serem usadas como auxilio na tomada de decisões.

Partindo deste objetivo passamos para a etapa de Pré-Processamento onde foram selecionados os dados relativos a clientes, receitas e produtos com o auxílio de códigos SQL e exportadas estas informações para o formato de tabelas de dados. Nesta etapa também foi efetuado o tratamento e organização destes dados, eliminando elementos desnecessários para a mineração, etapa esta que utiliza a maior quantidade de tempo dedicado a Data Mining. A preparação dos dados para serem reconhecidos pelo software SAS se mostrou muito superior, com ele apenas os dados precisam de limpos e enriquecidos pois o software permite o uso de tabela de dados xls. Tendo o mesmo formato dos dados que foram exportados do SGBD, diminuindo a etapa preparação de dados de dias para horas.

Capítulo 4. Conclusões 41

Para o WEKA o reconhecimento dos dados é feito em várias etapas, então os dados precisaram ser transformados para o formato csv primeiro para depois serem transformados no arquivo ARFF que o software usa. Além da adequação que precisou ser feita nos dados com aspas, parênteses, separadores de casa decimais e outros acentos que impedem o arquivo de funcionar sem as devidas correções. Com os dados prontos foram aplicadas as técnicas de mineração, Classificação, Cluster e Associações com o auxílio do software gratuito WEKA. Em seguida foram utilizandas estas mesmas informações coletadas para aplicar alguns dos recursos que o software SAS em sua versão para estudos a University Edition possui.

Aplicando estes algoritmos de mineração citados, foi possível constatar que tanto o software Weka como o SAS podem ser usados de forma a complementar a busca por informações a invés de serem usados de forma isolada, deixando o resultado da mineração mais completa e detalhada.

Várias informações relevantes para o negócio foram expostas, assim como algumas informações que não foram úteis, deixando ainda mais claro que os procedimentos de mineração de dados são sim executados por softwares e com muita técnica podem trazer informações de forma automática. Mas não são estas ferramentas que tomam as decisões, estas precisam ser interpretadas, discutidas e planejadas para alcançar as metas que a organização impôs, minimizando seus custos e maximizando seus resultados.

Para aprofundar o tema como sugestão para próximas pesquisas podem ser realizadas diferentes abordagem para a coleta de dados. Usando um recurso de integração com o banco de dados que os dois softwares possuem, criando rotinas para a realimentação dos dados de forma automática, diminuindo de forma considerável o tempo para a seleção de dados. Poderiam ser aplicadas ainda outras ferramentas do mercado como as citadas no segundo capítulo ou ainda poder utilizar os recursos completos que o SAS disponibiliza em suas versões proprietárias.

REFERÊNCIAS

ABERNETHY, M. Product development manager, optimal auctions. 2010. Disponível em: <http://www.ibm.com/developerworks/br/opensource/library/os-weka1/>. 12

ANDOLFATTO, J. H. e E. 7 características importantes para diferenciar bi, data mining e big data. 2015. Disponível em: <http://aquare.la/pt/artigos/2015/04/27/ 7-caracteristicas-importantes-para-diferenciar-bi-data-mining-e-big-data/>. v, 10, 11 BARBOSA, S. L. A. Como a tecnologia da informação, através da inteligência empresarial – “business intelligence” (bi), tem provocado impacto na gestão das empresas? 2007. Disponível em: <http://www.artigos.com/artigos/sociais/administracao/ como-a-tecnologia-da-informacao,-atraves-da-inteligencia-empresarial-%96-%

93business-intelligence%94-(-bi-),--tem-provocado--impacto-na-gestao-das-empresas? -2107/artigo/>. 4

BEZERRA, R. G. e E. Data mining: conceitos, técnicas, algoritmos, orientações e aplicações. [S.l.: s.n.], 2015. v, 6, 7, 9

BRAGA, L. P. V. Introdução à mineração de dados. Segunda edição. [S.l.: s.n.], 2005. 5 CHISHOLM, A. Exploring Data with RapidMiner. [S.l.: s.n.], 2013. 162 p. 23

CORREA, N. Techtrends: Benchmarks de ferramentas para empresas de tecnologia. Resultados Digitais em parceria com Rock Content, 2016. Disponível em: <https://d335luupugsy2.cloudfront.net/cms%2Ffiles%2F2% 2F1459531708ferramentas-para-tecnologia.pdf>. v, 4, 5

DEBOECK, T. K. G. Visual Explorations in Finance: with Self-Organizing Maps. [S.l.: s.n.], 2013. 258 p. 20

DER, B. S. E. G. Essential statistics using sas university edition. SAS Institute, 2015.R Disponível em: <http://www.sas.com/storefront/aux/en/spueessntlstat/68619_excerpt.pdf>. 16

Referências 43

DESIGN, A. Alteryx designer: Enabling self-service data analytics for your entire organization. 2016. Disponível em: <https://www.alteryx.com/sites/default/files/resources/ files/alt-designer-ds.pdf>. 21

ELMASRI, R. Sistema de Banco de Dados. Quarta edição. [S.l.: s.n.], 2005. 5

FAYYAD, G. P. S. P. . R. U. M. Advances in Knowledge Discovery and Data Mining. [S.l.: s.n.], 1996. 228 p. v, 6

FONTANELLA, P. Associações de compra em supermercado utilizando o data mining. Tese (Doutorado) — UFPR, 2012. 4

GARTNER. Magic quadrant for advanced analytics platforms. 2016. Disponível em: <https://www.gartner.com/doc/reprints?ct=160210&id=1-2YEIILW&st=sb>. 1, 23

GRöTTRUP, T. W. e S. Data Mining with SPSS Modeler: Theory, Exercises and Solutions. [S.l.: s.n.], 2016. 1059 p. v, 18

HOFMANN, R. K. M. RapidMiner: Data Mining Use Cases and Business Analytics Applications. [S.l.: s.n.], 2016. 525 p. 22

HURWITZ ALAN NUGENT, D. F. H. M. K. J. Big Data PARA LEIGOS. 1o. ed. [S.l.: s.n.], 2016. 9

IBM. Ibm spss modeler solve your toughest challenges with data mining. 2016. Disponível em: <http://www.spss.com.hk/software/modeler/index.htm?tab=2>. 18

MATOS, T. Uma visão geral das principais tarefas de mineração de dados. Revista Eletrônica do CESVA, 2012. 5

MAYER-SCHONBERGER, K. C. V. Big Data: Como extrair volume, variedade, velocidade e valor da avalanche de informação cotidiana. [S.l.: s.n.], 2013. 176 p. 10 MICROSOFT. Microsoft analytics platform system. 2016. Disponível em:

<https://www.microsoft.com/pt-br/server-cloud/products/analytics-platform-system/>. 20 ORACLE. Data mining concepts. 2016. Disponível em: <https://docs.oracle.com/cd/ B28359_01/datamine.111/b28129/intro_concepts.htm>. 19

PICHILIANI, M. Trilha machine learning - python x r: mas e o weka? 2016. Disponível em: <http://pt.slideshare.net/tdc-globalcode/tdc2016sp-python-x-r-mas-e-o-weka>. 24 PRIYADARSHI, A. T. e A. Data mining with big data and privacy preservation. International Journal of Advanced Research in Computer and Communication Engineering, v. 5, 2016. 10

SERRA, J. Analytics platform system (aps) au2 released. 2014. Disponível em: <http: //www.jamesserra.com/archive/2014/10/analytics-platform-system-aps-au2-released/>. 20

TAYLOR, K. L. Oracle data mining concepts, 11g release 2 (11.2). 2011. Disponível em: <http://www.cs.utexas.edu/~cannata/dataSci/Class%20Notes/Data%20Mining% 20Concepts_e16808.pdf>. 19

Referências 44

TODAY, P. A. Top 34 free data analysis software. 2014. Disponível em: <http: //www.predictiveanalyticstoday.com/top-data-mining-software/>. 23

TURBAN RAMESH SHARDA, J. E. A. D. K. E. Business Intelligence: Um enfoque gerencial para a inteligência do negócio. [S.l.: s.n.], 2009. 9

VISCOVERY. Viscovery somine. 2016. Disponível em: <https://www.viscovery.net/>. 21 WEISS, N. I. S. M. Predictive Data Mining: A Practical Guide. [S.l.: s.n.], 1998. 228 p. 8 WEKA, M. L. G. at the University of W. Mining big data using weka 3. 2016. Disponível em: <http://www.cs.waikato.ac.nz/ml/weka/arff.html>. 12

ZAKI, M. J. Parallel and Distributed Data Mining: Na Introduction. Large-Scale Parallel Data Mining.[S.l.: s.n.], 2000. 260 p. 8

No documento ESTUDO COMPARATIVO ENTRE AS FERRAMENTAS WEKA E SAS NO PROCESSO DE DESCOBERTA DE INFORMAÇÕES (páginas 39-55)