• Nenhum resultado encontrado

ESTUDO COMPARATIVO ENTRE AS FERRAMENTAS WEKA E SAS NO PROCESSO DE DESCOBERTA DE INFORMAÇÕES

N/A
N/A
Protected

Academic year: 2021

Share "ESTUDO COMPARATIVO ENTRE AS FERRAMENTAS WEKA E SAS NO PROCESSO DE DESCOBERTA DE INFORMAÇÕES"

Copied!
55
0
0

Texto

(1)

UNIVERSIDADE FEDERAL DE MATO GROSSO

INSTITUTO DE COMPUTAÇÃO

COORDENAÇÃO DE ENSINO DE ESPECIALIZAÇÃO EM BANCO DE DADOS

ESTUDO COMPARATIVO ENTRE AS

FERRAMENTAS WEKA E SAS NO PROCESSO DE

DESCOBERTA DE INFORMAÇÕES

MICHEL AGOSTINI

CUIABÁ - MT 2017

(2)

UNIVERSIDADE FEDERAL DE MATO GROSSO

INSTITUTO DE COMPUTAÇÃO

COORDENAÇÃO DE ENSINO DE ESPECIALIZAÇÃO EM BANCO DE DADOS

ESTUDO COMPARATIVO ENTRE AS

FERRAMENTAS WEKA E SAS NO PROCESSO DE

DESCOBERTA DE INFORMAÇÕES

MICHEL AGOSTINI

Orientador: Dr. Elmo Batista de Faria

Monografia apresentada ao Curso de Especialização em Banco de Dados, do Instituto de Computação da Universidade Federal de Mato Grosso, como requisito para obtenção do título de Especialista em Banco de Dados.

CUIABÁ - MT 2017

(3)

UNIVERSIDADE FEDERAL DE MATO GROSSO

INSTITUTO DE COMPUTAÇÃO

COORDENAÇÃO DE ENSINO DE ESPECIALIZAÇÃO EM BANCO DE DADOS

CERTIFICADO DE APROVAÇÃO

Título: Estudo Comparativo Entre as Ferramentas WEKA e SAS no

Processo de Descoberta de Informações

Autor: Michel Agostini

Trabalho aprovado em 04 de Novembro de 2016.

Comissão examinadora:

Dr. Elmo Batista de Faria Orientador

Dr. Andreia Gentil Bonfante Instituto de Computação - UFMT

MSc. Nilton Takagi Instituto de Computação - UFMT

(4)

AGRADECIMENTOS

A Deus por ter me dado saúde e força para superar as dificuldades. A esta universidade, seu corpo docente, direção e administração que oportunizaram a janela que hoje vislumbro um horizonte superior, eivado pela acendrada confiança no mérito e ética aqui presentes. Ao meu orientador Dr. Elmo, pelo suporte no pouco tempo que lhe coube, pelas suas correções e incentivos. Aos meus pais e minha esposa, pelo amor, incentivo e apoio incondicional. E a todos que direta ou indiretamente fizeram parte da minha formação, o meu muito obrigado.

(5)

RESUMO

Toda empresa armazena diariamente grandes quantidades de dados que ficam armazenadas na forma digital por anos ou décadas e muitas delas não percebem que toda essa gama de dados gerada pode adicionar melhorias para sua organização. Para que essas informações possam ser processadas, é necessário a utilização de ferramentas que auxiliam na tomada de decisões. Seu uso cresce a cada dia, elas são responsáveis por indicar as tendências do mercado, podendo uma empresa se adequar ao gosto do mercado e sobressair-se em relação aos seus concorrentes.

Os esforços deste projeto visam aplicar algumas técnicas de mineração de dados nas informações provenientes de vendas de produtos e serviços e aos dados financeiros da empresa Excellence Tecnologia. Serão aplicados os recursos do software WEKA e do SAS University Edition para então comparar os resultados obtidos em cada software. Tomando por objetivo identificar entre estes softwares qual possui os melhores recursos e maior agilidade no tratamento dos dados.

(6)

ABSTRACT

Every company stores large amounts of data daily that are stored in digital form for years or decades and many of them do not realize that the entire range of data generated can add improvements to their organization. In order for this information to be processed, it is necessary to use tools that help in making decisions. Their use grows every day, they are responsible for indicating market trends, and a company can adapt to the taste of the market and stand out from its competitors.

The efforts of this project aim to apply some techniques of data mining in the information coming from sales of products and services and the financial data of Excellence Tecnologia. The WEKA and SAS University Edition software resources will be applied to compare the results obtained in each software. In order to identify among these softwares which has the best resources and greater agility in data processing.

(7)

SUMÁRIO

1 INTRODUÇÃO . . . . 1

2 FERRAMENTAS DE INTELIGÊNCIA COMPUTACIONAL APLICADO A REGRAS DE NEGÓCIOS. . . . 3

2.1 Bussines Inteligence . . . 3

2.2 Mineração de Dados (Data Mining) . . . 5

2.3 Big Data . . . 9

2.4 BI X Data Mining X Big Data . . . 10

2.5 Waikato Environment for Knowledge Analysis (WEKA) . . . 11

2.5.1 Técnicas de Mineração de Dados do Software Weka . . . 14

2.5.2 Weka e Aplicações de Data Mining em Big Data . . . 15

2.6 SAS (Statistical Analysis System) . . . 15

2.7 IBM SPSS Modeler . . . 17

2.8 Oracle Data Mining . . . 19

2.9 Microsoft Analysis Service . . . 20

2.10 Viscovery SOMine . . . 20

2.11 Alteryx Design . . . 21

2.12 Rapid Miner . . . 22

3 RESULTADOS E DISCUSSÕES . . . . 25

3.1 A Empresa Excellence Tecnologia . . . 25

3.2 Preparação de dados . . . 25

3.3 Etapa de Mineração de Dados com o Software WEKA . . . 27

3.4 Etapa de Mineração de Dados com o Software SAS . . . 28

3.5 Data Mining aplicada aos dados Financeiros e suas Arrecadações 28 3.6 Data Mining aplicada aos Itens Vendidos pela Loja . . . 35

4 CONCLUSÕES . . . . 40

(8)

LISTA DE ILUSTRAÇÕES

Figura 1 – Ferramentas de BI Mais Adotadas no Brasil em Empresas de

Tecnolo-gia (CORREA, 2016). . . 5

Figura 2 – Etapas do processo de Data Mining (FAYYAD, 1996). . . 6

Figura 3 – Exemplo de Descoberta de Associações (BEZERRA, 2015) . . . 7

Figura 4 – Fórmula Descoberta de Associações (BEZERRA, 2015) . . . 7

Figura 5 – Comparações entre BI, Data Mining e Big Data (ANDOLFATTO, 2015). 11 Figura 6 – Software Weka, Elaborado Pelo Autor. . . 12

Figura 7 – Weka Explorer, Elaborado Pelo Autor. . . 13

Figura 8 – SAS University Edition Executando de Forma Virtualizada no VM Virtualbox, Elaborado Pelo Autor. . . 16

Figura 9 – Versões do IBM SPSS Modeler (GRöTTRUP, 2016). . . 18

Figura 10 – Interface Gráfica do software Rapid Miner Server, Elaborado Pelo Autor 23 Figura 11 – Ferramenta de Consultas SQL e Exportação de Dados, Elaborado Pelo Autor. . . 26

Figura 12 – Tabela de dados após passar pela etapa de transformação, Elaborado Pelo Autor. . . 30

Figura 13 – Quantidade de Clientes PJ, PF e PR constatada pelo Weka, Elaborado Pelo Autor. . . 31

Figura 14 – Gráfico da Quantidade de Clientes PJ, PF e PR produzido pelo SAS, Elaborado Pelo Autor. . . 32

Figura 15 – Gráfico dos melhores Clientes dos Últimos 12 Meses, Elaborado Pelo Autor. . . 32

Figura 16 – Gráfico da Distribuição dos valores totais de compra de cada tipo de cliente, Elaborado Pelo Autor. . . 33

Figura 17 – Gráfico da distribuição dos valores totais das compras separados por faixas de valores, Elaborado Pelo Autor. . . 34

Figura 18 – Gráficos do total de arrecadação por vendas nos últimos 12 meses, Elaborado Pelo Autor. . . 35

Figura 19 – Gráfico do valor médio de compra de cada tipo de cliente, Elaborado Pelo Autor. . . 36

Figura 20 – Dados Extraídos do DB Sem Tratamento de Dados, Elaborado Pelo Autor. . . 37

Figura 21 – Tabela com os dados já preparados para a mineração, Elaborado Pelo Autor. . . 37

(9)

Figura 22 – Gráfico da quantidade de itens de produtos vendidos nos últimos 12 meses, Elaborado Pelo Autor. . . 38 Figura 23 – Resultado da execução do algoritmo Hierarchical Clusterer no WEKA,

(10)

LISTA DE ABREVIATURAS E SIGLAS

API Application Programming Interfaces

APS System Platform Analytics

ARFF Formato de Arquivo de Atributo-Relação

BI Bussines Inteligence

CLOPE Clustering with Slope

CRM Client Relationship Management

CSV Comma Separated Values

DHP Direct Hashing and Pruning

EM Expectation Maximization

ERP Enterprise Resource Planning

ETL Extract Transform Load

GNU General Public License (GPL)

GSP Generalized Sequential Pattern algorithm

HP Hewlett-Packard Company

(11)

ME Mercadoria

MO Mão-de-Obra

MS-DOS MicroSoft Disk Operating System

NoSql Not Only SQL

PC Computador Pessoal

PCA Principal Component Analysis

PDW Parallel Data Warehouse

PF Pessoa Jurídica

PJ Pessoa Física

PR Produtor Rural

PL/SQL Procedural Language/Structured Query Language

RAM Random Access Memory

SAS Statistical Analysis System

SAP Sistemas, Aplicativos e Produtos para Processamento de Dados

SO Sistema Operacional

SOM Self Organizing Maps

SQL Structured Query Language

SGBD Sistema de Gerenciamento de Banco de Dados

SVM Support Vector Machines

T-SQL Transact-SQL

UFMT Universidade Federal de Mato Grosso

XLS Extensão de Arquivo Excell

(12)

1

CAPÍTULO 1

INTRODUÇÃO

Empresas com visão de mercado fazem uso de recursos computacionais para o tratamento de informações de seus clientes e fornecedores. Atualmente vários softwares existentes no mercado proporcionam informação para auxiliar na tomada de decisões. Auxiliando na melhoria e agilidade na execução dos processos, possibilitando redução nos custos e maior competitividade no mercado. Para encontrar essas respostas é necessário conhecimento para uso de softwares capazes de auxiliar de forma rápida e precisa a tarefa de analisar desde dados relativos a clientes e informações de vendas realizadas, até dados do tipo não estruturados. Dados estes coletados principalmente da web e nas mídias sócias e que podem auxiliar as organizações a seguir o rumo certo tomando como base o conhecimento adquirido com o auxílio de ferramentas computacionais.

Dentre a gama de softwares de data mining disponíveis atualmente no mercado foram escolhidos dois softwares para a comparação de suas funcionalidades. A versão University Edition foi escolhida por que a empresa SAS é um dos líderes do segmento a vários anos(GARTNER, 2016). Já o WEKA teve sua escolha baseada principalmente por este ser um software livre e de código aberto que possui projetos em desenvolvimento por programadores do mundo todo, para aperfeiçoamento e integração com outras ferramentas.

Analisando a grande importância que os dados que são coletados em uma organização podem esconder, o foco deste trabalho é mostrar de que formas dados

(13)

re-Capítulo 1. Introdução 2

lacionais podem ser tratados e manipulados na ferramenta Weka e na ferramenta SAS University Edition, expondo como é feito o tratamento das informações em cada software. Serão extraídas do banco de dados as informações provenientes de vendas de produtos e serviços e dados financeiros. Em sequência serão aplicadas técnicas de data mining nessas informações coletadas com a ajuda do software WEKA e do SAS para então comparar os resultados obtidos nesse processo, verificando dentre os dois softwares aquele que tem o melhor desempenho.

Este trabalho está dividido em 4 capítulos, o primeiro comporta a introdução ao tema abordado, mostrando uma prévia do trabalho juntamente com os principais objetivos. O segundo capítulo embasa de forma teórica os processos realizados na mineração de dados e as principais ferramentas de data mining disponíveis no mercado. A terceira parte deste documento exibe o passo a passo da realização dos processos de mineração de dados, expondo como foram realizadas desde a coleta dos dados até a exposição dos resultados dos estudos de caso. Por fim, o último capitulo aponta as principais características dos softwares WEKA e SAS quando aplicadas técnicas de mineração aos dados coletados.

(14)

CAPÍTULO 2

FERRAMENTAS DE INTELIGÊNCIA

COMPUTACIONAL APLICADO A

REGRAS DE NEGÓCIOS.

Estarão definidas aqui as tecnologias computacionais envolvidas no negócio que auxiliam, desde empresas de pequeno porte a multinacionais nos processos de tomada de decisão.

2.1

Bussines Inteligence

Ficou no passado o tempo em que empresas analisavam o andamento dos processos da empresa através de relatórios mensais, sem o uso de nenhuma técnica para auxiliar nas decisões e rumos que a empresa deve seguir, proporcionam a estas empresas grandes perdas econômicas. Por não estarem analisando tendências de mercado, deixam de promover estratégias competitivas e consequentemente perdem espaço de mercado.

As informações podem ser encontradas em qualquer lugar, porém, precisam ser tratadas para poder serem compreendidas. Portanto uma organização precisa de tecnologias que auxiliem no tratamento dos dados gerados diariamente, auxiliando a obter

(15)

Capítulo 2. Ferramentas de Inteligência Computacional Aplicado a Regras De Negócios. 4

um processo de decisão eficaz, ponto que levará ao progresso dos negócios e o sucesso empresarial(FONTANELLA, 2012).

De acordo com (BARBOSA, 2007), uma enorme quantidade de dados é gerada nas empresas e organizações diariamente, gerando sistemas que armazenam gigantescas bases de dados, ficando estes propícios ao uso de ferramentas de apoio a decisão. Para administrar e analisar esta grande quantidade de dados requer a agilidade e integridade das informações de feedback, estas ajudarão a preparar a organização para eventuais mudanças ou desafios e planejar novas oportunidades para mercados futuros.

As soluções de BI evoluíram de simples ferramentas informativas para ferra-mentas estratégicas para as empresas, estas que buscam pelo auxílio da inteligência nos negócios.

A BI está profundamente ligada aos sistemas integrados de gestão empresarial, sistemas estes que registram, processam e armazenam os dados gerados ao longo dos dias e fornecem a informação de forma transparente e em tempo real. Contudo percebeu-se que não adiantava armazenar grandes proporções de dados se não era possível encontrar inconsistências ou agrupar estes dados em um único sistema. Partindo dessas necessidades o BI ganhou abrangência e incorporou a criação de diversas ferramentas que evoluem de forma rápida.

Segundo (CORREA, 2016), em sua pesquisa realizada para a empresa Resulta-dos Digitais em parceria com a Rock Content com mais de 400 organizações, atualmente no Brasil mais de 70% das empresas de tecnologia não utilizam nenhum recurso para auxiliar em suas decisões nos negócios, dentre a pequena parte das empresas que utilizam alguma ferramenta de apoio, temos em sua grande maioria empresas que utilizam ferramentas próprias para tomada de decisões, cerca de 51%. Já 15% delas utilizam o QlikView, 14% usam o GoodData, 12% usam o Tableau, já uma pequena parte utilizam softwares como Stefanini, Cortex, Domo entre outros, como podemos observar na figura 1.

(16)

Capítulo 2. Ferramentas de Inteligência Computacional Aplicado a Regras De Negócios. 5

Figura 1 – Ferramentas de BI Mais Adotadas no Brasil em Empresas de Tecnologia (COR-REA, 2016).

2.2

Mineração de Dados (Data Mining)

No mercado atual as empresas que pretendem se manter altamente competitivas, precisam analisar informações colhidas sobre seus clientes, buscando interpretar seus gostos e expectativas em relação a produtos ou serviços.

A mineração de dados (Data Mining) é uma técnica utilizada para a descoberta de conhecimento. (MATOS, 2012), descreve que a mineração de dados é associar docu-mentos similares obtidos em resposta a buscas realizadas por algum sistema e descobrir se estes documentos possuem ocorrências em comum.

Segundo (BRAGA, 2005), para que os objetivos de uma empresa sejam al-cançados não basta fazer uso de ferramentas genéricas de CRM (Client Relationship Management) ou ERP (Enterprise Resource Planning), mas ainda ter o auxílio analítico para a identificação de padrões e previsões com base nos dados estratégicos de uma organização.

(ELMASRI, 2005), descreve Data Mining como sendo uma tarefa de garim-pagem ou o descobrimento de novos padrões de informações provenientes de extensas quantidades de dados. Geralmente aplicada a informação que ficam armazenadas em bancos de dados Relacionais, são analisadas informações especificas que a organização gostaria de descobrir algumas particularidades que não podem ser observadas através de relatórios gerados pelo sistema. Como exemplo podemos citar um procedimento de

(17)

Capítulo 2. Ferramentas de Inteligência Computacional Aplicado a Regras De Negócios. 6

venda, nosso sistema pode nos dar informações relativas a custos, valor de venda, total e necessita de pessoal capacitado para analisar essas informações para que ela possa ser usada nos procedimentos da empresa, analisando somente dados com base em informações já armazenadas no passado. Na Mineração de Dados apenas uma amostragem dos dados é utilizada, as informações relativas a vendas são exportadas para o formato de tabelas, os dados são transformados de acordo com seus tipos, em seguida a mineração é aplicada através de softwares específicos gerando uma resultado desse processamento onde o gestor analisa essas informações para tomar a decisão que melhor se aplica ao seu negócio, como podemos observar na figura 2.

Figura 2 – Etapas do processo de Data Mining (FAYYAD, 1996).

De acordo com (BEZERRA, 2015), as etapas da Mineração de Dados estão dispostas nas seguintes etapas:

Definição do Problema: Nessa etapa é definido o conjunto de dados que serão utilizados. Por exemplo, informações relativas a Clientes, Produtos e Vendas. Também são definidas aqui quais serão os objetivos pretendidos com essa operação, de acordo com a necessidade de informação que a empresa busca.

Pré-Processamento: Etapa que tem por função a preparação dos dados para serem proces-sados nos algoritmos da Data Mining. Compreende a reunião, organização e tratamento dos dados, estes que geralmente são extraídos da base de dados com várias inconsistências de leitura e digitação e redundâncias, importantes para o sistema de gestão mais desne-cessárias e que prejudicam a mineração. É feita a codificação dos dados, processos aos quais os dados são preparados para serem reconhecidos pelos algoritmos, podendo serem transformados em extensões de arquivos diferentes de acordo com os requisitos de cada software. Ainda é realizado o procedimento de enriquecimento dos dados com intuito de deixar a informação colhida mais completa e detalhada.

Mineração de Dados: Esta etapa é subdividida nas seguintes técnicas que podem ser utilizadas:

(18)

Capítulo 2. Ferramentas de Inteligência Computacional Aplicado a Regras De Negócios. 7

Descoberta de Associações: Nesta técnica é verificado a busca por itens que ocorrem com uma certa regularidade coincidem em operações de um conjunto de dados, mesmo que não tenham uma interligação visível. Como exemplo vamos tomar a figura 3, que segundo Eduardo Corrêa Gonçalves mostra de forma clara a utilização desta técnica, onde são mostrados os registros armazenados comprados por um único cliente.

Figura 3 – Exemplo de Descoberta de Associações (BEZERRA, 2015)

Para aplicar a regra temos a seguinte fórmula abaixo, onde suporte é a porcen-tagem de compras que contém os dois registros coincidentes dividido pelo total de registros armazenados. A confiança é o número de vezes que ocorre os dois registros dividido pelo registro objetivo a ser analisado e indicam a validade da regra aplicada aos dados.

Figura 4 – Fórmula Descoberta de Associações (BEZERRA, 2015)

Pode ser notado na tabela de registros uma relação entre os produtos (cerveja e salaminho) que coincidem nas compras da linha 1 e da linha 4. Aplicando a formula acima observa-se que entre as transações que possuem o item cerveja, também ocorre a compra do item salaminho. Desta forma o suporte da cerveja em relação ao salaminho é

(19)

Capítulo 2. Ferramentas de Inteligência Computacional Aplicado a Regras De Negócios. 8

calculado da seguinte forma: 2, 6 = 33,33%. Observe ainda que existem 2 compras onde os itens cerveja e salaminho são adquiridos juntos e 3 transações onde o produto cerveja é adquirido, desta forma a confiança é medida da seguinte maneira: 2, 3 = 66,67%, indicando que 66,67% dos consumidores que compram cerveja também levam salaminho. Como exemplo desse tipo de algoritmo temos o Apriori, GSP, DHP, entre outros (ZAKI, 2000). Classificação: Consiste em encontrar uma função que relacione um conjunto de registros a um conjunto de classes, uma vez encontrada, essa função pode ser adotada aos novos registros inseridos e classificando a classe à qual cada um vai pertencer. Como exemplo podemos mencionar uma instituição bancária que fornece empréstimos a seus clientes e armazena as informações relativas a cada um destes empréstimos entregues. Vamos supor que temos dois grupos de clientes, os adimplentes e os inadimplentes, baseando nessas informações é descoberta uma função que estruture esses clientes corretamente em cada uma destas classes. Essa função pode ser utilizada para prever e comparar as características dos novos clientes para também poder classificá-los, como resultado dos dados analisados é fornecido ao usuário uma filtragem dos clientes que possivelmente são identificados como adimplentes e aos quais pode ser concedido empréstimos.

Regressão: Similar a tarefa de classificação a regressão como com diferença trabalhar somente com valores numéricos. Como exemplo temos a probabilidade de chuvas em uma determinada área, definição dos limites bancários para um cliente e demais aplicações onde deve ser obtido como resultado números.

Agrupamento (Clusterização): Verificar registros de uma base de dados que de alguma forma tem características em comum e separá-los em subconjuntos denominados de clusters. Organizar cada cluster com informações que fazem uso de certos dados por utilizarem os mesmos recursos, e se distanciam mais dos registros que serão colocados em outro cluster. Como exemplo desta técnica temos uma empresa de serviços de internet que vende diversos tipos de pacotes para acesso à internet e gostaria de identificar grupos de clientes que contratam os mesmos tipos de serviços.

Simularização: Essa tarefa compreende a identificação e descrição das características que são comuns entre os integrantes de um conjunto de dados (WEISS, 1998). Podemos tomar como exemplo informações que caracterizam clientes de uma determinada empresa que assinam um determinado canal de tv por assinatura e identificar as características desses clientes como a faixa etária, sexo, média salarial, nível de escolaridade, podendo, com base nos resultados obtidos, aplicar campanhas de marketing direcionados a clientes que possuem esse padrão encontrado.

Detecção de Desvios: Essa tarefa permite identificar dentre os elementos de uma base de dados aqueles que fogem do padrão em relação a maioria sendo denominado de valores atípicos (WEISS, 1998). A detecção de desvios tem como objetivo localizar mudanças que ocorrem em padrões encontrados anteriormente, é muito utilizado para detecção de

(20)

Capítulo 2. Ferramentas de Inteligência Computacional Aplicado a Regras De Negócios. 9

fraudes em cartões e outros tipos de arrecadação. Se diferencia das outras tarefas citadas anteriormente, por buscar padrões com pouca ocorrência e se diferenciam dos dados geralmente armazenados (BEZERRA, 2015). Um exemplo da aplicação desta tarefa é uma base que armazena os valores médios de compras de um determinado cliente, nos meses anteriores os valores seguem próximos a uma média, mas em um determinado mês esses valores são ultrapassados de forma significativa esse registro é considerado um desvio. Como resultado pode ser feita uma verificação para averiguar se acontece algum tipo de irregularidade.

Descoberta de Sequencias: Com esta tarefa pode-se identificar as relações entre itens que ocorrem no decorrer de um período. Com informações relativas a um cliente é realizada uma análise para verificar os hábitos ao longo de um período. Podem ser verificados em quais períodos de tempo e frequência certos tipos de vendas ocorrem. Essas informações podem ser uteis para impulsionar vendas ou para detectar irregularidades (TURBAN RAMESH SHARDA, 2009).

Interpretação de Resultados: Etapa na qual vemos o importante papel do usuário, que é o responsável pelo todo do projeto, desde a necessidade da construção correta dos objetivos da mineração, a separação dos dados mais relevantes e a preparação destes. A escolha pelo algoritmo que será aplicado e terá uma proporção mais satisfatória para atingir o objetivo inicial além é claro da interpretação dos resultados exibidos no final do processo.

2.3

Big Data

A medida que as tecnologias de armazenamento de dados foram evoluindo, além do grande aumento na quantidade de dados estruturados para armazenar, surgiram também os dados desestruturados. Com a popularização da internet e das mídias sociais, deixando um desafio ainda maior ao aplicar a inteligência nos negócios, que se depara com quantidades exorbitante de dados com custos de armazenamento relativamente altos, limi-tando as empresas a armazenar os dados que definiam como mais importantes. Uma nova onda surgiu impulsionada em sua grande parte pela Web, a Virtualização e a Computação em nuvem. Nesta onda chamada de Big Data as organizações estão começando a perceber que necessitam processar toda essa nova diversidades de dados com uma velocidade que acompanha o dia-a-dia de seus processos hoje possível através da Virtualização dos dados e ao eficiente armazenamento em nuvem.

De acordo com (HURWITZ ALAN NUGENT, 2016), Big Data é uma combi-nação de tecnologias novas e antigas que auxiliam as empresas a terem uma visão próspera do seu negócio, ela pode ser definida como a capacidade de gerenciar grandes volumes de dados de diversos tipos, com uma velocidade certa e um período estabelecido para que a tomada de decisões possa ser realizada em tempo real.

(21)

Capítulo 2. Ferramentas de Inteligência Computacional Aplicado a Regras De Negócios. 10

Para (MAYER-SCHONBERGER, 2013), Big Data é relacionando a trabalhos em elevada escala que não pode ser feito em escalas menores, tendo como resultado ideias inovadoras que modifiquem o mercado, desafiando o modo como vivemos e interagimos com o mundo. Poder utilizar todos os dados ou uma porção maior dos dados armazenados de uma organização para análise, nos permite averiguar detalhes que passavam despercebi-dos de quando só era possível se utilizar de uma amostragem despercebi-dos dadespercebi-dos fornecendo uma visão mais clara e uma medição mais exata.

Os métodos tradicionais não conseguem gerenciar grandes quantidades de dados e disponibiliza-los em tempo real, seja pela sua diversidade (áudio, imagem, vídeo, texto) e por se encontrarem em diferentes ambientes e principalmente pela limitação das ferramentas convencionais e do hardware em deixar a informação disponível a tempo de auxiliar na tomada de decisões (PRIYADARSHI, 2016).

2.4

BI X Data Mining X Big Data

A ferramenta do momento é a Big data, várias publicações em revistas e artigos definem que o futuro dos negócios serão gerenciados por ele, mas e as outras ferramentas já existentes no mercado como o Business Intelligence e a Mineração de Dados, vão deixar de ser utilizados e substituídos por esta nova ferramenta?

De acordo com (ANDOLFATTO, 2015) a empresa Aquarela, a qual atua no mercado brasileiro de Inteligência aplicada aos negócios e já prestou serviços para os setores público e privado. O Bussines Inteligence monitora os indicadores de desempenho da empresa com metas de venda, custos, acompanhamentos dos processos do negócio em tempo real, reflete apenas no que já foi realizado, nas informações que estão armazenadas em uma base de dados, pode trabalhar com um alto volume de dados, mas é limitado a tecnologias dos bancos de dados relacional/dimensional. Além do sistema não gerar por si próprio inteligência, sendo necessário interpretar as informações. Por outro lado, o Data Mining é focado em uma pequena quantidade de dados, enfatizado em encontrar padrões nos dados analisados e demonstrar os resultados obtidos através de relatórios que podem basear estratégias para a organização. Por último temos o Big Data não irá substituir por completo as soluções existentes no mercado, mais é visto como a junção das ferramentas de BI e Mineração de Dados. Trabalhando com um alto volume de dados e em várias plataformas de dados como estruturados ou não estruturados como informações relativas a corporação encontrada nas mídias sociais e em sites da Web que ajudam a alimentar o Big Data, gerando como resultado um controle com indicadores que preveem ações e estratégias que podem ser utilizadas para sanar problemas ou acompanhar tendências. (MAYER-SCHONBERGER, 2013), também apoia a ideia que o Big Data esta relacionando a quantias de dados de elevada escala as quais ferramentas e hardware não

(22)

Capítulo 2. Ferramentas de Inteligência Computacional Aplicado a Regras De Negócios. 11

conseguem processar as informações a tempo de serem aproveitadas e que não pode ser aplicado a pequenas quantidades de dados. De acordo com a figura 5 podemos observar as 7 principais diferenciais de cada ferramenta.

Figura 5 – Comparações entre BI, Data Mining e Big Data (ANDOLFATTO, 2015).

2.5

Waikato Environment for Knowledge Analysis (WEKA)

O WEKA é um software Livre do tipo GNU General Public License (GPL), criado pela Universidade de Waikato (Nova Zelândia). Este software escrito na lingua-gem Java é uma poderosa ferramenta de mineração de dados que vem sendo utilizada para estudos acadêmicos e também por empresas desde meados do ano 2000. Por ser uma ferramenta sem custos de aquisição ou mensalidades e realizar a grande parte das tarefas que um software proprietário faz e com uma complexidade razoável. O Weka é muito utilizado por empresas e instituições que tem interesse em analisar os dados que armazenaram ao longo de um período com intuito de encontrar padrões de comportamento ou irregularidades nesses dados a fim de obter informações que os auxiliem na redução de gastos com processos internos e externos e a maximização de seus lucros. O software da universidade de Waikato possui uma interface gráfica para analisar os dados que ge-ralmente são organizados em tabelas de dados e mostrar as informações resultantes desse

(23)

Capítulo 2. Ferramentas de Inteligência Computacional Aplicado a Regras De Negócios. 12

processo de forma intuitiva. Assim como as ferramentas pagas do mercado necessitam de um profissional de Data Mining para realizar as etapas do processo de mineração e analisar os resultados obtidos para auxiliarem a organização a basear suas decisões de negócio na inteligência computacional gerada pela ferramenta (ABERNETHY, 2010).

De acordo com (WEKA, 2016) ao iniciarmos o software Weka 3.8 ele nos fornece 5 opções de aplicação, como pode ser notado na figura 9, que podemos iniciar nossos trabalhos dependendo do tipo e complexidade dos algoritmos que o operador deseja utilizar. A primeira aplicação é a Explorer, um ambiente para explorar os dados com WEKA, como o próprio nome sugere para descoberta e exploração de conhecimentos com o uso desta ferramenta onde pode ser encontrada as formas menos complexas para se trabalhar com registros. A segunda é a Experimenter, um ambiente para a realização de experimentos e testes estatísticos entre sistemas de aprendizagem. A terceira é a KnowledgeFlow, este ambiente conserva essencialmente as mesmas funções da aplicação Explorer, porém, com uma interface drag-and-drop (clicar e arrastar) tendo a vantagem de suportar aprendizagem incremental. A versão Workbench combina todas as opções anteriores acopladas a esta e por último temos a aplicação Simple CLI fornece uma interface para trabalhar com linhas de comandos sem uma interface gráfica.

Figura 6 – Software Weka, Elaborado Pelo Autor.

Para podermos manipular os dados no software WEKA é necessário transfor-mar esses dados no formato de arquivos ARFF (Formato de Arquivo de Atributo-Relação). Podemos observar a estrutura do arquivo ARFF e como são definidos os dados nesses arquivos para que a leitura dos dados possa ser aceita, são definidos os tipos de dados (NUMERIC, DATE, STRING) que estarão sendo usados. Em seguida são inseridas as linhas de dados onde o final da informação deve estar limitada por vírgulas, na mesma sequência em que as colunas são apresentadas no arquivo.

(24)

Capítulo 2. Ferramentas de Inteligência Computacional Aplicado a Regras De Negócios. 13

@relationSeguroVeiculo @attribute sexo F, M

@attributeIdade< 25, 25 − 30, 31 − 40, > 40 @attribute acidente Sim, Nao

@data F,>40,Nao M, < 25, Sim F,<25,Nao F, 31 − 40, Nao M,25-30,Nao M, < 25, Sim

Assim que o arquivo ARFF estiver configurado corretamente este já pode ser carregado no software Weka e os algoritmos de mineração já podem ser aplicados, como mostra na figura 7.

(25)

Capítulo 2. Ferramentas de Inteligência Computacional Aplicado a Regras De Negócios. 14

2.5.1

Técnicas de Mineração de Dados do Software Weka

O software Weka trabalha com vários algoritmos usados para a mineração dos dados e descoberta do conhecimento, dentre os mais utilizados temos:

1. Métodos de classificação;

• Árvore de decisão induzida • Regras de aprendizagem • Naive Bayes

• Tabelas de decisão • Regressão local de pesos

• Aprendizado baseado em instância • Regressão lógica

• Perceptron

• Perceptron multicamada • Comitê de perceptrons • SVM

2. Métodos para predição numérica; • Regressão linear

• Geradores de árvores modelo • Regressão local de pesos

• Aprendizado baseado em instância • Tabela de decisão • Perceptron multicamadas 3. Métodos de Agrupamento; • EM • Cobweb • SimpleKMeans • DBScan • CLOPE 4. Métodos de Associação.

(26)

Capítulo 2. Ferramentas de Inteligência Computacional Aplicado a Regras De Negócios. 15

• Apriori • FPGrowth

• Predictive Apriori • Tertius

2.5.2

Weka e Aplicações de Data Mining em Big Data

O software Weka pode sim trabalhar com grandes conjuntos de dados, porém, fica limitado nas aplicações com interface gráfica especialmente na versão Explorer do aplicativo por trabalharem somente com dados armazenados na memória principal do computador e podendo ocorrer sobrecargas para visualização destes dados, limitando a quantidade de dados que pode ser processada.

Para utilizar Big Data no Weka é recomendado a utilização da ferramenta Simple CLI que utilização somente linhas de comando (texto) ou escrever comandos diretamente em Java ou scripts baseados nele, permitindo assim usar de enormes volumes de dados. A partir da versão Weka 3.7 foram implementados novos pacotes uso da Data Mining de forma Distribuída.

2.6

SAS (Statistical Analysis System)

O SAS é um sistema de aplicações integradas utilizado na análise de dados, oferecendo recursos de: Recuperação de dados, Gerenciamento de arquivos, Análise estatística, acesso a Banco de Dados, geração de gráficos, geração de relatórios.

O sistema de análise estatística SAS iniciou na Universidade Estadual da Carolina do Norte como um projeto pesquisa na área agrícola. Com uma crescente demanda por esse tipo de software, o SAS foi fundado em 1976 para ajudar a todos os tipos de organizações, desde empresas privadas a entidades acadêmicas e governamentais. O software e a empresa cresceram ao longo das décadas seguintes, o software chegou a um novo estágio possibilitando sua execução em todas as plataformas e arquiteturas. Hoje o SAS está presente em mais de 140 países é o líder de mercado em softwares e serviços de business analytics, auxiliando cerca de 75.000 clientes a acertarem seus processos, escolhendo as decisões melhores e mais ágeis para melhorar suas receitas.

Segundo a empresa SAS, “Algumas pessoas veem dados como fatos e números. Mas eles são muito mais do que isso. Eles são a alma do seu negócio. Contém a história de sua organização. E estão tentando lhe dizer alguma coisa”. A proposta da empresa SAS é auxiliar as organizações a processar a grande herança que os dados produzidos por elas ao

(27)

Capítulo 2. Ferramentas de Inteligência Computacional Aplicado a Regras De Negócios. 16

longo do tempo trazem e transformá-los em conhecimento, permitindo novas perspectiva para os negócios, melhoria dos processos e visibilidade para novas oportunidades.

Os Softwares da SAS podem ser utilizado em todos os navegadores web disponíveis, é através dos navegadores que ocorre o acesso a interface do programa. Este software só pode ser instalado no PC na forma de virtualização, como apresentado na figura 8. A virtualização pode ser feita com o auxílio do software VMWare Player ou VM Virtual Box, que pode ser utilizado no mesmo computador onde será o acesso via browser ou através do software armazenado em nuvem. Está disponível para esta versão o serviço da Amazon Web Services onde é possível contratar os serviços para que o processamento não precise ser feito na mesma máquina deixando mais rápida a execução do software e ainda com a possibilidade de uso em um navegador na plataforma Tablet (DER, 2015).

Figura 8 – SAS University Edition Executando de Forma Virtualizada no VM Virtualbox, Elaborado Pelo Autor.

As soluções SAS oferecidas ao mercado são para todos os segmentos podendo ser utilizadas por usuários acadêmicos, pequenas, médias e grandes empresas até industrias, multinacionais e setores governamentais. Existem soluções que podem ser aplicadas para o setor bancário para análise de fraude que é o caso da solução Risk Management e

(28)

Capítulo 2. Ferramentas de Inteligência Computacional Aplicado a Regras De Negócios. 17

Fraud e Security Intelligence. Oferece ainda soluções para gestão de dados como o Data Management, Business Intelligence e Analytics, soluções para marketing o software Marketing Analytics além de outros recursos para trabalhos com Big Data, Data Mining, entre outros. Existem vários Produtos e soluções oferecidos pela SAS no mercado na área aplicada a inteligência nos negócios para empresas de pequeno porte até as gigantes do mercado. A versão mais enxuta da empresa é SAS Analytics Pro, versão de software destinada a um único usuário, nesta versão estão incluídos como principais recursos:

• Poderosa linguagem de programação;

• Ambiente de desenvolvimento baseado na Web;

• Biblioteca pré-construída de programas prontos para uso; • Acesso a dados, transformação e elaboração de relatórios; • Análise estatística avançada;

• Visualização de dados, apresentação e entrega; • Análise de geolocalização;

• Suporte multi-plataforma; • Escalabilidade e desempenho.

O software SAS University Edition também conhecido como SAS Studio é a versão da plataforma de softwares SAS gratuita, destinada a Professores e alunos interessados em conhecer e trabalhar com o software para fins não comerciais. Incluída neste pacote uma grande quantidade de recursos da empresa destinadas a plataforma PC.

2.7

IBM SPSS Modeler

O IBM SPSS Modeler é uma poderosa ferramenta de mineração de dados fornecido pela IBM. Com essa ferramenta tarefas complexas empregando algoritmos de estatística e de Data Mining podem ser realizadas sem programação através de sua interface gráfica. Possui inúmeras tarefas para processamento de dados como classificação automática, agrupamento automático, detecção de anomalias, priori, redes Bayesian, regressão lista de decisões, analise fatorial/ PCA, redes neurais entre outras.

A IBM não lançou um único software no mercado para auxiliar as organiza-ções a tratar suas informaorganiza-ções com a ajuda computacional, mas sim um aglomerado de ferramentas de software baseadas no mesmo conceito. O SPSS Modeler permite ao usuário

(29)

Capítulo 2. Ferramentas de Inteligência Computacional Aplicado a Regras De Negócios. 18

acessar a uma vasta gama de procedimentos estatísticos para analisar dados e desenvolver modelos para previsões. Após a criação do modelo de dados é possível realizar a criação implementação de procedimentos de análise e produção de informação. A ideia do SPSS é auxiliar as empresas a trabalhar com processos de análise de dados de forma profissional. Em processos mais complexos envolvendo grandes quantidades de dados, no entanto o Modeler deve ser instalado em um servidor para proporcionar mais agilidade na execução das tarefas para o usuário, seguindo o mesmo conceito de aplicação (GRöTTRUP, 2016). A figura 9 mostra as principais diferenças entre as versões do software SPSS Modeler. Temos a versão SPSS Modeler Personal, esta versão é disponível somente para computadores desktop e possibilita o uso das técnicas de Data Mining: classificação, associação e Segmentação. A versão SPSS Modeler Professional está disponível tanto para a versão Desktop quanto para a versão Servidor e inclui as técnicas de Data Mining: classificação, associação e Segmentação. A opção SPSS Modeler Premium também proporciona as mesmas opções da versão SPSS Modeler Professional com o diferencial de proporcionar ainda capacidades de executar análises de textos, análise de entidades e análise das redes sociais. Já a versão Gold do software contempla todas as funcionalidades da versão Premium e conta também com a versão de aperfeiçoamentos que disponibiliza auxilio de gerenciamento de decisão analítica e serviços de implantação da ferramenta.

Figura 9 – Versões do IBM SPSS Modeler (GRöTTRUP, 2016).

De acordo a (IBM, 2016), o SPSS Modeler pode ser instalado tanto em compu-tadores simples com sistemas operacionais Windows x, Windows Vista e Windows 7 e com configuração de hardware básicas, com processadores Pentium com no mínimo 2GB de memória RAM quanto em servidores Windows com sistema operacional Windows Server 2008 R2 Enterprise, Windows Server 2008 Standard/Enterprise, Windows Server 2003. Também disponível para servidores que utilizam o SO Linux nas versões Red Hat, Sun

(30)

Capítulo 2. Ferramentas de Inteligência Computacional Aplicado a Regras De Negócios. 19

Solaris 9 e 10, Hp-Ux, IBM AIX 5Le Suse Linux. O software também pode ser utilizado no ambiente virtual, sendo suportada a sua instalação no software VMware ESX Server na versão 3.0 e 3.5.

2.8

Oracle Data Mining

O Oracle Data Mining fornece uma grande quantidade de técnicas de minera-ção de dados, o pacote de mineraminera-ção de dados fica acoplado ao Oracle Database, usando recursos internos do Database da Oracle permitem usar melhor os recursos da máquina. De acordo com (TAYLOR, 2011), dentre algumas das vantagens da mineração de dados acoplada ao database temos:

• Nenhuma exportação ou conversão de dados é necessária, descomplicando o processo de mineração e menos predisposta a erros.

• Somente usuários com privilégios estabelecidos podem trabalhar com esses dados dando segurança aos dados que estão a ser manipulados.

• A preparação dos dados pode chegar a 80% do total de tempo gasto coma mineração de dados, com Data Mining da Oracle esse processo pode ser automatizado em suas principais tarefas.

• Este modo facilita o uso de dados atualizados.

• Oracle Data Mining pode ser facilmente integrado com outros recursos analíticos, tais como a análise estatística e Business Inteligence.

• A Tecnologia Oracle Stack permite tirar proveito da mineração de dados para investigação científica.

• Etapas que antecedem e procedem a mineração podem ser realizadas no mesmo ambiente.

• Possibilita o uso do PL / SQL API (Application Programming Interfaces) e operado-res da linguagem SQL, a mesma linguagem usada no Database.

O software de mineração de dados da Oracle compreende várias funções para o processamento dos dados e descoberta de conhecimento, Classificação, Regressão, Regras de Associação, detecção de anomalias, Clustering, Extração de Características, Atributo Importante (ORACLE, 2016).

(31)

Capítulo 2. Ferramentas de Inteligência Computacional Aplicado a Regras De Negócios. 20

2.9

Microsoft Analysis Service

Em abril de 2014, a (MICROSOFT, 2016) anunciou o Microsoft System Platform Analytics (APS) uma plataforma de análise e previsão de dados, unindo recursos de armazenamento de dados do MPP SQL Server com os recursos do Software HDInsight. Esta solução permite as organizações analisar dados de qualquer tipo ou tamanho, dados estruturados ou desestruturados, auxiliando nas escolhas de negócio. O Microsoft APS integra os dados do SQL Server Parallel Data Warehouse (PDW) com enormes volumes de dados não estruturados do Hadoop com a facilidade da sua manipulação através da linguagem T-SQL. O APS oferece ótimo desempenho e bons preços.

De fácil implantação o Analysis é oferecido com o software, os componentes de hardware e rede pré-instalados e configurados ofertando um melhor desempenho no data Warehouse, utilizando hardware fornecidos pela Dell e HP. Ele foi projetado para permitir a expansão de quantidades de dados podendo trabalhar até com petabytes de informação, disponível também como um serviço em nuvem da Quanta Cloud Technologie o hardware pode ser adquirido de acordo com a necessidade e crescimento operacional da empresa. Dentre os recursos da plataforma Analytics temos uma ótima velocidade de processamento. Segundo a Microsoft o Analysis Service é 50 vezes mais rápido que um serviço de DataWarehouse comum, onde processamentos de Horas com ele levam minutos, garantindo que até 6 petabytes de dados podem ser processadas permitindo processar praticamente todos os dados de uma organização sejam estes armazenados em bancos de dados ou espalhados pela grande rede (MICROSOFT, 2016).

Segundo (SERRA, 2014) o Sistema Analytics Platform (APS), é um novo nome dado a antiga plataforma Parallel Data Warehouse (PDW). O APS é como uma espécie de service pack, exceto por ter disponibilizado uma infinidade de novos recursos como a melhoria no TSQL, melhoria nos serviços de instalação e configuração, diminuindo até a quantidade de horas de implantação do sistema. Possibilita o uso integrado aos cenários polybase - tecnologia permite o acesso e a combinação de dados não-relacionais e relacionais, dentro do database SQL Server permitindo que consultas sejam realizadas em dados externos no armazenamento Hadoop ou Azure.

2.10

Viscovery SOMine

O Viscovery SOMine é a um produto da empresa Eudaptics Gmbh da Australia. Este é um software amigo do usuário, flexível e poderoso. Fornece uma gama de recursos essenciais para agilizar as aplicações financeiras, econômicas e o uso do marketing. É uma ferramenta fácil de ser utilizada, e permite uma análise avançada e um monitoramento preciso do conjunto de dados (DEBOECK, 2013).

(32)

Capítulo 2. Ferramentas de Inteligência Computacional Aplicado a Regras De Negócios. 21

O Pacote de software Viscovery oferece um tratamento visual diferenciado dos outros softwares do mercado. Seu poderoso conjunto de ferramentas permite aos usuários do sistema uma análise de dados apoiado com fluxos de trabalho que possibilitam a criação de modelos de previsão de forma rápida e correta. Com uma complexidade reduzida o Viscovery permite que uma organização entenda visualmente seus dados, permitindo visualização de clusters e dependências, para garantir melhoria nos processos e visões baseadas nas informações para alcançar vantagens sobre os concorrentes.

Dentre os recursos do pacote de software temos os clusters visuais, mineração de dados ocorre com auxílio de mapas auto organizáveis SOM (self-organizing maps). A exploração e a classificação dos dados também é feita com o auxílio do software que orienta o usuário e avalia os resultados através de perfis e grupos de comparação. Uma ferramenta de escalabilidade de dados para dados volumosos ou propensos a aumentar drasticamente sua quantidade, permitindo conexão a banco de dados, ou arquivos de dados como planilhas. Está disponível também um pacote de expansão para atualizações automáticas, permitindo que as execuções das tarefas do software possam ser realizadas com fluxo automático quando programado (VISCOVERY, 2016).

2.11

Alteryx Design

Para a maioria das organizações que se preocupam em analisar os dados do negócio, é necessário um lento processo de preparação limpeza e análise de dados, e utilizando várias ferramentas de software para agrupar dados de diferentes locas e construir os modelos analíticos e ainda moldá-los para serem analisados pelos tomadores de decisão. O Alterys Design surge para a resolução destes problemas alimentado de forma repetitiva os dados para serem analisados em pouco tempo. Ao contrário de outros tipos de mineração de dados que podem levar semanas para se chegar a informação. Neste software tarefas como preparação, analise e estatísticas dos dados são realizadas usando uma intuitiva ferramenta gráfica. A proposta do Alterys Design é que não seja necessário se um especialista em tratamento de dados para poder analisar os dados. Contando com ferramentas gráficas e recursos que não necessitam de nenhum tipo de programação como técnicas de modelagem preditiva, técnicas de agrupamento e técnicas de investigação de dados para prever comportamentos do cliente, determinar tendências, identificar pontos estratégicos para abertura de novas lojas de varejo (DESIGN, 2016).

O software Alterys permite o acesso a dados que estão armazenados em diversos locais como:

• Repositórios de dados e bancos de dados, Oracle, Microsoft SQL Server, SAP, Teradata, Pivotal Greenplum e outros.

(33)

Capítulo 2. Ferramentas de Inteligência Computacional Aplicado a Regras De Negócios. 22

• ERP e aplicações baseadas na nuvem, como o Salesforce.com, Marketo e o Google Analytics.

• Armazena os dados do Hadoop.

• Bancos de dados NoSQL, como o MongoDB.

• Arquivos de planilhas eletrônicas e aplicativos como Access • Dados de mídias sociais e do Twitter, Facebook.

• Plataformas de análise como a SPSS Modeler e o SAS.

Alterys conta com recursos de análise espacial de dados onde informações relativas as localizações de clientes podem ser processadas para definir que está adquirindo seus produtos, onde seus clientes ficam localizados e aglomerados trazendo informações importantes expandir lojas e aplicar campanhas de marketing. Recurso este utilizado geralmente pelas gigantes do mercado, agora disponível neste software.

2.12

Rapid Miner

Rapid Miner é uma plataforma de software open source que disponibiliza um ambiente integrado para aprendizagem de máquina, mineração de dados, mineração de texto, análise preditiva e análise de negócios. Rapid Miner vem ganhando forças no mercado e seu uso pode ser aplicado ao comércio e a Industria. Na mineração de dados este software oferece suporte completo a todos os processos, incluindo visualização, validação e otimização de resultados. Rapid Miner proporciona a inclusão de análises preditivas em qualquer processo do negócio, realizando execuções rápidas para a tomada de decisão a tempo de descobrir oportunidades e riscos envolvendo o negócio. Os recursos disponíveis no software são muito amplos ele contempla o Data Mining, Text Mining, Predictive Analytics, Sentiment Analysis, Business Analytics, Business Intelligence, ETL, Data Integration, Data Science, Customer Insight, Competitive Intelligence, Opinion Mining, Brand Monitoring, Web Mining, Social Media Monitoring.

O Rapid Miner tem uma estrutura similar as noções de uma linguagem de programação, mas a programação não se torna necessária. O software possui uma interface gráfica de fácil uso, utilizando os recursos de drag & drop (arrastar e soltar) e a estrutura dos dados é apresentada em caixas que são interligadas, facilitando a compreensão. O software pode ser personalizado para uma melhor visualização de resultados obtidos através de gráficos em 3D, criação de grafos com possibilidade a exportação e a uma ótima qualidade nas visualizações, alguns detalhes podem ser observados na figura 10 (HOFMANN, 2016).

(34)

Capítulo 2. Ferramentas de Inteligência Computacional Aplicado a Regras De Negócios. 23

As organizações geram enormes quantidades de dados todos os dias e precisam utilizar a mineração de dados para conseguir extrair as informações. Porém se deparam com o problema de fazer isto em um curto período de tempo, sendo que para que a mineração de dados seja feita de maneira correta a tenha um bom aproveitamento cerca de 80% do tempo fica destinado ao levantamento dos dados, na limpeza e preparação e somente 20% para a tarefa de descoberta do conhecimento aplicada a estes dados. Para realizar estas tarefas de forma aproveitar melhor este precioso tempo RapidMiner é uma poderosa ferramenta open source que conta com uma grande rapidez e facilidade de aprendizado, fazendo com que seu nome, “Mineração Rápida”, seja realmente merecido (CHISHOLM, 2013).

Figura 10 – Interface Gráfica do software Rapid Miner Server, Elaborado Pelo Autor

Dentre esta gama de softwares Analíticos que auxiliam as organizações a tomarem o rumo certo para seus negócios foram escolhidos dois softwares que serão utilizados neste trabalho. O primeiro é o Software SAS em sua versão acadêmica a University Edition, escolhido por ser um dos líderes no Rank anual da (GARTNER, 2016), mantem sua posição entre os melhores softwares do segmento desde 2009. O segundo é o WEKA, software este que foi inserido ao mercado como uma ferramenta de aprendizado em nível aprofundado, mas que acabou sendo utilizado por empresas de vários segmentos para análises de dados. Na última pesquisa publicada pela (TODAY, 2014) o Weka é apontado como um dos softwares gratuitos mais utilizados para a mineração de dados.

(35)

Capítulo 2. Ferramentas de Inteligência Computacional Aplicado a Regras De Negócios. 24

Como este é um software livre, desenvolvido em linguagem Java, inúmeros projetos estão em construção pela comunidade Weka. Segundo (PICHILIANI, 2016) este aplicativo se diferencia dos demais por ser ótimo para customização de algoritmos.

(36)

25

CAPÍTULO 3

RESULTADOS E DISCUSSÕES

3.1

A Empresa Excellence Tecnologia

A empresa Excellence Tecnologia Fundada em 2009, atua como integradora de tecnologias trabalhando em ambientes corporativos com projetos de infraestrutura física e lógica em redes de computadores, virtualização, segurança da informação e suporte especialista em servidores Linux, Windows. Possui assistência técnica especializada em Desktops, Notebooks, Nobreaks e Impressoras, atendendo à usuários domésticos, empresas e prestadores de serviços em geral.

3.2

Preparação de dados

A mineração de dados envolve uma série de etapas, a primeira delas é Definição do Problema. Nesta etapa são definidos os objetivos pretendidos com a tarefa de acordo com a necessidade da empresa, onde são determinados os conjuntos de dados que irão ser usados para a obtenção destes objetivos. A empresa não sabe quais são os seus clientes fiéis e que compram ou realizam serviços desde o início de suas atividades, muito menos usa recursos para que campanhas de marketing possam ser direcionadas a uma certa faixa de clientes com uma maior ou uma menor frequência de utilização de serviços e produtos

(37)

Capítulo 3. Resultados e discussões 26

oferecidos. Conta com um bom controle de estoques, mais não tem uma previsão de aumento ou diminuição de vendas de um determinado produto durante o decorrer do ano.

A segunda etapa é a coleta e a preparação dos dados para serem processados pelas ferramentas de Mineração. De início foram coletadas do banco de dados da empresa as informações de clientes, Produtos e Vendas, através de códigos SQL. Foram realizadas consultas no banco de dados Microsoft SQL Server 2008, onde foram executados os comandos SQL para a obtenção dos dados em seguida a exportação destes dados com o auxílio da ferramenta do próprio sistema Sete Sistemas, em seu módulo de consulta SQL que pode ser visualizado na figura 13. Além de poder realizar as consultas neste aplicativo, também disponibiliza um recurso para a exportação dos dados para vários formatos de forma muito simples. O formato escolhido para a exportação dos dados foi tabelas de dados do tipo xls por terem uma facilidade para a conversão para o software Weka e o uso do próprio formato xls diretamente no software SAS University Edition sem a necessidade de realizar qualquer conversão.

Figura 11 – Ferramenta de Consultas SQL e Exportação de Dados, Elaborado Pelo Autor.

Logo após a coleta dos dados do banco de dados foi realizada a etapa de Pré-Processamento. Sendo que nesta etapa os dados foram analisados para encontrar e remover inconsistências, erros de conversão, além de redundâncias que o próprio sistema de gestão usa mais que atrapalham no processo de mineração dos dados. Na figura 14 pode ser observada a quantidade de informações colhidas e que são desnecessárias na tarefa de mineração, vários códigos de tributação, conversão de unidade e outros códigos usados na interligação de tabelas do banco de dados. Após a exclusão destes dados desnecessários é necessário para algumas ferramentas de mineração de dados a conversão do formato xls para o formato que a ferramenta utiliza, etapa denominada de Transformação. No caso do

(38)

Capítulo 3. Resultados e discussões 27

SAS University Edition, não tive a necessidade de realizar essa conversão, pois o software já reconhece e trabalha com o formato xls, não apresentando nenhum erro com conversão de dados. No caso do software WEKA o tipo de dados utilizado é o ARFF - um formato de texto onde as informações de cada coluna são separadas por virgulas. Para efetuar esta conversão utilizei o próprio Microsoft Excel 2016, onde converti o arquivo para o formato CSV separado por virgulas, formato este que o weka possibilita que o arquivo seja aberto, em seguida abri o arquivo com o weka para efetuar a conversão, salvando o arquivo novamente na extensão ARFF. Este processo de conversão do formato XLS para CSV causou alguns erros que precisaram ser corrigidos e que impedem a abertura do arquivo WEKA enquanto estes não forem solucionados. Foi utilizado a ferramenta notepad+ para auxiliar na correção destes erros, facilitando o processo por apresentar a numeração das linhas dos dados.

Um problema ainda maior está na conversão para utilizar os dados no weka quando estamos trabalhando com casas decimais após a virgula. Para conseguir trabalhar com estes dados realizei a conversão dos dados xls para o formato CSV(MS-DOS), após a conversão substitui a vírgula das casas decimais por ponto, em seguida converti novamente o arquivo para CVS separado por vírgulas, sendo que este separa os dados por ponto e vírgula foi necessário agora substituir o ponto e vírgula pela vírgula para separar dos dados e assim poderem ser usados no software weka.

Foi necessário realizar uma padronização de dados para aplicar aos dados coletados para evitar erros no processo de mineração. Muitos dados coletados são inseridos com erros de digitação, principalmente neste sistema que informações são digitadas por diferentes usuários ao longo dos anos e ficam livres para abreviações ou mesmo a incorreta inserção dos dados o que mais tarde na tarefa de mineração irá duplicar ou introduzir resultados incorretos. Para corrigir este processo foi realizada uma padronização e substituído nos dados todas as inconsistências possíveis para se chegar a um resultado minerado mais consistente com a realidade no processo de seleção dos dados alguns destes dados não tem relevância para o processo de mineração de dados e foram excluídos do processo. Como exemplo temos alguns dados pessoais dos clientes.

3.3

Etapa de Mineração de Dados com o Software WEKA

No software Weka a etapa de preparação dos dados para a utilização no software se torna um pouco mais demorada que outros softwares que conseguem ler diretamente os dados de planilhas xls. Após o arquivo ARFF estar configurado, utilizei a interface Explorer do software Weka no qual usei os algoritmos de mineração Classificação, Cluster, Associação para tentativas de encontrar informações nos dados. Para visualizar os resultados utilizei a própria ferramenta que o software proporciona, a Visualize. Esta que

(39)

Capítulo 3. Resultados e discussões 28

oferece uma grande quantidade de gráficos para uma visão mais analítica dos resultados encontrados com a execução dos algoritmos. Outro recurso interessante de visualização de resultados que o próprio software disponibiliza é a possibilidade de após a execução de um algoritmo salvar o resultado em um novo arquivo e depois abri-lo e visualizar as informações resultantes da execução. Para observar de forma detalhada as características do conjunto de dados testado.

3.4

Etapa de Mineração de Dados com o Software SAS

Ao contrário do software Weka o Sas não necessita que os arquivos exportados do banco de dados sejam convertidos para outros formatos para poderem ser abertos no programa. Suporta os principais formatos de dados como planilhas de dados xls, arquivos xml, Arquivos CSV além de outros formatos. E possibilita que estes arquivos sejam importados para o software através de linhas de código escritas totalmente pelo usuário ou com auxílio de trechos de código prontos, para facilitar a tarefa de importação dos diferentes tipos de arquivos suportados, cabendo ao usuário somente indicar o nome do arquivo de sua escolha e o caminho do arquivo a ser usado. Após a importação do arquivo, para a realização de trabalhos com os dados é necessário armazena-los em um arquivo no formato (.sas). O software permite a criação do arquivo permanente, definido pelo usuário ou o uso de um arquivo temporário armazenado em uma biblioteca pelo SAS Work. Esse arquivo depois de criado pode ser analisado com os procedimentos SAS. A estrutura do arquivo SAS é um conjunto de dados organizados em formato de tabela, as colunas da tabela são chamadas de variáveis, estas que podem ser do tipo caractere ou numérica, e as linhas são chamadas de observações. O arquivo é dividido em duas partes a parte descritora, que contém as informações do arquivo como tamanho, quantidade de registros, nome, tipo e outras informações, e a parte dados, onde estão os dados do arquivo. Com o arquivo SAS criado realizei vários procedimentos para tentar encontrar algum tipo de informação que auxilie a tomada de decisões da empresa, analisando resultados da execução destes procedimentos e gráficos gerados com a versão University Edition.

3.5

Data Mining aplicada aos dados Financeiros e suas Arrecadações

Para que os dados estejam disponíveis para a sua manipulação o primeiro passo foi escolher quais dados seriam utilizados no processo. Como o ponto principal para a descoberta foi definido que as informações a serem colhidas seriam as relacionadas com os tipos de produtos vendidos nos últimos 12 meses e as relações que estas têm com os clientes e os dados financeiros envolvidos neste processo. Os comandos SQL abaixo foram executados com o auxílio da ferramenta consultas SQL do próprio software comercial da

(40)

Capítulo 3. Resultados e discussões 29

empresa Sete Sistemas.

SELECT ProdutoVendido.CodCliente, ProdutoVendido.NomeCliente,

Cliente.CNPJ_CPF, Cliente.InscricaoEstadual,

Sum(ItemprodutoVendido.Quantidade ∗ ItemProdutoVendido.ValorU nitarioLiquido) as ’Valor TotalCompra’

FROM ProdutoVendido

JOIN ItemProdutoVendido ON ProdutoVendido.CodProdutoVendido = ItemProdutoVendido.CodProdutoVendido

AND ProdutoVendido.CodEmpresa = ItemProdutoVendido.CodEmpresa JOIN Produto ON ItemProdutoVendido.CodProduto = Produto.CodProduto JOIN Cliente ON ProdutoVendido.CodCliente = Cliente.CodCliente

WHERE ProdutoVendido.CodEmpresa = 1

AND ProdutoVendido.DataVenda BETW EEN 001/06/20150 AND 001/06/20160 /* AND Produto.CodTipoProduto = ’MO’

AND Produto.CodTipoProduto =0ME0∗ /

GROUP BY ProdutoVendido.CodCliente, ProdutoVendido.NomeCliente, Cliente.CNPJ_CPF,Cliente.InscricaoEstadual

Para que os dados necessários para a consulta fossem coletados executei a consulta de três formas. A primeira com o código SQL acima me trouxe das informações do cliente, o código, o Nome e CNPJ ou o CPF e o campo Inscrição Estadual quando existir, relacionado ao cliente o somatório do total das compras que o mesmo realizou nos últimos 12 meses. A segunda consulta SQL foi acrescentada esta linha de código, -AND Produto.CodTipoProduto = ’MO’ - que filtra somente os produtos adquiridos do tipo Mão de Obra ou MO para totalizar o valor total de Serviços que a empresa prestou a cada cliente. A terceira consulta foi acrescentada ao código inicial da primeira consulta a linha de código a seguir, - AND Produto.CodTipoProduto = ’ME’ – filtrando agora somente os produtos do tipo mercadoria ou ME e calculando o somatório das compras que cada cliente realizou. Estes comandos estão inseridos antes do Group BY que no código acima foram inseridos como um comentário do código /* ...*/ do banco de dados Sql Server 2008. Executado o comando a própria ferramenta disponibiliza um recurso personalizado de exportação dos dados para vários tipos de arquivos. Para a utilização exportei os dados para o formato xls, que me permitiu fazer as adequações necessárias nos dados para mais tarde serem usados nos softwares de mineração. O passo a seguir foi a filtragem e a junção

(41)

Capítulo 3. Resultados e discussões 30

das três tabelas de dados e remoção dos dados desnecessários, mas antes da exclusão foram realizadas conversões nos dados para que estes ficassem como na imagem 14.

Figura 12 – Tabela de dados após passar pela etapa de transformação, Elaborado Pelo Autor.

Para chegar a esta tabela final o primeiro procedimento realizado foi utilizar a tabela com o total de compras e adicionar as colunas MO e ME provenientes das outras duas consultas. Após esta junção inserir a coluna TipoCliente que contém a classificação dos clientes em três grupos, pessoa física ou PF convertido dos clientes que possuem CPF mas não possuem Inscrição Estadual, pessoa jurídica ou PJ são os clientes que possuem CNPJ e o ultimo Produtor rural ou PR cliente que possuem CPF e Inscrição estadual. Após essa transformação as informação dos campos CPF/CNPJ e Inscrição Estadual foram removidas da tabela. Agora a tabela de dados está pronta para a mineração de dados no software SAS, mas para o software WEKA são necessárias várias alterações. A primeira é transformar os dados em um formato que o software possa reconhecer, então o arquivo foi convertido para o formato csv separado por virgulas, mas ainda não puderam ser abertos no software pois vários erros ocorreram nos nomes de clientes que possuem aspas simples e também decorrente das virgulas usadas para a separação de valores decimais, obrigando a realizar a exclusão das aspas e a troca dos separadores decimais de virgulas por pontos. Agora o software reconheceu o tipo de dados e foi realizada uma última conversão de csv para arff, o tipo de arquivos do WEKA. Já ao abrir o Weka Explorer e selecionar o atributo tipo do cliente o software retornou uma informação muito importante a quantidade de cliente que Pessoa Física, Empresas e Produtores Rurais que compraram produtos ou

(42)

Capítulo 3. Resultados e discussões 31

serviços nestes últimos 12 meses, juntamente com um gráfico indicando que de um total de 548 clientes, 226 são empresas, 297 são pessoas físicas e apenas 25 são produtores rurais. Essa relação pode ser verificada na imagem 15. Ao aplicar o algoritmo de classificação NaiveBayes ele mostrou que a porcentagem de clientes PJ é de 41%, PF 54% e PR apenas 5%. Ao aplicar o algoritmo de classificação Trees DecisionStump nos dados selecionando o valor total de compras, o resultado mostrou que o cliente que mais comprou foi uma empresa de contabilidade, ela adquiriu um total de R$ 31.244,40 em mercadorias e serviços no período.

Figura 13 – Quantidade de Clientes PJ, PF e PR constatada pelo Weka, Elaborado Pelo Autor.

Já no SAS a importação da tabela de dados pode ser feita de várias maneiras, manualmente através de códigos, com o recurso snippets que oferece trechos de códigos prontos. Para importar basta inserir o caminho onde o arquivo está armazenado ou ainda com um recurso arrastar o arquivo até área de trabalho do SAS que o software cria automaticamente todos os códigos necessários para a importação. Ao testar os dados no software o mesmo resultado é obtido na criação de um gráfico do próprio aplicativo, é possível observar os detalhes com um nível de qualidade visual impressionante como pode-se observar no gráfico 2.

(43)

Capítulo 3. Resultados e discussões 32

Figura 14 – Gráfico da Quantidade de Clientes PJ, PF e PR produzido pelo SAS, Elaborado Pelo Autor.

Ainda temos na figura 17 outro gráfico gerado pelo software Sas University que detalha os principais clientes da empresa responsáveis pela maior arrecadação. Juntas somam mais de 27% do total arrecadado, mostrando também todos os clientes que mais usam os serviços prestados pela Excellence são do tipo empresas PJ.

Figura 15 – Gráfico dos melhores Clientes dos Últimos 12 Meses, Elaborado Pelo Autor.

Ao cruzar os dados dos tipos de clientes com os totais de compras no SAS pode ser notado que os clientes do tipo pessoa jurídica PJ compram produtos e serviços com valores mais elevados ou em maiores quantidades do que os clientes pessoa física PF

(44)

Capítulo 3. Resultados e discussões 33

e produtores rurais PR. As empresas estão comprando mais, com quantidades e ou valores maiores gerando maior lucratividade para o negócio. A figura 18 mostra a distribuição desses totais de compra para cada tipo de cliente.

Figura 16 – Gráfico da Distribuição dos valores totais de compra de cada tipo de cliente, Elaborado Pelo Autor.

O sas mesmo em sua versão acadêmica disponibiliza poderosos recursos de estatísticos para serem aplicados aos dados. Ao usar o recurso de caracterização de dados obtive o gráfico da figura 19. Nela é mostrado como está distribuído o total das compras. Observando o gráfico a maior concentração do total de compras está em valores menores que R$ 2.500,00, alcançando 90% das vendas, o restante está concentrado principalmente em totais de compra de R$ 2.500,00 a R$ 5.000,00.

A análise inicial por tipo de produto no weka retornou a quantidade de vendas de cada tipo de produtos, mostrando que foram vendidas mais mercadorias totalizando 2436 contra 1271 serviços realizados nos últimos dois semestres.

Analisando a figura 19, no primeiro gráfico vemos o total de vendas por tipo de cliente totalizando uma arrecadação de R$ 339.136,28. As empresas PJ são responsáveis por 78,82% do total arrecadado pela Excellence Tecnologia, cerca de R$ 267.311,81 nestes últimos dois semestres. Os usuários domésticos PF mesmo sendo maioria contribuíram com apenas 16,54% e os Produtores Rurais apenas 4,63% deste total. No segundo gráfico, o valor total de vendas de mercadorias, de um total de 2436 vendas de mercadorias realizadas

Referências

Documentos relacionados

Este presente artigo é o resultado de um estudo de caso que buscou apresentar o surgimento da atividade turística dentro da favela de Paraisópolis, uma

Changes in the gut microbiota appears to be a key element in the pathogenesis of hepatic and gastrointestinal disorders, including non-alcoholic fatty liver disease, alcoholic

As principais indicações para a realização foram a suspeita de tuberculose (458 pacientes) e uso de imunobiológicos (380 pacientes).. A maior prevalência de resultado positivo

Membro_Faculdade (Matrícula: Inteiro, Nome: string[50], Carga: Inteiro, IniContrato: data, Curso: string[30], professor: booleano, aluno: booleano). Membro

Estes resultados apontam para melhor capacidade de estabelecimento inicial do siratro, apresentando maior velocidade de emergência e percentual de cobertura do solo até os 60

Entendendo, então, como posto acima, propõe-se, com este trabalho, primeiramente estudar a Lei de Busca e Apreensão para dá-la a conhecer da melhor forma, fazendo o mesmo com o

A variação do pH da fase móvel, utilizando uma coluna C8 e o fluxo de 1,2 mL/min, permitiu o ajuste do tempo de retenção do lupeol em aproximadamente 6,2 minutos contribuindo para

4 RESULTADOS E DISCUSSÃO 4.1 Caracterização da cobertura florestal e da biodiversidade vegetal no entorno dos cultivos de tomate na região de Apiaí-SP a Módulos