• Nenhum resultado encontrado

Estudo Experimental com as Ferramentas Alteryx Designer, Dataiku DSS e SPAD Data Mining

N/A
N/A
Protected

Academic year: 2022

Share "Estudo Experimental com as Ferramentas Alteryx Designer, Dataiku DSS e SPAD Data Mining"

Copied!
10
0
0

Texto

(1)

Estudo Experimental com as Ferramentas Alteryx Designer, Dataiku DSS e SPAD Data Mining

Breno A. Campos1, Paulemir G. Campos1

1 Universidade de Pernambuco (UPE) – Campus Caruaru Caruaru – PE – Brasil

[email protected], [email protected]

Abstract. This paper presents an experimental study with Alteryx Designer, Dataiku DSS and SPAD Data Mining (DM) tools. Motivation: Identify problem types to apply these DM tools, including if they can handle Big Data.

Method: These tools were applied in three databases, considering classification and regression data mining algorithms, keeping the parameters with default values. Results: The functionalities of the data mining tools used were verified. Discussion: Based on the results obtained, it is possible to support organizational managers in choosing appropriate DM tools.

Resumo. Neste artigo é apresentado um estudo experimental com as ferramentas de Mineração de Dados (MD) Alteryx Designer, Dataiku DSS e SPAD Data Mining. Motivação: Identificar em que problemas poderão ser usadas, inclusive se podem lidar com Big Data. Método: Essas ferramentas foram aplicadas em três bases de dados, considerando algoritmos de mineração de dados de classificação e de regressão, mantendo-se os parâmetros com valores default. Resultados: Verificou-se as funcionalidades das ferramentas de mineração de dados utilizadas. Discussão: Pelos resultados obtidos é possível auxiliar gestores organizacionais na escolha de ferramentas de MD adequadas.

1. Introdução

Com o anseio de produzir aplicativos computacionais para resolver problemas do mundo real de forma satisfatória, cientistas e pesquisadores da área de Inteligência Artificial (IA) evidenciaram a partir dos anos de 1970 a necessidade de inserir nesses sistemas bastante conhecimento específico sobre o problema [Russel e Norvig 2013].

No entanto, o uso de ferramentas automáticas para aquisição de dados mais a maturidade dos sistemas de bancos de dados geraram uma verdadeira explosão de dados. Apesar disso, esses enormes volumes de dados possuem pouco conhecimento útil, motivando o surgimento da área de pesquisa denominada Mineração de Dados (MD), ligada à IA [Han et al. 2012].

(2)

Por sua vez, no começo do século XXI, o grande desenvolvimento e propagação de aplicações com Cloud Computing (Computação em Nuvem) muito contribuiu para o nascimento da era do Big Data [Silva e Campos 2015].

Adicionalmente, é importante destacar que nos setores público e privado, é notório o desejo por tecnologia adequada, facilitando alcançar uma gestão empresarial eficiente. Portanto, num contexto organizacional extremamente competitivo mundialmente, é evidente que cada vez mais empresas estão empregando Tecnologia da Informação (TI), Data Mining (DM), Business Intelligence (BI) e inovação tecnológica em seus processos decisórios e organizacionais [Laudon e Laudon 2010], [Witten et al.

2011], [Han et al. 2012], [Salgado et al. 2015], [Sousa Neto et al. 2015], [Silva e Campos 2015], [Mendonça 2015].

Assim, neste artigo é efetuado um estudo experimental com três ferramentas de MD que possam ajudar na tomada de decisão nos mais diversos domínios do conhecimento humano. Em adição, pretende-se evidenciar características dessas ferramentas, por exemplo, em que problemas podem ser aplicadas, em que sistema operacional, que tipo de licença de software (proprietária ou pública), quais algoritmos de Mineração de Dados, opções de Visualização dos Dados de saída, e se podem manipular Big Data.

No mais, além dessa seção introdutória, este artigo possui: A segunda seção, abordando ferramentas de MD; A terceira seção descrevendo os experimentos com as três ferramentas de MD analisadas; Na quarta seção os resultados são apresentados; E, na quinta e última seção, são descritas as conclusões desta pesquisa.

2. Ferramentas de Mineração de Dados

Não é simples obter conhecimento útil de maneira eficiente de enormes bases de dados.

Desta forma, vários centros de pesquisa e organizações concentram esforços no desenvolvimento de ferramentas de Mineração de Dados [Witten et al. 2011], [Han et al. 2012], [Sousa Neto et al. 2015].

Atualmente, existem muitas ferramentas para auxiliar a descoberta de conhecimento de grandes bases de dados em muitas áreas do conhecimento humano, objetivando, assim, apoiar gestores de organizações científicas e/ou empresariais em suas tomadas de decisão. Nesse contexto, destacam-se as ferramentas de Mineração de Dados: Oracle Data Mining1, IBM SPSS2, SAS Enterprise Miner3, TANAGRA

1 Disponível em:https://www.oracle.com/database/technologies/datawarehouse-bigdata/oml4sql.html,

acessada em setembro de 2019.

2 Disponível em: https://www.ibm.com/analytics/spss-statistics-software, acessada em setembro de 2019.

3 Disponível em: https://www.sas.com/en_us/software/enterprise-miner.html, acessada em setembro de

2019.

(3)

[Rakotomalala 2005], WEKA [Hall et al. 2009], Orange [Demsar et al. 2013], KNIME4, Miner3D5 e RapidMiner6.

É importante ressaltar que as ferramentas WEKA, Orange e KNIME, todas com licença pública de software, foram investigadas por Melo et al. (2016). Já as ferramentas Oracle Data Mining, IBM SPSS e SAS Enterprise Miner (estas com licença de software proprietária) foram analisadas por Luna et al. (2017). E as ferramentas CMSR Data Miner7, KnowledgeSTUDIO8 e RapidMiner (todas com licença proprietária, mas disponibilizam licença grátis para fins educacionais) foram avaliadas por Campos e Campos (2018). Assim, almejando concluir esse estudo experimental, serão verificadas detalhadamente as ferramentas de Mineração de Dados Alteryx Designer9, Dataiku DSS10 e SPAD Data Mining11.

2.1.Alteryx Designer

A ferramenta de Mineração de Dados Alteryx Designer12 possibilita uma análise preditiva de dados através de uma interface workflow de fácil utilização. Apesar de possuir diversos métodos para análise de predição nas linguagens de programação R e Python, usando a interface workflow o usuário não precisa ter conhecimentos de linguagens de programação.

Além disso, essa ferramenta suporta vários formatos de dados, tais como, data warehouses, aplicações baseadas em Enterprise Resource Planning (ERP) e em cloud computing, flat files, aplicações office e dados de redes sociais. Adicionalmente, permite que o usuário efetue pré-processamento da base de dados, pode ser aplicada a problemas de classificação e de regressão, possui várias formas de visualização dos dados de saída e pode manipular big data.

2.2. Dataiku DSS

A ferramenta Dataiku DSS13 (Data Science Studio) aceita vários tipos de fonte de dados, como arquivos CSV (Comma Separated Values), planilhas eletrônicas, sistemas de arquivo de servidor, Hadoop Filesystem (HDFS), bancos de dados SQL e NoSQL (por exemplo, Cassandra e MongoDB), incluindo o big data (Figura 1).

Essa ferramenta disponibiliza vários métodos de pré-processamento de dados, algoritmos de aprendizado de máquina preditivos (aprendizado supervisionado) e de

4 Disponível em: https://www.knime.com/, acessada em setembro de 2019.

5 Disponível em: https://secure.miner3d.com/, acessada em setembro de 2019.

6 Disponível em: https://rapidminer.com/, acessada em setembro de 2019.

7 Disponível em: https://www.roselladb.com/starprobe.htm, acessada em setembro de 2019.

8 Disponível em: https://www.datawatch.com/in-action/angoss/, acessada em setembro de 2019.

9 Disponível em: https://www.alteryx.com/pt-br/products/alteryx-platform/alteryx-designer, acessada em julho de 2019.

10 Disponível em: https://www.dataiku.com/dss/, acessada em agosto de 2019.

11 Disponível em: https://www.coheris.com/en/data-mining-software/, acessada em setembro de 2019.

12 https://www.alteryx.com/sites/default/files/2018-11/Designer-Datasheet-20184.pdf, acessada em outubro de 2019.

13 https://doc.dataiku.com/dss/latest/, acessada em outubro de 2019.

(4)

agrupamentos (aprendizado não-supervisionado), suporta métodos escritos em R e Python, bem como, visualização dos dados de saída através de diversos gráficos, tabelas e relatórios.

Figura 1. Fontes de Dados Permitidas pela Ferramenta Dataiku DSS.

2.3. SPAD Data Mining

O SPAD Data Mining14 é um software de mineração de dados que dispõe de ferramentas de gerenciamento de dados, estatística descritiva, análise fatorial, modelos estatísticos, vários algoritmos de mineração de dados e visualização dos dados de saída por meio de gráficos e diagramas.

Essa ferramenta foi criada para os cientistas de dados e para os mineradores de dados de indústrias. Por esse motivo, essa ferramenta explora uma grande quantidade de dados e extrai as informações estratégicas, utilizando mais de 70 metodologias para analisar essa enorme quantidade de dados, para a tomada de decisões. A interface é dividida em 4 tipos de ambiente de trabalho: ‘visão de projeto’ – exibe todos os elementos relacionados ao projeto atual; ‘visualização em diagramas’ – permite o usuário visualizar o progresso de cada análise passo a passo; ‘visualização de métodos’

– contém métodos e recursos do SPAD Data Mining; e, ‘visualização de dados’ – são os resultados produzidos pelo método selecionado no diagrama.

3. Experimentos com Alteryx Designer, Dataiku DSS e SPAD Data Mining Na plataforma do Sistema Operacional Windows 8 de 64 bits realizou-se experimentos usando as ferramentas Alteryx Designer (versão 2018.3.5), Dataiku DSS (versão 5.0) e SPAD Data Mining (versão 9.1.17) considerando as bases de dados de Câncer de Mama15, de Íris16 e de Vinho17, extraídas do repositório de Aprendizado de Máquina da Universidade da Califórnia [Lichman 2013].

14 https://www.coheris.com/en/data-mining-software/, acessada em outubro de 2019.

15 Disponível em: http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/, acessada em julho de 2019.

(5)

Em função das características das bases de dados (atributo alvo ou classe serem categóricos ou nominais), nos experimentos verificaram-se funcionalidades de pré- processamento dos dados, algoritmos de Mineração de Dados (MD) aplicados a problemas de classificação e de regressão, além de recursos de visualização de dados, métodos de validação do conhecimento descoberto, e capacidade de lidar com Big Data.

No mais, destaca-se que foram mantidos os valores padrões (default) predefinidos nos parâmetros dos algoritmos de MD utilizados em cada uma das ferramentas de MD examinadas e que o enfoque será na análise qualitativa [Flick 2009]

dessas ferramentas.

4. Resultados

Após os experimentos com as ferramentas Alteryx Designer, Dataiku DSS e SPAD Data Mining chegaram-se aos resultados exibidos nas Figuras 2, 3 e 4, e na Tabela 1.

Figura 2. Ferramenta Alteryx Designer com destaque para o ambiente workflow com a Base de Dados Câncer de Mama.

Na Figura 2 pode-se visualizar o ambiente workflow da ferramenta Alteryx Designer com a base de dados de Câncer de Mama, onde permite-se efetuar a limpeza dos dados, seleção de atributos, análise preditiva e geração de relatórios de saída.

16 Disponível em: http://archive.ics.uci.edu/ml/machine-learning-databases/iris/, acessada em julho de 2019.

17 Disponível em: http://archive.ics.uci.edu/ml/machine-learning-databases/wine/, acessada em julho de 2019.

(6)

Figura 3. Ferramenta Dataiku DSS exibindo Árvore de Decisão Obtida com a Base de Dados Íris.

A Figura 3 ilustra uma Árvore de Decisão obtida com a ferramenta Dataiku DSS a partir da base de dados Íris. Essa ferramenta também permite verificar a importância de variáveis, dependências parciais, a matriz de confusão com a performance do algoritmo de mineração de dados, e características e informações de treinamento do modelo.

Figura 4. Ferramenta SPAD Data Mining Evidenciando a Interface ‘Visualização em Diagramas’ com as Bases de Dados de Câncer de Mama, Íris e de Vinho.

Já na Figura 4 é mostrada a interface ‘Visualização em Diagramas’ da ferramenta SPAD Data Mining usando as bases de dados de Câncer de Mama, de

(7)

Íris e de Vinho. Nesse ambiente de trabalho, pode-se carregar mais de uma base de dados diferente, efetuar o pré-processamento da mesma, aplicar-se vários algoritmos de mineração de dados, bem como, executar os próprios algoritmos do usuário escritos nas linguagens de programação R e/ou Python.

Tabela 1. Propriedades das Ferramentas de Mineração de Dados Alteryx Designer, Dataiku DSS e SPAD Data Mining

Propriedades

Ferramentas de Mineração de Dados Alteryx

Designer

Dataiku DSS SPAD Data Mining Sistema

Operacional

Windows. Linux (MacOS para testar e Windows por virtualização).

Windows.

Licença Proprietária* Proprietária** Proprietária

Suporte a Big Data Sim. Sim. Sim.

Tipos de Problemas Classificação, Regressão.

Classificação, Regressão, Agrupamentos.

Classificação, Regressão, Agrupamentos, Associação.

Pré-Processamento dos Dados

Integração e Transformação de Dados.

Preparação, Limpeza, Missing Values, e

Transformação de Dados.

Missing Data Management, Seleção de Atributos, Binarização e Discretização.

Árvores de Decisão Decision Tree, Forest Model.

Decision Tree, Random Forest, Extra Random Trees.

Decision Trees, Random Forests.

Regras de Decisão Não. Não. Não.

Redes Neurais MLP. MLP. MLP.

*Disponibiliza licença grátis para fins educacionais.

**Versões disponíveis: Free, Lite, Team e Enterprise.

(8)

Tabela 1 (Continuação). Propriedades das Ferramentas de Mineração de Dados Alteryx Designer, Dataiku DSS e SPAD Data Mining

Propriedades

Ferramentas de Mineração de Dados Alteryx

Designer

Dataiku DSS SPAD Data Mining

Regressão Linear,

Logística.

Linear, Logística.

Simples, Múltipla,

Logística, PLS – Partial Least Squares.

Meta-Aprendizado Não. Não. Não.

Agrupamentos Não.

K-Means, Aglomerativo, Interativo, Espectral.

K-Means, ICT – Interactive Clustering Tree.

Regras de Associação

Não. Não. Apriori.

Estatísticos (Bayes) Naive Bayes. Não. Bayes Networks.

Visualização dos Dados

Diversos Gráficos, Relatórios e Tabelas, com integração com Tableau, Power BI e Qlik.

Diversos Gráficos, Tabelas e Relatórios.

Diversos Gráficos e Diagramas.

Avaliação dos Dados

Training-and- Test.

Training-and-Test, Holdout, Cross- Validation.

Holdout, Cross- Validation.

E, conforme os resultados detalhados na Tabela 1, verifica-se que:

- Todas essas ferramentas apresentam boa interface gráfica, têm licença proprietária, podem ser empregadas em problemas de Classificação e de Regressão, possuem métodos para transformação dos dados, contém diversos algoritmos de Mineração de Dados, têm métodos de Avaliação dos Dados, muitas formas para Visualização dos Dados de saída, especialmente gráficos e tabelas, e podem manusear Big Data;

(9)

- Apenas Alteryx Designer disponibiliza licença grátis para uso educacional, o método estatístico Naive Bayes e permite integração com as ferramentas de visualização de dados Tableau18, Power BI19 e Qlik20;

- Somente Dataiku DSS executa no sistema operacional Linux e nos navegadores de Internet Google Chrome e Firefox, uma de suas quatro versões é free, e possui os métodos de avaliação de dados: Training-and- Test, Holdout, Cross-Validation;

- Já SPAD Data Mining e Dataiku DSS podem ser aplicadas a problemas de agrupamento;

- As ferramentas Alteryx Designer e SPAD Data Mining estão disponíveis apenas para o sistema operacional Windows;

- E, só a ferramenta SPAD Data Mining resolve problemas de associação.

5. Conclusões

De acordo com os resultados experimentais obtidos com as ferramentas Alteryx Designer, Dataiku DSS e SPAD Data Mining, pode-se concluir que foram alcançados os objetivos dessa pesquisa, ou seja, auxiliar gestores organizacionais fornecendo suporte em seus processos de tomada de decisão, através do uso de alguma(s) dessas ferramentas de Mineração de Dados (MD) mais apropriada(s) ao domínio de suas organizações.

Adicionalmente, com este trabalho, encerrou-se a investigação de várias ferramentas de MD ao longo dos últimos quatro anos, cujos resultados anteriores foram descritos por Melo et al. (2016), Luna et al. (2017) e Campos e Campos (2018).

Referências

Campos, B. A. e Campos, P. G. (2018) Estudo Experimental com as Ferramentas CMSR Data Miner, KnowledgeSTUDIO e RapidMiner. In Anais da Jornada Científica e de Extensão - JCE 2018 da UPE Caruaru, 10p, Caruaru-PE.

Demsar, J., Curk, T., Erjavec, A., Gorup, C., Hocevar, T., Milutinovic, M., Mozina, M., Polajnar, M., Toplak, M., Staric, A., Stajdohar, M., Umek, L., Zagar, L., Zbontar, J., Zitnik, M. e Zupan, B. (2013) “Orange: Data Mining Toolbox in Python”, Journal of Machine Learning Research, Volume 14, p. 2349-2353.

Flick, U. (2009) Introdução à pesquisa qualitativa. Tradução Joice Elias Costa, Artmed, 3ª ed., Porto Alegre.

Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P. e Witten, I. H. (2009)

“The WEKA Data Mining Software: An Update”, SIGKDD Explorations, Volume 11, Issue 1.

18 https://www.tableau.com, acessada em setembro de 2019.

19 https://powerbi.microsoft.com/en-us/, acessada em setembro de 2019.

20 https://www.qlik.com/us, acessada em setembro de 2019.

(10)

Han, J., Kamber, M. e Pei, J. (2012) Data Mining: Concepts and Techniques, Morgan Kaufmann, 3rd ed., San Francisco.

Laudon, K. C. e Laudon, J. P. (2010) Sistemas de Informação Gerenciais, Pearson Prentice Hall, 9a. ed., São Paulo.

Lichman, M. (2013) UCI Machine Learning Repository [http://archive.ics.uci.edu/ml], School of Information and Computer Science, University of California, Irvine.

Luna, B. G., Barboza, M. F. X., e Campos, P. G. (2017) Estudo Experimental com as Ferramentas Oracle Data Mining, IBM SPSS e SAS Enterprise Miner. In Anais da Jornada Científica e de Extensão - JCE 2017 da UPE Caruaru, p. 20-29, Caruaru- PE.

Melo, A. B., Silva, G. A., Morais, P. L. e Campos, P. G. (2016) Estudo Experimental com as Ferramentas de Mineração de Dados WEKA, Orange e KNIME. In Anais da Jornada Científica e de Extensão - JCE 2016 da UPE Caruaru, p. 55-62, Caruaru- PE.

Mendonça, C. M. C. (2015) A Computação em Nuvem e as suas Relações com os Arranjos de Governança de TI e o Alinhamento Estratégico, Tese de Doutorado em Administração, Universidade Federal do Rio Grande do Norte, Natal-RN.

Rakotomalala, R. (2005) “TANAGRA: Un Logiciel Gratuit pour L’Enseignement et la Recherche”, Actes de EGC’2005, RNTI-E-3, Volume 2, p. 697-702.

Russel, S. e Norvig, P. (2013) Inteligência Artificial, Tradução de: “Artificial Intelligence: A Modern Approach”, Editora Campus, 3a. ed.

Salgado, C. C. R., Araújo, A. G. e Sousa Neto, M. V. (2015) Tecnologia da Informação e Vantagem Competitiva: Exploração dos Artigos sob a Ótica da Bibliometria. In XVIII SEMEAD'2015, Seminários em Administração, 16p., Natal- RN.

Silva, I. M. e Campos, F. C. (2015) Big Data e Cloud Computing Perspectivas de Uso em Engenharia de Produção: Uma Análise Bibliométrica de 2004-2014. In XXXV ENEGEP'2015, Encontro Nacional de Engenharia de Produção, 19p., Fortaleza- CE.

Sousa Neto, M. V. de, Medeiros Junior, J. V., Anez, M. E. M. e Moraes, E. A. (2015) Building Information Technology Capabilities: A Case Study of the Development of an Integrated Management System. In International Conference of the System Dynamics Society'2015, Proceedings of the 33rd International Conference of the System Dynamics Society, 12p., Cambridge-USA.

Witten, I. H., Frank, E. e Hall, M. A. (2011) Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 3rd ed.

Referências

Documentos relacionados

Alguns danos provocaram perdas significativas de rigidez à tração, de até 25%, comparando-se valores obtidos em ensaios de tração confinada de geotêxteis danificados com

No prazo de 10 dias contada da deliberação, para os condóminos presentes, ou contada da sua comunicação, para os condómino ausentes, pode ser exigida ao administrador a convocação

É possível que o parâmetro de instalação PAR11(1) se tenha personalizado a”0" para que esta tecla afete, independentemente a cada eixo, de maneira que um eixo possa mostrar a

Dentro desta mercantilização, os trabalhadores são expostos às exaustivas horas de trabalho; à remuneração não condizente; à dívidas por servidão, não possuem

Convenio para desenvolvimento de servicos assistenciais de natureza continuada, para atendimento da populacao local em situacAo de vulnerabilidade, compreendidos na area

Ninguém quer essa vida assim não Zambi.. Eu não quero as crianças

com ganzepe no contra fundo da peça. Por sua vez os malheis variam de tipo: ora são varados, não. O fundo maciço é colocado sempre com as fibras no mesmo correr das da frente, por

Para que o estudante assuma integralmente a condição de cidadão é preciso dar-lhe voz. Sendo o diálogo, portanto, fundamental para a cidadania, o professor de Ciências deve buscar