2.3 Aprendizagem Computacional
2.3.4 Ferramentas para Aprendizagem Computacional
Apresentamos a seguir alguns dos produtos disponíveis no mercado utilizados em processos de Data Mining. Estas ferramentas podem ser tanto usadas isoladamente como podem aceder às bases de dados implementadas num SGBD.
2.3.4.1 Linguagem e ambiente R
O ambiente e linguagem para análise estatística denominada de Projeto R foi de- senvolvido por Ross Ihaka e Robert Gentleman [IG96] da Universidade de Auckland na Nova Zelandia, a partir da linguagem para análise estatística S criada pela Bell Laboratories (Lucent Technologies), cuja denominação comercial é S-plus.
A linguagem de programação R é destinada à modelização de cálculos estatísticos e geração de gráficos. É uma linguagem bastante poderosa, flexível e modular. E,
2.3. Aprendizagem Computacional 49 com a utilização de pacotes extras, é viável implementar novas funções para áreas de estudo específicas.
O código fonte do R está disponível sob a licença GNU-GPL e as versões binárias fornecidas para diferentes sistemas operativos (Windows, Linux e Mac OS).
Há uma série de pacotes incluídos com a instalação do R e muitos outros dispo-
níveis na rede de distribuição do R (CRAN - Comprehensive R Archive Network)15
que permite dar boa expansibilidade de aplicação à linguagem e ao ambiente.
O pacote RATTLE (the R Analytical Tool To Learn Easily)16[Wil07], por exem-
plo, é destinado exclusivamente a adaptar o R para execução de tarefas Data Mining. O RATTLE tem uma interface simples e intuitiva que facilita a aplicação de técnicas
Data Mining usando as funções estatísticas implementadas no ambiente R.
2.3.4.2 Weka
O WEKA (Waikato Environment for Knowledge Analysis) [Han01] é um ambiente de software que reúne um conjunto de algoritmos de Aprendizagem Computacional aplicáveis a tarefas de Data Mining. Todo o ambiente está programado em lingua- gem Java o que permite a interoperabilidade entre diversos sistemas operativos. Os algoritmos podem ser aplicados diretamente sobre os dados utilizando para isso a própria interface gráfica do WEKA, ou por intermédio de uma aplicação Java. O WEKA contém funcionalidades de pré-processamento e as principais tarefas de Data Mining implementadas entre as quais: classificação, regressão, segmentação, cluste-
ring, regras de associação e também a visualização de resultados. Na Figura 2.16
ilustramos a interface do Explorer do WEKA, com demonstração de um resultado de processamento.
15A URL disponível para acesso é http://cran.r-project.org/
Figura 2.16: Interface Explorer do WEKA
O WEKA está disponível17 sob a licença GNU-GPL e as versões fornecidas para
diferentes sistemas operativos (Windows, Linux e Mac OS X).
2.3.4.3 Yale
O Yet Another Learning Environment (YALE) [MWK+06], é também um ambi-
ente destinado a aplicações de Data Mining usando algoritmos de Aprendizagem
Computacional. Contém alguns algoritmos do próprio WEKA, e ainda outros mais
recentes. Tem uma interface gráfica mais elaborada que o WEKA, e incorpora um conceito de modelização de todo o processo de KDD por intermédio de operadores e diagramas. Cada operador representa uma ou mais etapas do processo de extração de conhecimento. Assim, o utilizador escolhe um operador para tratar os dados, um ou mais operadores para a aplicação dos algoritmos, e por fim, um operador para in- tegrar e visualizar os resultados. O fluxograma do processo vai sendo implementado
2.3. Aprendizagem Computacional 51 graficamente e posteriormente é possível ainda ser representado em formato XML, o que permite a esta ferramenta uma grande versatilidade de integração com outros ambientes similares.
O YALE é desenvolvido em Java e está disponível18 sob a licença GNU-GPL,
sendo as versões fornecidas para diferentes sistemas operativos (Windows, Linux e
Mac OS). Há uma versão comercial chamada de Rapidminer19.
2.3.4.4 Rapidminer
O sistema Rapidminer, uma versão aprimorada do YALE [MWK+06], é um produto
bastante robusto para uso mais profissional em negócios empresariais, e incorpora uma série de funcionalidades advindas do YALE, notadamente conhecido como uma ferramenta de modelagem do processo KDD. O Rapidminer é suportado pela em- presa Rapid-i e atualmente está na versão 5.1. em 2 modalidades de licenciamento:
Community Edition e Enterprise Edition. Nas versões mais recentes o Rapidminer
permite integração, além do WEKA, também com o ambiente R.
O Rapidminer incorpora ainda cerca de 15 extensões que acrescentam funciona- lidades ao processo KDD, tais como: text mining, visual mining, image processing,
time series processing e web mining. A Figura 2.17 demonstra a interface de visua-
lização de resultados do Rapidminer.
2.3.4.5 SPSS Clementine
O SPSS (Statistical Package for the Social Sciences)20, é um software que original-
mente foi desenvolvido para aplicação de estatística nas ciências sociais. É atual- mente o programa de análise estatística mais usado nas ciências sociais e estendido a outros domínios do conhecimento.
18URL: http://sourceforge.net/projects/yale
19URL do fornecedor do produto: http://www.rapid-i.com
Figura 2.17: Visualização de resultados no Rapidminer
A versão SPSS Clementine é um produto derivado do original SPSS que im- plementa funcionalidades exclusivamente de Data Mining e segue rigorosamente as fases e tarefas definidas pela metodologia CRISP-DM. As principais tarefas Data
Mining como classificação, regressão e associação fazem parte do produto.
2.3.4.6 SAS Enterprise Miner
O SAS21é um sistema integrado de aplicações para análise de dados, que consiste na:
recuperação de dados, gestão de arquivos, análise estatística, acesso a BD, geração de gráficos, e geração de relatórios. Implementa um conceito de ciclo de análise de dados que considera: aceder, manipular, analisar e apresentar os dados. Pode ser instalado em diversos ambientes operacionais disponíveis no mercado, sendo os programas e arquivos portáveis para qualquer um desses ambientes. O SAS Enterprise Miner é um produto exclusivamente destinado a aplicação de técnicas de Data Mining.
2.4. Computação Distribuída 53