Ferramentas de mineração de dados

Importante destacar nesse trabalho a dificuldade de se encontrar software com interface GUI (Graphical User Interface) para aplicação do algoritmo Fuzzy Apriori para a extração de regras de associação. Alguns softwares voltados para mineração de dados aplicados em conjunto de dados com atributos de valore quantitativos, mas com pré-processamento na forma de discretização para aplicação do algoritmo Apriori, foram encontrados. Dentre todos os pesquisados, o WEKA além de ser o mais utilizado e possuir vasta literatura, foi compatível com os experimentos deste trabalho.

Entretanto, para a aplicação do algoritmo Fuzzy Apriori, nenhum software havia sido encontrado. Todos os trabalhos relacionados apontavam para utilização de pseudos-códigos, menção de que os experimentos foram feitos na linguagem C+, Java ou no ambiente Matlab, mas efetivamente nenhuma ferramenta GUI que pudesse ser utilizada para a análise de desempenho dos dois algoritmos.

Depois de uma extensa pesquisa, primeiramente foi encontrado o software Fuzzy Apriori-T (LUCS/KDD)11_{desenvolvido pela equipe do Dr. Coenen}12_da

11_{Fuzzy Apriori-T: http://cgi.csc.liv.ac.uk/~frans/KDD/Software/FuzzyAprioriT/fuzzyAprioriT.html}

Universidade de Liverpool. Entretanto a ferramenta não possui uma interface amigável e os dados para serem lidos possuem formatação própria que exigiu um esforço computacional e de preparação dos dados excessivo. Disponível para download em 7 arquivos do tipo .java, foi necessário fazer a compilação dos arquivos através da ferramenta Eclipe Standard / SDK13_{. Para complementar, o}

software não realiza a extração de regras de associação tendo como consequente apenas a classe Ataque (ataque ou normal). Ou seja, um elevado número de regras de associação é extraído, e para fazer a filtragem apenas das regras de associação com o consequente Ataque, não seria uma tarefa fácil diante do elevado número de registros (instâncias) do conjunto de dados KDD99.

Esta opção de software LUCS/KDD ficou em suspenso até que após pesquisas em ferramentas de busca da internet, o software KEEL surgiu como uma opção que poderia ser utilizada no trabalho. Como o WEKA, o KEEL é um software que agrega algoritmos de pesquisadores elevando assim a abrangência das aplicações. Como o software LUCS/KDD, o software KEEL também não disponibiliza o algoritmo Apriori gerando regras de associação com apenas o consequente classe Ataque. Tendo que optar entre o LUCS/KDD e o KEEL, apesar do KEEL também não apresentar usabilidade muito favorável, mas muito mais amigável que o LUCS/KDD, optou-se por este tendo como justificativa sua similaridade com o software WEKA em termos de formato de arquivo, a opção de desenvolvimento de experimentos, e principalmente a disponibilidade de outros algoritmos agregados a ferramenta, tais como os de classficação de regras.

Para o desenvolvimento dos experimentos dessa dissertação, foram então escolhidas as duas ferramentas baseadas em software do tipo open source, sendo elas: WEKA (HALL et. al., 2009) e KEEL (ALCALA et. al., 2011).

3.1.1 WEKA (Waikato Environment for Knowledge Analysis)

WEKA é um programa open sourced desenvolvido pela Universidade de Waikato na Nova Zelândia no ano de 1999. É uma ferramenta para aplicações em

mineração de dados desenvolvida em JAVA e que tem agregado estados da arte em máquinas de aprendizagem e algoritmos de mineração de dados que possibilita a extração de conhecimento. Por ser uma ferramenta que possui código aberto e tem fins acadêmicos, estando disponível no sítio do próprio desenvolvedor14_{(WEKA) que}

pode ser utilizado por qualquer usuário. A equipe de desenvolvimento mantém periodicamente atualizada a versão através de correções e releases, além de manter uma lista de discussões sobre a ferramenta. Grande parte de seus componentes de software são resultados de teses e dissertações de grupos de pesquisa desta universidade. Segundo (Silva, 2004), inicialmente o desenvolvimento do software visava à investigação de técnicas de aprendizagem de máquina, enquanto sua aplicação inicial foi direcionada para a agricultura, uma área chave na economia da Nova Zelândia.

A tela principal da ferramenta é o WEKA GUI Chooser e dispõe dos botões, Simple CLI, Explorer, Experimenter e KnowledgeFlow.

 Explorer: é usado para explorar os dados com WEKA dando acesso a todas as facilidade para uso das tarefas de mineração de dados.

 Experimenter: permite o usuário criar, analisar, modificar e rodar em larga escala experimentos. Pode ser usado para responder questões do tipo qual o melhor esquema, se houver.

 Knowledge flow: tem a mesma função que o Explorer. Suporta aprendizagem incremental e utiliza algoritmos incremental para processar dados.

 Simple CLI: apenas fornece todas as funcionalidades através de linhas de comando.

A versão utilizada n experimentos foi a versão 3.7.10.

3.1.2 KEEL (Knowledge Extraction based on Evolutionary Learning)

A exemplo do software WEKA é um programa open sourced (GPLv3) JAVA desenvolvido avaliar diferentes algoritmos para mineração de dados e também foi projetado com objetivo de pesquisa e ensino. É o primeiro software deste tipo para

mineração de dados que contêm código livre baseado em bibliotecas JAVA de Algoritmos de Aprendizagem Evolucionária.

A versão de 03/07/2013 possui uma lista de algoritmos de extração de conhecimentos que foram incluídas e agrupadas em diferentes famílias e que está disponível no sítio do desenvolvedor15_{, tais como: técnicas de seleção (conjunto de}

treinamento, seleção de atributos, discretização, métodos de imputação de valores ausentes, etc) pré-processamento, algoritmos de aprendizado baseados Inteligência Computacional, incluindo algoritmos de aprendizagem regras evolutivas com base em diferentes abordagens (Pittsburgh , Michigan e IRL, ...), e os modelos híbridos, tais como sistemas fuzzy genéticos, redes neurais evolutivas, etc.

A versão utilizada do software foi a KEEL (Open source version, 2013-04-01), pois a última versão Latest version: KEEL (Open source version, 2013-07-03), apresentou problemas de conversão dos arquivos de resultados de extensão .tra e .tst para .xml.

A tela do software KEEL dispõe das opões, Data Management, Experiments, Educacional, Help e Modules. O ambiente para realização das análises desta dissertação é o Data Management e Experiments.

A descrição básica de cada uma das opções segue abaixo:

 Data Management: permite que os usuários criem novos conjuntos de dados ou criar partições de um arquivo já existente. Além disso é possível visualizar e modificar as informações de conjuntos de dados, com a única restrição de que eles devem estar em formato de arquivo disponível no software.

 Experiments: tem o objetivo de projetar experimentos usando uma interface gráfica. O objetivo é a utilização de conjuntos de dados e algoritmos disponíveis para gerar uma estrutura de diretório com todas os arquivos necessários para executar os experimentos planejados.

 Educacional: esta opção tem o objetivo de experimentos desejados usando uma interface gráfica e uma execução on-line desses experimentos, sendo ainda possível parar e retornar posteriormente. É possível também visualizar os resultados diretamente no ambiente gráfico. Entretanto, esse módulo do software possui ainda número reduzido de métodos disponíveis.

 Help: apenas fornece todas as funcionalidades através de linhas de comando.

 Modules: inclui novos módulos extensivos de funcionalidades do software KEEL, tais como: Imbalanced Learning, Non-Parametric Statistical Analysis e Multiple Instance Learning.

No documento Dissertação (páginas 84-88)