universidade federal do pará

Dentre as tarefas de mineração de dados, a classificação é a que mais se destaca quando se deseja descobrir um modelo de conhecimento em um banco de dados. Neste contexto, muitos estudos são realizados utilizando técnicas de mineração de dados como ferramenta fundamental em um Sistema de Detecção de Intrusão. Atualmente, observa-se que diversas organizações enfrentam o desafio de saber lidar com o grande volume de dados gerados pelas suas transações.

Nesse contexto, o termo Big Data tem ganhado destaque, em tradução literal significa “Big Data”, forma direta de se referir ao grande volume de dados que é gerado. Porém, para realizar essa extração de conhecimento é necessário um banco de dados com registros reais sobre a área de interesse a ser analisada. Algo que não seria tão fácil de fazer se considerarmos uma base de dados que tenha registros de doenças, ou de casos assim.

Dado o crescente interesse na área de mineração de dados, procura-se apresentar um estudo de caso de aplicação de técnicas de aquisição de conhecimento em bases de dados com base na análise de dados reais provenientes de conexões de redes de computadores.

JUSTIFICATIVA

OBJETIVOS

Objetivo Geral

Objetivos Específicos

METODOLOGIA

Esses algoritmos são amplamente utilizados ao tentar detectar uma classe distinta em um grande conjunto de dados. Utilizando esta técnica, tentamos observar se a alteração do valor da constante k afetará os resultados obtidos para as taxas de acertos e erros. Além disso, algumas métricas foram utilizadas para avaliar a acurácia dos algoritmos classificadores: a taxa de acurácia (Tacuracy), a taxa de erros por falsos positivos para a classe “normal” (TEnormal), a taxa de erros por falsos positivos para a classe .

Para cinco classes foram utilizadas as seguintes medidas: Taxa de acerto (Tacuracy2) que indica o percentual de acertos na classificação, Taxa de erros total (TEtotal2) que indica o percentual total de erros na classificação, Taxa de erros por falsos positivos para a classe "DOS" (TEdos), que representa a proporção de erros ocorridos na classificação da classe "DOS", a taxa de erros por falsos positivos para a classe "R2L" (TER2l), que representa a proporção de erros ocorridos na classificação da classe "R2L", a taxa de erros de falsos positivos para a classe "U2R". TEu2r), que representa a proporção de erros ocorridos na classificação da classe “U2R”, a taxa de erros por falsos positivos para a classe “sondagem” (TEprobing), que representa a proporção de erros ocorridos na classificação de a classe "sonda". Além disso, foram comparados os valores de precisão de cada classificador, para duas e cinco classes, de acordo com o valor de k utilizado em cada experimento.

APRESENTAÇÃO DO TRABALHO

Utilizando o software WEKA, foram testados dois algoritmos de classificação mais populares em estudos envolvendo mineração de dados, Decision Tree e Naive Bayes. Para garantir resultados muito satisfatórios quanto à classificação feita com os dados, o conjunto de dados original foi alterado em dois momentos. O Capítulo 2 apresenta os conceitos básicos de aprendizado de máquina e suas aplicações, o processo de descoberta de conhecimento em bancos de dados, mineração de dados e a ferramenta WEKA.

Este capítulo apresenta alguns conceitos básicos que serão utilizados neste trabalho e são essenciais para a compreensão da técnica de mineração de dados, que é a principal etapa do processo de descoberta de conhecimento em bancos de dados. Além disso, os princípios que embasaram este estudo também pretendem descrever as etapas e técnicas computacionais que contribuem para a descoberta de conhecimento em bancos de dados.

INTRODUÇÃO

Assim, a mineração de dados é uma importante ferramenta para o desenvolvimento de analisadores de tráfego para um IDS, que permite, através da aplicação de técnicas e algoritmos de aprendizado de máquina, distinguir entre os chamados acessos normais à rede, aqueles que apresentam algum tipo de anomalia. Mineração de dados, ou "mineração de dados", é um termo usado para nomear o processo de análise de conjuntos de dados a fim de encontrar padrões que representem informações úteis e não irrelevantes. A mineração de dados faz parte de um processo maior e mais abrangente, o da descoberta de conhecimento em bancos de dados, que visa extrair conhecimento de alto nível a partir de dados de baixo nível no contexto de clusters de big data (FAYYAD, 1996).

Knowledge Discovery in Databases, ou “Knowledge Discovery in Databases”, é o termo, cunhado em 1989, que se refere ao amplo processo de descoberta de conhecimento em dados armazenados em bancos de dados. Seleção dos dados: o primeiro passo é selecionar qual conjunto de dados será submetido ao processo. Selecione um conjunto de dados de destino ou concentre-se em um subconjunto de variáveis ou amostras de dados.

Técnicas de mineração de dados podem ser utilizadas para tarefas como classificação, avaliação, associação, segmentação e resumo. Para determinar a classe, o conjunto de dados deve ser dividido em dois subconjuntos: dados de treinamento e dados de teste. Ao construir um modelo, o primeiro passo é particionar o conjunto de dados, dividindo-o em um conjunto de treinamento e um conjunto de teste.

Para ilustrar o processo de classificação de um novo objeto utilizando o algoritmo Naive Bayes, será utilizado o banco de dados Carros. Assim, aplica-se o processo de mineração de dados para classificação, por meio da análise dos dados históricos obtidos. O banco de dados foi criado através do monitoramento de atividades não maliciosas, reproduzidas em laboratório.

É baseado na iniciativa da DARPA (Agência de Projetos de Pesquisa Avançada de Defesa) que forneceu o banco de dados para os projetistas de Sistemas de Detecção de Intrusão. A primeira etapa do processo de descoberta de conhecimento na base de dados consistiu na seleção do conjunto de dados KDDCUP'99 que será submetido ao processo de mineração de dados.

AVALIAÇÃO DE DESEMPENHO DO CLASSIFICADOR

Falsos Positivos (FP): são registros de amostras de conexões anormais que foram previstas como normais. No ambiente WEKA, os resultados dos experimentos de predição são representados através de matrizes de confusão com layouts específicos. FN (Falsos Negativos) número de espécimes pertencentes à classe “normal” que foram classificados incorretamente como “anormais”.

A Tabela 9 mostra um esquema da matriz de confusão para as cinco classes NORMAL(NO) e ABNORMAL (DOS, R2L, U2R e PROBING), que são as cinco classes presentes no KDDCUP'99. Todos os outros elementos fora da diagonal principal na Tabela 9 são falsos positivos, onde a ordem das classes é a seguinte (PREDIT→ACTUAL), ou seja, FP (DOS→NO) representam instâncias "normais" classificadas incorretamente como "DOS" e FP.U2R→ PR) instâncias da classe "sondagem" que são classificadas erroneamente como "U2R" e assim por diante para outras. Taxa de erros falsos positivos para a classe "normal" (TEnormal) representando a taxa de erros que ocorreram na classe normal de classificação.

Taxa de erros por falsos positivos para a classe “anormal” (TEAnormal), que representa a taxa de erros ocorridos na classificação da classe anormal. Nos experimentos de duas classes, utilizou-se a equação 3 para a taxa de acurácia (Tacuracy), para a taxa de erro por falsos positivos para a classe “normal” (TEnormal), a equação 4, para a taxa de erro por falsos positivos positivos para para a classe “anormal” (TEabnormal), equação 5 e para a taxa de erros total (TEtotal1) equação 6. Taxa de erros por falsos positivos para a classe “DOS” (TEdos), que representa o percentual de erros ocorridos na classificação da classe “DOS”.

A taxa de erros falsos positivos para a classe “R2L” (TER2l), que representa a porcentagem de erros ocorridos na classificação da classe “R2L”. A taxa de erros por resultados falsos para a classe “U2R” (TEu2r), que representa o percentual de erros ocorridos na classificação da classe “U2R”. A taxa de erros de falsos positivos para a classe de sondagem (TEprobing), que representa a porcentagem de erros ocorridos na classificação da classe de sondagem.

INTRODUÇÃO

O conjunto de dados de 494.020 registros, duas classes de descoberta (normal e anormal) foi submetido ao software WEKA para classificação com o algoritmo Decision Tree. Quando k = 2, o número de casos classificados corretamente foi 493.828, o que corresponde à soma dos registros corretamente classificados como positivos (VP = 97.223) e dos registros corretamente classificados como negativos (VN quando k = 10 esta soma (VP = 9.730 e VN = 396660) resultaram em 493890 registros classificados corretamente. Observa-se então que o melhor desempenho para esses experimentos ocorre quando k=10, no número de registros classificados corretamente aumenta em 62 registros, complementarmente, o número de registros classificados incorretamente. são reduzidos para 62.

O que significa que à medida que o número de partições aumenta, o classificador aumenta o número de registros classificados incorretamente, o que não é bom para um analisador de tráfego que busca identificar invasões em uma rede de computadores. O Gráfico 3 apresenta os valores dos dados classificados corretamente (VP e VN), para o experimento realizado com a alteração do valor de k. O Gráfico 4 apresenta os valores dos registros mal classificados (FP e FN) para cada alteração no valor de k.

Após a obtenção das taxas de acertos e erros e do tempo de construção do modelo, cada matriz de confusão gerada pelo WEKA para cada um dos experimentos de 5 classes foi reduzida a outra matriz para melhor visualização da quantidade de registros classificados correta e incorretamente. apenas duas classes de percepção: normal e anormal. O número máximo de registros ordenados corretamente ocorre em k=12, onde a soma de VP e VN resulta em 493893 registros, quando k=14 (melhor momento) o número de registros ordenados corretamente cai para 493885, que é o mesmo número de registros. quando k = 10. Além dos registros classificados incorretamente, o gráfico 6 mostra aqueles que o modelo previu como links normais e não são (FP) e aqueles que o modelo previu como anormais e são normais (FN).

O menor número de registros mal classificados ocorre quando k=12, onde a soma de FP e FN resulta em 127 registros. O total de registros classificados corretamente por experimento é obtido da mesma forma que foi feito com os experimentos realizados com Árvore de Decisão, a soma entre o total de verdadeiros positivos (VP), que são registros que o modelo normalmente previa como conexões e que na verdade bens. conexões normais e os verdadeiros negativos (VP), os dados que o modelo previu que seriam algum tipo de ataque e na verdade eram algum tipo de ataque. Assim, o gráfico 7 mostra o número de registros classificados corretamente como conexão normal ou conexão anormal para cada experimento realizado com a variação de k.

Além disso, o número de entradas mal classificadas tem o melhor caso, ou seja, um número menor de entradas, quando k=20, onde a soma de FP (aquelas entradas que o modelo previu como sendo compostos normais e não eram) e FN ( aqueles que o modelo previu serem anormais e normais) resultam em 22.943 registros. O Gráfico 8 mostra esse resultado juntamente com o número de entradas mal classificadas para cada experimento realizado com a variação k.