Classifica¸c˜ ao: acesso normal x intrus˜ ao

Nesta se¸cão, os resultados de cada um dos métodos de sele¸cão de atributos apresentados previamente serão exibidos e comparados para duas classes, sendo elas acesso normal e intrusão.

Os resultados serão analisados a partir da matriz de confusão gerada no MatLab para das etapas de treinamento, teste e valida¸cão executadas pela rede neural e um total geral. Uma matriz de confusão genérica pode ser vista na Figura 5.1.

Nesta matriz, as células verdes na diagonal informam a porcentagem de casos em que houve correta classifica¸cão dos dados em determinada classe. As células vermelhas fora da diagonal mostram os casos de classifica¸cão incorreta. Na célula azul, é mostrada a porcentagem total dos dados classificados corretamente, em verde, e a porcentagem total dos casos classificados de maneira incorreta, em vermelho. Observe que a soma das células verdes e vermelhas é 100%, pois este é o total dos dados que foram distrubu´ıdos, seja correta ou incorretamente pelas classes. Devido a arredondamentos feitos pelo programa, podem acontecer números totais de 100,1% ou 99,99%, por exemplo.

Figura 5.1: Matriz de confus˜ao fornecida pela rede neural do MatLab.

Para que o reconhecimento dos padrões seja considerado bom, espera-se obter porcentagens elevadas na parte superior das células azuis, que representam os dados classificados corretamente, e baixa porcentagem nas parte inferior das células azuis, que representam os casos classificados de maneira incorreta. Também pode ser observado o quanto a rede falhou na classifica¸cão através das porcentagens expostas nas células vermelhas, então essas porcentagens precisam ser baixas.

As matrizes expostas mostram cada etapa do processamento que ocorre na rede neural, pois expõem o seu desempenho em cada uma das fases e em uma matriz geral. Neste trabalho, todos os resultados serão apresentados, porém, para fins de compara¸cão da acurácia da rede neural quando a mesma utiliza diferentes subconjuntos de dados como entrada, serão investigados apenas os resultados da matriz de confusão geral.

Para a classifica¸cão em acesso normal ou intrusão, temos no KDD CUP 99 12.904 amostras de conexão normal e 53.817 de intrusão.

5.1.1 Principal Component Analysis

O teste aqui executado se refere ao algoritmo pca para duas classes de informa¸cão. Na Figura 5.2, é mostrada a matriz de confusão para este caso.

Ao separar em duas classes, na fase de treinamento, a rede neural dividiu 19,5% dos dados na classe 1, ou seja, acesso normal, sendo 19% do total dos dados classificados corretamente nesta classe e 80,6% dos dados na classe que representa uma intrus˜ao, sendo 80,3% do total dos dados classificados corretamente nesta classe.

Na fase de teste, a matriz de confusão apresenta 19,6% classificados como cone- xão normal, sendo 0.5% total classificados incorretamente e 80,4% categorizados como intrusão, com porcentagem de 0,2% incorretos.

A matriz de confusão da fase de valida¸cão mostra um total de 19,8% dos dados classificados como acesso normal e 80,2% como intrusão. Os dados classificados incorretamente na primeira classe representam 0,4% do total e na segunda classe 0,3% do total.

Abordando as matrizes de todas as etapas de uma maneira geral, os resultados expostos em All Confusion Matrix mostram que, na na fase de treinamento, o resultado obtido foi de 99,2% de acertos e 0,8% de erros. Para a valida¸cão, obtivemos um percentual de 99,3% de classifica¸cões corretas e 0,7% de classifica¸cões incorretas. Já para a fase de teste, foi observado 99,4% de acertos e 0,6% de erros. Portando, este método apresentou um total de 99,3% de classifica¸cões corretas e 0,7% de classifica¸cões incorretas.

Para uma melhor visualiza¸cão dos dados, na Tabela 5.1 é mostrada uma s´ıntese da taxa de classifica¸cão correta e da taxa de classifica¸cão incorreta.

Tabela 5.1: Porcentagem de erros e acertos do classificador com duas classes para o pca. Fase Classifica¸c˜oes Corretas Classifica¸c˜oes Incorretas

Treinamento 99,2% 0,8%

Teste 99,4% 0,6%

Valida¸c˜ao 99,3% 0,7%

Figura 5.2: Matriz de confus˜ao para o PCA com duas classes.

Os resultados abordados mostram uma excelente classifica¸cão quando o subconjunto de dados é selecionado a partir do algoritmo pca, pois o número de classifica¸cões incorretas foi extremamente baixo, com apenas 0,7% de erro no total geral.

5.1.2 Factor Analysis

Agora a análise será feita com os resultados obtidos ao utilizar como entrada o subconjunto de dados selecionados a partir do método Factor Analysis, com duas classes.

A matriz de confusão do método supracitado é exibida Figura 5.3.

Figura 5.3: Matriz de confus˜ao para o factoran com duas classes.

Na fase de treinamento, 19,9% dos dados foram tomados como acesso normal e 80,1% como intrus˜ao na rede. O total de erros para acesso normal ´e de 0,7% e para a

27 segunda classe o total de erros ´e de apenas 0,1%.

Para o teste, 19,9% dos dados foram tomados como acesso normal e 80,1% como intrusão na rede. O total de erros para acesso normal é de 0,7% e para a segunda classe o total de erros é de 0,1%.

Na etapa de valida¸cão dos dados, 20,3% dos elementos foram classificados como acesso normal à rede, com 0,6% de erro e 79,7% dos elementos foram classificados como intrusão, estando apenas 0,1% dos dados classificados incorretamente.

Examinando de uma forma geral, observa-se que, na fase de treinamento, o resultado obtido foi de 99,2% de acertos e 0,8% de erros. Para a valida¸cão, obtivemos um percentual de 99,3% de classifica¸cões corretas e 0,7% de classifica¸cões incorretas. Já para a fase de teste, foi observado 99,2% de acertos e 0,8% de erros. Esta avalia¸cão está resumina na Tabela 5.2.

Tabela 5.2: Porcentagem de erros e acertos do classificador com duas classes para o factoran.

Fase Classifica¸c˜oes Corretas Classifica¸c˜oes Incorretas Treinamento 99,2% 0,8%

Teste 99,2% 0,8%

Valida¸c˜ao 99,3% 0,7%

Total 99,2% 0,8%

Portando, a rede neural apresentou um total de 99,2% de classifica¸cões corretas e 0.8% de classifica¸cões incorretas quando utilizou o conjunto de dados separado com este método.

As porcentagens apresentadas foram boas, mostrando um reconhecimento muito bom das classes.

5.1.3 Singular Value Decomposition

Para a sele¸cão de atributos utilizando o algoritmo svd, na divisão em duas classes, é feito o balan¸co das informa¸cões a partir da Figura 5.4.

Figura 5.4: Matriz de confus˜ao para o SVD com duas classes.

Em rela¸cão à fase de treinamento, 20,1% das entradas foram consideras como acesso normal e 79,8% das amostras foram classificadas como intrusão. Na primeira classe, o erro foi de 0,8% e na segunda classe o erro foi de 0,1%.

Para a fase de testes, a rede neural entendeu como um acesso normal 20,1% dos dados e como intrusão 79,9% dos dados de entrada. O erro para a primeira classe é de 1%, o maior observado até então, e para a segunda classe o erro é de 0,1% apenas.

29 de acesso normal e 80.1% das entradas foram consideradas intrus˜ao.

Ao examinar o resultado geral do desempenho do algoritmo, na valida¸cão, observa- se um percentual de 99,0% de classifica¸cões corretas e 1,0% de classifica¸cões incorretas. Já para a fase de teste, foi observado 98,9% de acertos e 1,1% de erros. Portando, a rede apresentou um total de 99.0% de classifica¸cões corretas e 1,0% de classifica¸cões incorretas. Pode-se observar um resumo do que foi dito na Tabela 5.3.

Tabela 5.3: Porcentagem de erros e acertos do classificador com duas classes para o svd. Fase Classifica¸c˜oes Corretas Classifica¸c˜oes Incorretas

Treinamento 99,1% 0,9%

Teste 98,9% 1,1%

Valida¸c˜ao 99,0% 1,0%

Total 99,0% 1,0%

Apesar de ser um resultado não tão animador quanto os outros dois anteriores, ainda é poss´ıvel observar uma excelente acurácia neste algor´ıtmo, já que o total de classifica¸cões incorretas é 1,0%.

5.1.4 Nonnegative Matrix Factorization

Por fim, ao analisar o desempenho do algoritmo nnmf para duas classes, a partir da matriz de confusão da Figura 5.5, percebe-se que, na fase de treinamento, 19,9% das informa- ¸cões fornecidas à rede foram identificadas como acesso normal e 80,1% como intrusão, apresentando erros de 0,7% e 0,1%, respectivamente.

Na fase de teste, a primeira classe representa 20% dos dados e a segunda classe representa 80% dos dados, com erros de 0,7% e 0,1%, respectivamente.

Ao investigar a fase de valida¸cão, 20,2% dos dados foram atribu´ıdos à conexões normais e 79,8% dos dados foram atribu´ıdos à intrusões à rede. A primeira classe foi classificada incorretamente 0,9% das vezes e a segunda classe foi classificada incorretamente 0,1% das vezes.

Figura 5.5: Matriz de confus˜ao para o nnmf com duas classes.

De uma maneira geral, fase de treinamento, o resultado obtido foi de 99,2% de acertos e 0,8% de erros. Para a valida¸cão, obtivemos um percentual de 99,0% de classifica¸cões corretas e 1,0% de classifica¸cões incorretas. Já para a fase de teste, foi observado 99,2% de acertos e 0,8% de erros, como exposto na Tabela 5.4.

31 Tabela 5.4: Porcentagem de erros e acertos do classificador com duas classes para o nnmf.

Fase Classifica¸c˜oes Corretas Classifica¸c˜oes Incorretas Treinamento 99,2% 0,8%

Teste 99,2% 0.8%

Valida¸c˜ao 99,0% 0,1%

Total 99,2% 0,8%

Portando, a rede neural, ao utilizar o subconjunto de dados provido pelo nnmf, apresentou um total de 99,2% de classifica¸c˜oes corretas e 0,8% de classifica¸c˜oes incorretas.

5.1.5 Compara¸c˜ao dos m´etodos trabalhando com duas classes

Iremos aqui comparar os métodos utilizados para sele¸cão de atributos quanto à eficiên- cia da rede neural ao utilizar seus conjuntos de dados como entrada na separa¸cão das informa¸cões em conexão normal ou intrusão.

Para que o resultado seja o mais geral poss´ıvel, o desempenho dos algoritmos ser´a comparado quanto ao resultado total, ou seja, apenas os valores das c´elulas azuis das matrizes All Confusion Matrix.

O gr´afico da Figura 5.6 apresenta o total de classifica¸c˜oes corretas da rede neural para cada algoritmo.

E poss´ıvel verificar que o melhor desempenho ocorreu para o algor´ıtmo pca, com 99,3% de acur´acia.

O desempenho menos favorável foi observado no svd, com 99% de acurácia. Ainda assim, este é um resultado muito bom e este método pode ser utilizado sem problemas em aplica¸cões como a exposta neste trabalho.

Figura 5.6: Gr´afico comparativo da acur´acia da rede para 2 classes.

Em todos os testes é poss´ıvel observar que a porcentagem de dados classificados como acesso normal é menor que a porcentagem dos dados classificados como intrusão à rede. Isso se deve ao fato dos exemplares do primeiro tipo serem menos numerosos que os do segundo tipo.

Além disso, observa-se do exposto nas subse¸cões anteriores que as taxas de erro foram maiores para a primeira classe. Isso se deve ao fato de, provavelmente, os exemplares da classe 1 serem mais dif´ıceis de separar que os da segunda classe, causando confusão no classificador. Este resultado é esperado, já que todos os acessos que não são intrusão, podem ser considerados um acesso normal.

No documento Estudo de seleção de atributos para redes neurais artificiais aplicadas a sistemas de detecção de intrusão em redes de computadores (páginas 34-44)