• Nenhum resultado encontrado

Nesta se¸c˜ao, os resultados de cada um dos m´etodos de sele¸c˜ao de atributos apresentados previamente ser˜ao exibidos e comparados para duas classes, sendo elas acesso normal e intrus˜ao.

Os resultados ser˜ao analisados a partir da matriz de confus˜ao gerada no MatLab para das etapas de treinamento, teste e valida¸c˜ao executadas pela rede neural e um total geral. Uma matriz de confus˜ao gen´erica pode ser vista na Figura 5.1.

Nesta matriz, as c´elulas verdes na diagonal informam a porcentagem de casos em que houve correta classifica¸c˜ao dos dados em determinada classe. As c´elulas vermelhas fora da diagonal mostram os casos de classifica¸c˜ao incorreta. Na c´elula azul, ´e mostrada a porcentagem total dos dados classificados corretamente, em verde, e a porcentagem total dos casos classificados de maneira incorreta, em vermelho. Observe que a soma das c´elulas verdes e vermelhas ´e 100%, pois este ´e o total dos dados que foram distrubu´ıdos, seja correta ou incorretamente pelas classes. Devido a arredondamentos feitos pelo programa, podem acontecer n´umeros totais de 100,1% ou 99,99%, por exemplo.

23

Figura 5.1: Matriz de confus˜ao fornecida pela rede neural do MatLab.

Para que o reconhecimento dos padr˜oes seja considerado bom, espera-se obter porcentagens elevadas na parte superior das c´elulas azuis, que representam os dados clas- sificados corretamente, e baixa porcentagem nas parte inferior das c´elulas azuis, que repre- sentam os casos classificados de maneira incorreta. Tamb´em pode ser observado o quanto a rede falhou na classifica¸c˜ao atrav´es das porcentagens expostas nas c´elulas vermelhas, ent˜ao essas porcentagens precisam ser baixas.

As matrizes expostas mostram cada etapa do processamento que ocorre na rede neural, pois exp˜oem o seu desempenho em cada uma das fases e em uma matriz geral. Neste trabalho, todos os resultados ser˜ao apresentados, por´em, para fins de compara¸c˜ao da acur´acia da rede neural quando a mesma utiliza diferentes subconjuntos de dados como entrada, ser˜ao investigados apenas os resultados da matriz de confus˜ao geral.

Para a classifica¸c˜ao em acesso normal ou intrus˜ao, temos no KDD CUP 99 12.904 amostras de conex˜ao normal e 53.817 de intrus˜ao.

24

5.1.1

Principal Component Analysis

O teste aqui executado se refere ao algoritmo pca para duas classes de informa¸c˜ao. Na Figura 5.2, ´e mostrada a matriz de confus˜ao para este caso.

Ao separar em duas classes, na fase de treinamento, a rede neural dividiu 19,5% dos dados na classe 1, ou seja, acesso normal, sendo 19% do total dos dados classificados corretamente nesta classe e 80,6% dos dados na classe que representa uma intrus˜ao, sendo 80,3% do total dos dados classificados corretamente nesta classe.

Na fase de teste, a matriz de confus˜ao apresenta 19,6% classificados como cone- x˜ao normal, sendo 0.5% total classificados incorretamente e 80,4% categorizados como intrus˜ao, com porcentagem de 0,2% incorretos.

A matriz de confus˜ao da fase de valida¸c˜ao mostra um total de 19,8% dos dados classificados como acesso normal e 80,2% como intrus˜ao. Os dados classificados incor- retamente na primeira classe representam 0,4% do total e na segunda classe 0,3% do total.

Abordando as matrizes de todas as etapas de uma maneira geral, os resultados expostos em All Confusion Matrix mostram que, na na fase de treinamento, o resultado obtido foi de 99,2% de acertos e 0,8% de erros. Para a valida¸c˜ao, obtivemos um percentual de 99,3% de classifica¸c˜oes corretas e 0,7% de classifica¸c˜oes incorretas. J´a para a fase de teste, foi observado 99,4% de acertos e 0,6% de erros. Portando, este m´etodo apresentou um total de 99,3% de classifica¸c˜oes corretas e 0,7% de classifica¸c˜oes incorretas.

Para uma melhor visualiza¸c˜ao dos dados, na Tabela 5.1 ´e mostrada uma s´ıntese da taxa de classifica¸c˜ao correta e da taxa de classifica¸c˜ao incorreta.

Tabela 5.1: Porcentagem de erros e acertos do classificador com duas classes para o pca. Fase Classifica¸c˜oes Corretas Classifica¸c˜oes Incorretas

Treinamento 99,2% 0,8%

Teste 99,4% 0,6%

Valida¸c˜ao 99,3% 0,7%

25

Figura 5.2: Matriz de confus˜ao para o PCA com duas classes.

Os resultados abordados mostram uma excelente classifica¸c˜ao quando o subcon- junto de dados ´e selecionado a partir do algoritmo pca, pois o n´umero de classifica¸c˜oes incorretas foi extremamente baixo, com apenas 0,7% de erro no total geral.

26

5.1.2

Factor Analysis

Agora a an´alise ser´a feita com os resultados obtidos ao utilizar como entrada o subconjunto de dados selecionados a partir do m´etodo Factor Analysis, com duas classes.

A matriz de confus˜ao do m´etodo supracitado ´e exibida Figura 5.3.

Figura 5.3: Matriz de confus˜ao para o factoran com duas classes.

Na fase de treinamento, 19,9% dos dados foram tomados como acesso normal e 80,1% como intrus˜ao na rede. O total de erros para acesso normal ´e de 0,7% e para a

27 segunda classe o total de erros ´e de apenas 0,1%.

Para o teste, 19,9% dos dados foram tomados como acesso normal e 80,1% como intrus˜ao na rede. O total de erros para acesso normal ´e de 0,7% e para a segunda classe o total de erros ´e de 0,1%.

Na etapa de valida¸c˜ao dos dados, 20,3% dos elementos foram classificados como acesso normal `a rede, com 0,6% de erro e 79,7% dos elementos foram classificados como intrus˜ao, estando apenas 0,1% dos dados classificados incorretamente.

Examinando de uma forma geral, observa-se que, na fase de treinamento, o re- sultado obtido foi de 99,2% de acertos e 0,8% de erros. Para a valida¸c˜ao, obtivemos um percentual de 99,3% de classifica¸c˜oes corretas e 0,7% de classifica¸c˜oes incorretas. J´a para a fase de teste, foi observado 99,2% de acertos e 0,8% de erros. Esta avalia¸c˜ao est´a resumina na Tabela 5.2.

Tabela 5.2: Porcentagem de erros e acertos do classificador com duas classes para o factoran.

Fase Classifica¸c˜oes Corretas Classifica¸c˜oes Incorretas Treinamento 99,2% 0,8%

Teste 99,2% 0,8%

Valida¸c˜ao 99,3% 0,7%

Total 99,2% 0,8%

Portando, a rede neural apresentou um total de 99,2% de classifica¸c˜oes corretas e 0.8% de classifica¸c˜oes incorretas quando utilizou o conjunto de dados separado com este m´etodo.

As porcentagens apresentadas foram boas, mostrando um reconhecimento muito bom das classes.

5.1.3

Singular Value Decomposition

Para a sele¸c˜ao de atributos utilizando o algoritmo svd, na divis˜ao em duas classes, ´e feito o balan¸co das informa¸c˜oes a partir da Figura 5.4.

28

Figura 5.4: Matriz de confus˜ao para o SVD com duas classes.

Em rela¸c˜ao `a fase de treinamento, 20,1% das entradas foram consideras como acesso normal e 79,8% das amostras foram classificadas como intrus˜ao. Na primeira classe, o erro foi de 0,8% e na segunda classe o erro foi de 0,1%.

Para a fase de testes, a rede neural entendeu como um acesso normal 20,1% dos dados e como intrus˜ao 79,9% dos dados de entrada. O erro para a primeira classe ´e de 1%, o maior observado at´e ent˜ao, e para a segunda classe o erro ´e de 0,1% apenas.

29 de acesso normal e 80.1% das entradas foram consideradas intrus˜ao.

Ao examinar o resultado geral do desempenho do algoritmo, na valida¸c˜ao, observa- se um percentual de 99,0% de classifica¸c˜oes corretas e 1,0% de classifica¸c˜oes incorretas. J´a para a fase de teste, foi observado 98,9% de acertos e 1,1% de erros. Portando, a rede apresentou um total de 99.0% de classifica¸c˜oes corretas e 1,0% de classifica¸c˜oes incorretas. Pode-se observar um resumo do que foi dito na Tabela 5.3.

Tabela 5.3: Porcentagem de erros e acertos do classificador com duas classes para o svd. Fase Classifica¸c˜oes Corretas Classifica¸c˜oes Incorretas

Treinamento 99,1% 0,9%

Teste 98,9% 1,1%

Valida¸c˜ao 99,0% 1,0%

Total 99,0% 1,0%

Apesar de ser um resultado n˜ao t˜ao animador quanto os outros dois anteriores, ainda ´e poss´ıvel observar uma excelente acur´acia neste algor´ıtmo, j´a que o total de clas- sifica¸c˜oes incorretas ´e 1,0%.

5.1.4

Nonnegative Matrix Factorization

Por fim, ao analisar o desempenho do algoritmo nnmf para duas classes, a partir da matriz de confus˜ao da Figura 5.5, percebe-se que, na fase de treinamento, 19,9% das informa- ¸c˜oes fornecidas `a rede foram identificadas como acesso normal e 80,1% como intrus˜ao, apresentando erros de 0,7% e 0,1%, respectivamente.

Na fase de teste, a primeira classe representa 20% dos dados e a segunda classe representa 80% dos dados, com erros de 0,7% e 0,1%, respectivamente.

Ao investigar a fase de valida¸c˜ao, 20,2% dos dados foram atribu´ıdos `a conex˜oes normais e 79,8% dos dados foram atribu´ıdos `a intrus˜oes `a rede. A primeira classe foi clas- sificada incorretamente 0,9% das vezes e a segunda classe foi classificada incorretamente 0,1% das vezes.

30

Figura 5.5: Matriz de confus˜ao para o nnmf com duas classes.

De uma maneira geral, fase de treinamento, o resultado obtido foi de 99,2% de acertos e 0,8% de erros. Para a valida¸c˜ao, obtivemos um percentual de 99,0% de classifi- ca¸c˜oes corretas e 1,0% de classifica¸c˜oes incorretas. J´a para a fase de teste, foi observado 99,2% de acertos e 0,8% de erros, como exposto na Tabela 5.4.

31 Tabela 5.4: Porcentagem de erros e acertos do classificador com duas classes para o nnmf.

Fase Classifica¸c˜oes Corretas Classifica¸c˜oes Incorretas Treinamento 99,2% 0,8%

Teste 99,2% 0.8%

Valida¸c˜ao 99,0% 0,1%

Total 99,2% 0,8%

Portando, a rede neural, ao utilizar o subconjunto de dados provido pelo nnmf, apresentou um total de 99,2% de classifica¸c˜oes corretas e 0,8% de classifica¸c˜oes incorretas.

5.1.5

Compara¸c˜ao dos m´etodos trabalhando com duas classes

Iremos aqui comparar os m´etodos utilizados para sele¸c˜ao de atributos quanto `a eficiˆen- cia da rede neural ao utilizar seus conjuntos de dados como entrada na separa¸c˜ao das informa¸c˜oes em conex˜ao normal ou intrus˜ao.

Para que o resultado seja o mais geral poss´ıvel, o desempenho dos algoritmos ser´a comparado quanto ao resultado total, ou seja, apenas os valores das c´elulas azuis das matrizes All Confusion Matrix.

O gr´afico da Figura 5.6 apresenta o total de classifica¸c˜oes corretas da rede neural para cada algoritmo.

´

E poss´ıvel verificar que o melhor desempenho ocorreu para o algor´ıtmo pca, com 99,3% de acur´acia.

O desempenho menos favor´avel foi observado no svd, com 99% de acur´acia. Ainda assim, este ´e um resultado muito bom e este m´etodo pode ser utilizado sem problemas em aplica¸c˜oes como a exposta neste trabalho.

32

Figura 5.6: Gr´afico comparativo da acur´acia da rede para 2 classes.

Em todos os testes ´e poss´ıvel observar que a porcentagem de dados classificados como acesso normal ´e menor que a porcentagem dos dados classificados como intrus˜ao `a rede. Isso se deve ao fato dos exemplares do primeiro tipo serem menos numerosos que os do segundo tipo.

Al´em disso, observa-se do exposto nas subse¸c˜oes anteriores que as taxas de erro foram maiores para a primeira classe. Isso se deve ao fato de, provavelmente, os exemplares da classe 1 serem mais dif´ıceis de separar que os da segunda classe, causando confus˜ao no classificador. Este resultado ´e esperado, j´a que todos os acessos que n˜ao s˜ao intrus˜ao, podem ser considerados um acesso normal.

Documentos relacionados