Discussão dos Resultados - Estudo Caso 1: Classificação com Abordagem Fuzzy

8.1 Estudo Caso 1: Classificação com Abordagem Fuzzy

8.1.2 Discussão dos Resultados

Figura 22 – Valores Médios dos Limites Inferiores e Superiores para as Variáveis considerando nos Datasets 17102021 e 24102021 Redutores C e CoS

deo. Desta forma, mostram relevante indecisão na classificação, e apontam para uma extensão da abordagem FuzzyNetClass, considerando novas variáveis e por conse- guinte nova base de regras. Estas observações deverão ser consideradas nos novos estudos de caso, considerando a integração da aprendizagem de máquina também na geração das funções de pertinência e na construção da base de regras.

Interpretação dos Resultados via Gráficos de Dispersão

Na Figura 23 tem-se os gráficos de dispersão para os pontos médios de cada intervalo de saída, para todos os conjuntos fuzzy gerados pelos dois redutores: (C) Centroide à esquerda; e, (CoS) Centro dos Conjuntos à direita.

Os dois gráficos na parte superior referem-se aos resultados obtidos pela aplicação doDataset 17102021, enquanto que os dois inferiores, aoDataset 24102021.

Observa-se dispersão mais acentuada em todos os gráficos na variável linguística Low, quando se comparado com as outras classes de fluxo que não são do tipoVídeo.

Isso está de acordo com a proposta de intensificar a classificação de apenas fluxos de vídeo nos termos deAverage eHigh.

Deve-se ressaltar ainda que, para os gráficos referentes a redução via centroide,

observa-se que ocorreram na área destinada à variávelVídeomais pontos azuis, indi- cando pertinênciaHigh, e verdes, pertinênciaAverage, do que pontos vermelhos o que demostra um melhor desempenho deste redutor. Ou seja, quanto menor a quantifica- ção de pontos vermelhos na área restrita à classeVídeo, melhor será a classificação e organização da informação para esta variável.

Figura 23 – Dispersão dos Valores Pontuais para osDatasets17102021 e 24102021 com o Uso dos Redutores C e CoS

Interpretação dos Resultados via Ferramenta KEEL

Para validação do cenário referente a este estudo de caso, foram utilizados méto- dos automatizados por meio da ferramenta KEEL e com o uso de algoritmos baseados em ambas áreas de pesquisa, abordagens em lógica fuzzy e aprendizagem de má- quina. Foram aplicados osDatasets (A) 17102021 e 24102021(B) em 8 algoritmos e analisados os resultados para acurácia e F1 Score. A escolha dos 8 algoritmos teve como critério o uso de algoritmos baseados em lógica fuzzy e em aprendizagem de máquina.

Nos gráficos das Figura 24 estão os resultados das execuções na ferramenta KEEL e o desempenho dos atributos escolhidos para a abordagem FuzzyNetClass. Foram comparados os resultados desta abordagem com 4 algoritmos baseados em lógica fuzzy disponíveis na ferramenta KEEL que são o CHI, FURIA, FARCHD e IVTURS.

Os resultados por Dataset são distintos para os algoritmos baseados em lógica

fuzzy e para o FuzzNetClass. No caso doDataset 24102021 os algoritmos FARCHD e CHI não conseguiram classificar nenhumstreamingde vídeo e no Dataset 17102021 obtiveram acurácia alta. O algoritmo FURIA obteve o melhor resultado de acurácia em ambos Datasets. A acurácia da abordagem FuzzyNetClass manteve-se com nível similar nos doisDatasetstestados.

Figura 24 – Acurácia paraStreamingde Vídeo por Algoritmo, Gerado na Ferramenta KEEL e na Abordagem FuzzyNetClass

A Figura 25 tem-se a quantificação de regras geradas com o uso de algoritmos fuzzy na ferramenta KEEL e a quantidade de regras aplicadas na abordagem FuzzyNetClass. Observa-se que a quantidade de regras geradas nos algoritmos fuzzy são próximas da abordagem FuzzyNetClass, com exceção do algoritmo FURIA que gerou 246 regras no Dataset 24102021 e 46 regras no Dataset 17102021. Assim, observou-se que a quantidade de regras geradas no FURIA resulta em um nível de acurácia maior do que os demais algoritmos.

Esta análise corrobora para o desenvolvimento de um classificador híbrido para a abordagem FuzzyNetClass, usufruindo de um conjunto maior de regras, a partir de maior número atributos, visando melhores resultados.

Interpretação dos Resultados via Matrizes de Confusão

Nas Tabelas 15, 16, 17 e 18 são listadas as matrizes de confusão para cada um dosDatasets com o uso de algoritmos de classificação fuzzy e de aprendizagem de máquina executados na ferramenta KEEL. Pode-se observar que os Datasets apre- sentaram resultados diferentes de acordo com a utilização do tipo de algoritmo, algo previsto devido as imprecisões e incertezas dos fluxos de rede.

Figura 25 – Quantidade de Regras por Algoritmo Gerado na Ferramenta KEEL e de Forma Manual

Tabela 15 – Matrizes de Confusão Obtidas por Meio de Múltiplos Algoritmos Classificadores Fuzzy para os Fluxos Contidos noDataset 17102021

Chi-RW FURIA

vídeo http dns ssh ftp vídeo http dns ssh ftp

vídeo 230 0 0 0 16 vídeo 244 2 0 0 0

http 1 0 0 0 24 http 3 20 2 0 0

dns 0 0 4 0 1020 dns 0 0 1025 0 0

ssh 0 0 0 0 5 ssh 0 0 1 4 0

ftp 0 0 1 0 1936 ftp 0 0 1 0 1936

FARCHD IVTURS

vídeo http dns ssh ftp vídeo http dns ssh ftp

vídeo 244 0 0 0 2 vídeo 245 0 0 0 1

http 5 0 0 0 20 http 12 0 0 0 13

dns 1 0 0 0 1024 dns 3 0 0 0 1022

ssh 0 0 0 0 5 ssh 0 0 0 0 5

ftp 0 0 0 0 1937 ftp 1 0 0 0 1936

Tabela 16 – Matrizes de Confusão Obtidas por Meio de Múltiplos Algoritmos Classificadores em Aprendizagem de Máquina para os Fluxos Contidos noDataset 17102021.

SVM C45

vídeo http dns ssh ftp vídeo http dns ssh ftp

vídeo 246 0 0 0 0 vídeo 246 0 0 0 0

http 0 22 3 0 0 http 1 20 4 0 0

dns 0 1 1024 0 0 dns 0 4 1021 0 0

ssh 0 0 1 0 4 ssh 0 2 1 0 2

ftp 0 0 1 0 1936 ftp 0 0 2 0 1935

KNN GANN

vídeo http dns ssh ftp vídeo http dns ssh ftp

vídeo 242 4 0 0 0 vídeo 242 4 0 0 0

http 3 19 2 0 1 http 5 16 1 0 3

dns 0 0 1025 0 0 dns 0 1 1022 0 2

ssh 0 0 1 4 0 ssh 1 0 0 1 3

ftp 0 0 1 1 1935 ftp 0 0 1 1 1935

Tabela 17 – Matrizes de Confusão Obtidas por Meio de Múltiplos Algoritmos Classificadores em Aprendizagem de Máquina para os Fluxos Contidos noDataset 24102021

SVM C45

video dns http https ntp outros quic video dns http https ntp outros quic

video 41 0 0 12 0 0 1 video 44 0 1 6 0 1 2

dns 0 613 0 6 0 44 0 dns 0 639 0 10 0 13 1

http 0 0 638 108 0 529 27 http 0 0 972 159 0 163 8

https 0 29 225 1312 0 1354 21 https 8 24 80 2444 0 368 17

ntp 0 0 0 0 0 63 0 ntp 0 0 0 0 63 0 0

outros 0 287 36 192 0 5523 2 outros 1 9 14 93 1 5916 6

quic 0 0 1 145 0 12 146 quic 1 0 2 85 0 2 214

KNN GANN

video dns http https ntp outros quic video dns http https ntp outros quic

video 12 0 5 29 0 8 0 video 0 0 9 45 0 0 0

dns 0 610 2 34 2 14 1 dns 3 182 75 6 0 396 1

http 6 0 995 280 0 14 7 http 0 77 517 123 0 585 0

https 38 33 516 2164 10 101 79 https 2 35 151 1656 2 1085 10

ntp 0 0 0 57 6 0 0 ntp 0 0 2 0 0 61 0

outros 3 251 19 4432 0 1331 4 outros 1 10 30 368 0 5631 0

quic 0 4 8 127 0 12 153 quic 0 1 5 166 0 131 1

Tabela 18 – Matrizes de Confusão Obtidas por Meio de Múltiplos Algoritmos Classificadores Fuzzy para os Fluxos Contidos noDataset 24102021.

Chi-RW FURIA

vídeo dns http https ntp outros quic vídeo dns http https ntp outros quic

vídeo 0 0 0 43 0 11 0 vídeo 42 0 1 9 0 1 1

dns 0 0 0 0 0 663 0 dns 0 629 0 7 0 26 1

http 0 0 0 43 0 1258 0 http 2 0 1011 192 0 90 7

https 0 0 0 902 0 2039 0 https 7 29 101 2371 0 410 23

ntp 0 0 0 0 0 63 0 ntp 0 0 0 0 63 0 0

outros 0 0 0 262 0 5778 0 outros 0 14 22 111 0 5887 6

quic 0 0 0 138 0 166 0 quic 1 0 0 105 0 2 196

FARCHD IVTURS

vídeo dns http https ntp outros quic vídeo dns http https ntp outros quic

vídeo 0 0 0 54 0 0 0 vídeo 0 0 0 54 0 0 0

dns 0 0 0 30 0 633 0 dns 0 0 0 17 0 646 0

http 0 0 0 781 0 521 0 http 0 0 0 612 0 690 0

https 0 0 0 2011 0 930 0 https 0 0 0 1973 0 968 0

ntp 0 0 0 5 0 58 0 ntp 0 0 0 5 0 58 0

outros 0 0 0 355 0 5685 0 outros 0 0 0 472 0 5568 0

quic 0 0 0 259 0 45 0 quic 0 0 0 173 0 131 0

Validação dos Resultados via Entropia Intervalar

Nesta seção é apresentada a interpretação dos resultados empregando como mé- trica a entropia intervalar definida pela Eq.( 21), quando p = 1 e agregação M dada pela extensão intervalar para média aritmética.

Para esta análise, considera-se que a saída de uma função intervalar pode exibir mais ou menos incerteza do que suas entradas. Esta incerteza foi preservada pelo diâmetro dos intervalos, refletindo a falta de conhecimento preciso sobre o grau de pertinência do elemento ao conjunto fuzzy modelado nas entradas, incerteza também propagada durante o processo nas suas computações.

Na Tabela 19 são apresentados os resultados obtidos com o emprego da métrica de entropia intervalar para as variáveis de entrada.

Tabela 19 – Resultados da Métrica de Entropia

Variáveis de Entrada

Dataset Variável Low Average High

Inf Sup Inf Sup Inf Sup

PacketLengthMean 0.09729000 0.09724900 0.00161660 0.00864620 5.3145e-18 0.01611000 17102021 PacketLengthStd 0.00355660 0.11025000 0.00927300 0.03279900 0 0.00143550 BackwardIatTotal 0.00101320 0.10987000 0.00014442 0.00056497 1.0286e-19 0.09265000

Variável Low Average High

Inf Sup Inf Sup Inf Sup

24102021 PacketLengthMean 0.01100700 0.16651000 0.00875740 0.04522600 1.5823e-18 0.00965060 PacketLengthStd 0.01169300 0.13957000 0.01566700 0.05588100 0 0.03206600

BackwardIatTotal 1.1102e-16 0.10000000 0 0 0 0

Verificam-se que, para ambosDatasets, o cálculo da entropia intervalar resultam : (i) em intervalos com reduzido diâmetro, mostrando controle da modelagem impre-

cisão, na aferição do especialista;

(ii) intervalos com valores extremos muito próximos de zeros (onde o maior extremo superior recebe o valor 0,16651000) interpretando que a entropia intervalar é baixa. E, portanto, provendo interpretação flexível para organização destas in- formações, as quais estão baseadas na “mancha” de incerteza que define os conjuntos fuzzy das variáveis de entrada.

Entretanto, a modelagem mostra-se pouco realística, pois a modelagem de algu- mas variáveis retorna entropia zerada. Em especial, a variávelBackwardIatTotal, que representa o intervalo de tempo total calculado pela variação do tempo de chegada entre dois ou mais pacotes consecutivos no fluxo da rede.

No próximo estudo de caso, com base nesta análise da abordagem FuzzyNetClass, o atributo associado a variáveis com entropia zerada será substituído por outros que levam a melhores resultados nesta análise. E ainda, novas regras deverão consequente serem propostas.

A análise da entropia na extração dos dados de saída da abordagem FuzzyNetClass está baseada nos resultados da Tabela 20, incluindo os valores referentes ao cálculo do diâmetro (W) dos termos linguísticos da variável de saída.

Tabela 20 – Resultados da Métrica de Entropia na Saída

Variável de saída

Dataset RT Low Average High

Inf Sup W Inf Sup W Inf Sup W

17102021 C 0.0017565 0.0027411 0.0010 0.0099868 0.1565400 0.1466 0.0235030 0.0359840 0.0125 CoS 0.0018194 0.0030468 0.0012 0.0158330 0.1635800 0.1477 0.0273060 0.0424910 0.0152 24102021 C 0.0166840 0.0253350 0.0087 0.0090564 0.1533600 0.1443 0.0018777 0.0030364 0.0012 CoS 0.0163460 0.0265660 0.0102 0.0096736 0.1546300 0.1450 0.0023659 0.0039699 0.0016

•(RT)Redutor •(CoS)Centro dos Conjuntos •(C)Centroide •(W) Diâmetro

Esta análise também considerou dois Datasets e dois operadores de redução de tipo (RT) nas execuções da FuzzyNetClass para obtenção de resultados, que são eles:

(i) Centroide (C) e (ii) Centro dos Conjuntos (CoS). Em todos os casos analisados, tem-se intervalos com diâmetro reduzido, e cada valor para entropia, referente aos extremos superiores das funções de pertinência para as VL da variável de saída, se manteve baixo, menor ou igual a0.1635800, no casoAverageVideo e redutor CoS.

Com o uso de três atributos para classificação destreamingde vídeo, observou-se neste estudo de caso resultados promissores para a classificação explorando somente lógica fuzzy, na qual a seleção de atributos foi auxiliada por aprendizagem de máquina.

Com o objetivo de aumentar o número de atributos utilizados na classificação e por consequência o tamanho da base de regras, os próximos estudos de caso ampliam a discussão referente ao emprego de aprendizagem de máquina nas etapas de seleção de atributos e inferência fuzzy.

No documento 1.1 Principais Desafios para Classificação do Tráfego de Rede (páginas 125-133)