Algoritmo Proposto baseado no Classificador Naive Bayes

Método de Desenvolvimento do Módulo de Classificação de Tráfego

4.2 Módulo de Classificação de Tráfego

4.2.2 Algoritmo Proposto baseado no Classificador Naive Bayes

O classificador Naive Bayes baseado em uma distribuição gaussiana é um classi-ficador probabilístico de baixa complexidade que segue o Teorema de Bayes (John e Langley, 1995). Se P(C) é a probabilidade do evento C ocorrer e P(C |X) é a proba-bilidade do evento C, dado que X ocorreu, então, do Teorema de Bayes, o seguinte é válido:

P(C|X)= P(X|C)P(C)

P(X) (4.1)

Esta regra é a base do classificador Naive Bayes (Langley et al.,1992). O classificador é chamado de ’naive’ porque assume a independência dos atributos. A suposição de independência significa que, para cada exemplo, o valor de um atributo não terá relação com o valor de nenhum outro atributo. Apesar do fato de que a independência dos atributos de uma instância é irreal, o classificador Naive Bayes é surpreendentemente eficaz na prática, uma vez que sua decisão de classificação pode estar correta, mesmo que suas estimativas de probabilidade sejam imprecisas.

No entanto, o trabalho apresentado em (Rish, 2001) analisa duas características que afetam o desempenho de um classificador Naive Bayes: (i) o impacto da entropia de distribuição sobre o erro de classificação e (ii) as dependências funcionais entre as características. A análise do item (ii) mostrou que o Naive Bayes funciona bem para certas dependências de características quase funcionais, alcançando assim seu melhor desempenho em dois casos opostos: (a)características completamente independentes e(b)características funcionalmente dependentes. Este trabalho aplica uma técnica que otimiza a característica do caso(b), melhorando assim a Acurácia da classificação para o nosso problema.

Nesse sentido, a ideia central do Algoritmo Proposto (AP) é modificar o Naive Bayes de modo a não mais assumir a hipótese de independência entre os atributos. Em outras palavras, garante que a matriz de covariância seja positiva definida e simétrica. Como resultado, o Naive Bayes considera que a covariância entre os atributos é igual a zero (Langley et al.,1992).

A Figura 4.1 apresenta como o AP foi estruturado e o fluxo das chamadas das principais funções (função de treinamento, função estima PD e função de teste).

Figura 4.1: Fluxo funcional do Algoritmo Proposto.

A matriz de covariância desempenha um papel fundamental em muitas técnicas clássicas e modernas de análise de dados (Jolliffe, 2002) (Voyant et al., 2017) (Chen et al., 2017), particularmente quando se lida com um grande número de instâncias.

A abordagem proposta foi adotada para garantir a não singularidade da matriz de covariância gerada para cada classe. Isso ajustou todos os autovalores para serem maiores do que alguns limites pré-especificados e, assim, garantiu uma matriz positiva definida. Assim, relaxou a matriz de covariância, transformando sua superfície de separação circular em uma elíptica.

Para isso, foi aplicada uma técnica capaz de garantir a viabilidade matemática da execução do novo algoritmo. Essa técnica calcula a matriz de covariância irrestrita para cada classe e estima a matriz positiva definida para as matrizes de cada classe que foram calculadas anteriormente. A estimação da matriz positiva definida é realizada através do conceito de minimização da norma Frobenius da diferença (Golub e Van Loan,2012), pois ela tem a propriedade desejada de ser uma matriz simétrica positiva definida. A estratégia do algoritmo, que é produzir o estimador de matriz positiva definida para a matriz de covariância de cada classe, é baseada na função definida em (D’Errico, 2013). Essa função salva as matrizes de covariância geradas pelo algoritmo para cada classe (argumento de entrada), transformando-as com as características necessárias das matrizes Simétrica Positiva Definida (Symmetric Positive Definite - SPD) (argumento

4.2 Módulo de Classificação de Tráfego 52 de saída). O teste final da função é verificar se a matriz retornada (argumento de saída) realmente possui as propriedades de uma matriz positiva definida. Se não, faz o ajuste aplicando a Decomposição de Cholesky (Gentle,2012). Se a fatoração retornar um segundo argumento com um valor zero, a matriz retornada terá as características de um SPD. Essa técnica de fatoração é usada para minimizar o problema da ortogonalidade de sinais. Onde:

DadaA: n x n Simétrica Positiva Definida, o fator de CholeskyG: n x n tal queA= GG^té obtido através do Algoritmo1.

Algoritmo 1:Decomposic¸ao de˜ Cholesky

8 Parar. A matrizAnão é positiva definida.

9 fim

Ao otimizar os parâmetros, deve-se assegurar que a matriz resultante seja positiva definida, pois a matriz resultante é uma matriz de covariância, contendo as covariáveis entre os atributos do conjunto de dados. Neste caso, cada vez que os parâmetros são otimizados, a matriz deve ser verificada quanto à sua definição positiva. Se não é positiva definida, tem que ser ajustada, para que a definição positiva seja satisfeita.

Em (Higham,1988) os autores descrevem um método que produz uma matriz SPD mais próxima de uma matriz positiva não definida. Para a implementação do método

descrito em (Higham,1988), no Algoritmo Proposto, foi utilizada a função nearestSPD, que retorna a matriz SPD mais próxima mencionada. A função foi aplicada para lidar com a violação de um autovalor negativo. Se houver uma violação, a matriz é atualizada usando a Decomposição de Cholesky (Gentle,2012), que calcula seus autovalores.

O Algoritmo2apresenta os passos implementados na função de estimação da matriz simétrica positiva definida, descrita acima.

Algoritmo 2:Função Estima SPD (nearestSPD) Entrada: Matriz_Cov

Saída: SPD

1 início

2 Passo 1: Testa argumento de entrada

3 Passo 2: SeMatriz_Cov é escalar e não positivaEntãoAjusta

4 Passo 3: Gera a matriz simétrica para Matriz_Cov

5 Passo 4: Testa se matriz gerada noPasso 3possui características de SPD

6 Passo 5: Se nãofor SPD

7 Ajusta aplicando a decomposição deCholesky// Algoritmo 1

8 Passo 6: Salva a SPD

9 fim

Nesse sentido, um dos fatores que contribui para um melhor desempenho na Acu-rácia do Algoritmo Proposto é o ajuste que a função faz na matriz de covariância, de modo que a independência entre os atributos não mais exista. De fato, aplicando-se ao Naive Bayes Gaussiano, a técnica de seleção de características proposta neste trabalho (Seção4.3.2) produziu uma melhoria significativa no desempenho, em torno da mesma ordem de grandeza do Algoritmo Proposto, sem aplicar a seleção de características.

Dessa forma, o Algoritmo Proposto realiza essa seleção automaticamente, ajustando a matriz de covariância utilizada pelo Naive Bayes Gaussiano. Uma das razões pelas quais foi utilizada uma comparação com e sem seleção de características foi justamente para verificar essa premissa.

Neste trabalho, os códigos das funções de treinamento e teste são descritos de tal forma que é possível adotar qualquer função de normalização desejável, qualquer tamanho de conjunto de dados desejável (a porcentagem do conjunto de dados usado em treinamento e teste) e qualquer métrica de avaliação de desempenho desejável.

Nessa etapa, os códigos foram implementados usando a linguagem de programação M-code da ferramenta Matlab R2016a (MATLAB,2016).

O Algoritmo3mostra a função de treinamento implementada.

4.2 Módulo de Classificação de Tráfego 54 Algoritmo 3:Função de Treinamento

1 function[training_model]=newgaussianBayes(x,y)

2 xA=x(y==0,:); xB=x(y==1,:); xC=x(y==2,:);

3 [n,∼]=size(x);

4 [nA,∼]=size(xA); [nB,∼]=size(xB); [nC,∼]=size(xC);

5 muA=mean(xA); muB=mean(xB); muC=mean(xC);

6 SigmaA=cov(xA); SigmaB=cov(xB); SigmaC=cov(xC);

7 NSPDsigA=nearestSPD(SigmaA);

8 NSPDsigB=nearestSPD(SigmaB);

9 NSPDsigC=nearestSPD(SigmaC);

10 classA.mu=muA; classA.sig=NSPDsigA; classA.priori=nA/n;

11 classB.mu=muB; classB.sig=NSPDsigB; classB.priori=nB/n;

12 classC.mu=muC; classC.sig=NSPDsigC; classC.priori=nC/n;

13 training_model.cA=classA;

14 training_model.cB=classB;

15 training_model.cC=classC;

16 return

17 end

A linha2inicia as amostras de classe a serem usadas, ondexé uma matriz contendo os pacotes de fluxo de tráfego como linhas e suas 14 características (apresentadas na Tabela4.3, exceto a variável de class) como colunas. Por sua vez,yé um vetor contendo o mesmo número de linhas que a matrizx, onde cada valor fornece a classe associada ao pacote na linha correspondente da matrizx. Os valores emysão codificados como:

0 corresponde à classe A, 1 à classe B e 2 à classe C, respectivamente.

A linha 3 define o tamanho da amostra para o conjunto de treinamento e, em seguida, a linha4define o tamanho da amostra para cada classe. Nas linhas a seguir, a mesma ação é executada em cada classe. Na linha 5, o vetor média é gerado. A linha 6 calcula a matriz de covariância irrestrita. As linhas7, 8e9 chamam a função definida em (D’Errico,2013), chamada the nearestSPD, que transforma cada matriz de covariância calculada na linha6em matrizes tipo Positiva Definida. Em sequência, as

linhas10,11e12constroem o modelo probabilístico baseado no Teorema de Bayes para cada matriz Positiva Definida. Finalmente, as linhas13,14e15executam o modelo de treinamento.

O Algoritmo4mostra a função de teste implementada.

Algoritmo 4:Função de Teste

1 function[test]=testnewgaussianBayes(x,y, training_model)

2 densA=mvnpdf(x, training_model.cA.mu,training_model.cA.sig);

3 densB=mvnpdf(x, training_model.cB.mu,training_model.cB.sig);

4 densC=mvnpdf(x, training_model.cC.mu,training_model.cC.sig);

5 postA=densA*training_model.cA.priori;

6 postB=densB*training_model.cB.priori;

7 postC=densC*training_model.cC.priori;

8 y_hat=zeros(1,length(y));

9 y_hat(postB>postA & postB>postC)=1;

10 y_hat(postC>postB & postC>postA)=2;

11 end

As linhas2, 3 e 4 calculam a densidade de probabilidade da distribuição normal multivariada do ponto x para cada classe. Como tal, o Algoritmo 3 aplica a função mvnpdfdo Matlab (função de densidade de probabilidade normal multivariada). As linhas5,6e7executam o cálculo da probabilidade a posteriori, novamente para cada classe. A inferência da condição de classificação é calculada pelas linhas8,9e10.

No documento Uma Abordagem Inovadora para Classificação de Tráfego em Tempo Real em Ambiente de Redes Definidas por Software (SDN) (páginas 51-56)