Os resultados obtidos na Classificação com o típico procedimento de validação cruzada de dez vezes, para os conjuntos de dados listados nas Tabelas 4.1, 4.2, 4.3, 4.4, e a precisão da classificação, são calculados pela Equação (padrão) de acurácia, conforme pode ser observado a seguir:
Acurácia= V P +V N
N (11)
Onde VP corresponde ao número de verdadeiros positivos, ou seja, o número de exem-plos da classe positiva classificados corretamente. O VN corresponde ao número de verdadeiros negativos, ou seja, o número de exemplos da classe negativa classificados corretamente. (FA-CELI et al., 2011). Já oN corresponde ao número de elementos do conjunto real.
Em detalhes, cada um dos conjuntos de dados considerados nas seções experimentais é particionado previamente em dez subconjuntos de treinamento e teste.
Em geral, durante a validação cruzadak-fold, o conjunto de dados é dividido emk sub-conjuntos disjuntos, que são usados para treinamento e teste. Para cada iteração do procedimento de validação cruzada, um subconjunto é usado como um conjunto de teste e todos os subcon-juntos restantes como o conjunto de treinamento. Este procedimento executa (k) iterações até que todos os subconjuntos tenham sido usados para teste.
As seções experimentais que envolvem onze conjuntos de dados bidimensionais artifi-ciais foram referenciados nos artigos dos seguintes atores: Santos e Embrechts (2014) e Fränti e Sieranoja (2018).
Em particular para as seções experimentais terceira e quarta, a comparação dos métodos SGPE e GA são verificadas considerando-se dois critérios amplamente utilizados: precisão do conjunto de testesAteste redução do conjunto de treinamentoRtrain.
Tendo em vista que o algoritmo vencedor deve ser capaz de reduzir significativamente o tamanho do conjunto de treinamento sem reduzir significativamente a precisão, parece oportuno avaliar o desempenho do algoritmo através de uma métrica quantitativa que combina os critérios mencionados anteriormente.
Esta métrica é designada como medida (H) e a aplicação dessa medida já está presente na literatura em trabalho similar, descrito em Acampora, Tortora e Vitiello (2016), onde essa medida (H) é utilizada para comparar o algoritmo genético (GA) e o Algoritmo Evolutivo de Pareto de Força (SPEA) (do inglês,Strength Pareto Evolutionary Algorithm).
Definiçãomedida (H): dado um conjunto de treinamentoTR, um conjunto de dados de testeTSe um conjunto de protótiposS, produzidos por um método de seleção de protótipos, a medida (H) de H é igual à média harmônica do conjunto de testes.
H= 2.Atest.Rtr ain Atest+Rtr ain
(12)
ondeAtest = precisão (TS,S) eRtrain= reduzir (TR,S).
As soluções fornecidas pelo método SGPE para comparar seu desempenho com o SSGA ocorrem através da escolha da combinação desses seus parâmetros, que trazem o melhor desem-penho relativo aos valores da medida H.
Além do resultado comparativo da medida H, um teste de significância estatística não-paramétrico será realizado para comprovar os resultados obtidos. O teste estátistico será oThe Wilcoxon test não-paramétrico, cujo procedimento é empregado em situações de teste de hi-póteses, envolvendo duas amostras. (WILCOXON, 1945). É análogo ao teste t pareado em procedimentos estatísticos não-paramétricos; portanto, é um teste pareado que visa detectar dife-renças significativas entre duas médias amostrais, ou seja, o comportamento de dois algoritmos.
(GARCÍA et al., 2009).
No última seção experimental, o procedimento de validação será com o processo de redução de dados com o SGPE e a classificação dos dados através dokNN, utilizando o método de validação cruzada mencionado, com adição da estratificação para manter a proporcionalidade da distribuição das classes entre os conjuntos de treinamento e teste. Nesta validação cruzada estratificada aplicada para os experimentos sobre o desempenho do SGPE sobre os conjuntos de dados com desbalanceamento de classes, as pastas são selecionadas de modo que o valor médio de respostas seja aproximadamente igual em todas as k pastas. Esse método de validação é comumente utilizado com conjuntos de dados com desbalanceamento de classes, podendo citar trabalhos como López, Fernández e Herrera (2014). No caso de uma classificação dicotômica, isso significa que cada pasta contém aproximadamente as mesmas proporções dos dois tipos de rótulos de classe.
O objetivo é avaliar se a classificação pelokNN será impactada negativamente quando o processo de redução de dados é aplicado para conjuntos de dados problemáticos listados nas Tabelas 4.3 e 4.4. As métricas utilizadas serão a acurácia (padrão) 11 e a F1, que é dada pela Equação 15 para avaliar condições de desbalanceamento e sobreposição de classes. A F1 é uma métrica já consolidada na literatura para a execução de avaliação de desempenho nessas condições. (HE; GARCIA, 2009).
Para ilustrar o cálculo da métrica F1, pode-se utilizar a matriz de confusão 4.3, na qual mostra as frequências de classificação para cada classe, onde VP (número de verdadeiros posi-tivos); FP (número de falsos positivos, ou seja, o número de exemplos cuja classe verdadeira é negativa, mas que foram classificados incorretamente como pertencendo à classe positiva);
VN (número de verdadeiros negativos); FN (número de falsos negativos, ou seja, o número de exemplos pertencentes originalmente à classe positiva que foram incorretamente preditos como da classe negativa). Com os valores de VP, FP, VN e FN se pode calcular a precisão, Equação 13, e orecall através da Equação 14. A precisão corresponde à acuratividade do classificador em relação a todas as classificações e orecallpela proporção de positivos identificados correta-mente. Essas medidas são utilizadas na Equação 15 para a obtenção do valor F1 da classificação.
Tabela 4.10 – Matriz de Confusão Previsão de Classes
Positivo Negativo
Positivo V P (verdadeiro positivo) F N (falso negativo ) Negativo F P (falso positivo) V N (verdadeiro negativo)
Precisão= V P
(V P +F P) (13)
Recall= V P
(V P +F N) (14)
Fβ = (1 +β2)· Precisão·Recall
(β2·Precisão) +Recall (15)
Esse trabalho consideraβ=1.
5 RESULTADOS EXPERIMENTAIS
Neste capítulo de experimentos, os avanços alcançados com o SGPE são demonstrados por meio de cinco grupos de experimentos. O primeiro grupo (5.1) é específico para demonstrar o efeito da parametrização do algoritmo (nível de entropia, janelamento e desvio da entropia) e expõe o efeito desses parâmetros no processo de redução de dados. Na seção 5.2 estão os resultados obtidos com a parametrização inicial recomendada para distribuições não conhecidas.
Esta seção 5.2 é dedicada a demonstrar o comportamento do SGPE em conjuntos de dados bidimensionais que possuem distribuições diversas. Nas seções 5.3 e 5.4, o SGPE é comparado com um método evolutivo GA e os resultados obtidos nessas seções são direcionados a mostrar a eficiência competitiva do método proposto em relação aos métodos existentes e à não utilização de métodos de redução de dados para otimizar o processo de classificação. Finalmente, na última seção, sendo esta a 5.5, o SGPE é colocado à prova em relação a conjuntos de dados com desbalanceamento e sobreposição de classes. Nesta última seção, o objetivo é demonstrar que o método proposto é resiliente a esses problemas e pode ter uma ampla aplicação em diferentes conjuntos de dados com resultados competitivos.
5.1 A CAPACIDADE DA AUTOGERAÇÃO DE PROTÓTIPOS DO SGPE
A primeira seção mostra aspectos específicos do uso da função de entropia da infor-mação em conjunto com dois outros parâmetros, chamados desvio da entropia e tamanho do janelamento, para formar o conjunto de dados reduzido após o processamento de redução do conjunto de treinamento usando o algoritmo SGPE.
Na Figura 5.1, demonstra-se o resultado do processo de redução de dados no conjunto de dados em espiral, como pode ser notado que o processo de redução de dados mantém a forma da distribuição de dados original, mesmo após a remoção em torno de 30% das instâncias. Este resultado foi obtido definindo os valores dos parâmetros em: nível de entropia: 0,1, desvio da entropia: 0 e janelamento: período de 3.
O comportamento da função de entropia da informação é observado na Figura 5.2; um dos padrões típicos da função de entropia durante o processo de redução de dados é ter uma variação maior do desvio da entropia no inicio do processo de redução, com um declínio de
va-riabilidade desse desvio da entropia até convergir a função de entropia para um comportamento estável; a partir do 600, no eixo x, a variação começa a se estabilizar e o processo de autogeração de protótipos é interrompido no ponto 684.
Figura 5.1 – Resultado da redução de dados.
A estabilização do desvio da entropia é o principal critério para ajustar os parâmetros de desvio da entropia (NSD) e o tamanho do janelamento (JMM) para valores baixos ou altos, de modo a obter um dimensionamento ideal para um conjunto de treinamento reduzido.
Figura 5.2 – Informação de entropia e seleção de protótipos.
Após observar o resultado do processo de redução de dados, através da parametrização padrão para problemas de duas classes, a próxima experiência é observar uma execução de nove testes, e a Tabela 4.5 mostra os valores absolutos da parametrização.
Além da execução dos nove testes com diferentes parametrizações, as Figuras 5.3 e 5.4 mostram o resultado do processo de redução de dados no conjunto de dados em espiral com diferentes valores extrapolados para esses parâmetros, com o objetivo de verificar à relação
entre as variáveis, tempo, taxa de redução e acurácia.
Figura 5.3 – Teste para taxa de redução e acurácia dokNN.
Figura 5.4 – Teste para taxa de redução e tempo de redução.
As Figuras 5.3 e 5.4 demonstram os parâmetros que limitam a função de entropia para interromper o processo de seleção de protótipo, é a combinação de desvio da entropia e janela-mento que fornece o controle do número de iterações do algoritmo sobre os conjuntos de dados.
O parâmetro de nível de entropia tem maiores impactos na pureza do nível de classes dentro de cada subconjunto que é usado durante o cálculo para selecionar novos protótipos.
Mesmo se tivermos um certo nível de mistura de classes dentro de um subconjunto, o centroide deste determinará a classe mais representativa dentro desse subconjunto, e este mecanismo, que é regido pela lei da função de entropia, evita executar um processo exaustivo de subdivisão de subconjuntos para ter uma única classe dentro desses subconjuntos.
Ao observar a Tabela 5.1, o impacto mais significativo no conjunto de dados em espiral
usando valores diferentes para entropia começa de 0,5 a 0,9, nos quais a redução de dados di-minui de 25,16%, 24,50%, 23,58%, 20,83% e 13,5%, respectivamente. Para o valor de nível de entropia de 0,1 a 0,4, a taxa de redução ficou em 25,25%.
Tabela 5.1 – Impacto da Entropia na redução de dados.
# Nível de Entropia Redução(%)