3 MÉTODO PROPOSTO

(1)

PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E COMPUTAÇÃO

ALBERTO MANASTARLA

MÉTODO DE AUTOGERAÇÃO DE PROTÓTIPOS PARA TAREFAS DE CLASSIFICAÇÃO DE DADOS BASEADO EM ENTROPIA DA

INFORMAÇÃO

São Paulo 2020

(2)

PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E COMPUTAÇÃO

ALBERTO MANASTARLA

MÉTODO DE AUTOGERAÇÃO DE PROTÓTIPOS PARA TAREFAS DE CLASSIFICAÇÃO DE DADOS BASEADO EM ENTROPIA DA

INFORMAÇÃO

Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Engenharia Elétrica e Com- putação como parte das exigências para obtenção do título de Mestre em Engenharia Elé- trica e Computação.

ORIENTADOR: Prof. Dr. Leandro Augusto da Silva

São Paulo 2020

(3)

(4)

(5)

(6)

A Deus, por ter me concedido o privilégio de ter escrito e terminado este trabalho.

Aos meus pais, Wagner e Teresinha, por terem sido meus maiores mestres.

À minha namorada querida, Fabiana, pela sua paciência e que sempre me incentivou, mesmo nos momentos mais difíceis.

Aos meus irmãos Fernando, Vânia e Ana, que sempre me apoiaram e torcem pelo meu sucesso.

Ao Professor Dr. Leandro Augusto da Silva, meu orientador, por ter sido sempre atencioso e dado orientações sobre pontos-chave, e de quem partiu a ideia original deste trabalho, por seu tempo e dedicação.

Ao apoio recebido pela Capes e MackPesquisa e à Universidade Presbiteriana Mackenzie, que me concederam a bolsa para que eu pudesse terminar esse projeto.

A todos os professores do curso do Programa de Pós-Graduação em Engenharia Elétrica e Computação da Universidade Presbiteriana Mackenzie, por ensinarem com perspicácia e sabe- doria o conteúdo das disciplinas, o que me habilitou a escrever esse trabalho.

Aos colegas do programa pela ajuda e a grande disposição para trocar informações.

Aos integrantes da banca examinadora que participaram da etapa de Qualificação, Profª. Drª.

Ana Carolina Lorena e Prof. Dr. Arnaldo R. de Aguiar Vallim Filho, por suas contribuições, comentários e sugestões que ajudaram na construção desse trabalho.

Finalmente, aos meus amigos e colegas de trabalho, que sempre me direcionaram palavras de apoio e incentivo durante a elaboração desse trabalho.

(7)

(8)

Atualmente, dados gerados em grande volume, diferentes contextos de aplicação e formato têm impactado significativamente nos diferentes algoritmos de aprendizagem de máquina, em especial os de modelagem preditiva. Sistemas que envolvem dados com essas características não podem arcar com os requisitos de tempo, armazenamento e processamento em tempo real. Sob essas condições, classificar, compreender ou compactar os dados disponíveis podem se tornar uma tarefa custosa. O problema se agrava especialmente no uso de algoritmos de aprendizado baseados em distâncias, como a regra do vizinho mais próximo ou NN (do inglês, Nearest- Neighbor). O algoritmo básico do NN em uma tarefa de classificação de dados consiste em medir a distância entre uma instância em análise e todas as instâncias de dados disponíveis.

Significa dizer que as instâncias do conjunto de dados devem sempre permanecer armazenadas para análises futuras, mesmo aquelas que podem conter ruídos ou não ser representativas para uma análise. Diante disso, a seleção de protótipos se apresenta como uma proposta para a redução de dados e, consequentemente, minimizar os problemas de complexidade computacional, armazenamento e ruídos em conjuntos de dados. A seleção de protótipos visa encontrar um conjunto de dados representativo com uma dimensão menor em comparação ao original, e eventualmente pode ser usada para a geração de dados em situações de classes desbalanceadas.

Entretanto, a maioria desses métodos, por não ter um controle de geração de protótipos, executa um processo exaustivo para encontrar o conjunto de dados reduzido. A falta de controle na ge- ração de protótipos pode produzir um tamanho não ideal do conjunto de dados reduzido. Diante desse contexto, este trabalho tem como proposta a apresentação de um método de autogeração de protótipos, no qual faz uso de ideias provenientes da teoria da informação, especificamente o conceito de entropia da informação, para determinar o número ideal de protótipos. Na tarefa de classificação de dados com o algoritmokNN (do inglês,k-Nearest Neighbors), o método pro- posto possibilita acelerar o tempo de classificação sem diminuir significativamente a qualidade da classificação. Em um estudo comparativo com outra técnica de autogeração de protótipos da literatura, SSGA (do inglês,Steady-State Genetic Algorithm), sob análises quantitativas e qua- litativas, com diferentes conjuntos de dados (públicos e artificiais), os resultados para o método proposto são superiores, em média, 85,71% para o tempo de classificação, com uma taxa média de redução de dados em 77%, e um aumento da eficiência da precisão em 3% do classificador kNN.

Palavras-chave:Seleção de Protótipos. Redução de Dados. Classificação de Dados. Entropia de Informação.

(9)

Currently, data generated in large volume, different contexts of application and format have significantly impacted on different types of machine learning algorithms, especially those of predictive modeling. Systems that involve data with these characteristics cannot afford the requirements of time, storage, and real-time processing. Under these conditions, classifying, un- derstanding, or compacting the available data can become an expensive task. The problem is particularly acute when using distance-based learning algorithms, such as the Nearest-Neighbor or NN rule. The basic NN algorithm in a data classification task is to measure the distance between an instance under analysis, and all available instances which denominates the training set. It means that instances in the training set should always remain stored for future analysis, even those that may contain noise or may not be representative for analysis. Given this circums- tance, the prototype selection is presented as a proposal for data reduction and consequently minimizes the problems of computational complexity, storage requirements, and noisy data in datasets. The prototype selection aims to find a representative dataset with a smaller dimension compared to the original one and can eventually use data generation in situations of unbalanced classes. However, most of these methods can perform an exhaustive process to find the reduced dataset because they do not have precise control over the prototype generation process. Then, a lack of control in the prototype generation process can lead to producing a reduced non-optimal dataset size. In the context of this, the present work proposes a new method for self-generating prototypes, in which it makes use of ideas from information theory, precisely the concept of information entropy, to determine the optimal number of prototypes to form the reduced dataset.

In the data classification task with the k-Nearest Neighbors or kNN algorithm, the proposed method makes it possible to accelerate the time of classification without significantly reducing the quality of classification. In a comparative study with another self-generating prototype technique of the literature, SSGA (Steady-State Genetic Algorithm) for prototype selection, under quantitative and qualitative analysis by using different datasets (public and artificial), the results for the proposed method are higher on average 85.71 percent for the classification time with an average rate of data reduction of 77 percent, and an increase in accuracy efficiency of 3 percent for thekNN classifier.

Keywords:Prototype Selection. Data Reduction. Classification. Information Entropy.

(10)

Figura 2.1 Exemplo de classificação dokNN com dois rótulos de classe e k = 7. . . 18

Figura 2.2 Tipos de Métodos de Seleção de Protótipos. . . . 23

Figura 2.3 Processo de Seleção de Protótipos. . . . 24

Figura 2.4 População, cromossomos e genes. . . . . 26

Figura 2.5 Crossover - Ponto de cruzamento escolhido aleatoriamente dentro dos genes. . . . 27

Figura 2.6 Descendentes trocando os genes dos pais até que o ponto de cruzamento seja alcançado. . . . 28

Figura 2.7 Nova geração. . . . 28

Figura 2.8 Mutação - Antes e Depois. . . . 28

Figura 2.9 Conjunto de dados inicial em desordem. . . . 31

Figura 2.10 Divisão de subconjuntos com função de entropia. . . . 32

Figura 2.11 Função de entropia. . . . 34

Figura 3.1 Arquitetura do SGPE. . . . 38

Figura 3.2 Exemplo unidimensional da operação do SGPE. . . . 41

Figura 3.3 Exemplo hierárquico unedimencional da operação do SGPE. . . . 42

Figura 5.1 Resultado da redução de dados. . . . . 58

Figura 5.2 Informação de entropia e seleção de protótipos. . . . 58

Figura 5.3 Teste para taxa de redução e acurácia dokNN. . . . . 59

Figura 5.4 Teste para taxa de redução e tempo de redução. . . . . 59

Figura 5.5 Processo de Redução de Dados em conjuntos de dados bidimensionais. . 61

Figura 5.6 Efetividade da redução de dados entre o SGPE e o GA. . . . 63

Figura 5.7 Efetividade da redução de dados entre o SGPE e o GA - Conjuntos de dados menores que 2000 elementos. . . . 64

Figura 5.8 Efetividade da redução de dados entre o SGPE e o GA - Conjuntos de dados maiores que 2000 elementos. . . . . 64

Figura 5.9 Contraste no resultado do desempenho da acurácia. . . . 65

Figura 5.10 Desempenho no tempo de classificação pelokNN. . . . 66

Figura 5.11 Dados originais com 25% de sobreposição. . . . 71

Figura 5.12 Dados reduzidos com parametrização padrão do SGPE em 25% de so- breposição. . . . 72

Figura 5.17 Dados reduzidos com parametrização otimizada do SGPE em 25% de sobreposição. . . . 75

Figura 5.18 Dados reduzidos com parametrização otimizada do SGPE 50% de sobre- posição. . . . 76

Figura 5.19 Dados reduzidos com parametrização otimizada do SGPE 75% de sobre- posição. . . . 76

(11)

Tabela 3.1 Exemplo unidimensional da operação do SGPE com o cálculo de jane- lamento igual a três para a Entropia Global. . . . 42 Tabela 4.1 Descrição dos conjuntos de dados da UCI. . . . 48 Tabela 4.2 Descrição dos conjuntos de dados de duas dimensões. . . . 49 Tabela 4.3 Descrição dos conjuntos de dados da Keel com desbalanceamento de

classes. . . . 50 Tabela 4.4 Descrição dos conjuntos de dados com Sobreposição de Classes. . . . . 50 Tabela 4.5 Parametrização dos parâmetros para a realização dos nove testes de exe-

cução. . . . 51 Tabela 4.6 Parametrização inicial do SGPE - Para distribuições desconhecidas e pro-

blemas de classificação binária. . . . 51 Tabela 4.7 Parametrização dos algoritmos. . . . . 52 Tabela 4.8 Parametrização dos parâmetros para a realização dos 30 experimentos

com conjuntos de dados públicos. . . . 52 Tabela 4.9 Parametrização otimizada do SGPE para conjuntos de dados artificiais

com sobreposição de classes. . . . 53 Tabela 5.1 Impacto da Entropia na redução de dados. . . . 60 Tabela 5.2 Comparativo do desempenho de classificação em conjuntos de dados bi-

dimencionais. . . . 62 Tabela 5.3 Comparativo do desempenho dokNN utilizando os algoritmos SGPE e

GA em conjuntos de dados públicos. Os valores destacados em negrito representam os melhores resultados. . . . 67 Tabela 5.4 Comparativo do desempenho dokNN utilizando conjuntos de dados ori-

ginais e reduzidos com o SGPE. Os valores destacados em negrito representam os melhores resultados. . . . 68 Tabela 5.5 Desempenho do SGPE com diferentes níveis de desbalanceamento de

classes. . . . 70 Tabela 5.6 Desempenho do SGPE com parametrização inicial em níveis diferentes

de sobreposição de classes. . . . 74 Tabela 5.7 Desempenho do SGPE com parametrização otimizada em níveis diferen-

tes de sobreposição de classes. . . . 77

(12)

kNN k-Nearest Neighbors é encontrar um número predefinido de instâncias de treinamento mais próximas da distância do novo ponto e prever a classe a partir dessas. 11

GA Genetic Algorithmé uma técnica de busca utilizada na ciência da computação para (achar) soluções aproximadas em problemas de otimização e busca, fundamentada principalmente pelo americano John Henry Holland. Algoritmos genéticos são uma classe particular de algoritmos evolutivos que usam técnicas inspiradas pela biologia evolutiva, como here- ditariedade, mutação, seleção natural e recombinação. No contexto de reconhecimento de padrões, existem aplicações à classificação de dados e redução de dados através de geração de protótipos. 25

k-fold é um procedimento de Cross Validation, tem um único parâmetro chamado k, que se refere ao número de grupos para os quais uma determinada amostra de dados deve ser dividida. Como tal, o procedimento é frequentemente chamado de validação cruzada k- fold. Quando um valor específico para k é escolhido, ele pode ser usado no lugar de k na referência ao modelo, como k = 10, tornando-se uma validação cruzada de 10 vezes. 53 Keel Knowledge Extraction based on Evolutionary Learningé uma ferramenta de software Java

de código-fonte aberto (GPLv3) que pode ser usada para um grande número de diferentes tarefas de descoberta de dados de conhecimento. A KEEL fornece uma interface gráfica simples, baseada no fluxo de dados para projetar experimentos com diferentes conjuntos de dados e algoritmos de inteligência computacional (prestando atenção especial aos algoritmos evolutivos) para avaliar o comportamento dos algoritmos. Além da ferramenta de software, o projeto fornece bases de dados modificadas da UCI para testar os métodos propostos. 50

NN Nearest-Neighbor Methodssão algoritmos de aprendizado de máquina baseados em métri- cas de distância que implementam a regra dos vizinhos (instâncias) mais próximos. Essas instâncias mais próximas à nova instância sob análise determinam o rótulo de classe da nova instância durante o processo de Classificação. 17

SGPE Self-generating prototype entropyé um método de seleção de protótipos com mecanis- mos de autogeração de protótipos através de parametrização. 35

SGPs Self-generating prototype methods são métodos de autogeração de protótipos que utilizam técnicas avançadas para seleção ou geração de protótipos. 15

SSGA Steady-State Genetic Algorithmé um método evolutivo clássico, no qual pode ser aplicado para seleção de protótipos. A principal característica desse método é a reposição de um ou dois indivíduos por iteração. 29

The Wilcoxon test é um teste de hipótese estatístico não paramétrico usado para comparar duas amostras relacionadas, amostras casadas ou medições repetidas em uma única amostra, para avaliar se suas classificações médias populacionais diferem. 54

UCI Machine Learning Repository é um repositório de base de dados aberta para utilização em testes debenchmarkemmachine learninge reconhecimento de padrões da Universi- dade da Califórnia em Irvine. 47

(13)

1 INTRODUÇÃO 11

1.1 OBJETIVOS . . . . 13

1.2 CONTRIBUIÇÕES . . . . 15

1.3 ORGANIZAÇÃO DO TRABALHO . . . . 15

2 REFERENCIAL TEÓRICO 17 2.1 TÉCNICAS DE REDUÇÃO DE DADOS PARA CLASSIFICAÇÃO BASEA- DAS NA REGRA DO VIZINHO MAIS PRÓXIMO . . . . 17

2.2 SELEÇÃO DE PROTÓTIPOS . . . . 22

2.2.1 Algoritmo Genético para Seleção de Protótipos . . . . 25

2.3 ENTROPIA DA INFORMAÇÃO: CONCEITOS BÁSICOS . . . . 30

3 MÉTODO PROPOSTO 35 3.1 ALGORITMO DE ENTROPIA PARA AUTOGERAÇÃO DE PROTÓTIPOS . . 36

4 METODOLOGIA EXPERIMENTAL 46 4.1 CONJUNTO DE DADOS . . . . 47

4.1.1 Conjuntos de Dados públicos . . . . 47

4.1.2 Conjuntos de Dados Artificiais de duas Dimensões . . . . 48

4.1.3 Conjuntos de Dados com Desbalanceamento e Sobreposição de Classes . . . 49

4.2 PRÉ-PROCESSAMENTO E CLASSIFICAÇÃO . . . . 50

4.3 MÉTODOS PARA ANÁLISE DE DESEMPENHO . . . . 53

5 RESULTADOS EXPERIMENTAIS 57 5.1 A CAPACIDADE DA AUTOGERAÇÃO DE PROTÓTIPOS DO SGPE . . . . . 57

5.2 O EFEITO DA FUNÇÃO DE ENTROPIA DA INFORMAÇÃO NA AUTOGE- RAÇÃO DE PROTÓTIPOS . . . . 60

5.3 EFICIÊNCIA DE REDUÇÃO DE DADOS ENTRE SGPE E GA . . . . 62

5.4 TEMPO DE CLASSIFICAÇÃO DOkNN UTILIZANDO O SGPE . . . . 65 5.5 TOLERÂNCIA À SOBREPOSIÇÃO E DESBALANCEAMENTO DE CLASSES 69

6 CONCLUSÕES E TRABALHOS FUTUROS 78

REFERÊNCIAS 81

(14)

1 INTRODUÇÃO

Atualmente, em muitos domínios de aplicações que usam dados como imagens multi- espectrais, categorização de texto, biometria ou recuperação de dados multimídia, o tamanho elevado dos conjuntos de dados leva os sistemas em tempo real a não conseguirem arcar com os requisitos de tempo, armazenamento e processamento desses dados. Sob essas condições, classificar, compreender ou compactar as informações disponíveis podem se tornar uma tarefa muito problemática aos algoritmos de aprendizagem de máquina, em especial àqueles que envolvem modelagem preditiva. Esse problema é especialmente agravado no caso de algoritmos de aprendizado baseados em distâncias, como a regra NN (do inglês,Nearest-Neighbor) (DA- SARATHY, 1991). O esquema básico do NN é pesquisar em todas as instâncias de treinamento, exigindo memória para o armazenamento àquelas mais próximas, para classificar uma instância sob análise, cujo processo pode ser lento. Além disso, o NN exige armazenar todas as instâncias do conjunto de treinamento, inclusive as ruidosas, o que pode degradar consideravelmente a precisão da classificação.

A classificação de dados utiliza para inferir um valor categórico que é a classe, os atributos descritivos de instâncias analisadas. O algoritmokvizinho mais próximokNN (do inglês, k-Nearest Neighbors), uma generalização do NN, é um dos algoritmos de classificação de da- dos baseados em distâncias e um dos mais utilizados na literatura (WU et al., 2008). Embora tenha sido inventado na década de 60 (COVER; HART, 1967), o classificador de dadoskNN é ranqueado como um dos 10 principais métodos em Mineração de Dados, de acordo com estudo estatístico comparativo de Settouti, Bechar e Chikh (2016).

Um dos motivos para o uso dokNN é que quando comparado a outros métodos de clas- sificação de dados, o algoritmo é simples de se parametrizar, o resultado experimental é de- terminístico e com aceitável desempenho na previsão de classes (acurácia), características dos principais algoritmos debenchmarkem tarefas de classificação de dados (BRIGHTON; MEL- LISH, 2002; WU et al., 2008; ZHANG et al., 2017). Basicamente, o algoritmo compreende três operações:i) uma instância não rotulada (instância de teste) é comparada às instâncias rotuladas e armazenadas em um conjunto de treinamento, por meio de uma medida de similaridade;ii) as instâncias rotuladas são ordenadas por similaridade à instância não rotulada; e, finalmente, iii) a classificação ocorre atribuindo a instância em análise à classe majoritária daskinstâncias

(15)

mais próximas.

Apesar das características positivas do algoritmo, como simplicidade de implementação, de parametrização e desempenho na tarefa de classificação de dados, o seu uso em aplicações reais sofre de algumas fraquezas.

A escolha ideal do parâmetrok depende do conjunto de dados, principalmente quando a instância analisada está em uma região de fronteira, fazendo com que esse parâmetro seja ajustado de acordo com a aplicação (TORRALBA; FERGUS; FREEMAN, 2008; TRIGUERO et al., 2011; DUDA; HART; STORK, 2012; DENG et al., 2016).

O algoritmokNN não possui um modelo, e para cada processo de classificação, compara as novas instâncias não rotuladas com todas as instâncias rotuladas pertencentes ao conjunto de treinamento armazenado em memória. Esse processo de comparação exaustiva implica em tempo de classificação, principalmente quando o conjunto de dados é grande (TORRALBA;

FERGUS; FREEMAN, 2008; DUDA; HART; STORK, 2012; DENG et al., 2016).

Os limites da fronteira de decisão definidos pelas instâncias armazenadas no conjunto de treinamento implicam nas seguintes duas outras fraquezas: baixa tolerância à instância com ruído, pois as instâncias do conjunto de treinamento são consideradas padrões relevantes mesmo contendo dados incorretos e pressupõe-se que as instâncias do conjunto de treinamento delimi- tam corretamente os limites de decisão entre as classes (TRIGUERO et al., 2011).

Para superar estes pontos fracos dokNN são encontrados trabalhos na literatura sob duas abordagens distintas: melhorar a velocidade de cálculo dos vizinhos mais próximos ou reduzir o conjunto de treinamento por meio da seleção de instâncias mais relevantes (OUGIAROGLOU;

EVANGELIDIS; DERVOS, 2015). Neste estudo será dado o enfoque no segundo grupo de métodos, que denominam técnicas de redução de dados ou DRT (do inglês, Data Reduction Technique) e, especificamente, sobre métodos de seleção de protótipos.

Os métodos de DRT têm como objetivo reduzir o tamanho do conjunto de treinamento, construindo um conjunto de representação de menor dimensão, chamado conjunto condensado.

Esses métodos não apenas melhoram a velocidade do processo de classificação, mas também são capazes de construir uma versão aprimorada do conjunto de treinamento, eliminando instân- cias ruidosas para melhorar regiões dos dados com fronteira mal definida (por exemplo, classes sobrepostas), apresentando como resultado uma suavização dos limites de decisão.

(16)

Dentro do grupo DRT, Garcia et al. (2011) comparam os métodos de PS (do inglês,Pro- totype Selection) com importantes estudos relacionados à precisão da classificação e à porcen- tagem de redução. Este estudo mostrou que não existe um único método que supera em todos os aspectos o desempenho das demais propostas. A aplicação eficiente de um determinado método tem uma relação importante com o problema de classificação a ser resolvido. Particularidades encontradas nos conjuntos de dados influenciam na decisão de escolha do método apropriado.

Embora os trabalhos de Triguero et al. (2011), com método de geração de protótipos PG (do inglês,Prototype Generation), nos quais se utilizam da criação de protótipos artificiais e os trabalhos sobre os métodos de seleção de protótipos PS (GARCIA et al., 2011) demonstrarem desempenhos distintos entre si e ampla aplicação de diferentes métodos de redução de dados para diferentes desafios de classificação destes, há uma dificuldade na escolha de um método para uma específica aplicação, de modo que existe a necessidade de pôr à prova diversos métodos para competirem entre si e, assim, encontrar um que seja o mais adequado para solucionar o problema de classificação.

Nessas condições, o processo de seleção do método mais apropriado se torna longo e exaustivo. Nesse contexto, os métodos de autogeração de protótipos emergem como uma op- ção promissora por terem um potencial de otimização para se adaptarem às inúmeras situações encontradas nos conjuntos de dados.

Portanto os métodos de autogeração de protótipos SGP (do inglês,Self-generating pro- totype) são uma área com importantes estudos no campo dos métodos de redução de dados (FAYED; HASHEM; ATIYA, 2007), com resultados eficientes para o reconhecimento de pa- drões. Contudo os métodos de autogeração de protótipos ainda carecem de um controle pre- ciso na geração de protótipos através de parâmetros com controles objetivos, proporcionando uma aplicação abrangente a diversos conjuntos de dados e com desempenho competitivo, ao compará-los aos métodos existentes.

1.1 OBJETIVOS

O objetivo desta dissertação é propor um novo método de autogeração de protótipos que tem implementado em seu núcleo a função de entropia da informação para determinar o número ideal de protótipos na formação do conjunto de treinamento reduzido, e, consequentemente, me- lhorando o desempenho do classificador. Também, fornecer a possibilidade de otimização da

(17)

autogeração de protótipos por meio de parâmetros que controlam, de forma eficiente, a interrup- ção da autogeração de protótipos, sem diminuir significadamente a qualidade da classificação.

Para alcançar esse objetivo, os seguintes objetivos específicos estão definidos:

• Comprovar, por meio de experimentos, que o kNN e o método proposto de redução de dados trazem melhorias significativas para o processo de classificação, e por análises de aspectos particulares da implementação da função de entropia da informação com controles ajustáveis por parâmetros, demonstrando a eficiência do mecanismo de autogeração de protótipos. Além disso, apresentando o comportamento do método proposto e a função de entropia por experimentos em conjuntos de dados bidimensionais com distribuições com- plexas e com conjuntos de dados contendo desafios para um processo de classificação eficiente, tais quais: diferentes níveis de sobreposição e desbalanceamento de classes;

• Analisar a eficácia do classificadork vizinhos mais próximos (kNN) por intermédio de experimentos comparativos, explorando a precisão da classificação e o tempo de processamento, antes e depois da redução de dados pelo método proposto;

• Minimizar três fraquezas principais do classificadorkNN com a autogeração de protótipo, ajustando o tamanho do conjunto de dados reduzido à demanda por recursos computaci- onais para acelerar o calcular da distância entre uma nova instância e o conjunto de dados reduzido, diminuindo os requisitos de armazenamento pela utilização do conjunto de treinamento reduzido e removendo, em algum nível, as instâncias que causam problemas para o processo de classificação;

• Comparar experimentalmente o impacto na precisão e taxa de redução dos conjuntos de dados de treinamento para a classificação dokNN através de um comparativo sistemático entre o método proposto e o algoritmo genético GA (do inglês, Genetic Algorithm) para a seleção de protótipos, utilizando conjuntos de dados públicos bem conhecidos da literatura. Esse comparativo é justificável porque recentes estudos com algoritmo genético apresentam resultados promissores no campo de seleção de protótipos e redução de dados (ACAMPORA; TORTORA; VITIELLO, 2016).

(18)

1.2 CONTRIBUIÇÕES

Os métodos de autogeração de protótipos (do inglês,Self-generating prototypes(SGPs)) possuem um potencial promissor na área de reconhecimento de padrões, de acordo com estudos recentes, conforme os que são encontrados em artigos, destacando-se Oliveira et al. (2012), Oliveira et al. (2015) e Rubbo e Silva (2018).

Esses estudos relatam desafios encontrados na classificação de dados com classes desbalanceadas para esses métodos; e a busca por aprimoramento do controle da autogeração de pro- tótipos desses métodos é um dos principais fatores para aprimorar a qualidade da classificação, como visto nas propostas de Oliveira et al. (2012) e Oliveira et al. (2015) para os métodos adaptativos de autogeração de protótipos, chamados deAdaptive Self-Generating Prototypes(ASGP) eEvolutionary adaptive self-generating prototypes(EASGP), que tentam melhorar a representa- tividade dos protótipos gerados em relação ao conjunto de treinamento original, preservando as classes minoritárias. Além dos métodos adaptativos para superar esses desafios, trabalhos com resultados promissores utilizando mapas auto-organizáveis (do inglês,Self-organizing map) e o conceito de entropia da informação para o controle da autogeração de protótipos são apresentados no artigo (RUBBO; SILVA, 2018).

Este trabalho contribui com uma abordagem que também aplica o conceito de entropia da informação com controles objetivos para aprimorar a autogeração de protótipos e tenta de- monstrar que o conceito de entropia da informação, aplicado em métodos de autogeração de pro- tótipos, é um mecanismo de controle viável com resultados consistentes em diferentes situações encontradas durante o processo de redução de dados, tanto para o aprimoramento dos métodos de redução de dados existentes quanto para o desenvolvimento de novas propostas. Além disso, os conceitos apresentados nesse trabalho são parte da proposta do artigo de Manastarla e Silva (2019), e assim, contribuindo para a validação dos objetivos desta dissertação.

1.3 ORGANIZAÇÃO DO TRABALHO

Esta dissertação está organizada da seguinte forma: o capítulo 2 apresenta o referencial teórico que contém a base conceitual sobre redução de dados na otimização do processo de classificação, conceituação básica sobre a entropia de informação e seleção de protótipos, abordagem do classificadorkNN para testes debenchmark, e descrição dos métodos evolutivos com

(19)

algoritmo genético para seleção de protótipos. O capítulo 3 realiza a fundamentação do método proposto para a autogeração de protótipos e redução de dados. No capítulo 4 é apresentada a metodologia experimental para comprovar a efetividade do método proposto na redução de dados, e no capítulo 5 são apresentados os resultados experimentais. Por fim, o capítulo 6 conclui a dissertação com uma discussão geral sobre a proposta, resultados obtidos e perspectivas de trabalhos futuros.

(20)

2 REFERENCIAL TEÓRICO

Este capítulo apresenta a base conceitual de métodos de seleção de protótipos e como os algoritmos genéticos para essa seleção operam para a obtenção de conjunto de treinamento reduzido. Apresenta, também, o conceito teórico da seleção de protótipos aplicada a métodos de classificação baseados na regra NN, em especial para o algoritmokNN. Por fim, apresenta o conceito de entropia da informação e como esse conceito pode ser uma ferramenta de otimização para o processo de geração de protótipos.

2.1 TÉCNICAS DE REDUÇÃO DE DADOS PARA CLASSIFICAÇÃO BA- SEADAS NA REGRA DO VIZINHO MAIS PRÓXIMO

Atualmente, na literatura, existem diversas pesquisas para aprimorar o NN (do inglês, Nearest-Neighbor) através do pré-processamento de dados. Este capítulo fornece uma revisão simplificada do métodokNN de classificação e como as técnicas de redução de dados podem aprimorar o desempenho de classificadores baseados em regra do vizinho mais próximo (NN), por meio da redução de dados sobre o conjunto de treinamento.

O kNN determina a classe de uma instância a partir das instâncias vizinhas advindas de um conjunto de treinamento. O algoritmo 1,kNN de classificação, pode ser exemplificado pela Figura 2.1, na qual se observa um problema de classificação com duas classes e com k=7.

No exemplo, são aferidas as distâncias de uma nova instância, representada por uma estrela, às demais instâncias de treinamento, representadas por círculos pretos e cinzas. A variávelk representa a quantidade de vizinhos mais próximos que serão utilizados para averiguar a qual classe a nova instância pertence. Com isso, das sete instâncias de treinamento mais próximas da nova instância, quatro são da classe B e três da classe A; portanto, como existem mais vizinhos da classe B, a nova instância receberá a mesma classe delas, ou seja, B.

(21)

Figura 2.1 – Exemplo de classificação dokNN com dois rótulos de classe e k = 7.

Fonte: Adaptado de Fawcett (2006).

Para problemas com dimensões maiores, a abordagem é a mesma, porém a visualização das instâncias no espaço é mais complicada para uma exemplificação.

Dois pontos-chave que devem ser determinados para a aplicação dokNN: a métrica de distância e o valor dek. Portanto, a seguir é demonstrado o cálculo da métrica de distância e como é realizada a escolha do valor k:

Calcular a distância é fundamental para okNN. As medidas de distâncias mais utilizadas para valores quantitativos são as medidas de distâncias baseadas na métrica de Minkowski, na qual é definida pela Equação 1 (FACELI et al., 2011), como a distância euclidiana, a distân- cia de Manhattan e a distância de Chebyschev. A escolha de qual medida usar pode variar de acordo com o problema; por exemplo, a distância de Manhattan é uma boa medida a ser usada se os atributos de entrada não forem de tipo semelhante (como idade, sexo, altura, etc.). Mas a distância mais popular aplicada na utilização do classificadorkNN é a distância euclidiana.

d(xi,xj) = ^p vu utX^d

l=1

|x^l_i−x^l_j|^p (1)

Na Equação 1, a escolha de diferentes valores parap, com 1≤p≤ ∞, define as variações da métrica. Os menores valores depcorrespondem a estimativas mais robustas (menos sensíveis aoutliers). As métricas de Minkowski são sensíveis às variações de escala dos atributos, ou seja, atributos representados em uma escala maior tendem a dominar os outros. Esse problema pode ser solucionado pela normalização dos atributos para um intervalo ou variância comum, ou pela

(22)

aplicação de outros esquemas de ponderação, como os apresentados em Jain, Murty e Flynn (1999).

As principais variações da métrica de Minkowski para diferentes valores depsão dadas pelas Equações 2, 3 e 4 (FACELI et al., 2011).

•p= 1: Distância de Manhattan (ou distância bloco-cidade), dada pela Equação 2.

d(x_i,x_j) = Xd

l=1

|x^l_i−x^l_j| (2)

•p= 2: Distância euclidiana, a mais usual nokNN, dada pela Equação 3.

d(x_i,x_j) = vu utX^d

l=1

(x^l_i−x^l_j)² (3)

•p=∞: Distância de Chebyschev, dada pela Equação 4, calcula o máximo da diferença absoluta em coordenadas. Consiste da diferença máxima entre quaisquer atributos as instâncias.

d(x_i,x_j) = max

1≤l≤d|x^l_i−x^l_j| (4)

Em todos os casos, x_i e x_j são dois pontos n-dimensionais, onde i ou j = 1...N. No exemplo da Figura 2.1, essas distâncias seriam calculadas entre os círculos (pretos e cinzas) e a estrela (a nova entrada). Como o exemplo é de duas dimensões, cada ponto teria seu valor em x e em y.

Em relação à escolha do valork, não existe um valor único para a constante, a mesma varia de acordo com o conjunto de dados. É recomendável para problema de classificação usar valores ímpares/primos, mas o valor ótimo para um problema de decisão específico pode não ser trivial. O valor deké definido pelo usuário e geralmente é pequeno: k= 3,5... Duas estratégias referidas na literatura são encontradas em estudo de Batista e Silva (2009) que avalia como é afetado o desempenho do classificadorkNN de acordo com a escolha para o valor do parâmetro ke em (FAWCETT, 2006). Estas estratégias consistem em:

•Estimarkpor validação cruzada.

(23)

•Associar um peso à contribuição de cada vizinho.

No caso de Associação de peso, a contribuição de cada um doskvizinhos para atribuição do peso é de forma inversamente proporcional à distância da nova instância a ser classificada.

Dessa forma, é possível utilizark= n (todas as instâncias de treinamento).

•Em problemas de classificação é dada pela definição:

- Moda ponderada:y_t=arg max_c_∈_Y P_k

i=1w_iI(c, y_i), comw_i= _d(x¹

t,xi) eI(a, b), é uma função que retorna 1 se e só sea=b;

•Em problemas de regressão é dada pela definição:

- Média ponderada: y_t=

∑k i=1∑ wiyi

wi , comw_i= _d(x¹

t,xi)

Em quey_i é a classe da instância x_i,w_i é o peso associado a instânciax_i e c é a classe com maior moda ponderada.

Todavia essa utilização pode deixar o desempenho geral do modelo bem lento na etapa de seleção dek. Outra maneira é simplesmente testar um conjunto de valores e encontrar o valor dekempiricamente.

Como dito acima, a regrakNN é, geralmente, um bom classificador. Apresentando várias vantagens, tais como:

1. Ela pode ser facilmente implementada e é conceitualmente simples;

2. Seu comportamento é assintoticamente ótimo (COVER; HART, 1967);

3. Seu erro esperado é limitado (DUDA; HART; STORK, 2012).

Aqui são brevemente explicadas algumas características dessas três vantagens para compreender a aplicação de técnicas de redução de dados para o classificadorkNN.

Conceitualmente, pode-se imaginar duas frutas novas sendo mostradas a alguém pela pri- meira vez. Então, quando outro pedaço de fruta desconhecida é apresentado, o indivíduo tentará classificar o novo comparando-o com os mostrados anteriormente. A ideia por trás dos algoritmos baseados na proximidade é: a classificação de uma nova instânciaxpode ser estimada com base nas classificações já conhecidas (conjunto de treinamento) das instâncias suficientemente

(24)

próximas dex, porque instâncias próximas uma das outras pertencerão à mesma classe ou pelo menos terão quase as mesmas distribuições de probabilidade em suas respectivas classificações.

A implementação de um classificador baseado na regra NN é mostrada no Algoritmo 1, apresentado detalhadamente em Chang (1974).

Algoritmo 1:Pseudo-código dokNN (k-Nearest Neighbors)

1 início

Entrada: Preparar conjunto de dados de entrada, saída e informar o valor de k

2 paracada nova instânciafaça

3 Calcular distância para todas as instâncias

4 Determinar o conjunto das k's distâncias mais próximas

5 O rótulo com mais representantes no conjunto dos k's vizinhos será o escolhido

6 fim

7 retorna: conjunto de rótulos de classificação

8 fim

Considerando o comportamento ótimo assintótico da regra NN, deve-se dizer que, além de sua simplicidade conceitual, a regra NN tem um bom comportamento quando aplicada a problemas não triviais. De fato, o algoritmokNN é assintoticamente ótimo no sentido de Bayes (DASARATHY, 1991). Em outras palavras, o algoritmokNN tem um desempenho tão bom quanto qualquer outro classificador, desde que haja um número arbitrariamente grande de pro- tótipos representativos disponíveis e o volume da vizinhançakdexseja arbitrariamente próximo de zero para todoX. Dado que as condições acima são cumpridas, a regra do NN (do algoritmo kNN) em que o erro esperadoP é limitado de acordo com:

P^∗ ≤P ≤P^∗(2− J

J −1P^∗) (5)

OndeJ é o número de classes eP^∗ é o erro de Bayes. Nota-se que, embora a regra NN seja um procedimento abaixo do ótimo (a regra NN geralmente leva a uma taxa de erro maior que o mínimo possível), com um número ilimitado de instâncias, a taxa de erro nunca é pior que o dobro da taxa de erro de Bayes. Nesse sentido, pelo menos metade das informações de classificação em um conjunto de dados infinito reside nas instâncias vizinhas mais próximos.

(25)

Mais detalhes podem ser encontrados em Duda, Hart e Stork (2012). Apesar de uma série de vantagens, a regrakNN tem uma séria desvantagem, o alto custo computacional.

Este inconveniente é consequência da necessidade de armazenar um número elevado de instâncias para obter uma aplicação efetiva da regra NN. Uma das duas alternativas que podem ser usadas para reduzir o custo computacional associado à regra NN (consequentemente, ao algoritmokNN) é baseada na seleção ou geração de um conjunto de representantes (protótipos) do conjunto de treinamento. Esta redução do tamanho do conjunto de treinamento é feita para acelerar a execução da aplicação da regra NN emk (número de vizinhos mais próximos), de preferência sem a perda da eficácia do classificador.

Seleção ou geração de protótipos (Técnicas de Redução de Dados em Classificação de Dados) são abordagens encarregadas de diminuir a quantidade de informações para reduzir tanto o conjunto de dados para otimizar a utilização de memória quanto o tempo de execução. Tra- dicionalmente, o conceito de Redução de Dados recebeu vários nomes, por exemplo: edição, condensação, filtragem, desbaste, etc.

Existem duas possibilidades diferentes, dependendo do objetivo da redução. O primeiro é reduzir a quantidade de instâncias, enquanto o segundo é selecionar um número determinado de características (do inglês,features) disponíveis. O segundo, seleção de features, não é con- siderado nesse trabalho, mas apenas o primeiro: seleção de protótipos.

2.2 SELEÇÃO DE PROTÓTIPOS

Os métodos de seleção de protótipos mostram ser uma técnica promissora para o pré- processamento de dados, pois lidam simultaneamente com a complexidade computacional, requisitos de armazenamento do conjunto de dados e a tolerância ao ruído. O método tenta obter um conjunto de treinamento representativo com uma dimensão menor no aspecto de número de instâncias em comparação ao original e com uma precisão de classificação similar ou ainda maior quando se usa todo o conjunto de treinamento (PĘKALSKA; DUIN; PACLÍK, 2006).

Os métodos de seleção de protótipos são divididos em três grupos (GARCIA et al., 2011):

Condensação: procuram manter instâncias de fronteira entre grupos e remover instâncias internas ao grupo. O nível de redução é geralmente alto, pois normalmente há mais instâncias internas do que na fronteira. No entanto, pode impactar no desempenho do algoritmo de

(26)

classificação de dados;

Edição: removem instâncias de fronteira ruidosas, isto é, cujas classes não são iguais a de seus vizinhos. A remoção dessas instâncias deixa a fronteira de decisão mais suave para o classificador. Devido à remoção de instâncias internas não serem o alvo, esse método tem uma redução de dados menor e, assim, as melhorias são voltadas para o aumento da precisão;

Híbridos: tentam encontrar o menor subconjunto, seja mantendo ou aumentando a precisão.

Esses métodos trabalham na remoção de instâncias em ambas as regiões, internas e bordas, para alcançar esses resultados.

A Figura 2.2 ilustra em qual parte do conjunto de dados os diferentes métodos de seleção de protótipos atuam. Pode-se notar que o método híbrido atua tanto nas instâncias que estão próximas da borda de decisão (separação das classes) quanto nas instâncias mais internas das classes. Essa característica dos métodos híbridos de certa forma tenta minimizar deficiências no processo de redução de dados de ambos os métodos, Condensação e de Edição.

Figura 2.2 – Tipos de Métodos de Seleção de Protótipos.

Fonte: Próprio autor, baseado em Garcia et al. (2011).

(27)

A seleção de protótipos criar um novo subconjunto de instâncias relevantes, sem criar novos dados artificiais. Independentemente da estratégia selecionada e escolha do método de seleção de protótipos, um problema de seleção de protótipo pode ser definido formalmente.

Suponha queTR(um conjunto de treinamento) seja composto porninstâncias. Cada instânciaIi

é um par(x_i,y_i)comi= [1, ...,n], ondex= [x₁₁,x₁₂,…,x_nm] define um vetor de atributos e cada instância tem um rótulo em quey= [y1,y2,...,yn]. Qualquer vetorxde entrada contémmatributos de entrada, que são dados quantitativos ou qualitativos que definem a instância correspondente.

Normalmente, no processo de classificação kNN, o conjunto TR (todas as instâncias) é usado como modelo para classificar as instâncias de teste (TS) ou na predição de novas ins- tâncias. Na seleção do protótipo, um subconjunto S de TR é selecionado, considerando um determinado critério de seleção. O objetivo da seleção de protótipos é produzir um subconjunto de protótipos com base emTR, sendo queS⊆TR, conforme demonstrado na Figura 2.3. Este subconjuntoScom menor dimensão é usado como modelo no lugar doTRoriginal, para pro- porcionar uma melhor eficiência na classificação das instâncias TS ou na predição de novas instâncias; no caso em questão, para o classificadorkNN.

Figura 2.3 – Processo de Seleção de Protótipos.

Fonte: Adaptado de López, Ochoa e Trinidad (2010).

Nas próximas seções serão apresentados dois métodos de seleção de protótipos por meio dos quais é possível superar algumas das desvantagens dos métodos de Condensação e Edição.

O primeiro é um método de seleção de protótipo baseado em algoritmo genético; e o segundo método é proposta deste trabalho para seleção de protótipos.

O desempenho da redução de dados do método proposto será comparado com o método heurístico para seleção de protótipos, algoritmo genético de estado estável. Os dois métodos não

(28)

possuem um impacto negativo agudo na precisão com altos níveis de redução dos conjuntos de treinamento, como é característico dos métodos de condensação, e essas altas taxas de redução de dados mantêm ou melhoram os níveis de precisão, nos quais são equivalentes aos métodos de Edição.

O método proposto é um algoritmo híbrido de seleção de protótipos chamado SGPE (Self-generating prototype entropy), que traz um equilíbrio entre a capacidade de redução de dados e que, ao mesmo tempo, fornece uma quantidade de dados suficiente para o classificador ter uma precisão adequada na classificação.

2.2.1 Algoritmo Genético para Seleção de Protótipos

Algoritmos genéticos (GA) (do inglês,Genetic Algorithm) (FOGEL; MICHALEWICZ, 1997) são métodos de busca estocástica que imitam a metáfora da evolução biológica natural.

Todos os algoritmos genéticos contam com o conceito de uma população de indivíduos (representando instâncias no espaço de potenciais soluções para um dado problema) que passa por operadores probabilísticos como Mutação, Seleção e (às vezes) Recombinação, para evoluir para valores de aptidão cada vez melhores. A aptidão de um indivíduo reflete seu valor de função objetivo a ser otimizada.

A otimização de uma função-objetivo pode ser definida como um problema para identifi- car a partir de um conjunto de teste os indivíduos mais aptos, ou ainda uma função que determina a aptidão de indivíduos (a capacidade de um indivíduo de competir com outros indivíduos). Este último, dá uma pontuação de aptidão para cada indivíduo, podendo ser definida como a probabilidade de um indivíduo ser selecionado para a reprodução.

O processo começa com um conjunto de indivíduos chamado de População. Cada in- divíduo é uma solução para o problema que se deseja resolver. O indivíduo é meramente um portador do seu código genético. O código genético é uma representação do espaço de busca do problema a ser resolvido, em geral na forma de sequências de bits. Por exemplo, para oti- mizações em problemas cujos valores de entrada são inteiros positivos de valor menor que 255, podemos usar 8 bits, com a representação binária normal, ou ainda uma forma de código gray.

Problemas com múltiplas entradas podem combinar as entradas em uma única sequência de bits, ou trabalhar com mais de um “cromossomo”, cada um representando uma das entradas. O có- digo genético deve ser uma representação capaz de representar todo o conjunto dos valores no

(29)

espaço de busca, e precisa ter tamanho finito. (GOLDBERG, 1999).

Figura 2.4 – População, cromossomos e genes.

Fonte: Próprio autor, baseado em Reeves (2010).

A seleção é outra parte chave do algoritmo. Em geral, usa-se o algoritmo de seleção por

“roleta”, onde os indivíduos são ordenados de acordo com a função-objetivo e lhes são atribuídas probabilidades decrescentes a serem escolhidas −probabilidades essas proporcionais à razão entre a adequação do indivíduo e a soma das adequações de todos os indivíduos da população.

A escolha é feita, em geral aleatoriamente, de acordo com essas probabilidades. Dessa forma, a escolha é pelos pais mais bem adaptados, sem deixar de lado a diversidade dos menos adaptados.

Outras formas de seleção podem ser aplicadas, dependendo do problema a ser tratado.

Como exemplo, pode-se citar a seleção por “torneio” (em que são selecionados diversos peque- nos subconjuntos da população, sendo selecionado o indivíduo de maior adequação de cada um desses grupos); a seleção por “classificação” ou “ranking” (semelhante à seleção por “roleta”, com a diferença de que a probabilidade de seleção é relacionada à sua posição na ordenação dos indivíduos da população e não à sua adequação em si) e a seleção por “truncamento” (na qual são selecionados os N melhores indivíduos da população, descartando-se os outros). (LINDEN, 2008).

A reprodução é, tradicionalmente, dividida em três etapas: acasalamento, recombina- ção e mutação. O acasalamento é a escolha de dois indivíduos para se reproduzirem (geralmente gerando dois descendentes para manter o tamanho populacional). A recombinação, ou

(30)

crossing-over, é um processo que imita o processo biológico homônimo na reprodução sexu- ada: os descendentes recebem em seu código genético parte do código genético do pai e parte do código da mãe.

Essa recombinação garante que os melhores indivíduos sejam capazes de trocar entre si as informações que os levam a ser mais aptos a sobreviver, e assim gerar descendentes ainda mais aptos. Por último, as mutações, que são feitas com a probabilidade mais baixa possível, e têm como objetivo permitir maior variabilidade genética na população, impedindo que a busca fique estagnada em um mínimo local. (GOLDBERG, 1999). Na Figura 2.4, a representação da população, cromossomo e o gene são ilustradas.

Por sua vez, oCrossoveré a fase mais significativa em um algoritmo genético. Para cada par de pais a serem “acasalados”, um ponto de cruzamento é escolhido aleatoriamente dentro dos genes.

Por exemplo, considere o ponto de cruzamento como três, conforme mostrado na Figura 2.5.

Figura 2.5 –Crossover- Ponto de cruzamento escolhido aleatoriamente dentro dos genes.

Os descendentes são criados trocando os genes dos pais entre si até que o ponto de cruzamento seja alcançado, conforme a Figura 2.6.

(31)

Figura 2.6 – Descendentes trocando os genes dos pais até que o ponto de cruzamento seja al- cançado.

Os novos descendentes são adicionados à população, conforme demonstrado na Figura 2.7.

Figura 2.7 – Nova geração.

Em alguns novos descendentes formados, alguns de seus genes podem ser submetidos a uma mutação com baixa probabilidade aleatória. Isso implica que alguns dos bits na cadeia de bits podem ser invertidos, conforme Figura 2.8, demonstrando-se a mutação desses novos descendentes formados.

Figura 2.8 – Mutação - Antes e Depois.

A mutação ocorre para manter a diversidade dentro da população e prevenir a conver- gência prematura.