Seleção de protótipos: combinando auto-geração de protótipos e mistura de gaussianas

Texto

(1)Universidade Federal de Pernambuco Centro de Informática. Pós-gradua¸cão em Ciência da Computa¸cão. ˜ DE PROTOTIPOS: ´ SELEC ¸ AO ˜ DE COMBINANDO AUTO-GERAC ¸ AO ´ PROTOTIPOS E MISTURA DE GAUSSIANAS Cristiano de Santana Pereira ˜ DE MESTRADO DISSERTAC ¸ AO. Recife 26 de Agosto de 2008.

(2) Universidade Federal de Pernambuco Centro de Informática. Cristiano de Santana Pereira ˜ DE PROTOTIPOS: ´ ˜ SELEC ¸ AO COMBINANDO AUTO-GERAC ¸ AO ´ DE PROTOTIPOS E MISTURA DE GAUSSIANAS. Trabalho apresentado ao Programa de P´ os-gradua¸ c˜ ao em Ciˆ encia da Computa¸ c˜ ao do Centro de Inform´ atica da Universidade Federal de Pernambuco como requisito parcial para obten¸ c˜ ao do grau de. Mestre em Ciˆ encia da Com-. puta¸ c˜ ao.. Orientador: George Darmiton da Cunha Cavalcanti. Recife 26 de Agosto de 2008.

(3) Pereira, Cristiano de Santana Seleção de protótipos: combinando auto-geração de protótipos e mistura de gaussianas . / Cristiano de Santana Pereira . - Recife: O Autor, 2009. xiii, 68 folhas : fig., tab. Dissertação (mestrado) – Universidade Federal de Pernambuco. CIn. Ciência da Computação, 2009. Inclui bibliografia. 1. Inteligência artificial. máquina. I. Título. 006.32. CDD (22. ed.). 2. Aprendizagem de. MEI2009- 128.

(4)

(5) Para meus pais e minha Bela..

(6) AGRADECIMENTOS. Agrade¸co aos meus pais, por serem responsáveis pela constru¸caõ do que eu sou hoje e por me acompanharem sempre em seus pensamentos e cora¸co˜es. Agrade¸co à minha esposa, Bela, pelo amor, suporte emocional e apoio incondicional durante esta trajetória. Agrade¸co ao meu irmão, Luciano, por ter me ensinado muito durante minha vida. Agrade¸co ao meu orientador, Professor George Darmiton, por ter acreditado em mim e por ter provido a ajuda necessária para realiza¸cão deste trabalho. E, principalmente, agrade¸co a Deus por tudo.. iv.

(7) Um passo ` a frente e vocˆ e n˜ ao est´ a mais no mesmo lugar. —CHICO SCIENCE.

(8) RESUMO. Sele¸cão de protótipos é uma técnica de aprendizagem de máquina cujo objetivo é a escolha ou produ¸caõ de instâncias de dados que consigam a melhor representa¸caõ para os dados do problema real¸cando as fronteiras de decisão e mantendo a separa¸caõ entre as classes. A idéia é reduzir a quantidade de dados e ainda assim obter um conjunto de protótipos que minimize o erro de classifica¸caõ. As estratégias baseadas em protótipos têm sido bastante utilizadas em aplica¸cões reais nos mais diversos dom´ınios obtendo bons resultados. A proposta deste trabalho foi investigar técnicas de sele¸cão de protótipos baseadas em auto-gera¸caõ e mistura de gaussianas comparando com algumas técnicas clássicas. Como resultado deste estudo, um modelo h´ıbrido combinando estas duas estratégias foi proposto. Este modelo h´ıbrido supera algumas dificuldades destas técnicas quando analisadas isoladamente, pois eles combinam a vantagem da ausência de parâmetros da auto-gera¸cão com a maior capacidade de ajuste nas fronteiras de decisão da mistura de gaussianas. O novo modelo foi avaliado com diversos problemas considerados benchmarks da área de aprendizagem de máquina apresentando desempenho superior na maioria deles quando comparado com as técnicas de auto-gera¸cão e mistura de gaussianas analisadas. A segunda parte deste trabalho apresenta um estudo da aplica¸caõ da nova estratégia h´ıbrida ao problema espec´ıfico de segmenta¸caõ de caracteres. Curvas ROC foram utilizadas para avaliar o desempenho e mais uma vez o modelo h´ıbrido se mostrou superior. Palavras-chave: Aprendizagem de máquina, sele¸caõ de protótipos, auto-gera¸caõ de protótipos, quantiza¸cão vetorial, mistura de gaussianas.. vi.

(9) ABSTRACT. Prototype selection is a machine learning scheme in which the main purpose is to choose pattern vectors from the training dataset that achieve a better fit to data point distributions and maintain class separation. The aim of this kind of technique is to find the smallest possible prototype set that minimizes the classification error rate. Prototype-based strategies have been used at real-world applications in several domains and promising results have been achieved by these techniques. The purpose of this work was to investigate prototype selection schemes based on self-generating of prototypes and Gaussian mixtures comparing the performance with some classical prototype selection algorithms. The respective advantages and problems are discussed. Resulting of this study, a novel hybrid model combining self-generating and Gaussian mixtures was proposed. This hybrid model overcomes difficulties of the methods studied and improves accuracy. This model have few parameters and uses a Gaussian Mixture ansatz to describe the data point distributions and to better fit the prototypes to the classification boundaries. To evaluate the hybrid method, experiments were performed over real-world databases. These chosen databases have been a widely used benchmark in machine learning. The hybrid model achieved superior performance in terms of classification accuracy when compared to the other evaluated methods. The second part of this work presents an architecture for a system to detect handwritten connected digits using the hybrid method proposed here. Besides, a set of 12 numeric features was introduced. The experiments performed over a real-world handwritten digits dataset achieved very good accuracy rates. Keywords: Machine learning, prototype selection, self-generating prototypes, vector quantization, Gaussian mixtures, connected handwritten digits.. vii.

(10) ´ SUMARIO. Cap´ıtulo 1—Introdu¸c˜ ao 1.1 1.2 1.3. 1. Motiva¸cão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Objetivos do Estudo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estrutura da Disserta¸cão . . . . . . . . . . . . . . . . . . . . . . . . . . .. Cap´ıtulo 2—Estado da Arte. 1 2 2 4. 2.1 2.2. Sele¸caõ de Protótipos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Condensed Nearest Neighbor Rule . . . . . . . . . . . . . . . . . . . . . .. 2.3 2.4 2.5. Tomek Links . . . . . . . . . . . One-Sided Selection . . . . . . . Learning Vector Quantization . 2.5.1 Modelo de Classifica¸caõ. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. 7 8 9 10. LVQ 1 . . . . . . . . . . . . . Optimized-learning-rate LVQ Regra da Janela . . . . . . . . LVQ 2.1 . . . . . . . . . . . . LVQ 3 . . . . . . . . . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. 11 12 12 13 14. 2.6. Soft Nearest Prototype Classification . . . . . . . . . . . . 2.6.1 A Fun¸caõ de Custo e a Regra Geral de Aprendizado 2.6.2 O Ansatz da Mistura de Gaussianas . . . . . . . . . 2.6.3 A Regra da Janela . . . . . . . . . . . . . . . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. 14 15 18 19. 2.7. Self-Generating prototypes . . . . . . . . . . . . . . . . . . . . . . . . . .. 20. 2.5.2 2.5.3 2.5.4 2.5.5 2.5.6. . . . .. . . . .. 4 6. Cap´ıtulo 3—Avalia¸c˜ ao dos Modelos 3.1 3.2. 24. Por que combinar? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Trabalhando com M´ ultiplos N´ıveis de Dispersão . . . . . . . . . . . . . .. viii. 24 26.

(11) ´ SUMARIO. ix. Cap´ıtulo 4—Experimentos. 32. 4.1. Introdu¸caõ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 32. 4.2 4.3. Bases de Dados . . . . . . . . . . . Metodologia . . . . . . . . . . . . . 4.3.1 Os Parâmetros dos Modelos Resultados Experimentais . . . . .. 32 35 35 37. 4.4. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. Cap´ıtulo 5—Aplica¸c˜ ao em Deteçc˜ ao de D´ıgitos Conectados. 44. 5.1. Introdu¸caõ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 44. 5.2 5.3 5.4 5.5. Descri¸caõ da Base . . . . . . . . . . . . . . . . Extra¸caõ de Caracter´ısticas . . . . . . . . . . Tratamento dos Dados . . . . . . . . . . . . . Avalia¸cão do Desempenho com Curvas ROC . 5.5.1 Defini¸caõ dos Limiares de Classifica¸caõ. . . . . .. 44 47 49 52 54. 5.6. Resultados Experimentais . . . . . . . . . . . . . . . . . . . . . . . . . .. 55. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. Cap´ıtulo 6—Conclus˜ oes 6.1 6.2 6.3 6.4. Introdu¸caõ . . . . . . . . . . . A Análise das Técnicas . . . . Contribui¸cões deste Trabalho Próximos Passos... . . . . . .. 63 . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. 63 63 64 65.

(12) LISTA DE FIGURAS. 2.1. 2.2. Simula¸cão da aplica¸caõ do algoritmo CNN sobre um mesmo conjunto original de dados gerando dois resultados distintos. Os elementos foram apresentados em ordem aleatória. . . . . . . . . . . . . . . . . . . . . . . . . Simula¸cão da aplica¸cão do método de Tomek Links. . . . . . . . . . . . .. 2.3 2.4. Fluxograma do SGP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Divisão de grupo no SGP. A seta representa a primeira componente principal. 22. 3.1 3.2. Simula¸cão de um problema do SGP utilizando dados artificiais 2-D. . . . Simula¸cão de um problema do SNPC: dependência dos protótipos iniciais.. 3.3 3.4 3.5. Arquitetura do modelo h´ıbrido: o SGP gera os protótipos iniciais e o SNPC faz o ajuste fino. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Grupos com diferentes n´ıveis de dispersão e volume. . . . . . . . . . . . . 28 Gaussianas representando as densidades das regiões em torno dos protótipos. 29. 3.6 3.7. Curvas de n´ıvel das densidades dos grupos. . . . . . . . . . . . . . . . . . Sobreposi¸caõ de curvas de n´ıvel e dados. . . . . . . . . . . . . . . . . . .. 30 30. 5.1 5.2 5.3. Base de D´ıgitos Manuscritos: exemplos. . . . . . . . . . . . . . . . . . . . Extra¸caõ de Caracter´ısticas: contagem de transi¸co˜es branco-preto. . . . . Extra¸caõ de Caracter´ısticas: obten¸cão dos picos da proje¸cão horizontal. .. 45 47 50. 5.4 5.5 5.6 5.7. Imagens com dimensões extremas. . . Amostra dos Dados. . . . . . . . . . Curva ROC. . . . . . . . . . . . . . . Desempenho dos métodos em fun¸cão. 51 52 53. . . . . . . do. . . . . . . . . . grau. . . . . . . do. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . desbalanceamento das. 8 9. 24 25. classes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 5.8 Curva ROC do K-NN, SGP1 e SGP2 para a base com as classes balanceadas. 60 5.9 Curva ROC do SNPC e da combina¸caõ SGP+SNPC para a base com as classes balanceadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5.10 Curva ROC do K-NN, SGP1 e SGP2 para a base com 30% de exemplos positivos.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . x. 61.

(13) LISTA DE FIGURAS. xi. 5.11 Curva ROC do SNPC e da combina¸caõ SGP+SNPC para a base com 30% de exemplos positivos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.12 Curva ROC do K-NN, SGP1 e SGP2 para a base com 10% de exemplos positivos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 62. 5.13 Curva ROC do SNPC e da combina¸caõ SGP+SNPC para a base com 10% de exemplos positivos.. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 62. 61.

(14) LISTA DE TABELAS. 2.1. Regra de Classifica¸cão do SNPC: Um Exemplo . . . . . . . . . . . . . . .. 3.1. Caracter´ısticas dos Grupos. Posi¸cão, Dispersão e Quantidade de Elementos. 29. 4.1 4.2. Glass: Distribui¸caõ de classes . . . . . . . . . . . . . . . . . . . . . . . . Satimage: Distribui¸caõ de classes . . . . . . . . . . . . . . . . . . . . . .. 34 34. 4.3 4.4 4.5 4.6. Lista de classes que sofrerão redu¸caõ no OSS . . . . . . . . . . . . . . . . Taxas de Erro de Classifica¸caõ dos Métodos Seletivos . . . . . . . . . . . Taxas de Erro de Classifica¸caõ dos Métodos de S´ıntese . . . . . . . . . . Quantidades de Protótipos e Redu¸cões Percentuais obtidas pelos Métodos. 37 38 39 40. 4.7. Seletivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Quantidades de Protótipos e Redu¸cões Percentuais obtidas pelos Métodos de S´ıntese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 40. Bases de D´ıgitos Com Classes Desbalanceads: N´ umero de exemplos e Probabilidades a Priori por Classe . . . . . . . . . . . . . . . . . . . . . . . .. 46. 5.2 5.3 5.4 5.5. D´ıgitos: Extra¸cão de Caracter´ısticas . . . . . . . . . Hiperparâmetros do SGP1 e do SGP2 . . . . . . . . Hiperparâmetros do SNPC . . . . . . . . . . . . . . Hiperparâmetros do Modelo H´ıbrido (SGP+SNPC). . . . .. 50 56 56 56. 5.6 5.7 5.8. Taxas de Erro de Classifica¸caõ na Base de D´ıgitos . . . . . . Quantidade de protótipos gerados para cada base de d´ıgitos. ´ Area sob a curva ROC calculada para base de 14000 d´ıgitos balanceadas. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . com classes . . . . . . .. 57 58. 5.1. xii. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. 17. 60.

(15) LISTA DE ABREVIATURAS. AUC . . . . . . . . . . . . . CNN . . . . . . . . . . . . . DEL . . . . . . . . . . . . . DROP1 . . . . . . . . . .. Area Under ROC Curve Condensed Nearest Neighbor Rule Decremental Encoding Length Decremental Reduction Optimization Procedure 1. LVQ . . . . . . . . . . . . . NCR . . . . . . . . . . . . . NPC . . . . . . . . . . . . . OLVQ . . . . . . . . . . .. Learning Vector Quantization Neighborhood Cleaning Rule Nearest Prototype Classification Optimized-learning-rate LVQ. OSS . . . . . . . . . . . . . PRS . . . . . . . . . . . . . ROC . . . . . . . . . . . . . SGP . . . . . . . . . . . . .. One-Sided Selection Prototype Reduction Schemes Receiver Operating Characteristc Self-Generating Prototypes. SNPC . . . . . . . . . . . Soft Nearest Prototype Classification. xiii.

(16) CAPÍTULO 1. ˜ INTRODUC ¸ AO. 1.1. ˜ MOTIVAC ¸ AO. Para o problema de classifica¸caõ de padrões muitos trabalhos têm sido desenvolvidos com o objetivo de se conseguir melhores taxas de acerto utilizando as mais diversas estratégias. As estratégias baseadas em protótipos têm sido bastante utilizadas em aplica¸co˜es reais e comerciais nos mais diversos dom´ınios [KO03]. Como exemplo podem ser citados reconhecimento de caracteres, biometria, pesquisa forense e minera¸caõ de dados. Apesar de serem, em geral, simples, bons resultados têm sido obtidos. Contudo, tais métodos requerem uma grande quantidade de exemplos para se conseguir uma boa capacidade de generaliza¸cão e, conseq¨ uentemente, obter uma boa taxa de acerto. Outra caracter´ıstica de muitos dos modelos dispon´ıveis na literatura que mostraram bons resultados, é a existência de parâmetros fundamentais ao bom funcionamento do classificador [SBO03] [Koh86]. A quantidade de protótipos por classe, o posicionamento inicial destes protótipos e taxa de aprendizado são alguns destes parâmetros. A obten¸cão de tais parâmetros ótimos, ou seja, aqueles que levam aos melhores resultados, não é uma tarefa trivial. Por vezes isto envolve uma busca heur´ıstica que traz grande preju´ızo a performance do sistema. No sentido de se encontrar métodos mais eficientes quanto às taxas de acerto e à redu¸cão da quantidade de protótipos, muitos estudos vêm sendo apresentados em publica¸cões recentes [FHA07] [SBO03] [KO03]. Isto é a comprova¸cão da relevância do assunto no meio acadêmico, além de sugerir que possivelmente ainda há várias alternativas a serem descobertas. As estratégias de sele¸cão de protótipos podem ser separadas em dois grupos. O primeiro é dito seletivo e o conjunto de protótipos resultante é composto por elementos selecionados do conjunto original dos dados. A segunda categoria é a de s´ıntese de protótipos. Nesta os protótipos são criados artificialmente e posicionados geralmente segundo algum critério estat´ıstico e ajustados utilizando treinamento supervisionado. O treinamento representa uma sintonia fina na procura pelo conjunto de protótipos que melhor represente o espa¸co de busca do problema.. 1.

(17) 1.2 OBJETIVOS DO ESTUDO. 1.2. 2. OBJETIVOS DO ESTUDO. Resultados expressivos das técnicas de s´ıntese estudadas guiaram o rumo deste trabalho para esta classe de modelos. Dentre as técnicas de s´ıntese estudadas, o Soft Nearest Prototype Classification (SNPC) [SBO03] e o Self-Generating Prototypes (SGP) [FHA07] foram escolhidas como foco do estudo. Esta escolha foi guiada pelos bons resultados apresentados em seus respectivos artigos de introdu¸cão e por serem mais recentes. Outro aspecto motivador foi o fato destas técnicas apresentarem estratégias bem distintas entre si para obter o conjunto final de protótipos. Enquanto o SNPC utiliza composi¸cão de gaussianas para modelar o problema e o método do gradiente descendente para ajustar os protótipos, o SGP se ampara na auto-gera¸caõ introduzindo um algoritmo simples, rápido e que obtém o conjunto final de protótipos sem que haja interven¸cão humana para tal. Contudo, os estudos que serão mostrados no decorrer deste trabalho, apontaram pontos pass´ıveis de melhorias em ambas as técnicas. Partindo da premissa de se construir um modelo que seja fundamentado na abordagem de s´ıntese de protótipos e que supere as dificuldades apresentadas pelo SGP e pelo SNPC isoladamente, o objetivo do estudo foi o de analisar as propriedades destas duas técnicas e descobrir a melhor forma de agregar estas propriedades em um modelo h´ıbrido que, ao contrário do SNPC, não dependa de muitos parâmetros e que apresente maior acurácia que o SGP. Outro objetivo comuns aos esquemas de sele¸caõ de protótipos é obter um conjunto reduzido de protótipos que consiga representar bem os dados originais do problema. Desta forma, é também um dos focos deste estudo desenvolver um método h´ıbrido que leve ao menor conjunto de protótipos poss´ıvel sem abrir mão da precisão do classificador. 1.3. ˜ ESTRUTURA DA DISSERTAC ¸ AO. Este trabalho está estruturado em seis cap´ıtulos. Este primeiro cap´ıtulo foi dedicado à contextualiza¸cão do problema e a motiva¸caõ do estudo. Foram apontados alguns dos aspectos que indicaram a necessidade de elabora¸caõ de um modelo h´ıbrido envolvendo duas das técnicas analisadas. O Cap´ıtulo 2 apresenta uma importante análise do estado da arte no tópico “sele¸caõ de protótipos”. Este cap´ıtulo inicia-se apresentando uma taxonomia e a segrega¸caõ das classes dos métodos promovidas por ela. Tal taxonomia foi estabelecida em [KO03] e utiliza a natureza da estratégia de sele¸cão como critério de segrega¸caõ. Depois, são apresentadas e analisadas, quanto aos seus problemas e virtudes, várias técnicas: algumas.

(18) ˜ 1.3 ESTRUTURA DA DISSERTAC ¸ AO. 3. clássicas e outras com registros de introdu¸caõ na literatura recentes. O objetivo deste cap´ıtulo é apresentar em maior destaque as técnicas que servirão de base para concep¸cão do modelo h´ıbrido. O Cap´ıtulo 3 apresenta claramente os fatores que justificarão a concep¸caõ de um modelo h´ıbrido. Para tal foram realizadas simula¸co˜es com dados artificiais de duas dimensões tornando mais clara a visualiza¸caõ de alguns problemas do SGP e do SNPC. Ainda na primeira se¸cão deste cap´ıtulo, é introduzida a arquitetura do método proposto. Na Se¸caõ 3.2 é introduzida uma estratégia que determina diferentes n´ıveis de dispersão para os agrupamentos formados. Novas simula¸cões e gráficos de densidade mostram as melhorias obtidas com esta técnica. Os próximos cap´ıtulos são dedicados à avalia¸caõ do modelo h´ıbrido proposto. No Cap´ıtulo 4 será avaliado o desempenho do modelo utilizando as bases dos repositórios Proben1 [Pre94] e UCI [AN07]. Estes repositórios são considerados benchmarks de aprendizagem de máquina. As bases foram concebidas de problemas do mundo real e estão distribu´ıdas nos mais diversos dom´ınios. O desempenho do modelo h´ıbrido é comparado com as técnicas seletivas e de s´ıntese estudas e com o SGP e o SNPC. No referido cap´ıtulo, as bases utilizadas são brevemente descritas, a metodologia é apresentada e os resultados são comentados. No Cap´ıtulo 5 é apresentado um estudo da aplica¸cão do modelo proposto ao problema de segmenta¸caõ de d´ıgitos manuscritos. Neste cap´ıtulo são mostrados os resultados dos experimentos realizados Por fim, o Cap´ıtulo 6 apresenta as conclusões deste trabalho, elencando suas contribui¸cões e apontando o rumo dos estágios evolutivos do modelo proposto..

(19) CAPÍTULO 2. ESTADO DA ARTE. 2.1. ˜ DE PROTOTIPOS ´ SELEC ¸ AO. Sele¸cão de Protótipos é uma técnica que visa a obten¸cão de instâncias representativas dos dados do problema em mãos. Tais instâncias são chamadas de protótipos. A obten¸caõ destes protótipos, além promover a redu¸caõ dos dados, também tem por objetivo tornar mais clara a separa¸caõ entre as classes do problema. Em geral, a idéia é reduzir a quantidade de dados e ainda assim obter um conjunto de protótipos que minimize o erro de classifica¸cão. A classifica¸cão pode ser realizada pela estratégica que considera os protótipos mais próximos, já bastante conhecida na literatura por Nearest Prototype Classification (NPC). Kim e Oommen [KO03] mostram uma categoriza¸cão para os métodos de redu¸caõ dos dados. Uma delas é puramente seletiva e nela o conjunto resultante do processo é totalmente composto por elementos selecionados do conjunto original. Na outra classe de métodos, novos elementos são criados durante o processo de redu¸cão oriundos da combina¸cão de elementos do conjunto original de dados ou pelo ajuste realizado por treinamento supervisionado. Para esta segunda classe, Kim e Oommen (2003) adotaram o termo “creative”. Aqui, adotou-se o termo modelos de protótipos sintéticos. Pensa-se que a s´ıntese expressa melhor a idéia geral destes modelos. Várias técnicas de redu¸caõ já foram propostas e avaliadas. Wilson e Martinez [WM00] apresentam uma análise de várias técnicas de redu¸caõ comparando suas performances em 31 diferentes tarefas de classifica¸cão e propõem também um conjunto de seis algoritmos (DROP1-DROP5 e DEL) mais robustos quanto à presen¸ca de ru´ıdos nos dados. Batista et al. [BPM04] aplicaram as técnicas de redu¸caõ de instâncias Tomek Links [Tom76], Condensed Nearest Neighbor Rule (CNN) [Har68], One-Sided Selection (OSS) [KM97] e Neighborhood Cleaning Rule (NCR) [Lau01] como uma alternativa de solu¸caõ para o problema de classes desbalanceadas. Uma das vantagens das técnicas baseadas em protótipos é a redu¸caõ da demanda de espa¸co para armazenamento e de recursos computacionais para classifica¸cão. Ao contrário, por exemplo, do K-NN [CH67] no qual todos os elementos do conjunto de 4.

(20) ˜ DE PROTOTIPOS ´ 2.1 SELEC ¸ AO. 5. dados são comparados na tarefa de classifica¸caõ, apenas os protótipos já devidamente ajustados serão utilizados. Isto torna o método mais eficiente em termos computacionais. Nesta tarefa de classifica¸caõ por NPC, um dos métodos mais populares de treinamento é a aprendizagem por quantiza¸cão vetorial (Learning Vector Quantization - LVQ) introduzida por Kohonem [Koh86]. A partir de um conjunto inicial de protótipos aplica-se um algoritmo supervisionado que realiza o ajuste destes protótipos com a finalidade de aproximar as fronteiras de classifica¸caõ. Uma desvantagem deste modelo é a presen¸ca de heur´ıstica na estratégia da sele¸caõ. Isto dificulta a cria¸caõ de um processo de otimiza¸caõ. Foram propostos alguns modelos [KLJ91] [MK94] que objetivaram melhorar o desempenho do algoritmo LVQ tradicional. Estes associaram fun¸cões discriminantes e de custo ao treinamento, porém, ainda de forma heur´ıstica. Para superar as dificuldades de se estimar a fun¸cão discriminante e estabelecer uma otimiza¸cão baseada no gradiente descendente da fun¸caõ de custo, Seo et al. [SBO03] propuseram o modelo Soft Nearest Prototype Classification (SNPC). Este método combina um ansatz 1 expl´ıcito para a fun¸caõ densidade de probabilidade das classes com um critério para sele¸cão que minimiza a taxa de erro de classifica¸caõ. A ado¸caõ expl´ıcita da densidade torna o modelo facilmente adaptável para outras distribui¸co˜es. Este modelo pode ser considerado uma deriva¸caõ do LVQ que possui a vantagem de poder ser facilmente adaptado através das altera¸co˜es de parâmetros como a medida de distância utilizada e a fun¸caõ discriminante. A estratégia de classifica¸cão é inspirada na teoria Bayesiana e utiliza o critério máxima probabilidade a posteriori na constru¸cão das fronteiras de classifica¸cão. Contudo, o SNPC ainda apresenta uma desvantagem relevante: os parâmetros do modelo. Tais parâmetros estão diretamente ligados ao sucesso do método e precisam ser estudados a cada nova aplica¸cão da técnica em um diferente problema. Análises já realizadas da implementa¸cão deste método mostram que chegar aos melhores parâmetros para um determinado problema pode ser uma atividade bastante custosa. Uma abordagem baseada em auto-gera¸caõ foi proposta por Fayed et al. [FHA07]. Este modelo é o Self-Generating Prototypes (SGP). A principal vantagem deste método é a ausência de parâmetros. Durante a fase de treinamento os protótipos vão sendo gerados sob demanda sem a interven¸caõ humana. Além disto, o modelo é bem simples e menos custoso quanto ao esfor¸co computacional. Quando analisados sob um mesmo problema de reconhecimento de caracteres, o SPG e o SNPC obtiveram taxas de acerto bem próximas. A 1´. E uma expressão matemática assumida para descrever um determinado fenômeno sem que haja uma prova que justifique seu uso. Sua obten¸cão é geralmente realizada de forma emp´ırica..

(21) 2.2 CONDENSED NEAREST NEIGHBOR RULE. 6. diferen¸ca é que a quantidade de protótipos do conjunto resultante do SGP é em torno de 6 vezes maior que aquela obtida com SNPC. Isto é um fato motivador para a busca de uma alternativa que diminua esta quantidade de protótipos sem prejudicar a performance do classificador. As próximas se¸co˜es apresentam em mais detalhes alguns dos métodos citados acima. São mostradas as principais caracter´ısticas dos modelos e propriedades já discutidas em outros trabalhos. São apresentados também algoritmos e o formalismo matemático de alguns modelos. Compara¸co˜es e análises mais detalhadas trazem subs´ıdios para a cria¸caõ de um modelo h´ıbrido que consiga compilar algumas das principais virtudes dos métodos estudados. Na classe dos modelos puramente seletivos são apresentados o CNN, o Tomek Links e o OSS. O LVQ, o SNPC e o SGP são os modelos de protótipos sintéticos que são apresentados a seguir. Em virtude da maior relevância desta classe de modelos para o trabalho proposto, estes três modelos serão apresentados em mais detalhes que aqueles puramente seletivos. 2.2. CONDENSED NEAREST NEIGHBOR RULE. O Condensed Nearest Neighbor Rule (CNN) foi introduzido por Peter E. Hart [Har68] como uma proposta de esquema de redu¸caõ de dados buscando encontrar o menor conjunto consistente em rela¸cão ao conjunto original. Defini¸ c˜ ao 2.1 (Conjunto Consistente). Seja S um conjunto de dados. R é dito consistente em rela¸cão a S, se todos os elementos de S são classificados corretamente pelos elementos de R utilizando a regra do vizinho mais próximo (1-NN). R também é comumente chamado de conjunto de referência. O Algoritmo 1 mostra como o CNN tenta chegar ao menor subconjunto consistente com os dados originais. A aplica¸caõ do CNN provoca uma elimina¸caõ dos elementos mais afastados das fronteiras de classifica¸caõ priorizando assim a manuten¸cão daqueles elementos nas regiões de d´ uvida. As caracter´ısticas deste algoritmo o tornam significativamente sens´ıvel a ru´ıdos. Quando aplicado a bases com um elevado grau de overlapping, as fronteiras de classifica¸cão tornam-se ainda mais enfraquecidas. Um detalhe importante que deve ser observado é que esta estratégia garante apenas a gera¸cão de um subconjunto consistente. Contudo, não há garantia de que o conjunto é o menor poss´ıvel. O conjunto resultante depende da ordem da apresenta¸caõ dos elementos do conjunto original. Isto foi mostrado em [Das94] e pode ser melhor visualizado na Fi-.

(22) 7. 2.3 TOMEK LINKS. Algoritmo CNN Ent S: conjunto de dados original Sa´ıda R: subconjunto consistente de S 1 adicione em R um elemento de cada classe de S escolhido aleatoriamente 2 enquanto R for modificado fa¸ ca 3 para cada s em S fa¸ ca 4 classifique s utilizando 1-NN nos elementos do conjunto R 5 se s for classificado incorretamente ent˜ ao 6 R ← R ∪ {s} 7 fim se 8 fim para 9 fim enquanto fim Algoritmo 1 Algoritmo do CNN.. gura 2.1. Na Figura 2.1(b), o conjunto consistente tem 21 elementos. Já na Figura 2.1(c), obtido com uma nova execu¸cão do CNN sobre o conjunto original, tem apenas 12 elementos. Isto comprova que o processo não é determin´ıstico e que não há garantia de obten¸cão do menor conjunto consistente. Quando aplicado na solu¸cão do problema de classes desbalanceadas, uma pequena adapta¸cão é feita no algoritmo. Ao invés do conjunto inicial conter apenas um elemento de cada classe, ele é criado com todos os elementos das classes minoritárias e apenas um elemento de cada uma das classes que sofrerão o undersampling. Isto garante que os conjuntos minoritários não sofrerão redu¸caõ durante o processo de obten¸caõ do conjunto consistente. Outra caracter´ıstica deste método é que o mesmo teve sua constru¸caõ voltada para a classifica¸cão que utiliza a estratégia do vizinho mais próximo. Contudo, o ideal é conseguir padrões que sejam representativos também para outras técnicas de classifica¸cão. 2.3. TOMEK LINKS. Tomek links foi introduzido por Tomek [Tom76] trazendo modifica¸cões às idéias do CNN. A proposta é estimular a maior separa¸cão entre as classes promovendo uma remo¸cão dos elementos que fossem candidatos a ru´ıdos ou estivessem na fronteira. Com esta estratégia o conjunto resultante teria melhor definidas suas fronteiras em rela¸cão àqueles obtidos pelo CNN. Defini¸ c˜ ao 2.2 (Tomek Link). Sejam ei e ej elementos do conjunto de treinamento E.

(23) 8. 2.4 ONE-SIDED SELECTION. 7. 7. 7. Classe 1 Classe 2. Classe 1 Classe 2. Classe 1 Classe 2. 6. 6. 6. 5. 5. 5. 4. 4. 4. 3. 3. 3. 2. 2. 400 padrões. 1. 0. 0. 1. 2. 3. 4. 5. 6. 2. 21 padrões. 1. 7. (a) Conjunto original. 0. 0. 1. 2. 3. 4. 5. 6. (b) Conjunto resultante 1. 12 padrões. 1. 7. 0. 0. 1. 2. 3. 4. 5. 6. 7. (c) Conjunto resultante 2. Figura 2.1 Simula¸cão da aplica¸cão do algoritmo CNN sobre um mesmo conjunto original de dados gerando dois resultados distintos. Os elementos foram apresentados em ordem aleatória.. pertencentes a classes distintas e d(ei , ej ) a distância entre ei e ej - este conceito pode ser estendido aos demais elementos de E. ei e ej formam um Tomek Link se, e somente se: {∀ k. @ek ∈ E. | d(ei , ek ) < d(ei , ej ) ∨ d(ej , ek ) < d(ei , ej )}.. A exemplo do CNN, a idéia desta técnica é bem simples. Consiste em varrer o conjunto de dados procurando pares que formam Tomek Links. Após encontrar todos os Tomek Links deve-se removê-los do conjunto de dados. A Figura 2.2 ilustra o funcionamento desta técnica. Na Figura 2.2(a) são exibidos todos os elementos das duas classes do exemplo. Na Figura 2.2(b) aparecem marcados em negro todos os pares de elementos que formam Tomek Links. A Figura 2.2(c) mostra o conjunto de dados resultante da elimina¸cão dos Tomek Links. Enquanto que o CNN promove uma elimina¸cão drástica dos elementos que estão mais afastados das fronteiras de classifica¸cão, o método Tomek Links corre em dire¸caõ contrária: os elementos próximos das regiões de d´ uvida são eliminados, causando o aparente afastamento das classes. Tomek Links também pode ser aplicado como estratégia de redu¸caõ das classes majoritárias em problemas desbalanceados. Neste caso, diferentemente do que ocorre no processo convencional em que o par inteiro é removido, aqui a remo¸caõ é feita apenas dos elementos formadores dos Tomek Links que pertencem às classes majoritárias. 2.4. ONE-SIDED SELECTION. Este método foi introduzido por Kubat e Matwin [KM97] como uma proposta voltada exclusivamente para a melhoria dos classificadores em dom´ınios desbalanceados. Este método promove a suaviza¸caõ dos n´ıveis de desbalanceamento combinando CNN e Tomek.

(24) 9. 2.5 LEARNING VECTOR QUANTIZATION. 7. 7. 7. Classe 1 Classe 2. Classe 1 Classe 2. Classe 1 Classe 2. 6. 6. 6. 5. 5. 5. 4. 4. 4. 3. 3. 3. 2. 2. 2. 1. 1. 1. 0. 0. 0. 1. 2. 3. 4. 5. 6. (a) Conjunto original. 7. 0. 1. 2. 3. 4. 5. (b) Tomek Links. 6. 7. 0. 0. 1. 2. 3. 4. 5. 6. 7. (c) Conjunto reduzido. Figura 2.2 Simula¸cão da aplica¸c˜ ao do método de Tomek Links.. Links para realizar redu¸cão apenas na classe majoritária. Isto explica o seu nome. Como citado anteriormente, a aplica¸caõ do método Tomek Links tem a fun¸cão de remover ru´ıdos e elementos nas fronteiras de classifica¸caõ. Elementos nas fronteiras são indesejados, visto que mesmo pequenas perturba¸co˜es durante o treinamento do classificador podem gerar instabilidade e aumentar o erro nesta região de classifica¸caõ. Por outro lado, o CNN busca eliminar os padrões que estão distantes da fronteira de classifica¸cão. Tais elementos podem ser considerados redundates e por esta razão irrelevantes para o classificador. Ao término do processo, os padrões restantes da classe majoritária e todos os padrões da classe minoritária são utilizados no aprendizado. Com esta estratégia, o OSS promove a cria¸cão de um conjunto O Algoritmo 2 descreve os passos do One-Sided Selection. Como pode ser visto, este algoritmo foi escrito para um problema de duas classes. Contudo, sua adapta¸caõ para um problema multi-classes é simples. As mesmas regras de redu¸caõ aplicadas à classe majoritária podem ser estendidas a um conjunto de classes nas quais se deseja realizar redu¸cão. Estas são três das técnicas puramente seletivas mais tradicionais. As próximas a serem apresentadas produzem protótipos e desta forma pertencem à categoria de s´ıntese. 2.5. LEARNING VECTOR QUANTIZATION. Learning Vector Quantization (LVQ) [Koh86] é um dos métodos mais populares para treinamento de classificadores por protótipos mais próximos (NPC). Neste tipo de classificador, cada classe é representada por um conjunto de vetores de caracter´ısticas distribu´ıdos ´ um classificapelo espa¸co de classifica¸cão. Tais vetores são denominados “protótipos”. E dor que utiliza a estratégia de aproxima¸caõ local, mas que diferentemente do K-NN, por exemplo, ao invés de usar todo o conjunto de dados, o NPC utiliza apenas as informa¸cões.

(25) 2.5 LEARNING VECTOR QUANTIZATION. 10. Algoritmo OSS Ent S: conjunto de dados original Sa´ıda R: subconjunto de S 1 adicione em R todos os elementos da classe minorit´ aria de S e apenas um da classe majoritária escolhido aleatoriamente 2 enquanto R for modificado fa¸ ca 3 para cada s em S fa¸ ca 4 classifique s utilizando 1-NN nos elementos do conjunto R 5 se s for classificado incorretamente ent˜ ao 6 R ← R ∪ {s} 7 fim se 8 fim para 9 fim enquanto 10 encontre todos os Tomek Links 11 elimine de R todos os elementos da classe majorit´ aria participantes de Tomek Links fim Algoritmo 2 Algoritmo One-Sided Selection.. dos protótipos para predizer a classe de um novo elemento submetido ao classificador. Isto torna a tarefa de classifica¸caõ computacionalmente menos custosa. Por esta razão, bons resultados dependem da qualidade do conjunto de protótipos escolhidos. O LVQ é um método para fazer ajustes destes protótipos de forma a reduzir o erro de classifica¸caõ. A partir de um conjunto inicial de protótipos aplica-se um algoritmo supervisionado que promove o reposicionamento destes protótipos com a finalidade de melhor ajustá-los às fronteiras de classifica¸caõ. As próximas subse¸cões apresentam o LVQ em cada uma das varia¸co˜es propostas por Kohonen. São enfatizadas as regras de ajustes dos protótipos e suas principais caracter´ısticas. Ainda nesta se¸cão é apresentada uma alternativa de melhoria para a performance do LVQ 1 - o OLVQ. Também é apresentada uma estratégia que evita a divergência no treinamento das versões mais refinadas do LVQ. 2.5.1. Modelo de Classifica¸c˜ ao. Comumente a classifica¸cão opera no modo “winner-takes-all” e a classe cx de um novo elemento ou padrão x apresentado é dada pela mesma do protótipo θq mais próximo a este, como na Equa¸caõ 2.1. O operador argmin aplicado a j retorna qual o ´ındice j que minimiza a expressão {kx − θj k}. Esta é uma forma de identificar o protótipo θq . Assim, a classe do protótipo de ´ındice q (cq ) será adotada para o padrão x..

(26) 11. 2.5 LEARNING VECTOR QUANTIZATION. (2.1). q = argmin{kx − θj k}. j. Conforme citado anteriormente, a obten¸caõ de uma boa taxa de classifica¸cão está intimamente ligada a um conjunto de protótipos que consiga representar bem as classes do problema. Quanto melhor eles conseguirem aproximar a distribui¸cão real das classes menor será o erro de classifica¸caõ segundo o critério mostrado na Equa¸caõ 2.1. Isto é obtido na fase de treinamento. O processo de treinamento se inicia a partir de um conjunto inicial de protótipos. Várias estratégias podem ser utilizadas para definir este conjunto. K-Means2 [Mac67] pode ser aplicado ao conjunto de treinamento classe a classe. Os centróides de cada agrupamento formado podem ser utilizados como os protótipos iniciais. Uma outra estratégia é selecionar elementos do conjunto de treinamento que são classificados corretamente segundo um outro critério de aproxima¸caõ local como o K-NN. Neste trabalho os protótipos iniciais são gerados artificialmente adicionando-se vetores aleatórios aos centróides de cada classe do conjunto de treinamento. Esta não é uma boa estratégia de inicializa¸cão quando as classes são multimodais, ou seja, elas possuem seus agrupamentos separados por agrupamentos de outras classes. A quantidade de protótipos por classe é geralmente determinada experimentalmente. 2.5.2. LVQ 1. As regras do primeiro modelo de aprendizado desenvolvido por Kohonen busca a minimiza¸cão do erro de classifica¸caõ por protótipo mais próximo da seguinte forma: para cada elemento x(t) de classe y do conjunto de treinamento apresentado ( θj (t + 1) =. θj (t) + α(t)[x(t) − θj (t)], θj (t) − α(t)[x(t) − θj (t)],. se se. cj = y cj 6= y. (2.2). θi (t + 1) = θi (t), ∀ i 6= j, sabendo que θj é o protótipo mais próximo de x(t), cj é a classe do protótipo θj e α(t) é a taxa de aprendizado e 0 < α(t) ≤ 1. Esta taxa de aprendizado pode ir decrescendo com a evolu¸cão do treinamento. Este tipo de varia¸cão da taxa de aprendizado é bem 2. O termo K-Means foi pela primeira vez usado na literatura por MacQueen [Mac67] baseado nas idéias de Steinhaus [Ste56]. O primeiro algoritmo foi proposto por Stuart P. Lloyd em 1957 como uma técnica para PCM. Contudo, este estudo só foi publicado muitos anos depois [Llo82].

(27) 12. 2.5 LEARNING VECTOR QUANTIZATION. comum neste tipo de treinamento. Inicialmente ela é definida com um valor alto para acelerar o treinamento e depois vai decrescendo objetivando a estabilidade do processo e a convergência do método. Com a análise da Equa¸caõ 2.2 pode-se facilmente perceber que para cada elemento x(t) do conjunto de treinamento apresentado durante o processo de aprendizado apenas um protótipo sofrerá a influência da apresenta¸caõ deste - aquele que estiver mais próximo do elemento de entrada x(t). O efeito da heur´ıstica presente nestas regras é aproximar este protótipo de x(t) se ambos pertencerem a mesma classe e afastá-lo, caso contrário. Todos os outros protótipos permanecem inalterados. Isto sugere que o treinamento pode não ser tão rápido. 2.5.3. Optimized-learning-rate LVQ. Normalmente o treinamento realizado como mostrado acima pode ser bastante demorado. As razões foram mostradas na se¸caõ anterior. Para acelerar este processo, Kohonem desenvolveu uma estratégia que utiliza uma taxa de aprendizado individual para cada protótipo. Este método foi chamado de Optimized-learning-rate LVQ (OLVQ). αj (t) =. αj (t − 1) . 1 + s(t)αj (t − 1). (2.3). A Equa¸caõ 2.3 personifica o parâmetro α(t) em rela¸cão a cada protótipo de ´ındice j. Nela, αj (t) representa a taxa de aprendizado aplicada no ajuste do protótipo θj no instante t. O fator de corre¸cão s(t) = 1 é considerado se x(t) é classificado corretamente e s(t) = −1, caso contrário. Como 0 < α(t) ≤ 1, o efeito que pode ser percebido pela ado¸caõ desta estratégia é a diminui¸cão da taxa de aprendizado se o protótipo está classificando corretamente e o aumento desta taxa na situa¸caõ inversa. Ou seja, para acelerar a convergência a estratégia é mexer menos aqueles protótipos que estão classificando bem e ajustar mais fortemente os que estão mal-posicionados. As regras de atualiza¸cão dos protótipos do OLVQ seguem aquelas estabelecidas no LVQ 1. 2.5.4. Regra da Janela. As versões que serão apresentadas a seguir mostram que, diferentemente do LVQ1, os dois protótipos mais próximos (θi e θj ) serão ajustados em cada passo do treinamento. Para minimizar o risco de divergência do método, foi introduzida a regra da janela. Assim,.

(28) 13. 2.5 LEARNING VECTOR QUANTIZATION. apenas haverá ajuste quando o elemento x(t) apresentado cair numa região de indecisão definida pela equa¸cão µ min. di dj , dj di. ¶ > h,. com h =. 1−w 1+w. (2.4). sendo que di e dj são respectivamente as distâncias de x(t) a θi e de x(t) a θj . Esta regra garante que apenas os elementos que estiverem posicionados próximos às fronteiras das regiões de Voronói [Aur91] provocarão ajustes. O novo parâmetro w é a largura relativa da janela e deve ser um valor no intervalo [0; 1]. 2.5.5. LVQ 2.1. Um efeito causado pela aplica¸cão do LVQ 1 é o afastamento dos protótipos das fronteiras das regiões de classifica¸caõ segundo a regra de Bayes [KKLT92]. Na tentativa de minimizar este efeito, o LVQ 2.1 atua mais sobre os protótipos vizinhos pertencentes a classes adjacentes. A regra é. θi (t + 1) = θi (t) + α(t)[x(t) − θi (t)] θj (t + 1) = θj (t) − α(t)[x(t) − θj (t)]. (2.5) (2.6). em que θi , θj são os protótipos mais próximos de x(t), com θi sendo da mesma classe de x(t) e θj de outra classe. Em resumo, encontram-se os dois protótipos mais próximos e realiza-se o ajuste apenas se um deles for da classe do elemento x(t) e o outro for de outra classe. Se os protótipos forem da mesma classe ou de classes distintas com nenhuma delas sendo a classe do elemento x(t), não há ajuste. A interpreta¸caõ para esta regra é de que caso esta u ´ltima situa¸caõ ocorra, x(t) é um forte candidato a ru´ıdo. Além destas restri¸cões, x(t) deve cair na região de janela definida pela Equa¸cão 2.4. Geralmente, o LVQ 2.1 não é utilizado sobre o conjunto inicial de protótipos, mas sim sobre um conjunto previamente ajustado pelo LVQ 1. Neste conjunto, o LVQ 2.1 realiza um ajuste fino em busca de maior precisão nos resultados de classifica¸cão..

(29) 14. 2.6 SOFT NEAREST PROTOTYPE CLASSIFICATION. 2.5.6. LVQ 3. A aplica¸cão do LVQ 2.1 pode sobreajustar os protótipos às fronteiras de classifica¸cão. Para conseguir uma maior proximidade com a distribui¸caõ real dos padrões das classes foi introduzido o LVQ 3. Os dois protótipos mais próximos (θi , θj ) do elemento de treinamento x(t) são encontrados. Se um e apenas um deles for da classe de x(t), então. θi (t + 1) = θi (t) + α(t)[x(t) − θi (t)] θj (t + 1) = θj (t) − α(t)[x(t) − θj (t)]. (2.7) (2.8). da mesma forma que é feito no LVQ 2.1. Porém aqui se os dois protótipos forem da classe de x(t), também haverá ajuste, mas este será ponderado por um fator de estabilidade ε (0 < ε < 1) como mostrado abaixo. θk (t + 1) = θk (t) − εα(t)[x(t) − θk (t)],. k ∈ {i, j}. (2.9). Não haverá ajuste apenas se os dois protótipos forem de classes diferentes daquela a qual pertence x(t) ou se o padrão x(t) cair fora da região de janela. Assim como o LVQ 1, o LVQ 3 também se estabiliza com a continuidade do treinamento. Assim como o LVQ 2.1, este é utilizado para melhorar os resultados de um conjunto de protótipos previamente ajustadas pelo LVQ 1 ou pelo treinamento h´ıbrido juntando o LVQ 1 e o LVQ 2.1, necessariamente nesta ordem [Koh86]. 2.6. SOFT NEAREST PROTOTYPE CLASSIFICATION. No modelo NPC, um novo padrão é identificado como sendo da classe do protótipo mais próximo a ele, operando assim no modo “winner-takes-all”. Operando desta forma, mesmo estando em uma região de fronteira, onde a indecisão é maior, os exemplos serão afetados apenas por uma classe - a do protótipo mais próximo. Não é levada em conta a influência que os demais vizinhos poderiam exercer sobre o elemento na tomada de decisão. O Soft Nearest Prototype Classification (SNPC) foi introduzido por Seo et al. [SBO03] com a proposta de melhorar a performance do NPC. A idéia foi construir formalmente um modelo que tornasse viável a minimiza¸cão do custo do classificador através de gradiente descendente. Isto criaria um processo de aprendizagem ausente da heur´ıstica carac-.

(30) 15. 2.6 SOFT NEAREST PROTOTYPE CLASSIFICATION. ter´ıstica do LVQ. Uma outra caracter´ıstica foi a utiliza¸cão de lógica fuzzy ao modelo a fim de suavizar as fronteiras de classifica¸cão e tornar a tomada de decisão um processo mais democrático que leve em conta a influência que cada protótipo exerce sobre um padrão no momento de classificá-lo. No SNPC, foram introduzidas atribui¸co˜es fuzzy de probabilidades aos padrões. No processo de aprendizado, para cada padrão do conjunto de treinamento é estabelecido o grau de pertinência do padrão em rela¸cão a todas as classes do modelo, que, por sua vez, são compostas por um ou mais protótipos. Uma vez que fica estabelecida a influência que cada protótipo exerce sobre o padrão, estes são ajustados proporcionalmente a ela. Uma vantagem surgida diretamente do emprego deste tipo de atribui¸caõ foi a minimiza¸cão do erro de classifica¸cão nas regiões de fronteira das classes. 2.6.1. A Fun¸c˜ ao de Custo e a Regra Geral de Aprendizado. Uma forma de avaliar a capacidade de generaliza¸caõ de um classificador é estabelecer uma fun¸caõ de custo. A Equa¸cão 2.10 pode ser adotada como fun¸cão de custo do NPC. N M 1 XX P (j|xk )(1 − δ(yk = cj )) E= N k=1 j=1. P (j|xk ) = δ(j = qk ). qk = argminkxk − θr k r. (2.10). N é o n´ umero de padrões do conjunto de treinamento, M é o n´ umero de protótipos, xk é um padrão, yk é a classe real de xk e cj é a classe do protótipo de ´ındice j. Tal protótipo será representado neste trabalho por θj . P (j|xk ) é a probabilidade associada de um padrão xk em rela¸caõ ao protótipo θj . Sendo γ uma expressão booleana, a fun¸caõ δ(γ) retorna 1 se γ for verdadeiro e 0 caso γ seja falsa. O operador argmin retorna a instância do objeto rotulado pelo operando sobrescrito que minimiza a expressão ao qual está aplicado. Neste caso, qk receberá o ´ındice do protótipo que se encontra mais próximo de xk . Avaliando esta equa¸caõ do ponto de vista do NPC, P (j|xk ) é 1 quando j é o ´ındice do protótipo mais próximo de xk e 0 nos outros casos. Portanto, pode-se observar que o custo se resume à razão do n´ umero de padrões classificados incorretamente sobre o total de padrões do conjunto de dados de treinamento. Com o objetivo de minimizar a fun¸caõ de custo da Equa¸caõ 2.10, o SNPC substitui a associa¸caõ r´ıgida de probabilidades do NPC por uma associa¸caõ fuzzy de probabilidades, cuja sua forma exponencial normalizada é.

(31) 16. 2.6 SOFT NEAREST PROTOTYPE CLASSIFICATION. P (j|x) =. exp (−d(x, θj )) M P. (2.11). exp (−d(x, θk )). k=1. com d(x, θj ) sendo uma medida de distância entre o padrão x e o protótipo θj . Foi justamente esta altera¸caõ que tornou viável a minimiza¸cão da fun¸cão de custo em rela¸cão às localiza¸co˜es dos protótipos utilizando gradiente descendente. As regras de ajustes dos protótipos no treinamento serão guiadas por este método. Isto também elimina a heur´ıstica presente na aprendizagem via quantiza¸caõ vetorial. O custo individual lsk de cada padrão xk do conjunto de treinamento é dado pela Equa¸caõ 2.12 e a nova fun¸cão de custo foi reescrita ( 2.13). lsk =. M X. P (j|xk ). (2.12). {j:cj 6=yk } N 1 X E= N k=1. M X. P (j|xk ). (2.13). {j:cj 6=yk }. Note que esta nova fun¸caõ de custo computa o custo total do sistema como a soma dos custos individuais de cada padrão do conjunto de treinamento. Olhando a Equa¸caõ 2.12, pode-se ver que o custo individual de um padrão xk é dado pela somas das probabilidades associadas de xk a todos os protótipos θj representantes das classes opostas. Ou seja, este custo representa a tendência do ponto xk ser classificado incorretamente. Quanto maior for este custo, mas próximo de ser incorretamente classificado este ponto estará. Diminuir o custo individual de cada elemento do conjunto de treinamento através do ajuste dos protótipos do classificador é o objetivo deste método e isto implica diretamente na redu¸caõ do erro de classifica¸caõ. Note que esta fun¸cão de custo é cont´ınua e que o custo individual está no intervalo [0; 1] e varia com o posicionamento dos protótipos θ. Por esta razão pode ser minimizado pelo gradiente descendente estocástico como na Equa¸caõ 2.14. Outro aspecto positivo desta nova abordagem é a baixa influência dos erros de classifica¸cão dos padrões localizados próximos às fronteiras de classifica¸caõ. Isto diminui a oscila¸cão dos protótipos e leva a uma convergência mais rápida. θl (t + 1) = θl (t) − α(t). ∂lst ∂θl. (2.14). Na Equa¸caõ 2.14, t indica o instante em que um padrão xt do conjunto de dados de treinamento é avaliado para produzir os ajustes dos protótipos. α(t) é a taxa de.

(32) 17. 2.6 SOFT NEAREST PROTOTYPE CLASSIFICATION. Tabela 2.1 Regra de Classifica¸c˜ ao do SNPC: Um Exemplo. θj cj P (j|xi ) M P P (j|xi ). θ1 θ2 1 1 0,05 0,05. θ3 1 0,35. θ4 θ5 2 2 0,25 0,30. 0,45. 0,55. {j:cj ={1,2}}. aprendizado com 0 < α(t) < 1. l varia de 1 a M e representa o ´ındice dos protótipos no instante t do treinamento em que o padrão xt é apresentado. A partir das Equa¸cões 2.14 e 2.13 foi poss´ıvel chegar a regra de aprendizado mostrada na Equa¸caõ 2.15 e sua prova formal pode ser vista em [SBO03].. θl (t + 1) = θl (t) − α(t)∆θl (t) ( t ,θl ) , se c = y P (l|xt )lst ∂d(x ∂θl ∆θl (t) = ∂d(xt ,θl ) −P (l|xt )(1 − lst ) ∂θl , se c 6= y. (2.15). Uma vez encerrado o processo de aprendizado e com os protótipos devidamente ajustados, um novo padrão xk pode ser classificado segundo a Equa¸cão 2.16. c = argmax c0. X {j:cj. P (j|xk ).. (2.16). =c0 }. A equa¸caõ acima mostra que a classifica¸cão é determinada pela classe cujos protótipos geraram a maior probabilidade de pertinência, e não apenas o protótipo mais próximo. Este fato torna a decisão mais democrática, como dito no in´ıcio desta se¸cão. A Tabela 2.1 ilustra com um exemplo o funcionamento da Equa¸caõ 2.16 que representa a regra de classifica¸caõ do SNPC. Esta tabela apresenta uma simula¸caõ em que um dado elemento xi foi submetido a um classificador de duas classes representado pelos protótipos θj com j = 1...5. A primeira linha da tabela exibe as classes dos protótipos. A linha logo abaixo mostra as probabilidades associadas do elemento xi em rela¸caõ a cada um dos protótipos do classificador. Por fim, na u ´ltima linha é exibida as probabilidades associadas ao elemento xi acumulada por classe. Neste exemplo, seguindo a regra de classifica¸cão estabelecida no SNPC, xi será classificado como pertencente a classe 2. Notase que, apesar do protótipo com maior probabilidade associada ao elemento xi ser θ3 (P (j = 3|xi ) = 0, 35) e pertencer a classe 1 , a decisão pela classe 2 se dá pelo fato da soma.

(33) 18. 2.6 SOFT NEAREST PROTOTYPE CLASSIFICATION. da probabilidades associadas de xi aos protótipos θ4 (P (j = 4|xi ) = 0, 25) e θ5 (P (j = M M P P 5|xi ) = 0, 30), que pertencem a classe 2, ser maior ( P (j|xi ) > P (j|xi )) que {j:cj =2}. {j:cj =1}. a soma das probabilidades associadas ao elemento xi dos protótipos da classe 1. Ou seja, a decisão não foi tomada apenas com base no protótipo mais próximo como na estratégia “winner-takes-all” utilizada no NPC, mas sim contabilizou o efeito sobre xi de todos os protótipos do classificador. 2.6.2. O Ansatz da Mistura de Gaussianas. Após ter chegado a um conjunto genérico de regras de aprendizado, Seo et al. [SBO03] assumiram que a fun¸cão densidade de probabilidade p(x) dos padrões poderia ser descrita por uma mistura de gaussianas em que cada gaussiana está centrada em um dos protótipos. Assim, a densidade de probabilidade pode ser escrita como: p(x) =. Ny X X. (2.17). p(x|j)P (j). c=1 {j:cj =c}. Ny é a quantidade de classes e cj é a classe dos padrões gerados pelo protótipo de ´ındice j (θj ). P (j) é a probabilidade a priori de que padrões tenham sido gerados pelo protótipo θj e p(x|j) é a probabilidade condicional de que este protótipo θj tenha gerado um padrão particular x. Para continuar a constru¸cão do modelo algumas considera¸cões foram realizadas. Inicialmente, em virtude do fato de classificadores NPC dependerem apenas da distância relativa entre os pontos e os protótipos, foi assumido que os protótipos geravam conjuntos de dados com a mesma variância (σj2 = σ 2 ), caracterizando um processo homocedástico, e que a probabilidade a priori P (j) era a mesma para todos os protótipos. Desta forma, P (j) = 1/M, ∀j = 1, ..., M , lembrando que M é o n´ umero de protótipos. Nestas condi¸co˜es, para um ansatz de mistura de Gaussianas D-dimensionais tem-se: Ã ! (x − θj )2 1 exp − p(x|j) = (2πσ 2 )D/2 2σ 2. (2.18). Utilizando a fórmula de Bayes chegou-se a expressão da probabilidade a posteriori para o modelo de misturas de Gaussianas adotado: ³ P (j|x) =. (x−θ )2 − 2σ2j. ´. exp p(x|j)P (j) ³ ´ =P M (x−θk )2 p(x) exp − k=1. 2σ 2. (2.19).

(34) 2.6 SOFT NEAREST PROTOTYPE CLASSIFICATION. 19. ´ válido notar que a Equa¸caõ 2.19 é um caso particular da Equa¸caõ 2.11 considerandoE se a medida de distância adotada (x − θj )2 d(x, θj ) = 2σ 2. (2.20). . Com estas considera¸co˜es, a aplica¸caõ do gradiente descendente deu origem às novas regras de aprendizado.. θl (t + 1) = θl (t) − α(t)∆θl (t) ( −P (l|xt )lst (xt − θl ), se c = y ∆θl (t) = P (l|xt )(1 − lst )(xt − θl ), se c 6= y. (2.21). Como dito anteriormente, ao contrário do LVQ onde no máximo dois protótipos são ajustados para cada apresenta¸caõ de um novo padrão xt do conjunto de treinamento no processo de aprendizagem, aqui todos os protótipos do classificador são ajustados. Aqueles protótipos que são da mesma classe de xt são aproximados deste padrão de forma proporcional à distância relativa ao padrão ponderada pelo fator P (l|xt )lst . Já os protótipos de classes diferentes daquela de xt são afastados proporcionalmente às suas ´ importante ressaltar distâncias ao padrão xt ponderadas pelo fator P (l|xt )(1 − lst ). E que, enquanto lst representa a probabilidade de erro de classifica¸cão para o padrão xt , (1 − lst ) representa a probabilidade de xt ser classificado corretamente. Com base nestas afirma¸cões, é fácil notar que nos cenários em que o custo (lst ) se apresentar alto, provavelmente no in´ıcio do treinamento, os protótipos serão levados mais rapidamente à um ajuste aos padrões do conjunto de treinamento que forem classificados corretamente. Obviamente, um fator que também impulsiona o ajuste é o grau de associa¸cão do padrão ao protótipo e que é indicado por P (l|xt ). Por exemplo, se P (l|xt ) para um dado ponto xt tiver um valor alto e a classe do protótipo θl for diferente da classe de xt , P (l|xt ) irá empurrar mais fortemente para longe de xt o protótipo θl . 2.6.3. A Regra da Janela. Seo et al. [SBO03] mostram que ∆θl (t) pode ser reescrito para ( ∆θl (t) =. −lst (1 − lst )Py (l|xt )(xt − θl ), se c = y lst (1 − lst )Py¯(l|xt )(xt − θl ), se c 6= y. (2.22).

(35) 20. 2.7 SELF-GENERATING PROTOTYPES. sabendo que. ³ exp. −θl )2 − (xt2σ 2. ´. ³ ´ (xt −θj )2 exp − 2 {j:cj =y} 2σ ³ ´ −θl )2 exp − (xt2σ 2 ³ ´ Py¯(l|xt ) = P (xt −θj )2 {j:cj 6=y} exp − 2σ 2 Py (l|xt ) = P. Observando a Equa¸caõ 2.22, nota-se o aparecimento do fator comum ls(1 − ls), cujas caracter´ısticas se enquadram bem com a idéia de janela mostrada no LVQ. Também é importante notar que este fator está limitado ao intervalo [0;0,25]. Isto pode ser facilmente compreendido visto que o 0 ≤ ls ≤ 1. A regra da janela foi então adaptada adotando-se um limiar 0 < η ≤ 0, 25 de forma que os protótipos sejam ajustados apenas se ls(1 − ls) > η. 2.7. SELF-GENERATING PROTOTYPES. Tanto o LVQ quanto o SNPC, assim como outros métodos de aprendizagem baseados em protótipos, são sens´ıveis ao posicionamento inicial dos protótipos, a quantidade de protótipos escolhida para representar as classes e a taxa de aprendizado. Chegar aos parâmetros que produzem o melhor resultado pode não ser tão simples e pode se tornar uma tarefa bastante custosa, pois implica na execu¸caõ exaustiva do treinamento combinando diferentes valores destes parâmetros. O Self-Generating Prototypes (SGP) [FHA07] tem a proposta de superar estes problemas. Este também é em esquema de cria¸caõ de protótipos. A principal vantagem deste modelo é que tanto o n´ umero de protótipos bem como suas localiza¸cões são obtidas durante o treinamento sem a interven¸caõ humana. Outra vantagem expl´ıcita do método é a simplicidade da sua estratégia de escolha dos protótipos. Inicialmente, os padrões pertencentes a uma mesma classe são agrupados e as médias dos padrões de cada grupo são adotadas como protótipos. Durante o treinamento, os grupos podem sofrer divisões, padrões trocam de grupos e, em algumas situa¸co˜es, grupos são fundidos como em um processo de poda. A Figura 2.3 mostra o fluxograma do SGP. As regras são as seguintes: Se para todos os padrões de um grupo, o protótipo mais próximo é o protótipo. deste grupo, nenhuma modifica¸cão é realizada; Se para todos os padrões de um grupo, o protótipo mais próximo é o de um grupo.

(36) 21. 2.7 SELF-GENERATING PROTOTYPES. Selecionar próximo grupo Início. Encontrar o protótipo mais próximo de cada ponto do grupo selecionado. Mover pontos. Inicializar grupos. Atualizar protótipos. não não. Criar protótipos. Para todos os pontos, o protótipo mais próximo é o protótipo do grupo?. não. Para todos os pontos, o protótipo mais próximo é de uma classe incorreta?. O critério de Parada foi alcançado? sim. Selecionar primeiro grupo. sim. sim Dividir o grupo. Fim do Treinamento. Figura 2.3 Fluxograma do SGP. de outra classe, o grupo é divido em dois subgrupos. A fronteira de separa¸caõ é o hiperplano H que passa pela média original do grupo e é perpendicular à primeira componente principal dos pontos do grupo original. O hiperplano pode ser criado usando H : {x|x − µx · γ1 = 0}; (2.23) x representa os pontos do grupo original, µx é a média deste grupo e γ1 é a primeira componente principal. Este passo pode ser visualizado na Figura 2.4. Esta situa¸caõ ocorre sempre que existe uma classe cujos elementos estão separados por um cluster de outra classe; Se para alguns padrões, o protótipo mais próximo é o de outro grupo, mas este. outro grupo é da mesma classe destes padrões, eles são migrados para este outro grupo; Se para alguns padrões, o protótipo mais próximo é de uma outra classe, estes. padrões formam um novo grupo e a sua média estabelece um novo protótipo. Em cada caso, no fim das opera¸cões a média é recalculada e os protótipos são ajustados para a nova média. O processo termina quando não houver mais modifica¸caõ nos grupos resultantes. Para evitar overfitting, Fayed et al. [FHA07] introduziram dois parâmetros no SGP. Estes parâmetros são o Rmin e o Rmis . Rmin estabelece um limiar para o tamanho m´ınimo de um grupo em rela¸caõ ao maior grupo de todos. Por exemplo, se Rmin for definido como 0,10 e o maior tiver 200 exemplos, todos os grupos com tamanhos menores do que.

(37) 2.7 SELF-GENERATING PROTOTYPES. 22. Figura 2.4 Divisão de grupo no SGP. A seta representa a primeira componente principal.. 20 (0, 10 × 200) são descartados. O segundo parâmetro (Rmis ) é um limiar para taxa de erro na classifica¸caõ dos elementos de um grupo pelo protótipo deste grupo. Neste contexto são considerados como erro de classifica¸caõ, todos os padrões do grupo em que o protótipo mais próximo não é protótipo do grupo, mas sim o protótipo de um grupo vizinho. Para tornar mais fácil a compreensão deste parâmetro, é preciso lembrar do processo de tratamento dos grupos pelo algoritmo do SGP. A cada passo todos os grupos são avaliados verificando-se os protótipos mais próximos dos elementos dos grupos. Para um determinado grupo, de acordo com a quantidade de elementos que forem classificados por protótipos de outros grupos, o grupo original é dividido ou os elementos classificados erroneamente são transferidos para outros grupos. O que este segundo parâmetro faz é estabelecer um limite para este n´ umero de elementos classificados incorretamente. Desta forma, se o n´ umero de elementos classificados incorretamente de um grupo dividido pelo tamanho deste grupo é menor do que Rmis , este grupo não será modificado. A utiliza¸caõ destes parâmetros promove a redu¸cão da quantidade de protótipos e melhora a capacidade de generaliza¸caõ do SGP. Com o objetivo de reduzir a quantidade de protótipos, pode ser aplicado um processo de fusão de grupos. Para dois grupos A e B serem unidos é necessário que eles sejam da mesma classe e que o segundo protótipo mais próximo dos elementos do grupo A seja o protótipo de B, e vice-versa. A união gera um novo grupo composto pelos elementos de A e B e a média deste conjunto será o novo protótipo. Uma vantagem desta estratégia de auto-gera¸cão reside no fato do algoritmo por si só produzir uma quantidade de protótipos possivelmente diferente por classe..

(38) 2.7 SELF-GENERATING PROTOTYPES. 23. Outra estratégia de redu¸caõ é o “pruning” (poda). Se para todos os padrões de um grupo o segundo protótipo mais próximo é o de um grupo da mesma classe, esse grupo com seu protótipo podem ser removidos. A versão básica do SGP não utiliza estes artif´ıcios de fusão e poda. No artigo original [FHA07] e neste trabalho, esta versão do algoritmo de treinamento é chamada de SGP1. O SGP2 é a versão otimizada e que utiliza fusão e poda..

(39) CAPÍTULO 3. ˜ DOS MODELOS AVALIAC ¸ AO. 3.1. POR QUE COMBINAR?. Apesar das suas qualidade, tanto o SGP quanto o SNPC apresentam aspectos que necessitam ser melhorados. O algoritmo SGP apresenta problemas quando aplicado a dom´ınios desbalanceados. Isto pode ser visto nos resultados dos experimentos com a base Thyroid do repositório de benchmarks Proben1 [Pre94] mostrados em [FHA07]. Neste exemplo o SGP reduziu o n´ umero de protótipos do classificador a apenas um protótipo. As classes da base Thyroid são bastante desbalanceadas. Por razões óbvias, o protótipo resultante foi da classe majoritária que corresponde em 92,6% dos exemplos. Porém, usando a estratégia tradicional do vizinho mais próximo e tendo como referência o conjunto de protótipos de um classificador, é imposs´ıvel resolver satisfatoriamente um problema de classifica¸cão de duas classes utilizando um u ńico protótipo. Como efeito disto, todos os exemplos das classes minoritárias foram classificados erroneamente. Uma situa¸cão similar é ilustrada na Figura 3.1 utilizando dados artificiais no espa¸co bidimensional. 1.8 Class 1 Class 2 Prototypes 1 Prototypes 2. 1.6. 1.4. 1.2. 1. 0.8. 0.6. 0.4. 0.5. 1. 1.5. 2. Figura 3.1 Simula¸cão de um problema do SGP utilizando dados artificiais 2-D.. A Figura 3.1 exibe uma simula¸cão que deixa evidente o comportamente não desejado do SGP. Nela são mostrados a distribui¸caõ dos padrões das classes e os protótipos 24.