• Nenhum resultado encontrado

Seleção de protótipos: combinando auto-geração de protótipos e mistura de gaussianas

N/A
N/A
Protected

Academic year: 2021

Share "Seleção de protótipos: combinando auto-geração de protótipos e mistura de gaussianas"

Copied!
84
0
0

Texto

(1)Universidade Federal de Pernambuco Centro de Inform´atica. P´os-gradua¸c˜ao em Ciˆencia da Computa¸c˜ao. ˜ DE PROTOTIPOS: ´ SELEC ¸ AO ˜ DE COMBINANDO AUTO-GERAC ¸ AO ´ PROTOTIPOS E MISTURA DE GAUSSIANAS Cristiano de Santana Pereira ˜ DE MESTRADO DISSERTAC ¸ AO. Recife 26 de Agosto de 2008.

(2) Universidade Federal de Pernambuco Centro de Inform´atica. Cristiano de Santana Pereira ˜ DE PROTOTIPOS: ´ ˜ SELEC ¸ AO COMBINANDO AUTO-GERAC ¸ AO ´ DE PROTOTIPOS E MISTURA DE GAUSSIANAS. Trabalho apresentado ao Programa de P´ os-gradua¸ c˜ ao em Ciˆ encia da Computa¸ c˜ ao do Centro de Inform´ atica da Universidade Federal de Pernambuco como requisito parcial para obten¸ c˜ ao do grau de. Mestre em Ciˆ encia da Com-. puta¸ c˜ ao.. Orientador: George Darmiton da Cunha Cavalcanti. Recife 26 de Agosto de 2008.

(3) Pereira, Cristiano de Santana Seleção de protótipos: combinando auto-geração de protótipos e mistura de gaussianas . / Cristiano de Santana Pereira . - Recife: O Autor, 2009. xiii, 68 folhas : fig., tab. Dissertação (mestrado) – Universidade Federal de Pernambuco. CIn. Ciência da Computação, 2009. Inclui bibliografia. 1. Inteligência artificial. máquina. I. Título. 006.32. CDD (22. ed.). 2. Aprendizagem de. MEI2009- 128.

(4)

(5) Para meus pais e minha Bela..

(6) AGRADECIMENTOS. Agrade¸co aos meus pais, por serem respons´aveis pela constru¸ca˜o do que eu sou hoje e por me acompanharem sempre em seus pensamentos e cora¸co˜es. Agrade¸co `a minha esposa, Bela, pelo amor, suporte emocional e apoio incondicional durante esta trajet´oria. Agrade¸co ao meu irm˜ao, Luciano, por ter me ensinado muito durante minha vida. Agrade¸co ao meu orientador, Professor George Darmiton, por ter acreditado em mim e por ter provido a ajuda necess´aria para realiza¸c˜ao deste trabalho. E, principalmente, agrade¸co a Deus por tudo.. iv.

(7) Um passo ` a frente e vocˆ e n˜ ao est´ a mais no mesmo lugar. —CHICO SCIENCE.

(8) RESUMO. Sele¸c˜ao de prot´otipos ´e uma t´ecnica de aprendizagem de m´aquina cujo objetivo ´e a escolha ou produ¸ca˜o de instˆancias de dados que consigam a melhor representa¸ca˜o para os dados do problema real¸cando as fronteiras de decis˜ao e mantendo a separa¸ca˜o entre as classes. A id´eia ´e reduzir a quantidade de dados e ainda assim obter um conjunto de prot´otipos que minimize o erro de classifica¸ca˜o. As estrat´egias baseadas em prot´otipos tˆem sido bastante utilizadas em aplica¸c˜oes reais nos mais diversos dom´ınios obtendo bons resultados. A proposta deste trabalho foi investigar t´ecnicas de sele¸c˜ao de prot´otipos baseadas em auto-gera¸ca˜o e mistura de gaussianas comparando com algumas t´ecnicas cl´assicas. Como resultado deste estudo, um modelo h´ıbrido combinando estas duas estrat´egias foi proposto. Este modelo h´ıbrido supera algumas dificuldades destas t´ecnicas quando analisadas isoladamente, pois eles combinam a vantagem da ausˆencia de parˆametros da auto-gera¸c˜ao com a maior capacidade de ajuste nas fronteiras de decis˜ao da mistura de gaussianas. O novo modelo foi avaliado com diversos problemas considerados benchmarks da ´area de aprendizagem de m´aquina apresentando desempenho superior na maioria deles quando comparado com as t´ecnicas de auto-gera¸c˜ao e mistura de gaussianas analisadas. A segunda parte deste trabalho apresenta um estudo da aplica¸ca˜o da nova estrat´egia h´ıbrida ao problema espec´ıfico de segmenta¸ca˜o de caracteres. Curvas ROC foram utilizadas para avaliar o desempenho e mais uma vez o modelo h´ıbrido se mostrou superior. Palavras-chave: Aprendizagem de m´aquina, sele¸ca˜o de prot´otipos, auto-gera¸ca˜o de prot´otipos, quantiza¸c˜ao vetorial, mistura de gaussianas.. vi.

(9) ABSTRACT. Prototype selection is a machine learning scheme in which the main purpose is to choose pattern vectors from the training dataset that achieve a better fit to data point distributions and maintain class separation. The aim of this kind of technique is to find the smallest possible prototype set that minimizes the classification error rate. Prototype-based strategies have been used at real-world applications in several domains and promising results have been achieved by these techniques. The purpose of this work was to investigate prototype selection schemes based on self-generating of prototypes and Gaussian mixtures comparing the performance with some classical prototype selection algorithms. The respective advantages and problems are discussed. Resulting of this study, a novel hybrid model combining self-generating and Gaussian mixtures was proposed. This hybrid model overcomes difficulties of the methods studied and improves accuracy. This model have few parameters and uses a Gaussian Mixture ansatz to describe the data point distributions and to better fit the prototypes to the classification boundaries. To evaluate the hybrid method, experiments were performed over real-world databases. These chosen databases have been a widely used benchmark in machine learning. The hybrid model achieved superior performance in terms of classification accuracy when compared to the other evaluated methods. The second part of this work presents an architecture for a system to detect handwritten connected digits using the hybrid method proposed here. Besides, a set of 12 numeric features was introduced. The experiments performed over a real-world handwritten digits dataset achieved very good accuracy rates. Keywords: Machine learning, prototype selection, self-generating prototypes, vector quantization, Gaussian mixtures, connected handwritten digits.. vii.

(10) ´ SUMARIO. Cap´ıtulo 1—Introdu¸c˜ ao 1.1 1.2 1.3. 1. Motiva¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Objetivos do Estudo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estrutura da Disserta¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . .. Cap´ıtulo 2—Estado da Arte. 1 2 2 4. 2.1 2.2. Sele¸ca˜o de Prot´otipos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Condensed Nearest Neighbor Rule . . . . . . . . . . . . . . . . . . . . . .. 2.3 2.4 2.5. Tomek Links . . . . . . . . . . . One-Sided Selection . . . . . . . Learning Vector Quantization . 2.5.1 Modelo de Classifica¸ca˜o. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. 7 8 9 10. LVQ 1 . . . . . . . . . . . . . Optimized-learning-rate LVQ Regra da Janela . . . . . . . . LVQ 2.1 . . . . . . . . . . . . LVQ 3 . . . . . . . . . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. 11 12 12 13 14. 2.6. Soft Nearest Prototype Classification . . . . . . . . . . . . 2.6.1 A Fun¸ca˜o de Custo e a Regra Geral de Aprendizado 2.6.2 O Ansatz da Mistura de Gaussianas . . . . . . . . . 2.6.3 A Regra da Janela . . . . . . . . . . . . . . . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. 14 15 18 19. 2.7. Self-Generating prototypes . . . . . . . . . . . . . . . . . . . . . . . . . .. 20. 2.5.2 2.5.3 2.5.4 2.5.5 2.5.6. . . . .. . . . .. 4 6. Cap´ıtulo 3—Avalia¸c˜ ao dos Modelos 3.1 3.2. 24. Por que combinar? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Trabalhando com M´ ultiplos N´ıveis de Dispers˜ao . . . . . . . . . . . . . .. viii. 24 26.

(11) ´ SUMARIO. ix. Cap´ıtulo 4—Experimentos. 32. 4.1. Introdu¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 32. 4.2 4.3. Bases de Dados . . . . . . . . . . . Metodologia . . . . . . . . . . . . . 4.3.1 Os Parˆametros dos Modelos Resultados Experimentais . . . . .. 32 35 35 37. 4.4. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. Cap´ıtulo 5—Aplica¸c˜ ao em Detec¸c˜ ao de D´ıgitos Conectados. 44. 5.1. Introdu¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 44. 5.2 5.3 5.4 5.5. Descri¸ca˜o da Base . . . . . . . . . . . . . . . . Extra¸ca˜o de Caracter´ısticas . . . . . . . . . . Tratamento dos Dados . . . . . . . . . . . . . Avalia¸c˜ao do Desempenho com Curvas ROC . 5.5.1 Defini¸ca˜o dos Limiares de Classifica¸ca˜o. . . . . .. 44 47 49 52 54. 5.6. Resultados Experimentais . . . . . . . . . . . . . . . . . . . . . . . . . .. 55. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. Cap´ıtulo 6—Conclus˜ oes 6.1 6.2 6.3 6.4. Introdu¸ca˜o . . . . . . . . . . . A An´alise das T´ecnicas . . . . Contribui¸c˜oes deste Trabalho Pr´oximos Passos... . . . . . .. 63 . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. 63 63 64 65.

(12) LISTA DE FIGURAS. 2.1. 2.2. Simula¸c˜ao da aplica¸ca˜o do algoritmo CNN sobre um mesmo conjunto original de dados gerando dois resultados distintos. Os elementos foram apresentados em ordem aleat´oria. . . . . . . . . . . . . . . . . . . . . . . . . Simula¸c˜ao da aplica¸c˜ao do m´etodo de Tomek Links. . . . . . . . . . . . .. 2.3 2.4. Fluxograma do SGP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Divis˜ao de grupo no SGP. A seta representa a primeira componente principal. 22. 3.1 3.2. Simula¸c˜ao de um problema do SGP utilizando dados artificiais 2-D. . . . Simula¸c˜ao de um problema do SNPC: dependˆencia dos prot´otipos iniciais.. 3.3 3.4 3.5. Arquitetura do modelo h´ıbrido: o SGP gera os prot´otipos iniciais e o SNPC faz o ajuste fino. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Grupos com diferentes n´ıveis de dispers˜ao e volume. . . . . . . . . . . . . 28 Gaussianas representando as densidades das regi˜oes em torno dos prot´otipos. 29. 3.6 3.7. Curvas de n´ıvel das densidades dos grupos. . . . . . . . . . . . . . . . . . Sobreposi¸ca˜o de curvas de n´ıvel e dados. . . . . . . . . . . . . . . . . . .. 30 30. 5.1 5.2 5.3. Base de D´ıgitos Manuscritos: exemplos. . . . . . . . . . . . . . . . . . . . Extra¸ca˜o de Caracter´ısticas: contagem de transi¸co˜es branco-preto. . . . . Extra¸ca˜o de Caracter´ısticas: obten¸c˜ao dos picos da proje¸c˜ao horizontal. .. 45 47 50. 5.4 5.5 5.6 5.7. Imagens com dimens˜oes extremas. . . Amostra dos Dados. . . . . . . . . . Curva ROC. . . . . . . . . . . . . . . Desempenho dos m´etodos em fun¸c˜ao. 51 52 53. . . . . . . do. . . . . . . . . . grau. . . . . . . do. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . desbalanceamento das. 8 9. 24 25. classes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 5.8 Curva ROC do K-NN, SGP1 e SGP2 para a base com as classes balanceadas. 60 5.9 Curva ROC do SNPC e da combina¸ca˜o SGP+SNPC para a base com as classes balanceadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5.10 Curva ROC do K-NN, SGP1 e SGP2 para a base com 30% de exemplos positivos.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . x. 61.

(13) LISTA DE FIGURAS. xi. 5.11 Curva ROC do SNPC e da combina¸ca˜o SGP+SNPC para a base com 30% de exemplos positivos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.12 Curva ROC do K-NN, SGP1 e SGP2 para a base com 10% de exemplos positivos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 62. 5.13 Curva ROC do SNPC e da combina¸ca˜o SGP+SNPC para a base com 10% de exemplos positivos.. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 62. 61.

(14) LISTA DE TABELAS. 2.1. Regra de Classifica¸c˜ao do SNPC: Um Exemplo . . . . . . . . . . . . . . .. 3.1. Caracter´ısticas dos Grupos. Posi¸c˜ao, Dispers˜ao e Quantidade de Elementos. 29. 4.1 4.2. Glass: Distribui¸ca˜o de classes . . . . . . . . . . . . . . . . . . . . . . . . Satimage: Distribui¸ca˜o de classes . . . . . . . . . . . . . . . . . . . . . .. 34 34. 4.3 4.4 4.5 4.6. Lista de classes que sofrer˜ao redu¸ca˜o no OSS . . . . . . . . . . . . . . . . Taxas de Erro de Classifica¸ca˜o dos M´etodos Seletivos . . . . . . . . . . . Taxas de Erro de Classifica¸ca˜o dos M´etodos de S´ıntese . . . . . . . . . . Quantidades de Prot´otipos e Redu¸c˜oes Percentuais obtidas pelos M´etodos. 37 38 39 40. 4.7. Seletivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Quantidades de Prot´otipos e Redu¸c˜oes Percentuais obtidas pelos M´etodos de S´ıntese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 40. Bases de D´ıgitos Com Classes Desbalanceads: N´ umero de exemplos e Probabilidades a Priori por Classe . . . . . . . . . . . . . . . . . . . . . . . .. 46. 5.2 5.3 5.4 5.5. D´ıgitos: Extra¸c˜ao de Caracter´ısticas . . . . . . . . . Hiperparˆametros do SGP1 e do SGP2 . . . . . . . . Hiperparˆametros do SNPC . . . . . . . . . . . . . . Hiperparˆametros do Modelo H´ıbrido (SGP+SNPC). . . . .. 50 56 56 56. 5.6 5.7 5.8. Taxas de Erro de Classifica¸ca˜o na Base de D´ıgitos . . . . . . Quantidade de prot´otipos gerados para cada base de d´ıgitos. ´ Area sob a curva ROC calculada para base de 14000 d´ıgitos balanceadas. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . com classes . . . . . . .. 57 58. 5.1. xii. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. 17. 60.

(15) LISTA DE ABREVIATURAS. AUC . . . . . . . . . . . . . CNN . . . . . . . . . . . . . DEL . . . . . . . . . . . . . DROP1 . . . . . . . . . .. Area Under ROC Curve Condensed Nearest Neighbor Rule Decremental Encoding Length Decremental Reduction Optimization Procedure 1. LVQ . . . . . . . . . . . . . NCR . . . . . . . . . . . . . NPC . . . . . . . . . . . . . OLVQ . . . . . . . . . . .. Learning Vector Quantization Neighborhood Cleaning Rule Nearest Prototype Classification Optimized-learning-rate LVQ. OSS . . . . . . . . . . . . . PRS . . . . . . . . . . . . . ROC . . . . . . . . . . . . . SGP . . . . . . . . . . . . .. One-Sided Selection Prototype Reduction Schemes Receiver Operating Characteristc Self-Generating Prototypes. SNPC . . . . . . . . . . . Soft Nearest Prototype Classification. xiii.

(16) CAP´ITULO 1. ˜ INTRODUC ¸ AO. 1.1. ˜ MOTIVAC ¸ AO. Para o problema de classifica¸ca˜o de padr˜oes muitos trabalhos tˆem sido desenvolvidos com o objetivo de se conseguir melhores taxas de acerto utilizando as mais diversas estrat´egias. As estrat´egias baseadas em prot´otipos tˆem sido bastante utilizadas em aplica¸co˜es reais e comerciais nos mais diversos dom´ınios [KO03]. Como exemplo podem ser citados reconhecimento de caracteres, biometria, pesquisa forense e minera¸ca˜o de dados. Apesar de serem, em geral, simples, bons resultados tˆem sido obtidos. Contudo, tais m´etodos requerem uma grande quantidade de exemplos para se conseguir uma boa capacidade de generaliza¸c˜ao e, conseq¨ uentemente, obter uma boa taxa de acerto. Outra caracter´ıstica de muitos dos modelos dispon´ıveis na literatura que mostraram bons resultados, ´e a existˆencia de parˆametros fundamentais ao bom funcionamento do classificador [SBO03] [Koh86]. A quantidade de prot´otipos por classe, o posicionamento inicial destes prot´otipos e taxa de aprendizado s˜ao alguns destes parˆametros. A obten¸c˜ao de tais parˆametros ´otimos, ou seja, aqueles que levam aos melhores resultados, n˜ao ´e uma tarefa trivial. Por vezes isto envolve uma busca heur´ıstica que traz grande preju´ızo a performance do sistema. No sentido de se encontrar m´etodos mais eficientes quanto `as taxas de acerto e `a redu¸c˜ao da quantidade de prot´otipos, muitos estudos vˆem sendo apresentados em publica¸c˜oes recentes [FHA07] [SBO03] [KO03]. Isto ´e a comprova¸c˜ao da relevˆancia do assunto no meio acadˆemico, al´em de sugerir que possivelmente ainda h´a v´arias alternativas a serem descobertas. As estrat´egias de sele¸c˜ao de prot´otipos podem ser separadas em dois grupos. O primeiro ´e dito seletivo e o conjunto de prot´otipos resultante ´e composto por elementos selecionados do conjunto original dos dados. A segunda categoria ´e a de s´ıntese de prot´otipos. Nesta os prot´otipos s˜ao criados artificialmente e posicionados geralmente segundo algum crit´erio estat´ıstico e ajustados utilizando treinamento supervisionado. O treinamento representa uma sintonia fina na procura pelo conjunto de prot´otipos que melhor represente o espa¸co de busca do problema.. 1.

(17) 1.2 OBJETIVOS DO ESTUDO. 1.2. 2. OBJETIVOS DO ESTUDO. Resultados expressivos das t´ecnicas de s´ıntese estudadas guiaram o rumo deste trabalho para esta classe de modelos. Dentre as t´ecnicas de s´ıntese estudadas, o Soft Nearest Prototype Classification (SNPC) [SBO03] e o Self-Generating Prototypes (SGP) [FHA07] foram escolhidas como foco do estudo. Esta escolha foi guiada pelos bons resultados apresentados em seus respectivos artigos de introdu¸c˜ao e por serem mais recentes. Outro aspecto motivador foi o fato destas t´ecnicas apresentarem estrat´egias bem distintas entre si para obter o conjunto final de prot´otipos. Enquanto o SNPC utiliza composi¸c˜ao de gaussianas para modelar o problema e o m´etodo do gradiente descendente para ajustar os prot´otipos, o SGP se ampara na auto-gera¸ca˜o introduzindo um algoritmo simples, r´apido e que obt´em o conjunto final de prot´otipos sem que haja interven¸c˜ao humana para tal. Contudo, os estudos que ser˜ao mostrados no decorrer deste trabalho, apontaram pontos pass´ıveis de melhorias em ambas as t´ecnicas. Partindo da premissa de se construir um modelo que seja fundamentado na abordagem de s´ıntese de prot´otipos e que supere as dificuldades apresentadas pelo SGP e pelo SNPC isoladamente, o objetivo do estudo foi o de analisar as propriedades destas duas t´ecnicas e descobrir a melhor forma de agregar estas propriedades em um modelo h´ıbrido que, ao contr´ario do SNPC, n˜ao dependa de muitos parˆametros e que apresente maior acur´acia que o SGP. Outro objetivo comuns aos esquemas de sele¸ca˜o de prot´otipos ´e obter um conjunto reduzido de prot´otipos que consiga representar bem os dados originais do problema. Desta forma, ´e tamb´em um dos focos deste estudo desenvolver um m´etodo h´ıbrido que leve ao menor conjunto de prot´otipos poss´ıvel sem abrir m˜ao da precis˜ao do classificador. 1.3. ˜ ESTRUTURA DA DISSERTAC ¸ AO. Este trabalho est´a estruturado em seis cap´ıtulos. Este primeiro cap´ıtulo foi dedicado `a contextualiza¸c˜ao do problema e a motiva¸ca˜o do estudo. Foram apontados alguns dos aspectos que indicaram a necessidade de elabora¸ca˜o de um modelo h´ıbrido envolvendo duas das t´ecnicas analisadas. O Cap´ıtulo 2 apresenta uma importante an´alise do estado da arte no t´opico “sele¸ca˜o de prot´otipos”. Este cap´ıtulo inicia-se apresentando uma taxonomia e a segrega¸ca˜o das classes dos m´etodos promovidas por ela. Tal taxonomia foi estabelecida em [KO03] e utiliza a natureza da estrat´egia de sele¸c˜ao como crit´erio de segrega¸ca˜o. Depois, s˜ao apresentadas e analisadas, quanto aos seus problemas e virtudes, v´arias t´ecnicas: algumas.

(18) ˜ 1.3 ESTRUTURA DA DISSERTAC ¸ AO. 3. cl´assicas e outras com registros de introdu¸ca˜o na literatura recentes. O objetivo deste cap´ıtulo ´e apresentar em maior destaque as t´ecnicas que servir˜ao de base para concep¸c˜ao do modelo h´ıbrido. O Cap´ıtulo 3 apresenta claramente os fatores que justificar˜ao a concep¸ca˜o de um modelo h´ıbrido. Para tal foram realizadas simula¸co˜es com dados artificiais de duas dimens˜oes tornando mais clara a visualiza¸ca˜o de alguns problemas do SGP e do SNPC. Ainda na primeira se¸c˜ao deste cap´ıtulo, ´e introduzida a arquitetura do m´etodo proposto. Na Se¸ca˜o 3.2 ´e introduzida uma estrat´egia que determina diferentes n´ıveis de dispers˜ao para os agrupamentos formados. Novas simula¸c˜oes e gr´aficos de densidade mostram as melhorias obtidas com esta t´ecnica. Os pr´oximos cap´ıtulos s˜ao dedicados `a avalia¸ca˜o do modelo h´ıbrido proposto. No Cap´ıtulo 4 ser´a avaliado o desempenho do modelo utilizando as bases dos reposit´orios Proben1 [Pre94] e UCI [AN07]. Estes reposit´orios s˜ao considerados benchmarks de aprendizagem de m´aquina. As bases foram concebidas de problemas do mundo real e est˜ao distribu´ıdas nos mais diversos dom´ınios. O desempenho do modelo h´ıbrido ´e comparado com as t´ecnicas seletivas e de s´ıntese estudas e com o SGP e o SNPC. No referido cap´ıtulo, as bases utilizadas s˜ao brevemente descritas, a metodologia ´e apresentada e os resultados s˜ao comentados. No Cap´ıtulo 5 ´e apresentado um estudo da aplica¸c˜ao do modelo proposto ao problema de segmenta¸ca˜o de d´ıgitos manuscritos. Neste cap´ıtulo s˜ao mostrados os resultados dos experimentos realizados Por fim, o Cap´ıtulo 6 apresenta as conclus˜oes deste trabalho, elencando suas contribui¸c˜oes e apontando o rumo dos est´agios evolutivos do modelo proposto..

(19) CAP´ITULO 2. ESTADO DA ARTE. 2.1. ˜ DE PROTOTIPOS ´ SELEC ¸ AO. Sele¸c˜ao de Prot´otipos ´e uma t´ecnica que visa a obten¸c˜ao de instˆancias representativas dos dados do problema em m˜aos. Tais instˆancias s˜ao chamadas de prot´otipos. A obten¸ca˜o destes prot´otipos, al´em promover a redu¸ca˜o dos dados, tamb´em tem por objetivo tornar mais clara a separa¸ca˜o entre as classes do problema. Em geral, a id´eia ´e reduzir a quantidade de dados e ainda assim obter um conjunto de prot´otipos que minimize o erro de classifica¸c˜ao. A classifica¸c˜ao pode ser realizada pela estrat´egica que considera os prot´otipos mais pr´oximos, j´a bastante conhecida na literatura por Nearest Prototype Classification (NPC). Kim e Oommen [KO03] mostram uma categoriza¸c˜ao para os m´etodos de redu¸ca˜o dos dados. Uma delas ´e puramente seletiva e nela o conjunto resultante do processo ´e totalmente composto por elementos selecionados do conjunto original. Na outra classe de m´etodos, novos elementos s˜ao criados durante o processo de redu¸c˜ao oriundos da combina¸c˜ao de elementos do conjunto original de dados ou pelo ajuste realizado por treinamento supervisionado. Para esta segunda classe, Kim e Oommen (2003) adotaram o termo “creative”. Aqui, adotou-se o termo modelos de prot´otipos sint´eticos. Pensa-se que a s´ıntese expressa melhor a id´eia geral destes modelos. V´arias t´ecnicas de redu¸ca˜o j´a foram propostas e avaliadas. Wilson e Martinez [WM00] apresentam uma an´alise de v´arias t´ecnicas de redu¸ca˜o comparando suas performances em 31 diferentes tarefas de classifica¸c˜ao e prop˜oem tamb´em um conjunto de seis algoritmos (DROP1-DROP5 e DEL) mais robustos quanto `a presen¸ca de ru´ıdos nos dados. Batista et al. [BPM04] aplicaram as t´ecnicas de redu¸ca˜o de instˆancias Tomek Links [Tom76], Condensed Nearest Neighbor Rule (CNN) [Har68], One-Sided Selection (OSS) [KM97] e Neighborhood Cleaning Rule (NCR) [Lau01] como uma alternativa de solu¸ca˜o para o problema de classes desbalanceadas. Uma das vantagens das t´ecnicas baseadas em prot´otipos ´e a redu¸ca˜o da demanda de espa¸co para armazenamento e de recursos computacionais para classifica¸c˜ao. Ao contr´ario, por exemplo, do K-NN [CH67] no qual todos os elementos do conjunto de 4.

(20) ˜ DE PROTOTIPOS ´ 2.1 SELEC ¸ AO. 5. dados s˜ao comparados na tarefa de classifica¸ca˜o, apenas os prot´otipos j´a devidamente ajustados ser˜ao utilizados. Isto torna o m´etodo mais eficiente em termos computacionais. Nesta tarefa de classifica¸ca˜o por NPC, um dos m´etodos mais populares de treinamento ´e a aprendizagem por quantiza¸c˜ao vetorial (Learning Vector Quantization - LVQ) introduzida por Kohonem [Koh86]. A partir de um conjunto inicial de prot´otipos aplica-se um algoritmo supervisionado que realiza o ajuste destes prot´otipos com a finalidade de aproximar as fronteiras de classifica¸ca˜o. Uma desvantagem deste modelo ´e a presen¸ca de heur´ıstica na estrat´egia da sele¸ca˜o. Isto dificulta a cria¸ca˜o de um processo de otimiza¸ca˜o. Foram propostos alguns modelos [KLJ91] [MK94] que objetivaram melhorar o desempenho do algoritmo LVQ tradicional. Estes associaram fun¸c˜oes discriminantes e de custo ao treinamento, por´em, ainda de forma heur´ıstica. Para superar as dificuldades de se estimar a fun¸c˜ao discriminante e estabelecer uma otimiza¸c˜ao baseada no gradiente descendente da fun¸ca˜o de custo, Seo et al. [SBO03] propuseram o modelo Soft Nearest Prototype Classification (SNPC). Este m´etodo combina um ansatz 1 expl´ıcito para a fun¸ca˜o densidade de probabilidade das classes com um crit´erio para sele¸c˜ao que minimiza a taxa de erro de classifica¸ca˜o. A ado¸ca˜o expl´ıcita da densidade torna o modelo facilmente adapt´avel para outras distribui¸co˜es. Este modelo pode ser considerado uma deriva¸ca˜o do LVQ que possui a vantagem de poder ser facilmente adaptado atrav´es das altera¸co˜es de parˆametros como a medida de distˆancia utilizada e a fun¸ca˜o discriminante. A estrat´egia de classifica¸c˜ao ´e inspirada na teoria Bayesiana e utiliza o crit´erio m´axima probabilidade a posteriori na constru¸c˜ao das fronteiras de classifica¸c˜ao. Contudo, o SNPC ainda apresenta uma desvantagem relevante: os parˆametros do modelo. Tais parˆametros est˜ao diretamente ligados ao sucesso do m´etodo e precisam ser estudados a cada nova aplica¸c˜ao da t´ecnica em um diferente problema. An´alises j´a realizadas da implementa¸c˜ao deste m´etodo mostram que chegar aos melhores parˆametros para um determinado problema pode ser uma atividade bastante custosa. Uma abordagem baseada em auto-gera¸ca˜o foi proposta por Fayed et al. [FHA07]. Este modelo ´e o Self-Generating Prototypes (SGP). A principal vantagem deste m´etodo ´e a ausˆencia de parˆametros. Durante a fase de treinamento os prot´otipos v˜ao sendo gerados sob demanda sem a interven¸ca˜o humana. Al´em disto, o modelo ´e bem simples e menos custoso quanto ao esfor¸co computacional. Quando analisados sob um mesmo problema de reconhecimento de caracteres, o SPG e o SNPC obtiveram taxas de acerto bem pr´oximas. A 1´. E uma express˜ao matem´atica assumida para descrever um determinado fenˆomeno sem que haja uma prova que justifique seu uso. Sua obten¸c˜ao ´e geralmente realizada de forma emp´ırica..

(21) 2.2 CONDENSED NEAREST NEIGHBOR RULE. 6. diferen¸ca ´e que a quantidade de prot´otipos do conjunto resultante do SGP ´e em torno de 6 vezes maior que aquela obtida com SNPC. Isto ´e um fato motivador para a busca de uma alternativa que diminua esta quantidade de prot´otipos sem prejudicar a performance do classificador. As pr´oximas se¸co˜es apresentam em mais detalhes alguns dos m´etodos citados acima. S˜ao mostradas as principais caracter´ısticas dos modelos e propriedades j´a discutidas em outros trabalhos. S˜ao apresentados tamb´em algoritmos e o formalismo matem´atico de alguns modelos. Compara¸co˜es e an´alises mais detalhadas trazem subs´ıdios para a cria¸ca˜o de um modelo h´ıbrido que consiga compilar algumas das principais virtudes dos m´etodos estudados. Na classe dos modelos puramente seletivos s˜ao apresentados o CNN, o Tomek Links e o OSS. O LVQ, o SNPC e o SGP s˜ao os modelos de prot´otipos sint´eticos que s˜ao apresentados a seguir. Em virtude da maior relevˆancia desta classe de modelos para o trabalho proposto, estes trˆes modelos ser˜ao apresentados em mais detalhes que aqueles puramente seletivos. 2.2. CONDENSED NEAREST NEIGHBOR RULE. O Condensed Nearest Neighbor Rule (CNN) foi introduzido por Peter E. Hart [Har68] como uma proposta de esquema de redu¸ca˜o de dados buscando encontrar o menor conjunto consistente em rela¸c˜ao ao conjunto original. Defini¸ c˜ ao 2.1 (Conjunto Consistente). Seja S um conjunto de dados. R ´e dito consistente em rela¸c˜ao a S, se todos os elementos de S s˜ao classificados corretamente pelos elementos de R utilizando a regra do vizinho mais pr´oximo (1-NN). R tamb´em ´e comumente chamado de conjunto de referˆencia. O Algoritmo 1 mostra como o CNN tenta chegar ao menor subconjunto consistente com os dados originais. A aplica¸ca˜o do CNN provoca uma elimina¸ca˜o dos elementos mais afastados das fronteiras de classifica¸ca˜o priorizando assim a manuten¸c˜ao daqueles elementos nas regi˜oes de d´ uvida. As caracter´ısticas deste algoritmo o tornam significativamente sens´ıvel a ru´ıdos. Quando aplicado a bases com um elevado grau de overlapping, as fronteiras de classifica¸c˜ao tornam-se ainda mais enfraquecidas. Um detalhe importante que deve ser observado ´e que esta estrat´egia garante apenas a gera¸c˜ao de um subconjunto consistente. Contudo, n˜ao h´a garantia de que o conjunto ´e o menor poss´ıvel. O conjunto resultante depende da ordem da apresenta¸ca˜o dos elementos do conjunto original. Isto foi mostrado em [Das94] e pode ser melhor visualizado na Fi-.

(22) 7. 2.3 TOMEK LINKS. Algoritmo CNN Ent S: conjunto de dados original Sa´ıda R: subconjunto consistente de S 1 adicione em R um elemento de cada classe de S escolhido aleatoriamente 2 enquanto R for modificado fa¸ ca 3 para cada s em S fa¸ ca 4 classifique s utilizando 1-NN nos elementos do conjunto R 5 se s for classificado incorretamente ent˜ ao 6 R ← R ∪ {s} 7 fim se 8 fim para 9 fim enquanto fim Algoritmo 1 Algoritmo do CNN.. gura 2.1. Na Figura 2.1(b), o conjunto consistente tem 21 elementos. J´a na Figura 2.1(c), obtido com uma nova execu¸c˜ao do CNN sobre o conjunto original, tem apenas 12 elementos. Isto comprova que o processo n˜ao ´e determin´ıstico e que n˜ao h´a garantia de obten¸c˜ao do menor conjunto consistente. Quando aplicado na solu¸c˜ao do problema de classes desbalanceadas, uma pequena adapta¸c˜ao ´e feita no algoritmo. Ao inv´es do conjunto inicial conter apenas um elemento de cada classe, ele ´e criado com todos os elementos das classes minorit´arias e apenas um elemento de cada uma das classes que sofrer˜ao o undersampling. Isto garante que os conjuntos minorit´arios n˜ao sofrer˜ao redu¸ca˜o durante o processo de obten¸ca˜o do conjunto consistente. Outra caracter´ıstica deste m´etodo ´e que o mesmo teve sua constru¸ca˜o voltada para a classifica¸c˜ao que utiliza a estrat´egia do vizinho mais pr´oximo. Contudo, o ideal ´e conseguir padr˜oes que sejam representativos tamb´em para outras t´ecnicas de classifica¸c˜ao. 2.3. TOMEK LINKS. Tomek links foi introduzido por Tomek [Tom76] trazendo modifica¸c˜oes `as id´eias do CNN. A proposta ´e estimular a maior separa¸c˜ao entre as classes promovendo uma remo¸c˜ao dos elementos que fossem candidatos a ru´ıdos ou estivessem na fronteira. Com esta estrat´egia o conjunto resultante teria melhor definidas suas fronteiras em rela¸c˜ao `aqueles obtidos pelo CNN. Defini¸ c˜ ao 2.2 (Tomek Link). Sejam ei e ej elementos do conjunto de treinamento E.

(23) 8. 2.4 ONE-SIDED SELECTION. 7. 7. 7. Classe 1 Classe 2. Classe 1 Classe 2. Classe 1 Classe 2. 6. 6. 6. 5. 5. 5. 4. 4. 4. 3. 3. 3. 2. 2. 400 padrões. 1. 0. 0. 1. 2. 3. 4. 5. 6. 2. 21 padrões. 1. 7. (a) Conjunto original. 0. 0. 1. 2. 3. 4. 5. 6. (b) Conjunto resultante 1. 12 padrões. 1. 7. 0. 0. 1. 2. 3. 4. 5. 6. 7. (c) Conjunto resultante 2. Figura 2.1 Simula¸c˜ao da aplica¸c˜ao do algoritmo CNN sobre um mesmo conjunto original de dados gerando dois resultados distintos. Os elementos foram apresentados em ordem aleat´oria.. pertencentes a classes distintas e d(ei , ej ) a distˆancia entre ei e ej - este conceito pode ser estendido aos demais elementos de E. ei e ej formam um Tomek Link se, e somente se: {∀ k. @ek ∈ E. | d(ei , ek ) < d(ei , ej ) ∨ d(ej , ek ) < d(ei , ej )}.. A exemplo do CNN, a id´eia desta t´ecnica ´e bem simples. Consiste em varrer o conjunto de dados procurando pares que formam Tomek Links. Ap´os encontrar todos os Tomek Links deve-se removˆe-los do conjunto de dados. A Figura 2.2 ilustra o funcionamento desta t´ecnica. Na Figura 2.2(a) s˜ao exibidos todos os elementos das duas classes do exemplo. Na Figura 2.2(b) aparecem marcados em negro todos os pares de elementos que formam Tomek Links. A Figura 2.2(c) mostra o conjunto de dados resultante da elimina¸c˜ao dos Tomek Links. Enquanto que o CNN promove uma elimina¸c˜ao dr´astica dos elementos que est˜ao mais afastados das fronteiras de classifica¸c˜ao, o m´etodo Tomek Links corre em dire¸ca˜o contr´aria: os elementos pr´oximos das regi˜oes de d´ uvida s˜ao eliminados, causando o aparente afastamento das classes. Tomek Links tamb´em pode ser aplicado como estrat´egia de redu¸ca˜o das classes majorit´arias em problemas desbalanceados. Neste caso, diferentemente do que ocorre no processo convencional em que o par inteiro ´e removido, aqui a remo¸ca˜o ´e feita apenas dos elementos formadores dos Tomek Links que pertencem `as classes majorit´arias. 2.4. ONE-SIDED SELECTION. Este m´etodo foi introduzido por Kubat e Matwin [KM97] como uma proposta voltada exclusivamente para a melhoria dos classificadores em dom´ınios desbalanceados. Este m´etodo promove a suaviza¸ca˜o dos n´ıveis de desbalanceamento combinando CNN e Tomek.

(24) 9. 2.5 LEARNING VECTOR QUANTIZATION. 7. 7. 7. Classe 1 Classe 2. Classe 1 Classe 2. Classe 1 Classe 2. 6. 6. 6. 5. 5. 5. 4. 4. 4. 3. 3. 3. 2. 2. 2. 1. 1. 1. 0. 0. 0. 1. 2. 3. 4. 5. 6. (a) Conjunto original. 7. 0. 1. 2. 3. 4. 5. (b) Tomek Links. 6. 7. 0. 0. 1. 2. 3. 4. 5. 6. 7. (c) Conjunto reduzido. Figura 2.2 Simula¸c˜ao da aplica¸c˜ ao do m´etodo de Tomek Links.. Links para realizar redu¸c˜ao apenas na classe majorit´aria. Isto explica o seu nome. Como citado anteriormente, a aplica¸ca˜o do m´etodo Tomek Links tem a fun¸c˜ao de remover ru´ıdos e elementos nas fronteiras de classifica¸ca˜o. Elementos nas fronteiras s˜ao indesejados, visto que mesmo pequenas perturba¸co˜es durante o treinamento do classificador podem gerar instabilidade e aumentar o erro nesta regi˜ao de classifica¸ca˜o. Por outro lado, o CNN busca eliminar os padr˜oes que est˜ao distantes da fronteira de classifica¸c˜ao. Tais elementos podem ser considerados redundates e por esta raz˜ao irrelevantes para o classificador. Ao t´ermino do processo, os padr˜oes restantes da classe majorit´aria e todos os padr˜oes da classe minorit´aria s˜ao utilizados no aprendizado. Com esta estrat´egia, o OSS promove a cria¸c˜ao de um conjunto O Algoritmo 2 descreve os passos do One-Sided Selection. Como pode ser visto, este algoritmo foi escrito para um problema de duas classes. Contudo, sua adapta¸ca˜o para um problema multi-classes ´e simples. As mesmas regras de redu¸ca˜o aplicadas `a classe majorit´aria podem ser estendidas a um conjunto de classes nas quais se deseja realizar redu¸c˜ao. Estas s˜ao trˆes das t´ecnicas puramente seletivas mais tradicionais. As pr´oximas a serem apresentadas produzem prot´otipos e desta forma pertencem `a categoria de s´ıntese. 2.5. LEARNING VECTOR QUANTIZATION. Learning Vector Quantization (LVQ) [Koh86] ´e um dos m´etodos mais populares para treinamento de classificadores por prot´otipos mais pr´oximos (NPC). Neste tipo de classificador, cada classe ´e representada por um conjunto de vetores de caracter´ısticas distribu´ıdos ´ um classificapelo espa¸co de classifica¸c˜ao. Tais vetores s˜ao denominados “prot´otipos”. E dor que utiliza a estrat´egia de aproxima¸ca˜o local, mas que diferentemente do K-NN, por exemplo, ao inv´es de usar todo o conjunto de dados, o NPC utiliza apenas as informa¸c˜oes.

(25) 2.5 LEARNING VECTOR QUANTIZATION. 10. Algoritmo OSS Ent S: conjunto de dados original Sa´ıda R: subconjunto de S 1 adicione em R todos os elementos da classe minorit´ aria de S e apenas um da classe majorit´aria escolhido aleatoriamente 2 enquanto R for modificado fa¸ ca 3 para cada s em S fa¸ ca 4 classifique s utilizando 1-NN nos elementos do conjunto R 5 se s for classificado incorretamente ent˜ ao 6 R ← R ∪ {s} 7 fim se 8 fim para 9 fim enquanto 10 encontre todos os Tomek Links 11 elimine de R todos os elementos da classe majorit´ aria participantes de Tomek Links fim Algoritmo 2 Algoritmo One-Sided Selection.. dos prot´otipos para predizer a classe de um novo elemento submetido ao classificador. Isto torna a tarefa de classifica¸ca˜o computacionalmente menos custosa. Por esta raz˜ao, bons resultados dependem da qualidade do conjunto de prot´otipos escolhidos. O LVQ ´e um m´etodo para fazer ajustes destes prot´otipos de forma a reduzir o erro de classifica¸ca˜o. A partir de um conjunto inicial de prot´otipos aplica-se um algoritmo supervisionado que promove o reposicionamento destes prot´otipos com a finalidade de melhor ajust´a-los `as fronteiras de classifica¸ca˜o. As pr´oximas subse¸c˜oes apresentam o LVQ em cada uma das varia¸co˜es propostas por Kohonen. S˜ao enfatizadas as regras de ajustes dos prot´otipos e suas principais caracter´ısticas. Ainda nesta se¸c˜ao ´e apresentada uma alternativa de melhoria para a performance do LVQ 1 - o OLVQ. Tamb´em ´e apresentada uma estrat´egia que evita a divergˆencia no treinamento das vers˜oes mais refinadas do LVQ. 2.5.1. Modelo de Classifica¸c˜ ao. Comumente a classifica¸c˜ao opera no modo “winner-takes-all” e a classe cx de um novo elemento ou padr˜ao x apresentado ´e dada pela mesma do prot´otipo θq mais pr´oximo a este, como na Equa¸ca˜o 2.1. O operador argmin aplicado a j retorna qual o ´ındice j que minimiza a express˜ao {kx − θj k}. Esta ´e uma forma de identificar o prot´otipo θq . Assim, a classe do prot´otipo de ´ındice q (cq ) ser´a adotada para o padr˜ao x..

(26) 11. 2.5 LEARNING VECTOR QUANTIZATION. (2.1). q = argmin{kx − θj k}. j. Conforme citado anteriormente, a obten¸ca˜o de uma boa taxa de classifica¸c˜ao est´a intimamente ligada a um conjunto de prot´otipos que consiga representar bem as classes do problema. Quanto melhor eles conseguirem aproximar a distribui¸c˜ao real das classes menor ser´a o erro de classifica¸ca˜o segundo o crit´erio mostrado na Equa¸ca˜o 2.1. Isto ´e obtido na fase de treinamento. O processo de treinamento se inicia a partir de um conjunto inicial de prot´otipos. V´arias estrat´egias podem ser utilizadas para definir este conjunto. K-Means2 [Mac67] pode ser aplicado ao conjunto de treinamento classe a classe. Os centr´oides de cada agrupamento formado podem ser utilizados como os prot´otipos iniciais. Uma outra estrat´egia ´e selecionar elementos do conjunto de treinamento que s˜ao classificados corretamente segundo um outro crit´erio de aproxima¸ca˜o local como o K-NN. Neste trabalho os prot´otipos iniciais s˜ao gerados artificialmente adicionando-se vetores aleat´orios aos centr´oides de cada classe do conjunto de treinamento. Esta n˜ao ´e uma boa estrat´egia de inicializa¸c˜ao quando as classes s˜ao multimodais, ou seja, elas possuem seus agrupamentos separados por agrupamentos de outras classes. A quantidade de prot´otipos por classe ´e geralmente determinada experimentalmente. 2.5.2. LVQ 1. As regras do primeiro modelo de aprendizado desenvolvido por Kohonen busca a minimiza¸c˜ao do erro de classifica¸ca˜o por prot´otipo mais pr´oximo da seguinte forma: para cada elemento x(t) de classe y do conjunto de treinamento apresentado ( θj (t + 1) =. θj (t) + α(t)[x(t) − θj (t)], θj (t) − α(t)[x(t) − θj (t)],. se se. cj = y cj 6= y. (2.2). θi (t + 1) = θi (t), ∀ i 6= j, sabendo que θj ´e o prot´otipo mais pr´oximo de x(t), cj ´e a classe do prot´otipo θj e α(t) ´e a taxa de aprendizado e 0 < α(t) ≤ 1. Esta taxa de aprendizado pode ir decrescendo com a evolu¸c˜ao do treinamento. Este tipo de varia¸c˜ao da taxa de aprendizado ´e bem 2. O termo K-Means foi pela primeira vez usado na literatura por MacQueen [Mac67] baseado nas id´eias de Steinhaus [Ste56]. O primeiro algoritmo foi proposto por Stuart P. Lloyd em 1957 como uma t´ecnica para PCM. Contudo, este estudo s´o foi publicado muitos anos depois [Llo82].

(27) 12. 2.5 LEARNING VECTOR QUANTIZATION. comum neste tipo de treinamento. Inicialmente ela ´e definida com um valor alto para acelerar o treinamento e depois vai decrescendo objetivando a estabilidade do processo e a convergˆencia do m´etodo. Com a an´alise da Equa¸ca˜o 2.2 pode-se facilmente perceber que para cada elemento x(t) do conjunto de treinamento apresentado durante o processo de aprendizado apenas um prot´otipo sofrer´a a influˆencia da apresenta¸ca˜o deste - aquele que estiver mais pr´oximo do elemento de entrada x(t). O efeito da heur´ıstica presente nestas regras ´e aproximar este prot´otipo de x(t) se ambos pertencerem a mesma classe e afast´a-lo, caso contr´ario. Todos os outros prot´otipos permanecem inalterados. Isto sugere que o treinamento pode n˜ao ser t˜ao r´apido. 2.5.3. Optimized-learning-rate LVQ. Normalmente o treinamento realizado como mostrado acima pode ser bastante demorado. As raz˜oes foram mostradas na se¸ca˜o anterior. Para acelerar este processo, Kohonem desenvolveu uma estrat´egia que utiliza uma taxa de aprendizado individual para cada prot´otipo. Este m´etodo foi chamado de Optimized-learning-rate LVQ (OLVQ). αj (t) =. αj (t − 1) . 1 + s(t)αj (t − 1). (2.3). A Equa¸ca˜o 2.3 personifica o parˆametro α(t) em rela¸c˜ao a cada prot´otipo de ´ındice j. Nela, αj (t) representa a taxa de aprendizado aplicada no ajuste do prot´otipo θj no instante t. O fator de corre¸c˜ao s(t) = 1 ´e considerado se x(t) ´e classificado corretamente e s(t) = −1, caso contr´ario. Como 0 < α(t) ≤ 1, o efeito que pode ser percebido pela ado¸ca˜o desta estrat´egia ´e a diminui¸c˜ao da taxa de aprendizado se o prot´otipo est´a classificando corretamente e o aumento desta taxa na situa¸ca˜o inversa. Ou seja, para acelerar a convergˆencia a estrat´egia ´e mexer menos aqueles prot´otipos que est˜ao classificando bem e ajustar mais fortemente os que est˜ao mal-posicionados. As regras de atualiza¸c˜ao dos prot´otipos do OLVQ seguem aquelas estabelecidas no LVQ 1. 2.5.4. Regra da Janela. As vers˜oes que ser˜ao apresentadas a seguir mostram que, diferentemente do LVQ1, os dois prot´otipos mais pr´oximos (θi e θj ) ser˜ao ajustados em cada passo do treinamento. Para minimizar o risco de divergˆencia do m´etodo, foi introduzida a regra da janela. Assim,.

(28) 13. 2.5 LEARNING VECTOR QUANTIZATION. apenas haver´a ajuste quando o elemento x(t) apresentado cair numa regi˜ao de indecis˜ao definida pela equa¸c˜ao µ min. di dj , dj di. ¶ > h,. com h =. 1−w 1+w. (2.4). sendo que di e dj s˜ao respectivamente as distˆancias de x(t) a θi e de x(t) a θj . Esta regra garante que apenas os elementos que estiverem posicionados pr´oximos `as fronteiras das regi˜oes de Voron´oi [Aur91] provocar˜ao ajustes. O novo parˆametro w ´e a largura relativa da janela e deve ser um valor no intervalo [0; 1]. 2.5.5. LVQ 2.1. Um efeito causado pela aplica¸c˜ao do LVQ 1 ´e o afastamento dos prot´otipos das fronteiras das regi˜oes de classifica¸ca˜o segundo a regra de Bayes [KKLT92]. Na tentativa de minimizar este efeito, o LVQ 2.1 atua mais sobre os prot´otipos vizinhos pertencentes a classes adjacentes. A regra ´e. θi (t + 1) = θi (t) + α(t)[x(t) − θi (t)] θj (t + 1) = θj (t) − α(t)[x(t) − θj (t)]. (2.5) (2.6). em que θi , θj s˜ao os prot´otipos mais pr´oximos de x(t), com θi sendo da mesma classe de x(t) e θj de outra classe. Em resumo, encontram-se os dois prot´otipos mais pr´oximos e realiza-se o ajuste apenas se um deles for da classe do elemento x(t) e o outro for de outra classe. Se os prot´otipos forem da mesma classe ou de classes distintas com nenhuma delas sendo a classe do elemento x(t), n˜ao h´a ajuste. A interpreta¸ca˜o para esta regra ´e de que caso esta u ´ltima situa¸ca˜o ocorra, x(t) ´e um forte candidato a ru´ıdo. Al´em destas restri¸c˜oes, x(t) deve cair na regi˜ao de janela definida pela Equa¸c˜ao 2.4. Geralmente, o LVQ 2.1 n˜ao ´e utilizado sobre o conjunto inicial de prot´otipos, mas sim sobre um conjunto previamente ajustado pelo LVQ 1. Neste conjunto, o LVQ 2.1 realiza um ajuste fino em busca de maior precis˜ao nos resultados de classifica¸c˜ao..

(29) 14. 2.6 SOFT NEAREST PROTOTYPE CLASSIFICATION. 2.5.6. LVQ 3. A aplica¸c˜ao do LVQ 2.1 pode sobreajustar os prot´otipos `as fronteiras de classifica¸c˜ao. Para conseguir uma maior proximidade com a distribui¸ca˜o real dos padr˜oes das classes foi introduzido o LVQ 3. Os dois prot´otipos mais pr´oximos (θi , θj ) do elemento de treinamento x(t) s˜ao encontrados. Se um e apenas um deles for da classe de x(t), ent˜ao. θi (t + 1) = θi (t) + α(t)[x(t) − θi (t)] θj (t + 1) = θj (t) − α(t)[x(t) − θj (t)]. (2.7) (2.8). da mesma forma que ´e feito no LVQ 2.1. Por´em aqui se os dois prot´otipos forem da classe de x(t), tamb´em haver´a ajuste, mas este ser´a ponderado por um fator de estabilidade ε (0 < ε < 1) como mostrado abaixo. θk (t + 1) = θk (t) − εα(t)[x(t) − θk (t)],. k ∈ {i, j}. (2.9). N˜ao haver´a ajuste apenas se os dois prot´otipos forem de classes diferentes daquela a qual pertence x(t) ou se o padr˜ao x(t) cair fora da regi˜ao de janela. Assim como o LVQ 1, o LVQ 3 tamb´em se estabiliza com a continuidade do treinamento. Assim como o LVQ 2.1, este ´e utilizado para melhorar os resultados de um conjunto de prot´otipos previamente ajustadas pelo LVQ 1 ou pelo treinamento h´ıbrido juntando o LVQ 1 e o LVQ 2.1, necessariamente nesta ordem [Koh86]. 2.6. SOFT NEAREST PROTOTYPE CLASSIFICATION. No modelo NPC, um novo padr˜ao ´e identificado como sendo da classe do prot´otipo mais pr´oximo a ele, operando assim no modo “winner-takes-all”. Operando desta forma, mesmo estando em uma regi˜ao de fronteira, onde a indecis˜ao ´e maior, os exemplos ser˜ao afetados apenas por uma classe - a do prot´otipo mais pr´oximo. N˜ao ´e levada em conta a influˆencia que os demais vizinhos poderiam exercer sobre o elemento na tomada de decis˜ao. O Soft Nearest Prototype Classification (SNPC) foi introduzido por Seo et al. [SBO03] com a proposta de melhorar a performance do NPC. A id´eia foi construir formalmente um modelo que tornasse vi´avel a minimiza¸c˜ao do custo do classificador atrav´es de gradiente descendente. Isto criaria um processo de aprendizagem ausente da heur´ıstica carac-.

(30) 15. 2.6 SOFT NEAREST PROTOTYPE CLASSIFICATION. ter´ıstica do LVQ. Uma outra caracter´ıstica foi a utiliza¸c˜ao de l´ogica fuzzy ao modelo a fim de suavizar as fronteiras de classifica¸c˜ao e tornar a tomada de decis˜ao um processo mais democr´atico que leve em conta a influˆencia que cada prot´otipo exerce sobre um padr˜ao no momento de classific´a-lo. No SNPC, foram introduzidas atribui¸co˜es fuzzy de probabilidades aos padr˜oes. No processo de aprendizado, para cada padr˜ao do conjunto de treinamento ´e estabelecido o grau de pertinˆencia do padr˜ao em rela¸c˜ao a todas as classes do modelo, que, por sua vez, s˜ao compostas por um ou mais prot´otipos. Uma vez que fica estabelecida a influˆencia que cada prot´otipo exerce sobre o padr˜ao, estes s˜ao ajustados proporcionalmente a ela. Uma vantagem surgida diretamente do emprego deste tipo de atribui¸ca˜o foi a minimiza¸c˜ao do erro de classifica¸c˜ao nas regi˜oes de fronteira das classes. 2.6.1. A Fun¸c˜ ao de Custo e a Regra Geral de Aprendizado. Uma forma de avaliar a capacidade de generaliza¸ca˜o de um classificador ´e estabelecer uma fun¸ca˜o de custo. A Equa¸c˜ao 2.10 pode ser adotada como fun¸c˜ao de custo do NPC. N M 1 XX P (j|xk )(1 − δ(yk = cj )) E= N k=1 j=1. P (j|xk ) = δ(j = qk ). qk = argminkxk − θr k r. (2.10). N ´e o n´ umero de padr˜oes do conjunto de treinamento, M ´e o n´ umero de prot´otipos, xk ´e um padr˜ao, yk ´e a classe real de xk e cj ´e a classe do prot´otipo de ´ındice j. Tal prot´otipo ser´a representado neste trabalho por θj . P (j|xk ) ´e a probabilidade associada de um padr˜ao xk em rela¸ca˜o ao prot´otipo θj . Sendo γ uma express˜ao booleana, a fun¸ca˜o δ(γ) retorna 1 se γ for verdadeiro e 0 caso γ seja falsa. O operador argmin retorna a instˆancia do objeto rotulado pelo operando sobrescrito que minimiza a express˜ao ao qual est´a aplicado. Neste caso, qk receber´a o ´ındice do prot´otipo que se encontra mais pr´oximo de xk . Avaliando esta equa¸ca˜o do ponto de vista do NPC, P (j|xk ) ´e 1 quando j ´e o ´ındice do prot´otipo mais pr´oximo de xk e 0 nos outros casos. Portanto, pode-se observar que o custo se resume `a raz˜ao do n´ umero de padr˜oes classificados incorretamente sobre o total de padr˜oes do conjunto de dados de treinamento. Com o objetivo de minimizar a fun¸ca˜o de custo da Equa¸ca˜o 2.10, o SNPC substitui a associa¸ca˜o r´ıgida de probabilidades do NPC por uma associa¸ca˜o fuzzy de probabilidades, cuja sua forma exponencial normalizada ´e.

(31) 16. 2.6 SOFT NEAREST PROTOTYPE CLASSIFICATION. P (j|x) =. exp (−d(x, θj )) M P. (2.11). exp (−d(x, θk )). k=1. com d(x, θj ) sendo uma medida de distˆancia entre o padr˜ao x e o prot´otipo θj . Foi justamente esta altera¸ca˜o que tornou vi´avel a minimiza¸c˜ao da fun¸c˜ao de custo em rela¸c˜ao `as localiza¸co˜es dos prot´otipos utilizando gradiente descendente. As regras de ajustes dos prot´otipos no treinamento ser˜ao guiadas por este m´etodo. Isto tamb´em elimina a heur´ıstica presente na aprendizagem via quantiza¸ca˜o vetorial. O custo individual lsk de cada padr˜ao xk do conjunto de treinamento ´e dado pela Equa¸ca˜o 2.12 e a nova fun¸c˜ao de custo foi reescrita ( 2.13). lsk =. M X. P (j|xk ). (2.12). {j:cj 6=yk } N 1 X E= N k=1. M X. P (j|xk ). (2.13). {j:cj 6=yk }. Note que esta nova fun¸ca˜o de custo computa o custo total do sistema como a soma dos custos individuais de cada padr˜ao do conjunto de treinamento. Olhando a Equa¸ca˜o 2.12, pode-se ver que o custo individual de um padr˜ao xk ´e dado pela somas das probabilidades associadas de xk a todos os prot´otipos θj representantes das classes opostas. Ou seja, este custo representa a tendˆencia do ponto xk ser classificado incorretamente. Quanto maior for este custo, mas pr´oximo de ser incorretamente classificado este ponto estar´a. Diminuir o custo individual de cada elemento do conjunto de treinamento atrav´es do ajuste dos prot´otipos do classificador ´e o objetivo deste m´etodo e isto implica diretamente na redu¸ca˜o do erro de classifica¸ca˜o. Note que esta fun¸c˜ao de custo ´e cont´ınua e que o custo individual est´a no intervalo [0; 1] e varia com o posicionamento dos prot´otipos θ. Por esta raz˜ao pode ser minimizado pelo gradiente descendente estoc´astico como na Equa¸ca˜o 2.14. Outro aspecto positivo desta nova abordagem ´e a baixa influˆencia dos erros de classifica¸c˜ao dos padr˜oes localizados pr´oximos `as fronteiras de classifica¸ca˜o. Isto diminui a oscila¸c˜ao dos prot´otipos e leva a uma convergˆencia mais r´apida. θl (t + 1) = θl (t) − α(t). ∂lst ∂θl. (2.14). Na Equa¸ca˜o 2.14, t indica o instante em que um padr˜ao xt do conjunto de dados de treinamento ´e avaliado para produzir os ajustes dos prot´otipos. α(t) ´e a taxa de.

(32) 17. 2.6 SOFT NEAREST PROTOTYPE CLASSIFICATION. Tabela 2.1 Regra de Classifica¸c˜ ao do SNPC: Um Exemplo. θj cj P (j|xi ) M P P (j|xi ). θ1 θ2 1 1 0,05 0,05. θ3 1 0,35. θ4 θ5 2 2 0,25 0,30. 0,45. 0,55. {j:cj ={1,2}}. aprendizado com 0 < α(t) < 1. l varia de 1 a M e representa o ´ındice dos prot´otipos no instante t do treinamento em que o padr˜ao xt ´e apresentado. A partir das Equa¸c˜oes 2.14 e 2.13 foi poss´ıvel chegar a regra de aprendizado mostrada na Equa¸ca˜o 2.15 e sua prova formal pode ser vista em [SBO03].. θl (t + 1) = θl (t) − α(t)∆θl (t) ( t ,θl ) , se c = y P (l|xt )lst ∂d(x ∂θl ∆θl (t) = ∂d(xt ,θl ) −P (l|xt )(1 − lst ) ∂θl , se c 6= y. (2.15). Uma vez encerrado o processo de aprendizado e com os prot´otipos devidamente ajustados, um novo padr˜ao xk pode ser classificado segundo a Equa¸c˜ao 2.16. c = argmax c0. X {j:cj. P (j|xk ).. (2.16). =c0 }. A equa¸ca˜o acima mostra que a classifica¸c˜ao ´e determinada pela classe cujos prot´otipos geraram a maior probabilidade de pertinˆencia, e n˜ao apenas o prot´otipo mais pr´oximo. Este fato torna a decis˜ao mais democr´atica, como dito no in´ıcio desta se¸c˜ao. A Tabela 2.1 ilustra com um exemplo o funcionamento da Equa¸ca˜o 2.16 que representa a regra de classifica¸ca˜o do SNPC. Esta tabela apresenta uma simula¸ca˜o em que um dado elemento xi foi submetido a um classificador de duas classes representado pelos prot´otipos θj com j = 1...5. A primeira linha da tabela exibe as classes dos prot´otipos. A linha logo abaixo mostra as probabilidades associadas do elemento xi em rela¸ca˜o a cada um dos prot´otipos do classificador. Por fim, na u ´ltima linha ´e exibida as probabilidades associadas ao elemento xi acumulada por classe. Neste exemplo, seguindo a regra de classifica¸c˜ao estabelecida no SNPC, xi ser´a classificado como pertencente a classe 2. Notase que, apesar do prot´otipo com maior probabilidade associada ao elemento xi ser θ3 (P (j = 3|xi ) = 0, 35) e pertencer a classe 1 , a decis˜ao pela classe 2 se d´a pelo fato da soma.

(33) 18. 2.6 SOFT NEAREST PROTOTYPE CLASSIFICATION. da probabilidades associadas de xi aos prot´otipos θ4 (P (j = 4|xi ) = 0, 25) e θ5 (P (j = M M P P 5|xi ) = 0, 30), que pertencem a classe 2, ser maior ( P (j|xi ) > P (j|xi )) que {j:cj =2}. {j:cj =1}. a soma das probabilidades associadas ao elemento xi dos prot´otipos da classe 1. Ou seja, a decis˜ao n˜ao foi tomada apenas com base no prot´otipo mais pr´oximo como na estrat´egia “winner-takes-all” utilizada no NPC, mas sim contabilizou o efeito sobre xi de todos os prot´otipos do classificador. 2.6.2. O Ansatz da Mistura de Gaussianas. Ap´os ter chegado a um conjunto gen´erico de regras de aprendizado, Seo et al. [SBO03] assumiram que a fun¸c˜ao densidade de probabilidade p(x) dos padr˜oes poderia ser descrita por uma mistura de gaussianas em que cada gaussiana est´a centrada em um dos prot´otipos. Assim, a densidade de probabilidade pode ser escrita como: p(x) =. Ny X X. (2.17). p(x|j)P (j). c=1 {j:cj =c}. Ny ´e a quantidade de classes e cj ´e a classe dos padr˜oes gerados pelo prot´otipo de ´ındice j (θj ). P (j) ´e a probabilidade a priori de que padr˜oes tenham sido gerados pelo prot´otipo θj e p(x|j) ´e a probabilidade condicional de que este prot´otipo θj tenha gerado um padr˜ao particular x. Para continuar a constru¸c˜ao do modelo algumas considera¸c˜oes foram realizadas. Inicialmente, em virtude do fato de classificadores NPC dependerem apenas da distˆancia relativa entre os pontos e os prot´otipos, foi assumido que os prot´otipos geravam conjuntos de dados com a mesma variˆancia (σj2 = σ 2 ), caracterizando um processo homoced´astico, e que a probabilidade a priori P (j) era a mesma para todos os prot´otipos. Desta forma, P (j) = 1/M, ∀j = 1, ..., M , lembrando que M ´e o n´ umero de prot´otipos. Nestas condi¸co˜es, para um ansatz de mistura de Gaussianas D-dimensionais tem-se: Ã ! (x − θj )2 1 exp − p(x|j) = (2πσ 2 )D/2 2σ 2. (2.18). Utilizando a f´ormula de Bayes chegou-se a express˜ao da probabilidade a posteriori para o modelo de misturas de Gaussianas adotado: ³ P (j|x) =. (x−θ )2 − 2σ2j. ´. exp p(x|j)P (j) ³ ´ =P M (x−θk )2 p(x) exp − k=1. 2σ 2. (2.19).

(34) 2.6 SOFT NEAREST PROTOTYPE CLASSIFICATION. 19. ´ v´alido notar que a Equa¸ca˜o 2.19 ´e um caso particular da Equa¸ca˜o 2.11 considerandoE se a medida de distˆancia adotada (x − θj )2 d(x, θj ) = 2σ 2. (2.20). . Com estas considera¸co˜es, a aplica¸ca˜o do gradiente descendente deu origem `as novas regras de aprendizado.. θl (t + 1) = θl (t) − α(t)∆θl (t) ( −P (l|xt )lst (xt − θl ), se c = y ∆θl (t) = P (l|xt )(1 − lst )(xt − θl ), se c 6= y. (2.21). Como dito anteriormente, ao contr´ario do LVQ onde no m´aximo dois prot´otipos s˜ao ajustados para cada apresenta¸ca˜o de um novo padr˜ao xt do conjunto de treinamento no processo de aprendizagem, aqui todos os prot´otipos do classificador s˜ao ajustados. Aqueles prot´otipos que s˜ao da mesma classe de xt s˜ao aproximados deste padr˜ao de forma proporcional `a distˆancia relativa ao padr˜ao ponderada pelo fator P (l|xt )lst . J´a os prot´otipos de classes diferentes daquela de xt s˜ao afastados proporcionalmente `as suas ´ importante ressaltar distˆancias ao padr˜ao xt ponderadas pelo fator P (l|xt )(1 − lst ). E que, enquanto lst representa a probabilidade de erro de classifica¸c˜ao para o padr˜ao xt , (1 − lst ) representa a probabilidade de xt ser classificado corretamente. Com base nestas afirma¸c˜oes, ´e f´acil notar que nos cen´arios em que o custo (lst ) se apresentar alto, provavelmente no in´ıcio do treinamento, os prot´otipos ser˜ao levados mais rapidamente `a um ajuste aos padr˜oes do conjunto de treinamento que forem classificados corretamente. Obviamente, um fator que tamb´em impulsiona o ajuste ´e o grau de associa¸c˜ao do padr˜ao ao prot´otipo e que ´e indicado por P (l|xt ). Por exemplo, se P (l|xt ) para um dado ponto xt tiver um valor alto e a classe do prot´otipo θl for diferente da classe de xt , P (l|xt ) ir´a empurrar mais fortemente para longe de xt o prot´otipo θl . 2.6.3. A Regra da Janela. Seo et al. [SBO03] mostram que ∆θl (t) pode ser reescrito para ( ∆θl (t) =. −lst (1 − lst )Py (l|xt )(xt − θl ), se c = y lst (1 − lst )Py¯(l|xt )(xt − θl ), se c 6= y. (2.22).

(35) 20. 2.7 SELF-GENERATING PROTOTYPES. sabendo que. ³ exp. −θl )2 − (xt2σ 2. ´. ³ ´ (xt −θj )2 exp − 2 {j:cj =y} 2σ ³ ´ −θl )2 exp − (xt2σ 2 ³ ´ Py¯(l|xt ) = P (xt −θj )2 {j:cj 6=y} exp − 2σ 2 Py (l|xt ) = P. Observando a Equa¸ca˜o 2.22, nota-se o aparecimento do fator comum ls(1 − ls), cujas caracter´ısticas se enquadram bem com a id´eia de janela mostrada no LVQ. Tamb´em ´e importante notar que este fator est´a limitado ao intervalo [0;0,25]. Isto pode ser facilmente compreendido visto que o 0 ≤ ls ≤ 1. A regra da janela foi ent˜ao adaptada adotando-se um limiar 0 < η ≤ 0, 25 de forma que os prot´otipos sejam ajustados apenas se ls(1 − ls) > η. 2.7. SELF-GENERATING PROTOTYPES. Tanto o LVQ quanto o SNPC, assim como outros m´etodos de aprendizagem baseados em prot´otipos, s˜ao sens´ıveis ao posicionamento inicial dos prot´otipos, a quantidade de prot´otipos escolhida para representar as classes e a taxa de aprendizado. Chegar aos parˆametros que produzem o melhor resultado pode n˜ao ser t˜ao simples e pode se tornar uma tarefa bastante custosa, pois implica na execu¸ca˜o exaustiva do treinamento combinando diferentes valores destes parˆametros. O Self-Generating Prototypes (SGP) [FHA07] tem a proposta de superar estes problemas. Este tamb´em ´e em esquema de cria¸ca˜o de prot´otipos. A principal vantagem deste modelo ´e que tanto o n´ umero de prot´otipos bem como suas localiza¸c˜oes s˜ao obtidas durante o treinamento sem a interven¸ca˜o humana. Outra vantagem expl´ıcita do m´etodo ´e a simplicidade da sua estrat´egia de escolha dos prot´otipos. Inicialmente, os padr˜oes pertencentes a uma mesma classe s˜ao agrupados e as m´edias dos padr˜oes de cada grupo s˜ao adotadas como prot´otipos. Durante o treinamento, os grupos podem sofrer divis˜oes, padr˜oes trocam de grupos e, em algumas situa¸co˜es, grupos s˜ao fundidos como em um processo de poda. A Figura 2.3 mostra o fluxograma do SGP. As regras s˜ao as seguintes: ˆ Se para todos os padr˜oes de um grupo, o prot´otipo mais pr´oximo ´e o prot´otipo. deste grupo, nenhuma modifica¸c˜ao ´e realizada; ˆ Se para todos os padr˜oes de um grupo, o prot´otipo mais pr´oximo ´e o de um grupo.

(36) 21. 2.7 SELF-GENERATING PROTOTYPES. Selecionar próximo grupo Início. Encontrar o protótipo mais próximo de cada ponto do grupo selecionado. Mover pontos. Inicializar grupos. Atualizar protótipos. não não. Criar protótipos. Para todos os pontos, o protótipo mais próximo é o protótipo do grupo?. não. Para todos os pontos, o protótipo mais próximo é de uma classe incorreta?. O critério de Parada foi alcançado? sim. Selecionar primeiro grupo. sim. sim Dividir o grupo. Fim do Treinamento. Figura 2.3 Fluxograma do SGP. de outra classe, o grupo ´e divido em dois subgrupos. A fronteira de separa¸ca˜o ´e o hiperplano H que passa pela m´edia original do grupo e ´e perpendicular `a primeira componente principal dos pontos do grupo original. O hiperplano pode ser criado usando H : {x|x − µx · γ1 = 0}; (2.23) x representa os pontos do grupo original, µx ´e a m´edia deste grupo e γ1 ´e a primeira componente principal. Este passo pode ser visualizado na Figura 2.4. Esta situa¸ca˜o ocorre sempre que existe uma classe cujos elementos est˜ao separados por um cluster de outra classe; ˆ Se para alguns padr˜oes, o prot´otipo mais pr´oximo ´e o de outro grupo, mas este. outro grupo ´e da mesma classe destes padr˜oes, eles s˜ao migrados para este outro grupo; ˆ Se para alguns padr˜oes, o prot´otipo mais pr´oximo ´e de uma outra classe, estes. padr˜oes formam um novo grupo e a sua m´edia estabelece um novo prot´otipo. Em cada caso, no fim das opera¸c˜oes a m´edia ´e recalculada e os prot´otipos s˜ao ajustados para a nova m´edia. O processo termina quando n˜ao houver mais modifica¸ca˜o nos grupos resultantes. Para evitar overfitting, Fayed et al. [FHA07] introduziram dois parˆametros no SGP. Estes parˆametros s˜ao o Rmin e o Rmis . Rmin estabelece um limiar para o tamanho m´ınimo de um grupo em rela¸ca˜o ao maior grupo de todos. Por exemplo, se Rmin for definido como 0,10 e o maior tiver 200 exemplos, todos os grupos com tamanhos menores do que.

(37) 2.7 SELF-GENERATING PROTOTYPES. 22. Figura 2.4 Divis˜ao de grupo no SGP. A seta representa a primeira componente principal.. 20 (0, 10 × 200) s˜ao descartados. O segundo parˆametro (Rmis ) ´e um limiar para taxa de erro na classifica¸ca˜o dos elementos de um grupo pelo prot´otipo deste grupo. Neste contexto s˜ao considerados como erro de classifica¸ca˜o, todos os padr˜oes do grupo em que o prot´otipo mais pr´oximo n˜ao ´e prot´otipo do grupo, mas sim o prot´otipo de um grupo vizinho. Para tornar mais f´acil a compreens˜ao deste parˆametro, ´e preciso lembrar do processo de tratamento dos grupos pelo algoritmo do SGP. A cada passo todos os grupos s˜ao avaliados verificando-se os prot´otipos mais pr´oximos dos elementos dos grupos. Para um determinado grupo, de acordo com a quantidade de elementos que forem classificados por prot´otipos de outros grupos, o grupo original ´e dividido ou os elementos classificados erroneamente s˜ao transferidos para outros grupos. O que este segundo parˆametro faz ´e estabelecer um limite para este n´ umero de elementos classificados incorretamente. Desta forma, se o n´ umero de elementos classificados incorretamente de um grupo dividido pelo tamanho deste grupo ´e menor do que Rmis , este grupo n˜ao ser´a modificado. A utiliza¸ca˜o destes parˆametros promove a redu¸c˜ao da quantidade de prot´otipos e melhora a capacidade de generaliza¸ca˜o do SGP. Com o objetivo de reduzir a quantidade de prot´otipos, pode ser aplicado um processo de fus˜ao de grupos. Para dois grupos A e B serem unidos ´e necess´ario que eles sejam da mesma classe e que o segundo prot´otipo mais pr´oximo dos elementos do grupo A seja o prot´otipo de B, e vice-versa. A uni˜ao gera um novo grupo composto pelos elementos de A e B e a m´edia deste conjunto ser´a o novo prot´otipo. Uma vantagem desta estrat´egia de auto-gera¸c˜ao reside no fato do algoritmo por si s´o produzir uma quantidade de prot´otipos possivelmente diferente por classe..

(38) 2.7 SELF-GENERATING PROTOTYPES. 23. Outra estrat´egia de redu¸ca˜o ´e o “pruning” (poda). Se para todos os padr˜oes de um grupo o segundo prot´otipo mais pr´oximo ´e o de um grupo da mesma classe, esse grupo com seu prot´otipo podem ser removidos. A vers˜ao b´asica do SGP n˜ao utiliza estes artif´ıcios de fus˜ao e poda. No artigo original [FHA07] e neste trabalho, esta vers˜ao do algoritmo de treinamento ´e chamada de SGP1. O SGP2 ´e a vers˜ao otimizada e que utiliza fus˜ao e poda..

(39) CAP´ITULO 3. ˜ DOS MODELOS AVALIAC ¸ AO. 3.1. POR QUE COMBINAR?. Apesar das suas qualidade, tanto o SGP quanto o SNPC apresentam aspectos que necessitam ser melhorados. O algoritmo SGP apresenta problemas quando aplicado a dom´ınios desbalanceados. Isto pode ser visto nos resultados dos experimentos com a base Thyroid do reposit´orio de benchmarks Proben1 [Pre94] mostrados em [FHA07]. Neste exemplo o SGP reduziu o n´ umero de prot´otipos do classificador a apenas um prot´otipo. As classes da base Thyroid s˜ao bastante desbalanceadas. Por raz˜oes ´obvias, o prot´otipo resultante foi da classe majorit´aria que corresponde em 92,6% dos exemplos. Por´em, usando a estrat´egia tradicional do vizinho mais pr´oximo e tendo como referˆencia o conjunto de prot´otipos de um classificador, ´e imposs´ıvel resolver satisfatoriamente um problema de classifica¸c˜ao de duas classes utilizando um u ´nico prot´otipo. Como efeito disto, todos os exemplos das classes minorit´arias foram classificados erroneamente. Uma situa¸c˜ao similar ´e ilustrada na Figura 3.1 utilizando dados artificiais no espa¸co bidimensional. 1.8 Class 1 Class 2 Prototypes 1 Prototypes 2. 1.6. 1.4. 1.2. 1. 0.8. 0.6. 0.4. 0.5. 1. 1.5. 2. Figura 3.1 Simula¸c˜ao de um problema do SGP utilizando dados artificiais 2-D.. A Figura 3.1 exibe uma simula¸c˜ao que deixa evidente o comportamente n˜ao desejado do SGP. Nela s˜ao mostrados a distribui¸ca˜o dos padr˜oes das classes e os prot´otipos 24.

Referências

Documentos relacionados

Os açúcares adicionados estão presentes nos alimentos sob a forma de: açúcar (que pode ser branco ou amarelo), xarope de milho, frutose, maltose, mel, melaço, entre outros

Além disso, é também de referir que ao longo do estágio, foram-me regularmente colocadas questões e pequenos trabalhos de pesquisa, relativos a vários produtos (quer

121 FIGURE 4.6 | Inhibition zone diameters (IZDs) promoted by ciprofloxacin (CIP) against Staphylococcus aureus SA1199B growing during 15 days in the presence of

Este estudo tem como objetivos identificar os níveis de trauma manifestados e de estratégias de coping utilizadas pelos TEPH; caracterizar os incidentes mais

Assim, propusemos que o processo criado pelo PPC é um processo de natureza iterativa e que esta iteração veiculada pelo PPC, contrariamente ao que é proposto em Cunha (2006)

The Anti-de Sitter/Conformal field theory (AdS/CFT) correspondence is a relation between a conformal field theory (CFT) in a d dimensional flat spacetime and a gravity theory in d +

An optimized set of loading (tension), frequency and number of cycles was obtained. Concerning the method validation, using modified T-test samples in fresh and humidity-aging

These characteristics make secondary batteries a good choice in two major types of application, as an energy storage device (e.g. Uninterruptible Power Sources, Stationary