Classificador simbólico baseado em regiões de tipo casca convexa

Texto

(1)Universidade Federal de Pernambuco Centro de Informática. Pós-gradua¸cão em Ciência da Computa¸cão. ´ CLASSIFICADOR SIMBOLICO BASEADO ˜ EM REGIOES DE TIPO CASCA CONVEXA. Simith Tupinambá DÓliveira Júnior. ˜ DE MESTRADO DISSERTAC ¸ AO. Recife 01 de Mar¸co de 2005.

(2) Universidade Federal de Pernambuco Centro de Informática. Simith Tupinambá DÓliveira Júnior. ´ ˜ CLASSIFICADOR SIMBOLICO BASEADO EM REGIOES DE TIPO CASCA CONVEXA. Trabalho apresentado ao Programa de P´ os-gradua¸ c˜ ao em Ciˆ encia da Computa¸ c˜ ao do Centro de Inform´ atica da Universidade Federal de Pernambuco como requisito parcial para obten¸ c˜ ao do grau de. Mestre em Ciˆ encia da Com-. puta¸ c˜ ao.. Orientador: Prof. Francisco de Assis Ten´ orio de Carvalho Co-orientadora: Profa. Renata Maria Cardoso Rodrigues Souza.

(3)

(4) iii. Recife 01 de Mar¸co de 2005.

(5) A minha esposa, minha filha e meus pais..

(6) AGRADECIMENTOS. Agrade¸co primeiramente a Deus, pelo desenlace de mais esta etapa em minha trajetória.. Ao orientador, professor Francisco de Assis Tenório de Carvalho, pela confian¸ca em mim depositada.. ` co-orientadora e grande amiga, professora Renata Maria Cardoso A Rodrigues Souza, pela dedica¸caõ especialmente no final dessa jornada.. Aos colegas de trabalho, pelo apoio e compreensão nos momentos mais dif´ıceis.. Ao CNPq pelo apoio financeiro. v.

(7) RESUMO. Com os progressos recentes nas tecnologias das ciências de informa¸caõ, diferentes técnicas são introduzidas para sintetizar, analisar e extrair conhecimentos das informa¸co˜es armazenadas em enormes bases de dados. A análise de dados simbólicos (SDA) é um dom´ınio na a´rea de descoberta automática de conhecimentos (KDD), relacionada com análise de dados multivariados, reconhecimento de padrões, inteligência artificial e banco de dados. SDA visa generalizar os métodos da análise exploratória de dados e as técnicas estat´ısticas (análise fatorial, regressão, classifica¸caõ etc.) para dados simbólicos. Esses novos dados são mais complexos do que os dados clássicos, pois contêm varia¸caõ interna e são estruturados. Este trabalho introduz um classificador para dados descritos por vetores de valores quantitativos baseado em regiões de tipo casca convexa. A idéia central desta abordagem é construir regiões que descrevem e discriminem classes de exemplos observados. Nos classificadores para dados simbólicos baseados em regiões existentes na literatura de SDA, a etapa de aprendizagem fornece a descri¸caõ de uma classe por uma região (ou conjunto de regiões), definida pelo hiper-cubo formado pelos objetos pertencentes a esta classe. Esta descri¸caõ é obtida através de um operador simbólico (jun¸caõ) e um Grafo de Vizinhos M´ utuos. Na etapa de aloca¸caõ, as novas observa¸co˜es são classificadas usando diferentes fun¸co˜es de matching. No classificador proposto neste trabalho, a descri¸caõ de cada classe é uma região (ou conjunto de regiões) em Rp definida pela casca convexa formada pelos seus objetos. Esta nova abordagem tem, como propósito, reduzir a sobre generaliza¸caõ que é produzida quando a classe é descrita por uma região (ou conjunto de regiões) definida pelo hipercubo formado pelos objetos da classe e, por isso, melhorar o desempenho do classificador. vi.

(8) resumo. vii. Na etapa de aloca¸caõ, cada nova observa¸caõ é afetada a uma classe ou grupo, de acordo com uma fun¸caõ de dissimilaridade que compara a descri¸caõ de uma classe (uma região ou um conjunto de regiões) com um ponto em Rp . Diferentes conjuntos de dados reais e artificiais são usados nesta avalia¸caõ. Para os dados simulados, a performance do classificador proposto é avaliada pela taxa de erro de classifica¸caõ, tempo de execu¸caõ e memória utilizada, em compara¸caõ com um classificador para dados simbólicos que usa hiper-cubos para descrever as classes. Esta performance é computada no quadro de uma simula¸caõ de tipo Monte Carlo. Para os dados reais, a performance do classificador proposto também é avaliada pela taxa de erro de classifica¸caõ, tempo de execu¸caõ e memória utilizada em compara¸caõ com os algoritmos Part e J48. A performance, para o caso real, é computada usando o 10-Fold repetido. Os resultados mostraram que, em termos da taxa de erro de classifica¸caõ, o método proposto é superior ao método em que as regiões são representadas por hiper-cubos, porém o mesmo não ocorre em rela¸caõ aos algoritmos Part e J48, pois, em algumas situa¸co˜es, o método proposto é superior a esses algoritmos.. Palavras-chave: análise de dados simbólicos, classifica¸caõ supervisionada, abordagem orientada a` região, casca convexa, dados simbólicos..

(9) ABSTRACT. On the recent advancement from the information sciences technologies, different techniques are introduced to synthesize, analyze and extract information knowledge stored in huge databases. The symbolic data analysis (SDA) is a domain in the area of automatic knowledge discovery (KDD), related with multivariate data analysis, pattern recognition, artificial intelligence and database. SDA aims to generalize methods of the exploratory data analysis, and the statistical techniques (factorial analysis, regression, classification, etc) to symbolic data. These new data are more complex than the classic ones. Therefore it contains internal variation and they are structuralized. This work introduces a classifier for quantitative values vectors based on convex hull regions. The approach central idea is to construct regions that describes and discriminates the class of observed examples. In the SDA literature related to symbolic classifiers based on regions, each class at the end of the learning step, is described by a convex hull (or set of regions) defined by the hyper-cube formed by the objects belonging to this class. This description is obtained by a symbolic operator (join) and a Mutual Neighborhood Graph. On the allocation step, the new observations are assigned, using different matching functions. On the proposed classifier,the description of each class is a region (or set of regions) in Rp defined by the convex hull formed by its objects. This new approach aims to reduce the over generalization that is produced when each class is described by a region (or set of regions) defined by the hyper-cube formed by the class objects and then, to improve the accuracy performance of the classifier. On the allocation step, each new observation is assigned to a class based on a dissimilarity function which compares the class description (a region or a set of regions) with a point in Rp . viii.

(10) abstract. ix. Different real and artificial data sets are used in the evaluation. Taking into account simulated data, the evaluation of the proposed classifier is performed based on accuracy prediction, speed and storage,in comparison to a symbolic classifier that uses hyper-cubes to describe the class. This performance is computed in the framework a Monte Carlo experience. Taking into account real data, the evaluation of the classifier is also performed based on accuracy prediction, speed and storage in comparison with the algorithms Part and J48. On this case, the performance is computed using 10-Fold repeated. Results had shown that, in terms of the accuracy prediction, the considered method is superior to the method where the regions are represented by hyper-cubes. However, the same does not occur in relation to the Part algorithms and J48. In some situations, the considered method is superior to these algorithms.. Keywords: symbolic data analysis, supervised classification, region oriented approach, convex hull, symbolic data..

(11) ´ SUMARIO. 1. Cap´ıtulo 1—Introdu¸c˜ ao 1.1. Motiva¸caõ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1. 1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 2. 1.3. Organiza¸caõ da disserta¸caõ . . . . . . . . . . . . . . . . . . . . . . . . . .. 3. Cap´ıtulo 2—Classificadores supervisionados para dados simb´ olicos. 5. 2.1. Introdu¸caõ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 2.2. Dados usuais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 2.3. Dados simbólicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 2.4. Análise discriminante fatorial para dados simbólicos . . . . . . . . . . . .. 10. 2.5. Redes multi-layer perceptron para dados simbólicos . . . . . . . . . . . .. 12. 2.5.1. Método dos valores extremos . . . . . . . . . . . . . . . . . . . . .. 13. 2.5.2. Métodos probabil´ısticos. . . . . . . . . . . . . . . . . . . . . . . .. 14. 2.6. Discriminante kernel para dados simbólicos . . . . . . . . . . . . . . . . .. 14. 2.7. ´ Arvore de classifica¸caõ para dados simbólicos . . . . . . . . . . . . . . . .. 15. 2.8. Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 17. Cap´ıtulo 3—Classificadores baseados em regi˜ ao para dados simb´ olicos. 18. 3.1. Introdu¸caõ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 18. 3.2. Conceitos de regiões e grafo . . . . . . . . . . . . . . . . . . . . . . . . .. 19. 3.2.1. 20. Opera¸caõ jun¸caõ . . . . . . . . . . . . . . . . . . . . . . . . . . .. x.

(12) ´ rio suma. xi. 3.2.2. J-Região . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 20. 3.2.3. Vizinhan¸ca m´ utua . . . . . . . . . . . . . . . . . . . . . . . . . .. 20. 3.2.4. Conceitos básicos da teoria dos grafos . . . . . . . . . . . . . . . .. 21. 3.2.5. Grafo de vizinhos m´ utuos . . . . . . . . . . . . . . . . . . . . . .. 23. 3.3. Constru¸caõ do MNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 24. 3.4. Aproxima¸co˜es do grafo de vizinhos m´ utuos . . . . . . . . . . . . . . . . .. 25. 3.4.1. Aproxima¸caõ do MNG: abordagem I . . . . . . . . . . . . . . . .. 26. 3.4.2. Aproxima¸caõ do MNG: abordagem II . . . . . . . . . . . . . . . .. 27. 3.5. Etapa de aloca¸caõ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 28. 3.6. Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 30. Cap´ıtulo 4—Classificador baseado em casca convexa. 31. 4.1. Introdu¸caõ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 31. 4.2. Casca convexa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 32. 4.2.1. Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 33. 4.2.2. ´ Area da casca convexa . . . . . . . . . . . . . . . . . . . . . . . .. 34. 4.3. Região representada por casca convexa . . . . . . . . . . . . . . . . . . .. 36. 4.4. Etapa de aprendizagem . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 37. 4.5. Extensões do algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 41. 4.5.1. Extensão 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 41. 4.5.2. Extensão 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 42. 4.5.3. Extensão 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 42. 4.6. Etapa de aloca¸caõ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 43. 4.7. Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 45. Cap´ıtulo 5—Avalia¸c˜ ao do classificador. 46. 5.1. Introdu¸caõ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 46. 5.2. Conjuntos de dados artificiais . . . . . . . . . . . . . . . . . . . . . . . .. 48. 5.2.1. 48. Imagens SAR simuladas . . . . . . . . . . . . . . . . . . . . . . ..

(13) ´ rio suma 5.2.2. xii Dados usuais simulados . . . . . . . . . . . . . . . . . . . . . . . .. 64. 5.3. Conjuntos de dados reais . . . . . . . . . . . . . . . . . . . . . . . . . . .. 69. 5.4. Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 72. Cap´ıtulo 6—Conclus˜ oes. 74. 6.1. Introdu¸caõ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 74. 6.2. Considera¸co˜es finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 74. 6.3. Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 75.

(14) LISTA DE FIGURAS. 3.1. Representa¸caõ de vetores e opera¸co˜es no plano cartesiano . . . . . . . . .. 20. 3.2. Rela¸caõ de vizinhan¸ca . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 21. 3.3. Grafo de vizinho m´ utuo . . . . . . . . . . . . . . . . . . . . . . . . . . .. 23. 3.4. MNGs para as classes e as J-regiões associadas . . . . . . . . . . . . . . .. 25. 3.5. Aproxima¸caõ do MNG para abordagem Ichino e Souza . . . . . . . . . .. 28. 4.1. Representa¸caõ cartesiana de S . . . . . . . . . . . . . . . . . . . . . . . .. 32. 4.2. Casca convexa de S e um semi-plano que não contém S . . . . . . . . . .. 33. 4.3. Etapas do gift wrapping . . . . . . . . . . . . . . . . . . . . . . . . . . .. 34. 4.4. Pol´ıgono qualquer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 35. 4.5. Trapezóide ABGF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 35. 4.6. Classe com 6 indiv´ıduos . . . . . . . . . . . . . . . . . . . . . . . . . . .. 37. 4.7. J-região, H-região e a sobre-generaliza¸caõ . . . . . . . . . . . . . . . . . .. 37. 4.8. Vizinhan¸ca m´ utua nas diferentes abordagens . . . . . . . . . . . . . . . .. 38. 4.9. Diferentes MNGs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 40. 4.10 Aproxima¸co˜es do MNG . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 40. 4.11 Diferen¸cas em a´reas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 45. 5.1. Classificador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 46. 5.2. Módulo Imagem SAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 49. 5.3. Phantom representando cinco regiões . . . . . . . . . . . . . . . . . . . .. 51. 5.4. Conjunto de dados para a situa¸caõ 1 . . . . . . . . . . . . . . . . . . . .. 53. 5.5. Conjunto de dados para a situa¸caõ 2 . . . . . . . . . . . . . . . . . . . .. 53. 5.6. Phantom representando três regiões . . . . . . . . . . . . . . . . . . . . .. 57. xiii.

(15) LISTA DE FIGURAS. xiv. 5.7. Conjunto de dados para a situa¸caõ 1 . . . . . . . . . . . . . . . . . . . .. 58. 5.8. Conjunto de dados para a situa¸caõ 2 . . . . . . . . . . . . . . . . . . . .. 59. 5.9. Dados quantitativos com três classes . . . . . . . . . . . . . . . . . . . .. 65. 5.10 Dados quantitativos com cinco classes . . . . . . . . . . . . . . . . . . . .. 66.

(16) LISTA DE TABELAS. 2.1. Tabela de dados usuais . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 2.2. Tabela de dados simbólicos . . . . . . . . . . . . . . . . . . . . . . . . . .. 9. 4.1 Índices de acordo e desacordo entre ω e Chs . 5.1. . . . . . . . . . . . . . . . .. 43. Tabela das poss´ıveis formas em que o algoritmo de aprendizagem proposto pode se apresentar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 50. 5.2. Propriedades distribucionais da imagem (situa¸caõ1) . . . . . . . . . . . .. 52. 5.3. Propriedades distribucionais da imagem (situa¸caõ 2) . . . . . . . . . . . .. 52. 5.4. Tabela comparativa do erro obtido pelos classificadores 1 ao 6 . . . . . .. 54. 5.5. Tabela comparativa do desvio padrão dos erros obtido pelos classificadores 1 ao 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.6. Tabela comparativa do espa¸co na memória utilizado pelos classificadores 1 ao 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.7. 55. 55. Tabela comparativa do tempo de simula¸caõ obtido pelos classificadores 1 ao 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 56. 5.8. Propriedades distribucionais da imagem (situa¸caõ1) . . . . . . . . . . . .. 57. 5.9. Propriedades distribucionais da imagem (situa¸caõ 2) . . . . . . . . . . . .. 58. 5.10 Compara¸caõ entre os classificadores de acordo com a taxa de erro. . . . .. 60. 5.11 Compara¸caõ entre os classificadores de acordo com a taxa de erro. . . . .. 60. 5.12 Compara¸caõ entre os classificadores de acordo com a memória utilizada. .. 61. 5.13 Compara¸caõ entre os classificadores de acordo com a memória utilizada. .. 62. 5.14 Compara¸caõ entre os classificadores de acordo com o tempo de processamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xv. 63.

(17) LISTA DE TABELAS. xvi. 5.15 Compara¸caõ entre os classificadores de acordo com o tempo de processamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 63. 5.16 Compara¸caõ entre os classificadores de acordo com a taxa de erro. . . . .. 67. 5.17 Compara¸caõ entre os classificadores de acordo com a taxa de erro. . . . .. 67. 5.18 Compara¸caõ entre os classificadores de acordo com o memória utilizada. .. 67. 5.19 Compara¸caõ entre os classificadores de acordo com o memória utilizada. .. 68. 5.20 Compara¸caõ entre os classificadores de acordo com o tempo de processamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 68. 5.21 Compara¸caõ entre os classificadores de acordo com o tempo de processamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 68. 5.22 Compara¸caõ entre os classificadores de acordo com a taxa de erro. . . . .. 71. 5.23 Compara¸caõ entre os classificadores de acordo com a taxa de erro. . . . .. 71. 5.24 Compara¸caõ entre os classificadores de acordo com a taxa de erro. . . . .. 72. 5.25 Compara¸caõ entre os classificadores de acordo com a taxa de erro. . . . .. 72.

(18) CAPÍTULO 1. ˜ INTRODUC ¸ AO. 1.1. ˜ MOTIVAC ¸ AO O uso cada vez mais freq¨ uente dos computadores tem alterado radicalmente a maneira. como o trabalho é conduzido nas organiza¸co˜es. Cada dia, mais opera¸co˜es corriqueiras são automatizadas e, a cada nova transa¸caõ, como compras com cartão de crédito, opera¸co˜es bancárias, novos registros são armazenados. Além disso, avan¸cos em aquisi¸caõ de dados, desde um simples leitor de código de barras até sistemas de sensoriamento remoto, geram grandes volumes de dados. Sistemas de gerenciadores de banco de dados estão presentes na maioria das organiza¸co˜es p´ ublicas e empresas de médio e grande porte, contendo os mais diferentes dados sobre produtos, fornecedores, clientes, empregados, etc. A descoberta de conhecimentos em bases de dados (Knowledge Discovery in Database KDD) é uma a´rea de pesquisa em bastante evidência no momento em que visa desenvolver meios automáticos de prospeçcaõ de conhecimento em grandes bases de dados. A análise de dados simbólicos [Boc00a] é uma abordagem na a´rea da descoberta automática de conhecimentos (KDD) e gerenciamento de dados, relacionada com análise de dados multivariados, reconhecimento de padrões, inteligência artificial e banco de dados. O principal objetivo de SDA é desenvolver métodos para tratamento de dados mais complexos, como intervalos, conjuntos e distribui¸caõ de probabilidades ou de pesos e que consiste na extensão dos métodos e algoritmos de extra¸caõ de conhecimentos (técnicas estat´ısticas) a partir de dados usuais, para os dados simbólicos. Como uma categoria diferente de método de classifica¸caõ, diversos classificadores foram desenvolvidos baseados em uma abordagem geométrica, chamada orientada a` região. Este método consiste em encontrar as regiões no espa¸co de caracter´ısticas que 1.

(19) 1.2 objetivos. 2. descrevem classes de objetos (indiv´ıduos) e introduzir uma medida adequada de proximidade entre uma região e o novo objeto a ser classificado. [Ich79] e [Ich81] propôs o uso de hiper-retângulos para descrever as classes no espa¸co de caracter´ıstica. Em [Ich86], [Ich93] e [Ich94], este método é generalizado para tratar com dado simbólico. Mais tarde em [Ich96] e [Yag96] foi introduzido um classificador para dados do tipo quantitativo, categórico, intervalar e multivalorado. Essa abordagem é uma adapta¸caõ do conceito de vizinhan¸ca m´ utua introduzido em [Gow78] para definir vizinhan¸ca m´ utua entre dados simbólicos e grafo de vizinhos m´ utuos entre grupos. A motiva¸caõ deste trabalho foi construir um classificador para dados descritos por vetores de valores quantitativos, no qual a representa¸caõ das classes, o grafo de vizinhos m´ utuos (se¸caõ 3.2.5) e a fun¸caõ de dissimilaridade são baseados em regiões de tipo casca convexa. Nos classificadores para dados simbólicos baseados em região existentes na literatura de SDA, a representa¸caõ das classes, o grafo de vizinhos m´ utuos e a fun¸caõ de dissimilaridade são baseadas em regiões definidas pelo hiper-cubo formado pelos objetos pertencentes a esta classe.. 1.2. OBJETIVOS O objetivo principal deste trabalho foi implementar uma abordagem para classificador. baseada em regiões de tipo casca convexa cuja finalidade é reduzir a sobre generaliza¸caõ que é produzida quando a classe é descrita por uma região (ou conjunto de regiões) definida pelo hiper-cubo formado pelos objetos da classe e, desta forma, melhorar a performance do classificador. Também introduzimos uma fun¸caõ de dissimilaridade que combina a diferen¸ca de conte´ udo e a diferen¸ca de volume entre a descri¸caõ do objeto a ser alocado e a descri¸caõ de uma classe para formar uma fun¸caõ de dissimilaridade baseada em diferen¸cas de volume..

(20) ˜ o da dissertac õ 1.3 organizac ¸a ¸a 1.3. 3. ˜ DA DISSERTAC ˜ ORGANIZAC ¸ AO ¸ AO Além deste cap´ıtulo, no qual foram apresentados tanto a motiva¸caõ assim como uma. breve explana¸caõ sobre o estado da arte sobre o assunto abordado e os objetivos deste trabalho, esta disserta¸caõ será apresentada em mais cinco cap´ıtulos que são:. Cap´ıtulo 2: Classificadores supervisionados para dados simb´ olicos A finalidade deste cap´ıtulo é fornecer uma breve explana¸caõ sobre as extensões para dados simbólicos dos algoritmos de classifica¸caõ supervisionada clássicos.. Iniciamos. apresentando os dois tipos de dados que os classificadores aceitam com entrada: os dados usuais (se¸caõ 2.2) e os dados simbólicos (se¸caõ 2.3). Nas se¸co˜es subseq¨ uentes, entramos em detalhe na abordagem simbólica de alguns algoritmos de classifica¸caõ supervisionada clássicos: análise discriminante fatorial para dados simbólicos, na se¸caõ 2.4; redes multilayer perceptron para dados simbólicos, na se¸caõ 2.5; discriminante kernel para dados simbólicos, na se¸caõ 2.6; a´rvore de classifica¸caõ para dados simbólicos, na se¸caõ 2.7.. Cap´ıtulo 3: Classificadores baseados em regi˜ ao para dados simb´ olicos Este cap´ıtulo será dedicado aos classificadores baseados em região para dados simbólicos existentes na literatura de SDA. Na se¸caõ 3.2, serão descritos os conceitos de regiões e grafos; na se¸caõ 3.3, será apresentada a etapa de aprendizagem do classificador; na se¸caõ 3.5, será exposta a etapa de aloca¸caõ, em que as novas observa¸co˜es são classificadas usando diferentes fun¸co˜es de matching.. Cap´ıtulo 4: Classificador Baseado em Casca Convexa Neste cap´ıtulo será apresentado um novo classificador baseado em uma abordagem orientada a região. A se¸caõ 4.2 será dedicada a` casca convexa, cujo conceito está presente em todo decorrer do cap´ıtulo. Na se¸caõ 4.3, será descrita a H-região, a forma proposta de descrever uma classe através da casca convexa de seus pontos; a se¸caõ 4.4 será destinada.

(21) ˜ o da dissertac õ 1.3 organizac ¸a ¸a. 4. a` etapa de aprendizagem do classificador proposto; na se¸caõ 4.5, algumas extensões do algoritmo de aprendizagem proposto serão expostos e na u ´ltima se¸caõ mostramos a etapa de aloca¸caõ cuja fun¸caõ de dissimilaridade combina a diferen¸ca de conte´ udo e a diferen¸ca de volume entre a descri¸caõ do objeto a ser alocado e a descri¸caõ de uma classe, para formar uma fun¸caõ de dissimilaridade baseada em diferen¸cas de volume.. Cap´ıtulo 5: Resultados dos Experimentos Na primeira parte deste cap´ıtulo (se¸caõ 5.2), foram apresentados os resultados fornecidos pelo classificador proposto usando conjuntos de dados artificiais. Além disso, foram apresentados os resultados de testes t-Student, comparando a abordagem H-região (proposta) e as abordagens J-região. Na segunda parte (se¸caõ 5.3), foi descrita a aplica¸caõ do método proposto em um conjunto de dados reais.. Cap´ıtulo 6: Conclus˜ oes e Futuros Trabalhos Por fim, mostramos as conclusões e considera¸co˜es finais deste trabalho, bem como os futuros estudos que poderão ser realizados, a partir das idéias aqui apresentadas..

(22) CAPÍTULO 2. CLASSIFICADORES SUPERVISIONADOS PARA ´ DADOS SIMBOLICOS. 2.1. ˜ INTRODUC ¸ AO Com o crescente interesse da comunidade cient´ıfica pela análise de dados simbólicos,. muitos dos algoritmos de classifica¸caõ supervisionada clássicos, atualmente, já possuem uma extensão para dados simbólicos entre os quais podemos mencionar: em [Lau00] foi proposta uma generaliza¸caõ da análise discriminante fatorial para dados simbólicos; em [Ros02], foram estudados dois métodos que permitem o uso de dados simbólicos do tipo intervalo como entrada para redes multi-layer perceptrons; já em [Ras00], foi apresentada uma abordagem para dados simbólicos do discriminate kernel. Por fim, em [Cia00], foi proposto estender o algoritmo de crescimento de a´rvore de classifica¸caõ para dados imprecisos. Uma parte considerável dos classificadores para dados simbólicos também aceitam como entrada dados usuais, portanto, nas duas primeiras se¸co˜es, foram apresentados os dados usuais (se¸caõ 2.2) e os dados simbólicos (se¸caõ 2.3). Nas se¸co˜es subseq¨ uentes, descrevemos cada algoritmo de classifica¸caõ mencionado anteriormente: análise discriminante fatorial para dados simbólicos na se¸caõ 2.4; redes multi-layer perceptron para dados simbólicos, na se¸caõ 2.5; discriminante kernel para dados simbólicos, na se¸caõ 2.6; a´rvore de classifica¸caõ para dados simbólicos, na se¸caõ 2.7; por fim a conclusão, na se¸caõ 2.8.. 5.

(23) 6. 2.2 dados usuais 2.2. DADOS USUAIS Os dados usuais descrevem situa¸co˜es relativamente simples, tais como mostrado em. Tabela 2.1. Esses dados são obtidos principalmente pelas caracter´ısticas observadas em indiv´ıduos (pessoas, objetos, produto), e sua principal propriedade é que tais caracter´ısticas são definidas por um u ńico valor cada. A seguir uma defini¸caõ mais formal: Para um dado n´ umero n de objetos Ω = {1, 2, . . . , n}, p variáveis Y1 , . . . , Y p descrevem suas caracter´ısticas. Cada variável clássica Yi é definida como o mapeamento de um u ńico valor de Ω para γi , sendo γi o dom´ınio de Yi , tal que xki = Yi (k) é o valor observado para o indiv´ıduo k [Boc00b]. altura(m) no de filhos grau de instru¸caõ. indiv´ıduo. sexo. peso(Kg). k1. F. 52. 1.65. 1. secundário. k2. M. 70. 1.72. 2. superior. k3. M. 80. 1.74. 5. fundamental. k4. M. 65. 1.68. 0. médio. Tabela 2.1. Tabela de dados usuais. As variáveis usuais podem ser classificadas como quantitativas ou qualitativas, conforme as defini¸co˜es abaixo: Yi é quantitativa se γi é idêntico ou está contido em < : γi ⊆ <. As variáveis quantitativas podem ser subdivididas em: 1. quantitativa cont´ınua, se γi é um intervalo de <; 2. quantitativa discreta, se γi é um conjunto finito ou infinito contável de valores de <. Yi é qualitativa (categórica), se γi é finito e seus elementos são categorias sem significado numérico. As variáveis qualitativas também podem ser subdivididas conforme o seguinte:.

(24) ´ licos 2.3 dados simbo. 7. 1. qualitativa nominal, se γi não possui estrutura interna; 2. qualitativa ordinal, se existe uma ordem linear total entre as categorias de γ i . A Tabela 2.1 representa os dados usuais para 4 indiv´ıduos com 3 variáveis quantitativas peso, altura e n´ umero de filhos, sendo peso e altura quantitativas cont´ınuas e n´ umero de filhos quantitativa discreta; e 2 variáveis qualitativas, sexo e grau de instru¸caõ, sendo sexo qualitativa nominal e grau de instru¸caõ, qualitativa ordinal.. 2.3. ´ DADOS SIMBOLICOS Muitas vezes, é necessário que as variáveis de um indiv´ıduo k assumam informa¸co˜es. mais complexas tais como intervalos, conjuntos, histogramas e distribui¸co˜es de probabilidade. Em tais situa¸co˜es, como os descritos nos exemplos adiante, o uso de dados usuais torna-se inapropriado, sendo necessária a utiliza¸caõ de um tipo de dado mais complexo, os dados simbólicos. Introduzimos o conceito de dados simbólicos através dos exemplos: dados simbólicos para indiv´ıduos e dados simbólicos para classe de indiv´ıduos, em seguida damos uma defini¸caõ formal de variáveis para dados simbólicos de um indiv´ıduo k qualquer.. Dados simb´ olicos descrevendo indiv´ıduos. As atividades de um estudante (indiv´ıduo) k possuem caracter´ısticas que são melhores representadas por dados simbólicos. Para a variável Wj : tempo de estudo diário, um u ńico valor (4h, por exemplo) não representaria a varia¸caõ diária, logo o valor para Wj (k) poderia ser: 1. intervalo de horas Wj (k):[0,15]; 2. uma distribui¸caõ de probabilidade Wj (k):((0,0.1),(3,0.2),(6,0.4),(10,0.3)), no qual, no par (m,n), m é o n´ umeros de horas e n é a probabilidade associada..

(25) ´ licos 2.3 dados simbo. 8. Dados simb´ olicos descrevendo classes de indiv´ıduos. Os dados simbólicos são especialmente adequados para representar classes de indiv´ıduos (objetos agregados). Consideramos que estamos analisando as cidades do grande Recife (conjunto de indiv´ıduos) e k é uma dessas cidades; uma caracter´ıstica a considerar seria Wj : grau de instru¸caõ dos habitantes. O valor Wj (k) poderia ser: 1. o conjunto de graus de instru¸caõ Wj (k):analfabeto, fundamental, médio, superior; 2. uma distribui¸caõ de probabilidade Wj (k):((analfabeto,0.3), (fundamental,0.4), (médio,0.2), (superior,0.1)). Seja E um conjunto de n indiv´ıduos descritos por um conjunto de p variáveis W1 , . . . , Wp , sendo ωi o dom´ınio de Wi , temos as seguintes classifica¸co˜es de variáveis para dados simbólicos:. Vari´ aveis do tipo multivalorada. Uma variável W, definida para cada indiv´ıduo k do conjunto E, é dita como multivalorada com dom´ınio ω, se W(k) é subconjunto de ω. As variáveis multivaloradas podem ser subdivididas nos seguintes tipos: 1. uma variável W é dita multivalorada categórica, se ω é um conjunto finito de categorias; 2. uma variável W é dita multivalorada quantitativa discreta, se W(k) é conjunto finito de n´ umeros reais; 3. uma variável W é dita multivalorada de tipo intervalo, se W(k) é um intervalo dos n´ umeros reais ou um intervalo com respeito a uma determinada ordem em ω..

(26) ´ licos 2.3 dados simbo. 9. Vari´ aveis do tipo modal. A variável modal W, definida sobre o conjunto E com dom´ınio ω, é uma fun¸caõ W(k)=(U(k),π(k)) no qual • π(k) é uma medida ou uma distribui¸caõ (freq¨ uência, probabilidade, pesos) definida no dom´ınio ω; • U(k) ⊆ γ é o suporte de π no dom´ınio ω. As variáveis modais associam, para cada categoria w ∈ W(k), distribui¸caõ de freq¨ uências, probabilidades ou pesos que indicam quão freq¨ uente, t´ıpica ou relevante a categoria w é considerada para o objeto k. A Tabela 2.2 representa dados simbólicos que contêm informa¸co˜es sobre um conjunto X={cidade1 , cidade2 , cidade3 , cidade4 } de objetos. Para tal conjunto, as caracter´ısticas de interesse de seus indiv´ıduos necessitam de informa¸co˜es mais complexas: a variável popula¸caõ é multivalorada do tipo intervalo; a variável espectro pol´ıtico é modal e a variável institui¸co˜es bancárias é multivalorada categórica. cidade. Popula¸caõ(milhares). Espectro Pol´ıtico. Institui¸co˜es Bancárias. (Esquerda,Centro,Direita) cidade1. [80,100]. (E,0.3), (C,0.4), (D,0.3). BB, Caixa, Bradesco. cidade2. [100,130]. (E,0.2), (C,0.4), (D,0.4). BB, Rural. cidade3. [16,25]. (E,0.4), (C,0.4), (D,0.2). Caixa, Unibanco. cidade4. [56,68]. (E,0.2), (C,0.5), (D,0.3). Bradesco,BB. Tabela 2.2. Tabela de dados simbólicos.

(27) ´ lise discriminante fatorial para dados simbo ´ licos 2.4 ana 2.4. 10. ´ ´ ANALISE DISCRIMINANTE FATORIAL PARA DADOS SIMBOLICOS Análise discriminante refere-se ao conjunto de técnicas cujo objetivo é descrever as. rela¸co˜es entre um conjunto de p variáveis quantitativas (descritores) e uma variável categórica com m rótulos, que é a variável classificatória definidora da parti¸caõ de uma popula¸caõ de interesse em m classes. A análise discriminante consiste em dois aspectos principais: • sele¸caõ do melhor subconjunto dos descritores originais (aspecto de sele¸caõ); • constru¸caõ da regra de decisão (regra de classifica¸caõ), com objetivo de classificar elementos em uma das m classes (aspecto classificatório). Na Análise Discriminante Fatorial (Factorial Data Analysis - FDA) [Joh01], o aspecto de sele¸caõ é realizado em termos de combina¸caõ linear das p variáveis descritoras originais, escolhidas de forma que se obtenha a melhor visualiza¸caõ das classes no espa¸co fatorial. O aspecto classificatório da FDA é desempenhado pela defini¸caõ da regra de classifica¸caõ geométrica, baseada na proximidade entre o indiv´ıduo e a classe. A Análise Discriminante Fatorial para Dados Simbólicos é um método simbóliconumérico-simbólico, baseado em uma análise numérica dos dados simbólicos transformados e uma interpreta¸caõ simbólica dos resultados. Este método é constitu´ıdo dos seguintes passos: i) quantifica¸caõ dos descritores; ii) FDA nos descritores quantificados; iii) interpreta¸caõ simbólica dos resultados. A primeira etapa da Análise Discriminante Fatorial para Dados Simbólicos é realizada pela transforma¸caõ numérica do dado simbólico, que consiste em uma codifica¸caõ adequada de acordo com o tipo de variável (se¸caõ 2.3). Ao final deste processo, temos N descritores numéricos. A segunda etapa assume θj , ∀j = 1, . . . , N como os novos descritores..

(28) ´ lise discriminante fatorial para dados simbo ´ licos 2.4 ana. 11. O n´ umero de coordenadas a serem mantidas na análise discriminante fatorial é escolhida de forma usual, ou seja, baseando-se na porcentagem de variância dos descritores, explicada pelas q ≤ min(M, N −1) primeiras coordenadas, para N o n´ umero de descritores e M o n´ umero de classes. Au ´ltima fase é representada pela defini¸caõ da regra de classifica¸caõ geométrica. Considerando que ambas, a instância a ser classificada e as classes, são representadas no espa¸co fatorial por retângulos. A classifica¸caõ da instância em uma classe Ci é definida de acordo com dois eventos: i) se o exemplo (retângulo) estiver inclu´ıdo na classe Ci , este é assinalado a esta classe; ii) se o exemplo está parcialmente ou completamente fora de todas as classes ou dentro de uma a´rea de sobreposi¸caõ entre duas ou mais classes, considera-se uma medida de similaridade para determinar a qual classe Ci o elemento pertence. Existem algumas regras de classifica¸caõ geométricas na literatura [Boc00a], entre as quais podemos destacar aquelas baseadas no potencial descritor π(.), definido por De Carvalho [Car92], como o volume do produto cartesiano definido sobre os dom´ınios das variáveis. Logo abaixo, apresentamos uma regra de classifica¸caõ baseada no potencial descritor:. Regra de classifica¸c˜ ao baseada em uma extens˜ ao da medida de dissimilaridade de Minkowsky. Baseada em uma medida de dissimilaridade proposta por Ichino e Yaguchi [Ich94] e generalizada para dado simbólico por De Carvalho e Diday [Car]:. d(ωj , ωs ) =. s m. X. (pα Ψα (ωj , ωs ))m. (.). α. onde ωj e ωs são a representa¸caõ fatorial de dois elementos j e s, pα é o α autovalor e m é o n´ umero de coordenadas fatoriais,.

(29) ´ licos 2.5 redes multi-layer perceptron para dados simbo. Ψ(ωj , ωs ) =. µ(Sαs ⊕ Sαj ) − µ(Sαs ∩ Sαj ) + γ(2µ(Sαs ∩ Sαj ) − µ(Sαs ) − µ(Sαj )) j). µ(Sαs ⊕ Sα. 12. ,. (.). com γ ∈ [0, 1], µ(Sαs ) é o tamanho do intervalo do elemento na coordenada α, µ(Sαs ⊕ Sαj ) é o tamanho do intervalo obtido pela jun¸caõ dos intervalos dos elementos j e s na coordenada α e µ(Sαs ∩ Sαj ) é o tamanho da conjun¸caõ dos intervalos dos elementos na coordenada α. Dado um exemplo u do conjunto de teste, este é alocado para uma determinada classe Ci se a média das distâncias entre u e todos os elementos da classe Ci for menor em rela¸caõ a todas as médias das outras classes.. 2.5. ´ REDES MULTI-LAYER PERCEPTRON PARA DADOS SIMBOLICOS As redes neurais artificiais são modelos não-paramétricos e, em geral, não-lineares,. compostos por unidades de processamento paralelamente interconectadas, normalmente adaptativas, cuja organiza¸caõ é baseada em modelos f´ısicos de sistemas biológicos [Bra00]. Dentre os vários modelos de redes neurais artificiais, a rede Perceptron Multi-Camadas (multlayer perceptron - MLP) é a mais difundida. Tipicamente, a rede consiste em um conjunto de unidades sensoriais que constituem a camada de entrada, uma ou mais camadas escondidas e uma camada de sa´ıda de nós computacionais. Seu poder computacional excede a capacidade das redes simples sem camada intermediária como Perceptron e Adaline, podendo tratar dados que não são linearmente separáveis [Bra00]. As principais caracter´ısticas de uma rede MLP são: • contém uma ou mais camadas escondidas; • o modelo de cada unidade de processamento inclui uma fun¸caõ de ativa¸caõ nãolinear, normalmente a log´ıstica (sigmóide) ou a tangente hiperbólica; • apresenta um alto grau de conectividade entre as camadas; • utiliza um algoritmo de treinamento (aprendizado) a fim de ajustar as conexões entre as unidades de processamento;.

(30) ´ licos 2.5 redes multi-layer perceptron para dados simbo. 13. O backpropagation [Rum 1] é o algoritmo de treinamento supervisionado mais conhecido para as redes MLP. Para tanto, utiliza pares de entrada associados com a sa´ıda desejada, para ajustar os pesos da rede por um mecanismo de adapta¸caõ por corre¸caõ de erros em duas fases (forward e backward). O backpropagation baseia-se na regra delta generalizada, recorrendo ao método do gradiente para ajustar os pesos das conexões entre os nodos. Em [Ros02], foram estudados dois tipos de métodos que permitem o uso de dados simbólicos do tipo intervalo como entrada para redes MLP´s: a abordagem dos valores extremos e dois procedimentos probabil´ısticos. Esses métodos têm as seguintes caracter´ısticas: 1. podem ser implementados facilmente no topo de um software de redes neurais existente. Um outro método baseado na idéia da aritmética do intervalo [Sim96] necessita que todas as etapas da rede neural (inicializa¸caõ, treinamento, visualiza¸caõ etc.) sejam modificadas e adaptadas ao método. 2. A MLP treinada com intervalos através de um destes métodos suporta tanto intervalos como dados usuais quantitativos como entrada. Esta caracter´ıstica é importante já que um dado usual pode ser considerado um intervalo cujos limites sejam iguais.. 2.5.1. M´ etodo dos valores extremos. A forma mais simples de se tratar intervalo como entrada para uma MLP é transformar cada intervalo em um par de dado usual, por exemplo os limites inferior e superior do intervalo, ou a média e o tamanho do intervalo. Como este artif´ıcio é poss´ıvel utilizar a MPL clássica, porém dobra a quantidade de dados de entrada. A fim de usar dados usuais em uma MLP treinada com o método dos valores extremos, deve-se replicar estes dados, isto é, uma entrada (x1 , . . . , xn ) torna-se (x1 , x1 , . . . , xn , xn )..

(31) ´ licos 2.6 discriminante kernel para dados simbo 2.5.2. 14. M´ etodos probabil´ısticos. Uma outra forma de tratar dados do tipo intervalo é considerá-los como simples dados probabil´ısticos. Se uma amostra para a MLP é descrita pelo intervalo [a,b], uma poss´ıvel interpreta¸caõ é presumir que de fato a amostra pode assumir qualquer valor entre a e b, com probabilidade uniforme. Baseado nessa premissa, o método da média substitui cada intervalo pela sua média e treina a rede com os valores obtidos. Dados usuais são tratados diretamente. Uma outra maneira de proceder é substituir cada amostra por um conjunto de valores reais. Esses valores são obtidos a partir de simula¸caõ, supondo que o intervalo [a,b] corresponde a uma distribui¸caõ uniforme em [a,b]. Essa abordagem é chamada de método de simula¸caõ. Para entradas novas de dados usuais, é usada a MLP treinada diretamente. Para entradas novas do tipo intervalo, são gerados valores reais simulados e computadas as sa´ıdas correspondentes normalmente.. 2.6. ´ DISCRIMINANTE KERNEL PARA DADOS SIMBOLICOS Nesta se¸caõ, apresentamos o método estat´ıstico de classifica¸caõ supervisionado, conhe-. cido como fun¸caõ kernel. Inicialmente vimos o caso clássico e, por fim, a abordagem simbólica. Consideremos que o conjunto de treinamento é formado pelas classes Π1 , . . . , Πg e estas, por sua vez, são descritas por g densidades de probabilidades, f1 (x), . . . , fg (x). Quando as densidades são conhecidas, o problema da classifica¸caõ é resolvido facilmente pelos métodos de máxima verossimelhan¸ca ou pela regra de Bayes (caso também seja fornecida a probabilidade a priori). Na maioria dos casos reais, porém, não é poss´ıvel supor um modelo paramétrico sobre as densidades de probabilidade das classes. Nessas circunstâncias, métodos não paramétricos devem ser usados para obter as estimativas das densidades. O discriminante kernel é um destes métodos. O estimador de densidade kernel para a densidade de probabilidade fk , 1 ≤ k ≤ g, e.

(32) ´ rvore de classificac ˜ o para dados simbo ´ licos 2.7 a ¸a. 15. dado quantitativo d-dimensional é fornecido pela seguinte fórmula: fbk (x) =. onde. nk X 1 x − xki , x ∈ <d , K d nk (2hk ) i=1 hk. (.). • hk > 0 é a largura da janela pré definida para a k-ésima classe. •. Pn k. i=1 K. . x−xki hk. . informa o n´ umero de elementos do conjunto de treinamento cuja. distância seja menor que hk de x.. Como já vimos, o estimador de densidade kernel é uma ferramenta que permite o estat´ıstico construir densidade em qualquer conjunto de dados [Ras00]. A fim de adaptar o método para dados simbólicos, algumas novas medidas de densidades fazem-se necessárias. Vamos supor que cada indiv´ıduo seja descrito por p variáveis simbólicas X=(Y1,...,Yp ). Com o objetivo de resolver o problema de discrimina¸caõ para dados simbólicos, teremos que encontrar uma analogia com o estimador de densidade clássico, apresentado anteriormente, que mede a concentra¸caõ de dados na vizinhan¸ca de X=x. Dessa forma, a estima¸caõ de densidade é realizada contando os pontos do conjunto de treinamento de cada popula¸caõ dentro do ”hipercubo”, usando uma medida de dissimilaridade d1 [Esp00], entre os objetos simbólicos x,y: Ibk (x) =. onde. Kx,h (y) =. 2.7.    1   0. nk 1 X Kx,h (xki ) nk i=1. se d1 (x, y) < h, h = hk para k = 1, . . . , g se d1 (x, y) ≥ h.. (.). (.). ´ ˜ PARA DADOS SIMBOLICOS ´ ARVORE DE CLASSIFICAC ¸ AO As a´rvores de classifica¸caõ ([Bre84] e [Cia92]) têm, como objetivo, predizer o n´ umero. de objetos em k classes, representados pela variável categórica c através da medi¸caõ.

(33) ´ rvore de classificac ˜ o para dados simbo ´ licos 2.7 a ¸a. 16. de uma ou mais variáveis preditoras. Em outras palavras, consiste em encontrar as probabilidades P[c|y], c em {1, . . . , k}, onde y denota a descri¸caõ de um objeto pelas variáveis preditoras. O algoritmo de a´rvore de classifica¸caõ compõe-se de quatro etapas básicas [Lew]. Na primeira, temos a constru¸caõ da a´rvore, utilizando algoritmo de parti¸caõ recursiva dos nós. Cada nó resultante é atribu´ıdo a uma classe, baseado na probabilidade a priori de cada classe, da matriz de custo e na fra¸caõ de elementos de cada classe no nó resultante. A segunda etapa consiste em parar o processo de constru¸caõ da a´rvore. Nesse ponto, foi produzida uma a´rvore ”máxima”que provavelmente sobreajustou a informa¸caõ contida na base de treinamento. Já a terceira etapa consta da poda da a´rvore, que resulta na cria¸caõ de uma seq¨ uência de a´rvores cada vez mais simples. Por fim, a quarta etapa é a sele¸caõ da a´rvore o´tima, aquela que ajusta melhor a informa¸caõ da base de aprendizagem sem sobre ajustá-la. O método apresentado em [Cia00] propõe estender o algoritmo de crescimento de a´rvore para dados imprecisos ou probabil´ısticos. O objetivo do método proposto é construir interativamente, a partir de uma lista de dados simbólicos β (base de treinamento), com ajuda de um procedimento de parti¸caõ interativa, outra lista ω (menor) de dados simbólicos que constitui a melhor informa¸caõ da lista β. Em outras palavras, o objetivo do método é aumentar interativamente o conjunto ω, que, a cada passo, produz a melhor informa¸caõ significativa sobre o conjunto β. Este processo é escrito em forma do seguinte problema maximiza¸caõ: max GInf(ω, β). (.). em que GInf é uma medida geral de informa¸caõ a qual expressa um conceito de adequa¸caõ entre dois conjuntos de asser¸co˜es. A idéia geral da parti¸caõ simbólica recursiva é resumida no algoritmo abaixo: ´ 1. Entrada: CONJUNTO DOS DADOS SIMBOLICOS A SEREM ESTUDADOS (β) ´ 2. PARTICIONAMENTO SIMBOLICO RECURSIVO Aumenta interativamente o conjunto ω a partir dos dados β tal que, em cada passo, GInf(ω,β) é máxima..

(34) õ 2.8 conclusa. 17. ´ ´ 3. Sa´ıda: SUMARIO DOS DADOS SIMBOLICOS (ω) (descri¸caõ da a´rvore binária). 2.8. ˜ CONCLUSAO Neste cap´ıtulo apresentamos a abordagem para dados simbólicos de alguns dos clas-. sificadores supervisionados clássicos, dentre os quais análise discriminante fatorial para dados simbólicos; redes multi-layer perceptron para dados simbólicos; discriminante kernel para dados simbólicos; a´rvore de classifica¸caõ para dados simbólicos. No próximo cap´ıtulo, apresentaremos o método de classifica¸caõ para dados simbólicos baseados em uma abordagem geométrica, chamada orientada a região. O método orientado a região consiste em encontrar as regiões no espa¸co de caracter´ısticas que descrevem classes de objetos (indiv´ıduos) e introduzir uma medida adequada de proximidade entre uma região e um novo objeto a ser classificado..

(35) CAPÍTULO 3. ˜ PARA CLASSIFICADORES BASEADOS EM REGIAO ´ DADOS SIMBOLICOS. 3.1. ˜ INTRODUC ¸ AO Abordagens tradicionais para classifica¸caõ de padrões são divididas, principalmente,. nas seguintes categorias [Ich96]: 1. abordagem baseada em equa¸co˜es de decisão: o propósito nesta categoria é achar as equa¸co˜es de decisão que determinam os limiares entre classes. Classificadores lineares e de Bayes são exemplos para esta categoria; 2. abordagem baseada na similaridade: o propósito nesta categoria é achar o(s) padrão(ões) modelo(s) que representem a classe e usar uma medida de similaridade apropriada entre o(s) modelo(s) e um padrão a ser classificado. O método de k-vizinhos mais próximos e vários métodos de matching são exemplos para esta categoria. Como uma categoria diferente, diversos métodos de classifica¸caõ foram desenvolvidos, baseados em uma abordagem geométrica, chamada orientada a região. Por ser não paramétrico, esta abordagem é adequada em situa¸co˜es de classifica¸caõ em que a representa¸caõ matemática apropriada da distribui¸caõ de probabilidade dos exemplos é dif´ıcil de se obter. O método orientado a região consiste em encontrar as regiões no espa¸co de caracter´ısticas que descrevem classes de objetos (indiv´ıduos) e introduzir uma medida adequada de proximidade entre uma região e um novo objeto a ser classificado. [Sot74] propôs um classificador para exemplos descritos por dados binários e usou eventos principais (protótipos de pontos) para descrever regiões da classe. [Mic80] desenvolveu um 18.

(36) ˜ es e grafo 3.2 conceitos de regio. 19. método de classifica¸caõ em que vários tipos de caracter´ısticas podem ser usados simultaneamente para encontrar regiões da classe. [Ich79] e [Ich81] propôs o uso de hiper-retângulos para descrever as classes no espa¸co de caracter´ıstica. Em [Ich86], [Ich93] e [Ich94], este método é generalizado para tratar com dado simbólico. Mais tarde, em [Ich96] e [Yag96], foi introduzido um classificador para dados do tipo quantitativo, categórico, intervalar e multivalorado. Esta abordagem é uma adapta¸caõ do conceito de vizinhan¸ca m´ utua, introduzido em [Gow78] para definir vizinhan¸ca m´ utua entre dados simbólicos e grafo de vizinhos m´ utuos entre grupos. Na se¸caõ 3.2, descrevemos os conceitos de regiões e grafos, que são muito importantes para o devido entendimento das se¸co˜es seguintes. Na se¸caõ 3.4, apresentamos a etapa de aprendizagem do classificador para dados simbólicos. Esta etapa fornece a descri¸caõ, que é obtida através de um operador simbólico (jun¸caõ) e um Grafo de Vizinhos M´ utuos, de uma classe por uma região (ou conjunto de regiões) definida pelo hiper-cubo formado pelos objetos pertencentes a esta classe. Já na se¸caõ 3.5, expusemos a etapa de aloca¸caõ, quando as novas observa¸co˜es são classificadas usando diferentes fun¸co˜es de matching. Por fim, a conclusão é apresentada na se¸caõ 3.6. 3.2. ˜ CONCEITOS DE REGIOES E GRAFO Nesta se¸caõ, apresentamos alguns conceitos de regiões e grafos introduzidos em [Ich96]. e [Yag96], que são muito importantes para o devido entendimento das se¸co˜es seguintes. A proposta apresentada é fundamentada no método orientado a região para dados simbólicos, que são representados por vetores de variáveis quantitativas. O valor assumido pela caracter´ıstica quantitativa de interesse pode ser tanto um valor cont´ınuo (ex. Y (k)=1.80 metros de altura) como um intervalo (ex. Y (k) = [0, 2] tempo de dura¸caõ de uma prova escolar). A figura 3.1 (a) ilustra a descri¸caõ dos vetores x={2, 6} e y={6, 2} no plano cartesiano. Seja Ck = {ωk1 , . . . , ωkNk }, k = 1, . . . , m, uma classe de indiv´ıduos com Ck ∩ Ck0 = ∅ ıduo ωkl , l = 1, . . . Nk , é representado pelo vetor de dados se k 6= k 0 e ∪m k=1 = Ω. O indiv´ cont´ınuo xkl = (xkl1 , . . . , xklp )..

(37) ˜ es e grafo 3.2 conceitos de regio 3.2.1. 20. Opera¸c˜ ao jun¸c˜ ao. A jun¸caõ entre os vetores de dados cont´ınuos xkl (l = 1, . . . , Nk ) é um vetor de intervalos, que é definido como yk = xk1 ⊕ . . . ⊕ xkNk = (xk11 ⊕ . . . ⊕ xkNk 1 , . . . , xk1j ⊕ . . . ⊕ xkNk j , . . . , xk1p ⊕. . .⊕xkNk p ), onde xk1j ⊕. . .⊕xkNk j = [min{xk1j , . . . , xkNk j }, max{xk1j , . . . , xkNk j }]( j = 1, . . . , p). Na figura 3.1 (b) o quadrado maior ilustra a jun¸caõ dos vetores x e y, j=x ⊕ y.. Figura 3.1. Representa¸caõ de vetores e opera¸co˜es no plano cartesiano. 3.2.2. J-Regi˜ ao. A J-região associada a` classe Ck é a região em <p que é obtida pela jun¸caõ dos objetos pertencentes a` classe Ck e é definida como RJ (Ck ) = {x ∈ <p : min{xk1j , . . . , xkNk j } ≤ xj ≤ max{xk1j , . . . , xkNk j }, j = 1, . . . , p}. O volume associado ao hipercubo definido pela região RJ (Ck ) é π(RJ (Ck )). Na figura 3.1 (c), o quadrado assinalado ilustra a J-região obtida pela jun¸caõ dos vetores x e y.. 3.2.3. Vizinhan¸ca m´ utua. Dois indiv´ıduos ωk1 e ωk2 são vizinhos m´ utuos se: ∀ωk0 l ∈ Ck0 (k 0 ∈ {1, . . . , m}, k 0 6= k), xk0 l ∈ / RJ {ωk1 , ωk2 } (l = 1, . . . , Nk0 ). (.).

(38) ˜ es e grafo 3.2 conceitos de regio. 21. ou seja, ωk1 e ωk2 são vizinhos m´ utuos, se a região formada por eles não contiver nenhum elemento de outra classe. Na Figura 3.2 (a), temos C1 ={(2,4),(4,4)} e C2 ={(2,1),(4,5),(5,3)}; nesse caso, os elementos de C1 são vizinhos m´ utuos. Na Figura 3.2 (b), temos C2 =(2,1),(4,5),(3,3); nesse caso, os elementos de C1 não são vizinhos m´ utuos pois (3,3)∈ RJ (C1 ).. Figura 3.2. Rela¸caõ de vizinhan¸ca. 3.2.4. Conceitos b´ asicos da teoria dos grafos. Os grafos são estruturas matemáticas, usualmente aplicadas em problemas de classifica¸caõ que representam um conjunto de pontos, juntamente com linhas que ligam alguns pares de pontos, a partir de rela¸co˜es existentes entre os mesmos.. Grafo. Um grafo G=(VG,AG) consiste de um conjunto finito não vazio VG e de um subconjunto AG ⊂ VG x VG obtido através de uma rela¸caõ definida entre os pares não ordenados de elementos distintos de VG. Os elementos de VG são chamados de vértices e os de AG são chamados de arestas. Os vértices são os extremos da aresta. Duas arestas que possuem um extremo comum são chamadas de adjacentes [Szw84]. Grafos podem ser visualizados por diagramas (representa¸caõ geométrica), onde cada vértice é repre-.

(39) ˜ es e grafo 3.2 conceitos de regio. 22. sentado por um ponto e cada aresta por uma linha ligando os pontos que representam seus extremos. Conforme o tipo da rela¸caõ definida em VGxVG, um grafo pode ser orientado, quando a rela¸caõ é anti-simétrica, ou não orientado, quando a rela¸caõ é simétrica.. Grafo Simples. Um grafo simples é aquele em que os extremos das arestas não coincidem, e não existem duas arestas distintas com o mesmo par de extremos.. Grafo completo. Chama-se de grafo completo a um grafo simples em que quaisquer dois vértices são adjacentes.. Subgrafo. Um grafo H é um subgrafo de outro G (H⊆G), se VG inclui VH, AG inclui AH, e para toda aresta de H seus extremos em H são também seus extremos em G.. Subgrafo completo. Um subgrafo H é dito ser completo em G, se, para todos os pares poss´ıveis de vértices em H, existe uma aresta.. Clique. Uma clique H é um subgrafo completo máximo de G, isto é: a) para todos os pares poss´ıveis de vértices de H, existe uma aresta; b) ao adicionar a` H um outro vértice de G, não existirá uma aresta para cada poss´ıvel.

(40) ˜ es e grafo 3.2 conceitos de regio. 23. par de vértices de H.. 3.2.5. Grafo de vizinhos m´ utuos. Um grafo de vizinhos m´ utuos de Ci em rela¸caõ a` Ci , denominado MNG(Ci /Ci )), é um grafo cujos vértices são os objetos da classe Ci e cujas arestas são formadas pelos pares distintos de objetos de Ci que satisfazem a` rela¸caõ de vizinhos m´ utuos, isto é,. MNG(Ci /Ci ))=(V,A), onde V=Ci e A={(sip , siq ) ∈ Ci xCi /sip 6= siq e sip é vizinho m´ utuo de siq }. O MNG(Ci /Ci )) é um grafo simples não orientado. A Figura 3.3 ilustra um simples exemplo de grafo de vizinhos m´ utuos da classe C1 em rela¸caõ a` classe C2 , para C1 ={1, 2, 3, 4} e C2 ={5}. Neste exemplo, o MNG(C1 /C2 ) = ({1, 2, 3, 4},{(1, 2), (1, 3), (1, 4), (2, 4), (3, 4)}).. Figura 3.3. Grafo de vizinho m´ utuo. Na Figura 3.3 (a), o quadrado ilustrado A representa a J-região formada pela jun¸caõ dos objetos 2 e 3 da classe C1 . Podemos observar que esta região não inclui nenhum elemento da classe C2 , logo a aresta (2,3) está contida no conjuntos das arestas do MNG(C1 /C2 ), já que os objetos 2 e 3 são vizinhos m´ utuos entre si. Na Figura 3.3 (b), o quadrado ilustrado B representa a J-região formada pela jun¸caõ dos objetos 3 e.

(41) ˜ o do mng 3.3 construc ¸a. 24. 4 da classe C1 . Diferente da região anterior, esta região inclui o objeto 5 da classe C2 , fazendo com que os objetos 3 e 4 não sejam vizinhos m´ utuos, logo a aresta (3,4) não está contida no conjunto das arestas do MNG(C1 /C2 ).. 3.3. ˜ DO MNG CONSTRUC ¸ AO Apesar da defini¸caõ do MNG ser bastante simples, sua constru¸caõ é a base para o. algoritmo de aprendizado em [Ich96]. Nesta abordagem (orientada a região), a idéia principal é prover uma descri¸caõ de cada classe CK (k = 1, . . . , m) pela J-região (ou por um conjunto de J-regiões). Esta região (ou regiões) é obtida através do Grafo de Vizinhos M´ utuos dos elementos que fazem parte do conjunto do qual se quer a descri¸caõ, ou seja, partindo do conjunto de elementos de uma classe de interesse, constrói-se o MNG e, ao final de sua constru¸caõ, associa-se uma ou várias regiões ao MNG, conforme o conceito a seguir: - se os objetos pertencentes a` classe Ck são todos vizinhos m´ utuos entre si, o grafo de vizinhos m´ utuos de Ck em rela¸caõ a Ck = ∪m e um grafo completo e associamos k0 =1 Ck 0 ´ k0 6=k. apenas uma J-região ao grafo; - se os objetos pertencentes a` classe Ck não são vizinhos m´ utuos entre si, procuramos por todos os subconjuntos de Ck cujos elementos são vizinhos m´ utuos entre si, ou seja, formam uma clique. Para cada clique associamos uma J-região. A constru¸caõ do MNG para classes {C1 , C2 , . . . , Cm } e a representa¸caõ de cada classe por uma J-região (ou por um conjunto de J-regiões) é realizada da seguinte forma: Para k = 1, . . . , m : 1 encontre a região RJ (Ck ) associada a` classe Ck e verifique se os objetos pertencentes a esta classe são vizinhos m´ utuos entre si; 2 se for o caso, construa o MNG (grafo completo) e pare;.

(42) ˜ es do grafo de vizinhos mu ´ tuos 3.4 aproximac ¸o. 25. 3 Se não, ache os subconjuntos de Ck cujos elementos são vizinhos m´ utuos entre si e formam uma clique no MNG e para cada subconjunto Ckt (t = 1, . . .) associe uma região Rj (Ckt ). Construa o MNG (grafo incompleto) e pare. A Figura 3.4 (a) mostra o MNG para a classe C1 em rela¸caõ a C2 (M N G(C1 , C2 )) e o M N G(C2 , C1 ). No primeiro caso, o MNG é um grafo completo; já no segundo, o grafo é composto por três cliques. Na Figura 3.4 (b), podemos observar as J-regiões associadas aos grafos.. Figura 3.4. MNGs para as classes e as J-regiões associadas. 3.4. ˜ ´ APROXIMAC ¸ OES DO GRAFO DE VIZINHOS MUTUOS A constru¸caõ do grafo de vizinhos m´ utuos é a etapa fundamental no processo de. aprendizagem, pois, na constru¸caõ do MNG obtemos a descri¸caõ das classes (regiões). A dificuldade na constru¸caõ do MNG surge quando os objetos pertencentes a` classe Ck não são vizinhos m´ utuos entre si. Neste caso, procuramos por todos os subconjuntos de Ck cujos elementos formam uma clique no grafo. No entanto, é bem conhecido que a complexidade computacional em tempo para achar todas as cliques no grafo é exponencial. A solu¸caõ, então, é construir aproxima¸co˜es do grafo de vizinhos m´ utuos..

(43) ˜ es do grafo de vizinhos mu ´ tuos 3.4 aproximac ¸o 3.4.1. 26. Aproxima¸c˜ ao do MNG: abordagem I. Para solucionar o problema de encontrar todas as cliques no grafo, [Ich96] e [Yag96] propuseram uma aproxima¸caõ do MNG de forma que cada objeto não possa pertencer a mais de um subconjunto (clique) e a gera¸caõ de cada subconjunto de Ck (k = 1, . . . , m),Ckt (t = 1, . . .), seja obtida de acordo com uma medida de associa¸caõ entre um objeto pertencente a Ck e este subconjunto. Seja ωkl um objeto pertencente a Ck , ζ um subconjunto de Ck cujos elementos são vizinhos m´ utuos entre si. Uma medida de associa¸caõ entre ωkl e ζ é definida como:. A(ωkl |ζ) = |M N (ωkl ) ∩ M N (ζ)|. (.). em que M N (ωkl ) é o conjunto de elementos que são vizinhos m´ utuos de ωkl , M N (ζ) é o conjunto de elementos que são vizinhos m´ utuos de ζ e | ? | é o cardinal do conjunto ?. A constru¸caõ do MNG, segundo [Ich96] e [Yag96], é a seguinte: Para k = 1, . . . , m : 1 encontre a região RJ (Ck ) associada a` classe Ck e verifique se os objetos pertencentes a esta classe são vizinhos m´ utuos entre si; 2 se for o caso, construa o MNG (grafo completo) e pare. 3 se não, (aproxima¸caõ do MNG): 3.1 escolha o objeto que possui o n´ umero máximo de vizinhos m´ utuos como semente; t←1, ponha a semente no subconjunto Ckt ; remova a semente de Ck ; 3.2 escolha o próximo objeto de Ck tal que a medida de associa¸caõ entre o objeto e o subconjunto Ckt seja máxima; adicione-o a Ckt . Se todos os utuos entre si, então objetos pertencentes a Ckt permanecerem vizinhos m´ remova-o de Ck ; se não retire-o de Ckt ; 3.4 repita o passo 3.2 para os objetos restantes em Ck ; 3.5 encontre a região RJ (Ckt ) associada a Ckt ;.

(44) ˜ es do grafo de vizinhos mu ´ tuos 3.4 aproximac ¸o. 27. 3.6 se Ck 6= ∅, então t←t+1; repita os passos 3.1 a 3.4 até Ck = ∅; 3.7 construa o MNG (grafo incompleto) e pare. Este algoritmo tem complexidade O(n3 ) no qual n é o cardinal do conjunto de entrada de dados (conjunto treinamento).. 3.4.2. Aproxima¸c˜ ao do MNG: abordagem II. Com o objetivo de melhorar o tempo de execu¸caõ da abordagem proposta em [Ich96] e [Yag96] para processamento de grandes conjunto de dados, sem perder a performance do classificador, [Sou99a] propôs uma nova aproxima¸caõ do MNG. Nesta abordagem, como também na abordagem I, cada objeto não pode pertencer a mais de um subconjunto (clique), porém a gera¸caõ de cada subconjunto é obtida de acordo com a ordem lexicográfica do objeto no conjunto de dados de entrada. Para k = 1, . . . , m : 1 encontre a região RJ (Ck ) associada a` classe Ck e verifique se os objetos pertencentes a esta classe são vizinhos m´ utuos entre si; 2 se for o caso, construir o MNG (grafo completo) e pare; 3 se não, (aproxima¸caõ do MNG): 3.1 escolha um objeto como semente de acordo com a ordem lexicográfica dos objetos em Ck ; t←1, ponha a semente no subconjunto Ckt ; remova a semente de Ck ; 3.2 adicione o próximo objeto de Ck (de acordo com a ordem lexicográfica) a utuos Ckt , se todos os objetos pertencentes a Ckt permanecerem vizinhos m´ entre si, então remova-o de Ck , se não, retire-o de Ckt ; 3.4 repita o passo 3.2 para todos os objetos restantes em Ck ; 3.5 encontre a região RJ (Ckt ) associada a Ckt ; 3.6 se Ck 6= ∅, então t←t+1; repita os passos 3.1 a 3.4 até Ck = ∅;.

(45) õ 3.5 etapa de alocac ¸a. 28. 3.7 construa o MNG (grafo incompleto) e pare. No final do algoritmo, são computados os subconjuntos Ck1 , . . . Ckt da classe Ck e é obtida a descri¸caõ desta classe pelas J-regiões Rj (Ck1 ), . . . , Rj (Ckt ). Este algoritmo tem complexidade O(n2 ) no qual n é o cardinal do conjunto de entrada de dados (conjunto treinamento). A Figura 3.5 (a) mostra a aproxima¸caõ do MNG juntamente com as J-regiões, segundo a abordagem I. Nela, podemos observar que o MNG para a classe C1 é completo, pois seus elementos são vizinhos m´ utuos entre si, porém o mesmo não ocorre com a classe C2 , havendo necessidade de encontrar os subconjuntos (cliques) contidos em C2 conforme a abordagem. Na Figura 3.5 (b), vemos a aproxima¸caõ do MNG juntamente com as J-regiões segundo a abordagem II. Nela, acontece o mesmo processo de constru¸caõ do MNG da figura anterior, ou seja, o MNG para classe C1 é completa e para classe C2 é incompleta, porém a descri¸caõ da classe C2 difere nas duas abordagens.. Figura 3.5. Aproxima¸caõ do MNG para abordagem Ichino e Souza. 3.5. ˜ ETAPA DE ALOCAC ¸ AO O objetivo da etapa de aloca¸caõ é associar um novo objeto ω, descrito pelo vetor de. dados cont´ınuos x = (x1 , . . . , xp ), a uma classe Ck (k = 1, . . . , m), baseado em uma fun¸caõ de matching que compara a descri¸caõ da classe (uma região ou um conjunto de regiões) com um ponto em <p ..

(46) õ 3.5 etapa de alocac ¸a. 29. Como resultado da etapa de aprendizagem, obtemos as descri¸co˜es das classes {C1 , C2 , ..., Ck }. Estas descri¸co˜es são representadas por vetores de intervalos y={y1 , ..., yp } resultantes da opera¸caõ de jun¸caõ realizadas durante a constru¸caõ do MNG. Se o MNG da classe Ck for um grafo completo, a descri¸caõ da mesma é representada por apenas um vetor de intervalos; se o MNG da classe Ck for for um grafo incompleto, a descri¸caõ da mesma é representada por um conjunto de vetores de intervalos. Em [Ich96] e [Yag96], a regra de classifica¸caõ é definida conforme o seguinte: ω é atribu´ıda a` classe Ck se δ(ω, Ck ) ≥ δ(ω, Ch ), ∀h ∈ {1, . . . , m}. (.). em que δ(ω, Ch ) = max{δ(ω, Ch1 ), . . . , δ(ω, Cht )} e Chs uma clique de Ch . A fun¸caõ de compara¸caõ de similaridade δ é definida como: δ(ω, Chs ). p s d(yhv ) 1X , s = 1, . . . , t; v = 1, . . . , p = s p v=1 d(yhv ⊕ xv ). (.). em que d(z) é a amplitude do intervalo z e ⊕ é a opera¸caõ de jun¸caõ.. Em [Sou99a], a regra de classifica¸caõ é definida conforme o seguinte: ω é atribu´ıda a` classe Ck se ξ(ω, Ck ) ≤ ξ(ω, Ch ), ∀h ∈ {1, . . . , m}. (.). em que ξ(ω, Ch ) = min{ξ(ω, Ch1 ), . . . , ξ(ω, Cht )} e Chs uma clique de Ch . A fun¸caõ de compara¸caõ de dissimilaridade ξ é definida como: ξr (ω, Chs ). 1 p 1 X s r r {Θγα (xv , yhv )} , r, α ∈ {1, 2, . . .}; 0 ≤ γ ≤ 0.5 = p v=1. s Θγα (xv , yhv ). =. . 1 2. s θ1γ (xv , yhv ) s d(xv ⊕ yhv )). α. . s θ2γ (xv , yhv ) + s d(xv ⊕ yhv ). α 1. α. , para. (.). (.). s s s s s θ1γ (xv , yhv ) = (1 − 2γ)d(xv ∩ yhv ) + d(xv ∩ yhv ) + d(xv ∩ yhv ∩ (xv ⊕ yhv )). (.). s s s s s θ2γ (xv , yhv ) = d(xv ∩ yhv ) + (1 − 2γ)d(xv ∩ yhv ) + d(xv ∩ yhv ∩ (xv ⊕ yhv )). (.).