• Nenhum resultado encontrado

Classificador simbólico baseado em regiões de tipo casca convexa

N/A
N/A
Protected

Academic year: 2021

Share "Classificador simbólico baseado em regiões de tipo casca convexa"

Copied!
99
0
0

Texto

(1)Universidade Federal de Pernambuco Centro de Inform´atica. P´os-gradua¸c˜ao em Ciˆencia da Computa¸c˜ao. ´ CLASSIFICADOR SIMBOLICO BASEADO ˜ EM REGIOES DE TIPO CASCA CONVEXA. Simith Tupinamb´a D´Oliveira J´unior. ˜ DE MESTRADO DISSERTAC ¸ AO. Recife 01 de Mar¸co de 2005.

(2) Universidade Federal de Pernambuco Centro de Inform´atica. Simith Tupinamb´a D´Oliveira J´unior. ´ ˜ CLASSIFICADOR SIMBOLICO BASEADO EM REGIOES DE TIPO CASCA CONVEXA. Trabalho apresentado ao Programa de P´ os-gradua¸ c˜ ao em Ciˆ encia da Computa¸ c˜ ao do Centro de Inform´ atica da Universidade Federal de Pernambuco como requisito parcial para obten¸ c˜ ao do grau de. Mestre em Ciˆ encia da Com-. puta¸ c˜ ao.. Orientador: Prof. Francisco de Assis Ten´ orio de Carvalho Co-orientadora: Profa. Renata Maria Cardoso Rodrigues Souza.

(3)

(4) iii. Recife 01 de Mar¸co de 2005.

(5) A minha esposa, minha filha e meus pais..

(6) AGRADECIMENTOS. Agrade¸co primeiramente a Deus, pelo desenlace de mais esta etapa em minha trajet´oria.. Ao orientador, professor Francisco de Assis Ten´orio de Carvalho, pela confian¸ca em mim depositada.. ` co-orientadora e grande amiga, professora Renata Maria Cardoso A Rodrigues Souza, pela dedica¸ca˜o especialmente no final dessa jornada.. Aos colegas de trabalho, pelo apoio e compreens˜ao nos momentos mais dif´ıceis.. Ao CNPq pelo apoio financeiro. v.

(7) RESUMO. Com os progressos recentes nas tecnologias das ciˆencias de informa¸ca˜o, diferentes t´ecnicas s˜ao introduzidas para sintetizar, analisar e extrair conhecimentos das informa¸co˜es armazenadas em enormes bases de dados. A an´alise de dados simb´olicos (SDA) ´e um dom´ınio na a´rea de descoberta autom´atica de conhecimentos (KDD), relacionada com an´alise de dados multivariados, reconhecimento de padr˜oes, inteligˆencia artificial e banco de dados. SDA visa generalizar os m´etodos da an´alise explorat´oria de dados e as t´ecnicas estat´ısticas (an´alise fatorial, regress˜ao, classifica¸ca˜o etc.) para dados simb´olicos. Esses novos dados s˜ao mais complexos do que os dados cl´assicos, pois contˆem varia¸ca˜o interna e s˜ao estruturados. Este trabalho introduz um classificador para dados descritos por vetores de valores quantitativos baseado em regi˜oes de tipo casca convexa. A id´eia central desta abordagem ´e construir regi˜oes que descrevem e discriminem classes de exemplos observados. Nos classificadores para dados simb´olicos baseados em regi˜oes existentes na literatura de SDA, a etapa de aprendizagem fornece a descri¸ca˜o de uma classe por uma regi˜ao (ou conjunto de regi˜oes), definida pelo hiper-cubo formado pelos objetos pertencentes a esta classe. Esta descri¸ca˜o ´e obtida atrav´es de um operador simb´olico (jun¸ca˜o) e um Grafo de Vizinhos M´ utuos. Na etapa de aloca¸ca˜o, as novas observa¸co˜es s˜ao classificadas usando diferentes fun¸co˜es de matching. No classificador proposto neste trabalho, a descri¸ca˜o de cada classe ´e uma regi˜ao (ou conjunto de regi˜oes) em Rp definida pela casca convexa formada pelos seus objetos. Esta nova abordagem tem, como prop´osito, reduzir a sobre generaliza¸ca˜o que ´e produzida quando a classe ´e descrita por uma regi˜ao (ou conjunto de regi˜oes) definida pelo hipercubo formado pelos objetos da classe e, por isso, melhorar o desempenho do classificador. vi.

(8) resumo. vii. Na etapa de aloca¸ca˜o, cada nova observa¸ca˜o ´e afetada a uma classe ou grupo, de acordo com uma fun¸ca˜o de dissimilaridade que compara a descri¸ca˜o de uma classe (uma regi˜ao ou um conjunto de regi˜oes) com um ponto em Rp . Diferentes conjuntos de dados reais e artificiais s˜ao usados nesta avalia¸ca˜o. Para os dados simulados, a performance do classificador proposto ´e avaliada pela taxa de erro de classifica¸ca˜o, tempo de execu¸ca˜o e mem´oria utilizada, em compara¸ca˜o com um classificador para dados simb´olicos que usa hiper-cubos para descrever as classes. Esta performance ´e computada no quadro de uma simula¸ca˜o de tipo Monte Carlo. Para os dados reais, a performance do classificador proposto tamb´em ´e avaliada pela taxa de erro de classifica¸ca˜o, tempo de execu¸ca˜o e mem´oria utilizada em compara¸ca˜o com os algoritmos Part e J48. A performance, para o caso real, ´e computada usando o 10-Fold repetido. Os resultados mostraram que, em termos da taxa de erro de classifica¸ca˜o, o m´etodo proposto ´e superior ao m´etodo em que as regi˜oes s˜ao representadas por hiper-cubos, por´em o mesmo n˜ao ocorre em rela¸ca˜o aos algoritmos Part e J48, pois, em algumas situa¸co˜es, o m´etodo proposto ´e superior a esses algoritmos.. Palavras-chave: an´alise de dados simb´olicos, classifica¸ca˜o supervisionada, abordagem orientada a` regi˜ao, casca convexa, dados simb´olicos..

(9) ABSTRACT. On the recent advancement from the information sciences technologies, different techniques are introduced to synthesize, analyze and extract information knowledge stored in huge databases. The symbolic data analysis (SDA) is a domain in the area of automatic knowledge discovery (KDD), related with multivariate data analysis, pattern recognition, artificial intelligence and database. SDA aims to generalize methods of the exploratory data analysis, and the statistical techniques (factorial analysis, regression, classification, etc) to symbolic data. These new data are more complex than the classic ones. Therefore it contains internal variation and they are structuralized. This work introduces a classifier for quantitative values vectors based on convex hull regions. The approach central idea is to construct regions that describes and discriminates the class of observed examples. In the SDA literature related to symbolic classifiers based on regions, each class at the end of the learning step, is described by a convex hull (or set of regions) defined by the hyper-cube formed by the objects belonging to this class. This description is obtained by a symbolic operator (join) and a Mutual Neighborhood Graph. On the allocation step, the new observations are assigned, using different matching functions. On the proposed classifier,the description of each class is a region (or set of regions) in Rp defined by the convex hull formed by its objects. This new approach aims to reduce the over generalization that is produced when each class is described by a region (or set of regions) defined by the hyper-cube formed by the class objects and then, to improve the accuracy performance of the classifier. On the allocation step, each new observation is assigned to a class based on a dissimilarity function which compares the class description (a region or a set of regions) with a point in Rp . viii.

(10) abstract. ix. Different real and artificial data sets are used in the evaluation. Taking into account simulated data, the evaluation of the proposed classifier is performed based on accuracy prediction, speed and storage,in comparison to a symbolic classifier that uses hyper-cubes to describe the class. This performance is computed in the framework a Monte Carlo experience. Taking into account real data, the evaluation of the classifier is also performed based on accuracy prediction, speed and storage in comparison with the algorithms Part and J48. On this case, the performance is computed using 10-Fold repeated. Results had shown that, in terms of the accuracy prediction, the considered method is superior to the method where the regions are represented by hyper-cubes. However, the same does not occur in relation to the Part algorithms and J48. In some situations, the considered method is superior to these algorithms.. Keywords: symbolic data analysis, supervised classification, region oriented approach, convex hull, symbolic data..

(11) ´ SUMARIO. 1. Cap´ıtulo 1—Introdu¸c˜ ao 1.1. Motiva¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1. 1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 2. 1.3. Organiza¸ca˜o da disserta¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . .. 3. Cap´ıtulo 2—Classificadores supervisionados para dados simb´ olicos. 5. 2.1. Introdu¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 2.2. Dados usuais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 2.3. Dados simb´olicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 2.4. An´alise discriminante fatorial para dados simb´olicos . . . . . . . . . . . .. 10. 2.5. Redes multi-layer perceptron para dados simb´olicos . . . . . . . . . . . .. 12. 2.5.1. M´etodo dos valores extremos . . . . . . . . . . . . . . . . . . . . .. 13. 2.5.2. M´etodos probabil´ısticos. . . . . . . . . . . . . . . . . . . . . . . .. 14. 2.6. Discriminante kernel para dados simb´olicos . . . . . . . . . . . . . . . . .. 14. 2.7. ´ Arvore de classifica¸ca˜o para dados simb´olicos . . . . . . . . . . . . . . . .. 15. 2.8. Conclus˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 17. Cap´ıtulo 3—Classificadores baseados em regi˜ ao para dados simb´ olicos. 18. 3.1. Introdu¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 18. 3.2. Conceitos de regi˜oes e grafo . . . . . . . . . . . . . . . . . . . . . . . . .. 19. 3.2.1. 20. Opera¸ca˜o jun¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . .. x.

(12) ´ rio suma. xi. 3.2.2. J-Regi˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 20. 3.2.3. Vizinhan¸ca m´ utua . . . . . . . . . . . . . . . . . . . . . . . . . .. 20. 3.2.4. Conceitos b´asicos da teoria dos grafos . . . . . . . . . . . . . . . .. 21. 3.2.5. Grafo de vizinhos m´ utuos . . . . . . . . . . . . . . . . . . . . . .. 23. 3.3. Constru¸ca˜o do MNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 24. 3.4. Aproxima¸co˜es do grafo de vizinhos m´ utuos . . . . . . . . . . . . . . . . .. 25. 3.4.1. Aproxima¸ca˜o do MNG: abordagem I . . . . . . . . . . . . . . . .. 26. 3.4.2. Aproxima¸ca˜o do MNG: abordagem II . . . . . . . . . . . . . . . .. 27. 3.5. Etapa de aloca¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 28. 3.6. Conclus˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 30. Cap´ıtulo 4—Classificador baseado em casca convexa. 31. 4.1. Introdu¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 31. 4.2. Casca convexa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 32. 4.2.1. Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 33. 4.2.2. ´ Area da casca convexa . . . . . . . . . . . . . . . . . . . . . . . .. 34. 4.3. Regi˜ao representada por casca convexa . . . . . . . . . . . . . . . . . . .. 36. 4.4. Etapa de aprendizagem . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 37. 4.5. Extens˜oes do algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 41. 4.5.1. Extens˜ao 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 41. 4.5.2. Extens˜ao 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 42. 4.5.3. Extens˜ao 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 42. 4.6. Etapa de aloca¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 43. 4.7. Conclus˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 45. Cap´ıtulo 5—Avalia¸c˜ ao do classificador. 46. 5.1. Introdu¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 46. 5.2. Conjuntos de dados artificiais . . . . . . . . . . . . . . . . . . . . . . . .. 48. 5.2.1. 48. Imagens SAR simuladas . . . . . . . . . . . . . . . . . . . . . . ..

(13) ´ rio suma 5.2.2. xii Dados usuais simulados . . . . . . . . . . . . . . . . . . . . . . . .. 64. 5.3. Conjuntos de dados reais . . . . . . . . . . . . . . . . . . . . . . . . . . .. 69. 5.4. Conclus˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 72. Cap´ıtulo 6—Conclus˜ oes. 74. 6.1. Introdu¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 74. 6.2. Considera¸co˜es finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 74. 6.3. Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 75.

(14) LISTA DE FIGURAS. 3.1. Representa¸ca˜o de vetores e opera¸co˜es no plano cartesiano . . . . . . . . .. 20. 3.2. Rela¸ca˜o de vizinhan¸ca . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 21. 3.3. Grafo de vizinho m´ utuo . . . . . . . . . . . . . . . . . . . . . . . . . . .. 23. 3.4. MNGs para as classes e as J-regi˜oes associadas . . . . . . . . . . . . . . .. 25. 3.5. Aproxima¸ca˜o do MNG para abordagem Ichino e Souza . . . . . . . . . .. 28. 4.1. Representa¸ca˜o cartesiana de S . . . . . . . . . . . . . . . . . . . . . . . .. 32. 4.2. Casca convexa de S e um semi-plano que n˜ao cont´em S . . . . . . . . . .. 33. 4.3. Etapas do gift wrapping . . . . . . . . . . . . . . . . . . . . . . . . . . .. 34. 4.4. Pol´ıgono qualquer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 35. 4.5. Trapez´oide ABGF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 35. 4.6. Classe com 6 indiv´ıduos . . . . . . . . . . . . . . . . . . . . . . . . . . .. 37. 4.7. J-regi˜ao, H-regi˜ao e a sobre-generaliza¸ca˜o . . . . . . . . . . . . . . . . . .. 37. 4.8. Vizinhan¸ca m´ utua nas diferentes abordagens . . . . . . . . . . . . . . . .. 38. 4.9. Diferentes MNGs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 40. 4.10 Aproxima¸co˜es do MNG . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 40. 4.11 Diferen¸cas em a´reas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 45. 5.1. Classificador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 46. 5.2. M´odulo Imagem SAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 49. 5.3. Phantom representando cinco regi˜oes . . . . . . . . . . . . . . . . . . . .. 51. 5.4. Conjunto de dados para a situa¸ca˜o 1 . . . . . . . . . . . . . . . . . . . .. 53. 5.5. Conjunto de dados para a situa¸ca˜o 2 . . . . . . . . . . . . . . . . . . . .. 53. 5.6. Phantom representando trˆes regi˜oes . . . . . . . . . . . . . . . . . . . . .. 57. xiii.

(15) LISTA DE FIGURAS. xiv. 5.7. Conjunto de dados para a situa¸ca˜o 1 . . . . . . . . . . . . . . . . . . . .. 58. 5.8. Conjunto de dados para a situa¸ca˜o 2 . . . . . . . . . . . . . . . . . . . .. 59. 5.9. Dados quantitativos com trˆes classes . . . . . . . . . . . . . . . . . . . .. 65. 5.10 Dados quantitativos com cinco classes . . . . . . . . . . . . . . . . . . . .. 66.

(16) LISTA DE TABELAS. 2.1. Tabela de dados usuais . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 2.2. Tabela de dados simb´olicos . . . . . . . . . . . . . . . . . . . . . . . . . .. 9. 4.1 ´Indices de acordo e desacordo entre ω e Chs . 5.1. . . . . . . . . . . . . . . . .. 43. Tabela das poss´ıveis formas em que o algoritmo de aprendizagem proposto pode se apresentar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 50. 5.2. Propriedades distribucionais da imagem (situa¸ca˜o1) . . . . . . . . . . . .. 52. 5.3. Propriedades distribucionais da imagem (situa¸ca˜o 2) . . . . . . . . . . . .. 52. 5.4. Tabela comparativa do erro obtido pelos classificadores 1 ao 6 . . . . . .. 54. 5.5. Tabela comparativa do desvio padr˜ao dos erros obtido pelos classificadores 1 ao 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.6. Tabela comparativa do espa¸co na mem´oria utilizado pelos classificadores 1 ao 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.7. 55. 55. Tabela comparativa do tempo de simula¸ca˜o obtido pelos classificadores 1 ao 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 56. 5.8. Propriedades distribucionais da imagem (situa¸ca˜o1) . . . . . . . . . . . .. 57. 5.9. Propriedades distribucionais da imagem (situa¸ca˜o 2) . . . . . . . . . . . .. 58. 5.10 Compara¸ca˜o entre os classificadores de acordo com a taxa de erro. . . . .. 60. 5.11 Compara¸ca˜o entre os classificadores de acordo com a taxa de erro. . . . .. 60. 5.12 Compara¸ca˜o entre os classificadores de acordo com a mem´oria utilizada. .. 61. 5.13 Compara¸ca˜o entre os classificadores de acordo com a mem´oria utilizada. .. 62. 5.14 Compara¸ca˜o entre os classificadores de acordo com o tempo de processamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xv. 63.

(17) LISTA DE TABELAS. xvi. 5.15 Compara¸ca˜o entre os classificadores de acordo com o tempo de processamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 63. 5.16 Compara¸ca˜o entre os classificadores de acordo com a taxa de erro. . . . .. 67. 5.17 Compara¸ca˜o entre os classificadores de acordo com a taxa de erro. . . . .. 67. 5.18 Compara¸ca˜o entre os classificadores de acordo com o mem´oria utilizada. .. 67. 5.19 Compara¸ca˜o entre os classificadores de acordo com o mem´oria utilizada. .. 68. 5.20 Compara¸ca˜o entre os classificadores de acordo com o tempo de processamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 68. 5.21 Compara¸ca˜o entre os classificadores de acordo com o tempo de processamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 68. 5.22 Compara¸ca˜o entre os classificadores de acordo com a taxa de erro. . . . .. 71. 5.23 Compara¸ca˜o entre os classificadores de acordo com a taxa de erro. . . . .. 71. 5.24 Compara¸ca˜o entre os classificadores de acordo com a taxa de erro. . . . .. 72. 5.25 Compara¸ca˜o entre os classificadores de acordo com a taxa de erro. . . . .. 72.

(18) CAP´ITULO 1. ˜ INTRODUC ¸ AO. 1.1. ˜ MOTIVAC ¸ AO O uso cada vez mais freq¨ uente dos computadores tem alterado radicalmente a maneira. como o trabalho ´e conduzido nas organiza¸co˜es. Cada dia, mais opera¸co˜es corriqueiras s˜ao automatizadas e, a cada nova transa¸ca˜o, como compras com cart˜ao de cr´edito, opera¸co˜es banc´arias, novos registros s˜ao armazenados. Al´em disso, avan¸cos em aquisi¸ca˜o de dados, desde um simples leitor de c´odigo de barras at´e sistemas de sensoriamento remoto, geram grandes volumes de dados. Sistemas de gerenciadores de banco de dados est˜ao presentes na maioria das organiza¸co˜es p´ ublicas e empresas de m´edio e grande porte, contendo os mais diferentes dados sobre produtos, fornecedores, clientes, empregados, etc. A descoberta de conhecimentos em bases de dados (Knowledge Discovery in Database KDD) ´e uma a´rea de pesquisa em bastante evidˆencia no momento em que visa desenvolver meios autom´aticos de prospec¸ca˜o de conhecimento em grandes bases de dados. A an´alise de dados simb´olicos [Boc00a] ´e uma abordagem na a´rea da descoberta autom´atica de conhecimentos (KDD) e gerenciamento de dados, relacionada com an´alise de dados multivariados, reconhecimento de padr˜oes, inteligˆencia artificial e banco de dados. O principal objetivo de SDA ´e desenvolver m´etodos para tratamento de dados mais complexos, como intervalos, conjuntos e distribui¸ca˜o de probabilidades ou de pesos e que consiste na extens˜ao dos m´etodos e algoritmos de extra¸ca˜o de conhecimentos (t´ecnicas estat´ısticas) a partir de dados usuais, para os dados simb´olicos. Como uma categoria diferente de m´etodo de classifica¸ca˜o, diversos classificadores foram desenvolvidos baseados em uma abordagem geom´etrica, chamada orientada a` regi˜ao. Este m´etodo consiste em encontrar as regi˜oes no espa¸co de caracter´ısticas que 1.

(19) 1.2 objetivos. 2. descrevem classes de objetos (indiv´ıduos) e introduzir uma medida adequada de proximidade entre uma regi˜ao e o novo objeto a ser classificado. [Ich79] e [Ich81] propˆos o uso de hiper-retˆangulos para descrever as classes no espa¸co de caracter´ıstica. Em [Ich86], [Ich93] e [Ich94], este m´etodo ´e generalizado para tratar com dado simb´olico. Mais tarde em [Ich96] e [Yag96] foi introduzido um classificador para dados do tipo quantitativo, categ´orico, intervalar e multivalorado. Essa abordagem ´e uma adapta¸ca˜o do conceito de vizinhan¸ca m´ utua introduzido em [Gow78] para definir vizinhan¸ca m´ utua entre dados simb´olicos e grafo de vizinhos m´ utuos entre grupos. A motiva¸ca˜o deste trabalho foi construir um classificador para dados descritos por vetores de valores quantitativos, no qual a representa¸ca˜o das classes, o grafo de vizinhos m´ utuos (se¸ca˜o 3.2.5) e a fun¸ca˜o de dissimilaridade s˜ao baseados em regi˜oes de tipo casca convexa. Nos classificadores para dados simb´olicos baseados em regi˜ao existentes na literatura de SDA, a representa¸ca˜o das classes, o grafo de vizinhos m´ utuos e a fun¸ca˜o de dissimilaridade s˜ao baseadas em regi˜oes definidas pelo hiper-cubo formado pelos objetos pertencentes a esta classe.. 1.2. OBJETIVOS O objetivo principal deste trabalho foi implementar uma abordagem para classificador. baseada em regi˜oes de tipo casca convexa cuja finalidade ´e reduzir a sobre generaliza¸ca˜o que ´e produzida quando a classe ´e descrita por uma regi˜ao (ou conjunto de regi˜oes) definida pelo hiper-cubo formado pelos objetos da classe e, desta forma, melhorar a performance do classificador. Tamb´em introduzimos uma fun¸ca˜o de dissimilaridade que combina a diferen¸ca de conte´ udo e a diferen¸ca de volume entre a descri¸ca˜o do objeto a ser alocado e a descri¸ca˜o de uma classe para formar uma fun¸ca˜o de dissimilaridade baseada em diferen¸cas de volume..

(20) ˜ o da dissertac ˜o 1.3 organizac ¸a ¸a 1.3. 3. ˜ DA DISSERTAC ˜ ORGANIZAC ¸ AO ¸ AO Al´em deste cap´ıtulo, no qual foram apresentados tanto a motiva¸ca˜o assim como uma. breve explana¸ca˜o sobre o estado da arte sobre o assunto abordado e os objetivos deste trabalho, esta disserta¸ca˜o ser´a apresentada em mais cinco cap´ıtulos que s˜ao:. Cap´ıtulo 2: Classificadores supervisionados para dados simb´ olicos A finalidade deste cap´ıtulo ´e fornecer uma breve explana¸ca˜o sobre as extens˜oes para dados simb´olicos dos algoritmos de classifica¸ca˜o supervisionada cl´assicos.. Iniciamos. apresentando os dois tipos de dados que os classificadores aceitam com entrada: os dados usuais (se¸ca˜o 2.2) e os dados simb´olicos (se¸ca˜o 2.3). Nas se¸co˜es subseq¨ uentes, entramos em detalhe na abordagem simb´olica de alguns algoritmos de classifica¸ca˜o supervisionada cl´assicos: an´alise discriminante fatorial para dados simb´olicos, na se¸ca˜o 2.4; redes multilayer perceptron para dados simb´olicos, na se¸ca˜o 2.5; discriminante kernel para dados simb´olicos, na se¸ca˜o 2.6; a´rvore de classifica¸ca˜o para dados simb´olicos, na se¸ca˜o 2.7.. Cap´ıtulo 3: Classificadores baseados em regi˜ ao para dados simb´ olicos Este cap´ıtulo ser´a dedicado aos classificadores baseados em regi˜ao para dados simb´olicos existentes na literatura de SDA. Na se¸ca˜o 3.2, ser˜ao descritos os conceitos de regi˜oes e grafos; na se¸ca˜o 3.3, ser´a apresentada a etapa de aprendizagem do classificador; na se¸ca˜o 3.5, ser´a exposta a etapa de aloca¸ca˜o, em que as novas observa¸co˜es s˜ao classificadas usando diferentes fun¸co˜es de matching.. Cap´ıtulo 4: Classificador Baseado em Casca Convexa Neste cap´ıtulo ser´a apresentado um novo classificador baseado em uma abordagem orientada a regi˜ao. A se¸ca˜o 4.2 ser´a dedicada a` casca convexa, cujo conceito est´a presente em todo decorrer do cap´ıtulo. Na se¸ca˜o 4.3, ser´a descrita a H-regi˜ao, a forma proposta de descrever uma classe atrav´es da casca convexa de seus pontos; a se¸ca˜o 4.4 ser´a destinada.

(21) ˜ o da dissertac ˜o 1.3 organizac ¸a ¸a. 4. a` etapa de aprendizagem do classificador proposto; na se¸ca˜o 4.5, algumas extens˜oes do algoritmo de aprendizagem proposto ser˜ao expostos e na u ´ltima se¸ca˜o mostramos a etapa de aloca¸ca˜o cuja fun¸ca˜o de dissimilaridade combina a diferen¸ca de conte´ udo e a diferen¸ca de volume entre a descri¸ca˜o do objeto a ser alocado e a descri¸ca˜o de uma classe, para formar uma fun¸ca˜o de dissimilaridade baseada em diferen¸cas de volume.. Cap´ıtulo 5: Resultados dos Experimentos Na primeira parte deste cap´ıtulo (se¸ca˜o 5.2), foram apresentados os resultados fornecidos pelo classificador proposto usando conjuntos de dados artificiais. Al´em disso, foram apresentados os resultados de testes t-Student, comparando a abordagem H-regi˜ao (proposta) e as abordagens J-regi˜ao. Na segunda parte (se¸ca˜o 5.3), foi descrita a aplica¸ca˜o do m´etodo proposto em um conjunto de dados reais.. Cap´ıtulo 6: Conclus˜ oes e Futuros Trabalhos Por fim, mostramos as conclus˜oes e considera¸co˜es finais deste trabalho, bem como os futuros estudos que poder˜ao ser realizados, a partir das id´eias aqui apresentadas..

(22) CAP´ITULO 2. CLASSIFICADORES SUPERVISIONADOS PARA ´ DADOS SIMBOLICOS. 2.1. ˜ INTRODUC ¸ AO Com o crescente interesse da comunidade cient´ıfica pela an´alise de dados simb´olicos,. muitos dos algoritmos de classifica¸ca˜o supervisionada cl´assicos, atualmente, j´a possuem uma extens˜ao para dados simb´olicos entre os quais podemos mencionar: em [Lau00] foi proposta uma generaliza¸ca˜o da an´alise discriminante fatorial para dados simb´olicos; em [Ros02], foram estudados dois m´etodos que permitem o uso de dados simb´olicos do tipo intervalo como entrada para redes multi-layer perceptrons; j´a em [Ras00], foi apresentada uma abordagem para dados simb´olicos do discriminate kernel. Por fim, em [Cia00], foi proposto estender o algoritmo de crescimento de a´rvore de classifica¸ca˜o para dados imprecisos. Uma parte consider´avel dos classificadores para dados simb´olicos tamb´em aceitam como entrada dados usuais, portanto, nas duas primeiras se¸co˜es, foram apresentados os dados usuais (se¸ca˜o 2.2) e os dados simb´olicos (se¸ca˜o 2.3). Nas se¸co˜es subseq¨ uentes, descrevemos cada algoritmo de classifica¸ca˜o mencionado anteriormente: an´alise discriminante fatorial para dados simb´olicos na se¸ca˜o 2.4; redes multi-layer perceptron para dados simb´olicos, na se¸ca˜o 2.5; discriminante kernel para dados simb´olicos, na se¸ca˜o 2.6; a´rvore de classifica¸ca˜o para dados simb´olicos, na se¸ca˜o 2.7; por fim a conclus˜ao, na se¸ca˜o 2.8.. 5.

(23) 6. 2.2 dados usuais 2.2. DADOS USUAIS Os dados usuais descrevem situa¸co˜es relativamente simples, tais como mostrado em. Tabela 2.1. Esses dados s˜ao obtidos principalmente pelas caracter´ısticas observadas em indiv´ıduos (pessoas, objetos, produto), e sua principal propriedade ´e que tais caracter´ısticas s˜ao definidas por um u ´nico valor cada. A seguir uma defini¸ca˜o mais formal: Para um dado n´ umero n de objetos Ω = {1, 2, . . . , n}, p vari´aveis Y1 , . . . , Y p descrevem suas caracter´ısticas. Cada vari´avel cl´assica Yi ´e definida como o mapeamento de um u ´nico valor de Ω para γi , sendo γi o dom´ınio de Yi , tal que xki = Yi (k) ´e o valor observado para o indiv´ıduo k [Boc00b]. altura(m) no de filhos grau de instru¸ca˜o. indiv´ıduo. sexo. peso(Kg). k1. F. 52. 1.65. 1. secund´ario. k2. M. 70. 1.72. 2. superior. k3. M. 80. 1.74. 5. fundamental. k4. M. 65. 1.68. 0. m´edio. Tabela 2.1. Tabela de dados usuais. As vari´aveis usuais podem ser classificadas como quantitativas ou qualitativas, conforme as defini¸co˜es abaixo: Yi ´e quantitativa se γi ´e idˆentico ou est´a contido em < : γi ⊆ <. As vari´aveis quantitativas podem ser subdivididas em: 1. quantitativa cont´ınua, se γi ´e um intervalo de <; 2. quantitativa discreta, se γi ´e um conjunto finito ou infinito cont´avel de valores de <. Yi ´e qualitativa (categ´orica), se γi ´e finito e seus elementos s˜ao categorias sem significado num´erico. As vari´aveis qualitativas tamb´em podem ser subdivididas conforme o seguinte:.

(24) ´ licos 2.3 dados simbo. 7. 1. qualitativa nominal, se γi n˜ao possui estrutura interna; 2. qualitativa ordinal, se existe uma ordem linear total entre as categorias de γ i . A Tabela 2.1 representa os dados usuais para 4 indiv´ıduos com 3 vari´aveis quantitativas peso, altura e n´ umero de filhos, sendo peso e altura quantitativas cont´ınuas e n´ umero de filhos quantitativa discreta; e 2 vari´aveis qualitativas, sexo e grau de instru¸ca˜o, sendo sexo qualitativa nominal e grau de instru¸ca˜o, qualitativa ordinal.. 2.3. ´ DADOS SIMBOLICOS Muitas vezes, ´e necess´ario que as vari´aveis de um indiv´ıduo k assumam informa¸co˜es. mais complexas tais como intervalos, conjuntos, histogramas e distribui¸co˜es de probabilidade. Em tais situa¸co˜es, como os descritos nos exemplos adiante, o uso de dados usuais torna-se inapropriado, sendo necess´aria a utiliza¸ca˜o de um tipo de dado mais complexo, os dados simb´olicos. Introduzimos o conceito de dados simb´olicos atrav´es dos exemplos: dados simb´olicos para indiv´ıduos e dados simb´olicos para classe de indiv´ıduos, em seguida damos uma defini¸ca˜o formal de vari´aveis para dados simb´olicos de um indiv´ıduo k qualquer.. Dados simb´ olicos descrevendo indiv´ıduos. As atividades de um estudante (indiv´ıduo) k possuem caracter´ısticas que s˜ao melhores representadas por dados simb´olicos. Para a vari´avel Wj : tempo de estudo di´ario, um u ´nico valor (4h, por exemplo) n˜ao representaria a varia¸ca˜o di´aria, logo o valor para Wj (k) poderia ser: 1. intervalo de horas Wj (k):[0,15]; 2. uma distribui¸ca˜o de probabilidade Wj (k):((0,0.1),(3,0.2),(6,0.4),(10,0.3)), no qual, no par (m,n), m ´e o n´ umeros de horas e n ´e a probabilidade associada..

(25) ´ licos 2.3 dados simbo. 8. Dados simb´ olicos descrevendo classes de indiv´ıduos. Os dados simb´olicos s˜ao especialmente adequados para representar classes de indiv´ıduos (objetos agregados). Consideramos que estamos analisando as cidades do grande Recife (conjunto de indiv´ıduos) e k ´e uma dessas cidades; uma caracter´ıstica a considerar seria Wj : grau de instru¸ca˜o dos habitantes. O valor Wj (k) poderia ser: 1. o conjunto de graus de instru¸ca˜o Wj (k):analfabeto, fundamental, m´edio, superior; 2. uma distribui¸ca˜o de probabilidade Wj (k):((analfabeto,0.3), (fundamental,0.4), (m´edio,0.2), (superior,0.1)). Seja E um conjunto de n indiv´ıduos descritos por um conjunto de p vari´aveis W1 , . . . , Wp , sendo ωi o dom´ınio de Wi , temos as seguintes classifica¸co˜es de vari´aveis para dados simb´olicos:. Vari´ aveis do tipo multivalorada. Uma vari´avel W, definida para cada indiv´ıduo k do conjunto E, ´e dita como multivalorada com dom´ınio ω, se W(k) ´e subconjunto de ω. As vari´aveis multivaloradas podem ser subdivididas nos seguintes tipos: 1. uma vari´avel W ´e dita multivalorada categ´orica, se ω ´e um conjunto finito de categorias; 2. uma vari´avel W ´e dita multivalorada quantitativa discreta, se W(k) ´e conjunto finito de n´ umeros reais; 3. uma vari´avel W ´e dita multivalorada de tipo intervalo, se W(k) ´e um intervalo dos n´ umeros reais ou um intervalo com respeito a uma determinada ordem em ω..

(26) ´ licos 2.3 dados simbo. 9. Vari´ aveis do tipo modal. A vari´avel modal W, definida sobre o conjunto E com dom´ınio ω, ´e uma fun¸ca˜o W(k)=(U(k),π(k)) no qual • π(k) ´e uma medida ou uma distribui¸ca˜o (freq¨ uˆencia, probabilidade, pesos) definida no dom´ınio ω; • U(k) ⊆ γ ´e o suporte de π no dom´ınio ω. As vari´aveis modais associam, para cada categoria w ∈ W(k), distribui¸ca˜o de freq¨ uˆencias, probabilidades ou pesos que indicam qu˜ao freq¨ uente, t´ıpica ou relevante a categoria w ´e considerada para o objeto k. A Tabela 2.2 representa dados simb´olicos que contˆem informa¸co˜es sobre um conjunto X={cidade1 , cidade2 , cidade3 , cidade4 } de objetos. Para tal conjunto, as caracter´ısticas de interesse de seus indiv´ıduos necessitam de informa¸co˜es mais complexas: a vari´avel popula¸ca˜o ´e multivalorada do tipo intervalo; a vari´avel espectro pol´ıtico ´e modal e a vari´avel institui¸co˜es banc´arias ´e multivalorada categ´orica. cidade. Popula¸ca˜o(milhares). Espectro Pol´ıtico. Institui¸co˜es Banc´arias. (Esquerda,Centro,Direita) cidade1. [80,100]. (E,0.3), (C,0.4), (D,0.3). BB, Caixa, Bradesco. cidade2. [100,130]. (E,0.2), (C,0.4), (D,0.4). BB, Rural. cidade3. [16,25]. (E,0.4), (C,0.4), (D,0.2). Caixa, Unibanco. cidade4. [56,68]. (E,0.2), (C,0.5), (D,0.3). Bradesco,BB. Tabela 2.2. Tabela de dados simb´olicos.

(27) ´ lise discriminante fatorial para dados simbo ´ licos 2.4 ana 2.4. 10. ´ ´ ANALISE DISCRIMINANTE FATORIAL PARA DADOS SIMBOLICOS An´alise discriminante refere-se ao conjunto de t´ecnicas cujo objetivo ´e descrever as. rela¸co˜es entre um conjunto de p vari´aveis quantitativas (descritores) e uma vari´avel categ´orica com m r´otulos, que ´e a vari´avel classificat´oria definidora da parti¸ca˜o de uma popula¸ca˜o de interesse em m classes. A an´alise discriminante consiste em dois aspectos principais: • sele¸ca˜o do melhor subconjunto dos descritores originais (aspecto de sele¸ca˜o); • constru¸ca˜o da regra de decis˜ao (regra de classifica¸ca˜o), com objetivo de classificar elementos em uma das m classes (aspecto classificat´orio). Na An´alise Discriminante Fatorial (Factorial Data Analysis - FDA) [Joh01], o aspecto de sele¸ca˜o ´e realizado em termos de combina¸ca˜o linear das p vari´aveis descritoras originais, escolhidas de forma que se obtenha a melhor visualiza¸ca˜o das classes no espa¸co fatorial. O aspecto classificat´orio da FDA ´e desempenhado pela defini¸ca˜o da regra de classifica¸ca˜o geom´etrica, baseada na proximidade entre o indiv´ıduo e a classe. A An´alise Discriminante Fatorial para Dados Simb´olicos ´e um m´etodo simb´oliconum´erico-simb´olico, baseado em uma an´alise num´erica dos dados simb´olicos transformados e uma interpreta¸ca˜o simb´olica dos resultados. Este m´etodo ´e constitu´ıdo dos seguintes passos: i) quantifica¸ca˜o dos descritores; ii) FDA nos descritores quantificados; iii) interpreta¸ca˜o simb´olica dos resultados. A primeira etapa da An´alise Discriminante Fatorial para Dados Simb´olicos ´e realizada pela transforma¸ca˜o num´erica do dado simb´olico, que consiste em uma codifica¸ca˜o adequada de acordo com o tipo de vari´avel (se¸ca˜o 2.3). Ao final deste processo, temos N descritores num´ericos. A segunda etapa assume θj , ∀j = 1, . . . , N como os novos descritores..

(28) ´ lise discriminante fatorial para dados simbo ´ licos 2.4 ana. 11. O n´ umero de coordenadas a serem mantidas na an´alise discriminante fatorial ´e escolhida de forma usual, ou seja, baseando-se na porcentagem de variˆancia dos descritores, explicada pelas q ≤ min(M, N −1) primeiras coordenadas, para N o n´ umero de descritores e M o n´ umero de classes. Au ´ltima fase ´e representada pela defini¸ca˜o da regra de classifica¸ca˜o geom´etrica. Considerando que ambas, a instˆancia a ser classificada e as classes, s˜ao representadas no espa¸co fatorial por retˆangulos. A classifica¸ca˜o da instˆancia em uma classe Ci ´e definida de acordo com dois eventos: i) se o exemplo (retˆangulo) estiver inclu´ıdo na classe Ci , este ´e assinalado a esta classe; ii) se o exemplo est´a parcialmente ou completamente fora de todas as classes ou dentro de uma a´rea de sobreposi¸ca˜o entre duas ou mais classes, considera-se uma medida de similaridade para determinar a qual classe Ci o elemento pertence. Existem algumas regras de classifica¸ca˜o geom´etricas na literatura [Boc00a], entre as quais podemos destacar aquelas baseadas no potencial descritor π(.), definido por De Carvalho [Car92], como o volume do produto cartesiano definido sobre os dom´ınios das vari´aveis. Logo abaixo, apresentamos uma regra de classifica¸ca˜o baseada no potencial descritor:. Regra de classifica¸c˜ ao baseada em uma extens˜ ao da medida de dissimilaridade de Minkowsky. Baseada em uma medida de dissimilaridade proposta por Ichino e Yaguchi [Ich94] e generalizada para dado simb´olico por De Carvalho e Diday [Car]:. d(ωj , ωs ) =. s m. X. (pα Ψα (ωj , ωs ))m. (.). α. onde ωj e ωs s˜ao a representa¸ca˜o fatorial de dois elementos j e s, pα ´e o α autovalor e m ´e o n´ umero de coordenadas fatoriais,.

(29) ´ licos 2.5 redes multi-layer perceptron para dados simbo. Ψ(ωj , ωs ) =. µ(Sαs ⊕ Sαj ) − µ(Sαs ∩ Sαj ) + γ(2µ(Sαs ∩ Sαj ) − µ(Sαs ) − µ(Sαj )) j). µ(Sαs ⊕ Sα. 12. ,. (.). com γ ∈ [0, 1], µ(Sαs ) ´e o tamanho do intervalo do elemento na coordenada α, µ(Sαs ⊕ Sαj ) ´e o tamanho do intervalo obtido pela jun¸ca˜o dos intervalos dos elementos j e s na coordenada α e µ(Sαs ∩ Sαj ) ´e o tamanho da conjun¸ca˜o dos intervalos dos elementos na coordenada α. Dado um exemplo u do conjunto de teste, este ´e alocado para uma determinada classe Ci se a m´edia das distˆancias entre u e todos os elementos da classe Ci for menor em rela¸ca˜o a todas as m´edias das outras classes.. 2.5. ´ REDES MULTI-LAYER PERCEPTRON PARA DADOS SIMBOLICOS As redes neurais artificiais s˜ao modelos n˜ao-param´etricos e, em geral, n˜ao-lineares,. compostos por unidades de processamento paralelamente interconectadas, normalmente adaptativas, cuja organiza¸ca˜o ´e baseada em modelos f´ısicos de sistemas biol´ogicos [Bra00]. Dentre os v´arios modelos de redes neurais artificiais, a rede Perceptron Multi-Camadas (multlayer perceptron - MLP) ´e a mais difundida. Tipicamente, a rede consiste em um conjunto de unidades sensoriais que constituem a camada de entrada, uma ou mais camadas escondidas e uma camada de sa´ıda de n´os computacionais. Seu poder computacional excede a capacidade das redes simples sem camada intermedi´aria como Perceptron e Adaline, podendo tratar dados que n˜ao s˜ao linearmente separ´aveis [Bra00]. As principais caracter´ısticas de uma rede MLP s˜ao: • cont´em uma ou mais camadas escondidas; • o modelo de cada unidade de processamento inclui uma fun¸ca˜o de ativa¸ca˜o n˜aolinear, normalmente a log´ıstica (sigm´oide) ou a tangente hiperb´olica; • apresenta um alto grau de conectividade entre as camadas; • utiliza um algoritmo de treinamento (aprendizado) a fim de ajustar as conex˜oes entre as unidades de processamento;.

(30) ´ licos 2.5 redes multi-layer perceptron para dados simbo. 13. O backpropagation [Rum 1] ´e o algoritmo de treinamento supervisionado mais conhecido para as redes MLP. Para tanto, utiliza pares de entrada associados com a sa´ıda desejada, para ajustar os pesos da rede por um mecanismo de adapta¸ca˜o por corre¸ca˜o de erros em duas fases (forward e backward). O backpropagation baseia-se na regra delta generalizada, recorrendo ao m´etodo do gradiente para ajustar os pesos das conex˜oes entre os nodos. Em [Ros02], foram estudados dois tipos de m´etodos que permitem o uso de dados simb´olicos do tipo intervalo como entrada para redes MLP´s: a abordagem dos valores extremos e dois procedimentos probabil´ısticos. Esses m´etodos tˆem as seguintes caracter´ısticas: 1. podem ser implementados facilmente no topo de um software de redes neurais existente. Um outro m´etodo baseado na id´eia da aritm´etica do intervalo [Sim96] necessita que todas as etapas da rede neural (inicializa¸ca˜o, treinamento, visualiza¸ca˜o etc.) sejam modificadas e adaptadas ao m´etodo. 2. A MLP treinada com intervalos atrav´es de um destes m´etodos suporta tanto intervalos como dados usuais quantitativos como entrada. Esta caracter´ıstica ´e importante j´a que um dado usual pode ser considerado um intervalo cujos limites sejam iguais.. 2.5.1. M´ etodo dos valores extremos. A forma mais simples de se tratar intervalo como entrada para uma MLP ´e transformar cada intervalo em um par de dado usual, por exemplo os limites inferior e superior do intervalo, ou a m´edia e o tamanho do intervalo. Como este artif´ıcio ´e poss´ıvel utilizar a MPL cl´assica, por´em dobra a quantidade de dados de entrada. A fim de usar dados usuais em uma MLP treinada com o m´etodo dos valores extremos, deve-se replicar estes dados, isto ´e, uma entrada (x1 , . . . , xn ) torna-se (x1 , x1 , . . . , xn , xn )..

(31) ´ licos 2.6 discriminante kernel para dados simbo 2.5.2. 14. M´ etodos probabil´ısticos. Uma outra forma de tratar dados do tipo intervalo ´e consider´a-los como simples dados probabil´ısticos. Se uma amostra para a MLP ´e descrita pelo intervalo [a,b], uma poss´ıvel interpreta¸ca˜o ´e presumir que de fato a amostra pode assumir qualquer valor entre a e b, com probabilidade uniforme. Baseado nessa premissa, o m´etodo da m´edia substitui cada intervalo pela sua m´edia e treina a rede com os valores obtidos. Dados usuais s˜ao tratados diretamente. Uma outra maneira de proceder ´e substituir cada amostra por um conjunto de valores reais. Esses valores s˜ao obtidos a partir de simula¸ca˜o, supondo que o intervalo [a,b] corresponde a uma distribui¸ca˜o uniforme em [a,b]. Essa abordagem ´e chamada de m´etodo de simula¸ca˜o. Para entradas novas de dados usuais, ´e usada a MLP treinada diretamente. Para entradas novas do tipo intervalo, s˜ao gerados valores reais simulados e computadas as sa´ıdas correspondentes normalmente.. 2.6. ´ DISCRIMINANTE KERNEL PARA DADOS SIMBOLICOS Nesta se¸ca˜o, apresentamos o m´etodo estat´ıstico de classifica¸ca˜o supervisionado, conhe-. cido como fun¸ca˜o kernel. Inicialmente vimos o caso cl´assico e, por fim, a abordagem simb´olica. Consideremos que o conjunto de treinamento ´e formado pelas classes Π1 , . . . , Πg e estas, por sua vez, s˜ao descritas por g densidades de probabilidades, f1 (x), . . . , fg (x). Quando as densidades s˜ao conhecidas, o problema da classifica¸ca˜o ´e resolvido facilmente pelos m´etodos de m´axima verossimelhan¸ca ou pela regra de Bayes (caso tamb´em seja fornecida a probabilidade a priori). Na maioria dos casos reais, por´em, n˜ao ´e poss´ıvel supor um modelo param´etrico sobre as densidades de probabilidade das classes. Nessas circunstˆancias, m´etodos n˜ao param´etricos devem ser usados para obter as estimativas das densidades. O discriminante kernel ´e um destes m´etodos. O estimador de densidade kernel para a densidade de probabilidade fk , 1 ≤ k ≤ g, e.

(32) ´ rvore de classificac ˜ o para dados simbo ´ licos 2.7 a ¸a. 15. dado quantitativo d-dimensional ´e fornecido pela seguinte f´ormula: fbk (x) =. onde.   nk X 1 x − xki , x ∈ <d , K d nk (2hk ) i=1 hk. (.). • hk > 0 ´e a largura da janela pr´e definida para a k-´esima classe. •. Pn k. i=1 K. . x−xki hk. . informa o n´ umero de elementos do conjunto de treinamento cuja. distˆancia seja menor que hk de x.. Como j´a vimos, o estimador de densidade kernel ´e uma ferramenta que permite o estat´ıstico construir densidade em qualquer conjunto de dados [Ras00]. A fim de adaptar o m´etodo para dados simb´olicos, algumas novas medidas de densidades fazem-se necess´arias. Vamos supor que cada indiv´ıduo seja descrito por p vari´aveis simb´olicas X=(Y1,...,Yp ). Com o objetivo de resolver o problema de discrimina¸ca˜o para dados simb´olicos, teremos que encontrar uma analogia com o estimador de densidade cl´assico, apresentado anteriormente, que mede a concentra¸ca˜o de dados na vizinhan¸ca de X=x. Dessa forma, a estima¸ca˜o de densidade ´e realizada contando os pontos do conjunto de treinamento de cada popula¸ca˜o dentro do ”hipercubo”, usando uma medida de dissimilaridade d1 [Esp00], entre os objetos simb´olicos x,y: Ibk (x) =. onde. Kx,h (y) =. 2.7.    1   0. nk 1 X Kx,h (xki ) nk i=1. se d1 (x, y) < h, h = hk para k = 1, . . . , g se d1 (x, y) ≥ h.. (.). (.). ´ ˜ PARA DADOS SIMBOLICOS ´ ARVORE DE CLASSIFICAC ¸ AO As a´rvores de classifica¸ca˜o ([Bre84] e [Cia92]) tˆem, como objetivo, predizer o n´ umero. de objetos em k classes, representados pela vari´avel categ´orica c atrav´es da medi¸ca˜o.

(33) ´ rvore de classificac ˜ o para dados simbo ´ licos 2.7 a ¸a. 16. de uma ou mais vari´aveis preditoras. Em outras palavras, consiste em encontrar as probabilidades P[c|y], c em {1, . . . , k}, onde y denota a descri¸ca˜o de um objeto pelas vari´aveis preditoras. O algoritmo de a´rvore de classifica¸ca˜o comp˜oe-se de quatro etapas b´asicas [Lew]. Na primeira, temos a constru¸ca˜o da a´rvore, utilizando algoritmo de parti¸ca˜o recursiva dos n´os. Cada n´o resultante ´e atribu´ıdo a uma classe, baseado na probabilidade a priori de cada classe, da matriz de custo e na fra¸ca˜o de elementos de cada classe no n´o resultante. A segunda etapa consiste em parar o processo de constru¸ca˜o da a´rvore. Nesse ponto, foi produzida uma a´rvore ”m´axima”que provavelmente sobreajustou a informa¸ca˜o contida na base de treinamento. J´a a terceira etapa consta da poda da a´rvore, que resulta na cria¸ca˜o de uma seq¨ uˆencia de a´rvores cada vez mais simples. Por fim, a quarta etapa ´e a sele¸ca˜o da a´rvore o´tima, aquela que ajusta melhor a informa¸ca˜o da base de aprendizagem sem sobre ajust´a-la. O m´etodo apresentado em [Cia00] prop˜oe estender o algoritmo de crescimento de a´rvore para dados imprecisos ou probabil´ısticos. O objetivo do m´etodo proposto ´e construir interativamente, a partir de uma lista de dados simb´olicos β (base de treinamento), com ajuda de um procedimento de parti¸ca˜o interativa, outra lista ω (menor) de dados simb´olicos que constitui a melhor informa¸ca˜o da lista β. Em outras palavras, o objetivo do m´etodo ´e aumentar interativamente o conjunto ω, que, a cada passo, produz a melhor informa¸ca˜o significativa sobre o conjunto β. Este processo ´e escrito em forma do seguinte problema maximiza¸ca˜o: max GInf(ω, β). (.). em que GInf ´e uma medida geral de informa¸ca˜o a qual expressa um conceito de adequa¸ca˜o entre dois conjuntos de asser¸co˜es. A id´eia geral da parti¸ca˜o simb´olica recursiva ´e resumida no algoritmo abaixo: ´ 1. Entrada: CONJUNTO DOS DADOS SIMBOLICOS A SEREM ESTUDADOS (β) ´ 2. PARTICIONAMENTO SIMBOLICO RECURSIVO Aumenta interativamente o conjunto ω a partir dos dados β tal que, em cada passo, GInf(ω,β) ´e m´axima..

(34) ˜o 2.8 conclusa. 17. ´ ´ 3. Sa´ıda: SUMARIO DOS DADOS SIMBOLICOS (ω) (descri¸ca˜o da a´rvore bin´aria). 2.8. ˜ CONCLUSAO Neste cap´ıtulo apresentamos a abordagem para dados simb´olicos de alguns dos clas-. sificadores supervisionados cl´assicos, dentre os quais an´alise discriminante fatorial para dados simb´olicos; redes multi-layer perceptron para dados simb´olicos; discriminante kernel para dados simb´olicos; a´rvore de classifica¸ca˜o para dados simb´olicos. No pr´oximo cap´ıtulo, apresentaremos o m´etodo de classifica¸ca˜o para dados simb´olicos baseados em uma abordagem geom´etrica, chamada orientada a regi˜ao. O m´etodo orientado a regi˜ao consiste em encontrar as regi˜oes no espa¸co de caracter´ısticas que descrevem classes de objetos (indiv´ıduos) e introduzir uma medida adequada de proximidade entre uma regi˜ao e um novo objeto a ser classificado..

(35) CAP´ITULO 3. ˜ PARA CLASSIFICADORES BASEADOS EM REGIAO ´ DADOS SIMBOLICOS. 3.1. ˜ INTRODUC ¸ AO Abordagens tradicionais para classifica¸ca˜o de padr˜oes s˜ao divididas, principalmente,. nas seguintes categorias [Ich96]: 1. abordagem baseada em equa¸co˜es de decis˜ao: o prop´osito nesta categoria ´e achar as equa¸co˜es de decis˜ao que determinam os limiares entre classes. Classificadores lineares e de Bayes s˜ao exemplos para esta categoria; 2. abordagem baseada na similaridade: o prop´osito nesta categoria ´e achar o(s) padr˜ao(˜oes) modelo(s) que representem a classe e usar uma medida de similaridade apropriada entre o(s) modelo(s) e um padr˜ao a ser classificado. O m´etodo de k-vizinhos mais pr´oximos e v´arios m´etodos de matching s˜ao exemplos para esta categoria. Como uma categoria diferente, diversos m´etodos de classifica¸ca˜o foram desenvolvidos, baseados em uma abordagem geom´etrica, chamada orientada a regi˜ao. Por ser n˜ao param´etrico, esta abordagem ´e adequada em situa¸co˜es de classifica¸ca˜o em que a representa¸ca˜o matem´atica apropriada da distribui¸ca˜o de probabilidade dos exemplos ´e dif´ıcil de se obter. O m´etodo orientado a regi˜ao consiste em encontrar as regi˜oes no espa¸co de caracter´ısticas que descrevem classes de objetos (indiv´ıduos) e introduzir uma medida adequada de proximidade entre uma regi˜ao e um novo objeto a ser classificado. [Sot74] propˆos um classificador para exemplos descritos por dados bin´arios e usou eventos principais (prot´otipos de pontos) para descrever regi˜oes da classe. [Mic80] desenvolveu um 18.

(36) ˜ es e grafo 3.2 conceitos de regio. 19. m´etodo de classifica¸ca˜o em que v´arios tipos de caracter´ısticas podem ser usados simultaneamente para encontrar regi˜oes da classe. [Ich79] e [Ich81] propˆos o uso de hiper-retˆangulos para descrever as classes no espa¸co de caracter´ıstica. Em [Ich86], [Ich93] e [Ich94], este m´etodo ´e generalizado para tratar com dado simb´olico. Mais tarde, em [Ich96] e [Yag96], foi introduzido um classificador para dados do tipo quantitativo, categ´orico, intervalar e multivalorado. Esta abordagem ´e uma adapta¸ca˜o do conceito de vizinhan¸ca m´ utua, introduzido em [Gow78] para definir vizinhan¸ca m´ utua entre dados simb´olicos e grafo de vizinhos m´ utuos entre grupos. Na se¸ca˜o 3.2, descrevemos os conceitos de regi˜oes e grafos, que s˜ao muito importantes para o devido entendimento das se¸co˜es seguintes. Na se¸ca˜o 3.4, apresentamos a etapa de aprendizagem do classificador para dados simb´olicos. Esta etapa fornece a descri¸ca˜o, que ´e obtida atrav´es de um operador simb´olico (jun¸ca˜o) e um Grafo de Vizinhos M´ utuos, de uma classe por uma regi˜ao (ou conjunto de regi˜oes) definida pelo hiper-cubo formado pelos objetos pertencentes a esta classe. J´a na se¸ca˜o 3.5, expusemos a etapa de aloca¸ca˜o, quando as novas observa¸co˜es s˜ao classificadas usando diferentes fun¸co˜es de matching. Por fim, a conclus˜ao ´e apresentada na se¸ca˜o 3.6. 3.2. ˜ CONCEITOS DE REGIOES E GRAFO Nesta se¸ca˜o, apresentamos alguns conceitos de regi˜oes e grafos introduzidos em [Ich96]. e [Yag96], que s˜ao muito importantes para o devido entendimento das se¸co˜es seguintes. A proposta apresentada ´e fundamentada no m´etodo orientado a regi˜ao para dados simb´olicos, que s˜ao representados por vetores de vari´aveis quantitativas. O valor assumido pela caracter´ıstica quantitativa de interesse pode ser tanto um valor cont´ınuo (ex. Y (k)=1.80 metros de altura) como um intervalo (ex. Y (k) = [0, 2] tempo de dura¸ca˜o de uma prova escolar). A figura 3.1 (a) ilustra a descri¸ca˜o dos vetores x={2, 6} e y={6, 2} no plano cartesiano. Seja Ck = {ωk1 , . . . , ωkNk }, k = 1, . . . , m, uma classe de indiv´ıduos com Ck ∩ Ck0 = ∅ ıduo ωkl , l = 1, . . . Nk , ´e representado pelo vetor de dados se k 6= k 0 e ∪m k=1 = Ω. O indiv´ cont´ınuo xkl = (xkl1 , . . . , xklp )..

(37) ˜ es e grafo 3.2 conceitos de regio 3.2.1. 20. Opera¸c˜ ao jun¸c˜ ao. A jun¸ca˜o entre os vetores de dados cont´ınuos xkl (l = 1, . . . , Nk ) ´e um vetor de intervalos, que ´e definido como yk = xk1 ⊕ . . . ⊕ xkNk = (xk11 ⊕ . . . ⊕ xkNk 1 , . . . , xk1j ⊕ . . . ⊕ xkNk j , . . . , xk1p ⊕. . .⊕xkNk p ), onde xk1j ⊕. . .⊕xkNk j = [min{xk1j , . . . , xkNk j }, max{xk1j , . . . , xkNk j }]( j = 1, . . . , p). Na figura 3.1 (b) o quadrado maior ilustra a jun¸ca˜o dos vetores x e y, j=x ⊕ y.. Figura 3.1. Representa¸ca˜o de vetores e opera¸co˜es no plano cartesiano. 3.2.2. J-Regi˜ ao. A J-regi˜ao associada a` classe Ck ´e a regi˜ao em <p que ´e obtida pela jun¸ca˜o dos objetos pertencentes a` classe Ck e ´e definida como RJ (Ck ) = {x ∈ <p : min{xk1j , . . . , xkNk j } ≤ xj ≤ max{xk1j , . . . , xkNk j }, j = 1, . . . , p}. O volume associado ao hipercubo definido pela regi˜ao RJ (Ck ) ´e π(RJ (Ck )). Na figura 3.1 (c), o quadrado assinalado ilustra a J-regi˜ao obtida pela jun¸ca˜o dos vetores x e y.. 3.2.3. Vizinhan¸ca m´ utua. Dois indiv´ıduos ωk1 e ωk2 s˜ao vizinhos m´ utuos se: ∀ωk0 l ∈ Ck0 (k 0 ∈ {1, . . . , m}, k 0 6= k), xk0 l ∈ / RJ {ωk1 , ωk2 } (l = 1, . . . , Nk0 ). (.).

(38) ˜ es e grafo 3.2 conceitos de regio. 21. ou seja, ωk1 e ωk2 s˜ao vizinhos m´ utuos, se a regi˜ao formada por eles n˜ao contiver nenhum elemento de outra classe. Na Figura 3.2 (a), temos C1 ={(2,4),(4,4)} e C2 ={(2,1),(4,5),(5,3)}; nesse caso, os elementos de C1 s˜ao vizinhos m´ utuos. Na Figura 3.2 (b), temos C2 =(2,1),(4,5),(3,3); nesse caso, os elementos de C1 n˜ao s˜ao vizinhos m´ utuos pois (3,3)∈ RJ (C1 ).. Figura 3.2. Rela¸ca˜o de vizinhan¸ca. 3.2.4. Conceitos b´ asicos da teoria dos grafos. Os grafos s˜ao estruturas matem´aticas, usualmente aplicadas em problemas de classifica¸ca˜o que representam um conjunto de pontos, juntamente com linhas que ligam alguns pares de pontos, a partir de rela¸co˜es existentes entre os mesmos.. Grafo. Um grafo G=(VG,AG) consiste de um conjunto finito n˜ao vazio VG e de um subconjunto AG ⊂ VG x VG obtido atrav´es de uma rela¸ca˜o definida entre os pares n˜ao ordenados de elementos distintos de VG. Os elementos de VG s˜ao chamados de v´ertices e os de AG s˜ao chamados de arestas. Os v´ertices s˜ao os extremos da aresta. Duas arestas que possuem um extremo comum s˜ao chamadas de adjacentes [Szw84]. Grafos podem ser visualizados por diagramas (representa¸ca˜o geom´etrica), onde cada v´ertice ´e repre-.

(39) ˜ es e grafo 3.2 conceitos de regio. 22. sentado por um ponto e cada aresta por uma linha ligando os pontos que representam seus extremos. Conforme o tipo da rela¸ca˜o definida em VGxVG, um grafo pode ser orientado, quando a rela¸ca˜o ´e anti-sim´etrica, ou n˜ao orientado, quando a rela¸ca˜o ´e sim´etrica.. Grafo Simples. Um grafo simples ´e aquele em que os extremos das arestas n˜ao coincidem, e n˜ao existem duas arestas distintas com o mesmo par de extremos.. Grafo completo. Chama-se de grafo completo a um grafo simples em que quaisquer dois v´ertices s˜ao adjacentes.. Subgrafo. Um grafo H ´e um subgrafo de outro G (H⊆G), se VG inclui VH, AG inclui AH, e para toda aresta de H seus extremos em H s˜ao tamb´em seus extremos em G.. Subgrafo completo. Um subgrafo H ´e dito ser completo em G, se, para todos os pares poss´ıveis de v´ertices em H, existe uma aresta.. Clique. Uma clique H ´e um subgrafo completo m´aximo de G, isto ´e: a) para todos os pares poss´ıveis de v´ertices de H, existe uma aresta; b) ao adicionar a` H um outro v´ertice de G, n˜ao existir´a uma aresta para cada poss´ıvel.

(40) ˜ es e grafo 3.2 conceitos de regio. 23. par de v´ertices de H.. 3.2.5. Grafo de vizinhos m´ utuos. Um grafo de vizinhos m´ utuos de Ci em rela¸ca˜o a` Ci , denominado MNG(Ci /Ci )), ´e um grafo cujos v´ertices s˜ao os objetos da classe Ci e cujas arestas s˜ao formadas pelos pares distintos de objetos de Ci que satisfazem a` rela¸ca˜o de vizinhos m´ utuos, isto ´e,. MNG(Ci /Ci ))=(V,A), onde V=Ci e A={(sip , siq ) ∈ Ci xCi /sip 6= siq e sip ´e vizinho m´ utuo de siq }. O MNG(Ci /Ci )) ´e um grafo simples n˜ao orientado. A Figura 3.3 ilustra um simples exemplo de grafo de vizinhos m´ utuos da classe C1 em rela¸ca˜o a` classe C2 , para C1 ={1, 2, 3, 4} e C2 ={5}. Neste exemplo, o MNG(C1 /C2 ) = ({1, 2, 3, 4},{(1, 2), (1, 3), (1, 4), (2, 4), (3, 4)}).. Figura 3.3. Grafo de vizinho m´ utuo. Na Figura 3.3 (a), o quadrado ilustrado A representa a J-regi˜ao formada pela jun¸ca˜o dos objetos 2 e 3 da classe C1 . Podemos observar que esta regi˜ao n˜ao inclui nenhum elemento da classe C2 , logo a aresta (2,3) est´a contida no conjuntos das arestas do MNG(C1 /C2 ), j´a que os objetos 2 e 3 s˜ao vizinhos m´ utuos entre si. Na Figura 3.3 (b), o quadrado ilustrado B representa a J-regi˜ao formada pela jun¸ca˜o dos objetos 3 e.

(41) ˜ o do mng 3.3 construc ¸a. 24. 4 da classe C1 . Diferente da regi˜ao anterior, esta regi˜ao inclui o objeto 5 da classe C2 , fazendo com que os objetos 3 e 4 n˜ao sejam vizinhos m´ utuos, logo a aresta (3,4) n˜ao est´a contida no conjunto das arestas do MNG(C1 /C2 ).. 3.3. ˜ DO MNG CONSTRUC ¸ AO Apesar da defini¸ca˜o do MNG ser bastante simples, sua constru¸ca˜o ´e a base para o. algoritmo de aprendizado em [Ich96]. Nesta abordagem (orientada a regi˜ao), a id´eia principal ´e prover uma descri¸ca˜o de cada classe CK (k = 1, . . . , m) pela J-regi˜ao (ou por um conjunto de J-regi˜oes). Esta regi˜ao (ou regi˜oes) ´e obtida atrav´es do Grafo de Vizinhos M´ utuos dos elementos que fazem parte do conjunto do qual se quer a descri¸ca˜o, ou seja, partindo do conjunto de elementos de uma classe de interesse, constr´oi-se o MNG e, ao final de sua constru¸ca˜o, associa-se uma ou v´arias regi˜oes ao MNG, conforme o conceito a seguir: - se os objetos pertencentes a` classe Ck s˜ao todos vizinhos m´ utuos entre si, o grafo de vizinhos m´ utuos de Ck em rela¸ca˜o a Ck = ∪m e um grafo completo e associamos k0 =1 Ck 0 ´ k0 6=k. apenas uma J-regi˜ao ao grafo; - se os objetos pertencentes a` classe Ck n˜ao s˜ao vizinhos m´ utuos entre si, procuramos por todos os subconjuntos de Ck cujos elementos s˜ao vizinhos m´ utuos entre si, ou seja, formam uma clique. Para cada clique associamos uma J-regi˜ao. A constru¸ca˜o do MNG para classes {C1 , C2 , . . . , Cm } e a representa¸ca˜o de cada classe por uma J-regi˜ao (ou por um conjunto de J-regi˜oes) ´e realizada da seguinte forma: Para k = 1, . . . , m : 1 encontre a regi˜ao RJ (Ck ) associada a` classe Ck e verifique se os objetos pertencentes a esta classe s˜ao vizinhos m´ utuos entre si; 2 se for o caso, construa o MNG (grafo completo) e pare;.

(42) ˜ es do grafo de vizinhos mu ´ tuos 3.4 aproximac ¸o. 25. 3 Se n˜ao, ache os subconjuntos de Ck cujos elementos s˜ao vizinhos m´ utuos entre si e formam uma clique no MNG e para cada subconjunto Ckt (t = 1, . . .) associe uma regi˜ao Rj (Ckt ). Construa o MNG (grafo incompleto) e pare. A Figura 3.4 (a) mostra o MNG para a classe C1 em rela¸ca˜o a C2 (M N G(C1 , C2 )) e o M N G(C2 , C1 ). No primeiro caso, o MNG ´e um grafo completo; j´a no segundo, o grafo ´e composto por trˆes cliques. Na Figura 3.4 (b), podemos observar as J-regi˜oes associadas aos grafos.. Figura 3.4. MNGs para as classes e as J-regi˜oes associadas. 3.4. ˜ ´ APROXIMAC ¸ OES DO GRAFO DE VIZINHOS MUTUOS A constru¸ca˜o do grafo de vizinhos m´ utuos ´e a etapa fundamental no processo de. aprendizagem, pois, na constru¸ca˜o do MNG obtemos a descri¸ca˜o das classes (regi˜oes). A dificuldade na constru¸ca˜o do MNG surge quando os objetos pertencentes a` classe Ck n˜ao s˜ao vizinhos m´ utuos entre si. Neste caso, procuramos por todos os subconjuntos de Ck cujos elementos formam uma clique no grafo. No entanto, ´e bem conhecido que a complexidade computacional em tempo para achar todas as cliques no grafo ´e exponencial. A solu¸ca˜o, ent˜ao, ´e construir aproxima¸co˜es do grafo de vizinhos m´ utuos..

(43) ˜ es do grafo de vizinhos mu ´ tuos 3.4 aproximac ¸o 3.4.1. 26. Aproxima¸c˜ ao do MNG: abordagem I. Para solucionar o problema de encontrar todas as cliques no grafo, [Ich96] e [Yag96] propuseram uma aproxima¸ca˜o do MNG de forma que cada objeto n˜ao possa pertencer a mais de um subconjunto (clique) e a gera¸ca˜o de cada subconjunto de Ck (k = 1, . . . , m),Ckt (t = 1, . . .), seja obtida de acordo com uma medida de associa¸ca˜o entre um objeto pertencente a Ck e este subconjunto. Seja ωkl um objeto pertencente a Ck , ζ um subconjunto de Ck cujos elementos s˜ao vizinhos m´ utuos entre si. Uma medida de associa¸ca˜o entre ωkl e ζ ´e definida como:. A(ωkl |ζ) = |M N (ωkl ) ∩ M N (ζ)|. (.). em que M N (ωkl ) ´e o conjunto de elementos que s˜ao vizinhos m´ utuos de ωkl , M N (ζ) ´e o conjunto de elementos que s˜ao vizinhos m´ utuos de ζ e | ? | ´e o cardinal do conjunto ?. A constru¸ca˜o do MNG, segundo [Ich96] e [Yag96], ´e a seguinte: Para k = 1, . . . , m : 1 encontre a regi˜ao RJ (Ck ) associada a` classe Ck e verifique se os objetos pertencentes a esta classe s˜ao vizinhos m´ utuos entre si; 2 se for o caso, construa o MNG (grafo completo) e pare. 3 se n˜ao, (aproxima¸ca˜o do MNG): 3.1 escolha o objeto que possui o n´ umero m´aximo de vizinhos m´ utuos como semente; t←1, ponha a semente no subconjunto Ckt ; remova a semente de Ck ; 3.2 escolha o pr´oximo objeto de Ck tal que a medida de associa¸ca˜o entre o objeto e o subconjunto Ckt seja m´axima; adicione-o a Ckt . Se todos os utuos entre si, ent˜ao objetos pertencentes a Ckt permanecerem vizinhos m´ remova-o de Ck ; se n˜ao retire-o de Ckt ; 3.4 repita o passo 3.2 para os objetos restantes em Ck ; 3.5 encontre a regi˜ao RJ (Ckt ) associada a Ckt ;.

(44) ˜ es do grafo de vizinhos mu ´ tuos 3.4 aproximac ¸o. 27. 3.6 se Ck 6= ∅, ent˜ao t←t+1; repita os passos 3.1 a 3.4 at´e Ck = ∅; 3.7 construa o MNG (grafo incompleto) e pare. Este algoritmo tem complexidade O(n3 ) no qual n ´e o cardinal do conjunto de entrada de dados (conjunto treinamento).. 3.4.2. Aproxima¸c˜ ao do MNG: abordagem II. Com o objetivo de melhorar o tempo de execu¸ca˜o da abordagem proposta em [Ich96] e [Yag96] para processamento de grandes conjunto de dados, sem perder a performance do classificador, [Sou99a] propˆos uma nova aproxima¸ca˜o do MNG. Nesta abordagem, como tamb´em na abordagem I, cada objeto n˜ao pode pertencer a mais de um subconjunto (clique), por´em a gera¸ca˜o de cada subconjunto ´e obtida de acordo com a ordem lexicogr´afica do objeto no conjunto de dados de entrada. Para k = 1, . . . , m : 1 encontre a regi˜ao RJ (Ck ) associada a` classe Ck e verifique se os objetos pertencentes a esta classe s˜ao vizinhos m´ utuos entre si; 2 se for o caso, construir o MNG (grafo completo) e pare; 3 se n˜ao, (aproxima¸ca˜o do MNG): 3.1 escolha um objeto como semente de acordo com a ordem lexicogr´afica dos objetos em Ck ; t←1, ponha a semente no subconjunto Ckt ; remova a semente de Ck ; 3.2 adicione o pr´oximo objeto de Ck (de acordo com a ordem lexicogr´afica) a utuos Ckt , se todos os objetos pertencentes a Ckt permanecerem vizinhos m´ entre si, ent˜ao remova-o de Ck , se n˜ao, retire-o de Ckt ; 3.4 repita o passo 3.2 para todos os objetos restantes em Ck ; 3.5 encontre a regi˜ao RJ (Ckt ) associada a Ckt ; 3.6 se Ck 6= ∅, ent˜ao t←t+1; repita os passos 3.1 a 3.4 at´e Ck = ∅;.

(45) ˜o 3.5 etapa de alocac ¸a. 28. 3.7 construa o MNG (grafo incompleto) e pare. No final do algoritmo, s˜ao computados os subconjuntos Ck1 , . . . Ckt da classe Ck e ´e obtida a descri¸ca˜o desta classe pelas J-regi˜oes Rj (Ck1 ), . . . , Rj (Ckt ). Este algoritmo tem complexidade O(n2 ) no qual n ´e o cardinal do conjunto de entrada de dados (conjunto treinamento). A Figura 3.5 (a) mostra a aproxima¸ca˜o do MNG juntamente com as J-regi˜oes, segundo a abordagem I. Nela, podemos observar que o MNG para a classe C1 ´e completo, pois seus elementos s˜ao vizinhos m´ utuos entre si, por´em o mesmo n˜ao ocorre com a classe C2 , havendo necessidade de encontrar os subconjuntos (cliques) contidos em C2 conforme a abordagem. Na Figura 3.5 (b), vemos a aproxima¸ca˜o do MNG juntamente com as J-regi˜oes segundo a abordagem II. Nela, acontece o mesmo processo de constru¸ca˜o do MNG da figura anterior, ou seja, o MNG para classe C1 ´e completa e para classe C2 ´e incompleta, por´em a descri¸ca˜o da classe C2 difere nas duas abordagens.. Figura 3.5. Aproxima¸ca˜o do MNG para abordagem Ichino e Souza. 3.5. ˜ ETAPA DE ALOCAC ¸ AO O objetivo da etapa de aloca¸ca˜o ´e associar um novo objeto ω, descrito pelo vetor de. dados cont´ınuos x = (x1 , . . . , xp ), a uma classe Ck (k = 1, . . . , m), baseado em uma fun¸ca˜o de matching que compara a descri¸ca˜o da classe (uma regi˜ao ou um conjunto de regi˜oes) com um ponto em <p ..

(46) ˜o 3.5 etapa de alocac ¸a. 29. Como resultado da etapa de aprendizagem, obtemos as descri¸co˜es das classes {C1 , C2 , ..., Ck }. Estas descri¸co˜es s˜ao representadas por vetores de intervalos y={y1 , ..., yp } resultantes da opera¸ca˜o de jun¸ca˜o realizadas durante a constru¸ca˜o do MNG. Se o MNG da classe Ck for um grafo completo, a descri¸ca˜o da mesma ´e representada por apenas um vetor de intervalos; se o MNG da classe Ck for for um grafo incompleto, a descri¸ca˜o da mesma ´e representada por um conjunto de vetores de intervalos. Em [Ich96] e [Yag96], a regra de classifica¸ca˜o ´e definida conforme o seguinte: ω ´e atribu´ıda a` classe Ck se δ(ω, Ck ) ≥ δ(ω, Ch ), ∀h ∈ {1, . . . , m}. (.). em que δ(ω, Ch ) = max{δ(ω, Ch1 ), . . . , δ(ω, Cht )} e Chs uma clique de Ch . A fun¸ca˜o de compara¸ca˜o de similaridade δ ´e definida como: δ(ω, Chs ). p s d(yhv ) 1X , s = 1, . . . , t; v = 1, . . . , p = s p v=1 d(yhv ⊕ xv ). (.). em que d(z) ´e a amplitude do intervalo z e ⊕ ´e a opera¸ca˜o de jun¸ca˜o.. Em [Sou99a], a regra de classifica¸ca˜o ´e definida conforme o seguinte: ω ´e atribu´ıda a` classe Ck se ξ(ω, Ck ) ≤ ξ(ω, Ch ), ∀h ∈ {1, . . . , m}. (.). em que ξ(ω, Ch ) = min{ξ(ω, Ch1 ), . . . , ξ(ω, Cht )} e Chs uma clique de Ch . A fun¸ca˜o de compara¸ca˜o de dissimilaridade ξ ´e definida como: ξr (ω, Chs ). 1  p 1 X s r r {Θγα (xv , yhv )} , r, α ∈ {1, 2, . . .}; 0 ≤ γ ≤ 0.5 = p v=1. s Θγα (xv , yhv ). =.  . 1 2. s θ1γ (xv , yhv ) s d(xv ⊕ yhv )). α. . s θ2γ (xv , yhv ) + s d(xv ⊕ yhv ). α  1. α. , para. (.). (.). s s s s s θ1γ (xv , yhv ) = (1 − 2γ)d(xv ∩ yhv ) + d(xv ∩ yhv ) + d(xv ∩ yhv ∩ (xv ⊕ yhv )). (.). s s s s s θ2γ (xv , yhv ) = d(xv ∩ yhv ) + (1 − 2γ)d(xv ∩ yhv ) + d(xv ∩ yhv ∩ (xv ⊕ yhv )). (.).

Referências

Documentos relacionados

Por último, temos o vídeo que está sendo exibido dentro do celular, que é segurado e comentado por alguém, e compartilhado e comentado no perfil de BolsoWoman no Twitter. No

A Lista de Fauna Ameaçada de Extinção e os Entraves para a Inclusão de Espécies – o Exemplo dos Peixes Troglóbios Brasileiros.. The List of Endangered Fauna and Impediments

Also due to the political relevance of the problem of repressing misguided employment relationships, during the centre-left Prodi Government (2006-2008) and the

O Conselho Federal de Psicologia (CFP) apresenta à categoria e à sociedade em geral o documento de Referências Técnicas para a Prática de Psicólogas(os) em Programas de atenção

Neste estudo utilizaram-se como variáveis independentes apenas o facto da classificação da EF contar ou não para a média, sendo pertinente conduzirem-se mais

O Documento Orientador da CGEB de 2014 ressalta a importância do Professor Coordenador e sua atuação como forma- dor dos professores e que, para isso, o tempo e

Em síntese, no presente estudo, verificou-se que o período de 72 horas de EA é o período mais ad- equado para o envelhecimento acelerado de sementes de ipê-roxo

121 Figura 29 - Dendrograma filogenético construído para o isolado P4, baseado no método estatístico “Neighbor-joining”, derivado das sequências das regiões ITSrDNA, com base