Metodos de Agrupamento de Dados Simbolicos Baseados em funções de Dissimilaridades

Texto

(1)Pós-Graduação em Ciência da Computação. “Métodos de Agrupamento de Dados Simbólicos Baseados em funções de Dissimilaridades” Por. KELLY PATRICIA DA SILVA Dissertação de Mestrado. Universidade Federal de Pernambuco posgraduacao@cin.ufpe.br www.cin.ufpe.br/~posgraduacao. RECIFE, AGOSTO/2008.

(2) UNIVERSIDADE FEDERAL DE PERNAMBUCO ´ CENTRO DE INFORMATICA ´ ˜ EM CIENCIA ˆ ˜ POS-GRADUAC ¸ AO DA COMPUTAC ¸ AO. KELLY PATRICIA DA SILVA. “M´ etodos de Agrupamento de Dados Simb´ olicos Baseados em fun¸ c˜ oes de Dissimilaridades” ESTE TRABALHO FOI APRESENTADO ` POS-GRADUAC ´ ˜ EM CIENCIA ˆ A ¸ AO DA ˜ COMPUTAC ¸ AO DO CENTRO DE IN´ FORMATICA DA UNIVERSIDADE FEDERAL DE PERNAMBUCO COMO RE˜ QUISITO PARCIAL PARA OBTENC ¸ AO ˆ DO GRAU DE MESTRE EM CIENCIA DA ˜ COMPUTAC ¸ AO.. Orientador:. Prof. Dr. Francisco de Assis Tenório de Carvalho. RECIFE, AGOSTO/2008.

(3)

(4)

(5) i. Agradecimentos Agrade¸co a` minha mãe, pelo apoio sempre fundamental. A Rodrigo, pelo incentivo e apoio nos momentos dif´ıceis. Ao meu orientador, Prof. Dr. Francisco de Carvalho, pelo conhecimento, apoio e motiva¸cão necessários a` realiza¸cão deste trabalho. Ao Prof. Dr. Marc Csernel, que me auxiliou decisivamente na implementa¸cão do framework desenvolvido neste trabalho. A Stéphanie AUBIN e Alzennyr Gomes que me ajudaram no per´ıodo de visita ao INRIA. E, finalmente, agrade¸co ao INRIA, FACEPE, FADE e Propesq/UFPE pelo apoio financeiro..

(6) ii. Resumo Com a crescente quantidade de informa¸co˜es produzidas pelas diversas atividades humanas, tem se tornado cada vez mais importante agregar, tratar e manipular grandes massas de dados de modo a definir conceitos e extrair conhecimento destes dados. Esses conceitos podem ser descritos por dados mais complexos, chamados dados simbólicos. Nesse contexto, surge a necessidade de estender métodos exploratórios, estat´ısticos e representa¸cões gráficas para lidar com esse tipo de dados, em que cada variável pode assumir como valor um conjunto de categorias, intervalos ou distribui¸co˜es de probabilidades. A análise de dados simbólicos é definida como a extensão dos métodos de análise de dados clássicos para tal tipo de dados. Com o intuito de estender métodos estat´ısticos e técnicas de aprendizado de máquina a esse tipo de dados, é necessário definir medidas de distância apropriadas. Diversas medidas de distância têm sido propostas na literatura. No entanto, ainda existe na literatura uma carência de análises comparativas dos desempenhos de medidas de distância para dados simbólicos. A principal contribui¸cão desta Disserta¸caõ é prover uma avalia¸caõ emp´ırica de fun¸co˜es de dissimilaridade para dados simbólicos no contexto de análise de agrupamento. Além disso, foram propostas novas medidas de dissimilaridade para dados simbólicos. Com o intuito de atingir esses objetivos, foi desenvolvido um framework para agrupamento de dados simbólicos. Esse framework utiliza fun¸co˜es de dissimilaridade baseadas em volume e algoritmos de agrupamento de dados relacionais. Os experimentos foram executados com bases de dados de benchmark e duas bases de dados artificiais com diferentes graus de dificuldade de agrupamento. Os resultados obtidos foram avaliados através do ´ındice de rand corrigido. Em seguida, foram constru´ıdos os intervalos de confian¸ca para comparar os desempenhos dos algoritmos de agrupamento e das medidas de dissimilaridade.. Palavras-chave: Análise de dados simbólicos, Análise de Agrupamento, Medidas de Dissimilaridade..

(7) iii. Abstract Various human activities has been producing an increasing amount of information, therefore, summarizing, processing and manipulating huge datasets has become increasingly important in order to discover underlying concepts and extract new knowledge from them. These concepts can be described by a more complex type of data, called symbolic data. In this context, it is necessary to extend exploratory methods, statistical analysis and graphical representations to deal with these symbolic data, in which each variable can take value as: set of categories, intervals or probabilities distributions. Symbolic data analysis is defined as the extension of standard data analysis to such type of data. In order to extend statistical methods and machine learning techniques to deal with symbolic data, it is necessary to define suitable distance measures. Many distance measures have been proposed in the literature. However, there is a lack of comparative analysis of distance measures performance for symbolic data. The main contribution of this dissertation is to provide an empirical evaluation of dissimilarity functions for symbolic data in the context of clustering analysis. In addition, new dissimilarity measures for symbolic data are proposed. A framework for clustering symbolic data was developed. That framework uses volume-based dissimilarity measures and relational clustering algorithms. The experiments are carried out with benchmark datasets and two artificial interval datasets with different degrees of clustering difficulty. The accuracy of the results is assessed by the corrected Rand index. Then, the confidence intervals are generated for comparing the performance of clustering algorithms and dissimilarity measures.. Keywords: Symbolic Data Analysis, Clustering Analysis, Dissimilarity Measures..

(8) iv. Lista de Tabelas 1. Exemplo de tabela de dados clássicos.. 2. Exemplo de tabela de dados simbólicos.. 3. Tabela de Compara¸cão entre duas parti¸cões.. 4. Tabela de Associa¸caõ.. 5. Coeficientes Invariantes para dados binários. . . . . . . . . . . . . . . . . . 45. 6. Coeficientes Não-Invariantes para dados binários. . . . . . . . . . . . . . . 46. 7. Índices de Acordo/Desacordo de De Carvalho.. 8. Fun¸co˜es de compara¸cão propostas.. 9. Medidas de dissimilaridade implementadas.. 10. Algoritmos de Agrupamento implementados.. 11. Índice de Rand Corrigido para classes bem separadas com γ1 e γ2 ∈ [1; 8].. 72. 12. Índice de Rand Corrigido para classes bem separadas com γ1 e γ2 ∈ [1; 24].. 72. 13. Índice de Rand Corrigido para classes bem separadas com γ1 e γ2 ∈ [1; 40].. 72. 14. Índice de Rand Corrigido para classes sobrepostas com γ1 e γ2 ∈ [1; 8].. 15. Índice de Rand Corrigido para classes sobrepostas com γ1 e γ2 ∈ [1; 24].. . 88. 16. Índice de Rand Corrigido para classes sobrepostas com γ1 e γ2 ∈ [1; 40].. . 89. 17. Índice de Rand Corrigido para a base de peixes.. 18. Parti¸cão obtida para a base de peixes pelo algoritmo CARDF utilizando DIST1.. . . . . . . . . . . . . . . . . . . . .. 5. . . . . . . . . . . . . . . . . . . .. 6. . . . . . . . . . . . . . . . . 38. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44. . . . . . . . . . . . . . . . 55. . . . . . . . . . . . . . . . . . . . . . . 56 . . . . . . . . . . . . . . . . . 60 . . . . . . . . . . . . . . . . 60. . . 88. . . . . . . . . . . . . . . 105. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105. 19. Índice de Rand Corrigido para a base de temperaturas.. 20. Parti¸cão obtida pelo CARDF com DIST1 para a base de temperaturas.. 21. Índice de Rand Corrigido para a base de carros.. . . . . . . . . . . 110 . 111. . . . . . . . . . . . . . . 116.

(9) Lista de Tabelas. 22. Parti¸cão obtida pelo CARDF com DIST1 para a base de carros.. v. . . . . . 121.

(10) vi. Lista de Figuras 1. Estágios da tarefa de agrupamento . . . . . . . . . . . . . . . . . . . . . . 15. 2. Exemplos de agrupamento (a) hierárquico e (b) particional. . . . . . . . . . 19. 3. ´ Area criada pelo operador join. . . . . . . . . . . . . . . . . . . . . . . . . 51. 4. ´ Area restrita pelo operador meet. . . . . . . . . . . . . . . . . . . . . . . . 51. 5. Operador meet entre os objetos a e b. . . . . . . . . . . . . . . . . . . . . 55. 6. Os ´ındices β (a) e χ (b) entre a e b. . . . . . . . . . . . . . . . . . . . . . . 55. 7. O ´ındice δ entre a e b. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56. 8. Esquema do framework implementado. . . . . . . . . . . . . . . . . . . . . 58. 9. Classes Bem separadas de dados clássicos. . . . . . . . . . . . . . . . . . . 62. 10. Classes Com Sobreposi¸cão de dados clássicos. . . . . . . . . . . . . . . . . 62. 11. Base de Dados Artificial 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . 63. 12. Base de Dados Artificial 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . 63. 13. Intervalos de confian¸ca para classes bem separadas com γ1 e γ2 ∈ [1; 8] Algoritmos DCLUST e FNM. . . . . . . . . . . . . . . . . . . . . . . . . . 74. 14. Intervalos de confian¸ca para classes bem separadas com γ1 e γ2 ∈ [1; 8] Algoritmos FAP e RFCM. . . . . . . . . . . . . . . . . . . . . . . . . . . . 75. 15. Intervalos de confian¸ca para classes bem separadas com γ1 e γ2 ∈ [1; 8] Algoritmos NERFCM e FANNY. . . . . . . . . . . . . . . . . . . . . . . . 76. 16. Intervalos de confian¸ca para classes bem separadas com γ1 e γ2 ∈ [1; 8] Algoritmos CARDN e CARDF. . . . . . . . . . . . . . . . . . . . . . . . . 77. 17. Intervalos de confian¸ca para classes bem separadas com γ1 e γ2 ∈ [1; 24] Algoritmos DCLUST e FNM. . . . . . . . . . . . . . . . . . . . . . . . . . 79.

(11) Lista de Figuras. 18. vii. Intervalos de confian¸ca para classes bem separadas com γ1 e γ2 ∈ [1; 24] Algoritmos FAP e RFCM. . . . . . . . . . . . . . . . . . . . . . . . . . . . 80. 19. Intervalos de confian¸ca para classes bem separadas com γ1 e γ2 ∈ [1; 24] Algoritmos NERFCM e FANNY. . . . . . . . . . . . . . . . . . . . . . . . 81. 20. Intervalos de confian¸ca para classes bem separadas com γ1 e γ2 ∈ [1; 24] Algoritmos CARDN e CARDF. . . . . . . . . . . . . . . . . . . . . . . . . 82. 21. Intervalos de confian¸ca para classes bem separadas com γ1 e γ2 ∈ [1; 40] Algoritmos DCLUST e FNM. . . . . . . . . . . . . . . . . . . . . . . . . . 84. 22. Intervalos de confian¸ca para classes bem separadas com γ1 e γ2 ∈ [1; 40] Algoritmos FAP e RFCM. . . . . . . . . . . . . . . . . . . . . . . . . . . . 85. 23. Intervalos de confian¸ca para classes bem separadas com γ1 e γ2 ∈ [1; 40] Algoritmos NERFCM e FANNY. . . . . . . . . . . . . . . . . . . . . . . . 86. 24. Intervalos de confian¸ca para classes bem separadas com γ1 e γ2 ∈ [1; 40] Algoritmos CARDN e CARDF. . . . . . . . . . . . . . . . . . . . . . . . . 87. 25. Intervalos de confian¸ca para classes sobrepostas com γ1 e γ2 ∈ [1; 8] - Algoritmos DCLUST e FNM.. 26. . . . . . . . . . . . . . . . . . . . . . . . . . . 90. Intervalos de confian¸ca para classes sobrepostas com γ1 e γ2 ∈ [1; 8] - Algoritmos FAP e RFCM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91. 27. Intervalos de confian¸ca para classes sobrepostas com γ1 e γ2 ∈ [1; 8] - Algoritmos NERFCM e FANNY.. 28. . . . . . . . . . . . . . . . . . . . . . . . . 92. Intervalos de confian¸ca para classes sobrepostas com γ1 e γ2 ∈ [1; 8] - Algoritmos CARDN e CARDF. . . . . . . . . . . . . . . . . . . . . . . . . . 93. 29. Intervalos de confian¸ca para classes sobrepostas com γ1 e γ2 ∈ [1; 24] Algoritmos DCLUST e FNM. . . . . . . . . . . . . . . . . . . . . . . . . . 95. 30. Intervalos de confian¸ca para classes sobrepostas com γ1 e γ2 ∈ [1; 24] Algoritmos FAP e RFCM. . . . . . . . . . . . . . . . . . . . . . . . . . . . 96. 31. Intervalos de confian¸ca para classes sobrepostas com γ1 e γ2 ∈ [1; 24] Algoritmos NERFCM e FANNY. . . . . . . . . . . . . . . . . . . . . . . . 97. 32. Intervalos de confian¸ca para classes sobrepostas com γ1 e γ2 ∈ [1; 24] Algoritmos CARDN e CARDF. . . . . . . . . . . . . . . . . . . . . . . . . 98.

(12) viii. 33. Intervalos de confian¸ca para classes sobrepostas com γ1 e γ2 ∈ [1; 40] Algoritmos DCLUST e FNM. . . . . . . . . . . . . . . . . . . . . . . . . . 100. 34. Intervalos de confian¸ca para classes sobrepostas com γ1 e γ2 ∈ [1; 40] Algoritmos FAP e RFCM. . . . . . . . . . . . . . . . . . . . . . . . . . . . 101. 35. Intervalos de confian¸ca para classes sobrepostas com γ1 e γ2 ∈ [1; 40] Algoritmos NERFCM e FANNY. . . . . . . . . . . . . . . . . . . . . . . . 102. 36. Intervalos de confian¸ca para classes sobrepostas com γ1 e γ2 ∈ [1; 40] Algoritmos CARDN e CARDF. . . . . . . . . . . . . . . . . . . . . . . . . 103. 37. Intervalos de confian¸ca para a base de peixes - Algoritmos DCLUST e FNM. 106. 38. Intervalos de confian¸ca para a base de peixes - Algoritmos FAP e RFCM.. 39. Intervalos de confian¸ca para a base de peixes - Algoritmos NERFCM e FANNY.. 40. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108. Intervalos de confian¸ca para a base de peixes - Algoritmos CARDN e CARDF.. 41. 107. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109. Intervalos de confian¸ca para a base de temperaturas - Algoritmos DCLUST e FNM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112. 42. Intervalos de confian¸ca para a base de peixes - Algoritmos FAP e RFCM.. 43. Intervalos de confian¸ca para a base de temperaturas - Algoritmos NERFCM e FANNY.. 44. 113. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114. Intervalos de confian¸ca para a base de temperaturas - Algoritmos CARDN e CARDF.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115. 45. Intervalos de confian¸ca para a base de carros - Algoritmos DCLUST e FNM. 117. 46. Intervalos de confian¸ca para a base de carros - Algoritmos FAP e RFCM. . 118. 47. Intervalos de confian¸ca para a base de carros - Algoritmos NERFCM e FANNY.. 48. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119. Intervalos de confian¸ca para a base de carros - Algoritmos CARDN e CARDF.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120.

(13) ix. Lista de Siglas e Abrevia¸ c˜ oes CARD Clustering and Aggregating Relational Data CARDF FANNY-based CARD CARDN NERFCM-based CARD CLARA Clustering Large Applications CLARANS Clustering Large Applications based on RANdomized Search CR Índice de Rand Corrigido ( do inglês, corrected rand ) DCLUST Dynamic Clustering FANNY Fuzzy Analysis FAP Fuzzy Assignment-Prototype FCM Fuzzy C-Means FNM Fuzzy Nom-Metric NERFCM Non-Euclidean Relational Fuzzy c-means PAM Partitioning Around Medoids RFCM Relational Fuzzy C-Means SDA Análise de Dados Simbólicos (do inglês, Symbolic Data Analysis) SO Objeto Simbólico (do inglês, Symbolic Object). SODAS Symbolic Official Data Analysis System.

(14) x. Sum´ ario. 1 Introdu¸c˜ ao. 1. 1.1. Motiva¸cão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1. 1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 2. 1.3. Estrutura da Disserta¸cão . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3. 2 An´ alise de Dados Simb´ olicos. 4. 2.1. Considera¸co˜es Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 2.2. Tabelas de Dados Simbólicos . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 2.3. Variáveis Simbólicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 2.4. Vantagens e Desvantagens da Utiliza¸cão da Análise de Dados Simbólicos .. 7. 2.5. Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 8. 2.6. Considera¸co˜es Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13. 3 An´ alise de Agrupamento. 14. 3.1. Considera¸co˜es Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14. 3.2. Visão Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14. 3.3. Componentes da Tarefa de Agrupamento . . . . . . . . . . . . . . . . . . . 15. 3.4. Nota¸caõ Utilizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17. 3.5. Tipos de Dados em Análise de Agrupamento . . . . . . . . . . . . . . . . . 17. 3.6. Técnicas de Agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.6.1. Métodos de Agrupamento Hierárquico . . . . . . . . . . . . . . . . 19. 3.6.2. Métodos de Agrupamento Particionais . . . . . . . . . . . . . . . . 20.

(15) Sum´ ario. 3.7. 3.8. 3.9. xi. Algoritmos de Agrupamento Utilizados . . . . . . . . . . . . . . . . . . . . 22 3.7.1. Método de Agrupamento Dinâmico (DCLUST) . . . . . . . . . . . 22. 3.7.2. Algoritmo FANNY . . . . . . . . . . . . . . . . . . . . . . . . . . . 24. 3.7.3. Algoritmo FNM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25. 3.7.4. Algoritmo FAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27. 3.7.5. Algoritmo RFCM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28. 3.7.6. Algoritmo NERFCM . . . . . . . . . . . . . . . . . . . . . . . . . . 30. 3.7.7. Abordagem CARD . . . . . . . . . . . . . . . . . . . . . . . . . . . 32. Valida¸caõ de Agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.8.1. Índice de Rand Corrigido . . . . . . . . . . . . . . . . . . . . . . . . 38. 3.8.2. Intervalo de Confian¸ca para média e variância . . . . . . . . . . . . 39. Considera¸co˜es Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39. 4 Medidas de Proximidade para Dados Simb´ olicos. 41. 4.1. Considera¸cões Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41. 4.2. Defini¸co˜es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41. 4.3. Medidas de Dissimilaridade para Dados Clássicos . . . . . . . . . . . . . . 43. 4.4. 4.3.1. Variáveis Binárias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44. 4.3.2. Variáveis Quantitativas . . . . . . . . . . . . . . . . . . . . . . . . . 45. Medidas de Dissimilaridade para Dados Simbólicos . . . . . . . . . . . . . 47 4.4.1. Dissimilaridade de Gowda e Diday . . . . . . . . . . . . . . . . . . 47. 4.4.2. Dissimilaridade de Gowda e Ravi . . . . . . . . . . . . . . . . . . . 49. 4.4.3. Dissimilaridade Ichino e Yaguchi. 4.4.4. Medidas de Dissimilaridade de De Carvalho . . . . . . . . . . . . . 52. . . . . . . . . . . . . . . . . . . . 50. 4.5. Medidas de Dissimilaridade Propostas . . . . . . . . . . . . . . . . . . . . . 54. 4.6. Considera¸cões Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57.

(16) Sum´ ario. xii. 5 M´ etodos e Experimentos. 58. 5.1. Considera¸co˜es inicias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58. 5.2. Arquitetura do Framework . . . . . . . . . . . . . . . . . . . . . . . . . . . 58. 5.3. Conjunto de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 5.3.1. Bases de Dados Artificiais . . . . . . . . . . . . . . . . . . . . . . . 61. 5.3.2. Bases de Dados Reais . . . . . . . . . . . . . . . . . . . . . . . . . . 63. 5.4. Metodologia de Avalia¸caõ dos Experimentos . . . . . . . . . . . . . . . . . 65. 5.5. Ajuste dos Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66. 5.6. Considera¸co˜es Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70. 6 Resultados. 71. 6.1. Considera¸co˜es Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71. 6.2. Análise dos resultados dos Experimentos Monte Carlo. . . . . . . . . . . . 71. 6.2.1. Classes bem separadas . . . . . . . . . . . . . . . . . . . . . . . . . 71. 6.2.2. Classes Sobrepostas . . . . . . . . . . . . . . . . . . . . . . . . . . . 88. 6.3. Análise dos resultados dos Experimentos com bases reais . . . . . . . . . . 104. 6.4. Considera¸co˜es Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121. 7 Conclus˜ oes. 123. 7.1. Considera¸cões Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123. 7.2. Contribui¸cões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124. 7.3. Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125. Referˆ encias. 126.

(17) 1. 1. Introdu¸ c˜ ao. 1.1. Motiva¸c˜ ao. Com a crescente quantidade de dados produzidos pelas diversas atividades humanas e armazenados em grandes bases de dados, tem se tornado cada vez mais importante agregar estes dados a partir de seus conceitos impl´ıcitos de modo a extrair informa¸co˜es relevantes a partir deles (BOCK; DIDAY, 2000). Estes conceitos podem ser descritos através de tipos de dados mais complexos chamados Dados Simbólicos. Nesse contexto, surge a necessidade de se estender os métodos de análise de dados usuais para os dados simbólicos. Assim, a Análise de Dados Simbólicos (do inglês, Symbolic Data Analysis) (SDA) tem como objetivo generalizar ou desenvolver métodos exploratórios, estat´ısticos e representa¸cões gráficas para esses dados. Tais dados são representados através de matrizes de dados complexas, as tabelas de dados simbólicos, em que cada célula não contém necessariamente um u ńico valor quantitativo ou uma categoria, mas pode conter, por exemplo, uma distribui¸cão de probabilidades ou um intervalo, ou ainda um conjunto de valores ligados por taxonomias ou regras (BOCK; DIDAY, 2000). Uma das tarefas mais comuns da a´rea de análise de dados é a análise de agrupamento, que consiste na deteçcaõ e constru¸cão de grupos homogêneos a partir de um conjunto de objetos. A análise de agrupamento tem sido objeto de estudo de diferentes campos como estat´ıstica, reconhecimento de padrões e aprendizado de máquina (BERKHIN, 2002). O objetivo de tal análise é encontrar grupos, ou clusters, de maneira que os objetos de um mesmo grupo sejam similares entre si e tão diferentes quanto for poss´ıvel dos objetos de um outro grupo (KAUFMAN; ROUSSEEUW, 1990). Na análise de dados simbólicos, os objetos são descritos por um conjunto de caracter´ısticas selecionadas pelo especialista do dom´ınio. Os valores das caracter´ısticas podem ser medidos em diferentes escalas e podem ser n´ umeros reais, categorias, intervalos, entre outros..

(18) 1.2 Objetivos. 2. Os métodos de agrupamento de dados partem da premissa que existem maneiras de quantificar, a partir da matriz de dados, as similaridades (ou dissimilaridades) existentes entre os objetos que estão sendo agrupados. O cálculo da dissimilaridade entre dois objetos é de fundamental importância para a análise de agrupamento e o reconhecimento de padrões. Muitas medidas de distância são conhecidas para a avalia¸caõ da dissimilaridade entre objetos numéricos, porém, quando trata-se de objetos simbólicos, com caracter´ısticas e formatos mais complexos que os usuais, torna-se necessária a defini¸caõ de novos ´ındices de dissimilaridade (BOCK; DIDAY, 2000). Algumas medidas de dissimilaridade para dados simbólicos têm sido propostas na literatura. No entanto, existe uma carência de estudos que analisem o desempenho de tais medidas no contexto de análise de agrupamento (ESPOSITO et al., ). Tendo em vista as questões discutidas até agora, o presente trabalho propõe a utiliza¸caõ de algoritmos de agrupamento de dados relacionais juntamente com medidas de dissimilaridade apropriadas para dados simbólicos para realizar a tarefa de agrupamento de dados simbólicos.. 1.2. Objetivos. O objetivo principal deste trabalho é prover uma análise do desempenho de medidas de dissimilaridade no contexto de agrupamento de dados simbólicos. Um outro objetivo deste trabalho é propor novas medidas de dissimilaridade para dados simbólicos. Para alcan¸car os objetivos propostos, será desenvolvido um framework de agrupamento de dados simbólicos. Esse framework irá conter uma vasta cole¸cão de medidas de dissimilaridade e algoritmos de agrupamento de dados para possibilitar uma análise de desempenho das medidas de dissimilaridade e dos métodos de agrupamento. Esses métodos de agrupamento devem particionar um conjunto de descri¸co˜es simbólicas em um n´ umero reduzido de classes homogêneas a partir de tabelas de dissimilaridades. Finalmente, os métodos desenvolvidos serão validados no agrupamento de conjuntos de dados artificiais e bases de dados reais..

(19) 1.3 Estrutura da Disserta¸c˜ ao. 1.3. 3. Estrutura da Disserta¸ c˜ ao. O restante desta Disserta¸cão está organizado da seguinte forma: • O Cap´ıtulo 2 apresenta uma revisão sobre dados simbólicos. Além disso, nesse cap´ıtulo, também é feito o levantamento do estado da arte sobre agrupamento de dados simbólicos. • O Cap´ıtulo 3 revisa brevemente a análise de agrupamento. No final do cap´ıtulo, são apresentados os algoritmos de agrupamento utilizados neste trabalho. • O Cap´ıtulo 4 apresenta uma revisão das medidas de dissimilaridade para dados clássicos e simbólicos. Nesse cap´ıtulo são apresentadas as medidas de dissimilaridade utilizadas nesta Disserta¸cão. • O Cap´ıtulo 5 descreve o framework implementado, a descri¸caõ das bases de dados, a configura¸caõ dos experimentos realizados e a metodologia utilizada para avalia¸caõ dos resultados. • O Cap´ıtulo 6 apresenta os resultados obtidos e analisa o desempenho das técnicas utilizadas. • Finalmente, o Cap´ıtulo 7 apresenta as conclusões decorrentes deste trabalho e discute alguns trabalhos futuros..

(20) 4. 2. An´ alise de Dados Simb´ olicos. 2.1. Considera¸co ˜es Iniciais. Com a proposta desta Disserta¸caõ motivada e definida no Cap´ıtulo 1, este cap´ıtulo revisa o primeiro tópico relevante para sua implementa¸cão, que é a análise de dados simbólicos. Nos dias atuais, uma grande quantidade de dados é gerada e armazenada a cada instante. Apesar do crescente aumento do poder de processamento dos computadores, o esfor¸co computacional para manipular grandes conjuntos de dados ainda é um problema. Além disso, os métodos tradicionais de análise de dados foram desenvolvidos em um época em que a quantidade de informa¸caõ era infinitamente menor que a quantidade dispon´ıvel atualmente. Extrair os conceitos embutidos nessas grandes massas de dados é de fundamental importância (BOCK; DIDAY, 2000). Alguns desses conceitos podem ser descritos através de tipos de dados mais complexos chamados de dados simbólicos. Nesse contexto, surgiu a análise de dados simbólicos (SDA) que tem por objetivo estender os métodos de análise de dados usuais (métodos explorátorios, representa¸cões gráficas, análise de agrupamento, discrimina¸caõ, etc.) para que possam lidar com esses tipos de dados mais complexos (BOCK; DIDAY, 2000). A SDA é desenvolvida em duas etapas (BOCK; DIDAY, 2000): a primeira etapa consiste na extra¸caõ de conhecimento a partir de grandes bases de dados (Data Mining), enquanto a segunda etapa consiste na aplica¸cão de novas ferramentas de análise de dados com o intuito de estender a minera¸cão de dados para minera¸caõ de conhecimento (Knowledge Mining). A extra¸caõ de conhecimento implica na gera¸cão de novos conceitos que podem ser representados por objetos simbólicos (BOCK; DIDAY, 2000). Este cap´ıtulo é organizado da seguinte maneira: a Se¸cão 2.2 apresenta a tabela de dados simbólicos; a Se¸caõ 2.3 descreve os tipos de variáveis simbólicas. Em seguida, a Se¸cão 2.4 apresenta algumas vantagens e desvantagens da utiliza¸caõ de dados simbólicos; a Se¸cão.

(21) 2.2 Tabelas de Dados Simb´ olicos. 5. 2.5 discute as principais abordagens para agrupamento de dados simbólicos existentes na literatura e finalmente, a Se¸caõ 2.6 apresenta as considera¸co˜es finais do cap´ıtulo.. 2.2. Tabelas de Dados Simb´ olicos. Primeiro, será ilustrada a diferen¸ca entre uma tabela de dados clássicos e uma tabela de dados simbólicos. Considere que serão observadas p variáveis em cada indiv´ıduo i (i ∈ 1, . . . , n). Cada uma dessas variáveis pode ser: (1) quantitativa (discreta ou cont´ınua), por exemplo, o n´ umero de filhos ou a massa corporal (em Kg), respectivamente; (2) qualitativa (dicotômica, nominal ou ordinal), por exemplo, sexo, nacionalidade e escolaridade, respectivamente. Um exemplo de tabela de dados clássica é apresentada abaixo: ID 1 2 3 ... n. N´ umero de Filhos 0 5 2 ... 2. Massa Corporal 55,3 76,5 71,0 ... 85,2. Sexo F F M ... M. Nacionalidade Brasileira Brasileira Brasileira ... Canadense. Escolaridade Superior Fundamental Médio ... Superior. Tabela 1: Exemplo de tabela de dados clássicos. Cada variável em uma tabela de dados clássicos assume somente um valor quantitativo ou uma u ńica categoria. Em contraste, em uma tabela de dados simbólicos, o conte´ udo de cada variável não é restrito a um u ńico valor numérico ou somente uma categoria. A variável massa corporal, por exemplo, poderia assumir o intervalo [55, 3; 85, 2], representando o intervalo de massa corporal de uma fam´ılia ou de um grupo de pessoas, ou até mesmo de uma pessoa que não sabe o valor exato de sua massa corporal (o intervalo, nesse caso, representa incerteza). As chamadas “tabelas de dados simbólicos”são a principal forma de entrada da análise de dados simbólicos. Nas colunas dessas tabelas tem-se as variáveis simbólicas, utilizadas para descrever os objetos simbólicos, e nas linhas estão as descri¸co˜es simbólicas desses objetos. Os objetos dessa tabela podem ser indiv´ıduos (observa¸cões individuais) que possuem informa¸cões complexas ou itens ainda mais complexos, como um grupo de indiv´ıduos (BOCK; DIDAY, 2000). Um exemplo de tabela de dados simbólicos é apresentada na Tabela 2, que contém perfis fict´ıcios de freq¨ uentadores de determinados clubes..

(22) 2.3 Vari´ aveis Simb´ olicas. ID 1 2 3 ... n. Massa Corporal [52,1; 70,2] [45,1; 50,2] [65,1; 76,2] ... [59,1; 82,2]. 6. Esportes { futebol, basquete, atletismo } { ginástica } { nata¸caõ, atletismo } ... { boxe }. {(1/4) {(1/6) {(1/8) {(1/3). Fumante sim, (3/4) sim, (5/6) sim, (7/8) ... sim, (2/3). não } não } não } não }. Tabela 2: Exemplo de tabela de dados simbólicos. Cada célula de uma tabela de dados simbólicos pode conter diferentes tipos de dados, em particular (BOCK; DIDAY, 2000): (a) Um u ńico valor quatitativo: Por exemplo, a variável altura (em cent´ımetros) de um indiv´ıduo w: altura(w) = 175 (b) Um u ńico valor categórico: Por exemplo, a variável cidade, cidade(w) = N atal. (c) Um conjunto de valores ou categorias (variáveis multi-valoradas): Por exemplo, altura(w) = {165, 170, 175} significa que a altura de w pode ser 165, 170 ou 175. Os itens apresentados em (a) e (b) são casos especiais de (c). (d) Um intervalo: Por exemplo, altura(w) = [160; 175] significa que a altura de w varia no intervalo [160; 175]. (e) Um conjunto de valores com pesos associados: Por exemplo, um histograma ou uma fun¸caõ de pertinência. Os casos apresentados em (a), (b) e (c) são casos especiais do item (e) em que os pesos são todos iguais a 1.. 2.3. Vari´ aveis Simb´ olicas. As variáveis simbólicas podem assumir, para um u ńico indiv´ıduo, um conjunto de categorias, intervalos, histogramas, etc. Os tipos de variáveis simbólicas mais comuns são: variáveis multi-valoradas (ordinais ou não-ordinais), variáveis do tipo intervalo e variáveis modais. • Uma variável simbólica Y é chamada multi-valorada se seus valores Y (i) correspondem a subconjuntos finitos do dom´ınio D : |Y (i)| < ∞ para todos os indiv´ıduos.

(23) 2.4 Vantagens e Desvantagens da Utiliza¸c˜ ao da An´ alise de Dados Simb´ olicos. 7. i ∈ E. Por exemplo, seja E o conjunto de cidades pernambucanas e Y a variável que armazena os bancos que existem nas cidades, em que D = {Bradesco, Ita´ u, Caixa, HSBC, Citibank, Panamericano, . . ., Safra}. Logo, pode-se ter, por exemplo, Y (Recife) = {Bradesco, Ita´ u, Caixa} ou Y (Olinda) = {Caixa, Citibank, HSBC}. • Uma variável simbólica Y é considerada multi-valorada ordinal se D suporta uma rela¸caõ de ordem ≺, tal que, para quaisquer dois pares de categorias (a, b) tem-se que a ≺ b ou b ≺ a. Na prática, a ≺ b é interpretado como a antecede b ou a é menor que b. Para quaisquer dois indiv´ıduos i, j ∈ E, em que a = Y (i) e b = Y (j) são os valores observados para a variável Y , é poss´ıvel definir qual deles é estritamente “melhor”de que o outro sem a utiliza¸caõ de qualquer escala numérica: a ≺ b ou b ≺ a. Por exemplo, a variável Y = escolaridade e o dom´ınio D = {Fundamental, Médio, Superior}, nesse caso, é poss´ıvel afirmar que Fundamental ≺ Superior. • Uma variável simbólica Y é definida como intervalar se ∀i ∈ E, o subconjunto U := Y (i) é um intervalo em < ou um intervalo relacionado a uma determinada ordem ≺ em D : Y (i) = [α; β], tal que, α, β ∈ D, α ≤ β e α β. Por exemplo, seja E um grupo de jovens e Y = tempo semanal para lazer (em horas), para os indiv´ıduos i, j ∈ E é poss´ıvel ter: Y (i) = [3; 5] e Y (j) = [7; 9]. • As variáveis definidas acima são também conhecidas como variáveis simbólicas booleanas. Existem também as variáveis modais. Uma variável simbólica Y é definida como modal se para cada indiv´ıduo i ∈ E, essa variável apresenta não somente um subconjunto de categorias Y (i) ⊆ D mas também um freq¨ uência, probabilidade ou peso w(l) associado a cada categoria l ∈ Y (i) que indica o quão freq¨ uente, t´ıpica ou relevante é a categoria l para o indiv´ıduo i. Por exemplo, seja Y a distribui¸caõ das agências bancárias em cidades pernambucanas. Para uma cidade x teria-se, por exemplo, Y (x) = {Bradesco (0, 5), Caixa (0, 3), HSBC (0, 2)}.. 2.4. Vantagens e Desvantagens da Utiliza¸ c˜ ao da An´ alise de Dados Simb´ olicos. Em compara¸cão com as abordagens clássicas, os métodos de análise de dados simbólicos são caracterizados pelos seguintes princ´ıpios: • Os objetos simbólicos são capazes de representar dados mais complexos. Os métodos de SDA têm como entrada uma tabela de dados simbólicos que podem conter dados.

(24) 2.5 Trabalhos Relacionados. 8. complexos. Além disso, eles provêm como sa´ıda um conjunto de objetos simbólicos que podem ser apresentados de forma amigável aos usuários. • Os algoritmos de SDA permitem a gera¸caõ de conceitos a partir das regras e taxonomias presentes nos dados. • Eles produzem descri¸cões gráficas que levam em considera¸caõ a varia¸caõ interna dos objetos simbólicos. As principais vantagens de utilizar dados simbólicos na descri¸caõ e análise de dados são: • Eles apresentam um resumo do conjunto original de dados de uma maneira explicativa (em uma linguagem bastante próxima da linguagem do usuário) através de descri¸co˜es baseadas em propriedades relacionadas às variáveis iniciais ou a outras variáveis significativas. • Eles podem ser facilmente transformados em uma consulta na base de dados e podem ser utilizados para propagar os conceitos extra´ıdos entre bases de dados. • Por serem independentes da tabela de dados inicial, eles são capazes de identificar qualquer indiv´ıduo correspondente em qualquer base de dados. • Para aplicar análise de dados exploratória a diversas bases de dados, uma alternativa poss´ıvel é extrair objetos simbólicos das diversas bases de dados e aplicar os métodos de SDA no conjunto total de objetos simbólicos. A principal desvantagem apresentada pela utiliza¸cão de dados simbólicos é o fato da agrega¸caõ dos dados poder acarretar em perda de informa¸co˜es relevantes para o dom´ınio dos dados.. 2.5. Trabalhos Relacionados. No contexto de agrupamento de dados simbólicos, existem diversas abordagens dispon´ıveis na literatura. Estas abordagens diferem pelo método de agrupamento utilizado, pela medida de dissimilaridade aplicada aos dados e pelos tipos de dados a que se aplicam. A seguir, serão apresentados os principais trabalhos relacionados a esta Disserta¸caõ. Na literatura, diversas medidas de dissimilaridade para dados simbólicos têm sido propostas. (GOWDA; DIDAY, 1991) apresentaram uma medida de dissimilaridade que leva em.

(25) 2.5 Trabalhos Relacionados. 9. considera¸caõ componentes de posi¸caõ (position), extensão (spin) e conte´ udo (content). Esse trabalho também propôs um algoritmo de agrupamento hierárquico aglomerativo baseado na medida citada. O algoritmo determina automaticamente o n´ umero de grupos mais apropriado e uma representa¸caõ simbólica para cada grupo. Os valores m´ınimos das dissimilaridades em diferentes estágios do agrupamento são usados para determinar o n´ umero de grupos existentes nos dados. Com o intuito de formar uma representa¸cão para cada grupo, foi criado o conceito de composi¸cão de objetos simbólicos a partir de um operador cartesiano que combina dois objetos simbólicos pertencentes ao mesmo grupo. O algoritmo foi executado com bases de dados com n´ umero de grupos e associa¸co˜es conhecidas. Posteriormente, (GOWDA; DIDAY, 1992) apresentaram uma medida de similaridade que leva em considera¸cão as mesmas componentes citadas anteriormente. Além disso, esse trabalho apresentou um algoritmo de agrupamento hierárquico aglomerativo, que pertence ao grupo dos algoritmos de liga¸caõ simples, baseado na medida de similaridade apresentada. Com o intuito de superar as limita¸co˜es apresentadas pelas medidas de similaridade e dissimilaridade apresentadas em (GOWDA; DIDAY, 1991, 1992), (GOWDA; RAVI, 1995a) propuseram modifica¸co˜es nas defini¸co˜es de tais medidas. No mesmo trabalho, foi apresentado um algoritmo de agrupamento hierárquico divisivo. Os diferenciais desse algoritmo é que além de lidar com dados mais complexos que os usuais, os chamados dados simbólicos, são utilizados tanto os valores de similaridade quanto os de dissimilaridade. O algoritmo foi aplicado a dados reais e artificiais que possu´ıam n´ umero de grupos e associa¸co˜es conhecidas. Uma técnica de parti¸cão para dados mistos (numéricos e simbólicos categóricos) foi apresentada em (RALAMBONDRAINY, 1995). O algoritmo proposto é uma extensão do conhecido algoritmo k -médias. Os dados simbólicos são primeiramente convertidos em n´ umeros binários para então serem agrupados. A distância Euclidiana poderia ter sido utilizada, mas foi descartada por dar igual importância a`s categorias. Em seu lugar, foi utilizada uma distância baseada na distância chi-quadrado (GREENACRE, 1984). Essa distância associa pesos a cada categoria. Nesse caso, as categorias menos freq¨ uentes têm maior peso associado. O trabalho propôs também, um algoritmo chamado GENER que tem como objetivo definir uma representa¸caõ conceitual para cada grupo. A técnica proposta possui algumas desvantagens: a codifica¸caõ dos dados simbólicos em n´ umeros distorce os dados originais, o método não é capaz de lidar com dados do tipo intervalo e.

(26) 2.5 Trabalhos Relacionados. 10. a distância sugerida possui pesos associados e seus valores são dif´ıceis de encontrar. Uma abordagem diferente para a tarefa de agrupamento de dados simbólicos foi desenvolvida por (EL-SONBATY; ISMAIL, 1998). A principal contribui¸caõ de seu trabalho foi formular o problema de agrupamento de dados simbólicos como um problema de particionamento e utilizar um algoritmo de particionamento não-exclusivo (fuzzy). O problema de agrupamento foi formulado como uma fun¸cão objetivo sujeita a restri¸cões. O algoritmo introduzido é uma versão modificada do algoritmo fuzzy c-means (ROUBENS, 1978). A medida de dissimilaridade utilizada foi apresentada em (GOWDA; DIDAY, 1991). Os centros dos clusters são formados por grupos de caracter´ısticas, em que cada caracter´ıstica é um grupo de pares ordenados. Cada par ordenado apresenta o evento e o grau de associa¸caõ do evento com o cluster. (YANG; HWANG; CHEN, 2004) se inspiraram nos trabalhos de (EL-SONBATY; ISMAIL, 1998) e de (HATHAWAY; BEZDEK; PEDRYCZ, 1996). O primeiro apresentou uma versão do algoritmo de agrupamento fuzzy c-means (FCM) para dados simbólicos e o segundo, uma versão do algoritmo FCM para dados fuzzy. (YANG; HWANG; CHEN, 2004) desenvolveram um algoritmo de agrupamento FCM para dados mistos (simbólicos e fuzzy), que chamaram de MVFCM(Mixed-Type variables FCM ). A medida de dissimilaridade foi composta da seguinte maneira: para as componentes de dados simbólicos, a medida de dissimilaridade foi baseada na medida de dissimilaridade modificada de (GOWDA; DIDAY, 1991); para as componentes de dados fuzzy foi utilizada a abordagem paramétrica de Hathaway (HATHAWAY; BEZDEK; PEDRYCZ, 1996) e o método de cálculo de dissimilaridade de Yang (YANG; KO, 1996). Nos experimentos realizados pelos autores, o MVFCM apresentou resultados estatisticamente superiores aos obtidos pelos algoritmos de (EL-SONBATY; ISMAIL,. 1998) e de (HATHAWAY; BEZDEK; PEDRYCZ, 1996).. Em (LECHEVALLIER; CARVALHO; VERDE, 2006) foram apresentadas duas abordagens dinâmicas para agrupamento: O SCLUST (algoritmo de agrupamento de dados simbólicos) e o DCLUST (Algoritmo de agrupamento simbólico baseado na tabela de distâncias). O primeiro método tem como entrada um conjunto de descri¸cões simbólicas, enquanto o segundo, tem como entrada uma matriz de distâncias. As distâncias entre os objetos simbólicos foram computadas através de medidas de proximidade apropriadas. A medida de proximidade utilizada depende da natureza da variável simbólica. As distâncias Euclidiana e chi-quadrado são utilizadas quando os objetos simbólicos são descritos por valores reais e variáveis categóricas; enquanto, a distância de Hausdorff baseada na norma L1 é utilizada para computar a distância entre dois objetos simbólicos descritos.

(27) 2.5 Trabalhos Relacionados. 11. por variáveis do tipo intervalo; uma proximidade dependente do contexto ou, alternativamente, uma fun¸caõ phi-quadrado é utilizada quando os objetos simbólicos são descritos por variáveis multi-valoradas e modais. Dentre os trabalhos relevantes na a´rea de algoritmos para agrupamento de dados simbólicos formados por variáveis do tipo intervalo, podem ser citados: (SOUZA; CARVALHO, al.,. 2004; CARVALHO et al., 2006; CARVALHO; BRITO; BOCK, 2006) e (CHAVENT et. 2006). O trabalho de (SOUZA; CARVALHO, 2004) estendeu, para dados do tipo inter-. valo, o algoritmo de agrupamento dinâmico baseado em métricas L1 adaptativas e nãoadaptativas (DIDAY; GOVAERT, 1977), concebido inicialmente para dados quantitativos. Foram apresentados dois métodos dinâmicos de agrupamento de intervalos. O primeiro utiliza uma extensão da distância Minkowski L1 . O segundo método utiliza duas versões adaptativas da distância L1 estendida: na primeira versão, a distância tem dois componentes, enquanto na segunda versão a distância tem apenas um componente. A avalia¸caõ dos agrupamentos resultantes foi baseada num ´ındice de valida¸cão externa, o ´ındice de Rand corrigido (HUBERT; ARABIE, 1985). Os resultados obtidos pelos métodos adaptativos foram estatisticamente superiores àqueles obtidos pelo método não-adaptativo em todas as situa¸co˜es. Os dois métodos adaptativos obtiveram desempenhos equivalentes. Em (CARVALHO et al., 2006), é apresentado um método dinâmico de agrupamento com distâncias de Hausdorff adaptativas para o particionamento de dados do tipo intervalo. Esse método é uma extensão do algoritmo dinâmico de agrupamento baseado em distâncias de Hausdorff não-adaptativas, proposto em (CHAVENT; LECHEVALLIER, 2002). O desempenho do método dinâmico de agrupamento com distância de Hausdorff foi superior ao método com distância city-block (SOUZA; CARVALHO, 2004) nos experimentos realizados. Além disso, a versão com distâncias adaptativas superou o desempenho do método com distâncias de Hausdorff não-adaptativas desenvolvido por (CHAVENT; LECHEVALLIER,. 2002).. Em (CARVALHO; BRITO; BOCK, 2006), foi utilizada uma abordagem de agrupamento dinâmico com uma distância Minkowski do tipo Euclidiana (ICHINO; YAGUCHI, 1994). No entanto, a principal contribui¸caõ desse trabalho diz respeito a` normaliza¸caõ das variáveis do tipo intervalo. Foram propostas três técnicas para a normaliza¸caõ de intervalos. Duas delas são baseadas no paradigma média-e-variância, mas diferem na maneira de medir a dispersão de um conjunto de intervalos: pela dispersão dos centros intervalares ou pela dispersão dos limites intervalares. O terceiro método transforma as variáveis do tipo intervalo de maneira que seu dom´ınio se torne o intervalo [0,1]. Os resultados dos experimentos.

(28) 2.5 Trabalhos Relacionados. 12. mostraram um aumento considerável na performance do algoritmo de agrupamento com a utiliza¸caõ da normaliza¸caõ dos intervalos. Duas abordagens de algoritmos de agrupamento dinâmicos (DIDAY; SIMON, 1976) são apresentadas em (CHAVENT et al., 2006). A primeira abordagem propõe que a classe seja representada por um elemento pertencente ao espa¸co de objetos a ser agrupado. A métrica utilizada para medir a distância entre um objeto e um protótipo é baseada na distância de Hausdorff (CHAVENT; LECHEVALLIER, 2002). A segunda abordagem propõe que o protótipo seja formado pela s´ıntese das caracter´ısticas dos objetos que compõe o grupo. Neste caso, o protótipo e os objetos não pertencem ao mesmo espa¸co de descri¸cão e a medida utilizada para compará-los não é uma medida de dissimilaridade, mas uma fun¸caõ de matching. Uma outra abordagem de agrupamento fuzzy foi apresentada por (CARVALHO, 2007). Esse trabalho apresentou uma versão adaptativa e uma não-adaptativa do algoritmo de agrupamento fuzzy c-means para dados simbólicos do tipo intervalo, que foram chamadas, respectivamente, IFCMADC e IFCM. Os algoritmos foram avaliados pelo valores dos ´ındices de Rand corrigido (HUBERT; ARABIE, 1985) obtidos e seus resultados comparados com resultados providos por algoritmos de agrupamentos dinâmicos exclusivos (CARVALHO et al., 2006; SOUZA; CARVALHO, 2004). Para dados artificiais que apresentam classes bem separadas ou classes sobrepostas, o IFCMADC apresentou resultados estatisticamente superiores aos demais. No contexto de análise de desempenho das medidas de dissimilaridade para agrupamento de dados simbólicos, os principais trabalhos existentes são os de (MALERBA F. ESPOSITO; TAMMA,. 2001), (MALERBA; MONOPOLI, 2002) e (SILVA, 2005). O trabalho. de (MALERBA F. ESPOSITO; TAMMA, 2001) apresentou uma análise comparativa das medidas de dissimilaridades propostas por (GOWDA; DIDAY, 1991), (ICHINO; YAGUCHI, 1994), (CARVALHO, 1994) e (CARVALHO, 1998), para dados simbólicos booleanos, em rela¸cão a` propriedade MID (Monotonic Increasing Dissimilarity). Segundo essa propriedade, o grau de dissimilaridade entre os ind´ıviduos, computado pelas variáveis independentes, deve ser proporcional à dissimilaridade no atributo dependente (classe ou rótulo). Os experimentos foram realizados com a base de dados “abalone”, dispon´ıvel no repositório UCI (ASUNCION, 2007). Posteriormente, (MALERBA; MONOPOLI, 2002), seguindo a mesma metodologia apresentada em (MALERBA F. ESPOSITO; TAMMA, 2001), apresentaram um estudo comparativo para medidas de dissimilaridade entre dados simbólicos modais. Os dois trabalhos apresentam limita¸cões por terem utilizado uma u ńica base de dados e não.

(29) 2.6 Considera¸c˜ oes Finais. 13. apresentar nenhuma valida¸cão estat´ıstica. Finalmente, o trabalho de (SILVA, 2005) realizou uma análise comparativa das medidas de dissimilaridades propostas em (GOWDA; DIDAY, 1991), (GOWDA; RAVI, 1995a), (ICHINO; YAGUCHI, 1994) e (BEZERRA; CARVALHO, 2004). As medidas foram avaliadas no contexto de agrupamento de dados com o algoritmo de nuvens dinâmicas (DIDAY; SIMON, 1976). Foram realizados experimentos com dados reais e dados simulados. Os resultados foram validados através do ´ındice de Rand corrigido (HUBERT; ARABIE, 1985) em um framework de valida¸caõ cruzada (RUSSELL; NORVIG, 2002).. 2.6. Considera¸co ˜es Finais. Neste cap´ıtulo foram discutidos todos os aspectos relacionados a` análise de dados simbólicos de interesse para este trabalho. Foram definidos os principais conceitos referentes ao assunto e uma breve descri¸caõ do processo de extra¸caõ de dados simbólicos. Também foram apresentadas algumas vantagens e desvantagens da utiliza¸caõ de dados simbólicos comparadas ao uso de dados clássicos. Foram discutidas as principais abordagens de agrupamento e medidas de dissimilaridades para dados simbólicos existentes na literatura. Neste trabalho será desenvolvido um estudo comparativo do desenpenho de medidas de dissimilaridade semelhante ao apresentado no trabalho de (SILVA, 2005). No entanto, serão utilizados algoritmos de agrupamento que recebem como entrada uma matriz de dissimilaridades, enquanto (SILVA, 2005) realizava o agrupamento diretamente na matriz de dados. Além disso, serão utilizadas medidas de dissimilaridades diferentes das estudadas naquele trabalho e, adicionalmente, serão avaliados vários algoritmos de agrupamento, em contrapartida a um u ńico algoritmo avaliado em (SILVA, 2005). No Cap´ıtulo 3, será feita uma revisão sobre análise de agrupamento..

(30) 14. 3. An´ alise de Agrupamento. 3.1. Considera¸co ˜es Iniciais. Neste cap´ıtulo, serão apresentados os conceitos relativos a` análise de agrupamento necessários para o entendimento do restante desta Disserta¸caõ. Inicialmente, nas Se¸co˜es 3.2 e 3.3, serão introduzidos os conceitos gerais relacionados a` tarefa de agrupamento. Em seguida, na Se¸caõ 3.4, serão apresentadas as defini¸co˜es dos termos utilizados neste trabalho. Nessa se¸caõ será também discutida a nota¸caõ utilizada no restante do cap´ıtulo. A Se¸caõ 3.5 apresenta os tipos de estruturas sob os quais são executados os algoritmos. Na Se¸cão 3.6, serão revisadas as abordagens de agrupamento de dados existentes na literatura. Finalmente, na Se¸cão 3.7 serão apresentados os algoritmos de agrupamento utilizados nesta Disserta¸caõ, na Se¸caõ 3.8 serão apresentados os critérios de valida¸caõ de agrupamento e na Se¸cão 3.9 serão feitas algumas considera¸co˜es finais sobre o cap´ıtulo.. 3.2. Vis˜ ao Geral. Todos os dias, pessoas encontram informa¸co˜es e armazenam na forma de dados para futura análise e manipula¸cão. Uma maneira de lidar com esses dados é classificá-los ou agrupá-los em um conjunto de categorias ou clusters (XU; Wunsch II, 2005). Agrupamento é uma das tarefas mais fundamentais e essenciais da análise de dados, tendo uma grande variedade de aplica¸co˜es. Com essas caracter´ısticas, análise de agrupamento tem sido estudada em vários campos de pesquisa, incluindo minera¸caõ de dados, aprendizado de máquina, reconhecimento de padrões, engenharia, ciências sociais, economia e biomedicina (KOGAN; NICHOLAS; TEBOULLE, 2006). Primeiramente, é preciso entender a diferen¸ca entre análise de agrupamento (classifica¸caõ não-supervisionada) e análise discriminante (classifica¸caõ supervisionada). Na.

(31) 3.3 Componentes da Tarefa de Agrupamento. 15. classifica¸caõ supervisionada, há um conjunto de objetos (ou indiv´ıduos) rotulados dispon´ıvel; o problema é rotular um novo objeto encontrado. Nesse caso, os objetos previamente rotulados (conjunto de treinamento) são utilizados para aprender a descri¸caõ das classes contidas nos dados. No caso de análise de agrupamento, o problema é agrupar uma cole¸caõ de objetos que ainda não foram rotulados em clusters (JAIN; DUBES, 1988). O processo de agrupamento compreende diversas etapas que vão desde a prepara¸caõ dos objetos até a interpreta¸caõ dos clusters obtidos. O detalhamento dessas etapas será apresentado na se¸cão seguinte.. 3.3. Componentes da Tarefa de Agrupamento. A tarefa de agrupamento de dados envolve os seguintes estágios (JAIN; DUBES, 1988): 1. Representa¸caõ dos Objetos (esta fase também pode incluir extra¸caõ de caracter´ısticas e/ou sele¸caõ de caracter´ısticas); 2. Defini¸cão de uma medida de proximidade apropriada para o dom´ınio dos dados; 3. Agrupamento dos dados; 4. Abstra¸cão dos dados, se necessário; 5. Valida¸caõ do Agrupamento, se necessário. A Figura 1 retrata um seq¨ uênciamento desses estágios. No primeiro estágio, os objetos que irão ser agrupados e as variáveis que os descrevem são identificados. Em alguns casos, existe um caminho de realimenta¸caõ onde a sa´ıda do processo de agrupamento pode afetar extra¸caõ de caracter´ısticas e computa¸cão de proximidades subseq¨ uentes.. Figura 1: Estágios da tarefa de agrupamento. Sele¸caõ de Caracter´ısticas é o processo de identifica¸cão do conjunto das caracter´ısticas mais relevantes dentre as caracter´ısticas originais dos dados. Extra¸caõ de Caracter´ısticas.

(32) 3.3 Componentes da Tarefa de Agrupamento. 16. é a produ¸caõ de novas caracter´ısticas a partir de transforma¸co˜es aplicadas nos dados originais. Essas técnicas podem ser utilizadas sozinhas ou combinadas para obter um conjunto de caracter´ısticas apropriado para o processo agrupamento. Representa¸caõ dos objetos refere-se ao processo de determina¸caõ da quantidade de padrões dispon´ıveis; e o n´ umero, tipo e escala das caracter´ısticas dispon´ıveis para o algoritmo de agrupamento. A sa´ıda desse processo é uma matriz de dados onde as linhas representam os objetos e as colunas representam as variáveis. A proximidade entre objetos normalmente é medida por uma fun¸cão de distância entre pares de objetos. A sa´ıda desse estágio é uma matriz de proximidades onde as células apresentam a proximidade entre os pares de objetos apresentados na matriz de dados produzida no estágio anterior. Fun¸cões de proximidade serão discutidas no Cap´ıtulo 4. O agrupamento dos objetos pode ser realizado de diversas maneiras. A sa´ıda dessa fase pode ser uma parti¸cão r´ıgida (os objetos são particionados em grupos exclusivos) ou fuzzy (cada objeto tem um grau de pertinência associado a cada um dos grupos). Algoritmos de agrupamento hierárquicos produzem uma série de parti¸cões aninhadas a partir da fusão ou divisão de grupos com base na similaridade entre eles. Uma variedade de métodos de agrupamento será discutida na Se¸caõ 3.6. Abstra¸caõ dos dados é o processo de extrair uma descri¸cão compacta (ou representa¸caõ) para cada grupo. Normalmente, os grupos são representados por protótipos ou por objetos representativos como o centróide (DIDAY; SIMON, 1976). Geralmente, essa etapa é realizada durante a execu¸cão do algoritmo de agrupamento. A valida¸caõ do agrupamento é a avalia¸cão da sa´ıda produzida pelo algoritmo de agrupamento. Uma estrutura de agrupamento é válida se a chance dela ter ocorrido ao acaso for pequena em compara¸caõ com a chance de ser resultado de um algoritmo de agrupamento. Existem três tipos de valida¸cão, normalmente executados através de ´ındices, para determinar quando os resultados obtidos pelos métodos de agrupamento são significativos. Um ´ındice de valida¸cão externa compara a sa´ıda do algoritmo de agrupamento a uma parti¸cão conhecida a priori. Um ´ındice de valida¸caõ interna tenta determinar se a estrutura obtida é intr´ınsecamente apropriada aos dados. Um teste relativo compara duas estruturas e mede seu mérito relativo (KAUFMAN; ROUSSEEUW, 1990)..

(33) 3.4 Nota¸c˜ ao Utilizada. 3.4. 17. Nota¸c˜ ao Utilizada. Os termos e a nota¸cão apresentada nesta se¸caõ irão ser utilizados ao longo deste trabalho. Objeto (ou indiv´ıduo). x é um u ńico item usado pelo algoritmo de agrupamento. Este item consiste de um vetor de dimensão p: x = (x1 , . . . , xp ). Atributos (ou vari´ aveis). Os componentes xz do vetor x, com z entre 1 e p, são chamados de atributos. No contexto de dados simbólicos, cada um desses componentes pode assumir um u ńico valor real, um conjunto de valores categóricos, uma lista de valores ordenados ou um intervalo. Conjunto de objetos. O conjunto de indiv´ıduos é denotado por E = {x1 , . . . , xn }. R´ otulo. Técnicas de agrupamento r´ıgido associam um rótulo li , que identifica a classe, a cada padrão xi . O conjunto de todos os rótulos de um conjunto de padrões E é L = {l1 , . . . , ln }, com li ∈ {1, . . . , k}, onde k é o n´ umero de clusters. Grau de pertinˆ encia. Métodos de agrupamento fuzzy associam a cada padrão xi um coeficiente de pertinência uci para cada cluster c. Esse coeficiente pode ser entendido como sendo a probabilidade do indiv´ıduo i fazer parte do grupo c. Medida de proximidade. é uma métrica (ou semi-métrica) utilizada para quantificar a similaridade (ou dissimilaridade) entre objetos.. 3.5. Tipos de Dados em An´ alise de Agrupamento. Esta se¸caõ apresenta os poss´ıveis tipos de dados utilizados como entrada para um algoritmo de agrupamento. Supondo que existe um conjunto de dados contendo n indiv´ıduos para serem agrupados. Tais indiv´ıduos podem representar pessoas, carros, filmes, pa´ıses, dentre outros. Os algoritmos de agrupamento geralmente têm como entrada uma das estruturas de dados abaixo (HAN; KAMBER, 2006). • Matriz de Dados (conhecida como estrutura indiv´ıduo por atributo): Esta estrutura representa n indiv´ıduos que podem ser, por exemplo, pessoas representadas através de p atributos como sexo, idade, altura, peso, etc. A estrutura é apresentada.

(34) 3.6 Técnicas de Agrupamento. 18. na forma de uma tabela relacional, ou uma matriz n × p (n indiv´ıduos e p atributos) (BEZDEK et al., 1999): . x11 . . . x1z . . . x1p.   ...    xi1   ...  xn1. .  ...    . . . xiz . . . xip   ... ... ... ...   . . . xnz . . . xnp ... ... .... (3.1). • Matriz de Dissimilaridades (ou estrutura indiv´ıduo por indiv´ıduo): Esta matriz armazena um conjunto de proximidades entre pares de indiv´ıduos. Normalmente, é representada por uma matriz n × n:  0   d  21 0   d31 d32   .. ..  . . . dn1 dn2.       0  .. .. ..  . . .   ... ... 0. (3.2). onde dij é a medida de dissemelhan¸ca ou dissimilaridade entre i e j. Diversos algoritmos de agrupamento têm como entrada uma matriz de dissimilaridades, tais dissimilaridades são conhecidas como dados relacionais. Nesse caso, se os indiv´ıduos forem apresentados na forma de matriz de dados, eles deverão primeiramente ser transformados em uma matriz de dissimilaridades antes da execu¸cão do agrupamento. Medidas de dissimilaridade serão discutidas no Cap´ıtulo 4.. 3.6. T´ ecnicas de Agrupamento. Os algoritmos de agrupamento de dados podem ser classificados sob diversos critérios. Utilizando uma classifica¸caõ mais geral, os algoritmos de agrupamento podem ser divididos em hierárquicos e particionais. Os algoritmos hierárquicos produzem uma série de parti¸cões aninhadas, enquanto os particionais produzem apenas uma parti¸cão (JAIN; DUBES,. 1988). A Figura 2 (a) e (b) apresentam, respectivamente, um exemplo de agru-. pamento hierárquico e um exemplo de agrupamento particional. As subse¸cões seguintes discutem os principais tipos de algoritmos de agrupamento..

(35) 3.6 Técnicas de Agrupamento. 19. Figura 2: Exemplos de agrupamento (a) hierárquico e (b) particional.. 3.6.1. M´ etodos de Agrupamento Hier´ arquico. Os algoritmos hierárquicos constroem uma hierarquia em forma de árvore, como por exemplo, um dendograma. Eles estão divididos em duas categorias: divisivos e aglomerativos. A diferen¸ca entre as categorias está relacionada com a maneira como a árvore é constru´ıda (WITTEN; FRANK, 2000). Os algoritmos divisivos iniciam com os padrões em um u ńico grupo e sucessivamente dividem os padrões em grupos menores. Nos algoritmos aglomerativos cada padrão inicialmente representa um grupo e esses grupos são fundidos a cada itera¸cão, de maneira que ao final da execu¸cão do algoritmo, exista um u ńico grupo contendo todos os objetos (BERKHIN, 2002). Os métodos divisivos são menos comuns entre os algoritmos hierárquicos devido sua ineficiência e por exigirem capacidade computacional maior que os algoritmos aglomerativos (BERKHIN, 2002). Apesar dos algoritmos hierárquicos não retornarem parti¸co˜es, estas podem ser obtidas, por exemplo, cortando o dendograma gerado em um certo n´ıvel. As vantagens dos métodos hierárquicos são (BERKHIN, 2002): • Flexibilidade do n´ umero de grupos; • Ajusta-se facilmente à qualquer medida de similaridade ou distância; • Capacidade de lidar com vários tipos de variáveis..

(36) 3.6 Técnicas de Agrupamento. 20. As desvantagens do agrupamento hierárquico estão relacionadas a (BERKHIN, 2002): • Critério de termina¸caõ vago; • O fato dos grupos não serem corrigidos, ou seja, os padrões associados a determinado grupo permanecerão nesse grupo até o final da execu¸cão do algoritmo; • Custo computacional alto: os algoritmos hierárquicos requerem bastante espa¸co de memória e um alto custo de processamento.. 3.6.2. M´ etodos de Agrupamento Particionais. O particionamento de um conjunto de dados em um n´ umero pré-definido de grupos é um importante tópico da análise de dados, reconhecimento de padrões e processamento de imagens (JAIN; MURTY; FLYNN, 1999). Os métodos particionais são baseados na minimiza¸cão de uma fun¸cão objetivo, em que os objetos são agrupados em um n´ umero k de grupos escolhido previamente. Essa fun¸caõ pode ser definida localmente (em um subconjunto de objetos) ou globalmente (sobre todos os objetos), então, cada objeto é associado a um grupo de maneira que minimize a fun¸cão objetivo (KAUFMAN; ROUSSEEUW, 1990). A busca de um valor o´timo para a fun¸caõ objetivo no conjunto de parti¸co˜es poss´ıveis é computacionalmente proibitiva. Na prática, o algoritmo é executado várias vezes com diferentes estados iniciais e a melhor configura¸caõ obtida é usada como sa´ıda do algoritmo (JAIN; DUBES, 1988). Uma das principais vantagens dos algoritmos particionais em rela¸caõ aos algoritmos hierárquicos é o fato dos padrões poderem mudar de grupo durante a execu¸caõ do algoritmo e a possibilidade de trabalhar com bases de dados maiores. Os métodos particionais são extremamente mais rápidos que os hierárquicos. As principais desvantagens dos algoritmos particionais residem no fato de que o n´ umero de grupos deve ser escolhido a priori e no fato de que a maioria dos algoritmos são sens´ıveis a`s condi¸cões iniciais, gerando resultados diferentes a cada execu¸caõ. Além do n´ umero de grupos, é preciso escolher também o critério de parada do algoritmo. Uma op¸caõ para o critério de parada pode ser o n´ umero de itera¸co˜es que o algoritmo deve executar. Outro critério de parada bastante utilizado é parar quando os padrões não mais forem realocados a outros grupos. Os algoritmos particionais podem ser exclusivos ou não-exclusivos. Ambos serão dis-.

(37) 3.6 Técnicas de Agrupamento. 21. cutidos a seguir. Os algoritmos de particionamento exclusivos ou r´ıgidos ( do inglês, hard ) associam cada indiv´ıduo do conjunto de dados a um u ńico cluster (grupo). Os algoritmos de particionamento exclusivos mais utilizados são (KAUFMAN; ROUSSEEUW, 1990) : k -médias, PAM (Partitioning Around Medoids) e CLARA (Clustering Large Applications). As abordagens de agrupamento tradicionais geram parti¸co˜es; nas parti¸cões, cada indiv´ıduo está associado a um e somente um cluster. Assim, os clusters nesses tipos de abordagens são disjuntos. Os métodos de agrupamento não-exclusivos, também conhecidos como fuzzy, estendem essa no¸caõ para permitir associar os indiv´ıduos com todos os clusters utilizando uma fun¸caõ de pertinência (ZADEH, 1965). Os indiv´ıduos terão pertinência definida no intervalo [0, 1] para cada cluster. O agrupamento fuzzy é uma generaliza¸cão do método de parti¸cão (KAUFMAN; ROUSSEEUW,. 1990). Durante a execu¸caõ de um algoritmo de particionamento, muitas vezes é. d´ıficil decidir a qual grupo um determinado indiv´ıduo deve ser atribu´ıdo. Uma técnica de agrupamento fuzzy lida melhor com tal situa¸caõ. A principal vantagem do agrupamento fuzzy é a produ¸caõ de informa¸co˜es mais detalhadas acerca dos dados. Além disso, a partir do agrupamento fuzzy é possivel obter parti¸co˜es hard ao atribuir cada indiv´ıduo ao grupo ao qual esse indiv´ıduo apresenta maior grau de pertinência (KAUFMAN; ROUSSEEUW, 1990). Uma desvantagem apresentada pelos métodos fuzzy é o rápido crescimento da quantidade de sa´ıdas com o aumento do n´ umero de indiv´ıduos e grupos, tornando dif´ıcil a interpreta¸cão dos resultados. Além disso, os algoritmos de agrupamento fuzzy geralmente utilizam tempo computacional consideravelmente alto (KAUFMAN; ROUSSEEUW, 1990). A seguir, uma breve exposi¸caõ sobre o particionamento fuzzy. Seja k um n´ umero inteiro com 1 < k < n e seja E = {x1 , . . . , xn } o conjunto de n indiv´ıduos não rotulados no <p . Pode-se dizer que k subconjuntos fuzzy {uc : E → [0, 1]} são uma k parti¸caõ fuzzy de E se os k × n valores {uci = uc (xi ), 1 ≤ i ≤ n, 1 ≤ c ≤ k} satisfazem as seguintes condi¸cões: 0 ≤ uci ≤ 1, ∀c, i X. uci = 1, ∀i X 0< uci < n, ∀c. (3.3) (3.4) (3.5).

(38) 3.7 Algoritmos de Agrupamento Utilizados. 22. Qualquer conjunto de k × n valores satisfazendo as condi¸co˜es 3.3 - 3.5 pode formar uma matriz (k × n), U = [uci ]. O conjunto de todas as matrizes desse tipo é dito o conjunto não degenerado de k parti¸co˜es fuzzy de E.. 3.7. Algoritmos de Agrupamento Utilizados. Existe uma grande variedade de algoritmos de agrupamento descritos na literatura (XU; WUNSCH, 2005). Serão descritos a seguir apenas os algoritmos utilizados neste trabalho. Todos eles utilizam como entrada uma matriz de dissimilaridades, ou seja, dados relacionais. Dentre os algoritmos apresentados, um algoritmo é hard, o algoritmo de agrupamento dinâmico baseado em tabela de distâncias (DCLUST) (CARVALHO; LECHEVALLIER; VERDE,. 2008). Os demais algoritmos são métodos fuzzy : O FANNY (do inglês, Fuzzy. Analysis) (KAUFMAN; ROUSSEEUW, 1990), o FNM (do inglês, Fuzzy Non Metric Model ) (ROUBENS, 1978), o FAP (do inglês, Fuzzy Assignment-Prototype Model ) (WINDHAM et al., 1985), o RFCM (do inglês, Relational Fuzzy c-means Model ) (HATHAWAY; DAVENPORT; BEZDEK, DEK,. 1989) e o NERFCM (do inglês, Non-Euclidean RFCM Model ) (HATHAWAY; BEZ-. 1994). Além desses, também foi utilizada uma extensão do FANNY e do NERFCM.. Essas extensões são baseadas na abordagem CARD (do inglês, Clustering and Aggregating Relational Data) (FRIGUI; HWANG; RHEE, 2007). Para simplificar a apresenta¸cão dos algoritmos, será considerada como entrada uma matriz de dados relacionais n × n, ao invés da matriz de dissimilaridades triangular apresentada na Se¸cão 3.5.. 3.7.1. M´ etodo de Agrupamento Dinˆ amico (DCLUST). O objetivo de um algoritmo de agrupamento dinâmico (DIDAY, 1971; CELEUX et al., 1989) é dividir um conjunto de indiv´ıduos E em um n´ umero k (fixo) de clusters homogêneos. A idéia geral é criar uma descri¸caõ apropriada para cada cluster a partir dos elementos de E que pertencem a esse cluster, para que seja poss´ıvel alocar novos indiv´ıduos ao clusters obtidos. O algoritmo dinâmico baseado em tabelas de distâncias (DCLUST, do inglês Dynamic Clustering) (CARVALHO; LECHEVALLIER; VERDE, 2008) realiza o agrupamento dos indiv´ıduos com base nas proximidades entre os pares de indiv´ıduos. O critério otimizado.