• Nenhum resultado encontrado

Metodos de Agrupamento de Dados Simbolicos Baseados em funções de Dissimilaridades

N/A
N/A
Protected

Academic year: 2021

Share "Metodos de Agrupamento de Dados Simbolicos Baseados em funções de Dissimilaridades"

Copied!
147
0
0

Texto

(1)Pós-Graduação em Ciência da Computação. “Métodos de Agrupamento de Dados Simbólicos Baseados em funções de Dissimilaridades” Por. KELLY PATRICIA DA SILVA Dissertação de Mestrado. Universidade Federal de Pernambuco posgraduacao@cin.ufpe.br www.cin.ufpe.br/~posgraduacao. RECIFE, AGOSTO/2008.

(2) UNIVERSIDADE FEDERAL DE PERNAMBUCO ´ CENTRO DE INFORMATICA ´ ˜ EM CIENCIA ˆ ˜ POS-GRADUAC ¸ AO DA COMPUTAC ¸ AO. KELLY PATRICIA DA SILVA. “M´ etodos de Agrupamento de Dados Simb´ olicos Baseados em fun¸ c˜ oes de Dissimilaridades” ESTE TRABALHO FOI APRESENTADO ` POS-GRADUAC ´ ˜ EM CIENCIA ˆ A ¸ AO DA ˜ COMPUTAC ¸ AO DO CENTRO DE IN´ FORMATICA DA UNIVERSIDADE FEDERAL DE PERNAMBUCO COMO RE˜ QUISITO PARCIAL PARA OBTENC ¸ AO ˆ DO GRAU DE MESTRE EM CIENCIA DA ˜ COMPUTAC ¸ AO.. Orientador:. Prof. Dr. Francisco de Assis Ten´orio de Carvalho. RECIFE, AGOSTO/2008.

(3)

(4)

(5) i. Agradecimentos Agrade¸co a` minha m˜ae, pelo apoio sempre fundamental. A Rodrigo, pelo incentivo e apoio nos momentos dif´ıceis. Ao meu orientador, Prof. Dr. Francisco de Carvalho, pelo conhecimento, apoio e motiva¸c˜ao necess´arios a` realiza¸c˜ao deste trabalho. Ao Prof. Dr. Marc Csernel, que me auxiliou decisivamente na implementa¸c˜ao do framework desenvolvido neste trabalho. A St´ephanie AUBIN e Alzennyr Gomes que me ajudaram no per´ıodo de visita ao INRIA. E, finalmente, agrade¸co ao INRIA, FACEPE, FADE e Propesq/UFPE pelo apoio financeiro..

(6) ii. Resumo Com a crescente quantidade de informa¸co˜es produzidas pelas diversas atividades humanas, tem se tornado cada vez mais importante agregar, tratar e manipular grandes massas de dados de modo a definir conceitos e extrair conhecimento destes dados. Esses conceitos podem ser descritos por dados mais complexos, chamados dados simb´olicos. Nesse contexto, surge a necessidade de estender m´etodos explorat´orios, estat´ısticos e representa¸c˜oes gr´aficas para lidar com esse tipo de dados, em que cada vari´avel pode assumir como valor um conjunto de categorias, intervalos ou distribui¸co˜es de probabilidades. A an´alise de dados simb´olicos ´e definida como a extens˜ao dos m´etodos de an´alise de dados cl´assicos para tal tipo de dados. Com o intuito de estender m´etodos estat´ısticos e t´ecnicas de aprendizado de m´aquina a esse tipo de dados, ´e necess´ario definir medidas de distˆancia apropriadas. Diversas medidas de distˆancia tˆem sido propostas na literatura. No entanto, ainda existe na literatura uma carˆencia de an´alises comparativas dos desempenhos de medidas de distˆancia para dados simb´olicos. A principal contribui¸c˜ao desta Disserta¸ca˜o ´e prover uma avalia¸ca˜o emp´ırica de fun¸co˜es de dissimilaridade para dados simb´olicos no contexto de an´alise de agrupamento. Al´em disso, foram propostas novas medidas de dissimilaridade para dados simb´olicos. Com o intuito de atingir esses objetivos, foi desenvolvido um framework para agrupamento de dados simb´olicos. Esse framework utiliza fun¸co˜es de dissimilaridade baseadas em volume e algoritmos de agrupamento de dados relacionais. Os experimentos foram executados com bases de dados de benchmark e duas bases de dados artificiais com diferentes graus de dificuldade de agrupamento. Os resultados obtidos foram avaliados atrav´es do ´ındice de rand corrigido. Em seguida, foram constru´ıdos os intervalos de confian¸ca para comparar os desempenhos dos algoritmos de agrupamento e das medidas de dissimilaridade.. Palavras-chave: An´alise de dados simb´olicos, An´alise de Agrupamento, Medidas de Dissimilaridade..

(7) iii. Abstract Various human activities has been producing an increasing amount of information, therefore, summarizing, processing and manipulating huge datasets has become increasingly important in order to discover underlying concepts and extract new knowledge from them. These concepts can be described by a more complex type of data, called symbolic data. In this context, it is necessary to extend exploratory methods, statistical analysis and graphical representations to deal with these symbolic data, in which each variable can take value as: set of categories, intervals or probabilities distributions. Symbolic data analysis is defined as the extension of standard data analysis to such type of data. In order to extend statistical methods and machine learning techniques to deal with symbolic data, it is necessary to define suitable distance measures. Many distance measures have been proposed in the literature. However, there is a lack of comparative analysis of distance measures performance for symbolic data. The main contribution of this dissertation is to provide an empirical evaluation of dissimilarity functions for symbolic data in the context of clustering analysis. In addition, new dissimilarity measures for symbolic data are proposed. A framework for clustering symbolic data was developed. That framework uses volume-based dissimilarity measures and relational clustering algorithms. The experiments are carried out with benchmark datasets and two artificial interval datasets with different degrees of clustering difficulty. The accuracy of the results is assessed by the corrected Rand index. Then, the confidence intervals are generated for comparing the performance of clustering algorithms and dissimilarity measures.. Keywords: Symbolic Data Analysis, Clustering Analysis, Dissimilarity Measures..

(8) iv. Lista de Tabelas 1. Exemplo de tabela de dados cl´assicos.. 2. Exemplo de tabela de dados simb´olicos.. 3. Tabela de Compara¸c˜ao entre duas parti¸c˜oes.. 4. Tabela de Associa¸ca˜o.. 5. Coeficientes Invariantes para dados bin´arios. . . . . . . . . . . . . . . . . . 45. 6. Coeficientes N˜ao-Invariantes para dados bin´arios. . . . . . . . . . . . . . . 46. 7. ´Indices de Acordo/Desacordo de De Carvalho.. 8. Fun¸co˜es de compara¸c˜ao propostas.. 9. Medidas de dissimilaridade implementadas.. 10. Algoritmos de Agrupamento implementados.. 11. ´Indice de Rand Corrigido para classes bem separadas com γ1 e γ2 ∈ [1; 8].. 72. 12. ´Indice de Rand Corrigido para classes bem separadas com γ1 e γ2 ∈ [1; 24].. 72. 13. ´Indice de Rand Corrigido para classes bem separadas com γ1 e γ2 ∈ [1; 40].. 72. 14. ´Indice de Rand Corrigido para classes sobrepostas com γ1 e γ2 ∈ [1; 8].. 15. ´Indice de Rand Corrigido para classes sobrepostas com γ1 e γ2 ∈ [1; 24].. . 88. 16. ´Indice de Rand Corrigido para classes sobrepostas com γ1 e γ2 ∈ [1; 40].. . 89. 17. ´Indice de Rand Corrigido para a base de peixes.. 18. Parti¸c˜ao obtida para a base de peixes pelo algoritmo CARDF utilizando DIST1.. . . . . . . . . . . . . . . . . . . . .. 5. . . . . . . . . . . . . . . . . . . .. 6. . . . . . . . . . . . . . . . . 38. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44. . . . . . . . . . . . . . . . 55. . . . . . . . . . . . . . . . . . . . . . . 56 . . . . . . . . . . . . . . . . . 60 . . . . . . . . . . . . . . . . 60. . . 88. . . . . . . . . . . . . . . 105. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105. 19. ´Indice de Rand Corrigido para a base de temperaturas.. 20. Parti¸c˜ao obtida pelo CARDF com DIST1 para a base de temperaturas.. 21. ´Indice de Rand Corrigido para a base de carros.. . . . . . . . . . . 110 . 111. . . . . . . . . . . . . . . 116.

(9) Lista de Tabelas. 22. Parti¸c˜ao obtida pelo CARDF com DIST1 para a base de carros.. v. . . . . . 121.

(10) vi. Lista de Figuras 1. Est´agios da tarefa de agrupamento . . . . . . . . . . . . . . . . . . . . . . 15. 2. Exemplos de agrupamento (a) hier´arquico e (b) particional. . . . . . . . . . 19. 3. ´ Area criada pelo operador join. . . . . . . . . . . . . . . . . . . . . . . . . 51. 4. ´ Area restrita pelo operador meet. . . . . . . . . . . . . . . . . . . . . . . . 51. 5. Operador meet entre os objetos a e b. . . . . . . . . . . . . . . . . . . . . 55. 6. Os ´ındices β (a) e χ (b) entre a e b. . . . . . . . . . . . . . . . . . . . . . . 55. 7. O ´ındice δ entre a e b. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56. 8. Esquema do framework implementado. . . . . . . . . . . . . . . . . . . . . 58. 9. Classes Bem separadas de dados cl´assicos. . . . . . . . . . . . . . . . . . . 62. 10. Classes Com Sobreposi¸c˜ao de dados cl´assicos. . . . . . . . . . . . . . . . . 62. 11. Base de Dados Artificial 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . 63. 12. Base de Dados Artificial 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . 63. 13. Intervalos de confian¸ca para classes bem separadas com γ1 e γ2 ∈ [1; 8] Algoritmos DCLUST e FNM. . . . . . . . . . . . . . . . . . . . . . . . . . 74. 14. Intervalos de confian¸ca para classes bem separadas com γ1 e γ2 ∈ [1; 8] Algoritmos FAP e RFCM. . . . . . . . . . . . . . . . . . . . . . . . . . . . 75. 15. Intervalos de confian¸ca para classes bem separadas com γ1 e γ2 ∈ [1; 8] Algoritmos NERFCM e FANNY. . . . . . . . . . . . . . . . . . . . . . . . 76. 16. Intervalos de confian¸ca para classes bem separadas com γ1 e γ2 ∈ [1; 8] Algoritmos CARDN e CARDF. . . . . . . . . . . . . . . . . . . . . . . . . 77. 17. Intervalos de confian¸ca para classes bem separadas com γ1 e γ2 ∈ [1; 24] Algoritmos DCLUST e FNM. . . . . . . . . . . . . . . . . . . . . . . . . . 79.

(11) Lista de Figuras. 18. vii. Intervalos de confian¸ca para classes bem separadas com γ1 e γ2 ∈ [1; 24] Algoritmos FAP e RFCM. . . . . . . . . . . . . . . . . . . . . . . . . . . . 80. 19. Intervalos de confian¸ca para classes bem separadas com γ1 e γ2 ∈ [1; 24] Algoritmos NERFCM e FANNY. . . . . . . . . . . . . . . . . . . . . . . . 81. 20. Intervalos de confian¸ca para classes bem separadas com γ1 e γ2 ∈ [1; 24] Algoritmos CARDN e CARDF. . . . . . . . . . . . . . . . . . . . . . . . . 82. 21. Intervalos de confian¸ca para classes bem separadas com γ1 e γ2 ∈ [1; 40] Algoritmos DCLUST e FNM. . . . . . . . . . . . . . . . . . . . . . . . . . 84. 22. Intervalos de confian¸ca para classes bem separadas com γ1 e γ2 ∈ [1; 40] Algoritmos FAP e RFCM. . . . . . . . . . . . . . . . . . . . . . . . . . . . 85. 23. Intervalos de confian¸ca para classes bem separadas com γ1 e γ2 ∈ [1; 40] Algoritmos NERFCM e FANNY. . . . . . . . . . . . . . . . . . . . . . . . 86. 24. Intervalos de confian¸ca para classes bem separadas com γ1 e γ2 ∈ [1; 40] Algoritmos CARDN e CARDF. . . . . . . . . . . . . . . . . . . . . . . . . 87. 25. Intervalos de confian¸ca para classes sobrepostas com γ1 e γ2 ∈ [1; 8] - Algoritmos DCLUST e FNM.. 26. . . . . . . . . . . . . . . . . . . . . . . . . . . 90. Intervalos de confian¸ca para classes sobrepostas com γ1 e γ2 ∈ [1; 8] - Algoritmos FAP e RFCM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91. 27. Intervalos de confian¸ca para classes sobrepostas com γ1 e γ2 ∈ [1; 8] - Algoritmos NERFCM e FANNY.. 28. . . . . . . . . . . . . . . . . . . . . . . . . 92. Intervalos de confian¸ca para classes sobrepostas com γ1 e γ2 ∈ [1; 8] - Algoritmos CARDN e CARDF. . . . . . . . . . . . . . . . . . . . . . . . . . 93. 29. Intervalos de confian¸ca para classes sobrepostas com γ1 e γ2 ∈ [1; 24] Algoritmos DCLUST e FNM. . . . . . . . . . . . . . . . . . . . . . . . . . 95. 30. Intervalos de confian¸ca para classes sobrepostas com γ1 e γ2 ∈ [1; 24] Algoritmos FAP e RFCM. . . . . . . . . . . . . . . . . . . . . . . . . . . . 96. 31. Intervalos de confian¸ca para classes sobrepostas com γ1 e γ2 ∈ [1; 24] Algoritmos NERFCM e FANNY. . . . . . . . . . . . . . . . . . . . . . . . 97. 32. Intervalos de confian¸ca para classes sobrepostas com γ1 e γ2 ∈ [1; 24] Algoritmos CARDN e CARDF. . . . . . . . . . . . . . . . . . . . . . . . . 98.

(12) viii. 33. Intervalos de confian¸ca para classes sobrepostas com γ1 e γ2 ∈ [1; 40] Algoritmos DCLUST e FNM. . . . . . . . . . . . . . . . . . . . . . . . . . 100. 34. Intervalos de confian¸ca para classes sobrepostas com γ1 e γ2 ∈ [1; 40] Algoritmos FAP e RFCM. . . . . . . . . . . . . . . . . . . . . . . . . . . . 101. 35. Intervalos de confian¸ca para classes sobrepostas com γ1 e γ2 ∈ [1; 40] Algoritmos NERFCM e FANNY. . . . . . . . . . . . . . . . . . . . . . . . 102. 36. Intervalos de confian¸ca para classes sobrepostas com γ1 e γ2 ∈ [1; 40] Algoritmos CARDN e CARDF. . . . . . . . . . . . . . . . . . . . . . . . . 103. 37. Intervalos de confian¸ca para a base de peixes - Algoritmos DCLUST e FNM. 106. 38. Intervalos de confian¸ca para a base de peixes - Algoritmos FAP e RFCM.. 39. Intervalos de confian¸ca para a base de peixes - Algoritmos NERFCM e FANNY.. 40. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108. Intervalos de confian¸ca para a base de peixes - Algoritmos CARDN e CARDF.. 41. 107. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109. Intervalos de confian¸ca para a base de temperaturas - Algoritmos DCLUST e FNM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112. 42. Intervalos de confian¸ca para a base de peixes - Algoritmos FAP e RFCM.. 43. Intervalos de confian¸ca para a base de temperaturas - Algoritmos NERFCM e FANNY.. 44. 113. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114. Intervalos de confian¸ca para a base de temperaturas - Algoritmos CARDN e CARDF.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115. 45. Intervalos de confian¸ca para a base de carros - Algoritmos DCLUST e FNM. 117. 46. Intervalos de confian¸ca para a base de carros - Algoritmos FAP e RFCM. . 118. 47. Intervalos de confian¸ca para a base de carros - Algoritmos NERFCM e FANNY.. 48. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119. Intervalos de confian¸ca para a base de carros - Algoritmos CARDN e CARDF.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120.

(13) ix. Lista de Siglas e Abrevia¸ c˜ oes CARD Clustering and Aggregating Relational Data CARDF FANNY-based CARD CARDN NERFCM-based CARD CLARA Clustering Large Applications CLARANS Clustering Large Applications based on RANdomized Search CR ´Indice de Rand Corrigido ( do inglˆes, corrected rand ) DCLUST Dynamic Clustering FANNY Fuzzy Analysis FAP Fuzzy Assignment-Prototype FCM Fuzzy C-Means FNM Fuzzy Nom-Metric NERFCM Non-Euclidean Relational Fuzzy c-means PAM Partitioning Around Medoids RFCM Relational Fuzzy C-Means SDA An´alise de Dados Simb´olicos (do inglˆes, Symbolic Data Analysis) SO Objeto Simb´olico (do inglˆes, Symbolic Object). SODAS Symbolic Official Data Analysis System.

(14) x. Sum´ ario. 1 Introdu¸c˜ ao. 1. 1.1. Motiva¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1. 1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 2. 1.3. Estrutura da Disserta¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3. 2 An´ alise de Dados Simb´ olicos. 4. 2.1. Considera¸co˜es Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 2.2. Tabelas de Dados Simb´olicos . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 2.3. Vari´aveis Simb´olicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 2.4. Vantagens e Desvantagens da Utiliza¸c˜ao da An´alise de Dados Simb´olicos .. 7. 2.5. Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 8. 2.6. Considera¸co˜es Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13. 3 An´ alise de Agrupamento. 14. 3.1. Considera¸co˜es Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14. 3.2. Vis˜ao Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14. 3.3. Componentes da Tarefa de Agrupamento . . . . . . . . . . . . . . . . . . . 15. 3.4. Nota¸ca˜o Utilizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17. 3.5. Tipos de Dados em An´alise de Agrupamento . . . . . . . . . . . . . . . . . 17. 3.6. T´ecnicas de Agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.6.1. M´etodos de Agrupamento Hier´arquico . . . . . . . . . . . . . . . . 19. 3.6.2. M´etodos de Agrupamento Particionais . . . . . . . . . . . . . . . . 20.

(15) Sum´ ario. 3.7. 3.8. 3.9. xi. Algoritmos de Agrupamento Utilizados . . . . . . . . . . . . . . . . . . . . 22 3.7.1. M´etodo de Agrupamento Dinˆamico (DCLUST) . . . . . . . . . . . 22. 3.7.2. Algoritmo FANNY . . . . . . . . . . . . . . . . . . . . . . . . . . . 24. 3.7.3. Algoritmo FNM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25. 3.7.4. Algoritmo FAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27. 3.7.5. Algoritmo RFCM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28. 3.7.6. Algoritmo NERFCM . . . . . . . . . . . . . . . . . . . . . . . . . . 30. 3.7.7. Abordagem CARD . . . . . . . . . . . . . . . . . . . . . . . . . . . 32. Valida¸ca˜o de Agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.8.1. ´Indice de Rand Corrigido . . . . . . . . . . . . . . . . . . . . . . . . 38. 3.8.2. Intervalo de Confian¸ca para m´edia e variˆancia . . . . . . . . . . . . 39. Considera¸co˜es Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39. 4 Medidas de Proximidade para Dados Simb´ olicos. 41. 4.1. Considera¸c˜oes Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41. 4.2. Defini¸co˜es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41. 4.3. Medidas de Dissimilaridade para Dados Cl´assicos . . . . . . . . . . . . . . 43. 4.4. 4.3.1. Vari´aveis Bin´arias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44. 4.3.2. Vari´aveis Quantitativas . . . . . . . . . . . . . . . . . . . . . . . . . 45. Medidas de Dissimilaridade para Dados Simb´olicos . . . . . . . . . . . . . 47 4.4.1. Dissimilaridade de Gowda e Diday . . . . . . . . . . . . . . . . . . 47. 4.4.2. Dissimilaridade de Gowda e Ravi . . . . . . . . . . . . . . . . . . . 49. 4.4.3. Dissimilaridade Ichino e Yaguchi. 4.4.4. Medidas de Dissimilaridade de De Carvalho . . . . . . . . . . . . . 52. . . . . . . . . . . . . . . . . . . . 50. 4.5. Medidas de Dissimilaridade Propostas . . . . . . . . . . . . . . . . . . . . . 54. 4.6. Considera¸c˜oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57.

(16) Sum´ ario. xii. 5 M´ etodos e Experimentos. 58. 5.1. Considera¸co˜es inicias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58. 5.2. Arquitetura do Framework . . . . . . . . . . . . . . . . . . . . . . . . . . . 58. 5.3. Conjunto de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 5.3.1. Bases de Dados Artificiais . . . . . . . . . . . . . . . . . . . . . . . 61. 5.3.2. Bases de Dados Reais . . . . . . . . . . . . . . . . . . . . . . . . . . 63. 5.4. Metodologia de Avalia¸ca˜o dos Experimentos . . . . . . . . . . . . . . . . . 65. 5.5. Ajuste dos Parˆametros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66. 5.6. Considera¸co˜es Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70. 6 Resultados. 71. 6.1. Considera¸co˜es Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71. 6.2. An´alise dos resultados dos Experimentos Monte Carlo. . . . . . . . . . . . 71. 6.2.1. Classes bem separadas . . . . . . . . . . . . . . . . . . . . . . . . . 71. 6.2.2. Classes Sobrepostas . . . . . . . . . . . . . . . . . . . . . . . . . . . 88. 6.3. An´alise dos resultados dos Experimentos com bases reais . . . . . . . . . . 104. 6.4. Considera¸co˜es Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121. 7 Conclus˜ oes. 123. 7.1. Considera¸c˜oes Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123. 7.2. Contribui¸c˜oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124. 7.3. Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125. Referˆ encias. 126.

(17) 1. 1. Introdu¸ c˜ ao. 1.1. Motiva¸c˜ ao. Com a crescente quantidade de dados produzidos pelas diversas atividades humanas e armazenados em grandes bases de dados, tem se tornado cada vez mais importante agregar estes dados a partir de seus conceitos impl´ıcitos de modo a extrair informa¸co˜es relevantes a partir deles (BOCK; DIDAY, 2000). Estes conceitos podem ser descritos atrav´es de tipos de dados mais complexos chamados Dados Simb´olicos. Nesse contexto, surge a necessidade de se estender os m´etodos de an´alise de dados usuais para os dados simb´olicos. Assim, a An´alise de Dados Simb´olicos (do inglˆes, Symbolic Data Analysis) (SDA) tem como objetivo generalizar ou desenvolver m´etodos explorat´orios, estat´ısticos e representa¸c˜oes gr´aficas para esses dados. Tais dados s˜ao representados atrav´es de matrizes de dados complexas, as tabelas de dados simb´olicos, em que cada c´elula n˜ao cont´em necessariamente um u ´nico valor quantitativo ou uma categoria, mas pode conter, por exemplo, uma distribui¸c˜ao de probabilidades ou um intervalo, ou ainda um conjunto de valores ligados por taxonomias ou regras (BOCK; DIDAY, 2000). Uma das tarefas mais comuns da a´rea de an´alise de dados ´e a an´alise de agrupamento, que consiste na detec¸ca˜o e constru¸c˜ao de grupos homogˆeneos a partir de um conjunto de objetos. A an´alise de agrupamento tem sido objeto de estudo de diferentes campos como estat´ıstica, reconhecimento de padr˜oes e aprendizado de m´aquina (BERKHIN, 2002). O objetivo de tal an´alise ´e encontrar grupos, ou clusters, de maneira que os objetos de um mesmo grupo sejam similares entre si e t˜ao diferentes quanto for poss´ıvel dos objetos de um outro grupo (KAUFMAN; ROUSSEEUW, 1990). Na an´alise de dados simb´olicos, os objetos s˜ao descritos por um conjunto de caracter´ısticas selecionadas pelo especialista do dom´ınio. Os valores das caracter´ısticas podem ser medidos em diferentes escalas e podem ser n´ umeros reais, categorias, intervalos, entre outros..

(18) 1.2 Objetivos. 2. Os m´etodos de agrupamento de dados partem da premissa que existem maneiras de quantificar, a partir da matriz de dados, as similaridades (ou dissimilaridades) existentes entre os objetos que est˜ao sendo agrupados. O c´alculo da dissimilaridade entre dois objetos ´e de fundamental importˆancia para a an´alise de agrupamento e o reconhecimento de padr˜oes. Muitas medidas de distˆancia s˜ao conhecidas para a avalia¸ca˜o da dissimilaridade entre objetos num´ericos, por´em, quando trata-se de objetos simb´olicos, com caracter´ısticas e formatos mais complexos que os usuais, torna-se necess´aria a defini¸ca˜o de novos ´ındices de dissimilaridade (BOCK; DIDAY, 2000). Algumas medidas de dissimilaridade para dados simb´olicos tˆem sido propostas na literatura. No entanto, existe uma carˆencia de estudos que analisem o desempenho de tais medidas no contexto de an´alise de agrupamento (ESPOSITO et al., ). Tendo em vista as quest˜oes discutidas at´e agora, o presente trabalho prop˜oe a utiliza¸ca˜o de algoritmos de agrupamento de dados relacionais juntamente com medidas de dissimilaridade apropriadas para dados simb´olicos para realizar a tarefa de agrupamento de dados simb´olicos.. 1.2. Objetivos. O objetivo principal deste trabalho ´e prover uma an´alise do desempenho de medidas de dissimilaridade no contexto de agrupamento de dados simb´olicos. Um outro objetivo deste trabalho ´e propor novas medidas de dissimilaridade para dados simb´olicos. Para alcan¸car os objetivos propostos, ser´a desenvolvido um framework de agrupamento de dados simb´olicos. Esse framework ir´a conter uma vasta cole¸c˜ao de medidas de dissimilaridade e algoritmos de agrupamento de dados para possibilitar uma an´alise de desempenho das medidas de dissimilaridade e dos m´etodos de agrupamento. Esses m´etodos de agrupamento devem particionar um conjunto de descri¸co˜es simb´olicas em um n´ umero reduzido de classes homogˆeneas a partir de tabelas de dissimilaridades. Finalmente, os m´etodos desenvolvidos ser˜ao validados no agrupamento de conjuntos de dados artificiais e bases de dados reais..

(19) 1.3 Estrutura da Disserta¸c˜ ao. 1.3. 3. Estrutura da Disserta¸ c˜ ao. O restante desta Disserta¸c˜ao est´a organizado da seguinte forma: • O Cap´ıtulo 2 apresenta uma revis˜ao sobre dados simb´olicos. Al´em disso, nesse cap´ıtulo, tamb´em ´e feito o levantamento do estado da arte sobre agrupamento de dados simb´olicos. • O Cap´ıtulo 3 revisa brevemente a an´alise de agrupamento. No final do cap´ıtulo, s˜ao apresentados os algoritmos de agrupamento utilizados neste trabalho. • O Cap´ıtulo 4 apresenta uma revis˜ao das medidas de dissimilaridade para dados cl´assicos e simb´olicos. Nesse cap´ıtulo s˜ao apresentadas as medidas de dissimilaridade utilizadas nesta Disserta¸c˜ao. • O Cap´ıtulo 5 descreve o framework implementado, a descri¸ca˜o das bases de dados, a configura¸ca˜o dos experimentos realizados e a metodologia utilizada para avalia¸ca˜o dos resultados. • O Cap´ıtulo 6 apresenta os resultados obtidos e analisa o desempenho das t´ecnicas utilizadas. • Finalmente, o Cap´ıtulo 7 apresenta as conclus˜oes decorrentes deste trabalho e discute alguns trabalhos futuros..

(20) 4. 2. An´ alise de Dados Simb´ olicos. 2.1. Considera¸co ˜es Iniciais. Com a proposta desta Disserta¸ca˜o motivada e definida no Cap´ıtulo 1, este cap´ıtulo revisa o primeiro t´opico relevante para sua implementa¸c˜ao, que ´e a an´alise de dados simb´olicos. Nos dias atuais, uma grande quantidade de dados ´e gerada e armazenada a cada instante. Apesar do crescente aumento do poder de processamento dos computadores, o esfor¸co computacional para manipular grandes conjuntos de dados ainda ´e um problema. Al´em disso, os m´etodos tradicionais de an´alise de dados foram desenvolvidos em um ´epoca em que a quantidade de informa¸ca˜o era infinitamente menor que a quantidade dispon´ıvel atualmente. Extrair os conceitos embutidos nessas grandes massas de dados ´e de fundamental importˆancia (BOCK; DIDAY, 2000). Alguns desses conceitos podem ser descritos atrav´es de tipos de dados mais complexos chamados de dados simb´olicos. Nesse contexto, surgiu a an´alise de dados simb´olicos (SDA) que tem por objetivo estender os m´etodos de an´alise de dados usuais (m´etodos explor´atorios, representa¸c˜oes gr´aficas, an´alise de agrupamento, discrimina¸ca˜o, etc.) para que possam lidar com esses tipos de dados mais complexos (BOCK; DIDAY, 2000). A SDA ´e desenvolvida em duas etapas (BOCK; DIDAY, 2000): a primeira etapa consiste na extra¸ca˜o de conhecimento a partir de grandes bases de dados (Data Mining), enquanto a segunda etapa consiste na aplica¸c˜ao de novas ferramentas de an´alise de dados com o intuito de estender a minera¸c˜ao de dados para minera¸ca˜o de conhecimento (Knowledge Mining). A extra¸ca˜o de conhecimento implica na gera¸c˜ao de novos conceitos que podem ser representados por objetos simb´olicos (BOCK; DIDAY, 2000). Este cap´ıtulo ´e organizado da seguinte maneira: a Se¸c˜ao 2.2 apresenta a tabela de dados simb´olicos; a Se¸ca˜o 2.3 descreve os tipos de vari´aveis simb´olicas. Em seguida, a Se¸c˜ao 2.4 apresenta algumas vantagens e desvantagens da utiliza¸ca˜o de dados simb´olicos; a Se¸c˜ao.

(21) 2.2 Tabelas de Dados Simb´ olicos. 5. 2.5 discute as principais abordagens para agrupamento de dados simb´olicos existentes na literatura e finalmente, a Se¸ca˜o 2.6 apresenta as considera¸co˜es finais do cap´ıtulo.. 2.2. Tabelas de Dados Simb´ olicos. Primeiro, ser´a ilustrada a diferen¸ca entre uma tabela de dados cl´assicos e uma tabela de dados simb´olicos. Considere que ser˜ao observadas p vari´aveis em cada indiv´ıduo i (i ∈ 1, . . . , n). Cada uma dessas vari´aveis pode ser: (1) quantitativa (discreta ou cont´ınua), por exemplo, o n´ umero de filhos ou a massa corporal (em Kg), respectivamente; (2) qualitativa (dicotˆomica, nominal ou ordinal), por exemplo, sexo, nacionalidade e escolaridade, respectivamente. Um exemplo de tabela de dados cl´assica ´e apresentada abaixo: ID 1 2 3 ... n. N´ umero de Filhos 0 5 2 ... 2. Massa Corporal 55,3 76,5 71,0 ... 85,2. Sexo F F M ... M. Nacionalidade Brasileira Brasileira Brasileira ... Canadense. Escolaridade Superior Fundamental M´edio ... Superior. Tabela 1: Exemplo de tabela de dados cl´assicos. Cada vari´avel em uma tabela de dados cl´assicos assume somente um valor quantitativo ou uma u ´nica categoria. Em contraste, em uma tabela de dados simb´olicos, o conte´ udo de cada vari´avel n˜ao ´e restrito a um u ´nico valor num´erico ou somente uma categoria. A vari´avel massa corporal, por exemplo, poderia assumir o intervalo [55, 3; 85, 2], representando o intervalo de massa corporal de uma fam´ılia ou de um grupo de pessoas, ou at´e mesmo de uma pessoa que n˜ao sabe o valor exato de sua massa corporal (o intervalo, nesse caso, representa incerteza). As chamadas “tabelas de dados simb´olicos”s˜ao a principal forma de entrada da an´alise de dados simb´olicos. Nas colunas dessas tabelas tem-se as vari´aveis simb´olicas, utilizadas para descrever os objetos simb´olicos, e nas linhas est˜ao as descri¸co˜es simb´olicas desses objetos. Os objetos dessa tabela podem ser indiv´ıduos (observa¸c˜oes individuais) que possuem informa¸c˜oes complexas ou itens ainda mais complexos, como um grupo de indiv´ıduos (BOCK; DIDAY, 2000). Um exemplo de tabela de dados simb´olicos ´e apresentada na Tabela 2, que cont´em perfis fict´ıcios de freq¨ uentadores de determinados clubes..

(22) 2.3 Vari´ aveis Simb´ olicas. ID 1 2 3 ... n. Massa Corporal [52,1; 70,2] [45,1; 50,2] [65,1; 76,2] ... [59,1; 82,2]. 6. Esportes { futebol, basquete, atletismo } { gin´astica } { nata¸ca˜o, atletismo } ... { boxe }. {(1/4) {(1/6) {(1/8) {(1/3). Fumante sim, (3/4) sim, (5/6) sim, (7/8) ... sim, (2/3). n˜ao } n˜ao } n˜ao } n˜ao }. Tabela 2: Exemplo de tabela de dados simb´olicos. Cada c´elula de uma tabela de dados simb´olicos pode conter diferentes tipos de dados, em particular (BOCK; DIDAY, 2000): (a) Um u ´nico valor quatitativo: Por exemplo, a vari´avel altura (em cent´ımetros) de um indiv´ıduo w: altura(w) = 175 (b) Um u ´nico valor categ´orico: Por exemplo, a vari´avel cidade, cidade(w) = N atal. (c) Um conjunto de valores ou categorias (vari´aveis multi-valoradas): Por exemplo, altura(w) = {165, 170, 175} significa que a altura de w pode ser 165, 170 ou 175. Os itens apresentados em (a) e (b) s˜ao casos especiais de (c). (d) Um intervalo: Por exemplo, altura(w) = [160; 175] significa que a altura de w varia no intervalo [160; 175]. (e) Um conjunto de valores com pesos associados: Por exemplo, um histograma ou uma fun¸ca˜o de pertinˆencia. Os casos apresentados em (a), (b) e (c) s˜ao casos especiais do item (e) em que os pesos s˜ao todos iguais a 1.. 2.3. Vari´ aveis Simb´ olicas. As vari´aveis simb´olicas podem assumir, para um u ´nico indiv´ıduo, um conjunto de categorias, intervalos, histogramas, etc. Os tipos de vari´aveis simb´olicas mais comuns s˜ao: vari´aveis multi-valoradas (ordinais ou n˜ao-ordinais), vari´aveis do tipo intervalo e vari´aveis modais. • Uma vari´avel simb´olica Y ´e chamada multi-valorada se seus valores Y (i) correspondem a subconjuntos finitos do dom´ınio D : |Y (i)| < ∞ para todos os indiv´ıduos.

(23) 2.4 Vantagens e Desvantagens da Utiliza¸c˜ ao da An´ alise de Dados Simb´ olicos. 7. i ∈ E. Por exemplo, seja E o conjunto de cidades pernambucanas e Y a vari´avel que armazena os bancos que existem nas cidades, em que D = {Bradesco, Ita´ u, Caixa, HSBC, Citibank, Panamericano, . . ., Safra}. Logo, pode-se ter, por exemplo, Y (Recife) = {Bradesco, Ita´ u, Caixa} ou Y (Olinda) = {Caixa, Citibank, HSBC}. • Uma vari´avel simb´olica Y ´e considerada multi-valorada ordinal se D suporta uma rela¸ca˜o de ordem ≺, tal que, para quaisquer dois pares de categorias (a, b) tem-se que a ≺ b ou b ≺ a. Na pr´atica, a ≺ b ´e interpretado como a antecede b ou a ´e menor que b. Para quaisquer dois indiv´ıduos i, j ∈ E, em que a = Y (i) e b = Y (j) s˜ao os valores observados para a vari´avel Y , ´e poss´ıvel definir qual deles ´e estritamente “melhor”de que o outro sem a utiliza¸ca˜o de qualquer escala num´erica: a ≺ b ou b ≺ a. Por exemplo, a vari´avel Y = escolaridade e o dom´ınio D = {Fundamental, M´edio, Superior}, nesse caso, ´e poss´ıvel afirmar que Fundamental ≺ Superior. • Uma vari´avel simb´olica Y ´e definida como intervalar se ∀i ∈ E, o subconjunto U := Y (i) ´e um intervalo em < ou um intervalo relacionado a uma determinada ordem ≺ em D : Y (i) = [α; β], tal que, α, β ∈ D, α ≤ β e α  β. Por exemplo, seja E um grupo de jovens e Y = tempo semanal para lazer (em horas), para os indiv´ıduos i, j ∈ E ´e poss´ıvel ter: Y (i) = [3; 5] e Y (j) = [7; 9]. • As vari´aveis definidas acima s˜ao tamb´em conhecidas como vari´aveis simb´olicas booleanas. Existem tamb´em as vari´aveis modais. Uma vari´avel simb´olica Y ´e definida como modal se para cada indiv´ıduo i ∈ E, essa vari´avel apresenta n˜ao somente um subconjunto de categorias Y (i) ⊆ D mas tamb´em um freq¨ uˆencia, probabilidade ou peso w(l) associado a cada categoria l ∈ Y (i) que indica o qu˜ao freq¨ uente, t´ıpica ou relevante ´e a categoria l para o indiv´ıduo i. Por exemplo, seja Y a distribui¸ca˜o das agˆencias banc´arias em cidades pernambucanas. Para uma cidade x teria-se, por exemplo, Y (x) = {Bradesco (0, 5), Caixa (0, 3), HSBC (0, 2)}.. 2.4. Vantagens e Desvantagens da Utiliza¸ c˜ ao da An´ alise de Dados Simb´ olicos. Em compara¸c˜ao com as abordagens cl´assicas, os m´etodos de an´alise de dados simb´olicos s˜ao caracterizados pelos seguintes princ´ıpios: • Os objetos simb´olicos s˜ao capazes de representar dados mais complexos. Os m´etodos de SDA tˆem como entrada uma tabela de dados simb´olicos que podem conter dados.

(24) 2.5 Trabalhos Relacionados. 8. complexos. Al´em disso, eles provˆem como sa´ıda um conjunto de objetos simb´olicos que podem ser apresentados de forma amig´avel aos usu´arios. • Os algoritmos de SDA permitem a gera¸ca˜o de conceitos a partir das regras e taxonomias presentes nos dados. • Eles produzem descri¸c˜oes gr´aficas que levam em considera¸ca˜o a varia¸ca˜o interna dos objetos simb´olicos. As principais vantagens de utilizar dados simb´olicos na descri¸ca˜o e an´alise de dados s˜ao: • Eles apresentam um resumo do conjunto original de dados de uma maneira explicativa (em uma linguagem bastante pr´oxima da linguagem do usu´ario) atrav´es de descri¸co˜es baseadas em propriedades relacionadas `as vari´aveis iniciais ou a outras vari´aveis significativas. • Eles podem ser facilmente transformados em uma consulta na base de dados e podem ser utilizados para propagar os conceitos extra´ıdos entre bases de dados. • Por serem independentes da tabela de dados inicial, eles s˜ao capazes de identificar qualquer indiv´ıduo correspondente em qualquer base de dados. • Para aplicar an´alise de dados explorat´oria a diversas bases de dados, uma alternativa poss´ıvel ´e extrair objetos simb´olicos das diversas bases de dados e aplicar os m´etodos de SDA no conjunto total de objetos simb´olicos. A principal desvantagem apresentada pela utiliza¸c˜ao de dados simb´olicos ´e o fato da agrega¸ca˜o dos dados poder acarretar em perda de informa¸co˜es relevantes para o dom´ınio dos dados.. 2.5. Trabalhos Relacionados. No contexto de agrupamento de dados simb´olicos, existem diversas abordagens dispon´ıveis na literatura. Estas abordagens diferem pelo m´etodo de agrupamento utilizado, pela medida de dissimilaridade aplicada aos dados e pelos tipos de dados a que se aplicam. A seguir, ser˜ao apresentados os principais trabalhos relacionados a esta Disserta¸ca˜o. Na literatura, diversas medidas de dissimilaridade para dados simb´olicos tˆem sido propostas. (GOWDA; DIDAY, 1991) apresentaram uma medida de dissimilaridade que leva em.

(25) 2.5 Trabalhos Relacionados. 9. considera¸ca˜o componentes de posi¸ca˜o (position), extens˜ao (spin) e conte´ udo (content). Esse trabalho tamb´em propˆos um algoritmo de agrupamento hier´arquico aglomerativo baseado na medida citada. O algoritmo determina automaticamente o n´ umero de grupos mais apropriado e uma representa¸ca˜o simb´olica para cada grupo. Os valores m´ınimos das dissimilaridades em diferentes est´agios do agrupamento s˜ao usados para determinar o n´ umero de grupos existentes nos dados. Com o intuito de formar uma representa¸c˜ao para cada grupo, foi criado o conceito de composi¸c˜ao de objetos simb´olicos a partir de um operador cartesiano que combina dois objetos simb´olicos pertencentes ao mesmo grupo. O algoritmo foi executado com bases de dados com n´ umero de grupos e associa¸co˜es conhecidas. Posteriormente, (GOWDA; DIDAY, 1992) apresentaram uma medida de similaridade que leva em considera¸c˜ao as mesmas componentes citadas anteriormente. Al´em disso, esse trabalho apresentou um algoritmo de agrupamento hier´arquico aglomerativo, que pertence ao grupo dos algoritmos de liga¸ca˜o simples, baseado na medida de similaridade apresentada. Com o intuito de superar as limita¸co˜es apresentadas pelas medidas de similaridade e dissimilaridade apresentadas em (GOWDA; DIDAY, 1991, 1992), (GOWDA; RAVI, 1995a) propuseram modifica¸co˜es nas defini¸co˜es de tais medidas. No mesmo trabalho, foi apresentado um algoritmo de agrupamento hier´arquico divisivo. Os diferenciais desse algoritmo ´e que al´em de lidar com dados mais complexos que os usuais, os chamados dados simb´olicos, s˜ao utilizados tanto os valores de similaridade quanto os de dissimilaridade. O algoritmo foi aplicado a dados reais e artificiais que possu´ıam n´ umero de grupos e associa¸co˜es conhecidas. Uma t´ecnica de parti¸c˜ao para dados mistos (num´ericos e simb´olicos categ´oricos) foi apresentada em (RALAMBONDRAINY, 1995). O algoritmo proposto ´e uma extens˜ao do conhecido algoritmo k -m´edias. Os dados simb´olicos s˜ao primeiramente convertidos em n´ umeros bin´arios para ent˜ao serem agrupados. A distˆancia Euclidiana poderia ter sido utilizada, mas foi descartada por dar igual importˆancia a`s categorias. Em seu lugar, foi utilizada uma distˆancia baseada na distˆancia chi-quadrado (GREENACRE, 1984). Essa distˆancia associa pesos a cada categoria. Nesse caso, as categorias menos freq¨ uentes tˆem maior peso associado. O trabalho propˆos tamb´em, um algoritmo chamado GENER que tem como objetivo definir uma representa¸ca˜o conceitual para cada grupo. A t´ecnica proposta possui algumas desvantagens: a codifica¸ca˜o dos dados simb´olicos em n´ umeros distorce os dados originais, o m´etodo n˜ao ´e capaz de lidar com dados do tipo intervalo e.

(26) 2.5 Trabalhos Relacionados. 10. a distˆancia sugerida possui pesos associados e seus valores s˜ao dif´ıceis de encontrar. Uma abordagem diferente para a tarefa de agrupamento de dados simb´olicos foi desenvolvida por (EL-SONBATY; ISMAIL, 1998). A principal contribui¸ca˜o de seu trabalho foi formular o problema de agrupamento de dados simb´olicos como um problema de particionamento e utilizar um algoritmo de particionamento n˜ao-exclusivo (fuzzy). O problema de agrupamento foi formulado como uma fun¸c˜ao objetivo sujeita a restri¸c˜oes. O algoritmo introduzido ´e uma vers˜ao modificada do algoritmo fuzzy c-means (ROUBENS, 1978). A medida de dissimilaridade utilizada foi apresentada em (GOWDA; DIDAY, 1991). Os centros dos clusters s˜ao formados por grupos de caracter´ısticas, em que cada caracter´ıstica ´e um grupo de pares ordenados. Cada par ordenado apresenta o evento e o grau de associa¸ca˜o do evento com o cluster. (YANG; HWANG; CHEN, 2004) se inspiraram nos trabalhos de (EL-SONBATY; ISMAIL, 1998) e de (HATHAWAY; BEZDEK; PEDRYCZ, 1996). O primeiro apresentou uma vers˜ao do algoritmo de agrupamento fuzzy c-means (FCM) para dados simb´olicos e o segundo, uma vers˜ao do algoritmo FCM para dados fuzzy. (YANG; HWANG; CHEN, 2004) desenvolveram um algoritmo de agrupamento FCM para dados mistos (simb´olicos e fuzzy), que chamaram de MVFCM(Mixed-Type variables FCM ). A medida de dissimilaridade foi composta da seguinte maneira: para as componentes de dados simb´olicos, a medida de dissimilaridade foi baseada na medida de dissimilaridade modificada de (GOWDA; DIDAY, 1991); para as componentes de dados fuzzy foi utilizada a abordagem param´etrica de Hathaway (HATHAWAY; BEZDEK; PEDRYCZ, 1996) e o m´etodo de c´alculo de dissimilaridade de Yang (YANG; KO, 1996). Nos experimentos realizados pelos autores, o MVFCM apresentou resultados estatisticamente superiores aos obtidos pelos algoritmos de (EL-SONBATY; ISMAIL,. 1998) e de (HATHAWAY; BEZDEK; PEDRYCZ, 1996).. Em (LECHEVALLIER; CARVALHO; VERDE, 2006) foram apresentadas duas abordagens dinˆamicas para agrupamento: O SCLUST (algoritmo de agrupamento de dados simb´olicos) e o DCLUST (Algoritmo de agrupamento simb´olico baseado na tabela de distˆancias). O primeiro m´etodo tem como entrada um conjunto de descri¸c˜oes simb´olicas, enquanto o segundo, tem como entrada uma matriz de distˆancias. As distˆancias entre os objetos simb´olicos foram computadas atrav´es de medidas de proximidade apropriadas. A medida de proximidade utilizada depende da natureza da vari´avel simb´olica. As distˆancias Euclidiana e chi-quadrado s˜ao utilizadas quando os objetos simb´olicos s˜ao descritos por valores reais e vari´aveis categ´oricas; enquanto, a distˆancia de Hausdorff baseada na norma L1 ´e utilizada para computar a distˆancia entre dois objetos simb´olicos descritos.

(27) 2.5 Trabalhos Relacionados. 11. por vari´aveis do tipo intervalo; uma proximidade dependente do contexto ou, alternativamente, uma fun¸ca˜o phi-quadrado ´e utilizada quando os objetos simb´olicos s˜ao descritos por vari´aveis multi-valoradas e modais. Dentre os trabalhos relevantes na a´rea de algoritmos para agrupamento de dados simb´olicos formados por vari´aveis do tipo intervalo, podem ser citados: (SOUZA; CARVALHO, al.,. 2004; CARVALHO et al., 2006; CARVALHO; BRITO; BOCK, 2006) e (CHAVENT et. 2006). O trabalho de (SOUZA; CARVALHO, 2004) estendeu, para dados do tipo inter-. valo, o algoritmo de agrupamento dinˆamico baseado em m´etricas L1 adaptativas e n˜aoadaptativas (DIDAY; GOVAERT, 1977), concebido inicialmente para dados quantitativos. Foram apresentados dois m´etodos dinˆamicos de agrupamento de intervalos. O primeiro utiliza uma extens˜ao da distˆancia Minkowski L1 . O segundo m´etodo utiliza duas vers˜oes adaptativas da distˆancia L1 estendida: na primeira vers˜ao, a distˆancia tem dois componentes, enquanto na segunda vers˜ao a distˆancia tem apenas um componente. A avalia¸ca˜o dos agrupamentos resultantes foi baseada num ´ındice de valida¸c˜ao externa, o ´ındice de Rand corrigido (HUBERT; ARABIE, 1985). Os resultados obtidos pelos m´etodos adaptativos foram estatisticamente superiores `aqueles obtidos pelo m´etodo n˜ao-adaptativo em todas as situa¸co˜es. Os dois m´etodos adaptativos obtiveram desempenhos equivalentes. Em (CARVALHO et al., 2006), ´e apresentado um m´etodo dinˆamico de agrupamento com distˆancias de Hausdorff adaptativas para o particionamento de dados do tipo intervalo. Esse m´etodo ´e uma extens˜ao do algoritmo dinˆamico de agrupamento baseado em distˆancias de Hausdorff n˜ao-adaptativas, proposto em (CHAVENT; LECHEVALLIER, 2002). O desempenho do m´etodo dinˆamico de agrupamento com distˆancia de Hausdorff foi superior ao m´etodo com distˆancia city-block (SOUZA; CARVALHO, 2004) nos experimentos realizados. Al´em disso, a vers˜ao com distˆancias adaptativas superou o desempenho do m´etodo com distˆancias de Hausdorff n˜ao-adaptativas desenvolvido por (CHAVENT; LECHEVALLIER,. 2002).. Em (CARVALHO; BRITO; BOCK, 2006), foi utilizada uma abordagem de agrupamento dinˆamico com uma distˆancia Minkowski do tipo Euclidiana (ICHINO; YAGUCHI, 1994). No entanto, a principal contribui¸ca˜o desse trabalho diz respeito a` normaliza¸ca˜o das vari´aveis do tipo intervalo. Foram propostas trˆes t´ecnicas para a normaliza¸ca˜o de intervalos. Duas delas s˜ao baseadas no paradigma m´edia-e-variˆancia, mas diferem na maneira de medir a dispers˜ao de um conjunto de intervalos: pela dispers˜ao dos centros intervalares ou pela dispers˜ao dos limites intervalares. O terceiro m´etodo transforma as vari´aveis do tipo intervalo de maneira que seu dom´ınio se torne o intervalo [0,1]. Os resultados dos experimentos.

(28) 2.5 Trabalhos Relacionados. 12. mostraram um aumento consider´avel na performance do algoritmo de agrupamento com a utiliza¸ca˜o da normaliza¸ca˜o dos intervalos. Duas abordagens de algoritmos de agrupamento dinˆamicos (DIDAY; SIMON, 1976) s˜ao apresentadas em (CHAVENT et al., 2006). A primeira abordagem prop˜oe que a classe seja representada por um elemento pertencente ao espa¸co de objetos a ser agrupado. A m´etrica utilizada para medir a distˆancia entre um objeto e um prot´otipo ´e baseada na distˆancia de Hausdorff (CHAVENT; LECHEVALLIER, 2002). A segunda abordagem prop˜oe que o prot´otipo seja formado pela s´ıntese das caracter´ısticas dos objetos que comp˜oe o grupo. Neste caso, o prot´otipo e os objetos n˜ao pertencem ao mesmo espa¸co de descri¸c˜ao e a medida utilizada para compar´a-los n˜ao ´e uma medida de dissimilaridade, mas uma fun¸ca˜o de matching. Uma outra abordagem de agrupamento fuzzy foi apresentada por (CARVALHO, 2007). Esse trabalho apresentou uma vers˜ao adaptativa e uma n˜ao-adaptativa do algoritmo de agrupamento fuzzy c-means para dados simb´olicos do tipo intervalo, que foram chamadas, respectivamente, IFCMADC e IFCM. Os algoritmos foram avaliados pelo valores dos ´ındices de Rand corrigido (HUBERT; ARABIE, 1985) obtidos e seus resultados comparados com resultados providos por algoritmos de agrupamentos dinˆamicos exclusivos (CARVALHO et al., 2006; SOUZA; CARVALHO, 2004). Para dados artificiais que apresentam classes bem separadas ou classes sobrepostas, o IFCMADC apresentou resultados estatisticamente superiores aos demais. No contexto de an´alise de desempenho das medidas de dissimilaridade para agrupamento de dados simb´olicos, os principais trabalhos existentes s˜ao os de (MALERBA F. ESPOSITO; TAMMA,. 2001), (MALERBA; MONOPOLI, 2002) e (SILVA, 2005). O trabalho. de (MALERBA F. ESPOSITO; TAMMA, 2001) apresentou uma an´alise comparativa das medidas de dissimilaridades propostas por (GOWDA; DIDAY, 1991), (ICHINO; YAGUCHI, 1994), (CARVALHO, 1994) e (CARVALHO, 1998), para dados simb´olicos booleanos, em rela¸c˜ao a` propriedade MID (Monotonic Increasing Dissimilarity). Segundo essa propriedade, o grau de dissimilaridade entre os ind´ıviduos, computado pelas vari´aveis independentes, deve ser proporcional `a dissimilaridade no atributo dependente (classe ou r´otulo). Os experimentos foram realizados com a base de dados “abalone”, dispon´ıvel no reposit´orio UCI (ASUNCION, 2007). Posteriormente, (MALERBA; MONOPOLI, 2002), seguindo a mesma metodologia apresentada em (MALERBA F. ESPOSITO; TAMMA, 2001), apresentaram um estudo comparativo para medidas de dissimilaridade entre dados simb´olicos modais. Os dois trabalhos apresentam limita¸c˜oes por terem utilizado uma u ´nica base de dados e n˜ao.

(29) 2.6 Considera¸c˜ oes Finais. 13. apresentar nenhuma valida¸c˜ao estat´ıstica. Finalmente, o trabalho de (SILVA, 2005) realizou uma an´alise comparativa das medidas de dissimilaridades propostas em (GOWDA; DIDAY, 1991), (GOWDA; RAVI, 1995a), (ICHINO; YAGUCHI, 1994) e (BEZERRA; CARVALHO, 2004). As medidas foram avaliadas no contexto de agrupamento de dados com o algoritmo de nuvens dinˆamicas (DIDAY; SIMON, 1976). Foram realizados experimentos com dados reais e dados simulados. Os resultados foram validados atrav´es do ´ındice de Rand corrigido (HUBERT; ARABIE, 1985) em um framework de valida¸ca˜o cruzada (RUSSELL; NORVIG, 2002).. 2.6. Considera¸co ˜es Finais. Neste cap´ıtulo foram discutidos todos os aspectos relacionados a` an´alise de dados simb´olicos de interesse para este trabalho. Foram definidos os principais conceitos referentes ao assunto e uma breve descri¸ca˜o do processo de extra¸ca˜o de dados simb´olicos. Tamb´em foram apresentadas algumas vantagens e desvantagens da utiliza¸ca˜o de dados simb´olicos comparadas ao uso de dados cl´assicos. Foram discutidas as principais abordagens de agrupamento e medidas de dissimilaridades para dados simb´olicos existentes na literatura. Neste trabalho ser´a desenvolvido um estudo comparativo do desenpenho de medidas de dissimilaridade semelhante ao apresentado no trabalho de (SILVA, 2005). No entanto, ser˜ao utilizados algoritmos de agrupamento que recebem como entrada uma matriz de dissimilaridades, enquanto (SILVA, 2005) realizava o agrupamento diretamente na matriz de dados. Al´em disso, ser˜ao utilizadas medidas de dissimilaridades diferentes das estudadas naquele trabalho e, adicionalmente, ser˜ao avaliados v´arios algoritmos de agrupamento, em contrapartida a um u ´nico algoritmo avaliado em (SILVA, 2005). No Cap´ıtulo 3, ser´a feita uma revis˜ao sobre an´alise de agrupamento..

(30) 14. 3. An´ alise de Agrupamento. 3.1. Considera¸co ˜es Iniciais. Neste cap´ıtulo, ser˜ao apresentados os conceitos relativos a` an´alise de agrupamento necess´arios para o entendimento do restante desta Disserta¸ca˜o. Inicialmente, nas Se¸co˜es 3.2 e 3.3, ser˜ao introduzidos os conceitos gerais relacionados a` tarefa de agrupamento. Em seguida, na Se¸ca˜o 3.4, ser˜ao apresentadas as defini¸co˜es dos termos utilizados neste trabalho. Nessa se¸ca˜o ser´a tamb´em discutida a nota¸ca˜o utilizada no restante do cap´ıtulo. A Se¸ca˜o 3.5 apresenta os tipos de estruturas sob os quais s˜ao executados os algoritmos. Na Se¸c˜ao 3.6, ser˜ao revisadas as abordagens de agrupamento de dados existentes na literatura. Finalmente, na Se¸c˜ao 3.7 ser˜ao apresentados os algoritmos de agrupamento utilizados nesta Disserta¸ca˜o, na Se¸ca˜o 3.8 ser˜ao apresentados os crit´erios de valida¸ca˜o de agrupamento e na Se¸c˜ao 3.9 ser˜ao feitas algumas considera¸co˜es finais sobre o cap´ıtulo.. 3.2. Vis˜ ao Geral. Todos os dias, pessoas encontram informa¸co˜es e armazenam na forma de dados para futura an´alise e manipula¸c˜ao. Uma maneira de lidar com esses dados ´e classific´a-los ou agrup´a-los em um conjunto de categorias ou clusters (XU; Wunsch II, 2005). Agrupamento ´e uma das tarefas mais fundamentais e essenciais da an´alise de dados, tendo uma grande variedade de aplica¸co˜es. Com essas caracter´ısticas, an´alise de agrupamento tem sido estudada em v´arios campos de pesquisa, incluindo minera¸ca˜o de dados, aprendizado de m´aquina, reconhecimento de padr˜oes, engenharia, ciˆencias sociais, economia e biomedicina (KOGAN; NICHOLAS; TEBOULLE, 2006). Primeiramente, ´e preciso entender a diferen¸ca entre an´alise de agrupamento (classifica¸ca˜o n˜ao-supervisionada) e an´alise discriminante (classifica¸ca˜o supervisionada). Na.

(31) 3.3 Componentes da Tarefa de Agrupamento. 15. classifica¸ca˜o supervisionada, h´a um conjunto de objetos (ou indiv´ıduos) rotulados dispon´ıvel; o problema ´e rotular um novo objeto encontrado. Nesse caso, os objetos previamente rotulados (conjunto de treinamento) s˜ao utilizados para aprender a descri¸ca˜o das classes contidas nos dados. No caso de an´alise de agrupamento, o problema ´e agrupar uma cole¸ca˜o de objetos que ainda n˜ao foram rotulados em clusters (JAIN; DUBES, 1988). O processo de agrupamento compreende diversas etapas que v˜ao desde a prepara¸ca˜o dos objetos at´e a interpreta¸ca˜o dos clusters obtidos. O detalhamento dessas etapas ser´a apresentado na se¸c˜ao seguinte.. 3.3. Componentes da Tarefa de Agrupamento. A tarefa de agrupamento de dados envolve os seguintes est´agios (JAIN; DUBES, 1988): 1. Representa¸ca˜o dos Objetos (esta fase tamb´em pode incluir extra¸ca˜o de caracter´ısticas e/ou sele¸ca˜o de caracter´ısticas); 2. Defini¸c˜ao de uma medida de proximidade apropriada para o dom´ınio dos dados; 3. Agrupamento dos dados; 4. Abstra¸c˜ao dos dados, se necess´ario; 5. Valida¸ca˜o do Agrupamento, se necess´ario. A Figura 1 retrata um seq¨ uˆenciamento desses est´agios. No primeiro est´agio, os objetos que ir˜ao ser agrupados e as vari´aveis que os descrevem s˜ao identificados. Em alguns casos, existe um caminho de realimenta¸ca˜o onde a sa´ıda do processo de agrupamento pode afetar extra¸ca˜o de caracter´ısticas e computa¸c˜ao de proximidades subseq¨ uentes.. Figura 1: Est´agios da tarefa de agrupamento. Sele¸ca˜o de Caracter´ısticas ´e o processo de identifica¸c˜ao do conjunto das caracter´ısticas mais relevantes dentre as caracter´ısticas originais dos dados. Extra¸ca˜o de Caracter´ısticas.

(32) 3.3 Componentes da Tarefa de Agrupamento. 16. ´e a produ¸ca˜o de novas caracter´ısticas a partir de transforma¸co˜es aplicadas nos dados originais. Essas t´ecnicas podem ser utilizadas sozinhas ou combinadas para obter um conjunto de caracter´ısticas apropriado para o processo agrupamento. Representa¸ca˜o dos objetos refere-se ao processo de determina¸ca˜o da quantidade de padr˜oes dispon´ıveis; e o n´ umero, tipo e escala das caracter´ısticas dispon´ıveis para o algoritmo de agrupamento. A sa´ıda desse processo ´e uma matriz de dados onde as linhas representam os objetos e as colunas representam as vari´aveis. A proximidade entre objetos normalmente ´e medida por uma fun¸c˜ao de distˆancia entre pares de objetos. A sa´ıda desse est´agio ´e uma matriz de proximidades onde as c´elulas apresentam a proximidade entre os pares de objetos apresentados na matriz de dados produzida no est´agio anterior. Fun¸c˜oes de proximidade ser˜ao discutidas no Cap´ıtulo 4. O agrupamento dos objetos pode ser realizado de diversas maneiras. A sa´ıda dessa fase pode ser uma parti¸c˜ao r´ıgida (os objetos s˜ao particionados em grupos exclusivos) ou fuzzy (cada objeto tem um grau de pertinˆencia associado a cada um dos grupos). Algoritmos de agrupamento hier´arquicos produzem uma s´erie de parti¸c˜oes aninhadas a partir da fus˜ao ou divis˜ao de grupos com base na similaridade entre eles. Uma variedade de m´etodos de agrupamento ser´a discutida na Se¸ca˜o 3.6. Abstra¸ca˜o dos dados ´e o processo de extrair uma descri¸c˜ao compacta (ou representa¸ca˜o) para cada grupo. Normalmente, os grupos s˜ao representados por prot´otipos ou por objetos representativos como o centr´oide (DIDAY; SIMON, 1976). Geralmente, essa etapa ´e realizada durante a execu¸c˜ao do algoritmo de agrupamento. A valida¸ca˜o do agrupamento ´e a avalia¸c˜ao da sa´ıda produzida pelo algoritmo de agrupamento. Uma estrutura de agrupamento ´e v´alida se a chance dela ter ocorrido ao acaso for pequena em compara¸ca˜o com a chance de ser resultado de um algoritmo de agrupamento. Existem trˆes tipos de valida¸c˜ao, normalmente executados atrav´es de ´ındices, para determinar quando os resultados obtidos pelos m´etodos de agrupamento s˜ao significativos. Um ´ındice de valida¸c˜ao externa compara a sa´ıda do algoritmo de agrupamento a uma parti¸c˜ao conhecida a priori. Um ´ındice de valida¸ca˜o interna tenta determinar se a estrutura obtida ´e intr´ınsecamente apropriada aos dados. Um teste relativo compara duas estruturas e mede seu m´erito relativo (KAUFMAN; ROUSSEEUW, 1990)..

(33) 3.4 Nota¸c˜ ao Utilizada. 3.4. 17. Nota¸c˜ ao Utilizada. Os termos e a nota¸c˜ao apresentada nesta se¸ca˜o ir˜ao ser utilizados ao longo deste trabalho. Objeto (ou indiv´ıduo). x ´e um u ´nico item usado pelo algoritmo de agrupamento. Este item consiste de um vetor de dimens˜ao p: x = (x1 , . . . , xp ). Atributos (ou vari´ aveis). Os componentes xz do vetor x, com z entre 1 e p, s˜ao chamados de atributos. No contexto de dados simb´olicos, cada um desses componentes pode assumir um u ´nico valor real, um conjunto de valores categ´oricos, uma lista de valores ordenados ou um intervalo. Conjunto de objetos. O conjunto de indiv´ıduos ´e denotado por E = {x1 , . . . , xn }. R´ otulo. T´ecnicas de agrupamento r´ıgido associam um r´otulo li , que identifica a classe, a cada padr˜ao xi . O conjunto de todos os r´otulos de um conjunto de padr˜oes E ´e L = {l1 , . . . , ln }, com li ∈ {1, . . . , k}, onde k ´e o n´ umero de clusters. Grau de pertinˆ encia. M´etodos de agrupamento fuzzy associam a cada padr˜ao xi um coeficiente de pertinˆencia uci para cada cluster c. Esse coeficiente pode ser entendido como sendo a probabilidade do indiv´ıduo i fazer parte do grupo c. Medida de proximidade. ´e uma m´etrica (ou semi-m´etrica) utilizada para quantificar a similaridade (ou dissimilaridade) entre objetos.. 3.5. Tipos de Dados em An´ alise de Agrupamento. Esta se¸ca˜o apresenta os poss´ıveis tipos de dados utilizados como entrada para um algoritmo de agrupamento. Supondo que existe um conjunto de dados contendo n indiv´ıduos para serem agrupados. Tais indiv´ıduos podem representar pessoas, carros, filmes, pa´ıses, dentre outros. Os algoritmos de agrupamento geralmente tˆem como entrada uma das estruturas de dados abaixo (HAN; KAMBER, 2006). • Matriz de Dados (conhecida como estrutura indiv´ıduo por atributo): Esta estrutura representa n indiv´ıduos que podem ser, por exemplo, pessoas representadas atrav´es de p atributos como sexo, idade, altura, peso, etc. A estrutura ´e apresentada.

(34) 3.6 T´ecnicas de Agrupamento. 18. na forma de uma tabela relacional, ou uma matriz n × p (n indiv´ıduos e p atributos) (BEZDEK et al., 1999): . x11 . . . x1z . . . x1p.   ...    xi1   ...  xn1. .  ...    . . . xiz . . . xip   ... ... ... ...   . . . xnz . . . xnp ... ... .... (3.1). • Matriz de Dissimilaridades (ou estrutura indiv´ıduo por indiv´ıduo): Esta matriz armazena um conjunto de proximidades entre pares de indiv´ıduos. Normalmente, ´e representada por uma matriz n × n:  0   d  21 0   d31 d32   .. ..  . . . dn1 dn2.       0  .. .. ..  . . .   ... ... 0. (3.2). onde dij ´e a medida de dissemelhan¸ca ou dissimilaridade entre i e j. Diversos algoritmos de agrupamento tˆem como entrada uma matriz de dissimilaridades, tais dissimilaridades s˜ao conhecidas como dados relacionais. Nesse caso, se os indiv´ıduos forem apresentados na forma de matriz de dados, eles dever˜ao primeiramente ser transformados em uma matriz de dissimilaridades antes da execu¸c˜ao do agrupamento. Medidas de dissimilaridade ser˜ao discutidas no Cap´ıtulo 4.. 3.6. T´ ecnicas de Agrupamento. Os algoritmos de agrupamento de dados podem ser classificados sob diversos crit´erios. Utilizando uma classifica¸ca˜o mais geral, os algoritmos de agrupamento podem ser divididos em hier´arquicos e particionais. Os algoritmos hier´arquicos produzem uma s´erie de parti¸c˜oes aninhadas, enquanto os particionais produzem apenas uma parti¸c˜ao (JAIN; DUBES,. 1988). A Figura 2 (a) e (b) apresentam, respectivamente, um exemplo de agru-. pamento hier´arquico e um exemplo de agrupamento particional. As subse¸c˜oes seguintes discutem os principais tipos de algoritmos de agrupamento..

(35) 3.6 T´ecnicas de Agrupamento. 19. Figura 2: Exemplos de agrupamento (a) hier´arquico e (b) particional.. 3.6.1. M´ etodos de Agrupamento Hier´ arquico. Os algoritmos hier´arquicos constroem uma hierarquia em forma de ´arvore, como por exemplo, um dendograma. Eles est˜ao divididos em duas categorias: divisivos e aglomerativos. A diferen¸ca entre as categorias est´a relacionada com a maneira como a ´arvore ´e constru´ıda (WITTEN; FRANK, 2000). Os algoritmos divisivos iniciam com os padr˜oes em um u ´nico grupo e sucessivamente dividem os padr˜oes em grupos menores. Nos algoritmos aglomerativos cada padr˜ao inicialmente representa um grupo e esses grupos s˜ao fundidos a cada itera¸c˜ao, de maneira que ao final da execu¸c˜ao do algoritmo, exista um u ´nico grupo contendo todos os objetos (BERKHIN, 2002). Os m´etodos divisivos s˜ao menos comuns entre os algoritmos hier´arquicos devido sua ineficiˆencia e por exigirem capacidade computacional maior que os algoritmos aglomerativos (BERKHIN, 2002). Apesar dos algoritmos hier´arquicos n˜ao retornarem parti¸co˜es, estas podem ser obtidas, por exemplo, cortando o dendograma gerado em um certo n´ıvel. As vantagens dos m´etodos hier´arquicos s˜ao (BERKHIN, 2002): • Flexibilidade do n´ umero de grupos; • Ajusta-se facilmente `a qualquer medida de similaridade ou distˆancia; • Capacidade de lidar com v´arios tipos de vari´aveis..

(36) 3.6 T´ecnicas de Agrupamento. 20. As desvantagens do agrupamento hier´arquico est˜ao relacionadas a (BERKHIN, 2002): • Crit´erio de termina¸ca˜o vago; • O fato dos grupos n˜ao serem corrigidos, ou seja, os padr˜oes associados a determinado grupo permanecer˜ao nesse grupo at´e o final da execu¸c˜ao do algoritmo; • Custo computacional alto: os algoritmos hier´arquicos requerem bastante espa¸co de mem´oria e um alto custo de processamento.. 3.6.2. M´ etodos de Agrupamento Particionais. O particionamento de um conjunto de dados em um n´ umero pr´e-definido de grupos ´e um importante t´opico da an´alise de dados, reconhecimento de padr˜oes e processamento de imagens (JAIN; MURTY; FLYNN, 1999). Os m´etodos particionais s˜ao baseados na minimiza¸c˜ao de uma fun¸c˜ao objetivo, em que os objetos s˜ao agrupados em um n´ umero k de grupos escolhido previamente. Essa fun¸ca˜o pode ser definida localmente (em um subconjunto de objetos) ou globalmente (sobre todos os objetos), ent˜ao, cada objeto ´e associado a um grupo de maneira que minimize a fun¸c˜ao objetivo (KAUFMAN; ROUSSEEUW, 1990). A busca de um valor o´timo para a fun¸ca˜o objetivo no conjunto de parti¸co˜es poss´ıveis ´e computacionalmente proibitiva. Na pr´atica, o algoritmo ´e executado v´arias vezes com diferentes estados iniciais e a melhor configura¸ca˜o obtida ´e usada como sa´ıda do algoritmo (JAIN; DUBES, 1988). Uma das principais vantagens dos algoritmos particionais em rela¸ca˜o aos algoritmos hier´arquicos ´e o fato dos padr˜oes poderem mudar de grupo durante a execu¸ca˜o do algoritmo e a possibilidade de trabalhar com bases de dados maiores. Os m´etodos particionais s˜ao extremamente mais r´apidos que os hier´arquicos. As principais desvantagens dos algoritmos particionais residem no fato de que o n´ umero de grupos deve ser escolhido a priori e no fato de que a maioria dos algoritmos s˜ao sens´ıveis a`s condi¸c˜oes iniciais, gerando resultados diferentes a cada execu¸ca˜o. Al´em do n´ umero de grupos, ´e preciso escolher tamb´em o crit´erio de parada do algoritmo. Uma op¸ca˜o para o crit´erio de parada pode ser o n´ umero de itera¸co˜es que o algoritmo deve executar. Outro crit´erio de parada bastante utilizado ´e parar quando os padr˜oes n˜ao mais forem realocados a outros grupos. Os algoritmos particionais podem ser exclusivos ou n˜ao-exclusivos. Ambos ser˜ao dis-.

(37) 3.6 T´ecnicas de Agrupamento. 21. cutidos a seguir. Os algoritmos de particionamento exclusivos ou r´ıgidos ( do inglˆes, hard ) associam cada indiv´ıduo do conjunto de dados a um u ´nico cluster (grupo). Os algoritmos de particionamento exclusivos mais utilizados s˜ao (KAUFMAN; ROUSSEEUW, 1990) : k -m´edias, PAM (Partitioning Around Medoids) e CLARA (Clustering Large Applications). As abordagens de agrupamento tradicionais geram parti¸co˜es; nas parti¸c˜oes, cada indiv´ıduo est´a associado a um e somente um cluster. Assim, os clusters nesses tipos de abordagens s˜ao disjuntos. Os m´etodos de agrupamento n˜ao-exclusivos, tamb´em conhecidos como fuzzy, estendem essa no¸ca˜o para permitir associar os indiv´ıduos com todos os clusters utilizando uma fun¸ca˜o de pertinˆencia (ZADEH, 1965). Os indiv´ıduos ter˜ao pertinˆencia definida no intervalo [0, 1] para cada cluster. O agrupamento fuzzy ´e uma generaliza¸c˜ao do m´etodo de parti¸c˜ao (KAUFMAN; ROUSSEEUW,. 1990). Durante a execu¸ca˜o de um algoritmo de particionamento, muitas vezes ´e. d´ıficil decidir a qual grupo um determinado indiv´ıduo deve ser atribu´ıdo. Uma t´ecnica de agrupamento fuzzy lida melhor com tal situa¸ca˜o. A principal vantagem do agrupamento fuzzy ´e a produ¸ca˜o de informa¸co˜es mais detalhadas acerca dos dados. Al´em disso, a partir do agrupamento fuzzy ´e possivel obter parti¸co˜es hard ao atribuir cada indiv´ıduo ao grupo ao qual esse indiv´ıduo apresenta maior grau de pertinˆencia (KAUFMAN; ROUSSEEUW, 1990). Uma desvantagem apresentada pelos m´etodos fuzzy ´e o r´apido crescimento da quantidade de sa´ıdas com o aumento do n´ umero de indiv´ıduos e grupos, tornando dif´ıcil a interpreta¸c˜ao dos resultados. Al´em disso, os algoritmos de agrupamento fuzzy geralmente utilizam tempo computacional consideravelmente alto (KAUFMAN; ROUSSEEUW, 1990). A seguir, uma breve exposi¸ca˜o sobre o particionamento fuzzy. Seja k um n´ umero inteiro com 1 < k < n e seja E = {x1 , . . . , xn } o conjunto de n indiv´ıduos n˜ao rotulados no <p . Pode-se dizer que k subconjuntos fuzzy {uc : E → [0, 1]} s˜ao uma k parti¸ca˜o fuzzy de E se os k × n valores {uci = uc (xi ), 1 ≤ i ≤ n, 1 ≤ c ≤ k} satisfazem as seguintes condi¸c˜oes: 0 ≤ uci ≤ 1, ∀c, i X. uci = 1, ∀i X 0< uci < n, ∀c. (3.3) (3.4) (3.5).

(38) 3.7 Algoritmos de Agrupamento Utilizados. 22. Qualquer conjunto de k × n valores satisfazendo as condi¸co˜es 3.3 - 3.5 pode formar uma matriz (k × n), U = [uci ]. O conjunto de todas as matrizes desse tipo ´e dito o conjunto n˜ao degenerado de k parti¸co˜es fuzzy de E.. 3.7. Algoritmos de Agrupamento Utilizados. Existe uma grande variedade de algoritmos de agrupamento descritos na literatura (XU; WUNSCH, 2005). Ser˜ao descritos a seguir apenas os algoritmos utilizados neste trabalho. Todos eles utilizam como entrada uma matriz de dissimilaridades, ou seja, dados relacionais. Dentre os algoritmos apresentados, um algoritmo ´e hard, o algoritmo de agrupamento dinˆamico baseado em tabela de distˆancias (DCLUST) (CARVALHO; LECHEVALLIER; VERDE,. 2008). Os demais algoritmos s˜ao m´etodos fuzzy : O FANNY (do inglˆes, Fuzzy. Analysis) (KAUFMAN; ROUSSEEUW, 1990), o FNM (do inglˆes, Fuzzy Non Metric Model ) (ROUBENS, 1978), o FAP (do inglˆes, Fuzzy Assignment-Prototype Model ) (WINDHAM et al., 1985), o RFCM (do inglˆes, Relational Fuzzy c-means Model ) (HATHAWAY; DAVENPORT; BEZDEK, DEK,. 1989) e o NERFCM (do inglˆes, Non-Euclidean RFCM Model ) (HATHAWAY; BEZ-. 1994). Al´em desses, tamb´em foi utilizada uma extens˜ao do FANNY e do NERFCM.. Essas extens˜oes s˜ao baseadas na abordagem CARD (do inglˆes, Clustering and Aggregating Relational Data) (FRIGUI; HWANG; RHEE, 2007). Para simplificar a apresenta¸c˜ao dos algoritmos, ser´a considerada como entrada uma matriz de dados relacionais n × n, ao inv´es da matriz de dissimilaridades triangular apresentada na Se¸c˜ao 3.5.. 3.7.1. M´ etodo de Agrupamento Dinˆ amico (DCLUST). O objetivo de um algoritmo de agrupamento dinˆamico (DIDAY, 1971; CELEUX et al., 1989) ´e dividir um conjunto de indiv´ıduos E em um n´ umero k (fixo) de clusters homogˆeneos. A id´eia geral ´e criar uma descri¸ca˜o apropriada para cada cluster a partir dos elementos de E que pertencem a esse cluster, para que seja poss´ıvel alocar novos indiv´ıduos ao clusters obtidos. O algoritmo dinˆamico baseado em tabelas de distˆancias (DCLUST, do inglˆes Dynamic Clustering) (CARVALHO; LECHEVALLIER; VERDE, 2008) realiza o agrupamento dos indiv´ıduos com base nas proximidades entre os pares de indiv´ıduos. O crit´erio otimizado.

Referências

Documentos relacionados

Vantagens. Permitem avaliar melhor as atitudes para análise das questões estruturadas;. São muito úteis como primeira questão de um determinado tema porque deixam o

Se o tendão formar um ângulo aberto para fora, estamos diante de um calcâneo valgo, e o apoio sobre ele deve ser maior do lado interno (Figura 6). Se o tendão parecer oblíquo de

Analisando a prática dos professores de Educação Física de Piracicaba, Moreira (1991) constatou que eles apresentam atitudes formais e autoritárias na relação com os alunos; vêem

Samuel Tabosa de Castro.. Dedicamos esta proposta a todas as pessoas portadoras de deficiência atendidas pelas APAEs, por acreditarmos em seu potencial de aprendizagem e

É o movimento humano com determinado significado/sentido, que por sua vez, lhe é conferido pelo contexto histórico-cultural. O movimento que é tema da educação física é o que

O objetivo desta pesquisa foi investigar o papel da Educação Física na Educação Infantil, considerando-se os objetivos gerais, objetivos específicos, os conteúdos da

98: “En- quanto não permitir o fundo de custeio dos serviços de inspeção, a designação de inspetores especializados para orientação do en- sino da Musica e dos exercícios

sem discriminação”; “...o ensino inclusivo será uma oportunidade das pessoas portadoras de necessidades especiais de mostrar suas potencialidades”; “espero que esta