• Nenhum resultado encontrado

Métodos de cluster para intervalos usando algoritmos do tipo nuvens dinâmicas

N/A
N/A
Protected

Academic year: 2021

Share "Métodos de cluster para intervalos usando algoritmos do tipo nuvens dinâmicas"

Copied!
130
0
0

Texto

(1)Universidade Federal de Pernambuco Centro de Inform´atica. P´os-gradua¸c˜ao em Ciˆencia da Computa¸c˜ao. ´ METODOS DE CLUSTER PARA INTERVALOS USANDO ALGORITMOS DO ˆ TIPO NUVENS DINAMICAS. Renata Maria Cardoso Rodrigues de Souza. TESE DE DOUTORADO. Recife 19 de dezembro de 2003.

(2) Universidade Federal de Pernambuco Centro de Inform´atica. Renata Maria Cardoso Rodrigues de Souza. ´ METODOS DE CLUSTER PARA INTERVALOS USANDO ˆ ALGORITMOS DO TIPO NUVENS DINAMICAS. Trabalho apresentado ao Programa de P´ os-gradua¸ c˜ ao em Ciˆ encia da Computa¸ c˜ ao do Centro de Inform´ atica da Universidade Federal de Pernambuco como requisito parcial para oben¸ c˜ ao do grau de Doutor em Ciˆ encia da Computa¸ c˜ ao.. Orientador: Prof. Dr. Francisco de Assis T. de Carvalho. Recife 19 de dezembro de 2003.

(3) Dou gra¸ cas ao meu Senhor Jesus pela sua fidelidade durante a elabora¸ c˜ ao deste trabalho. A Ele toda a honra e toda a gl´ oria..

(4) RESUMO. A an´alise de dados simb´olicos (Symbolic Data Analysis) ´e uma nova abordagem na a´rea de descoberta autom´atica de conhecimentos que visa desenvolver m´etodos para dados descritos por var´aveis onde existem conjuntos de categorias, intervalos ou distribui¸co˜es de probabilidade nas c´elulas das tabelas de dados. O objetivo deste trabalho ´e introduzir m´etodos de cluster para intervalos usando algoritmos de nuvens dinˆamicas. Estes algoritmos consistem em obter, simultaneamente, uma parti¸ca˜o em classes e identificar um conjunto de representantes das classes minimizando um crit´erio que mede a adequa¸ca˜o entre as classes e os prot´otipos. Os algoritmos de nuvens dinˆamicas com distˆancias adaptativas tamb´em encontram uma parti¸ca˜o e um conjunto de representantes minimizando uma fun¸ca˜o crit´erio, mas em cada itera¸ca˜o existe uma distˆancia diferente para comparar cada classe com o seu prot´otipo. A vantagem das distˆancias adaptativas ´e que o algoritmo de agrupamento ´e capaz de reconhecer classes de formas e tamanhos diferentes. Neste trabalho, foi desenvolvido um m´etodo de nuvens dinˆamicas usando a distˆancia L1 para intervalos. Al´em deste m´etodo, foram tamb´em introduzidos trˆes m´etodos com, respectivamente, as distˆancias L1 , L2 e L∞ adaptativas para intervalos. Para validar os m´etodos, foram realizados experimentos com um conjunto de esp´ecies de peixes e dois conjuntos de dados artificiais de intervalos com diferentes graus de dificuldade de classifica¸ca˜o. Os resultados fornecidos pelos m´etodos tˆem sido avaliados por um ´ındice externo na estrutura de uma experiˆencia Monte Carlo e testes estat´ısticos evidenciam que o desempenho dos m´etodos adaptativos ´e superior ao dos m´etodos n˜ao adaptativos.. Palavras-chave:. An´alise de Dados Simb´olicos, Algoritmos de Nuvens Dinˆamicas,. Dados de Tipo Intervalo, Distˆancias Adaptativas.. iv.

(5) ABSTRACT. Symbolic Data Analysis (SDA) is a new domain in the area of knowledge discovery that aims to provide suitable methods for data described through multi-valued variables, where there are sets of categories, intervals, or weight (probability) distributions in the cells of the data tables. The main contribution of this paper is to introduce cluster methods for interval based on dynamical clustering algorithms. The dynamic cluster algorithms aims to obtain both a single partition into a fixed number of clusters and the identification of a suitable representation or prototype for each cluster by locally optimizing an criterion that measure the fitting between the clusters and their corresponding representation. The adaptive dynamic cluster algorithms also obtains a partition and a prototypes set by optimizing a criterion function, but at each iteration there is a different distance to the comparison of each cluster with its representation. The advantage of these adaptive distances is that the clustering algorithm is able to recognize clusters of different shapes and sizes. In this work, dynamical clustering method using a L1 distance for intervals was presented. Moreover, three methods with adaptive L1 , L2 e L∞ distances were also introduced. The experiments carried out with a fish interval data set and two artificial interval data sets with different degrees of clustering difficulty showed the usefulness of these clustering methods The accuracy of the results furnished by these clustering methods are assessed by an external index in the framework of a Monte Carlo experience. Statistic tests support the evidence that the adaptive methods outperform the non-adaptive methods.. Keywords: Symbolic Data Analysis, Dynamic cluster algorithm, Interval data, adaptive distances.. v.

(6) ´ CONTEUDO. Cap´ıtulo 1—Introdu¸c˜ ao. 1. 1.1. Motiva¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1. 1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3. 1.3. Organiza¸ca˜o da TESE . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. Cap´ıtulo 2—An´ alise de Dados Simb´ olicos (SDA). 7. 2.1. Introdu¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 2.2. Um breve hist´orico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 8. 2.3. Tabelas de Dados Simb´olicos e os Objetos Simb´olicos . . . . . . . . . . .. 10. 2.3.1. Tabelas de Dados Simb´olicos . . . . . . . . . . . . . . . . . . . . .. 10. 2.3.2. Objetos Simb´olicos . . . . . . . . . . . . . . . . . . . . . . . . . .. 11. 2.3.2.1. Objeto Simb´olico Booleano . . . . . . . . . . . . . . . .. 11. 2.3.2.2. Objeto Simb´olico Modal . . . . . . . . . . . . . . . . . .. 14. Evolu¸ca˜o da An´alise Simb´olica de Dados . . . . . . . . . . . . . . . . . .. 15. 2.4.1. An´alise Fatorial . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 15. 2.4.2. Medidas de similaridade e dissimilaridade . . . . . . . . . . . . . .. 15. 2.4.3. Sele¸ca˜o de vari´aveis . . . . . . . . . . . . . . . . . . . . . . . . . .. 16. 2.4.4. Estat´ısticas descritivas . . . . . . . . . . . . . . . . . . . . . . . .. 16. 2.4.5. Classifica¸ca˜o supervisionada . . . . . . . . . . . . . . . . . . . . .. 16. 2.4. Cap´ıtulo 3—An´ alise de Cluster 3.1. 18. Introdu¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi. 18.

(7) ´ do conteu 3.2. An´alise de Cluster para Dados Usuais . . . . . . . . . . . . . . . . . . . .. 20. 3.2.1. Tipos de Vari´aveis . . . . . . . . . . . . . . . . . . . . . . . . . .. 21. 3.2.1.1. Vari´aveis Qualitativas . . . . . . . . . . . . . . . . . . .. 22. 3.2.1.2. Vari´aveis Quantitativas . . . . . . . . . . . . . . . . . .. 23. Medidas de Proximidades . . . . . . . . . . . . . . . . . . . . . .. 23. 3.2.2.1. Vari´aveis Quantitativas . . . . . . . . . . . . . . . . . .. 25. 3.2.2.2. Vari´aveis Bin´arias . . . . . . . . . . . . . . . . . . . . .. 25. 3.2.2.3. Vari´aveis Qualitativas . . . . . . . . . . . . . . . . . . .. 25. 3.2.2.4. Vari´aveis mistas . . . . . . . . . . . . . . . . . . . . . .. 27. M´etodos de cluster . . . . . . . . . . . . . . . . . . . . . . . . . .. 27. 3.2.3.1. M´etodos de Parti¸ca˜o . . . . . . . . . . . . . . . . . . . .. 29. 3.2.3.2. M´etodos Hier´arquicos . . . . . . . . . . . . . . . . . . .. 30. Outros M´etodos de Cluster . . . . . . . . . . . . . . . . . . . . . .. 31. 3.2.4.1. Redes Neurais . . . . . . . . . . . . . . . . . . . . . . . .. 32. 3.2.4.2. M´etodos nebulosos . . . . . . . . . . . . . . . . . . . . .. 32. 3.2.4.3. Classifica¸ca˜o com Sobreposi¸ca˜o . . . . . . . . . . . . . .. 33. 3.2.4.4. Classifica¸ca˜o com Restri¸co˜es . . . . . . . . . . . . . . . .. 35. 3.2.4.5. Agrupamento Conceitual . . . . . . . . . . . . . . . . . .. 35. 3.2.2. 3.2.3. 3.2.4. 3.3. vii. An´alise de Cluster para Dados Simb´olicos 3.3.1. 3.3.2. 3.3.3. . . . . . . . . . . . . . . . . .. 36. Tipos de Vari´avies . . . . . . . . . . . . . . . . . . . . . . . . . .. 37. 3.3.1.1. Vari´aveis N˜ao Modais . . . . . . . . . . . . . . . . . . .. 37. 3.3.1.2. Vari´aveis Modais . . . . . . . . . . . . . . . . . . . . . .. 38. Medidas de Proximidades . . . . . . . . . . . . . . . . . . . . . .. 39. 3.3.2.1. Abordagens para Vari´aveis N˜ao Modais . . . . . . . . .. 39. 3.3.2.2. Uma Abordagem para Vari´aveis Modais . . . . . . . . .. 43. M´etodos de cluster . . . . . . . . . . . . . . . . . . . . . . . . . .. 43. 3.3.3.1. M´etodos de parti¸ca˜o . . . . . . . . . . . . . . . . . . . .. 43. 3.3.3.2. M´etodos hier´aquicos . . . . . . . . . . . . . . . . . . . .. 44. Cap´ıtulo 4—Algoritmos do tipo Nuvens Dinˆ amicas. 46.

(8) ´ do conteu. viii. 4.1. Introdu¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 46. 4.2. M´etodos de Nuvens Dinˆamicas com distˆancias fixas . . . . . . . . . . . .. 47. 4.2.1. As fun¸co˜es de representa¸ca˜o e aloca¸ca˜o . . . . . . . . . . . . . . .. 48. 4.2.2. O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 48. 4.2.3. O m´etodo de nuvens dinˆamicas com a distˆancia L1 . . . . . . . .. 49. 4.2.3.1. O problema de otimiza¸ca˜o . . . . . . . . . . . . . . . . .. 49. 4.2.3.2. O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . .. 50. O m´etodo de nuvens dinˆamicas com a distˆancia L2 . . . . . . . .. 50. 4.2.4.1. O problema de otimiza¸ca˜o . . . . . . . . . . . . . . . . .. 50. 4.2.4.2. O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . .. 51. O m´etodo de nuvens dinˆamicas com a distˆancia de Mahalanobis .. 51. 4.2.5.1. O problema de otimiza¸ca˜o . . . . . . . . . . . . . . . . .. 52. 4.2.5.2. O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . .. 52. M´etodos de Nuvens Dinˆamicas com distˆancias adaptativas . . . . . . . .. 52. 4.3.1. As fun¸co˜es de representa¸ca˜o, aloca¸ca˜o e distˆancia . . . . . . . . .. 53. 4.3.2. O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 53. 4.3.3. O m´etodo de nuvens dinˆamicas com distˆancias L1 adaptativas . .. 55. 4.3.3.1. O problema de otimiza¸ca˜o . . . . . . . . . . . . . . . . .. 55. 4.3.3.2. O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . .. 56. O m´etodo de nuvens dinˆamicas com distˆancias L2 adaptativas . .. 56. 4.3.4.1. O problema de otimiza¸ca˜o . . . . . . . . . . . . . . . . .. 57. 4.3.4.2. O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . .. 58. 4.2.4. 4.2.5. 4.3. 4.3.4. 4.3.5. 4.3.6. O m´etodo de nuvens dinˆamicas com distˆancias de Mahalanobis adaptativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 58. 4.3.5.1. O problema de otimiza¸ca˜o . . . . . . . . . . . . . . . . .. 58. O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 59. Cap´ıtulo 5—Algoritmos do tipo Nuvens Dinˆ amicas para Intervalos. 60. 5.1. Introdu¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 60. 5.2. M´etodos de nuvens dinˆamicas com distˆancias L1 para intervalos . . . . .. 62.

(9) ´ do conteu 5.2.1. 5.2.2. ix O m´etodo com a distˆancia L1 fixa . . . . . . . . . . . . . . . . . . 5.2.1.1. Uma fun¸ca˜o de distˆancia L1 entre dois vetores de intervalos 62. 5.2.1.2. O problema de otimiza¸ca˜o . . . . . . . . . . . . . . . . .. 63. O m´etodo com distˆancias L1 adaptativas . . . . . . . . . . . . . .. 63. 5.2.2.1. Distˆancias L1 adaptativas entre dois intervalos . . . . . .. 63. 5.2.2.2. O problema de otimiza¸ca˜o com a distˆancia de um componente . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.2.2.3. 5.3. O problema de otimiza¸ca˜o com a distˆancia de dois com65. M´etodos de nuvens dinˆamicas com distˆancias L2 para intervalos . . . . .. 66. 5.3.1. 67. O m´etodo com a distˆancia L2 fixa . . . . . . . . . . . . . . . . . . 5.3.1.1. Uma fun¸ca˜o de distˆancia L2 entre dois vetores de intervalos 67. 5.3.1.2. O problema de otimiza¸ca˜o . . . . . . . . . . . . . . . . .. 67. O m´etodo com distˆancias L2 adaptativas . . . . . . . . . . . . . .. 68. 5.3.2.1. Distˆancias L2 adaptativas entre dois vetores de intervalos 68. 5.3.2.2. O problema de otimiza¸ca˜o com a distˆancia de um componente . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.3.2.3. 69. O problema de otimiza¸ca˜o com a distˆancia de dois componentes . . . . . . . . . . . . . . . . . . . . . . . . . . .. 70. M´etodos de nuvens dinˆamicas com distˆancias L∞ para intervalos . . . . .. 71. 5.4.1. 71. M´etodo com a distˆancia L∞ fixa . . . . . . . . . . . . . . . . . . . 5.4.1.1. Uma fun¸ca˜o de distˆancia L∞ entre dois vetores de intervalos 72. 5.4.1.2. O problema de otimiza¸ca˜o . . . . . . . . . . . . . . . . .. 72. M´etodo com distˆancias L∞ adaptativas . . . . . . . . . . . . . . .. 72. 5.4.2.1. Distˆancias L∞ adaptativas entre dois intervalos . . . . .. 73. 5.4.2.2. O problema de otimiza¸ca˜o . . . . . . . . . . . . . . . . .. 73. Os algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 74. 5.5.1. O algoritmo de nuvens dinˆamicas para intervalos . . . . . . . . . .. 74. 5.5.2. O algoritmo de nuvens dinˆamicas com distˆancias adaptativas para. 5.4.2. 5.5. 64. ponentes . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.3.2. 5.4. 62. intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 75.

(10) ´ do conteu. x. Cap´ıtulo 6—Resultados dos Experimentos. 78. 6.1. Introdu¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 78. 6.2. Conjuntos de Dados Artificiais do tipo Intervalo . . . . . . . . . . . . . .. 78. 6.2.1. Simula¸ca˜o de Dados Usuais . . . . . . . . . . . . . . . . . . . . .. 79. 6.2.2. Simula¸ca˜o de Dados do Tipo Intevalo . . . . . . . . . . . . . . . .. 80. 6.2.3. C´alculo do ´ındice de valida¸ca˜o . . . . . . . . . . . . . . . . . . . .. 81. 6.2.4. Resultados para os M´etodos L1 . . . . . . . . . . . . . . . . . . .. 82. 6.2.5. Resultados para os M´etodos L2 . . . . . . . . . . . . . . . . . . .. 84. 6.2.6. Resultados para os M´etodos L∞ . . . . . . . . . . . . . . . . . . .. 85. Um Conjunto de Esp´ecies de Peixes . . . . . . . . . . . . . . . . . . . . .. 86. 6.3.1. Resultados para os m´etodos L1 . . . . . . . . . . . . . . . . . . .. 88. 6.3.2. Resultados para os m´etodos L2 . . . . . . . . . . . . . . . . . . .. 88. 6.3.3. Resultados para os m´etodos L∞ . . . . . . . . . . . . . . . . . . .. 89. 6.3. Cap´ıtulo 7—Conclus˜ oes e Trabalhos Futuros. 91. 7.1. Introdu¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 91. 7.2. Considera¸co˜es Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 91. 7.3. Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 93. Apˆ endice A—Estudo das Propriedades do Algoritmo de Nuvens Dinˆ amicas. 94. Apˆ endice B—Estudo das Propriedades do Algoritmo de Nuvens Dinˆ amicas com Distˆ ancias Adaptativas. 96. Apˆ endice C—Proposi¸c˜ ao 5.2.1. 99. Apˆ endice D—Proposi¸c˜ ao 5.2.2. 101.

(11) ´ do conteu. xi. Apˆ endice E—Proposi¸c˜ ao 5.2.3. 103. Apˆ endice F—Proposi¸c˜ ao 5.2.4. 105.

(12) LISTA DE FIGURAS. 2.1. Opera¸co˜es de jun¸ca˜o e uni˜ao entre dados simb´olicos . . . . . . . . . . . .. 13. 2.2. Opera¸co˜es de disjun¸ca˜o e conjun¸ca˜o entre dados simb´olicos . . . . . . . .. 13. 3.1. Coes˜ao e Isolamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 19. 3.2. Etapas da an´alise de cluster . . . . . . . . . . . . . . . . . . . . . . . . .. 19. 3.3. Uma rede para as institui¸co˜es educacionais de uma cidade . . . . . . . .. 23. 3.4. Estruturas de Classifica¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . .. 27. 3.5. Estrutura de Cobertura . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 28. 3.6. Dendogramas de liga¸ca˜o simples e de liga¸ca˜o completa . . . . . . . . . .. 31. 3.7. Clusters disjuntos e nebulosos . . . . . . . . . . . . . . . . . . . . . . . .. 33. 3.8. Uma pirˆamide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 34. 3.9. Um histograma descrevendo a altura de um grupo de pessoas . . . . . . .. 38. 6.1. Conjunto de dados usuais 1 mostrando classes bem separadas. . . . . . .. 79. 6.2. Conjunto de dados usuais 2 mostrando sobreposi¸ca˜o de classes . . . . . .. 80. 6.3. Conjuntos de retˆangulos 1 mostrando classes bem separadas . . . . . . .. 81. 6.4. Conjuntos de retˆangulos 2 mostrando sobreposi¸ca˜o de classes . . . . . . .. 81. xii.

(13) LISTA DE TABELAS. 2.1. Temperaturas m´ınima e m´axima registradas na China . . . . . . . . . . .. 9. 2.2. Uma tabela de dados simb´olicos . . . . . . . . . . . . . . . . . . . . . . .. 11. 6.1 ´Indice CR m´edio para os m´etodos L1 . . . . . . . . . . . . . . . . . . . . .. 83. 6.2. Estat´ısticas de testes t-Student emparelhados para os m´etodos L1 . . . .. 83. 6.3 ´Indice CR m´edio para os m´etodos L2 . . . . . . . . . . . . . . . . . . . . .. 84. 6.4. Estat´ısticas de testes t-Student emparelhados para os m´etodos L2 . . . . .. 85. 6.5 ´Indice CR m´edio para os m´etodos L∞ . . . . . . . . . . . . . . . . . . . .. 85. 6.6. Estat´ısticas de testes t-Student emparelhados. . . . . . . . . . . . . . . .. 86. 6.7. Conjunto de Dados de Peixe descritos por 13 vari´aveis do tipo intervalo .. 87. 6.8. Resultados do agrupamento para o conjunto de peixes usando os m´etodos L1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6.9. 88. Resultados do agrupamento para o conjunto de peixes usando os m´etodos L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 89. 6.10 Resultados do agrupamento para o conjunto de peixes usando os m´etodos L∞ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. xiii. 89.

(14) CAP´ITULO 1. ˜ INTRODUC ¸ AO. 1.1. ˜ MOTIVAC ¸ AO A dissemina¸ca˜o do uso dos computadores nas organiza¸co˜es tem alterado radicalmente. a maneira como as aplica¸co˜es s˜ao conduzidas. A cada dia, mais opera¸co˜es corriqueiras s˜ao automatizadas e a cada nova transa¸ca˜o, como compras com cart˜ao de cr´edito, opera¸co˜es banc´arias, novos registros correspondentes s˜ao armazenados. Sistemas de gerenciadores de banco de dados est˜ao presentes na maioria das organiza¸co˜es p´ ublicas e empresas de m´edio e grande porte, contendo os mais diferentes dados sobre produtos, fornecedores, clientes, empregados, etc. Al´em disso, avan¸cos em aquisi¸ca˜o de dados, desde um simples leitor de c´odigo de barras at´e sistemas de sensoriamento remoto geram grandes volumes de dados. Entretanto num ambiente mut´avel torna-se necess´ario novas t´ecnicas e ferramentas de extra¸ca˜o e an´alise de conhecimentos que agilizem o processo decis´orio de uma empresa. A realiza¸ca˜o de Data Warehousing ([Gar98]) ´e considerado um dos primeiros passos para tornar fact´ıvel a an´alise de grande quantidade de dados no apoio ao processo decis´orio. O objetivo ´e criar um reposit´orio, conhecido como Data Warehouse (DW), que contem dados limpos, agregados e consolidados. No entanto, a an´alise de dados atrav´es de um DW geralmente n˜ao extrapolam a realiza¸ca˜o de simples consultas e diante disto, diversos estudos tˆem sido direcionado ao desenvolvimento de tecnologias de extra¸ca˜o autom´atica de conhecimentos. A descoberta de conhecimentos em bases de dados (Knowledge Discovery in Database KDD) ´e uma a´rea de pesquisa em bastante evidencia no momento que visa desenvolver meios autom´aticos de propesc¸ca˜o de conhecimento em grandes bases de dados. O processo de KDD inicia com uma etapa de pr´e-processamento objetivando assegurar a qual1.

(15) ˜o 1.1 motivac ¸a. 2. idade dos dados a ser analisados. A pr´oxima etapa ´e a descoberta de conhecimento propriamente dita. Esta etapa compreende a escolha de um algoritmo de minera¸ca˜o de dados (Data Mining) para extrair informa¸co˜es valorosas, aparentemente camufladas ou escondidas, de uma cole¸ca˜o de dados. Para finalizar o processo de KDD, uma terceira etapa ´e empregada com a finalidade de avaliar e utilizar o conhecimento extra´ıdo visando apoiar algum processo de tomada de decis˜ao. As ferramentas para execu¸ca˜o do processo de minera¸ca˜o s˜ao gen´ericas e derivadas de diferentes a´reas de conhecimento tais como da estat´ıstica, inteligˆencia artificial e banco de dados. As t´ecnicas estat´ısticas multivariadas englobam algoritmos que podem ser aplicados para descobrir estruturas em um conjunto de dados. Dentre estas t´ecnicas destacamos an´alise de cluster (an´alise de agrupamento ou classifica¸ca˜o n˜ao supervisionada) que tem como objetivo organizar um conjunto de objetos em classes de tal forma que os objetos de uma mesma classe s˜ao mais similares entre si do que o objetos pertencentes a classes diferentes. O atrativo dos m´etodos de cluster para a minera¸ca˜o de dados est´a na sua habilidade de extrair novas estruturas diretamente de dados, sem nenhum conhecimento pr´evio. Embora as t´ecnicas multivariadas tradicionais sejam bem aplicadas para sumarizar e analisar conjuntos de dados, com o explosivo crescimento das tecnologias da informa¸ca˜o estas t´ecnicas tˆem sido inapropriadas para tratar conjuntos de dados representados por informa¸co˜es mais complexas como por exemplo, intervalos. Al´em disso, os m´etodos estat´ısticos n˜ao possuem estruturas adequadas que possibilitem sintetizar grandes conjuntos de dados perdendo o menos poss´ıvel de informa¸ca˜o dos dados originais. Como uma alternativa para generalizar as atuais t´ecnicas estat´ısticas para estas informa¸co˜es mais complexas, surge a an´alise de dados simb´olicos (Symbolic Data Analysis (SDA)). A an´alise de dados simb´olicos [BD00] ´e uma nova abordagem na a´rea da descoberta autom´atica de conhecimentos (KDD) e gerenciamento de dados, relacionada com an´alise de dados multivariados, reconhecimento de padr˜oes, inteligˆencia artificial e banco de dados. O principal objetivo de SDA ´e desenvolver m´etodos para tratamento de dados mais complexos como intervalos, conjuntos e distribui¸ca˜o de probabilidades ou de pesos. SDA inicia com a agrega¸ca˜o/redu¸ca˜o de bases de dados cl´assicos em uma estrutura mais com-.

(16) 1.2 objetivos. 3. plexa chamada de dados simb´olicos, pois eles contˆem varia¸ca˜o interna e s˜ao estruturados. A etapa seguinte consiste na extens˜ao dos m´etodos e algoritmos de extra¸ca˜o de conhecimentos (t´ecnicas estat´ısticas) a partir de dados usuais, para os dados simb´olicos. Um exemplo da aplica¸ca˜o desta metodologia no processo de descoberta de conhecimentos em grandes conjuntos de dados ´e apresentado por Lima Neto e De Carvalho [NdC01]. Os algoritmos da an´alise de cluster podem ser divididos entre dois grandes grupos: aqueles que estruturam um conjunto de dados em hierarquias de classes atrav´es de uma a´rvore, chamada de dendograma, e os que estruturam um conjunto de dados em uma parti¸ca˜o em um n´ umero predefinido de classes. Os m´etodos hier´arquicos podem ser divididos em aglomerativos e divisivos. Em geral os m´etodos que fornecem uma parti¸ca˜o tamb´em fornecem um conjunto de representantes das classes atrav´es da otimiza¸ca˜o (local) de um crit´erio de adequa¸ca˜o entre as classes e as suas representa¸co˜es. V´arios algoritmos de cluster de dados simb´olicos, tanto do tipo hier´arquico como do tipo particional, foram propostos recentemente na literatura. Entretanto os m´etodos de parti¸ca˜o existentes n˜ao usam distˆancias adaptativas. Os m´etodos de parti¸ca˜o adaptativos s˜ao capazes de produzir uma estrutura de classes melhorando a qualidade do agrupamento, pois as distˆancias adaptativas permitem reconhecer classes de formas e tamanhos diferentes. Este fato torna os m´etodos adaptativos como uma ferramenta valiosa para a descoberta de conhecimento em bases de dados.. 1.2. OBJETIVOS O objetivo principal deste trabalho ´e desenvolver m´etodos de parti¸ca˜o para intervalos. usando algoritmos do tipo nuvens dinˆamicas com e sem distˆancias adaptativas. Embora a literatura da an´alise de dados simb´olicos indique alguns avan¸cos com m´etodos de parti¸ca˜o para intervalos, estes m´etodos n˜ao usam distˆancias adaptativas. Neste contexto, duas etapas s˜ao abordadas: 1) Desenvolver um m´etodo de nuvens dinˆamicas usando uma distˆancias do tipo L1 (City-Block) para intervalos. 2) Propor m´etodos de nuvens dinˆamicas com distˆancias adaptativas do tipo.

(17) ˜ o da tese 1.3 organizac ¸a. 4. a) L1 (City-Block); b) L2 (Euclidiana) e c) L∞ (M´aximo) para intervalos. No contexto das aplica¸co˜es, dois pontos s˜ao abordados: 1) Avaliar o desempenho dos m´etodos propostos usando um ´ındice de valida¸ca˜o externo. Neste estudo, ser˜ao usados conjuntos de dados reais e artificiais de tipo intervalo com diferentes graus de dificuldade de classifica¸ca˜o. Para dados artificiais, o ´ındice de valida¸ca˜o ser´a estimado no quadro de uma experiˆencia Monte Carlo. 2) Comparar os m´etodos propostos utilizando testes estat´ısticos t-Student emparelhados. Aqui, os testes ser˜ao aplicados para comparar as m´edias dos ´ındices de valida¸ca˜o estimados pelo m´etodo Monte Carlo de acordo com os diferentes m´etodos e conjuntos.. 1.3. ˜ DA TESE ORGANIZAC ¸ AO Al´em deste cap´ıtulo, esta tese ser´a apresentada em mais seis cap´ıtulos que s˜ao:. Cap´ıtulo 2 An´ alise de Dados Simb´ olicos A finalidade deste cap´ıtulo ´e fornecer um breve hist´orico da abordagem simb´olica em an´alise de dados.. Cap´ıtulo 3 An´ alise de Cluster Este cap´ıtulo ´e dividido em duas grandes se¸co˜es. Na primeira se¸ca˜o (3.2) s˜ao descritos os tipos de dados cl´assicos, algumas medidas de distˆancias entre eles e por u ´ltimo um resumo dos principais m´etodos cl´assicos de cluster. A segunda se¸ca˜o (3.3) apresenta os dados simb´olicos, algumas medidas de proximidades entre estes tipos de dados e.

(18) ˜ o da tese 1.3 organizac ¸a. 5. finalmente uma breve descri¸ca˜o dos m´etodos de cluster (parti¸ca˜o e hier´arquico) da an´alise de dados simb´olicos.. Cap´ıtulo 4 Algoritmos do tipo Nuvens Dinˆ amicas Este cap´ıtulo descreve os algoritmos cl´assicos de nuvens dinˆamicas com e sem distˆancias adaptativas. Inicialmente, s˜ao abordados trˆes m´etodos de nuvens dinˆamicas com, respectivamente, as distˆancias L1 , L2 e Mahalanobis (se¸ca˜o 4.2). Posteriormente, s˜ao apresentados os m´etodos de nuvens dinˆamicas com as distˆancias L1 , L2 e Mahalanobis adaptativas (se¸ca˜o 4.3).. Cap´ıtulo 5 Algoritmos do tipo Nuvens Dinˆ amicas para Intervalos Neste cap´ıtulo, ´e descrito o formalismo dos m´etodos de nuvens dinˆamicas com e sem distˆancias adaptativas para intervalos. Na se¸ca˜o 5.2, s˜ao apresentados os m´etodos com e sem distˆancias L1 adaptativas para intervalos. Na se¸ca˜o 5.3, s˜ao apresentados os m´etodos com e sem distˆancias L2 adaptativas para intervalos. Finalmente, na se¸ca˜o 5.4 s˜ao relatados os m´etodos com e sem distˆancias L∞ adaptativas para intervalos.. Cap´ıtulo 6 Resultados dos Experimentos Na primeira parte deste cap´ıtulo (se¸ca˜o 6.2), ´e apresentado os resultados de classifica¸ca˜o fornecidos pelos m´etodos propostos usando conjuntos de dados artificiais de intervalos. Al´em disso, s˜ao apresentados os resultados de testes t-Student comparando os m´etodos n˜ao adaptativos com os adaptativos. Na segunda parte (se¸ca˜o 6.3), ´e descrita a aplica¸ca˜o dos m´etodos propostos com um conjunto de dados reais.. Cap´ıtulo 7 Conclus˜ oes e Futuros Trabalhos Neste cap´ıtulo, ser˜ao mostradas as conclus˜oes e considera¸co˜es finais desta tese, bem como os futuros trabalhos que poder˜ao ser realizados a partir das id´eias aqui apresen-.

(19) ˜ o da tese 1.3 organizac ¸a. 6. tadas.. Apˆ endices Nos apˆendices A e B s˜ao apresentados, respectivamente, os estudos das propriedades dos algoritmos de nuvens dinˆamicas n˜ao adaptativo e adaptativo. Nos apˆendices C, D, E e F s˜ao expostos as demonstra¸co˜es das proposi¸co˜es 5.2.1, 5.2.2, 5.2.3 e 5.2.4..

(20) CAP´ITULO 2. ´ ´ ANALISE DE DADOS SIMBOLICOS (SDA). ˜ INTRODUC ¸ AO. 2.1. Os progressos recentes nas tecnologias das ciˆencias da informa¸ca˜o tˆem permitido o armazenamento de vastos conjuntos de dados em todos os dom´ınios da atividade humana. Atualmente, assiste-se ao surgimento de diferentes abordagens para descobrir regularidades, simplificar ou extrair conhecimentos e as informa¸co˜es armazenadas nesses grandes conjuntos de dados. Este processo de extrair conhecimentos em grandes bases de dados ´e comumente conhecido como Minera¸ca˜o de Dados. Um dos objetivos principais das t´ecnicas minera¸ca˜o de dados ´e extrair valiosas informa¸co˜es que est˜ao presentes nos dados originais mas que ficam ocultas devido ao grande volume de informa¸ca˜o. A an´alise de dados simb´olicos (SDA) inicialmente consiste em construir automaticamente grupos homogˆeneos de oberva¸co˜es a partir de grandes conjuntos de dados definindo assim novas unidades, chamadas de dados simb´olicos, que descrevem esses grupos [BD00]. A obten¸ca˜o desses dados simb´olicos deve conservar o m´aximo de informa¸co˜es, ao mesmo tempo em que reduz consideravelmente a tabela de dados inicial. O resultado disso s˜ao novas tabelas de dados, chamadas de ”tabelas de dados simb´olicos”, de estrutura mais complexa, pois cada uma das c´elulas dessas tabelas n˜ao necessariamente cont´em, como usualmente, um valor simples quantitativo ou qualitativo, mas pode conter informa¸co˜es complexas tais como subconjuntos, intervalos, fun¸co˜es de diferentes semˆanticas (probabilista, possibilista, credibilista, etc.) ligadas eventualmente por dependˆencias e taxonomias. SDA surge como uma alternativa para minerar dados presentes em uma tabela de dados simb´olicos. As colunas destas tabelas s˜ao vari´aveis simb´olicas, usadas para descrever os objetos, e as linhas s˜ao chamadas de ”descri¸co˜es simb´olicas”desses objetos, pois 7.

(21) ´ rico 2.2 um breve histo. 8. elas n˜ao s˜ao vetores de valores quantitativos ou categ´oricos simples, como ´e usual. Os objetos dessa tabela podem descrever indiv´ıduos (observa¸co˜es individuais), levando ou n˜ao em conta a imprecis˜ao ou a incerteza, ou podem descrever ´ıtens mais complexos, tais como grupos de indiv´ıduos. Billard e Diday ([BD03]) atestam o crescimento de dados de natureza simb´olica e alertam a necessidade do desenvolvimento de novas metodologias estat´ısticas para o tratamento de informa¸co˜es dessa natureza.. Al´em disso, com rela¸ca˜o aos poucos. m´etodos estat´ısticos dispon´ıveis, faz-se necess´ario o estabelecimento de um maior suporte matem´atico e estat´ıstico a esses m´etodos, tais como: verifica¸ca˜o de propriedades estat´ısticas, estima¸ca˜o de erros padr˜ao e distribui¸co˜es te´oricas, entre outros. Na se¸ca˜o 2.2, ´e apresentado um breve hist´orico da an´alise de dados simb´olicos. Na se¸ca˜o 2.3, s˜ao expostos as tabelas de dados simb´olicos e o formalismo dos objetos simb´olicos. Na se¸ca˜o 2.4, s˜ao citados alguns trabalhos desenvolvidos no quadro da an´alise de dados simb´olicos.. 2.2. ´ UM BREVE HISTORICO A an´alise de dados simb´olicos ([BD00]) surgiu, simultaneamente, da influˆencia de trˆes. a´reas: An´alise Explorat´oria de Dados ([Tuk58], [Boc74], [DLPT84], [Sap90], [LMW95]), Inteligˆencia Artificial ( [Mic73], [Win79], [Sow84]) e Taxonomia Num´erica [SS73] As primeiras tentativas de obter objetos simb´olicos de dados cl´assicos foram realizadas por Belson [Bel59], seguidos de Morgan e Sonquist [MS63], com o m´etodo AID (Automatic Interaction Detector). Os primeiros algoritmos, chamados de ”Conceptual Clustering”, foram apresentados por Diday, Govaert e Lechevalier [DGL80] e Michasky, Stepp e Diday [MSD81]. SDA constitui uma extens˜ao de alguns m´etodos utilizados para an´alise de dados cl´assicos. Os primeiros trabalhos com os princ´ıpios b´asicos da abordagem simb´olica apareceram no final dos anos 80 ( [Did87] , [Did89])) e desde ent˜ao v´arios outros trabalhos foram realizados em diversas dire¸co˜es. Bock e Diday [BD00] apresentam de maneira s´olida os principais conceitos da an´alise de dados simb´olicos e os principais m´etodos.

(22) ´ rico 2.2 um breve histo. 9. estat´ısticos desenvolvidos para manipular dados desta natureza. Os dados simb´olicos podem ser obtidos em uma das seguintes maneiras: • pela aplica¸ca˜o de um algoritmo de classifica¸ca˜o n˜ao supervisionada para simplificar grandes conjuntos de dados e descrever, de uma maneira auto-explicativa as classes associadas aos grupos obtidos; • como resultado da descri¸ca˜o de conceitos por especialistas; • a partir de bases de dados relacionais para estudar conjuntos de unidades cuja descri¸ca˜o necessita a fus˜ao eventual de varias rela¸co˜es. Com os avan¸cos das tecnologias da informa¸ca˜o tem sido comum, por exemplo, encontrar registros de intervalos em base de dados de aplica¸co˜es oriundas de diversos lugares. Abaixo ´e apresentada parte de uma tabela de dados simb´olicos reais onde os dados foram coletados na China. Nesta tabela as linhas s˜ao esta¸co˜es na China e as colunas s˜ao vari´aveis do tipo intervalo onde cada uma cont´em as temperaturas m´ınima e m´axima registradas mensalmente em 60 esta¸co˜es na China (ver http://dss.ucar.edu/datasets/ds578. 5/data/). Tabela 2.1. Temperaturas m´ınima e m´axima registradas na China. Esta¸co˜es. Temperatura ([min : max]) - Ano 1998 Janeiro. Fevereiro .... Novembro. Dezembro. AnQing. [1.8 : 7.1]. [2.1 : 7.2]. .... [7.8 : 17.9]. [4.3 : 11.8]. .... .... .... .... .... .... ZhiJiang. [2.7 : 8.4]. [2.7 : 8.7]. .... [8.2 : 20]. [5.1 : 13.3]. Uma vez obtida uma tabela deste tipo, a fase seguinte consiste em analisar, classificar, resumir e visualizar as informa¸co˜es contidas nesta tabela. Para minerar esses dados, SDA tem desenvolvido uma metodologia que ´e uma extens˜ao das ferramentas usuais de extra¸ca˜o de conhecimentos para dados simb´olicos..

(23) ´ licos e os objetos simbo ´ licos 2.3 tabelas de dados simbo. 10. ´ ´ TABELAS DE DADOS SIMBOLICOS E OS OBJETOS SIMBOLICOS. 2.3. Os objetos simb´olicos foram introduzidos ([Did89]) com o objetivo de estender os objetos da an´alise de dados usuais, fornecendo, assim, uma representa¸ca˜o multivariada de dados complexos dispostos em um novo tipo de tabela chamada de tabela de dados simb´olicos. Esta se¸ca˜o inicia apresentando as tabelas de dados simb´olicos e em seguida ´e descrito o formalismo dos objetos simb´olicos.. 2.3.1. Tabelas de Dados Simb´ olicos. Os dados simb´olicos s˜ao informa¸co˜es complexas, definidas conforme o tipo de vari´avel que descreve os objetos. Uma vari´avel simb´olica ´e uma fun¸ca˜o que associa, a cada elemento do conjunto de objetos, uma descri¸ca˜o pertencente ao conjunto de descri¸co˜es. As vari´aveis simb´olicas s˜ao diferentes das vari´aveis usuais, pois estas vari´aveis podem assumir diferentes valores, como por exemplo, conjuntos de categorias ou valores, intervalos, histogramas, ou distribui¸co˜es de probabilidades. Maiores detalhes sobre os tipos de vari´aveis usuais e simb´olicas s˜ao encontrados, respectivamente, nas se¸co˜es 3.3.1 e 3.3.2 do Cap´ıtulo 3. Conforme foi citado, os dados simb´olicos podem descrever indiv´ıduos, levando em conta ou n˜ao a imprecis˜ao ou a incerteza, ou podem descrever ´ıtens mais complexos, tais como grupos de indiv´ıduos. Abaixo est˜ao alguns exemplos de dados simb´olicos para indiv´ıduos (objetos de primeira ordem) e classes de indiv´ıduos (objetos de segunda ordem): • Considere Y uma vari´avel simb´olica que descreve o tempo de estudo di´ario de um indiv´ıduo. A descri¸ca˜o de um indiv´ıduo k pode ser: Y (k) = [0, 6] (em horas) ou Y (k) = (Y (k) ≤ 1(0, 6); Y (k) > 1(0, 4)). • Considere Y uma vari´avel simb´olica que descreve as institui¸co˜es banc´arias existentes em uma cidade (classes de indiv´ıduos). A descri¸ca˜o de uma cidade k pode ser: Y (k) = {Banco do Brasil, Caixa, Ita´ u, Bradesco}. Em uma tabela de dados simb´olicos, as linhas correspondem os indiv´ıduos ou classes.

(24) ´ licos e os objetos simbo ´ licos 2.3 tabelas de dados simbo. 11. de indiv´ıduos e as colunas s˜ao vari´aveis simb´olicas que descrevem os indiv´ıduos ou classes de indiv´ıduos. Na Tabela 6.1 ´e apresentado um exemplo de uma tabela de dados simb´olicos onde as linhas s˜ao classes de indiv´ıduos e as colunas s˜ao trˆes vari´aveis simb´olicas: peso (expresso por um intervalo), marca de autom´ovel (expresso por um conjunto de categorias) e por u ´ltimo fumante (expresso por uma distribui¸ca˜o de pesos). Tabela 2.2. Uma tabela de dados simb´olicos. ID. Peso. Marca de. Fumante. Autom´ovel. 2.3.2. 1. [58, 8 : 70, 1]. 2. [65, 6 : 84, 2]. 3. [49, 4 : 55, 3]. Ford, Fiat. 3/4 sim, 1/4 n˜ao. Ford, Fiat, GM 1/6 sim, 5/6 n˜ao Ford, GM. 4/5 sim, 1/5 n˜ao. Objetos Simb´ olicos. S˜ao definidos dois tipos de objetos simb´olicos: booleano e modal.. 2.3.2.1. Objeto Simb´ olico Booleano Sejam E um conjunto de objetos, u ∈ E, D. o conjunto de descri¸co˜es expressas por um conjunto de valores discretos ou um intervalo, Y = (Y1 , . . . , Yp )T um vetor de vari´aveis definido por uma fun¸ca˜o de E → D que associa cada u a uma descri¸ca˜o d ∈ D, e R uma rela¸ca˜o de compara¸ca˜o definida em D. Denote [d0 Rd] ∈ L = {0, 1} o resultado da compara¸ca˜o entre duas descri¸co˜es d e d0 , onde L = 1 significa que d e d0 est˜ao conectados atrav´es de R. Um objeto simb´olico booleano ´e formalmente definido como uma tripla s = (a, R, d) onde R ´e uma rela¸ca˜o, entre descri¸co˜es, d ´e uma descri¸ca˜o e a ´e uma fun¸ca˜o (booleana) as : E → L com as (u) = ∧pj=1 [yj (u)Rdj ] = 1 se e somente se [yj (u)Rdj ] = 1 para (j = 1, . . . , p) . A extens˜ao de s ´e definida como Ext(s) = {u ∈ E/as (u) = 1} ([BD00]). Exemplo 1: Seja s = (a, R, d) um objeto simb´olico, onde Y = (Y1 = altura, Y2 = peso), d = [[140, 1.60], [50, 60]], R uma rela¸ca˜o de pertinˆencia (isto ´e ∈) ent˜ao a ( u) = [altura(u) ∈ [140, 1.60]] ∧ peso(u) ∈ [50, 60]]. Um indiv´ıduo u ´e tal que a(w) = 1 se e.

(25) ´ licos e os objetos simbo ´ licos 2.3 tabelas de dados simbo. 12. somente a sua altura estiver entre 140 e 160 e, o seu peso estiver entre 50 e 60. Para representar o conhecimento usando objetos simb´olicos, podem ser levado em considera¸ca˜o dependˆencias entre as vari´aveis, que s˜ao expressas atrav´es de regras. S˜ao adotados dois tipos de dependˆencias ( [dC98]): 1) Hier´arquica: Uma vari´avel Y pode tornar-se inaplic´avel se outra vari´avel Z assume valores em um determinado subconjunto Sz . Por exemplo, seja um objeto simb´olico booleano a = [sexo ∈ {M, F }] ∧ [parto ∈ {sim,n˜ao}] a dependˆencia hier´arquica ´e expressa pelas regras r1 : se [sexo = M ] ent˜ ao [parto = N A]] e r2 : se [parto = N A] ent˜ ao [sexo = M ] onde NA significa n˜ao aplic´avel. 2) L´ogica: Um subconjunto Sy dos poss´ıveis valores de uma vari´avel Y , pode estar em correspondˆencia com o subconjunto dos poss´ıveis valores da vari´avel Z. Por exemplo, seja um objeto simb´olico booleano a = [idade ∈ [30, 50]] ∧ [altura ∈ [150, 165]] a dependˆencia l´ogica ´e expressa pela regra r : se [idade ∈ [40, 45]] ent˜ ao [altura ∈ [155, 160]]. Foram introduzidos quatro opera¸co˜es entre objetos simb´olicos booleanos que s˜ao: jun¸ca˜o, uni˜ao, conjun¸ca˜o e disjun¸ca˜o. O exemplo abaixo apresenta algumas opera¸co˜es simb´olicas que podem ser realizadas entre dois objetos booleanos. Exemplo 2. Sejam s1 = (a1 , R, d1 ) e s2 = (a2 , R, d2 ) dois objetos simb´olicos onde onde y(u) = [altura(u), peso(u)], d1 = [[120, 1.40], [20, 40]], d2 = [[150, 170], [50, 70]], e R uma rela¸ca˜o de pertinˆencia. • A jun¸ca˜o entre s1 e s2 , denotada por s1 ⊕ s2 , resulta no objeto s3 = (a3 , R, d3 ) onde d3 = [[120, 1.70], [20, 70]]. • A uni˜ao entre s1 e s2 , denotada por s1 ∪ s2 , resulta no objeto s3 = (a3 , R, d3 ) onde d3 = [[120, 140] ∪ [150, 1.70], [20, 40] ∪ [50, 70]]. • A disjun¸ca˜o entre s1 e s2 , denotada por s1 ∨ s2 , resulta no objeto s3 = (a3 , R, d3 ) onde d3 = [[120, 1.40], [20, 40]] ∨ [[150, 170], [50, 70]]..

(26) ´ licos e os objetos simbo ´ licos 2.3 tabelas de dados simbo. 13. • A conjun¸ca˜o entre s1 e s2 , denotada por s1 ∧ s2 , resulta no objeto s3 = (a3 , R, d3 ) onde d3 = [[120, 1.40] ∧ [150, 170], [20, 40] ∧ [50, 70]]. A Figuras 2.1 (a) e (b) ilustram, respectivamente, as opera¸co˜es jun¸ca˜o e uni˜ao entre dois objetos booleanos quaisquer, s = (a, R, d) e s0 = (a, R, d0 ).. Figura 2.1. Opera¸co˜es de jun¸ca˜o e uni˜ao entre dados simb´olicos. A Figuras 2.2 (a) e (b) exemplificam, respectivamente, as opera¸co˜es disjun¸ca˜o e conjun¸ca˜o entre os objetos booleanos s e s0 .. Figura 2.2. Opera¸co˜es de disjun¸ca˜o e conjun¸ca˜o entre dados simb´olicos. Em [dC95], foi introduzida uma medida positiva para objetos simb´olicos. Esta medida representa o volume do produto cartesiano formado pelas descri¸co˜es das entidades que satisfazem, potencialmente, a`s descri¸co˜es definidas por um objeto. Seja s = (a, R, d) um objeto simb´olico onde R ´e uma rela¸ca˜o de pertinˆencia, d ´e uma descri¸ca˜o e as (u) = ∧pj=1 [yj (u)Rdj ]. O potencial de descri¸ca˜o de s ´e definido por: π(d) =. p Y. j=1. µ(dj ). (.).

(27) ´ licos e os objetos simbo ´ licos 2.3 tabelas de dados simbo. 14. onde µ(dj ) ´e o cardinal de dj , se dj for um conjunto e µ(dj ) ´e a amplitude de dj , se dj for um intervalo. Exemplo 3. Seja s o objeto simb´olico do Exemplo 1, ent˜ao o potencial de s ´e dado por π(d) = (160 − 140) × (60 − 50) = 200. 2.3.2.2. Objeto Simb´ olico Modal Sejam E um conjunto de entidades, u ∈ E, D. o conjunto de descri¸co˜es expressas por medidas de pondera¸ca˜o ou distribui¸ca˜o, Y = (Y1 , . . . , Yp )T um vetor de vari´aveis definido por uma fun¸ca˜o de E → D que associa cada u a uma descri¸ca˜o d ∈ D, e Φ uma rela¸ca˜o de compara¸ca˜o definida em D. Denote [d0 Φd] ∈ L = [0, 1] o resultado da compara¸ca˜o entre duas descri¸co˜es d e d0 . Um objeto simb´olico modal ´e formalmente definido como uma tripla s = (a, Φ, d) onde Φ ´e uma rela¸ca˜o nebulosa entre descri¸co˜es, d ´e uma descri¸ca˜o e a ´e uma fun¸ca˜o definida de E em L. A extens˜ao de s ´e definida como Extα (s) = u ∈ E|as (u) > α onde α ´e um limiar ∈ [0, 1]. Exemplo 4: Considere s = (a, Φ, d) um objeto modal onde [d0 Φd] = f ({[yj (u)Φ dj ] }j=1,...,p ) =. Q. 0 j=1,p [dj Φdj ].. Sejam dj = r e d0j = q duas distribui¸co˜es de probabilidade. discretas, associadas em <p e Φ definida da seguinte forma: rΦq =. Pp. j=1 rj. qj e−min{rj ,qj } .. Se p = 2 e d = [{(0.2)12, (0.8)[20, 28]}, {(0.4)F, (0.60)M }] ent˜ao um objeto simb´olico modal pode ser definido como: a(u) = [idade(u)Φ{(0, 2)12, (0, 8)[20, 28]}] ∧ [sexo(u)Φ {(0, 4)F, (0, 6)M }]. Um grupo de indiv´ıduos (u) com d0 = [{(0, 3)12, (0, 7)[20, 28]}, {(0, 35 )F, (0, 65)M }] ent˜ao a fun¸ca˜o a(u) = (0, 06×1, 10517+0, 56)×(0, 14, +, 0, 39×1.0512) = 0, 344. Adotando um limiar α = 0, 5 tem-se que a(u) < 0, 5 logo u n˜ao faz parte de Ext(s). As opera¸co˜es entre objetos simb´olicos modais podem ser generaliza¸co˜es do tipo: m´aximo, m´ınimo e m´edia. Sejam s1 = (a1 , Φ, d1 ) e s2 = (a2 , Φ, d2 ) dois objetos modais onde y(ω) = [n´ıvel educacional(ω)], d1 = [(0, 3)B´asico, (0, 5)Fundamental, (0, 2)Superior] e d2 = [(0, 1)B´asico, (0, 8)Fundamental, (0, 1)Superior]. • A generaliza¸ca˜o pelo m´aximo entre os objetos s1 e s2 resulta no objeto s3 = s1 ∪s2 = (a3 , Φ, d3 ) onde d3 = [(0, 3)B´asico, (0, 8)Fundamental, (0, 2)Superior]..

(28) ˜ o da ana ´ lise simbo ´ lica de dados 2.4 evoluc ¸a. 15. • A generaliza¸ca˜o pelo m´ınimo entre os objetos s1 e s2 resulta no objeto s3 = s1 ∪s2 = (a3 , Φ, d3 ) onde d3 = [(0, 1)B´asico, (0, 5)Fundamental, (0, 1)Superior]. • A generaliza¸ca˜o pela m´edia entre os objetos s1 e s2 resulta no objeto s3 = s1 ∪ s2 = (a3 , Φ, d3 ) onde d3 = [(0, 2)B´asico, (0, 65)Fundamental, (0, 15)Superior]. ˜ DA ANALISE ´ ´ EVOLUC ¸ AO SIMBOLICA DE DADOS. 2.4. Esta se¸ca˜o apresenta uma descri¸ca˜o de alguns trabalhos de SDA nas a´reas de: an´alise fatorial, medidas de similaridade e dissimilaridade, sele¸ca˜o de vari´aveis, estat´ısticas descritivas e classifica¸ca˜o supervisionada.. 2.4.1. An´ alise Fatorial. Cazes, et al ( [PCCDS97]) introduziram um m´etodo geom´etrico de classifica¸ca˜o n˜ao supervisionada (analise de componentes principais) em que os indiv´ıduos s˜ao descritos por vetores de intervalos num´ericos. Na mesma dire¸ca˜o, Verde e De Carvalho ( [VdC98]) desenvolveram uma abordagem para levar em conta regras de dependˆencias entre as vari´aveis descritoras quando da utiliza¸ca˜o de um m´etodo de classifica¸ca˜o geom´etrica n˜ao supervisionada. Nagabhushan e Gowda ([NG95]) apresentaram uma outra abordagem para a redu¸ca˜o de dimensionalidade para dados simb´olicos;. 2.4.2. Medidas de similaridade e dissimilaridade. Na literatura de SDA, tem sido propostas diversas medidas de dissimilaridade: Gowda e Diday ([GD91a]) apresentaram uma nova medida considerando posi¸ca˜o, extens˜ao e conte´ udo dos objetos. Ichino e Yaguchi ([IY94]) propuseram uma generaliza¸ca˜o da m´etrica de Minkowski para dados complexos. De Carvalho ([dC94]) introduziu medidas de proximidade inspiradas na combina¸ca˜o dos ´ındices de vari´aveis binarias como uma fun¸ca˜o de compara¸ca˜o com a m´etrica de Minkowsky como fun¸ca˜o de agrega¸ca˜o, levando em conta regras de dependˆencias entre vari´aveis. De Carvalho ([dC98]) propˆos uma fam´ılia de medidas que utiliza apenas fun¸co˜es de.

(29) ˜ o da ana ´ lise simbo ´ lica de dados 2.4 evoluc ¸a. 16. compara¸ca˜o baseadas no potencial de descri¸ca˜o global. De Carvalho e Souza ( [dCdS98a]) apresentaram uma extens˜ao da medida de Ichino e Yaguchi ( [IY94]) onde s˜ao introduzidas dependˆencias l´ogicas entre as vari´aveis e De Carvalho e Souza ([dCdS98b]) combinam histogramas e dependˆencias l´ogicas para definir medidas de proximidade dependentes do contexto.. 2.4.3. Sele¸c˜ ao de vari´ aveis. Ichino ([Ich81]) apresentou um m´etodo de sele¸ca˜o de vari´aveis n˜ao param´etrico aplic´avel para problemas de reconhecimento padr˜oes baseado em informa¸co˜es estat´ısticas sobre a estrutura interclasse. Ichino ([IS84]) tamb´em propos um m´etodo onde a sele¸ca˜o de vari´aveis ´e representada por um problema de programa¸ca˜o inteira zero-um. Nos anos seguintes ele generalizou os seus m´etodos para tratar vari´aveis simb´olicas ([IY94]). Vignes ([Vig91]) desenvolveu uma outra abordagem para a sele¸ca˜o de vari´aveis simb´olicas booleanas que foi estendido por Ziani ([Zia96]) para levar em conta regras de dependˆencia entre esse tipo de vari´avel;. 2.4.4. Estat´ısticas descritivas. De Carvalho ([dC95]) introduziu a no¸ca˜o de histogramas para dados simb´olicos booleanos. Bertrand e Goupil ([B00]) introduziram m´etodos para calcular a distribui¸ca˜o de freq¨ uˆencia para uma vari´avel simb´olica e estenderam, para cada esse tipo de vari´avel, os conceitos de m´edia, desvio padr˜ao e mediana. Recentemente, Billard e Diday ([BD02]) estenderam os conceitos de fun¸ca˜o de correla¸ca˜o e covariˆancia, proporcionando a obten¸ca˜o de uma equa¸ca˜o de regress˜ao linear m´ ultipla para dados simb´olicos de natureza intervalar.. 2.4.5. Classifica¸c˜ ao supervisionada. Rasson e Lissoir ([RL98]) utilizaram uma fun¸ca˜o de Kernel para medir a concentra¸ca˜o de dados simb´olicos e solucionar problemas de discrimina¸ca˜o. Ichino ([Ich79]).

(30) ˜ o da ana ´ lise simbo ´ lica de dados 2.4 evoluc ¸a. 17. definiu um algoritmo que gera hiperetˆangulos, baseado no operador jun¸ca˜o, para descrever classes de exemplos e classificar novas observa¸co˜es. Posteriormente Ichino ([Ich81]) apresentou uma adapta¸ca˜o desse m´etodo para tratar mistura de vari´aveis. Para tratar dados simb´olicos Ichino ([Ich86]) generalizou os seus m´etodos atrav´es de um formalismo que denominou de ”cartesian join system”e definiu o chamado Grafo de Vizinhos M´ utuos (MNG- Mutual Neighborhood Graph) que permite alcan¸car uma boa discrimina¸ca˜o das classes de exemplos. Recentemente Ichino ([IY98]) apresentou um classificador simb´olico baseado em uma abordagem cujo objetivo ´e encontrar representantes das classes de exemplos e introduzir um medida de similaridade entre cos representantes e as novas observa¸co˜es a classificar. Souza ([dS99], [dSdCAC99]) apresentou uma modifica¸ca˜o do algoritmo de Ichino ([IY98]) e aplicou esse m´etodo para imagens SAR (Synthetic Aperture Radar)..

(31) CAP´ITULO 3. ´ ANALISE DE CLUSTER. 3.1. ˜ INTRODUC ¸ AO O objetivo principal de uma an´alise explorat´oria ´e extrair informa¸co˜es dos dados,. estabelecendo rela¸co˜es entre os objetos e as vari´aveis do conjunto a ser analisado. A an´alise explorat´oria permite que, a partir das rela¸co˜es observadas nos dados, sejam levantadas hip´oteses e propostos modelos visando a descoberta de padr˜oes. A classifica¸ca˜o n˜ao supervisionada, tamb´em conhecida como an´alise de agrupamento, ´e uma t´ecnica explorat´oria multivariada que se prop˜oe a encontrar classes homogˆeneas a partir de um conjunto de objetos (indiv´ıduos). A an´alise de agrupamento tem sido aplicada em v´arias a´reas incluindo reconhecimento padr˜ao, segmenta¸ca˜o de imagem, minera¸ca˜o de dados e recupera¸ca˜o de informa¸ca˜o. Alguns exemplos t´ıpicos de aplica¸co˜es de agrupamento s˜ao: em Marketing, para ajudar os profissionais a descobrir grupos de clientes e usar este conhecimento para orientar as campanhas publicit´arias; em atividades de seguro, identificando grupos de segurado com o custo m´edio elevado de reembolso, e em planejamento urbano, identificando grupos de habita¸ca˜o segundo o tipo, o valor e a localiza¸ca˜o geogr´afica ([HK01]). Os principais objetivos da classifica¸ca˜o s˜ao: simplifica¸ca˜o e predi¸ca˜o dos dados. Os m´etodos de cluster s˜ao capazes de organizar grandes conjuntos de dados em estruturas de classes que permitem simplificar as informa¸co˜es contidas nos dados e facilitar a associa¸ca˜o de novos objetos. Estas informa¸co˜es simplificadas podem tamb´em ser usadas para fazer predi¸co˜es e tamb´em gerar hip´oteses com bases nos grupos formados. O resultado de um m´etodo de cluster ´e, usualmente, uma parti¸ca˜o de um conjunto de objetos em grupos ou classes de maneira que os elementos dentro de um grupo tˆem um alto grau de similaridade e os elementos pertencentes a grupos diferentes tˆem um 18.

(32) ˜o 3.1 introduc ¸a. 19. alto grau de dissimilaridade. Neste contexto, uma boa aplica¸ca˜o de cluster requer que o m´etodo usado forne¸ca um agrupamento com alta similaridade intra-grupos (classes coesas) e alta dissimilaridade inter-grupos (classes isoladas). A Figura 3.1 ilustra os conceitos de coes˜ao interna e isolamento externo. Nesta figura, (a) significa grupos coesos e isolados, (b) grupos isolados mas n˜ao coesos, (c) grupos coesos com v´arios pontos intermedi´arios e (d) n˜ao existˆencia de grupos naturais.. Figura 3.1. Coes˜ao e Isolamento. Tradicionalmente, um procedimento de cluster envolve as seguintes etapas: representa¸ca˜o dos objetos, defini¸ca˜o de uma medida de proximidade para comparar os objetos, sele¸ca˜o de um m´etodo de agrupamento e valida¸ca˜o dos resultados. A Figura 3.2 mostra as etapas de forma¸ca˜o de agrupamentos.. Figura 3.2. Etapas da an´alise de cluster. A etapa de representa¸ca˜o dos objetos identifica os indiv´ıduos que ser˜ao agrupados e as vari´aveis que descrevem esses indiv´ıduos. A sa´ıda desta etapa ´e uma matriz de dados onde as linhas s˜ao os indiv´ıduos e as colunas s˜ao as vari´aveis. Al´em disso, mais trˆes elementos podem ser acrescentados nesta etapa, se for necess´ario: normaliza¸ca˜o dos dados, e sele¸ca˜o e extra¸ca˜o de vari´aveis. A normaliza¸ca˜o visa atenuar o efeitos de.

(33) ´ lise de cluster para dados usuais 3.2 ana. 20. diferentes medidas de escalas. A sele¸ca˜o de vari´aveis objetiva reduzir o conjunto de vari´aveis. A extra¸ca˜o de vari´aveis identifica a forma¸ca˜o de novas vari´aveis a partir das vari´aveis originais. A etapa de investiga¸ca˜o de proximidades consiste em considerar uma medida de distˆancia para medir a proximidade entre os objetos e, segundo o tipo de vari´avel diferentes medidas de dissimilaridade ou similaridade s˜ao encontradas na literatura ([JD88]). A sa´ıda desta etapa ´e uma matriz de proximidades onde as coordenadas representam as proximidade entre pares de objetos da matriz de dados definida na etapa de representa¸ca˜o. A etapa de agrupamento inicia com a sele¸ca˜o do m´etodo de agrupamento. Para isto existem v´arias abordagens de classifica¸ca˜o, por exemplo: t´ecnicas hier´arquicas, de parti¸ca˜o, agrupamento conceitual e mapas de kohonen. A sa´ıda desta etapa ´e o agrupamento de objetos similares (clusters) fornecido pelo m´etodo selecionado. A etapa final refere a uma avalia¸ca˜o quantitativa dos resultados do agrupamento. Esta avalia¸ca˜o pode ser baseada em ´ındices de valida¸ca˜o externo e interno. Um ´ındice externo ´e usado para comparar a estrutura de classes obtida por um agrupamento com uma estrutura definida a priori e um ´ındice externo determina se a estrutura do agrupamento est´a apropriada aos dados. Al´em disso, testes de hip´oteses no quadro de uma experiˆencia Monte Carlo podem ser utilizados para comparar duas estruturas de classes ([JMF99]). O objetivo deste cap´ıtulo ´e expor os principais componentes de uma an´alise de cluster (representa¸ca˜o dos dados, medidas de proximidades e m´etodos de classifica¸ca˜o) para dados usuais e simb´olicos. Para isto, a se¸co˜es 3.2 e 3.3 apresentam, respectivamente, o tratamento para os dados cl´assicos e os dados simb´olicos.. 3.2. ´ ANALISE DE CLUSTER PARA DADOS USUAIS Seja um conjunto Ω = {ω1 , . . . , ωn } de n objetos para serem agrupados.. Seja. {Y1 , . . . , Yp } um conjunto de p vari´aveis que descrevem os objetos. Uma vari´avel Y ´e uma fun¸ca˜o que associa para cada objeto ω ∈ Ω um resultado da realiza¸ca˜o de uma.

(34) ´ lise de cluster para dados usuais 3.2 ana. 21. caracter´ıstica observada Y (ω) = x. Cada objeto ωi (i = 1, . . . , n) ´e representado por um vetor de caracter´ısticas x = (x1i , . . . , xpi ) onde xji ´e o resultado da realiza¸ca˜o da caracter´ıstica j observada no objeto ωi . Uma matriz de dados ´e uma matriz com n linhas e p colunas onde as linhas s˜ao os objetos e as colunas s˜ao as vari´aveis que descrevem estes objetos. . Xn×p.       =      . . x11 . . . xj1 . . . xp1  .. .. .. .. ..   . . . . .  . xpi . . . xpi . . . xpi    .. .. .. .. ..  . . . . .   . x1n . . . xjn . . . xpn. . Os dados de entrada de uma an´alise explorat´oria s˜ao classificados de acordo com os seguintes tipos de vari´aveis.. 3.2.1. Tipos de Vari´ aveis. Os objetos a serem agrupados podem representar indiv´ıduos, esp´ecies de animais, documentos, pa´ıses, etc. em diferentes aplica¸co˜es e as vari´aveis que descrevem cada indiv´ıduo podem ser qualitativas ou quantitativas. Por exemplo, se peso e cor s˜ao as vari´aveis usadas para descrever um objeto, o vetor x = (50, preta) ´e a representa¸ca˜o deste objeto que tem 50 kilos e cor preta. Seja O o conjunto de poss´ıveis resultados (dom´ınio) de uma vari´avel. Uma vari´avel ´e qualitativa o seu dom´ınio ´e um conjunto finito e os elementos deste conjunto s˜ao categorias. Uma vari´avel ´e quantitativa se o seu dom´ınio ´e o conjunto de n´ umeros reais < ou O ⊆ <. As vari´aveis qualitativas e quantitativas s˜ao subdividias nos seguintes tipos [BD00]: (1) Qualitativas: a) nominal (exemplo, cor de um carro); b) ordinal (exemplo, temperatura da a´gua com O = {f ria, moderada, quente})..

(35) ´ lise de cluster para dados usuais 3.2 ana. 22. (2) Quantitativas: a) discretas (exemplo, n´ umero de computadores); b) cont´ınuas (exemplo, peso de um adulto).. 3.2.1.1. Vari´ aveis Qualitativas Uma vari´avel ´e qualitativa nominal se o seu dom´ınio. O ´e finito e sem significado num´erico onde n˜ao existe nenhuma ordena¸ca˜o entre os seus elementos. Exemplo: a marca de um carro com O = {F ord, P egeut, F iat}. Quando o dom´ınio destas vari´aveis tem somente duas categorias que, usualmente s˜ao codificadas como 0 ou 1: O = {0, 1}, estas vari´aveis s˜ao chamadas de bin´ arias. Exemplo: sexo de um indiv´ıduo onde 0 significa feminino e 1 significa masculino. Uma vari´avel ´e qualitativa ordinal se o seu dom´ınio ´e finito e para cada par de objetos a, b ∈ O existe um ordem linear entre eles a ≺ b ou b ≺ a. Exemplo: a qualidade de um produto com O = {pobre, regular, boa} onde pobre ≺ regular ≺ boa. Na pr´atica, existem situa¸co˜es onde os elementos de O tem uma ordena¸ca˜o generalizada no sentido que: (a) nem todo par de alternativas de a, b ∈ O pode ser comparado por ≺ (ordem parcial); (b) o sistema de pares ordenados a ≺ b pode ser desenhado segundo um diagrama de tipo hierarquia, reticulado ou rede tal que dois n´ıveis a, b verifica-se b ≺ a se e somente se existe uma sequˆencia de ramos conectados que liga a e b. Exemplo: Sejam Y o n´ıvel educacional de uma cidade e O = {es=escola elementar, ef=escola fundamental, pe=pedag´ogico, tc=t´ecnico, co=contabilidade, ci=cient´ıfico, un=universidade, it=instituto tecnol´ogico}. A Figura mostra uma rede descrevendo uma ordena¸ca˜o generalizada entre os elementos de O. Nesta figura, dois tipos de escola a, b conectados no sentido a → b significa que um aluno s´o ´e aceito no tipo de escola b (universidade) se ele conclui o estudo em uma escola do tipo a (escola fundamental)..

(36) ´ lise de cluster para dados usuais 3.2 ana. 23. Figura 3.3. Uma rede para as institui¸co˜es educacionais de uma cidade. 3.2.1.2. Vari´ aveis Quantitativas Uma vari´avel ´e quantitativa discreta se o seu. dom´ınio ´e um conjunto finito ou infinito enumer´avel de valores. Exemplo: n´ umero de acidentes no Recife O = {1, 2, . . .}.Uma vari´avel ´e quantitativa cont´ınua se o range de seus poss´ıveis valores formam um intervalo. Exemplo: altura (em cm) de um adulto com O = [1, 50; 2, 20] ⊆ <. Para atenuar os efeitos de diferentes medidas de escalas quantitativas, ´e conveniente padronizar as vari´aveis transformando as vari´aveis originais em novas unidades. Por exemplo dado uma vari´avel Yj a padroniza¸ca˜o pode ser definida como segue: 1. C´alculo do desvio absoluto m´edio, sj : sj =. 1 j (|x − mj | + . . . + |xjn − mj |) n 1. onde {xj1 , . . . , xjn } s˜ao n valores da vari´avel j e mj ´e a m´edia desta vari´avel. 2. C´alculo da normal padr˜ao, zj : zj =. 3.2.2. xij − mj sj. Medidas de Proximidades. As medidas de proximidade desempenham um papel importante na forma¸ca˜o de agrupamentos pois estas medidas permitem comparar pares de objetos baseando-se nas semelhan¸cas ou nas diferen¸cas existentes entre os mesmos. A proximidade para cada par.

(37) ´ lise de cluster para dados usuais 3.2 ana. 24. de objetos (ωi , ωk ) (i, k = 1, . . . , n) pode ser representada atrav´es de fun¸co˜es de similaridade s(i, k), medindo as semelhan¸cas entre i e k ou dissimilaridade d(i, k), medindo as diferen¸cas. Uma matriz de proximidades ´e uma matriz sim´etrica com n linhas e n colunas . Dn×n. . 0.     d(2, 1)   =  d(3, 1)   ..  .  . 0 d(3, 2) .. .. 0 .. .. d(n, 1) d(n, 2) . . . . . . 0.             . onde d(i, k) mede a proximidade entre dois objetos ik e k de um conjunto de dados Ω. Uma similaridade s ´e uma fun¸ca˜o s : Ω × Ω → R+ que satisfaz as seguintes propriedades para ∀ k, t, ∈ Ω (k, t, t = 1, . . . , n): 1. ∀k, t, ∈ Ω, s(k, t) ≥ 0. 2. ∀k ∈ Ω, s(k, k) ≥ maxt s(k, t). 3. ∀(k, t) ∈ Ω × Ω : s(k, t) = s(t, k). Uma dissimilaridade d ´e uma fun¸ca˜o d : Ω × Ω → R+ que satisfaz as seguintes propriedades para ∀ i, k, t ∈ Ω (i, k, t = 1, . . . , n): 1. ∀k, t, ∈ Ω, d(k, t) ≥ 0. 2. ∀k ∈ Ω, d(k, k) = 0. 3. ∀(k, t) ∈ Ω × Ω : d(k, t) = d(t, k). Seja ωi ∈ Ω. Uma distˆancia d ´e uma fun¸ca˜o de dissimilaridade que satisfaz tamb´em as propriedades 1. a 3. e tamb´em a propriedade desigualdade triangular: 4. ∀(k, t) ∈ Ω × Ω : d(k, t) ≤ d(k, i) + d(t, i) As proximidades entre pares de objetos s˜ao calculadas dependendo do tipo da vari´avel que descreve os objetos. Sejam xi = (x1i , . . . , xpi ) e xk = (x1k , . . . , xpk ) dois vetores pdimensionais descrevendo, respectivamente, os objetos i e k..

(38) ´ lise de cluster para dados usuais 3.2 ana 3.2.2.1. 25. Vari´ aveis Quantitativas Para este tipo de vari´avel as medidas de distˆancias. mais usuais s˜ao as m´etricas de Minkowski: distˆancia Euclidiana. d(i, k) =. q. ((x1i − x1k )2 + . . . + (xpi − xpk )2. (.). e distˆancia de Manhatan (ou City-Block) d(i, k) = |xi1 − xk1 | + . . . + |xpi − xpk |. 3.2.2.2. (.). Vari´ aveis Bin´ arias Para o par de objetos (i, k), cada um descrito por um. vetor de p vari´aveis bin´arias, onde xji,k = 0 indica ausˆencia da vari´avel j e xji,k = 1 indica presen¸ca. Considere a ´e o n´ umero de vari´aveis que assume o valor 1 para ambos os objetos i e k, b ´e n´ umero de vari´aveis que assume o valor 1 para o objeto i e o valor 0 para o objeto k, c ´e o n´ umero de vari´aveis que assume o valor 0 para o objeto i e o valor 1 para o objeto k e d ´e o n´ umero de vari´aveis que assume o valor 0 para ambos os objetos i e k. Existem diferentes medidas de similaridade e dissimilaridade entre dados bin´arios baseadas nos termos a, b, c e d. As medidas mais usuais s˜ao [Gor99]: 1. Coeficiente de matching de Sokal-Michener s(i, k) =. a+d p. (.). d(i, k) =. b+c p. (.). 2. Coeficiente de Jaccard. com s(i, k) = 1 e d(i, k) = 1 se a = b = c = 0.. 3.2.2.3. Vari´ aveis Qualitativas Para o par de objetos (i, k), cada um descrito por. um vetor de p vari´aveis nominais (n˜ao ordenadas), onde cj ´e o n´ umero de poss´ıveis categorias da vari´avel j..

(39) ´ lise de cluster para dados usuais 3.2 ana. 26. Seja δjlm um ´ındice de desacordo entre as categorias l e m da vari´avel j onde δjlm = 1 se l 6= m e δjll = 0 se l = m (l, m = 1, . . . , p). A dissimilaridade entre os objetos i e k em n´ıvel da vari´avel j (j = 1, . . . , p) ´e definida por dikj = δklm e a similaridade pode ser obtida por si,k,j = 1 − dikj . As medidas de dissimilaridade e similaridade global entre os objetos i e k podem ser dadas, respectivamente, pelos seguintes coeficientes de matching. d(i, k) =. Pp. s(i, k) =. Pp. j=1. dikj. p. j=1. sikj. p. (.). (.). Quando as vari´aveis qualitativas s˜ao do tipo ordinal, a dissimilaridade entre os objetos i e k poder ser calculada de maneira muito similar ao c´alculo para dados quantitativos. O procedimento consiste das seguintes etapas: 1. Para cada vari´avel j (j = 1, . . . , p) enumere as suas poss´ıveis categorias segundo a ordem existente entre as mesmas. Seja {1, . . . , mj } uma lista enumerada das categorias onde mj o n´ umero total de categorias da vari´avel j. Para os objetos i j e k, substitua cada categoria xji,k (i, k = 1, . . . , n) pelo seu respectivo n´ umero ri,k j onde ri,k ∈ {1, . . . , mj }.. 2. Dado que cada vari´avel tem um n´ umero diferente de categorias, uma normaliza¸ca˜o dos dados ´e necess´aria e isto pode ser realizado da seguinte forma:. j zi,k. j ri,k −1 = mj − 1. (.). com i, k = 1, . . . , n 3. A dissimilaridade entre os objetos i e k pode ser computada usando uma medida de distˆancia para dados quantitativos aplicada aos vetores de dados normalizados zji e zjk ..

(40) ´ lise de cluster para dados usuais 3.2 ana 3.2.2.4. 27. ´ comum os objetos de uma an´alise de dados serem deVari´ aveis mistas E. scritos por v´arios tipos de vari´aveis por exemplo, um indiv´ıduo tem como descri¸ca˜o idade=34 (vari´avel quantitativa), estado civil=casado (vari´avel nominal) e fumante=n˜ao (vari´avel bin´aria). Nestas situa¸co˜es, a proximidade entre os objetos i e k pode ser medida por: Pp. j=1 d(i, k) = P p. j j ωik dik. j=1. s(i, k) =. j ωik. Pp. j j j=1 ωik sik Pp j j=1 ωik. (.). (.). onde djik e sjik s˜ao, respectivamente, a dissimilaridade e similaridade calculada de acordo j com o tipo da vari´avel j e ωik ´e um peso atribu´ıdo a vari´avel j que ´e usualmente 1.. 3.2.3. M´ etodos de cluster. Diferentes abordagens tˆem sido propostas para agrupar dados. Em an´alise de dados distingui-se dois grandes grupos de m´etodos: hier´arquicos e de parti¸ca˜o ([Gor99], [Eve93] [JD88] e [JMF99]). Uma classifica¸ca˜o hier´arquica ´e uma sequˆencia de parti¸co˜es que pode iniciar com n classes unit´arias e terminar com uma u ´nica classe contendo todos os objetos. Uma classifica¸ca˜o de parti¸ca˜o ´e uma simples parti¸ca˜o de classes disjuntas As Figuras 3.4 (a) e (b) ilustram, respectivamente, as estruturas de classifica¸ca˜o hier´arquica e de parti¸ca˜o.. Figura 3.4. Estruturas de Classifica¸ca˜o.

Referências

Documentos relacionados

Our contributions are: a set of guidelines that provide meaning to the different modelling elements of SysML used during the design of systems; the individual formal semantics for

Como todos os outros seres humanos, o operador também é construtor da realidade e carrega consigo “experiências vividas, ideologias e valores que amoldam a sua

No sentido de reverter tal situação, a realização deste trabalho elaborado na disciplina de Prática enquanto Componente Curricular V (PeCC V), buscou proporcionar as

Os casos não previstos neste regulamento serão resolvidos em primeira instância pela coorde- nação do Prêmio Morena de Criação Publicitária e, em segunda instância, pelo

• Não há inflação de alimentos, há inflação, causada por choques cambiais, auxílio emergencial, problemas fiscais e má gestão de estoques públicos;. • O Brasil precisa

Os profissionais da medicina do trabalho que preenchem a ficha de aptidão do trabalhador, ao assinalarem se o trabalhador se encontra apto, apto condicionalmente

O CES é constituído por 54 itens, destinados a avaliar: (a) cinco tipos de crenças, a saber: (a1) Estatuto de Emprego - avalia até que ponto são favoráveis, as

O presente estudo foi desenvolvido com o objetivo de identificar como a elaboração de um plano de negócios pode contribuir na análise de decisão da instalação de uma farmácia