Métodos de cluster para intervalos usando algoritmos do tipo nuvens dinâmicas

Texto

(1)Universidade Federal de Pernambuco Centro de Informática. Pós-gradua¸cão em Ciência da Computa¸cão. ´ METODOS DE CLUSTER PARA INTERVALOS USANDO ALGORITMOS DO ˆ TIPO NUVENS DINAMICAS. Renata Maria Cardoso Rodrigues de Souza. TESE DE DOUTORADO. Recife 19 de dezembro de 2003.

(2) Universidade Federal de Pernambuco Centro de Informática. Renata Maria Cardoso Rodrigues de Souza. ´ METODOS DE CLUSTER PARA INTERVALOS USANDO ˆ ALGORITMOS DO TIPO NUVENS DINAMICAS. Trabalho apresentado ao Programa de P´ os-gradua¸ c˜ ao em Ciˆ encia da Computa¸ c˜ ao do Centro de Inform´ atica da Universidade Federal de Pernambuco como requisito parcial para oben¸ c˜ ao do grau de Doutor em Ciˆ encia da Computa¸ c˜ ao.. Orientador: Prof. Dr. Francisco de Assis T. de Carvalho. Recife 19 de dezembro de 2003.

(3) Dou gra¸ cas ao meu Senhor Jesus pela sua fidelidade durante a elabora¸ c˜ ao deste trabalho. A Ele toda a honra e toda a gl´ oria..

(4) RESUMO. A análise de dados simbólicos (Symbolic Data Analysis) é uma nova abordagem na a´rea de descoberta automática de conhecimentos que visa desenvolver métodos para dados descritos por varáveis onde existem conjuntos de categorias, intervalos ou distribui¸co˜es de probabilidade nas células das tabelas de dados. O objetivo deste trabalho é introduzir métodos de cluster para intervalos usando algoritmos de nuvens dinâmicas. Estes algoritmos consistem em obter, simultaneamente, uma parti¸caõ em classes e identificar um conjunto de representantes das classes minimizando um critério que mede a adequa¸caõ entre as classes e os protótipos. Os algoritmos de nuvens dinâmicas com distâncias adaptativas também encontram uma parti¸caõ e um conjunto de representantes minimizando uma fun¸caõ critério, mas em cada itera¸caõ existe uma distância diferente para comparar cada classe com o seu protótipo. A vantagem das distâncias adaptativas é que o algoritmo de agrupamento é capaz de reconhecer classes de formas e tamanhos diferentes. Neste trabalho, foi desenvolvido um método de nuvens dinâmicas usando a distância L1 para intervalos. Além deste método, foram também introduzidos três métodos com, respectivamente, as distâncias L1 , L2 e L∞ adaptativas para intervalos. Para validar os métodos, foram realizados experimentos com um conjunto de espécies de peixes e dois conjuntos de dados artificiais de intervalos com diferentes graus de dificuldade de classifica¸caõ. Os resultados fornecidos pelos métodos têm sido avaliados por um ´ındice externo na estrutura de uma experiência Monte Carlo e testes estat´ısticos evidenciam que o desempenho dos métodos adaptativos é superior ao dos métodos não adaptativos.. Palavras-chave:. Análise de Dados Simbólicos, Algoritmos de Nuvens Dinâmicas,. Dados de Tipo Intervalo, Distâncias Adaptativas.. iv.

(5) ABSTRACT. Symbolic Data Analysis (SDA) is a new domain in the area of knowledge discovery that aims to provide suitable methods for data described through multi-valued variables, where there are sets of categories, intervals, or weight (probability) distributions in the cells of the data tables. The main contribution of this paper is to introduce cluster methods for interval based on dynamical clustering algorithms. The dynamic cluster algorithms aims to obtain both a single partition into a fixed number of clusters and the identification of a suitable representation or prototype for each cluster by locally optimizing an criterion that measure the fitting between the clusters and their corresponding representation. The adaptive dynamic cluster algorithms also obtains a partition and a prototypes set by optimizing a criterion function, but at each iteration there is a different distance to the comparison of each cluster with its representation. The advantage of these adaptive distances is that the clustering algorithm is able to recognize clusters of different shapes and sizes. In this work, dynamical clustering method using a L1 distance for intervals was presented. Moreover, three methods with adaptive L1 , L2 e L∞ distances were also introduced. The experiments carried out with a fish interval data set and two artificial interval data sets with different degrees of clustering difficulty showed the usefulness of these clustering methods The accuracy of the results furnished by these clustering methods are assessed by an external index in the framework of a Monte Carlo experience. Statistic tests support the evidence that the adaptive methods outperform the non-adaptive methods.. Keywords: Symbolic Data Analysis, Dynamic cluster algorithm, Interval data, adaptive distances.. v.

(6) ´ CONTEUDO. Cap´ıtulo 1—Introdu¸c˜ ao. 1. 1.1. Motiva¸caõ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1. 1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3. 1.3. Organiza¸caõ da TESE . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. Cap´ıtulo 2—An´ alise de Dados Simb´ olicos (SDA). 7. 2.1. Introdu¸caõ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 2.2. Um breve histórico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 8. 2.3. Tabelas de Dados Simbólicos e os Objetos Simbólicos . . . . . . . . . . .. 10. 2.3.1. Tabelas de Dados Simbólicos . . . . . . . . . . . . . . . . . . . . .. 10. 2.3.2. Objetos Simbólicos . . . . . . . . . . . . . . . . . . . . . . . . . .. 11. 2.3.2.1. Objeto Simbólico Booleano . . . . . . . . . . . . . . . .. 11. 2.3.2.2. Objeto Simbólico Modal . . . . . . . . . . . . . . . . . .. 14. Evolu¸caõ da Análise Simbólica de Dados . . . . . . . . . . . . . . . . . .. 15. 2.4.1. Análise Fatorial . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 15. 2.4.2. Medidas de similaridade e dissimilaridade . . . . . . . . . . . . . .. 15. 2.4.3. Sele¸caõ de variáveis . . . . . . . . . . . . . . . . . . . . . . . . . .. 16. 2.4.4. Estat´ısticas descritivas . . . . . . . . . . . . . . . . . . . . . . . .. 16. 2.4.5. Classifica¸caõ supervisionada . . . . . . . . . . . . . . . . . . . . .. 16. 2.4. Cap´ıtulo 3—An´ alise de Cluster 3.1. 18. Introdu¸caõ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi. 18.

(7) ´ do conteu 3.2. Análise de Cluster para Dados Usuais . . . . . . . . . . . . . . . . . . . .. 20. 3.2.1. Tipos de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . .. 21. 3.2.1.1. Variáveis Qualitativas . . . . . . . . . . . . . . . . . . .. 22. 3.2.1.2. Variáveis Quantitativas . . . . . . . . . . . . . . . . . .. 23. Medidas de Proximidades . . . . . . . . . . . . . . . . . . . . . .. 23. 3.2.2.1. Variáveis Quantitativas . . . . . . . . . . . . . . . . . .. 25. 3.2.2.2. Variáveis Binárias . . . . . . . . . . . . . . . . . . . . .. 25. 3.2.2.3. Variáveis Qualitativas . . . . . . . . . . . . . . . . . . .. 25. 3.2.2.4. Variáveis mistas . . . . . . . . . . . . . . . . . . . . . .. 27. Métodos de cluster . . . . . . . . . . . . . . . . . . . . . . . . . .. 27. 3.2.3.1. Métodos de Parti¸caõ . . . . . . . . . . . . . . . . . . . .. 29. 3.2.3.2. Métodos Hierárquicos . . . . . . . . . . . . . . . . . . .. 30. Outros Métodos de Cluster . . . . . . . . . . . . . . . . . . . . . .. 31. 3.2.4.1. Redes Neurais . . . . . . . . . . . . . . . . . . . . . . . .. 32. 3.2.4.2. Métodos nebulosos . . . . . . . . . . . . . . . . . . . . .. 32. 3.2.4.3. Classifica¸caõ com Sobreposi¸caõ . . . . . . . . . . . . . .. 33. 3.2.4.4. Classifica¸caõ com Restri¸co˜es . . . . . . . . . . . . . . . .. 35. 3.2.4.5. Agrupamento Conceitual . . . . . . . . . . . . . . . . . .. 35. 3.2.2. 3.2.3. 3.2.4. 3.3. vii. Análise de Cluster para Dados Simbólicos 3.3.1. 3.3.2. 3.3.3. . . . . . . . . . . . . . . . . .. 36. Tipos de Variávies . . . . . . . . . . . . . . . . . . . . . . . . . .. 37. 3.3.1.1. Variáveis Não Modais . . . . . . . . . . . . . . . . . . .. 37. 3.3.1.2. Variáveis Modais . . . . . . . . . . . . . . . . . . . . . .. 38. Medidas de Proximidades . . . . . . . . . . . . . . . . . . . . . .. 39. 3.3.2.1. Abordagens para Variáveis Não Modais . . . . . . . . .. 39. 3.3.2.2. Uma Abordagem para Variáveis Modais . . . . . . . . .. 43. Métodos de cluster . . . . . . . . . . . . . . . . . . . . . . . . . .. 43. 3.3.3.1. Métodos de parti¸caõ . . . . . . . . . . . . . . . . . . . .. 43. 3.3.3.2. Métodos hieráquicos . . . . . . . . . . . . . . . . . . . .. 44. Cap´ıtulo 4—Algoritmos do tipo Nuvens Dinˆ amicas. 46.

(8) ´ do conteu. viii. 4.1. Introdu¸caõ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 46. 4.2. Métodos de Nuvens Dinâmicas com distâncias fixas . . . . . . . . . . . .. 47. 4.2.1. As fun¸co˜es de representa¸caõ e aloca¸caõ . . . . . . . . . . . . . . .. 48. 4.2.2. O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 48. 4.2.3. O método de nuvens dinâmicas com a distância L1 . . . . . . . .. 49. 4.2.3.1. O problema de otimiza¸caõ . . . . . . . . . . . . . . . . .. 49. 4.2.3.2. O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . .. 50. O método de nuvens dinâmicas com a distância L2 . . . . . . . .. 50. 4.2.4.1. O problema de otimiza¸caõ . . . . . . . . . . . . . . . . .. 50. 4.2.4.2. O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . .. 51. O método de nuvens dinâmicas com a distância de Mahalanobis .. 51. 4.2.5.1. O problema de otimiza¸caõ . . . . . . . . . . . . . . . . .. 52. 4.2.5.2. O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . .. 52. Métodos de Nuvens Dinâmicas com distâncias adaptativas . . . . . . . .. 52. 4.3.1. As fun¸co˜es de representa¸caõ, aloca¸caõ e distância . . . . . . . . .. 53. 4.3.2. O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 53. 4.3.3. O método de nuvens dinâmicas com distâncias L1 adaptativas . .. 55. 4.3.3.1. O problema de otimiza¸caõ . . . . . . . . . . . . . . . . .. 55. 4.3.3.2. O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . .. 56. O método de nuvens dinâmicas com distâncias L2 adaptativas . .. 56. 4.3.4.1. O problema de otimiza¸caõ . . . . . . . . . . . . . . . . .. 57. 4.3.4.2. O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . .. 58. 4.2.4. 4.2.5. 4.3. 4.3.4. 4.3.5. 4.3.6. O método de nuvens dinâmicas com distâncias de Mahalanobis adaptativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 58. 4.3.5.1. O problema de otimiza¸caõ . . . . . . . . . . . . . . . . .. 58. O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 59. Cap´ıtulo 5—Algoritmos do tipo Nuvens Dinˆ amicas para Intervalos. 60. 5.1. Introdu¸caõ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 60. 5.2. Métodos de nuvens dinâmicas com distâncias L1 para intervalos . . . . .. 62.

(9) ´ do conteu 5.2.1. 5.2.2. ix O método com a distância L1 fixa . . . . . . . . . . . . . . . . . . 5.2.1.1. Uma fun¸caõ de distância L1 entre dois vetores de intervalos 62. 5.2.1.2. O problema de otimiza¸caõ . . . . . . . . . . . . . . . . .. 63. O método com distâncias L1 adaptativas . . . . . . . . . . . . . .. 63. 5.2.2.1. Distâncias L1 adaptativas entre dois intervalos . . . . . .. 63. 5.2.2.2. O problema de otimiza¸caõ com a distância de um componente . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.2.2.3. 5.3. O problema de otimiza¸caõ com a distância de dois com65. Métodos de nuvens dinâmicas com distâncias L2 para intervalos . . . . .. 66. 5.3.1. 67. O método com a distância L2 fixa . . . . . . . . . . . . . . . . . . 5.3.1.1. Uma fun¸caõ de distância L2 entre dois vetores de intervalos 67. 5.3.1.2. O problema de otimiza¸caõ . . . . . . . . . . . . . . . . .. 67. O método com distâncias L2 adaptativas . . . . . . . . . . . . . .. 68. 5.3.2.1. Distâncias L2 adaptativas entre dois vetores de intervalos 68. 5.3.2.2. O problema de otimiza¸caõ com a distância de um componente . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.3.2.3. 69. O problema de otimiza¸caõ com a distância de dois componentes . . . . . . . . . . . . . . . . . . . . . . . . . . .. 70. Métodos de nuvens dinâmicas com distâncias L∞ para intervalos . . . . .. 71. 5.4.1. 71. Método com a distância L∞ fixa . . . . . . . . . . . . . . . . . . . 5.4.1.1. Uma fun¸caõ de distância L∞ entre dois vetores de intervalos 72. 5.4.1.2. O problema de otimiza¸caõ . . . . . . . . . . . . . . . . .. 72. Método com distâncias L∞ adaptativas . . . . . . . . . . . . . . .. 72. 5.4.2.1. Distâncias L∞ adaptativas entre dois intervalos . . . . .. 73. 5.4.2.2. O problema de otimiza¸caõ . . . . . . . . . . . . . . . . .. 73. Os algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 74. 5.5.1. O algoritmo de nuvens dinâmicas para intervalos . . . . . . . . . .. 74. 5.5.2. O algoritmo de nuvens dinâmicas com distâncias adaptativas para. 5.4.2. 5.5. 64. ponentes . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.3.2. 5.4. 62. intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 75.

(10) ´ do conteu. x. Cap´ıtulo 6—Resultados dos Experimentos. 78. 6.1. Introdu¸caõ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 78. 6.2. Conjuntos de Dados Artificiais do tipo Intervalo . . . . . . . . . . . . . .. 78. 6.2.1. Simula¸caõ de Dados Usuais . . . . . . . . . . . . . . . . . . . . .. 79. 6.2.2. Simula¸caõ de Dados do Tipo Intevalo . . . . . . . . . . . . . . . .. 80. 6.2.3. Cálculo do ´ındice de valida¸caõ . . . . . . . . . . . . . . . . . . . .. 81. 6.2.4. Resultados para os Métodos L1 . . . . . . . . . . . . . . . . . . .. 82. 6.2.5. Resultados para os Métodos L2 . . . . . . . . . . . . . . . . . . .. 84. 6.2.6. Resultados para os Métodos L∞ . . . . . . . . . . . . . . . . . . .. 85. Um Conjunto de Espécies de Peixes . . . . . . . . . . . . . . . . . . . . .. 86. 6.3.1. Resultados para os métodos L1 . . . . . . . . . . . . . . . . . . .. 88. 6.3.2. Resultados para os métodos L2 . . . . . . . . . . . . . . . . . . .. 88. 6.3.3. Resultados para os métodos L∞ . . . . . . . . . . . . . . . . . . .. 89. 6.3. Cap´ıtulo 7—Conclus˜ oes e Trabalhos Futuros. 91. 7.1. Introdu¸caõ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 91. 7.2. Considera¸co˜es Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 91. 7.3. Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 93. Apˆ endice A—Estudo das Propriedades do Algoritmo de Nuvens Dinˆ amicas. 94. Apˆ endice B—Estudo das Propriedades do Algoritmo de Nuvens Dinˆ amicas com Distˆ ancias Adaptativas. 96. Apˆ endice C—Proposi¸c˜ ao 5.2.1. 99. Apˆ endice D—Proposi¸c˜ ao 5.2.2. 101.

(11) ´ do conteu. xi. Apˆ endice E—Proposi¸c˜ ao 5.2.3. 103. Apˆ endice F—Proposi¸c˜ ao 5.2.4. 105.

(12) LISTA DE FIGURAS. 2.1. Opera¸co˜es de jun¸caõ e união entre dados simbólicos . . . . . . . . . . . .. 13. 2.2. Opera¸co˜es de disjun¸caõ e conjun¸caõ entre dados simbólicos . . . . . . . .. 13. 3.1. Coesão e Isolamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 19. 3.2. Etapas da análise de cluster . . . . . . . . . . . . . . . . . . . . . . . . .. 19. 3.3. Uma rede para as institui¸co˜es educacionais de uma cidade . . . . . . . .. 23. 3.4. Estruturas de Classifica¸caõ . . . . . . . . . . . . . . . . . . . . . . . . . .. 27. 3.5. Estrutura de Cobertura . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 28. 3.6. Dendogramas de liga¸caõ simples e de liga¸caõ completa . . . . . . . . . .. 31. 3.7. Clusters disjuntos e nebulosos . . . . . . . . . . . . . . . . . . . . . . . .. 33. 3.8. Uma pirâmide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 34. 3.9. Um histograma descrevendo a altura de um grupo de pessoas . . . . . . .. 38. 6.1. Conjunto de dados usuais 1 mostrando classes bem separadas. . . . . . .. 79. 6.2. Conjunto de dados usuais 2 mostrando sobreposi¸caõ de classes . . . . . .. 80. 6.3. Conjuntos de retângulos 1 mostrando classes bem separadas . . . . . . .. 81. 6.4. Conjuntos de retângulos 2 mostrando sobreposi¸caõ de classes . . . . . . .. 81. xii.

(13) LISTA DE TABELAS. 2.1. Temperaturas m´ınima e máxima registradas na China . . . . . . . . . . .. 9. 2.2. Uma tabela de dados simbólicos . . . . . . . . . . . . . . . . . . . . . . .. 11. 6.1 Índice CR médio para os métodos L1 . . . . . . . . . . . . . . . . . . . . .. 83. 6.2. Estat´ısticas de testes t-Student emparelhados para os métodos L1 . . . .. 83. 6.3 Índice CR médio para os métodos L2 . . . . . . . . . . . . . . . . . . . . .. 84. 6.4. Estat´ısticas de testes t-Student emparelhados para os métodos L2 . . . . .. 85. 6.5 Índice CR médio para os métodos L∞ . . . . . . . . . . . . . . . . . . . .. 85. 6.6. Estat´ısticas de testes t-Student emparelhados. . . . . . . . . . . . . . . .. 86. 6.7. Conjunto de Dados de Peixe descritos por 13 variáveis do tipo intervalo .. 87. 6.8. Resultados do agrupamento para o conjunto de peixes usando os métodos L1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6.9. 88. Resultados do agrupamento para o conjunto de peixes usando os métodos L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 89. 6.10 Resultados do agrupamento para o conjunto de peixes usando os métodos L∞ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. xiii. 89.

(14) CAPÍTULO 1. ˜ INTRODUC ¸ AO. 1.1. ˜ MOTIVAC ¸ AO A dissemina¸caõ do uso dos computadores nas organiza¸co˜es tem alterado radicalmente. a maneira como as aplica¸co˜es são conduzidas. A cada dia, mais opera¸co˜es corriqueiras são automatizadas e a cada nova transa¸caõ, como compras com cartão de crédito, opera¸co˜es bancárias, novos registros correspondentes são armazenados. Sistemas de gerenciadores de banco de dados estão presentes na maioria das organiza¸co˜es p´ ublicas e empresas de médio e grande porte, contendo os mais diferentes dados sobre produtos, fornecedores, clientes, empregados, etc. Além disso, avan¸cos em aquisi¸caõ de dados, desde um simples leitor de código de barras até sistemas de sensoriamento remoto geram grandes volumes de dados. Entretanto num ambiente mutável torna-se necessário novas técnicas e ferramentas de extra¸caõ e análise de conhecimentos que agilizem o processo decisório de uma empresa. A realiza¸caõ de Data Warehousing ([Gar98]) é considerado um dos primeiros passos para tornar fact´ıvel a análise de grande quantidade de dados no apoio ao processo decisório. O objetivo é criar um repositório, conhecido como Data Warehouse (DW), que contem dados limpos, agregados e consolidados. No entanto, a análise de dados através de um DW geralmente não extrapolam a realiza¸caõ de simples consultas e diante disto, diversos estudos têm sido direcionado ao desenvolvimento de tecnologias de extra¸caõ automática de conhecimentos. A descoberta de conhecimentos em bases de dados (Knowledge Discovery in Database KDD) é uma a´rea de pesquisa em bastante evidencia no momento que visa desenvolver meios automáticos de propesçcaõ de conhecimento em grandes bases de dados. O processo de KDD inicia com uma etapa de pré-processamento objetivando assegurar a qual1.

(15) õ 1.1 motivac ¸a. 2. idade dos dados a ser analisados. A próxima etapa é a descoberta de conhecimento propriamente dita. Esta etapa compreende a escolha de um algoritmo de minera¸caõ de dados (Data Mining) para extrair informa¸co˜es valorosas, aparentemente camufladas ou escondidas, de uma cole¸caõ de dados. Para finalizar o processo de KDD, uma terceira etapa é empregada com a finalidade de avaliar e utilizar o conhecimento extra´ıdo visando apoiar algum processo de tomada de decisão. As ferramentas para execu¸caõ do processo de minera¸caõ são genéricas e derivadas de diferentes a´reas de conhecimento tais como da estat´ıstica, inteligência artificial e banco de dados. As técnicas estat´ısticas multivariadas englobam algoritmos que podem ser aplicados para descobrir estruturas em um conjunto de dados. Dentre estas técnicas destacamos análise de cluster (análise de agrupamento ou classifica¸caõ não supervisionada) que tem como objetivo organizar um conjunto de objetos em classes de tal forma que os objetos de uma mesma classe são mais similares entre si do que o objetos pertencentes a classes diferentes. O atrativo dos métodos de cluster para a minera¸caõ de dados está na sua habilidade de extrair novas estruturas diretamente de dados, sem nenhum conhecimento prévio. Embora as técnicas multivariadas tradicionais sejam bem aplicadas para sumarizar e analisar conjuntos de dados, com o explosivo crescimento das tecnologias da informa¸caõ estas técnicas têm sido inapropriadas para tratar conjuntos de dados representados por informa¸co˜es mais complexas como por exemplo, intervalos. Além disso, os métodos estat´ısticos não possuem estruturas adequadas que possibilitem sintetizar grandes conjuntos de dados perdendo o menos poss´ıvel de informa¸caõ dos dados originais. Como uma alternativa para generalizar as atuais técnicas estat´ısticas para estas informa¸co˜es mais complexas, surge a análise de dados simbólicos (Symbolic Data Analysis (SDA)). A análise de dados simbólicos [BD00] é uma nova abordagem na a´rea da descoberta automática de conhecimentos (KDD) e gerenciamento de dados, relacionada com análise de dados multivariados, reconhecimento de padrões, inteligência artificial e banco de dados. O principal objetivo de SDA é desenvolver métodos para tratamento de dados mais complexos como intervalos, conjuntos e distribui¸caõ de probabilidades ou de pesos. SDA inicia com a agrega¸caõ/redu¸caõ de bases de dados clássicos em uma estrutura mais com-.

(16) 1.2 objetivos. 3. plexa chamada de dados simbólicos, pois eles contêm varia¸caõ interna e são estruturados. A etapa seguinte consiste na extensão dos métodos e algoritmos de extra¸caõ de conhecimentos (técnicas estat´ısticas) a partir de dados usuais, para os dados simbólicos. Um exemplo da aplica¸caõ desta metodologia no processo de descoberta de conhecimentos em grandes conjuntos de dados é apresentado por Lima Neto e De Carvalho [NdC01]. Os algoritmos da análise de cluster podem ser divididos entre dois grandes grupos: aqueles que estruturam um conjunto de dados em hierarquias de classes através de uma a´rvore, chamada de dendograma, e os que estruturam um conjunto de dados em uma parti¸caõ em um n´ umero predefinido de classes. Os métodos hierárquicos podem ser divididos em aglomerativos e divisivos. Em geral os métodos que fornecem uma parti¸caõ também fornecem um conjunto de representantes das classes através da otimiza¸caõ (local) de um critério de adequa¸caõ entre as classes e as suas representa¸co˜es. Vários algoritmos de cluster de dados simbólicos, tanto do tipo hierárquico como do tipo particional, foram propostos recentemente na literatura. Entretanto os métodos de parti¸caõ existentes não usam distâncias adaptativas. Os métodos de parti¸caõ adaptativos são capazes de produzir uma estrutura de classes melhorando a qualidade do agrupamento, pois as distâncias adaptativas permitem reconhecer classes de formas e tamanhos diferentes. Este fato torna os métodos adaptativos como uma ferramenta valiosa para a descoberta de conhecimento em bases de dados.. 1.2. OBJETIVOS O objetivo principal deste trabalho é desenvolver métodos de parti¸caõ para intervalos. usando algoritmos do tipo nuvens dinâmicas com e sem distâncias adaptativas. Embora a literatura da análise de dados simbólicos indique alguns avan¸cos com métodos de parti¸caõ para intervalos, estes métodos não usam distâncias adaptativas. Neste contexto, duas etapas são abordadas: 1) Desenvolver um método de nuvens dinâmicas usando uma distâncias do tipo L1 (City-Block) para intervalos. 2) Propor métodos de nuvens dinâmicas com distâncias adaptativas do tipo.

(17) ˜ o da tese 1.3 organizac ¸a. 4. a) L1 (City-Block); b) L2 (Euclidiana) e c) L∞ (Máximo) para intervalos. No contexto das aplica¸co˜es, dois pontos são abordados: 1) Avaliar o desempenho dos métodos propostos usando um ´ındice de valida¸caõ externo. Neste estudo, serão usados conjuntos de dados reais e artificiais de tipo intervalo com diferentes graus de dificuldade de classifica¸caõ. Para dados artificiais, o ´ındice de valida¸caõ será estimado no quadro de uma experiência Monte Carlo. 2) Comparar os métodos propostos utilizando testes estat´ısticos t-Student emparelhados. Aqui, os testes serão aplicados para comparar as médias dos ´ındices de valida¸caõ estimados pelo método Monte Carlo de acordo com os diferentes métodos e conjuntos.. 1.3. ˜ DA TESE ORGANIZAC ¸ AO Além deste cap´ıtulo, esta tese será apresentada em mais seis cap´ıtulos que são:. Cap´ıtulo 2 An´ alise de Dados Simb´ olicos A finalidade deste cap´ıtulo é fornecer um breve histórico da abordagem simbólica em análise de dados.. Cap´ıtulo 3 An´ alise de Cluster Este cap´ıtulo é dividido em duas grandes se¸co˜es. Na primeira se¸caõ (3.2) são descritos os tipos de dados clássicos, algumas medidas de distâncias entre eles e por u ´ltimo um resumo dos principais métodos clássicos de cluster. A segunda se¸caõ (3.3) apresenta os dados simbólicos, algumas medidas de proximidades entre estes tipos de dados e.

(18) ˜ o da tese 1.3 organizac ¸a. 5. finalmente uma breve descri¸caõ dos métodos de cluster (parti¸caõ e hierárquico) da análise de dados simbólicos.. Cap´ıtulo 4 Algoritmos do tipo Nuvens Dinˆ amicas Este cap´ıtulo descreve os algoritmos clássicos de nuvens dinâmicas com e sem distâncias adaptativas. Inicialmente, são abordados três métodos de nuvens dinâmicas com, respectivamente, as distâncias L1 , L2 e Mahalanobis (se¸caõ 4.2). Posteriormente, são apresentados os métodos de nuvens dinâmicas com as distâncias L1 , L2 e Mahalanobis adaptativas (se¸caõ 4.3).. Cap´ıtulo 5 Algoritmos do tipo Nuvens Dinˆ amicas para Intervalos Neste cap´ıtulo, é descrito o formalismo dos métodos de nuvens dinâmicas com e sem distâncias adaptativas para intervalos. Na se¸caõ 5.2, são apresentados os métodos com e sem distâncias L1 adaptativas para intervalos. Na se¸caõ 5.3, são apresentados os métodos com e sem distâncias L2 adaptativas para intervalos. Finalmente, na se¸caõ 5.4 são relatados os métodos com e sem distâncias L∞ adaptativas para intervalos.. Cap´ıtulo 6 Resultados dos Experimentos Na primeira parte deste cap´ıtulo (se¸caõ 6.2), é apresentado os resultados de classifica¸caõ fornecidos pelos métodos propostos usando conjuntos de dados artificiais de intervalos. Além disso, são apresentados os resultados de testes t-Student comparando os métodos não adaptativos com os adaptativos. Na segunda parte (se¸caõ 6.3), é descrita a aplica¸caõ dos métodos propostos com um conjunto de dados reais.. Cap´ıtulo 7 Conclus˜ oes e Futuros Trabalhos Neste cap´ıtulo, serão mostradas as conclusões e considera¸co˜es finais desta tese, bem como os futuros trabalhos que poderão ser realizados a partir das idéias aqui apresen-.

(19) ˜ o da tese 1.3 organizac ¸a. 6. tadas.. Apˆ endices Nos apêndices A e B são apresentados, respectivamente, os estudos das propriedades dos algoritmos de nuvens dinâmicas não adaptativo e adaptativo. Nos apêndices C, D, E e F são expostos as demonstra¸co˜es das proposi¸co˜es 5.2.1, 5.2.2, 5.2.3 e 5.2.4..

(20) CAPÍTULO 2. ´ ´ ANALISE DE DADOS SIMBOLICOS (SDA). ˜ INTRODUC ¸ AO. 2.1. Os progressos recentes nas tecnologias das ciências da informa¸caõ têm permitido o armazenamento de vastos conjuntos de dados em todos os dom´ınios da atividade humana. Atualmente, assiste-se ao surgimento de diferentes abordagens para descobrir regularidades, simplificar ou extrair conhecimentos e as informa¸co˜es armazenadas nesses grandes conjuntos de dados. Este processo de extrair conhecimentos em grandes bases de dados é comumente conhecido como Minera¸caõ de Dados. Um dos objetivos principais das técnicas minera¸caõ de dados é extrair valiosas informa¸co˜es que estão presentes nos dados originais mas que ficam ocultas devido ao grande volume de informa¸caõ. A análise de dados simbólicos (SDA) inicialmente consiste em construir automaticamente grupos homogêneos de oberva¸co˜es a partir de grandes conjuntos de dados definindo assim novas unidades, chamadas de dados simbólicos, que descrevem esses grupos [BD00]. A obten¸caõ desses dados simbólicos deve conservar o máximo de informa¸co˜es, ao mesmo tempo em que reduz consideravelmente a tabela de dados inicial. O resultado disso são novas tabelas de dados, chamadas de ”tabelas de dados simbólicos”, de estrutura mais complexa, pois cada uma das células dessas tabelas não necessariamente contém, como usualmente, um valor simples quantitativo ou qualitativo, mas pode conter informa¸co˜es complexas tais como subconjuntos, intervalos, fun¸co˜es de diferentes semânticas (probabilista, possibilista, credibilista, etc.) ligadas eventualmente por dependências e taxonomias. SDA surge como uma alternativa para minerar dados presentes em uma tabela de dados simbólicos. As colunas destas tabelas são variáveis simbólicas, usadas para descrever os objetos, e as linhas são chamadas de ”descri¸co˜es simbólicas”desses objetos, pois 7.

(21) ´ rico 2.2 um breve histo. 8. elas não são vetores de valores quantitativos ou categóricos simples, como é usual. Os objetos dessa tabela podem descrever indiv´ıduos (observa¸co˜es individuais), levando ou não em conta a imprecisão ou a incerteza, ou podem descrever ´ıtens mais complexos, tais como grupos de indiv´ıduos. Billard e Diday ([BD03]) atestam o crescimento de dados de natureza simbólica e alertam a necessidade do desenvolvimento de novas metodologias estat´ısticas para o tratamento de informa¸co˜es dessa natureza.. Além disso, com rela¸caõ aos poucos. métodos estat´ısticos dispon´ıveis, faz-se necessário o estabelecimento de um maior suporte matemático e estat´ıstico a esses métodos, tais como: verifica¸caõ de propriedades estat´ısticas, estima¸caõ de erros padrão e distribui¸co˜es teóricas, entre outros. Na se¸caõ 2.2, é apresentado um breve histórico da análise de dados simbólicos. Na se¸caõ 2.3, são expostos as tabelas de dados simbólicos e o formalismo dos objetos simbólicos. Na se¸caõ 2.4, são citados alguns trabalhos desenvolvidos no quadro da análise de dados simbólicos.. 2.2. ´ UM BREVE HISTORICO A análise de dados simbólicos ([BD00]) surgiu, simultaneamente, da influência de três. a´reas: Análise Exploratória de Dados ([Tuk58], [Boc74], [DLPT84], [Sap90], [LMW95]), Inteligência Artificial ( [Mic73], [Win79], [Sow84]) e Taxonomia Numérica [SS73] As primeiras tentativas de obter objetos simbólicos de dados clássicos foram realizadas por Belson [Bel59], seguidos de Morgan e Sonquist [MS63], com o método AID (Automatic Interaction Detector). Os primeiros algoritmos, chamados de ”Conceptual Clustering”, foram apresentados por Diday, Govaert e Lechevalier [DGL80] e Michasky, Stepp e Diday [MSD81]. SDA constitui uma extensão de alguns métodos utilizados para análise de dados clássicos. Os primeiros trabalhos com os princ´ıpios básicos da abordagem simbólica apareceram no final dos anos 80 ( [Did87] , [Did89])) e desde então vários outros trabalhos foram realizados em diversas dire¸co˜es. Bock e Diday [BD00] apresentam de maneira sólida os principais conceitos da análise de dados simbólicos e os principais métodos.

(22) ´ rico 2.2 um breve histo. 9. estat´ısticos desenvolvidos para manipular dados desta natureza. Os dados simbólicos podem ser obtidos em uma das seguintes maneiras: • pela aplica¸caõ de um algoritmo de classifica¸caõ não supervisionada para simplificar grandes conjuntos de dados e descrever, de uma maneira auto-explicativa as classes associadas aos grupos obtidos; • como resultado da descri¸caõ de conceitos por especialistas; • a partir de bases de dados relacionais para estudar conjuntos de unidades cuja descri¸caõ necessita a fusão eventual de varias rela¸co˜es. Com os avan¸cos das tecnologias da informa¸caõ tem sido comum, por exemplo, encontrar registros de intervalos em base de dados de aplica¸co˜es oriundas de diversos lugares. Abaixo é apresentada parte de uma tabela de dados simbólicos reais onde os dados foram coletados na China. Nesta tabela as linhas são esta¸co˜es na China e as colunas são variáveis do tipo intervalo onde cada uma contém as temperaturas m´ınima e máxima registradas mensalmente em 60 esta¸co˜es na China (ver http://dss.ucar.edu/datasets/ds578. 5/data/). Tabela 2.1. Temperaturas m´ınima e máxima registradas na China. Esta¸co˜es. Temperatura ([min : max]) - Ano 1998 Janeiro. Fevereiro .... Novembro. Dezembro. AnQing. [1.8 : 7.1]. [2.1 : 7.2]. .... [7.8 : 17.9]. [4.3 : 11.8]. .... .... .... .... .... .... ZhiJiang. [2.7 : 8.4]. [2.7 : 8.7]. .... [8.2 : 20]. [5.1 : 13.3]. Uma vez obtida uma tabela deste tipo, a fase seguinte consiste em analisar, classificar, resumir e visualizar as informa¸co˜es contidas nesta tabela. Para minerar esses dados, SDA tem desenvolvido uma metodologia que é uma extensão das ferramentas usuais de extra¸caõ de conhecimentos para dados simbólicos..

(23) ´ licos e os objetos simbo ´ licos 2.3 tabelas de dados simbo. 10. ´ ´ TABELAS DE DADOS SIMBOLICOS E OS OBJETOS SIMBOLICOS. 2.3. Os objetos simbólicos foram introduzidos ([Did89]) com o objetivo de estender os objetos da análise de dados usuais, fornecendo, assim, uma representa¸caõ multivariada de dados complexos dispostos em um novo tipo de tabela chamada de tabela de dados simbólicos. Esta se¸caõ inicia apresentando as tabelas de dados simbólicos e em seguida é descrito o formalismo dos objetos simbólicos.. 2.3.1. Tabelas de Dados Simb´ olicos. Os dados simbólicos são informa¸co˜es complexas, definidas conforme o tipo de variável que descreve os objetos. Uma variável simbólica é uma fun¸caõ que associa, a cada elemento do conjunto de objetos, uma descri¸caõ pertencente ao conjunto de descri¸co˜es. As variáveis simbólicas são diferentes das variáveis usuais, pois estas variáveis podem assumir diferentes valores, como por exemplo, conjuntos de categorias ou valores, intervalos, histogramas, ou distribui¸co˜es de probabilidades. Maiores detalhes sobre os tipos de variáveis usuais e simbólicas são encontrados, respectivamente, nas se¸co˜es 3.3.1 e 3.3.2 do Cap´ıtulo 3. Conforme foi citado, os dados simbólicos podem descrever indiv´ıduos, levando em conta ou não a imprecisão ou a incerteza, ou podem descrever ´ıtens mais complexos, tais como grupos de indiv´ıduos. Abaixo estão alguns exemplos de dados simbólicos para indiv´ıduos (objetos de primeira ordem) e classes de indiv´ıduos (objetos de segunda ordem): • Considere Y uma variável simbólica que descreve o tempo de estudo diário de um indiv´ıduo. A descri¸caõ de um indiv´ıduo k pode ser: Y (k) = [0, 6] (em horas) ou Y (k) = (Y (k) ≤ 1(0, 6); Y (k) > 1(0, 4)). • Considere Y uma variável simbólica que descreve as institui¸co˜es bancárias existentes em uma cidade (classes de indiv´ıduos). A descri¸caõ de uma cidade k pode ser: Y (k) = {Banco do Brasil, Caixa, Ita´ u, Bradesco}. Em uma tabela de dados simbólicos, as linhas correspondem os indiv´ıduos ou classes.

(24) ´ licos e os objetos simbo ´ licos 2.3 tabelas de dados simbo. 11. de indiv´ıduos e as colunas são variáveis simbólicas que descrevem os indiv´ıduos ou classes de indiv´ıduos. Na Tabela 6.1 é apresentado um exemplo de uma tabela de dados simbólicos onde as linhas são classes de indiv´ıduos e as colunas são três variáveis simbólicas: peso (expresso por um intervalo), marca de automóvel (expresso por um conjunto de categorias) e por u ´ltimo fumante (expresso por uma distribui¸caõ de pesos). Tabela 2.2. Uma tabela de dados simbólicos. ID. Peso. Marca de. Fumante. Automóvel. 2.3.2. 1. [58, 8 : 70, 1]. 2. [65, 6 : 84, 2]. 3. [49, 4 : 55, 3]. Ford, Fiat. 3/4 sim, 1/4 não. Ford, Fiat, GM 1/6 sim, 5/6 não Ford, GM. 4/5 sim, 1/5 não. Objetos Simb´ olicos. São definidos dois tipos de objetos simbólicos: booleano e modal.. 2.3.2.1. Objeto Simb´ olico Booleano Sejam E um conjunto de objetos, u ∈ E, D. o conjunto de descri¸co˜es expressas por um conjunto de valores discretos ou um intervalo, Y = (Y1 , . . . , Yp )T um vetor de variáveis definido por uma fun¸caõ de E → D que associa cada u a uma descri¸caõ d ∈ D, e R uma rela¸caõ de compara¸caõ definida em D. Denote [d0 Rd] ∈ L = {0, 1} o resultado da compara¸caõ entre duas descri¸co˜es d e d0 , onde L = 1 significa que d e d0 estão conectados através de R. Um objeto simbólico booleano é formalmente definido como uma tripla s = (a, R, d) onde R é uma rela¸caõ, entre descri¸co˜es, d é uma descri¸caõ e a é uma fun¸caõ (booleana) as : E → L com as (u) = ∧pj=1 [yj (u)Rdj ] = 1 se e somente se [yj (u)Rdj ] = 1 para (j = 1, . . . , p) . A extensão de s é definida como Ext(s) = {u ∈ E/as (u) = 1} ([BD00]). Exemplo 1: Seja s = (a, R, d) um objeto simbólico, onde Y = (Y1 = altura, Y2 = peso), d = [[140, 1.60], [50, 60]], R uma rela¸caõ de pertinência (isto é ∈) então a ( u) = [altura(u) ∈ [140, 1.60]] ∧ peso(u) ∈ [50, 60]]. Um indiv´ıduo u é tal que a(w) = 1 se e.

(25) ´ licos e os objetos simbo ´ licos 2.3 tabelas de dados simbo. 12. somente a sua altura estiver entre 140 e 160 e, o seu peso estiver entre 50 e 60. Para representar o conhecimento usando objetos simbólicos, podem ser levado em considera¸caõ dependências entre as variáveis, que são expressas através de regras. São adotados dois tipos de dependências ( [dC98]): 1) Hierárquica: Uma variável Y pode tornar-se inaplicável se outra variável Z assume valores em um determinado subconjunto Sz . Por exemplo, seja um objeto simbólico booleano a = [sexo ∈ {M, F }] ∧ [parto ∈ {sim,não}] a dependência hierárquica é expressa pelas regras r1 : se [sexo = M ] ent˜ ao [parto = N A]] e r2 : se [parto = N A] ent˜ ao [sexo = M ] onde NA significa não aplicável. 2) Lógica: Um subconjunto Sy dos poss´ıveis valores de uma variável Y , pode estar em correspondência com o subconjunto dos poss´ıveis valores da variável Z. Por exemplo, seja um objeto simbólico booleano a = [idade ∈ [30, 50]] ∧ [altura ∈ [150, 165]] a dependência lógica é expressa pela regra r : se [idade ∈ [40, 45]] ent˜ ao [altura ∈ [155, 160]]. Foram introduzidos quatro opera¸co˜es entre objetos simbólicos booleanos que são: jun¸caõ, união, conjun¸caõ e disjun¸caõ. O exemplo abaixo apresenta algumas opera¸co˜es simbólicas que podem ser realizadas entre dois objetos booleanos. Exemplo 2. Sejam s1 = (a1 , R, d1 ) e s2 = (a2 , R, d2 ) dois objetos simbólicos onde onde y(u) = [altura(u), peso(u)], d1 = [[120, 1.40], [20, 40]], d2 = [[150, 170], [50, 70]], e R uma rela¸caõ de pertinência. • A jun¸caõ entre s1 e s2 , denotada por s1 ⊕ s2 , resulta no objeto s3 = (a3 , R, d3 ) onde d3 = [[120, 1.70], [20, 70]]. • A união entre s1 e s2 , denotada por s1 ∪ s2 , resulta no objeto s3 = (a3 , R, d3 ) onde d3 = [[120, 140] ∪ [150, 1.70], [20, 40] ∪ [50, 70]]. • A disjun¸caõ entre s1 e s2 , denotada por s1 ∨ s2 , resulta no objeto s3 = (a3 , R, d3 ) onde d3 = [[120, 1.40], [20, 40]] ∨ [[150, 170], [50, 70]]..

(26) ´ licos e os objetos simbo ´ licos 2.3 tabelas de dados simbo. 13. • A conjun¸caõ entre s1 e s2 , denotada por s1 ∧ s2 , resulta no objeto s3 = (a3 , R, d3 ) onde d3 = [[120, 1.40] ∧ [150, 170], [20, 40] ∧ [50, 70]]. A Figuras 2.1 (a) e (b) ilustram, respectivamente, as opera¸co˜es jun¸caõ e união entre dois objetos booleanos quaisquer, s = (a, R, d) e s0 = (a, R, d0 ).. Figura 2.1. Opera¸co˜es de jun¸caõ e união entre dados simbólicos. A Figuras 2.2 (a) e (b) exemplificam, respectivamente, as opera¸co˜es disjun¸caõ e conjun¸caõ entre os objetos booleanos s e s0 .. Figura 2.2. Opera¸co˜es de disjun¸caõ e conjun¸caõ entre dados simbólicos. Em [dC95], foi introduzida uma medida positiva para objetos simbólicos. Esta medida representa o volume do produto cartesiano formado pelas descri¸co˜es das entidades que satisfazem, potencialmente, a`s descri¸co˜es definidas por um objeto. Seja s = (a, R, d) um objeto simbólico onde R é uma rela¸caõ de pertinência, d é uma descri¸caõ e as (u) = ∧pj=1 [yj (u)Rdj ]. O potencial de descri¸caõ de s é definido por: π(d) =. p Y. j=1. µ(dj ). (.).

(27) ´ licos e os objetos simbo ´ licos 2.3 tabelas de dados simbo. 14. onde µ(dj ) é o cardinal de dj , se dj for um conjunto e µ(dj ) é a amplitude de dj , se dj for um intervalo. Exemplo 3. Seja s o objeto simbólico do Exemplo 1, então o potencial de s é dado por π(d) = (160 − 140) × (60 − 50) = 200. 2.3.2.2. Objeto Simb´ olico Modal Sejam E um conjunto de entidades, u ∈ E, D. o conjunto de descri¸co˜es expressas por medidas de pondera¸caõ ou distribui¸caõ, Y = (Y1 , . . . , Yp )T um vetor de variáveis definido por uma fun¸caõ de E → D que associa cada u a uma descri¸caõ d ∈ D, e Φ uma rela¸caõ de compara¸caõ definida em D. Denote [d0 Φd] ∈ L = [0, 1] o resultado da compara¸caõ entre duas descri¸co˜es d e d0 . Um objeto simbólico modal é formalmente definido como uma tripla s = (a, Φ, d) onde Φ é uma rela¸caõ nebulosa entre descri¸co˜es, d é uma descri¸caõ e a é uma fun¸caõ definida de E em L. A extensão de s é definida como Extα (s) = u ∈ E|as (u) > α onde α é um limiar ∈ [0, 1]. Exemplo 4: Considere s = (a, Φ, d) um objeto modal onde [d0 Φd] = f ({[yj (u)Φ dj ] }j=1,...,p ) =. Q. 0 j=1,p [dj Φdj ].. Sejam dj = r e d0j = q duas distribui¸co˜es de probabilidade. discretas, associadas em <p e Φ definida da seguinte forma: rΦq =. Pp. j=1 rj. qj e−min{rj ,qj } .. Se p = 2 e d = [{(0.2)12, (0.8)[20, 28]}, {(0.4)F, (0.60)M }] então um objeto simbólico modal pode ser definido como: a(u) = [idade(u)Φ{(0, 2)12, (0, 8)[20, 28]}] ∧ [sexo(u)Φ {(0, 4)F, (0, 6)M }]. Um grupo de indiv´ıduos (u) com d0 = [{(0, 3)12, (0, 7)[20, 28]}, {(0, 35 )F, (0, 65)M }] então a fun¸caõ a(u) = (0, 06×1, 10517+0, 56)×(0, 14, +, 0, 39×1.0512) = 0, 344. Adotando um limiar α = 0, 5 tem-se que a(u) < 0, 5 logo u não faz parte de Ext(s). As opera¸co˜es entre objetos simbólicos modais podem ser generaliza¸co˜es do tipo: máximo, m´ınimo e média. Sejam s1 = (a1 , Φ, d1 ) e s2 = (a2 , Φ, d2 ) dois objetos modais onde y(ω) = [n´ıvel educacional(ω)], d1 = [(0, 3)Básico, (0, 5)Fundamental, (0, 2)Superior] e d2 = [(0, 1)Básico, (0, 8)Fundamental, (0, 1)Superior]. • A generaliza¸caõ pelo máximo entre os objetos s1 e s2 resulta no objeto s3 = s1 ∪s2 = (a3 , Φ, d3 ) onde d3 = [(0, 3)Básico, (0, 8)Fundamental, (0, 2)Superior]..

(28) ˜ o da ana ´ lise simbo ´ lica de dados 2.4 evoluc ¸a. 15. • A generaliza¸caõ pelo m´ınimo entre os objetos s1 e s2 resulta no objeto s3 = s1 ∪s2 = (a3 , Φ, d3 ) onde d3 = [(0, 1)Básico, (0, 5)Fundamental, (0, 1)Superior]. • A generaliza¸caõ pela média entre os objetos s1 e s2 resulta no objeto s3 = s1 ∪ s2 = (a3 , Φ, d3 ) onde d3 = [(0, 2)Básico, (0, 65)Fundamental, (0, 15)Superior]. ˜ DA ANALISE ´ ´ EVOLUC ¸ AO SIMBOLICA DE DADOS. 2.4. Esta se¸caõ apresenta uma descri¸caõ de alguns trabalhos de SDA nas a´reas de: análise fatorial, medidas de similaridade e dissimilaridade, sele¸caõ de variáveis, estat´ısticas descritivas e classifica¸caõ supervisionada.. 2.4.1. An´ alise Fatorial. Cazes, et al ( [PCCDS97]) introduziram um método geométrico de classifica¸caõ não supervisionada (analise de componentes principais) em que os indiv´ıduos são descritos por vetores de intervalos numéricos. Na mesma dire¸caõ, Verde e De Carvalho ( [VdC98]) desenvolveram uma abordagem para levar em conta regras de dependências entre as variáveis descritoras quando da utiliza¸caõ de um método de classifica¸caõ geométrica não supervisionada. Nagabhushan e Gowda ([NG95]) apresentaram uma outra abordagem para a redu¸caõ de dimensionalidade para dados simbólicos;. 2.4.2. Medidas de similaridade e dissimilaridade. Na literatura de SDA, tem sido propostas diversas medidas de dissimilaridade: Gowda e Diday ([GD91a]) apresentaram uma nova medida considerando posi¸caõ, extensão e conte´ udo dos objetos. Ichino e Yaguchi ([IY94]) propuseram uma generaliza¸caõ da métrica de Minkowski para dados complexos. De Carvalho ([dC94]) introduziu medidas de proximidade inspiradas na combina¸caõ dos ´ındices de variáveis binarias como uma fun¸caõ de compara¸caõ com a métrica de Minkowsky como fun¸caõ de agrega¸caõ, levando em conta regras de dependências entre variáveis. De Carvalho ([dC98]) propôs uma fam´ılia de medidas que utiliza apenas fun¸co˜es de.

(29) ˜ o da ana ´ lise simbo ´ lica de dados 2.4 evoluc ¸a. 16. compara¸caõ baseadas no potencial de descri¸caõ global. De Carvalho e Souza ( [dCdS98a]) apresentaram uma extensão da medida de Ichino e Yaguchi ( [IY94]) onde são introduzidas dependências lógicas entre as variáveis e De Carvalho e Souza ([dCdS98b]) combinam histogramas e dependências lógicas para definir medidas de proximidade dependentes do contexto.. 2.4.3. Sele¸c˜ ao de vari´ aveis. Ichino ([Ich81]) apresentou um método de sele¸caõ de variáveis não paramétrico aplicável para problemas de reconhecimento padrões baseado em informa¸co˜es estat´ısticas sobre a estrutura interclasse. Ichino ([IS84]) também propos um método onde a sele¸caõ de variáveis é representada por um problema de programa¸caõ inteira zero-um. Nos anos seguintes ele generalizou os seus métodos para tratar variáveis simbólicas ([IY94]). Vignes ([Vig91]) desenvolveu uma outra abordagem para a sele¸caõ de variáveis simbólicas booleanas que foi estendido por Ziani ([Zia96]) para levar em conta regras de dependência entre esse tipo de variável;. 2.4.4. Estat´ısticas descritivas. De Carvalho ([dC95]) introduziu a no¸caõ de histogramas para dados simbólicos booleanos. Bertrand e Goupil ([B00]) introduziram métodos para calcular a distribui¸caõ de freq¨ uência para uma variável simbólica e estenderam, para cada esse tipo de variável, os conceitos de média, desvio padrão e mediana. Recentemente, Billard e Diday ([BD02]) estenderam os conceitos de fun¸caõ de correla¸caõ e covariância, proporcionando a obten¸caõ de uma equa¸caõ de regressão linear m´ ultipla para dados simbólicos de natureza intervalar.. 2.4.5. Classifica¸c˜ ao supervisionada. Rasson e Lissoir ([RL98]) utilizaram uma fun¸caõ de Kernel para medir a concentra¸caõ de dados simbólicos e solucionar problemas de discrimina¸caõ. Ichino ([Ich79]).

(30) ˜ o da ana ´ lise simbo ´ lica de dados 2.4 evoluc ¸a. 17. definiu um algoritmo que gera hiperetângulos, baseado no operador jun¸caõ, para descrever classes de exemplos e classificar novas observa¸co˜es. Posteriormente Ichino ([Ich81]) apresentou uma adapta¸caõ desse método para tratar mistura de variáveis. Para tratar dados simbólicos Ichino ([Ich86]) generalizou os seus métodos através de um formalismo que denominou de ”cartesian join system”e definiu o chamado Grafo de Vizinhos M´ utuos (MNG- Mutual Neighborhood Graph) que permite alcan¸car uma boa discrimina¸caõ das classes de exemplos. Recentemente Ichino ([IY98]) apresentou um classificador simbólico baseado em uma abordagem cujo objetivo é encontrar representantes das classes de exemplos e introduzir um medida de similaridade entre cos representantes e as novas observa¸co˜es a classificar. Souza ([dS99], [dSdCAC99]) apresentou uma modifica¸caõ do algoritmo de Ichino ([IY98]) e aplicou esse método para imagens SAR (Synthetic Aperture Radar)..

(31) CAPÍTULO 3. ´ ANALISE DE CLUSTER. 3.1. ˜ INTRODUC ¸ AO O objetivo principal de uma análise exploratória é extrair informa¸co˜es dos dados,. estabelecendo rela¸co˜es entre os objetos e as variáveis do conjunto a ser analisado. A análise exploratória permite que, a partir das rela¸co˜es observadas nos dados, sejam levantadas hipóteses e propostos modelos visando a descoberta de padrões. A classifica¸caõ não supervisionada, também conhecida como análise de agrupamento, é uma técnica exploratória multivariada que se propõe a encontrar classes homogêneas a partir de um conjunto de objetos (indiv´ıduos). A análise de agrupamento tem sido aplicada em várias a´reas incluindo reconhecimento padrão, segmenta¸caõ de imagem, minera¸caõ de dados e recupera¸caõ de informa¸caõ. Alguns exemplos t´ıpicos de aplica¸co˜es de agrupamento são: em Marketing, para ajudar os profissionais a descobrir grupos de clientes e usar este conhecimento para orientar as campanhas publicitárias; em atividades de seguro, identificando grupos de segurado com o custo médio elevado de reembolso, e em planejamento urbano, identificando grupos de habita¸caõ segundo o tipo, o valor e a localiza¸caõ geográfica ([HK01]). Os principais objetivos da classifica¸caõ são: simplifica¸caõ e predi¸caõ dos dados. Os métodos de cluster são capazes de organizar grandes conjuntos de dados em estruturas de classes que permitem simplificar as informa¸co˜es contidas nos dados e facilitar a associa¸caõ de novos objetos. Estas informa¸co˜es simplificadas podem também ser usadas para fazer predi¸co˜es e também gerar hipóteses com bases nos grupos formados. O resultado de um método de cluster é, usualmente, uma parti¸caõ de um conjunto de objetos em grupos ou classes de maneira que os elementos dentro de um grupo têm um alto grau de similaridade e os elementos pertencentes a grupos diferentes têm um 18.

(32) õ 3.1 introduc ¸a. 19. alto grau de dissimilaridade. Neste contexto, uma boa aplica¸caõ de cluster requer que o método usado forne¸ca um agrupamento com alta similaridade intra-grupos (classes coesas) e alta dissimilaridade inter-grupos (classes isoladas). A Figura 3.1 ilustra os conceitos de coesão interna e isolamento externo. Nesta figura, (a) significa grupos coesos e isolados, (b) grupos isolados mas não coesos, (c) grupos coesos com vários pontos intermediários e (d) não existência de grupos naturais.. Figura 3.1. Coesão e Isolamento. Tradicionalmente, um procedimento de cluster envolve as seguintes etapas: representa¸caõ dos objetos, defini¸caõ de uma medida de proximidade para comparar os objetos, sele¸caõ de um método de agrupamento e valida¸caõ dos resultados. A Figura 3.2 mostra as etapas de forma¸caõ de agrupamentos.. Figura 3.2. Etapas da análise de cluster. A etapa de representa¸caõ dos objetos identifica os indiv´ıduos que serão agrupados e as variáveis que descrevem esses indiv´ıduos. A sa´ıda desta etapa é uma matriz de dados onde as linhas são os indiv´ıduos e as colunas são as variáveis. Além disso, mais três elementos podem ser acrescentados nesta etapa, se for necessário: normaliza¸caõ dos dados, e sele¸caõ e extra¸caõ de variáveis. A normaliza¸caõ visa atenuar o efeitos de.

(33) ´ lise de cluster para dados usuais 3.2 ana. 20. diferentes medidas de escalas. A sele¸caõ de variáveis objetiva reduzir o conjunto de variáveis. A extra¸caõ de variáveis identifica a forma¸caõ de novas variáveis a partir das variáveis originais. A etapa de investiga¸caõ de proximidades consiste em considerar uma medida de distância para medir a proximidade entre os objetos e, segundo o tipo de variável diferentes medidas de dissimilaridade ou similaridade são encontradas na literatura ([JD88]). A sa´ıda desta etapa é uma matriz de proximidades onde as coordenadas representam as proximidade entre pares de objetos da matriz de dados definida na etapa de representa¸caõ. A etapa de agrupamento inicia com a sele¸caõ do método de agrupamento. Para isto existem várias abordagens de classifica¸caõ, por exemplo: técnicas hierárquicas, de parti¸caõ, agrupamento conceitual e mapas de kohonen. A sa´ıda desta etapa é o agrupamento de objetos similares (clusters) fornecido pelo método selecionado. A etapa final refere a uma avalia¸caõ quantitativa dos resultados do agrupamento. Esta avalia¸caõ pode ser baseada em ´ındices de valida¸caõ externo e interno. Um ´ındice externo é usado para comparar a estrutura de classes obtida por um agrupamento com uma estrutura definida a priori e um ´ındice externo determina se a estrutura do agrupamento está apropriada aos dados. Além disso, testes de hipóteses no quadro de uma experiência Monte Carlo podem ser utilizados para comparar duas estruturas de classes ([JMF99]). O objetivo deste cap´ıtulo é expor os principais componentes de uma análise de cluster (representa¸caõ dos dados, medidas de proximidades e métodos de classifica¸caõ) para dados usuais e simbólicos. Para isto, a se¸co˜es 3.2 e 3.3 apresentam, respectivamente, o tratamento para os dados clássicos e os dados simbólicos.. 3.2. ´ ANALISE DE CLUSTER PARA DADOS USUAIS Seja um conjunto Ω = {ω1 , . . . , ωn } de n objetos para serem agrupados.. Seja. {Y1 , . . . , Yp } um conjunto de p variáveis que descrevem os objetos. Uma variável Y é uma fun¸caõ que associa para cada objeto ω ∈ Ω um resultado da realiza¸caõ de uma.

(34) ´ lise de cluster para dados usuais 3.2 ana. 21. caracter´ıstica observada Y (ω) = x. Cada objeto ωi (i = 1, . . . , n) é representado por um vetor de caracter´ısticas x = (x1i , . . . , xpi ) onde xji é o resultado da realiza¸caõ da caracter´ıstica j observada no objeto ωi . Uma matriz de dados é uma matriz com n linhas e p colunas onde as linhas são os objetos e as colunas são as variáveis que descrevem estes objetos. . Xn×p.       =      . . x11 . . . xj1 . . . xp1  .. .. .. .. ..   . . . . .  . xpi . . . xpi . . . xpi    .. .. .. .. ..  . . . . .   . x1n . . . xjn . . . xpn. . Os dados de entrada de uma análise exploratória são classificados de acordo com os seguintes tipos de variáveis.. 3.2.1. Tipos de Vari´ aveis. Os objetos a serem agrupados podem representar indiv´ıduos, espécies de animais, documentos, pa´ıses, etc. em diferentes aplica¸co˜es e as variáveis que descrevem cada indiv´ıduo podem ser qualitativas ou quantitativas. Por exemplo, se peso e cor são as variáveis usadas para descrever um objeto, o vetor x = (50, preta) é a representa¸caõ deste objeto que tem 50 kilos e cor preta. Seja O o conjunto de poss´ıveis resultados (dom´ınio) de uma variável. Uma variável é qualitativa o seu dom´ınio é um conjunto finito e os elementos deste conjunto são categorias. Uma variável é quantitativa se o seu dom´ınio é o conjunto de n´ umeros reais < ou O ⊆ <. As variáveis qualitativas e quantitativas são subdividias nos seguintes tipos [BD00]: (1) Qualitativas: a) nominal (exemplo, cor de um carro); b) ordinal (exemplo, temperatura da a´gua com O = {f ria, moderada, quente})..

(35) ´ lise de cluster para dados usuais 3.2 ana. 22. (2) Quantitativas: a) discretas (exemplo, n´ umero de computadores); b) cont´ınuas (exemplo, peso de um adulto).. 3.2.1.1. Vari´ aveis Qualitativas Uma variável é qualitativa nominal se o seu dom´ınio. O é finito e sem significado numérico onde não existe nenhuma ordena¸caõ entre os seus elementos. Exemplo: a marca de um carro com O = {F ord, P egeut, F iat}. Quando o dom´ınio destas variáveis tem somente duas categorias que, usualmente são codificadas como 0 ou 1: O = {0, 1}, estas variáveis são chamadas de bin´ arias. Exemplo: sexo de um indiv´ıduo onde 0 significa feminino e 1 significa masculino. Uma variável é qualitativa ordinal se o seu dom´ınio é finito e para cada par de objetos a, b ∈ O existe um ordem linear entre eles a ≺ b ou b ≺ a. Exemplo: a qualidade de um produto com O = {pobre, regular, boa} onde pobre ≺ regular ≺ boa. Na prática, existem situa¸co˜es onde os elementos de O tem uma ordena¸caõ generalizada no sentido que: (a) nem todo par de alternativas de a, b ∈ O pode ser comparado por ≺ (ordem parcial); (b) o sistema de pares ordenados a ≺ b pode ser desenhado segundo um diagrama de tipo hierarquia, reticulado ou rede tal que dois n´ıveis a, b verifica-se b ≺ a se e somente se existe uma sequência de ramos conectados que liga a e b. Exemplo: Sejam Y o n´ıvel educacional de uma cidade e O = {es=escola elementar, ef=escola fundamental, pe=pedagógico, tc=técnico, co=contabilidade, ci=cient´ıfico, un=universidade, it=instituto tecnológico}. A Figura mostra uma rede descrevendo uma ordena¸caõ generalizada entre os elementos de O. Nesta figura, dois tipos de escola a, b conectados no sentido a → b significa que um aluno só é aceito no tipo de escola b (universidade) se ele conclui o estudo em uma escola do tipo a (escola fundamental)..

(36) ´ lise de cluster para dados usuais 3.2 ana. 23. Figura 3.3. Uma rede para as institui¸co˜es educacionais de uma cidade. 3.2.1.2. Vari´ aveis Quantitativas Uma variável é quantitativa discreta se o seu. dom´ınio é um conjunto finito ou infinito enumerável de valores. Exemplo: n´ umero de acidentes no Recife O = {1, 2, . . .}.Uma variável é quantitativa cont´ınua se o range de seus poss´ıveis valores formam um intervalo. Exemplo: altura (em cm) de um adulto com O = [1, 50; 2, 20] ⊆ <. Para atenuar os efeitos de diferentes medidas de escalas quantitativas, é conveniente padronizar as variáveis transformando as variáveis originais em novas unidades. Por exemplo dado uma variável Yj a padroniza¸caõ pode ser definida como segue: 1. Cálculo do desvio absoluto médio, sj : sj =. 1 j (|x − mj | + . . . + |xjn − mj |) n 1. onde {xj1 , . . . , xjn } são n valores da variável j e mj é a média desta variável. 2. Cálculo da normal padrão, zj : zj =. 3.2.2. xij − mj sj. Medidas de Proximidades. As medidas de proximidade desempenham um papel importante na forma¸caõ de agrupamentos pois estas medidas permitem comparar pares de objetos baseando-se nas semelhan¸cas ou nas diferen¸cas existentes entre os mesmos. A proximidade para cada par.

(37) ´ lise de cluster para dados usuais 3.2 ana. 24. de objetos (ωi , ωk ) (i, k = 1, . . . , n) pode ser representada através de fun¸co˜es de similaridade s(i, k), medindo as semelhan¸cas entre i e k ou dissimilaridade d(i, k), medindo as diferen¸cas. Uma matriz de proximidades é uma matriz simétrica com n linhas e n colunas . Dn×n. . 0.     d(2, 1)   =  d(3, 1)   ..  .  . 0 d(3, 2) .. .. 0 .. .. d(n, 1) d(n, 2) . . . . . . 0.             . onde d(i, k) mede a proximidade entre dois objetos ik e k de um conjunto de dados Ω. Uma similaridade s é uma fun¸caõ s : Ω × Ω → R+ que satisfaz as seguintes propriedades para ∀ k, t, ∈ Ω (k, t, t = 1, . . . , n): 1. ∀k, t, ∈ Ω, s(k, t) ≥ 0. 2. ∀k ∈ Ω, s(k, k) ≥ maxt s(k, t). 3. ∀(k, t) ∈ Ω × Ω : s(k, t) = s(t, k). Uma dissimilaridade d é uma fun¸caõ d : Ω × Ω → R+ que satisfaz as seguintes propriedades para ∀ i, k, t ∈ Ω (i, k, t = 1, . . . , n): 1. ∀k, t, ∈ Ω, d(k, t) ≥ 0. 2. ∀k ∈ Ω, d(k, k) = 0. 3. ∀(k, t) ∈ Ω × Ω : d(k, t) = d(t, k). Seja ωi ∈ Ω. Uma distância d é uma fun¸caõ de dissimilaridade que satisfaz também as propriedades 1. a 3. e também a propriedade desigualdade triangular: 4. ∀(k, t) ∈ Ω × Ω : d(k, t) ≤ d(k, i) + d(t, i) As proximidades entre pares de objetos são calculadas dependendo do tipo da variável que descreve os objetos. Sejam xi = (x1i , . . . , xpi ) e xk = (x1k , . . . , xpk ) dois vetores pdimensionais descrevendo, respectivamente, os objetos i e k..

(38) ´ lise de cluster para dados usuais 3.2 ana 3.2.2.1. 25. Vari´ aveis Quantitativas Para este tipo de variável as medidas de distâncias. mais usuais são as métricas de Minkowski: distância Euclidiana. d(i, k) =. q. ((x1i − x1k )2 + . . . + (xpi − xpk )2. (.). e distância de Manhatan (ou City-Block) d(i, k) = |xi1 − xk1 | + . . . + |xpi − xpk |. 3.2.2.2. (.). Vari´ aveis Bin´ arias Para o par de objetos (i, k), cada um descrito por um. vetor de p variáveis binárias, onde xji,k = 0 indica ausência da variável j e xji,k = 1 indica presen¸ca. Considere a é o n´ umero de variáveis que assume o valor 1 para ambos os objetos i e k, b é n´ umero de variáveis que assume o valor 1 para o objeto i e o valor 0 para o objeto k, c é o n´ umero de variáveis que assume o valor 0 para o objeto i e o valor 1 para o objeto k e d é o n´ umero de variáveis que assume o valor 0 para ambos os objetos i e k. Existem diferentes medidas de similaridade e dissimilaridade entre dados binários baseadas nos termos a, b, c e d. As medidas mais usuais são [Gor99]: 1. Coeficiente de matching de Sokal-Michener s(i, k) =. a+d p. (.). d(i, k) =. b+c p. (.). 2. Coeficiente de Jaccard. com s(i, k) = 1 e d(i, k) = 1 se a = b = c = 0.. 3.2.2.3. Vari´ aveis Qualitativas Para o par de objetos (i, k), cada um descrito por. um vetor de p variáveis nominais (não ordenadas), onde cj é o n´ umero de poss´ıveis categorias da variável j..

(39) ´ lise de cluster para dados usuais 3.2 ana. 26. Seja δjlm um ´ındice de desacordo entre as categorias l e m da variável j onde δjlm = 1 se l 6= m e δjll = 0 se l = m (l, m = 1, . . . , p). A dissimilaridade entre os objetos i e k em n´ıvel da variável j (j = 1, . . . , p) é definida por dikj = δklm e a similaridade pode ser obtida por si,k,j = 1 − dikj . As medidas de dissimilaridade e similaridade global entre os objetos i e k podem ser dadas, respectivamente, pelos seguintes coeficientes de matching. d(i, k) =. Pp. s(i, k) =. Pp. j=1. dikj. p. j=1. sikj. p. (.). (.). Quando as variáveis qualitativas são do tipo ordinal, a dissimilaridade entre os objetos i e k poder ser calculada de maneira muito similar ao cálculo para dados quantitativos. O procedimento consiste das seguintes etapas: 1. Para cada variável j (j = 1, . . . , p) enumere as suas poss´ıveis categorias segundo a ordem existente entre as mesmas. Seja {1, . . . , mj } uma lista enumerada das categorias onde mj o n´ umero total de categorias da variável j. Para os objetos i j e k, substitua cada categoria xji,k (i, k = 1, . . . , n) pelo seu respectivo n´ umero ri,k j onde ri,k ∈ {1, . . . , mj }.. 2. Dado que cada variável tem um n´ umero diferente de categorias, uma normaliza¸caõ dos dados é necessária e isto pode ser realizado da seguinte forma:. j zi,k. j ri,k −1 = mj − 1. (.). com i, k = 1, . . . , n 3. A dissimilaridade entre os objetos i e k pode ser computada usando uma medida de distância para dados quantitativos aplicada aos vetores de dados normalizados zji e zjk ..

(40) ´ lise de cluster para dados usuais 3.2 ana 3.2.2.4. 27. ´ comum os objetos de uma análise de dados serem deVari´ aveis mistas E. scritos por vários tipos de variáveis por exemplo, um indiv´ıduo tem como descri¸caõ idade=34 (variável quantitativa), estado civil=casado (variável nominal) e fumante=não (variável binária). Nestas situa¸co˜es, a proximidade entre os objetos i e k pode ser medida por: Pp. j=1 d(i, k) = P p. j j ωik dik. j=1. s(i, k) =. j ωik. Pp. j j j=1 ωik sik Pp j j=1 ωik. (.). (.). onde djik e sjik são, respectivamente, a dissimilaridade e similaridade calculada de acordo j com o tipo da variável j e ωik é um peso atribu´ıdo a variável j que é usualmente 1.. 3.2.3. M´ etodos de cluster. Diferentes abordagens têm sido propostas para agrupar dados. Em análise de dados distingui-se dois grandes grupos de métodos: hierárquicos e de parti¸caõ ([Gor99], [Eve93] [JD88] e [JMF99]). Uma classifica¸caõ hierárquica é uma sequência de parti¸co˜es que pode iniciar com n classes unitárias e terminar com uma u ńica classe contendo todos os objetos. Uma classifica¸caõ de parti¸caõ é uma simples parti¸caõ de classes disjuntas As Figuras 3.4 (a) e (b) ilustram, respectivamente, as estruturas de classifica¸caõ hierárquica e de parti¸caõ.. Figura 3.4. Estruturas de Classifica¸caõ.