Agrupamento de dados simbólicos intervalares usando funções de Kenel

Texto

(1)UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO. Tese de Doutorado. Agrupamento de Dados Simbólicos Intervalares usando funções de Kernel. Anderson Fabiano B. F. da Costa. Recife - Pernambuco - Brasil Agosto de 2011.

(2) UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO. Anderson Fabiano Batista Ferreira da Costa. Agrupamento de Dados Simbólicos Intervalares usando funções de. Kernel. Tese apresentada à Coordenação do Programa de Pós-Graduação em Ciência da Computação do Centro de Informática Universidade Federal de Pernambuco, em cumprimento às exigências do Programa de Doutorado em Ciência da Computação.. Renata Souza, Dra.. Orientadora. Recife - Pernambuco - Brasil Agosto de 2011.

(3)

(4) iv. Catalogação na fonte Bibliotecária Jane Souto Maior, CRB4-571 Costa, Anderson Fabiano Batista Ferreira da. Agrupamento de dados simbólicos intervalares usando funções de Kenel / Anderson Fabiano Batista Ferreira da Costa - Recife: O Autor, 2011. xiv, 107 folhas: Il., fig., tab. Orientador: Renata Maria Cardoso Rodrigues de Souza. Tese (doutorado) - Universidade Federal de Pernambuco. CIn, Ciência da Computação, 2011. Inclui bibliografia e apêndice. 1. Ciência da Computação. 2 Inteligência Computacional. 3. Análise de dados simbólicos. I. Souza, Renata Maria Cardoso Rodrigues de (orientadora). II. Título. 004. CDD (22. ed.). MEI2011 – 187.

(5) A Deus por seu el apoio, à minha esposa Maria, à meus pais Luiz e Valdete e meus irmãos Alysson, Alessandro, Arllington e Juninho, DEDICO..

(6) AGRADECIMENTOS Primeiramente a Deus, por todos os propósitos que tem reservado para minha vida. À minha esposa Maria, pelo seu incentivo, compreensão, companheirismo e carinho, sem os quais as diculdades encontradas no decorrer deste trabalho não teriam sido superadas. À minha mãe Valdete e aos meus irmãos Alysson, Alessandro, Arllington e Juninho pelos ensinamentos de vida de grande valia que contribuíram sobremaneira na formação de meu caráter. Um agradecimento especial a professora Renata Souza pela orientação neste trabalho, bem como pela participação valiosa em minha formação acadêmica e prossional. Agradeço a ela pelos ensinamentos, conselhos e pela motivação mesmo nos momentos mais difíceis. Aos membros da banca examinadora pelas contribuições e direcionamentos que vieram no intuito de enriquecer este trabalho. Aos meus companheiros de doutorado Marco, Jeísa, Reinaldo, Luciana, Carlos e Germano pela nossa grande amizade e pelas discussões que resultaram em melhorias neste trabalho. Ao meu parceiro de pesquisa e amigo Bruno Pimentel pela grande contribuição nas discussões técnicas e publicações durante o doutorado. Aos amigos Daniella, César, Iana Daya, Petrônio, Mary Roberta, Alex, Ianna, José Antônio, Luciana, Marcelo Siqueira e Kléber pelo grande incentivo e pela amizade cultivada entre nós. A todos os outros amigos que contribuíram de maneira direta ou indireta para realização deste trabalho..

(7) RESUMO A Análise de dados simbólicos (ADS) ou. Symbolic Data Analysis é uma nova abordagem na área. de descoberta automática de conhecimentos que visa desenvolver métodos para dados descritos por variáveis onde existem conjuntos de categorias, intervalos ou distribuições de probabilidade. O objetivo deste trabalho é estender métodos de agrupamento clássicos para dados simbólicos intervalares baseados em funções de. kernel.. A aplicação de funções de. kernel. tem sido am-. plamente utilizado na classicação não supervisionada para dados clássicos e apresenta bons resultados quando o conjunto apresenta uma disposição não-linear dos dados.. No entanto,. na literatura de ADS ainda necessita de métodos para identicar grupos não lineares.. hard ). trabalho engloba os paradigmas de agrupamento rígido ( agrupamentos utilizando as funções de. kernel. e difuso (. fuzzy ),. Este. e realiza tais. em um espaço de alta dimensão, conhecido como. espaço de características. Os métodos propostos neste trabalho consideram duas variantes comumente utilizadas em abordagens de. kernel, onde uma considera que o protótipo dos grupos. está denido neste espaço de características de alta dimensão e outra que considera o protótipo denido no espaço original de entradas. Os métodos propostos são comparados com variações do método K-médias existentes na literatura de ADS através de experimentos realizados com dados simulados e dados reais intervalares fazendo uso do experimento Monte Carlo e métricas estatísticas que evidenciam o desempenho superior dos métodos propostos.. Palavras-chave:. Análise de Dados Simbólicos, Agrupamento, Kernel, K-médias, Dados Sim-. bólicos do tipo Intervalo.

(8) ABSTRACT Symbolic Data Analysis (SDA) is a new domain in the area of knowledge discovery that aims to provide suitable methods for data described through multi-valued variables, where there are sets of categories, intervals, or weight (probability) distributions. The objective of this work is to extend classical clustering methods for symbolic interval data based on kernel functions. The application of kernel functions have been widely used in unsupervised classication for data classics and gives good results when the data set is presented in non-linear shapes. However, the literature still needs ADS methods for identifying non-linear groups. This work includes the hard and fuzzy clustering paradigms, and performs them using the kernel functions in a high dimensional space, called feature space. The methods proposed in this paper considers two approaches commonly used in kernel methods, where one, clustering in feature space, is made by mapping each pattern using the non-linear function and then computing centroids in feature space and another one look for centroids in input space. The proposed methods are compared with K-means adaptive methods existing literature ADS through experiments with simulated data and real data interval of the experiment using Monte Carlo and statistical metrics that show a better performance of the proposed methods.. Keywords:. Symbolic Data Analysis, Clustering, Kernel, K-means, Interval data, Non-linear..

(9) SUMÁRIO Capítulo 1 Introdução. 3. 1.1. Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 1.2. Organização da Tese. 8. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. Capítulo 2 Fundamentação Teórica 2.1. 2.2. 10. Análise de Agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 10. 2.1.1. Medidas de Similaridade . . . . . . . . . . . . . . . . . . . . . . . . . . .. 12. 2.1.2. Métodos para Agrupamento de Dados. . . . . . . . . . . . . . . . . . . .. 14. 2.1.3. K-médias e suas extensões . . . . . . . . . . . . . . . . . . . . . . . . . .. 17. 2.1.3.1. K-médias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 17. 2.1.3.2. c-médias Difuso . . . . . . . . . . . . . . . . . . . . . . . . . . .. 18. 2.1.3.3. Kernel K-médias. . . . . . . . . . . . . . . . . . . . . . . . . . .. 20. 2.1.3.4. Kernel Difuso c-médias . . . . . . . . . . . . . . . . . . . . . . .. 23. Análise de Agrupamento para Dados Simbólicos . . . . . . . . . . . . . . . . . .. 23. 2.2.1. Tabela de Dados Simbólicos. 24. 2.2.2. Tipos de Variáveis Simbólicas. 2.2.3. Métodos para Agrupamento de Dados Simbólicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 27. . . . . . . . . . . . . .. 28. 2.2.3.1. Métodos Hierárquicos. . . . . . . . . . . . . . . . . . . . . . . .. 29. 2.2.3.2. Métodos Particionais . . . . . . . . . . . . . . . . . . . . . . . .. 30. Capítulo 3 Métodos de Agrupamento baseados em funções Kernel para Dados Simbólicos Intervalares. 36.

(10) Sumário. x. Kernel. 3.1. Funções de. 3.2. Métodos baseados em. 3.3. para Intervalos . . . . . . . . . . . . . . . . . . . . . . . . . .. kernel. para particionamento no espaço de características .. 39. 3.2.1. Método K-médias (MKM-EC) . . . . . . . . . . . . . . . . . . . . . . . .. 40. 3.2.2. Método c-médias difuso (McM-EC) . . . . . . . . . . . . . . . . . . . . .. 41. Métodos baseados em. Kernel. para particionamento no espaço de entrada . . . .. 43. 3.3.1. Método K-médias (MKM-EE) . . . . . . . . . . . . . . . . . . . . . . . .. 44. 3.3.2. Método c-médias difuso (McM-EE). 47. . . . . . . . . . . . . . . . . . . . . .. Capítulo 4 Apresentação e Análise dos Resultados 4.1. 37. 52. Cálculo do Índice de Validação . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 52. 4.1.1. Índice Corrigido de Rand (CR). . . . . . . . . . . . . . . . . . . . . . . .. 53. 4.1.2. Índice de Davies e Bouldin (DB). . . . . . . . . . . . . . . . . . . . . . .. 54. 4.2. Considerações sobre o Kernel Gaussiano. . . . . . . . . . . . . . . . . . . . . . .. 54. 4.3. Experimentos e Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 56. 4.3.1. 56. Conjunto de Dados Sintéticos 4.3.1.1. Análise dos resultados para as funções de componentes. 4.3.1.2. . . . . . . . . . . . . . . . . . . . . . . . .. xo . . . . . . . . . . .. 63. Resultados dos métodos de agrupamento considerando o parâmetro. sigma. xo e calculado. . . . . . . . . . . . . . . . . . . . . . . .. 68. Resultados para os métodos de agrupamento com abordagem difusa (. 4.3.2. 61. Resultados dos métodos de agrupamento com abordagem rígida. hard ) considerando o parâmetro sigma. 4.3.1.4. de uma e duas. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. ( 4.3.1.3. kernel. fuzzy ). . . . . . . . . . . . . . . . . . . . . . . . . . . . .. Conjunto de Dados Reais do Tipo Intervalo. 72. . . . . . . . . . . . . . . . .. 75. 4.3.2.1. Conjunto de Dados: Agaricus . . . . . . . . . . . . . . . . . . .. 75. 4.3.2.2. Conjunto de Dados: Fluxos de Água. . . . . . . . . . . . . . . .. 77. 4.3.2.3. Conjunto de Dados: Temperatura das Cidades . . . . . . . . . .. 79. 4.3.2.4. Conjunto de Dados: Carros. 82. . . . . . . . . . . . . . . . . . . . ..

(11) Sumário. xi. 4.3.2.5. Conjunto de Dados: Peixes. . . . . . . . . . . . . . . . . . . . .. Capítulo 5 Considerações Finais e Trabalhos Futuros 5.1. Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 84. 86. 88. Referências Bibliográcas. 90. Apêndice A Resultados Complementares. 99. Apêndice B Testes de Hipóteses. 103.

(12) LISTA DE FIGURAS. 1.1. Conjunto de Dados não linear descrito por duas variáveis intervalares. . . . . . .. 7. 1.2. Conjunto de Dados não linear descrito por três variáveis intervalares . . . . . . .. 7. 2.1. Mapeamento do espaço de entradas para o espaço de características. 4.1. Conjunto de Dados 1 do tipo Intervalo com classes de tamanho e forma diferentes 58. 4.2. Conjunto de Dados 2 do tipo Intervalo com quatro classes. 4.3. Conjunto de Dados 3 do tipo Intervalo com três classes dispostos de maneira não. . . . . . . .. . . . . . . . . . . . .. 20. 59. linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 59. 4.4. Conjunto de Dados 4 do tipo Intervalo com quatro classes. . . . . . . . . . . . .. 60. 4.5. Conjunto de Dados 5 do tipo Intervalo com quatro classes. . . . . . . . . . . . .. 60. 4.6. DB. Kernel. x sigma (σ ) para conjunto de dados 1 utilizando método MKM-EC .. 61. 4.7. DB. Kernel. x sigma (σ ) para conjunto de dados 2 utilizando método MKM-EC .. 62. 4.8. DB. Kernel. x sigma (σ ) para conjunto de dados 3 utilizando método MKM-EC .. 62. 4.9. DB. Kernel. x sigma (σ ) para conjunto de dados 4 utilizando método MKM-EC .. 62. 4.10 DB. Kernel. x sigma (σ ) para conjunto de dados 5 utilizando método MKM-EC .. 63. 4.11 Conjunto de Dados 2 com as variações de intervalo. . . . . . . . . . . . . . . . .. 65. Kernel. x sigma (σ ) para conjunto de dados 1 utilizando método MKM-EC .. 69. 4.13 Família dos Cogumelos Agaricus . . . . . . . . . . . . . . . . . . . . . . . . . . .. 76. 4.14 Conjunto de dados: Temperatura das cidades. 81. 4.12 DB. . . . . . . . . . . . . . . . . . . ..

(13) LISTA DE TABELAS. Kernel. .. 2.1. Exemplos de Funções de. . . . . . . . . . . . . . . . . . . . . . . . . . .. 2.2. Tabela com dados clássicos (BILLARD; DIDAY, 2006). . . . . . . . . . . . . . .. 25. 2.3. Descrição dos dados da Tabela 2.2 . . . . . . . . . . . . . . . . . . . . . . . . . .. 26. 2.4. Tabela de Dados Simbólicos (Descrições dos conceitos. 4.1. Resultado do Índice CR para os métodos de agrupamento baseado em. wu ). . . . . . . . . . . . .. Resultado do Índice CR para os métodos de agrupamento baseado em. Resultado do Índice CR para os métodos de agrupamento baseado em. Resultado do Índice CR para os métodos de agrupamento baseado em. Resultado do Índice CR para os métodos de agrupamento baseado em. Resultado do Índice CR para os métodos de agrupamento baseado em. Resultado do Índice CR para os métodos de agrupamento baseado em. Resultado do Índice CR para os métodos de agrupamento baseado em. 70. Kernel. para abordagem DBSig: Conjunto de Dados 4 com 2 classes. . . . . . . . . . . . 4.8. 67. Kernel. para abordagem DBSig: Conjunto de Dados 3 com 3 classes. . . . . . . . . . . . 4.7. 67. Kernel. (rígido) e métodos adaptativos (a direita): Conjunto de Dados 5 com 2 classes. . 4.6. 66. Kernel. (rígido) e métodos adaptativos (a direita): Conjunto de Dados 4 com 2 classes. . 4.5. 64. Kernel. (rígido) e métodos adaptativos (a direita): Conjunto de Dados 3 com 3 classes. . 4.4. 64. Kernel. (rígido) e métodos adaptativos (a direita): Conjunto de Dados 2 com 4 classes. . 4.3. 26. Kernel. (rígido) e métodos adaptativos (a direita): Conjunto de Dados 1 com 4 classes. . 4.2. 21. 70. Kernel. (rígido): Conjunto de Dados 2 com 4 classes. . . . . . . . . . . . . . . . . . . . .. 71.

(14) LISTA DE TABELAS. 4.9. xiv. Resultado do Índice CR para os métodos de agrupamento baseado em. Kernel. (rígido): Conjunto de Dados 3 com 3 classes. . . . . . . . . . . . . . . . . . . . .. 4.10 Resultado do Índice CR para os métodos de agrupamento baseado em. 71. Kernel. (rígido): Conjunto de Dados 5 com 2 classes. . . . . . . . . . . . . . . . . . . . .. 71. 4.11 Resultado do Índice CR para os métodos de agrupamento difuso baseado em. Kernel. e o método c-médias difuso adaptativo (a direita): Conjunto de Dados 2. com 4 classes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 73. 4.12 Resultado do Índice CR para os métodos de agrupamento difuso baseado em. Kernel. e o método c-médias difuso adaptativo (a direita): Conjunto de Dados 3. com 3 classes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 73. 4.13 Resultado do Índice CR para os métodos de agrupamento difuso baseado em. Kernel. e o método c-médias difuso adaptativo (a direita): Conjunto de Dados 4. com 2 classes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 73. 4.14 Resultado do Índice CR para os métodos de agrupamento difuso baseado em. Kernel. e o método c-médias difuso adaptativo (a direita): Conjunto de Dados 5. com 2 classes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4.15 Cogumelos da família. Agaricus. . . . . . . . . . . . . . . . . . . . . . . . . . . .. 74. 76. 4.16 Resultado do Índice CR métodos de agrupamento rígidos: Conjunto de Dados Agaricus.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 76. 4.17 Resultado do Índice CR para os métodos de agrupamento difusos: Conjunto de Dados Agaricus. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4.18 Fluxo de Água da cidade de Barcelona. . . . . . . . . . . . . . . . . . . . . . . .. 77. 78. 4.19 Resultado do Índice CR métodos de agrupamento rígidos: Conjunto de Dados Fluxos de Água. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 79. 4.20 Resultado do Índice CR para os métodos de agrupamento difusos: Conjunto de Dados Fluxos de Água. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 79. 4.21 Valores mínimo e máximo de temperatura de 37 cidades (em graus centígrado) .. 81.

(15) LISTA DE TABELAS. xv. 4.22 Resultado do Índice CR métodos de agrupamento rígidos: Conjunto de Dados Temperatura das Cidades.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 82. 4.23 Resultado do Índice CR para os métodos de agrupamento difusos: Conjunto de Dados Temperatura das Cidades.. . . . . . . . . . . . . . . . . . . . . . . . . . .. 4.24 Conjunto de Dados Carros com 8 variáveis do tipo intervalo. . . . . . . . . . . .. 82 82. 4.25 Resultado do Índice CR métodos de agrupamento rígidos: Conjunto de Dados Carros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 83. 4.26 Resultado do Índice CR para os métodos de agrupamento difusos: Conjunto de Dados Carros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.27 Conjunto de dados de Peixes descritos por 13 variáveis intervalares.. . . . . . . .. 83 84. 4.28 Resultado do Índice CR métodos de agrupamento rígidos: Conjunto de Dados Peixes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 84. 4.29 Resultado do Índice CR para os métodos de agrupamento difusos: Conjunto de Dados Peixes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. A.1. Resultado complementares do Índice DB referente ao gráco da Figura 4.6: Conj. de Dados 1.. A.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 99. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100. Resultado complementares do Índice DB referente ao gráco da Figura 4.9: Conj. de Dados 4.. A.5. 99. Resultado complementares do Índice DB referente ao gráco da Figura 4.8: Conj. de Dados 3.. A.4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. Resultado complementares do Índice DB referente ao gráco da Figura 4.7: Conj. de Dados 2.. A.3. 84. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100. Resultado complementares do Índice DB referente ao gráco da Figura 4.10: Conj. de Dados 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100. A.6. Partições geradas para o conjunto de dados Temperatura das cidades. . . . . . . 101. A.7. Partições geradas para o conjunto de dados Agaricus. A.8. Partições geradas para o conjunto de dados Carros.. . . . . . . . . . . . . . . . 101 . . . . . . . . . . . . . . . . 102.

(16) LISTA DE TABELAS. 1. A.9. Partições geradas para o conjunto de dados Peixes.. B.1. Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.1. B.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105. Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.8. B.9. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105. Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.7. B.8. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104. Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.6. B.7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104. Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.5. B.6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104. Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.4. B.5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104. Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.3. B.4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103. Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.2. B.3. . . . . . . . . . . . . . . . . 102. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105. Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.9. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105. B.10 Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106. B.11 Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.11. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106. B.12 Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.12. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106. B.13 Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.13. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106.

(17) Lista de Tabelas. 2. B.14 Estatísticas de teste t-Student emparelhados referentes aos resultados da Tabela 4.14. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107.

(18) CAPÍTULO 1. INTRODUÇÃO. Nos últimos anos com o crescente avanço nas tecnologias de armazenamento de dados, na velocidade e capacidade dos sistemas, e uma melhoria considerável nos sistemas de gerenciamento de banco de dados, tem possibilitado a geração de bases de dados a partir desta grande quantidade de dados. Estima-se que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus computadores e dispositivos de armazenamento. As bases de dados nas empresas da administração pública ou da iniciativa privada são praticamente onipresentes e aumentam de volume em um ritmo elevado (DIDAY; NOIRHOMME-FRAITURE, 2008). A mineração desses dados no intuito de extrair conhecimento útil a serem empregados na tomada de decisões tornou-se um fator ainda mais relevante.. No entanto, em virtude desse. crescente volume de dados, os métodos tradicionais de análise de dados têm se tornado inapropriados, pois não conseguem analisar o conteúdo das informações com a nalidade de obter conhecimentos importantes. A necessidade de transformação desse volume de dados armazenados em informações signicativas é bastante clara, porém sua análise ainda é lenta e dispendiosa. Em aplicações de tomada de decisão é frequentemente necessário levar em consideração a imprecisão, incerteza ou variabilidade presente nos dados para representar a informação disponível. Considere, por exemplo, um paciente que tem sua pressão arterial acompanhada pelo seu médico. Um paciente saudável pode ter o valor de sua pressão oscilando no intervalo. [115, 118].. Um outro paciente, também saudável, poderia ter sua pressão oscilando no intervalo. [114, 116].. Uma análise clássica utilizando o ponto médio dos intervalos perderia a informação. sobre a variação de pressão no estado saudável para cada paciente. Em outra situação, uma companhia de seguros de saúde possui um banco de dados com milhares de informações a respeito das consultas de seus segurados, onde cada entrada desse banco armazena: o tipo de especialista consultado, o local do exame, os exames realizados, os.

(19) 4. medicamentos solicitados, etc. Entretanto, a seguradora pode não estar interessada em uma consulta em especial, mas em todas as consultas realizadas por um dado cliente. Neste caso, todas as consultas realizadas pelo cliente podem ser agregadas, produzindo dados simbólicos. Assim, seria extremamente atípico que o peso (kg) desse determinado cliente, em todas as suas consultas, fosse igual a. [68kg, 73kg].. 70kg .. No entanto, poderíamos observar que seu peso oscilou no intervalo. Em um outro cenário, poderíamos supor que um banco não estaria interessado no. valor monetário na conta corrente de um certo indivíduo, mas na variação desse valor ao longo de um ano. Observe que, nesses casos, a representação clássica de dados não é capaz de representar essas nuances e, por isso, outros tipos de representação de dados são necessárias. A representação de conceitos ou fenômenos do mundo real a partir de dados pontuais que representam valores únicos, pode levar à perda de informação. Tradicionalmente, vetores de valores reais têm sido usados para modelar características em um domínio especíco. do mundo real sejam descritas de forma tabular considerando. n. Fazendo com que situações indivíduos descritos por. m. variáveis. Diante desse contexto, é necessário um novo tipo de análise de dados que nos permita representar a complexidade presente na realidade, permitindo a representação das variações internas e incertezas presentes na estrutura dos dados. Os dados simbólicos são adequados para lidar com dados imprecisos, resultantes de medidas com imprecisão relativa ou estimadas por intervalos de conança, limites de um conjunto de possíveis valores de um item ou variação da extensão de uma variável através do tempo ou através da redução de conjuntos de dados em um número reduzido de pequenos grupos de informação. Esses tipos de dados são objetos de estudo, principalmente, da Análise de Dados Simbólicos (ADS) (BOCK; DIDAY, 2000). Na análise de dados simbólicos (DIDAY; NOIRHOMME-FRAITURE, 2008) o conhecimento extraído a partir dos conjunto de dados, é representado por dados mais complexos, chamados de dados simbólicos, uma vez que permitem levar em conta variação e/ou incerteza presente nos dados.. Os dados simbólicos são descritos por variáveis multivaloradas que po-. dem não somente assumir um valor numérico ou categórico, mas um conjunto de categorias, intervalos ou distribuições de pesos. A ADS fornece não somente os instrumentos adequados para representar e analisar dados agregados, como também a possibilidade de modelar e extrair.

(20) 1.1 Motivação. 5. conceitos presentes no dados. A análise de dados simbólicos tem sido uma promissora abordagem para aplicações em tratamento de imagens, comércio eletrônico, ciências biológicas, perl de consumidores, etc (DIDAY; NOIRHOMME-FRAITURE, 2008). A intenção da ADS é estender os métodos tradicionais com dados clássicos para métodos com dados simbólicos através da generalização ou desenvolvimento de métodos exploratórios, estatísticos e representações grácas para esses dados (BOCK; DIDAY, 2000). Esta Tese está inserida neste contexto de adaptação de técnicas clássicas para a Análise de Dados Simbólicos.. 1.1. MOTIVAÇÃO A sociedade humana desde os primórdios de sua existência fez uso de algum processo de. classicação ao longo da história de seu desenvolvimento (ANDERBERG, 1973).. Com isso,. é bastante comum que em um conjunto de dados de grande escala surja a necessidade de classicá-los ou agrupá-los dentro de um conjunto de categorias. No intuito de aprender sobre um novo objeto ou compreender um novo fenômeno, as pessoas sempre tentam procurar características que descrevem estes elementos. Em seguida, comparam com outros objetos ou fenômenos conhecidos, baseados em alguma similaridade ou proximidade entre eles, seguindo certos padrões ou regras.. Assim, o agrupamento de dados tornou-se um assunto muito im-. clustering ). portante e a análise de agrupamento (. tem sido utilizada em diversos domínios de. aplicações como mineração de dados, reconhecimento de padrões, bioinformática e assim por diante (JAIN; MURTY; FLYNN, 1999) (JAIN, 2010). A análise de agrupamento é uma técnica exploratória multivariada que se propõe a encontrar classes homogêneas a partir de um conjunto de objetos (indivíduos) (JAIN; MURTY; FLYNN, 1999). Um dos mais populares algoritmos de agrupamento é o K-Médias, no qual grupos homogêneos são identicados, minimizando o erro do agrupamento denido como a soma das distâncias euclidianas quadradas entre cada conjunto de dados pontuais e os correspondentes centros dos aglomerados.. Diversas extensões do algoritmo K-médias foram propostas. com diferentes enfoques (KAUFMAN; ROUSSEEUW, 2005) (HONG; KWONG, 2009) (JAIN, 2010). A simplicidade desses algoritmos de agrupamento é uma característica importante, assim.

(21) 1.1 Motivação. 6. como a grande variedade de problemas de particionamento não-supervisionado para os quais são usados (JAIN, 2010). Um dos grandes desaos em análise de agrupamento está em realizar a separação das classes quando os dados estão distribuídos de maneira arbitrária. De um modo geral, quando isto ocorre, costuma-se dizer que os dados são não-linearmente separáveis. O método K-médias apresenta resultados insatisfatórios neste tipo de cenário, o que motivou a evolução de outros métodos de agrupamento que apresentam maior eciência na separação destes tipos de grupos.. Girolami (GIROLAMI, 2002) desenvolveu um algoritmo capaz de produzir separações. não lineares entre grupos, transformando o espaço de entradas em um espaço de alta dimensão e então executar o agrupamento neste novo espaço; este mapeamento para o novo espaço de alta dimensão é realizado através de funções de. Kernel.. Este agrupamento baseado em. ganhou grande importância e diversos trabalhos com paradigmas rígido (. Kernel. hard ) e difuso (fuzzy ). têm sido introduzidos com esse propósito como os encontrados em (ZANG D. Q. E CHEN, 2003) (TAN; CHEN; ZHANG, 2004) (DHILLON; GUAN; KULIS, 2004) (KIM et al., 2005) (AWAN; SAP, 2006) (FILIPPONE et al., 2008) (TZORTZIS; LIKAS, 2009).. Kernel. O métodos de. também têm sido aplicados em outras áreas como para estimação de densidade e análise. discriminante (GHOSH, 2008). Com relação aos métodos de agrupamento para dados simbólicos, a ADS tem fornecido técnicas para o agrupamento de dados simbólicos do tipo intervalo, principalmente no caso dos algoritmos de agrupamento dinâmicos com distâncias adaptativas, que são capazes de reconhecer grupos de formas e tamanhos diferentes. Estes métodos de agrupamento utilizam distâncias que mudam a cada iteração, e podem ser a mesma para todos os grupos ou não (distância adaptativa única ou por classe). De Carvalho e Lechevalier (CARVALHO; LECHEVALLIER, 2009b) apresentaram métodos de agrupamento para os dados simbólicos do tipo intervalo para distância adaptativa única com as medidas. City-Block e Hausdor.. Além disso, De Carvalho e. Lechevalier (CARVALHO; LECHEVALLIER, 2009a) propuseram métodos de particionamento dinâmico para os intervalos com base em distâncias adaptativas quadráticas.. Mais recen-. temente, em (CARVALHO; SOUZA, 2010), foram propostos métodos de reconhecimento de padrões não supervisionados para dados simbólicos mistos com base na metodologia de agrupamento dinâmico com distância adaptativa única e por classe..

(22) 1.1 Motivação. 7. Figura 1.1.. Figura 1.2.. Conjunto de Dados não linear descrito por duas variáveis intervalares. Conjunto de Dados não linear descrito por três variáveis intervalares. Embora estes recentes trabalhos da literatura da análise de dados simbólicos indique avanços nos métodos de agrupamento para intervalo, os métodos de agrupamento para dados simbólicos existentes não são capazes de separar da maneira desejada grupos não lineares no espaço de entrada.. Por exemplo, a Figura 1.1 exibe um conjunto de dados descrito por duas variáveis. intervalares. A Figura 1.2 exibe um conjunto de dados com espécies de uma família de cogumelos chamadas. agaricus. e cada espécie é descrita por três atributos do tipo intervalo: largura do. píleo, espessura da estipe e largura dos esporos. Nota-se que em ambas as guras estão presentes grupos de natureza não linear no espaço de entrada. Para agrupar os conjuntos de dados representados pelas guras 1.1 e 1.2, são necessários métodos com habilidade de encontrar hiperplanos capazes de separar esses dados. O uso de. Kernel. permite realizar tal separação através do mapeamento implícito do espaço de dados. originais em um espaço de alta dimensionalidade denominado espaço de características. Como.

(23) 1.2 Organização da Tese. 8. mencionado no parágrafo anterior, mesmo com os recentes avanços nos métodos de agrupamento para dados simbólicos, estes ainda apresentam limitações quando se trata de separação de grupos não lineares no espaço de entrada. Por esta razão, o principal objetivo deste trabalho é contribuir com a literatura de ADS através da extensão de métodos de agrupamento para dados simbólicos intervalares através do uso de funções. Kernel.. Especicamente esta tese apresentará. duas versões do método K-médias e do método difuso c-médias aplicadas a dados simbólicos intervalares e fazendo uso de funções de. 1.2. Kernel. para identicação de grupos não lineares.. ORGANIZAÇÃO DA TESE Além deste capítulo, nesta tese é apresentada em mais quatro capítulos listados a seguir.. Capítulo 2 Este capítulo se divide em duas grandes seções sobre análise de agrupamento para dados clássicos e para dados simbólicos.. Na primeira seção são apresentadas algumas denições e. algoritmos de agrupamento com uma maior ênfase nas extensões do método K-médias.. A. seção seguinte de análise de agrupamento para dados simbólicos apresenta a tabela de dados simbólicos, alguns tipos de dados simbólicos existentes e uma breve descrição dos métodos de agrupamento (particionais e hierárquico) da análise de dados simbólicos.. Capítulo 3 Neste capítulo são introduzidos os métodos de agrupamento para o particionamento de conjunto de dados simbólicos do tipo intervalo como extensões do método K-médias utilizando funções de. Kernel.. Capítulo 4 Este capítulo apresenta os resultados dos experimento do processo de agrupamento fornecidos pelos métodos propostos utilizando conjuntos de dados sintéticos e reais para intervalos..

(24) 1.2 Organização da Tese. 9. Capítulo 5 Neste capítulo, são apresentadas as considerações nais desta tese, bem como os futuros trabalhos que poderão ser realizados a partir das ideias aqui apresentadas..

(25) CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA. Neste capítulo é realizada uma revisão de análise de agrupamento para dados clássicos onde são apresentados conceitos relacionados ao contexto deste trabalho e métodos de agrupamento, e em seguida é apresentada brevemente a análise de agrupamento para dados simbólicos.. 2.1. ANÁLISE DE AGRUPAMENTO Uma das mais básicas habilidades dos seres vivos envolve o agrupamento de objetos similares. para produzir uma classicação. Desde os primórdios do seu surgimento, o homem, por exemplo, obteve habilidades para identicar que muitos objetos possuíam certas propriedades, tais como a usabilidade de ferramentas, a ferocidade de animais, entre outros. Desta forma, surge a ideia de agrupamento (. clustering ), no qual os objetos são reunidos de modo que a semelhança entre. eles é maior do que qualquer outra classe existente. A análise de agrupamento visa agrupar elementos de dados baseando-se na similaridade entre eles.. Os grupos são determinados de forma a obter-se homogeneidade dentro de cada. grupo e heterogeneidade entre eles. A necessidade de classicar elementos em grupos por suas características está presente em várias áreas do conhecimento, como nas ciências biológicas, ciências sociais e comportamentais, ciências da terra, medicina, informática, entre outras. O resultado nal do estudo de classicação é normalmente uma partição de um conjunto de objetos em classes disjuntas tal que existe uma similaridade entre objetos de uma mesma classe. Dependendo do tipo de tratamento a ser realizado nos objetos pode resultar em diferentes visões do processo de classicação (GORDON, 1999). Denomina-se agrupamento, a classicação não supervisionada de padrões (observações, objetos, itens, pontos num espaço multidimensional ou vetores de atributos ou de medidas) em grupos (. clusters ou classes).. É uma das técnicas utilizadas em análise exploratória de dados, na.

(26) 2.1 Análise de Agrupamento. 11. qual o analista tenta familiarizar-se com os dados e descobrir estruturas de padrões intrínsecos aos dados. É importante entender a diferença entre análise de agrupamento (classicação não supervisionada) e análise discriminante (classicação supervisionada). Na classicação supervisionada, há o fornecimento dos padrões e seus rótulos; o problema é então rotular um novo padrão para o qual o rótulo não foi informado. Tipicamente, os padrões rotulados são utilizados para aprender a descrição das classes (fase de treinamento) e esta informação aprendida, por sua vez, é usada para rotular um novo padrão. No caso da classicação não supervisionada, como já mencionado, o problema é organizar em grupos um conjunto de padrões não rotulados de modo que os grupos tenham um signicado relevante. Sob certo ponto de vista, rótulos estão presentes no processo de agrupamento, cada grupo formado poderia ser entendido como um rótulo, mas estes rótulos são obtidos a partir dos próprios dados. O objetivo do uso de métodos de agrupamento é a obtenção de uma abstração de dados, ou seja, uma representação simples e compacta de um conjunto de dados (JAIN; MURTY; FLYNN, 1999). Tanto as máquinas quanto as pessoas se beneciam desta representação seja no processamento eciente, seja na compreensão da estrutura nos dados. O agrupamento é um processo subjetivo cuja solução possível reete o conhecimento que se tem sobre os dados. O resultado deve atender a uma aplicação denida previamente (JAIN; MURTY; FLYNN, 1999). É por esta razão que agrupar não é uma tarefa simples e não possui um algoritmo de uso geral. As máquinas têm desempenho menor ou igual ao dos humanos quando se trata da análise de conjuntos de dados com uma ou duas dimensões. Entretanto, os problemas reais frequentemente envolvem muitas dimensões, situação esta em que as máquinas conseguem acessar mais ecientemente a estrutura embutida nos conjuntos de dados. Para revelar a estrutura característica dos diferentes conjuntos de dados, há grande número de métodos e estratégias como apresentado em (JAIN; MURTY; FLYNN, 1999). As metodologias de agrupamento recebem diversas nomenclaturas, terminologias e suposições nas diversas áreas em que encontram aplicação.. Em todas elas, os agrupamentos. possibilitam a exploração das inter-relações dos dados através da representação de sua estrutura conforme o método escolhido.. A observação destas representações quando possível, é. avaliada internamente, externamente ou de forma relativa em relação aos métodos utilizados e.

(27) 2.1 Análise de Agrupamento. ao conhecimento. a priori.. 12. A estrutura verdadeira dos dados se torna cada vez mais a acessível. quanto mais informações o especialista obtiver. Seguindo a intuição comum aos humanos (CHEN et al., 2009), muitos métodos se baseiam na similaridade para realizar a partição dos dados em grupos. Busca-se a melhor partição com a nalidade de que a similaridade seja maior dentro e não entre os grupos. Há muitas medidas que expressam a similaridade entre dois pontos (ou vetores de entrada) (CHEN et al., 2009), sendo que a maioria é sensível à distribuição espacial dos dados e à faixa de valores encontrados nos vetores de entrada. Por esse motivo, frequentemente os dados devem passar por algum tipo de pré-processamento, genericamente denominado de normalização ou padronização, que, de modo geral, consiste em alterar a faixa de valores em cada atributo. Além da padronização, há a possibilidade de avaliar a semelhança entre as amostras utilizando medidas apropriadas para o cálculo da distância de modo coerente com a diferença de magnitude e distribuições entre os valores dos atributos, ou ainda, o tipo desses últimos.. 2.1.1. Medidas de Similaridade. Os algoritmos de agrupamento de dados identicam a semelhança entre os objetos de um conjunto e sob algum critério determinam em que grupo cada um destes deve ser alocado. Tal semelhança é calculada através da medição de similaridade entre os objetos. A similaridade representa que quanto mais próximo dois indivíduos, mais elevado é o valor da medida de similaridade entre eles. Enquanto que na dissimilaridade, quanto mais próximos dois indivíduos, menor é o valor da medida de dissimilaridade entre eles. A cada objeto que se quer agrupar, geralmente é associado um vetor de tencente ao espaço este objeto.. <n. n. dimensões per-. onde cada dimensão representa uma das características que descrevem. Deste modo, as medidas de similaridade dos objetos são calculadas em função. destes vetores de características. Em geral, os algoritmos de agrupamento operam com os dados organizados numa matriz de dados. n. x. p,. conforme ilustrado a seguir:.

(28) 2.1 Análise de Agrupamento. 13. . x11 · · · x1f · · · x1p. . .  .. . . . .  .  x · · · x  i1 if  . . . . .  .. . .. . . .. . . .. · · · xip . . .. . . ..       . xn1 · · · xnf · · · nip Esta matriz é a tabela dos dados de treinamento. Cada linha desta tabela representa as coordenadas de um i-ésimo objeto. Cada coluna representa os valores de um atributo assumidos por cada um dos. n. objetos.. Muitos algoritmos de agrupamento organizam os dados numa matriz de dissimilaridade, onde o elemento da coluna entre os objetos. i. e. j. e linha. i. da matriz é o número. d(i, j). representando a distância. j.       . Para que uma função. 0 d(2, 1) 0 d(3, 1) d(3, 2) . . .. . . ..  0 . . .. d(n, 1) d(n, 2) · · · · · · 0.      . d seja uma distância é necessário e suciente que as seguintes condições. sejam satisfeitas, para quaisquer objetos. 1.. d(i, j) ≥ 0. 2.. d(i, i) = 0. 3.. d(i, j) = d(j, i). 4.. d(i, j) ≥ d(i, k) + d(k, j). i, j , k :. (simetria). A propriedade (1) implica que todos os elementos da matriz de dissimilaridade são nãonegativos; a propriedade (2) implica que a diagonal da matriz de dissimilaridade é formada por zeros. A propriedade (3), por sua vez, implica que a matriz de dissimilaridade é simétrica com relação à diagonal. A propriedade (4) diz respeito a desigualdade triangular. Assim, qualquer função que satisfaz às quatro propriedades acima é chamada de distância. Uma das medidas mais utilizadas para o cálculo da similaridade entre os objetos é a Distância Euclidiana (JAIN; DUBES, 1988). A Distância Euclidiana é um caso particular da medida.

(29) 2.1 Análise de Agrupamento. 14. de Minkowski. A distância de Minkowski, para os objetos. xi. e. xj. com. N. dimensões é denida. por:. d(xi , xj ) = (. N X. 1. |xik − xjk |p ) p. (2.1). k=1 E a Distância Euclidiana, onde. p=2. é denida por:. v u N uX d(xi , xj ) = t (xik − xjk )2. (2.2). k=1 Uma limitação apresentada pelo uso da distância Euclidiana, é a tendência de que as características que tenham valores elevados se tornem dominantes. Uma solução para este problema consiste na normalização dos valores das características, fazendo com que a norma Euclidiana de cada objeto. x. seja igual a 1.. Existem, na literatura, referências ao uso de outras medidas de similaridade ou distância usadas no agrupamento de dados:. distância de Manhattan ou City-block, que é um outro. caso particular da distância de Minkowski, onde. p = 1. (KAUFMAN; ROUSSEEUW, 1990). (BOLSHAKOVA; AZUAJE, 2002) (FILIPPONE et al., 2008), distância de Mahalanobis (JING L.; HUANG, 2006), Medida Correlacional de Pearson ((KAUFMAN; ROUSSEEUW, 1990) e Divergência de Bregman (BANERJEE et al., 2005), dentre outras medidas.. 2.1.2. Métodos para Agrupamento de Dados. Os algoritmos de agrupamento de dados geralmente são classicados de acordo com a abordagem utilizada para a geração de grupos e a forma como são apresentados os resultados (JAIN; MURTY; FLYNN, 1999) (TAN; STEINBACH; KUMAR, 2005). Existem muitos algoritmos de agrupamento disponíveis na literatura. A escolha de um algoritmo depende tanto dos tipos de dados disponíveis quanto da aplicação desejada. Se a análise de agrupamento for usada como uma ferramenta para exploração de dados, vários algoritmos podem ser executadas sobre o mesmo conjunto de dados a m de avaliar os diferentes resultados de cada algoritmo e desta forma, comparando os resultados, descobrir que informações ocultas estão embutidas nos dados. É importante salientar que não existe uma técnica universal de agrupamento que seja capaz de identicar grupos em qualquer tipo de dados. Os conjuntos de dados apresentam diferentes características que determinam o comportamento das diferentes técnicas.. Três aspectos são.

(30) 2.1 Análise de Agrupamento. 15. determinantes: o tamanho do conjunto de dados, o número de características que cada dado possui e a natureza geométrica da sua separabilidade. As diferentes técnicas de agrupamento devem considerar estes aspectos. A classicação de algoritmos de agrupamento não é uma tarefa direta ou canônica. Diversos trabalhos na literatura categorizam os algoritmos de agrupamento (JAIN; MURTY; FLYNN, 1999) (GORDON, 1999) (XU; WUNSCH D., 2005).. A divisão mais unanimamente aceita é. classicar os algoritmos em métodos em duas categorias principais:. hierárquicos e particionais. (XU; WUNSCH D., 2005). Os métodos hierárquicos consistem em uma série de sucessivos agrupamentos ou sucessivas divisões de elementos. A partição gerada por métodos hierárquicos pode ser representada por um diagrama bidimensional denominado dendrograma.. Dendrogramas são estruturas seme-. lhantes às árvores, onde os grupos estão organizados em níveis. Um grupo localizado em um nível superior contém grupos que estão no nível inferior imediato. O nível mais baixo de um dendrograma, as folhas das árvore, corresponde aos objetos da coleção. O nível mais alto, a raiz da árvore, corresponde à coleção completa. Os níveis intermediários correspondem aos grupos formados e como estão relacionados. Se um dendrograma for cortado em um determinado nível, eliminando-se os relacionamentos entre os grupos aninhados até a raiz, obtém-se um conjunto de grupos particionados (TAN; STEINBACH; KUMAR, 2005). Os métodos hierárquicos podem ser subdivididos em métodos aglomerativos e divisivos. Nos métodos aglomerativos, cada objeto inicialmente corresponde a um grupo, nos passos seguintes, os dois grupos mais próximos são combinados em um novo grupo, desta forma, o número de agrupamentos será reduzido geralmente em uma unidade em cada passo. As técnicas pertencentes aos processos aglomerativos, têm como objetivo nal a redução dos dados originais a um único agrupamento, incluindo todos os indivíduos (GORDON, 1999). Nos métodos divisivos, deve-se considerar inicialmente um grande agregado, contendo todas as observações. Nos passos subsequentes, as observações mais distintas entre si, são separadas, formando agrupamentos menores. Repete-se esse procedimento até que cada observação por si própria constitua um agrupamento (SOUZA, 2003). Os métodos particionais organizam grupos disjuntos dos objetos do conjunto de dados, sem criar relacionamentos entre os grupos, como são criados nos algoritmos hierárquicos. Na.

(31) 2.1 Análise de Agrupamento. 16. alocação dos objetos aos grupos, a vericação de todas as possíveis combinações é computacionalmente inviável e assim esse tipo de algoritmo geralmente busca soluções de forma iterativa (BERKHIN, 2006). Entre os métodos de agrupamento particionais, estão os métodos que utilizam o conceito de protótipos de grupos, que são pontos no espaço dimensional dos dados que representam o centro de cada um dos grupos.. (i). Os protótipos podem ser representados de duas maneiras:. centroides, os protótipos podem assumir qualquer posição no espaço e,. (ii). medoides, os. protótipos são, necessariamente, exemplos do conjunto de dados. A principal ideia da maioria dos métodos particionais é escolher uma partição inicial dos elementos e, em seguida, alterar os componentes dos grupos para se obter a melhor partição (SOUZA, 2003). Comparado com os métodos hierárquicos, os métodos particionais são mais rápidos porque é desnecessário o cálculo e o armazenamento das amostras, durante o processamento, da matriz de similaridade. Em geral, os métodos particionais diferem entre si pela maneira que estabelecem a melhor partição.. Os métodos mais conhecidos são o método K-. médias (que emprega o conceito de centroides) e o método K-medoides. Alguns autores estendem a classicação proposta por (JAIN; MURTY; FLYNN, 1999) e (XU; WUNSCH D., 2005) incluindo, ao lado dos métodos hierárquicos e particionais, os métodos baseados na densidade de objetos (HE et al., 2002) (BERKHIN, 2006), baseados em teoria dos grafos (HARTUV; SHAMIR, 2000); Baseados em grades (WANG; YANG; MUNTZ, 1997); Baseados em redes neurais (KOHONEN, 1989); Baseados em. Kernel. (SCHOLKOPF;. SMOLA; MULLER, 1998) (BEN-HUR et al., 2001); Baseados em computação evolucionária (KRISHNA; MURTY, 1999) e Agrupamentos Difusos (. fuzzy ) (BEZDEK, 1981).. Como este trabalho tem como foco variantes rígida e difusa do método K-médias, para um melhor entendimento do leitor, a seguir são apresentados o método de agrupamento K-médias e algumas de suas extensões..

(32) 2.1 Análise de Agrupamento. 2.1.3 2.1.3.1. 17. K-médias e suas extensões K-médias. O método de particionamento mais conhecido e largamente utilizado é o algoritmo Kmédias (MACQUEEN, 1967), por dois motivos principais:. o primeiro é a sua facilidade de. implementação e o segundo é o seu baixo custo computacional, uma vez que a sua complexidade é de ordem. O(nKl),. onde. n. é o número de objetos,. K. é o número de grupos e. l. é o número de. iterações (CHOUDHARI et al., 2005). O algoritmo K-médias promove o particionamento de um conjunto de objetos, descritos por. X = {x1 , . . . , xn },. em. por um ponto central. K. yk ,. grupos disjuntos,. P = {C1 , . . . , CK }.. Cada grupo. k. é caracterizado. denominado protótipo ou centroide. Considerando que a medida de. similaridade utilizada é a distância Euclidiana, o algoritmo K-médias procura formar os grupos de modo que a função objetivo. J. seja minimizada:. J(P ) =. K X X. kxi − yk k2. (2.3). k=1 i∈Ck Pode ser demonstrado que o protótipo. yk que otimiza o valor da função J. de pontos é a média aritmética dos vetores que pertencem ao grupo. k.. para um conjunto. Assim o protótipo é. expresso por:. yk =. 1 X xi nk i∈C. (2.4). k. nk. é o número de pontos (ou objetos) do grupo. k.. O algoritmo K-médias apresenta algumas limitações, dentre elas, duas podem ser destacadas. A primeira decorre que as soluções encontradas, normalmente convergem para ótimos locais, e mesmo após múltiplas execuções não se consegue obter resultados que sejam melhores, o que o torna extremamente sensível à escolha inicial dos centroides. A segunda limitação é que ele só apresenta boas soluções para conjunto de dados que sejam linearmente separáveis (JAIN, 2010). Para contornar a primeira limitação citada, várias estratégias foram propostas para a escolha dos objetos que serão os centroides iniciais. Em (CUI; POTOK, 2005) é proposto um algoritmo híbrido que une as funcionalidades do K-médias e do algoritmo. Particle Swarm Opti-.

(33) 2.1 Análise de Agrupamento. mization. 18. (PSO) (KENNEDY; EBERHART, 1995). O algoritmo PSO realiza uma busca global. no espaço de soluções e esta abordagem híbrida é utilizada para encontrar os protótipos iniciais para o algoritmo K-médias. Uma estratégia semelhante foi proposta por (ABRAHAM; DAS; KONAR, 2006), onde o algoritmo híbrido reúne o algoritmo K-médias e o algoritmo. Evolution. Dierential. (DE) com o mesmo propósito de encontrar protótipos iniciais.. Com relação à segunda limitação, existem estratégias como o. Kernel. K-médias, algoritmos. de agrupamento espectral e algoritmos de particionamento de grafos (FILIPPONE et al., 2008). O. Kernel. K-médias mapeia os dados originais em um espaço. <d. com um número maior de. dimensões, de forma que esta representação se torne linearmente separável (DHILLON; GUAN; KULIS, 2004).. Alguns algoritmos espectrais usam o espectro da matriz de anidades para. realizar o agrupamento com o K-médias. O método. 2.1.3.2. Kernel. K-médias é descrito mais adiante.. c-médias Difuso. fuzzy ) foram introduzidos em 1965 por Zadeh como uma nova maneira. Os conjuntos difusos (. de representar imprecisões do cotidiano (MITRA; PAL, 2005). Esta teoria fornece um conceito ecaz para aproximar e descrever as características de um sistema que é muito complexo ou mal denido para admitir análise matemática precisa. Admite-se que a forma com que o pensamento humano trabalha com conceitos-chave não são apenas números, mas também uma aproximação de conjuntos difusos. Abordagens tradicionais de agrupamento geram partições, onde em uma partição, cada indivíduo pertence a um e somente um grupo.. hard ).. agrupamento rígido (. Este tipo de agrupamento é conhecido como. Em muitas aplicações é desejável que a similaridade de um indiví-. duo seja compartilhada entre os grupos. Isso permitiria uma melhor descrição de situações em que alguns indivíduos podem pertencer a grupos sobrepostos, ou no caso de alguns indivíduos. outliers ).. não pertencerem a nenhum grupo, uma vez que são valores discrepantes (. Agrupa-. mentos difusos permitem associar um indivíduo com todos os grupos através de um parâmetro que representa o grau de pertinência do indivíduo ao grupo, em outras palavras, a noção difusa possibilita expressar o tipo de situação em que o indivíduo compartilha similaridade com vários grupos..

(34) 2.1 Análise de Agrupamento. 19. Os algoritmos do tipo difuso estendem o conceito de associação de cada elemento em uma classe, isto é, um indivíduo pode pertencer a diversas classes de acordo com uma função de pertinência capaz de associar cada padrão a cada um dos grupos assumindo valores no intervalo. [0, 1].. Neste caso, cada classe é um conjunto nebuloso de todos os objetos. Cada elemento. possui um grau de pertinência para uma classe relativos a essa elemento. x. tem que valer. k,. x. de forma que a soma de todos os graus. 1.. O algoritmo de agrupamento difuso mais popular é o c-médias difuso (. Fuzzy c-means. -. FCM), onde os elementos mais afastados do centroide possuem um menor grau de pertinência, enquanto aqueles mais próximos ao centroide têm uma pertinência maior e o centroide é obtido fazendo-se uma média ponderada do grau de todos os indivíduos para aquele grupo. O desenvolvimento de funções de pertinência é o problema mais importante no contexto de agrupamento difuso; diferentes escolhas incluem aquelas baseadas em decomposição de similaridade e centroides de grupos. Uma generalização do FCM foi proposta em (BEZDEK, 1981) através de uma família de funções objetivo (critério). FCM pode ser tomado como uma generalização do algoritmo ISODATA (XU; WUNSCH D., 2005). Supondo que se tem um conjunto de objetos em. c. grupos disjuntos,. P = {C1 , . . . , Cc }.. X = {x1 , x2 , . . . , xn }. e se deseja organizá-los. O algoritmo c-médias difuso (FCM) é um algoritmo. de agrupamento não hierárquico cujo principal objetivo é fornecer uma partição difusa de um conjunto de indivíduos em. c. grupos. A função objetivo é denida como:. J(P ) =. c X X. (uki )m kxi − yk k2. (2.5). k=1 i∈Ck onde. uki. é uma matriz de pertinência, ou simplesmente, a pertinência do objeto. Ck , m ∈ (1, +∞). ao grupo. é um parâmetro que indica uma ponderação referente a pertinência dos. objetos. Pode ser demonstrado que. J. i. yk. é um vetor de protótipos que otimiza o valor da função. (FILIPPONE et al., 2008). Assim o protótipo é expresso por:. (uki )m xi i∈C yk = Pk (uki )m P. (2.6). i∈Ck A matriz de pertinência é denida pela seguinte expressão (FILIPPONE et al., 2008): 1. u−1 ki. X kxi − y k2 m−1 k = . 2 k x i − yj k j∈C k. (2.7).

(35) 2.1 Análise de Agrupamento. 20. Semelhante ao K-médias, o FCM tem problemas para lidar com ruídos e anomalias nos dados, além de apresentar a mesma dependência do conjunto de partição inicial. Outro problema relevante é a sua complexidade que apresenta um custo computacional alto, não sendo recomendado para grandes conjunto de dados.. 2.1.3.3 Seja. Kernel K-médias φ : X → =,. e assim o conjunto. X = {x1 , x2 , . . . , xn }. um espaço de dimensão maior. A escolha apropriada de mapeado no espaço de características. =. φ. é mapeado em um conjunto em. faz com que o conjunto de dados. possa ser separado de maneira linear. A Figura 2.1 é. um exemplo de mapeamento do espaço de entradas não linear para um agrupamento linear no espaço de características.. Figura 2.1.. Mapeamento do espaço de entradas para o espaço de características. O uso desse procedimento é motivado pelo teorema de Cover (HAYKIN, 1999). um conjunto de dados não linear no espaço de entradas ser transformado em um espaço de características. =. X,. esse teorema arma que. X. Dado pode. com alta probabilidade dos dados serem. linearmente separáveis. Para isso duas condições devem ser satisfeitas. A primeira é que a transformação seja não linear (φ), enquanto a segunda é que a dimensão do espaço de características seja sucientemente alta. Como. = pode ter dimensão muito alta (até mesmo innita), a computação pode ser custosa. ou até mesmo inviável.. Porém, é possível realizar esse mapeamento através do cálculo de. produtos escalares entre os dados no espaço de características. funções denominadas. Kernels.. Isso é obtido com o uso de.

(36) 2.1 Análise de Agrupamento. Um. kernel. de dimensão. q. 21. é denido como sendo uma função. K. que mapeia os pontos no espaço de entrada. para pontos correspondentes em um novo espaço de dimensão. espaço oculto ou espaço de características, onde. q ≤ m.. m. denominado. Essa função recebe dois vetores de. pontos do espaço de entradas, que podem ser representados por. xi. e. xj ,. e computa o produto. escalar desses dados no espaço de características através da expressão 2.8:. K(xi , xj ) = φ(xi )φ(xj ). Kernel. Para garantir que o. (2.8). represente mapeamentos nos quais seja possível o cálculo de. produtos escalares conforme a Equação 2.8, utiliza-se funções. Kernel. que seguem as condições. estabelecidas pelo teorema de Mercer (FILIPPONE et al., 2008). De forma simplicada, um. Kernel. que satisfaz as condições de Mercer é caracterizado por dar origem a matrizes positivas. denidas. nxn,. K,. Kij. em que cada elemento. chamada matriz de. é denido por uma matriz. Kij = K(xi , xj ). de ordem. Kernel, cujas entradas representam produtos internos escalares entre. as observações. Em outras palavras, se. K. é positivo denido, existe um mapeamento. φ. onde. K(xi , xj ) = φ(xi )φ(xj ). Dentre as funções disponíveis mais utilizadas para a implementação do. kernel. existem as. polinomiais, as sigmoidais e a gaussiana, apresentadas na Tabela 2.1. As matrizes geradas por essa última (gaussiana) também são chamadas de. Kernel Radial Basis Function. (RBF). Cada. um deles apresenta parâmetros que devem ser determinados previamente, indicados também na Tabela 2.1. O. Kernel. alguns valores de. γ. e. κ.. Sigmoidal, em particular, satisfaz as condições de Mercer apenas para Os. Kernels. Polinomiais com d = 1 também são denominados lineares.. Tabela 2.1.. Exemplos de Funções de. Tipo de Kernel Polinomial. Expressão. Parâmetros. K(xi , xj ) = (xi xj + κ)d. κ, d. −kxi − xj k2 ) 2σ 2. Gaussiano. K(xi , xj ) = exp(. Sigmoidal. K(xh , xl ) = tanh(γ(xi xj ) + κ). É comum empregar a função de tamente).. Kernel.. A utilidade do. Kernel. Kernel. σ γ, κ. sem conhecer o mapeamento. φ. (realizado implici-. está, portanto, na simplicidade de seu cálculo e em sua. capacidade de representar espaços abstratos..

(37) 2.1 Análise de Agrupamento. 22. Uma extensão do algoritmo K-médias, chamada. φ. KULIS, 2004) usa uma função. Kernel. K-médias (DHILLON; GUAN;. para o mapeamento do conjunto de dados em um espaço. de alta dimensão (espaço de características). Da mesma forma que o algoritmo K-médias, este algoritmo procura por grupos de modo que a função objetivo. J φ seja minimizada, caso a medida. de similaridade seja a distância Euclidiana.. J φ (P ) =. K X X. kφ(xi ) − yφk k2. (2.9). k=1 i∈Ck. yφk. O valor do centroide. é expresso por:. yφk =. 1 X φ(xi ) nk x ∈C i. A distância de. kφ(xi )−y. φ 2 kk. φ(xi ). ao centro. yφk. é expressa por:. 1 X = kφ(xi )− φ(xi )k2 = φ(xi )φ(xi )− nk x ∈C i. j∈Ck. = K(xi , xi ) −. P. 2×. nk. P P +. φ(xi )φ(xj ). j∈Ck. K(xj , xl ). j∈Ck l∈Ck. (nk )2. 2× = Kii −. P P +. nk. k. K(xi , xj ). P. 2×. (2.10). k. P. φ(xj )φ(xl ). j∈Ck l∈Ck. (nk )2 P P. Kij. j∈Ck. +. nk. Kjl. j∈Ck l∈Ck. (nk )2. Neste caso, a função objetivo pode ser reescrita conforme a equação 2.11:. J φ (P ) =. K X X. kφ(xi ) − yφk k2 =. k=1 xi ∈Ck. onde. K X X. . 2×. Kii −. k=1 xi ∈Ck. P. P P. Kij. j∈Ck. nk. +. Kjl. . j∈Ck l∈Ck. (nk )2. . (2.11). Kij = K(xi , xj ) = φ(xi )φ(xj ).. Diversos métodos de agrupamento utilizando funções de. Kernel. têm sido propostos na. literatura através da modicação de abordagens já existentes, tais como K-médias, difuso cmédias, SOM, e. neural gas, que passaram a incorporar o Kernel. em suas soluções (FILIPPONE. et al., 2008). A escolha do. Kernel. e da medida de similaridade é crucial para estes métodos, muitas. técnicas têm sido propostas no intuito de aprender automaticamente a forma do dos dados (CRISTIANINI et al., 2002)(BACH; JORDAN, 2006). muitos algoritmos têm sido aplicados para Mama e Iris (UCI, 2010).. Kernel. benchmarks. Kernel. a partir. A respeito das aplicações,. padrões como Ionosfera, Câncer de. difuso c-médias foram propostos em (ZANG D. Q. E CHEN,.

(38) 2.2 Análise de Agrupamento para Dados Simbólicos. 23. 2003) e tem sido aplicado em problemas de segmentação de imagens e reconhecimento de dígitos manuscritos (ZHANG et al., 2003). Há aplicações de face utilizando. Kernel. para reconhecimento de. kernel SOM (TAN; CHEN; ZHANG, 2004), em reconhecimento de voz (SATISH;. SEKHAR, 2004) e em predição de safras a partir de dados climáticos e de plantação (AWAN; SAP, 2006).. 2.1.3.4. Kernel Difuso c-médias. Seja uma função. φ : <m → <q ,. onde. q ≥ m. e assim o conjunto. X = {x1 , x2 , . . . , xn }. é. mapeado em um conjunto em um espaço de dimensão maior. Da mesma forma que o algoritmo. Kernel K-médias, este algoritmo procura por c grupos, P = {C1 , . . . , Cc }, de modo que a função objetivo. Jφ. seja minimizada:. φ. J (P ) =. c X X. (uki )m kφ(xi ) − yφk k2. (2.12). k=1 xi ∈Ck O protótipo. yk. no espaço de características pode ser expresso por (FILIPPONE et al.,. 2008):. (uki )m φ(xi ) x ∈Ck yφk = i P (uki )m P. (2.13). xi ∈Ck A matriz de pertinência é denida pela seguinte expressão (FILIPPONE et al., 2008):. u−1 ki =. 2.2. X. kφ(xi ) − yφk k2. j∈Ck. kφ(xi ) − yφj k2. 1 ! m−1. (2.14). ANÁLISE DE AGRUPAMENTO PARA DADOS SIMBÓLICOS A Análise de Dados Simbólica (ADS) surgiu, simultaneamente, da inuência de três áreas:. Análise Exploratória de Dados (DIDAY et al., 1982)(WARWICK; MORINEAU, 1984), Inteligência Articial (MICHALSKI, 1973) e Taxonomia Numérica (HAYES-ROTH; MCDERMOTT, 1978).. A ADS constitui numa extensão de alguns métodos utilizados para análise. de dados clássicos. Os primeiros trabalhos com os princípios básicos da abordagem simbólica apareceram no nal dos anos 80 (DIDAY, 1986) e desde então vários outros trabalhos foram realizados em diversas direções.. Um dos objetivos da ADS é prover técnicas para redução.