Uma plataforma intervalar para agrupamentos de dados

Texto

(1)UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIÊNCIAS EXATAS E DA TERRA DEPTO. DE INFORMÁTICA E MATEMÁTICA APLICADA PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO. Liliane Ribeiro da Silva. Uma Plataforma Intervalar para Agrupamentos de Dados Orientador: Prof. Dr. Regivan Hugo Nunes Santiago Co-orientadora: Prof. Dr. Anne Magaly de Paula Canuto. Natal- RN 2015.

(2) Liliane Ribeiro da Silva. Uma Plataforma Intervalar para Agrupamentos de Dados. Prof. Dr. Regivan Hugo Nunes Santiago Co-orientadora: Prof. Dr. Anne Magaly de Paula Canuto Orientador:. Tese de Doutorado apresentada ao Programa de Pós-Graduação em Sistemas e Computação da UFRN como parte dos requisitos para obtenção do título de Doutor em Ciências. Área de Concentração:. tação. Natal - RN 2015. Teoria da Compu-.

(3) 2.

(4) Catalogação da Publicação na Fonte. UFRN / SISBI / Biblioteca Setorial Centro de Ciências Exatas e da Terra – CCET.. Silva, Liliane Ribeiro da. Uma plataforma intervalar para agrupamentos de dados / Liliane Ribeiro da Silva. - Natal, 2015. 116 f. : il. Orientador: Prof. Dr. Regivan Hugo Nunes Santiago. Coorientadora: Profa. Dra. Anne Magaly de Paula Canuto. Tese (Doutorado) – Universidade Federal do Rio Grande do Norte. Centro de Ciências Exatas e da Terra. Programa de Pós-Graduação em Ciência da Computação. 1. Algoritmos de agrupamento – Tese. 2. Distância intervalar – Tese. 3. Medida de similaridade – Tese. 4. Índices de validação – Tese. 5. Agregações de i-distâncias – Tese. I. Santiago, Regivan Hugo Nunes. II. Canuto, Anne Magaly de Paula. III.Título. RN/UF/BSE-CCET. CDU: 004.421: 004.275. 3.

(5) 4.

(6) Agradecimentos A Deus que é onipresente, onisciente e onipotente; Ao meu orientador, Prof. Dr. Regivan Hugo Nunes Santiago, pela oportunidade, dedicação, paciência e motivação durante todo o processo de elaboração dessa tese; A minha coorientadora, Prof. Dr. Anne Magaly de Paula Canuto, pela orientação e amizade durante todo o processo de construção dessa tese; A minha mãe Tereza Ribeiro da Silva, pelo amor e apoio incondicional. Por entender minha ausência em muitos momentos durante o curso e por nunca medir esforços para que tivesse sempre o dinheiro da passagem para chegar todos os dias na universidade, muitas vezes emprestando dos parentes e até mesmo dos vizinhos; Aos meus tios, Manoel do Carmo e José Ribeiro pelo apoio durante toda a minha vida acadêmica e pessoal; Ao meu esposo Luiz Ranyer de Araújo Lopes pelo amor, apoio, companheirismo e principalmente pela paciência nessa etapa tão importante na minha vida; Ao meu amigo Ronildo Moura pela parceria durante os estudos e experimentos; Aos meus amigos do Doutorado (porão) que zeram os dias sem sol serem mais leves;. 5.

(7) Aos professores do Dimap pela contribuição na minha formação como aluna e pessoa; Aos funcionários do Dimap por facilitarem a minha vida; Aos vizinhos e parentes não só por emprestaram o dinheiro da minha passagem durante o curso de graduação, mas por contribuírem, de alguma forma, com a minha evolução acadêmica; Aos meus amigos, que de alguma forma contribuíram para manter essa pessoa sã, na medida do possível.. 6.

(8) "A dúvida permite extrair um núcleo de certeza, que cresce à medida que ela se radicaliza; é indubitável que, se duvido, penso.". Descartes.

(9) Resumo Este trabalho propõe uma plataforma para métodos de agrupamento de dados do tipo intervalar e uma solução para dados híbridos que contém esse tipo de dados.. O principal objetivo do uso de dados com natureza inter-. valar é representar informações numéricas dotadas de imprecisões, que são normalmente capturadas a partir de medidas do mundo real.. Para isso, é. necessário adaptar técnicas de valores reais para serem utilizadas em dados intervalares.. Para aplicações de agrupamento intervalares, por exemplo, é. necessário propor uma distância intervalar e também adaptar algoritmos de agrupamento para serem utilizados nesse contexto. E mais, para trabalhar com dados híbridos uma investigação inicial sobre funções de agregações de i-distâncias é realizada. chamada. dkm ,. Neste caso, é adaptada uma distância intervalar,. e são propostos algoritmos de agrupamento intervalares e três. índices de validação intervalares.. Para validar a estrutura proposta, uma. análise empírica é realizada com conjuntos de dados sintéticos e reais. análise empírica é baseada em um índice de validade de. A. cluster externo,. Correct Rand, e seis índices de validação interna, sendo que para três deles são necessárias adequações para serem utilizados com dados intervalares. E mais, é realizada uma análise comparativa entre os resultados existentes na literatura e os resultados obtidos.. 1.

(10) Palavras-chaves: Distância intervalar; Medida de similaridade; Algoritmos de agrupamento; Índices de Validação; Agregações de i-distâncias..

(11) Sumário Resumo. 1. Lista de Siglas. 6. Lista de Tabelas. 8. Lista de Figuras. 9. I. Fundamentação. 10. 1 Introdução. 11. 2 Intervalos e i-Métricas. 16. 2.1. Espaços Métricos. . . . . . . . . . . . . . . . . . . . . . . . . .. 16. 2.2. Análise Intervalar . . . . . . . . . . . . . . . . . . . . . . . . .. 18. 2.3. Ordem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 21. 2.4. Métricas e i-métricas. 23. 2.4.1 2.5. . . . . . . . . . . . . . . . . . . . . . . .. i-Métrica e i-Métrica. Considerações Finais. dkm. . . . . . . . . . . . . . . . . .. 25. . . . . . . . . . . . . . . . . . . . . . . .. 29. 3 Análise de Agrupamento de Dados 3.1. Agrupamento de Dados . . . . . . . . . . . . . . . . . . . . . .. 3. 31 32.

(12) 3.2. Algoritmos para Agrupamento de Dados. . . . . . . . . . . . .. 34. 3.2.1. K-Means . . . . . . . . . . . . . . . . . . . . . . . . . .. 37. 3.2.2. Fuzzy C-Means. 38. 3.2.3. Outros Métodos de Agrupamentos para Dados Inter-. . . . . . . . . . . . . . . . . . . . . . .. valares . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.4. Métodos Usando Abordagens Fuzzy Para Dados Intervalares . . . . . . . . . . . . . . . . . . . . . . . . . . .. II. 39. Métodos Propostos. 41. 45. 4 Métodos Propostos para Dados Intervalares. 46. 4.1. Matriz de Pertinência Intervalar . . . . . . . . . . . . . . . . .. 47. 4.2. Algoritmo Intervalar Baseado no Fuzzy C-means - IbFcM . . .. 52. 4.3. Algoritmo Fuzzy Intervalar Baseado no Ck-Means - IbckM. . .. 55. 4.4. Validação de Agrupamentos Intervalares. . . . . . . . . . . . .. 57. 5 Métodos Propostos para Dados Híbridos. 61. 5.1. Algoritmos Intervalares Baseados no K-Means - IbKM. . . . .. 63. 5.2. Algoritmo K-Means Intervalar Híbrido - IbKMH . . . . . . . .. 65. 5.3. Agregação de i-métricas e Algoritmos Híbridos . . . . . . . . .. 66. III. Experimentos e Resultados Obtidos. 73. 6 Experimentos e Resultados 6.1. Conjuntos de Dados 6.1.1. 74. . . . . . . . . . . . . . . . . . . . . . . .. Conjuntos de Dados Sintéticos Intervalares. 76. . . . . . .. 76. 6.1.2. Conjuntos de Dados Sintéticos Híbridos . . . . . . . . .. 77. 6.1.3. Conjuntos de Dados Reais . . . . . . . . . . . . . . . .. 78. 4.

(13) 6.2. Resultados Obtidos com Dados Intervalares. . . . . . . . . . .. 81. 6.2.1. Conjuntos de Dados Sintéticos. . . . . . . . . . . . . .. 82. 6.2.2. Conjuntos de Dados Reais . . . . . . . . . . . . . . . .. 85. 6.3. Análise Comparativa Para Dados Intervalares. . . . . . . . . .. 89. 6.4. Análises e Resultados Obtidos com os Algoritmos IbKM, IbKMH e IbKMHsup . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 93. 6.4.1. Resultados e Análises dos Dados Sintéticos Híbridos. .. 93. 6.4.2. Resultados e Análises dos Dados Reais Híbridos. . . .. 95. 7 Conclusões e Perspectivas Futuras Referências Bibliográcas. 97 109.

(14) Lista de Siglas Fuzzy c-means. FCM. -. IbckM. -. IbFcM. -. IbKM. -. Interval based k-Means. IbKMH. -. Interval based hybrid k-Means. poset. -. partially ordered set. VID. -. Valoração de. SOM. -. Self-organizing maps. FKCN. -. fuzzy Kohonen clustering network. IFKCN. -. Interval fuzzy Kohonen clustering network. IFKCN-FD. -. IFKCN based on a xed Euclidean distance. IFKCN-NAD. -. IFKCN based on a non-adaptive squared Euclidean. IFCM-H. -. IFCM based on a Hausdorrf. IAFCM-L1. -. Interval adaptive fuzzy c-means on a. L1. distance. IAFCM-L2. -. Interval adaptive fuzzy c-means on a. L2. distance. IAFCM-H. -. Interval adaptive fuzzy c-means on a Hausdor distance. Interval Based ckmeans Interval based Fuzzy C-Mens. i-distâncias. 6. L1. distance.

(15) Lista de Tabelas 6.1. Descrição das quatros bases articiais . . . . . . . . . . . . . .. 76. 6.2. Classicação do conjunto de dados Temperatura . . . . . . . .. 79. 6.3. Descrição do conjunto de dados Carro . . . . . . . . . . . . . .. 80. 6.4. Classicação do conjunto de dados Peixe. 81. 6.5. Resultado dos algoritmos de agrupamento intervalares para os conjuntos de dados sintéticos- Média(Std). 6.6. . . . . . . . . . . . .. . . . . . . . . . . .. p-valores para Teste t de Student's para os conjuntos de dados sintéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6.7. 83. Número de grupos preferidos para vários índices de validação dos dados sintéticos.. 6.9. 83. p-valores para Teste t de Student's para os conjuntos de dados sintéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6.8. 82. . . . . . . . . . . . . . . . . . . . . . . .. 85. Resultado dos algoritmos de agrupamentos intervalares para os dados reais.. . . . . . . . . . . . . . . . . . . . . . . . . . .. 86. 6.10 p-valores para o Teste t de Student's para os conjuntos de dados reais . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 87. 6.11 Números preferidos de grupos para vários índices de validação nos conjuntos de dados reais . . . . . . . . . . . . . . . . . . .. 88. 6.12 Resultados dos algoritmos de agrupamentos baseados em intervalos para o conjunto de dados Temperatura. . . . . . . . .. 7. 90.

(16) 6.13 Resultados dos algoritmos de agrupamentos baseados em intervalos para o conjunto de dados Carro. . . . . . . . . . . . .. 91. 6.14 Resultados dos algoritmos de agrupamentos baseados em intervalos para o conjunto de dados Peixe.. . . . . . . . . . . . .. 92. 6.15 Resultado dos algoritmos de agrupamento crisp com os conjuntos de dados sintéticos híbridos - CR(Std) e Tempo. . . . .. 94. 6.16 Resultados dos algoritmos de agrupamento crisp com o conjunto de dados real híbrido- CR(Std) e Tempo . . . . . . . . .. 8. 96.

(17) Lista de Figuras 6.1. Ilustra os conjuntos de dados 2Dim e Sun.. . . . . . . . . . . .. 77. 6.2. Ilustra os conjuntos de dados 3Dim e 5Dim.. . . . . . . . . . .. 78. 6.3. O gráco descreve a relação entre tempo a porcentagem de atributos reais, utilizando os algoritmos IbKM e IbKMH. . . .. 9. 95.

(18) Parte I Fundamentação. 10.

(19) Capítulo 1 Introdução Nos últimos anos houve um aumento signicativo na quantidade de dados que são disponibilizados. Esses dados são oriundos das mais diversas áreas, como medicina, física, pesquisa de mercado, ciências, etc. A grande quantidade de informações presentes nesses dados nem sempre está de uma forma organizada que seja possível extrair uma determinada informação de imediato. Assim, essa diculdade em extrair informações ou até mesmo condensar informações gera uma necessidade de desenvolver cada vez mais ferramentas computacionais para organizar e analisar dados, objetivando encontrar padrões que possam ser considerados como informações úteis para uma determinada área de conhecimento. Dentre essas várias áreas de conhecimento, podemos citar: mineração de dados [6] e [60], análise de expressão gênica [36], segmentação de imagens [74] e processamento de linguagem natural [72]. Uma das principais áreas que vem sendo largamente investigada por diversos pesquisadores é a Mineração de Dados, onde são utilizados algoritmos de aprendizado de máquina para obter esses conhecimentos. Por denição, agrupamento de dados é um conjunto de técnicas que visa. 11.

(20) dividir objetos em grupos, de tal forma que os objetos (instâncias) em um mesmo grupo (cluster) possuem uma maior semelhança do que objetos em grupos diferentes.. Em outras palavras, essas técnicas têm como objetivo. encontrar uma divisão dos objetos, em que exista uma alta similaridade entre objetos de um grupo e uma alta dissimilaridade entre objetos de grupos diferentes [37]. Existem vários algoritmos de agrupamento propostos na literatura os quais podem ser divididos em duas categorias: crisp e fuzzy. Nos agrupamentos crisp, uma instância pertence a um e somente um grupo, enquanto no agrupamento fuzzy, uma instância pode pertencer a mais de um grupo com um certo grau de pertinência a cada um deles. Nesta tese, são trabalhados algoritmos de agrupamento fuzzy e crisp. A caracterização de um problema de agrupamento é representada por um conjunto de dados (conjunto de informações organizadas, resultante de um experimento ou observação), que está frequentemente relacionada a problemas encontrados diariamente. Esses conjuntos de dados contém algumas características (atributos) que descrevem um determinado problema. Algumas dessas informações presentes nos problemas, podem ser melhor representadas se forem descritas como intervalos. Devido a esse fato, recentemente, a comunidade cientíca tem voltado a sua atenção para dados que representam informações numéricas dotadas de imprecisões como, por exemplo, com dados intervalares. As primeiras investigações no campo de intervalos foram realizadas por Sunaga e R. Moore [45] e [52]. No entanto, de forma independente em 1956, Warmus, sugeriu formas de calcular intervalos, porém foi Moore que encontrou as primeiras aplicações não-triviais. Uma das principais vantagens de utilizarmos dados intervalares é a sua capacidade de codicar a quantidade. 12.

(21) de imprecisões envolvidas e a oportunidade de trabalhar com uma aritmética que é capaz de controlar os erros nos cálculos.. No entanto, apesar de um. intervalo poder ser visto como um número dotado de imprecisões, a noção de distância, que retorna um intervalo como valor, em vez de um número real, só foi investigada a partir dos trabalhos de Trindade, Vargas e Bedregal [70] e [27]. Em 2011, Santana e Santiago [61] observaram a necessidade de denir uma estrutura abstrata para distâncias essencialmente intervalares. A ideia é que esses valores contém mais informações do que os números reais e podem ser usados para informar a distância entre dois pontos. É utilizada a KM-métrica que é uma das i-métricas propostas em [24] para aplicações em agrupamentos de dados intervalares. Assim a imprecisão dos dados intervalos é preservada durante o processo de medição da distância, a qual é perdida ao obter um número real quando operamos dois intervalos, resultante do uso de uma distância usual (por exemplo, Distância de Moore, [53]). Para técnicas de agrupamento baseadas em intervalos, os autores propuseram em [28] uma nova maneira de calcular os centros dos aglomerados no algoritmo FCM (Fuzzy c-means), chamado ckMeans, e em [27] isso foi aplicado à conjuntos de dados intervalares. No entanto, nenhum índice interno foi proposto e alguns problemas foram detectados nesse algoritmo. Neste trabalho, o objetivo é oferecer uma plataforma para aplicações em agrupamentos usando dados baseados em intervalos, incluindo medida de distância, algoritmos de agrupamento e índices de validação.. E mais um. estudo inicial foi realizado sobre funções de agregações, onde são investigadas as agregações de i-distâncias. Para este propósito, são propostos algoritmos de agrupamento fuzzy , Interval Based ckmeans (IbckM) e. Interval based. Fuzzy C-Mens (IbFcM), que são adaptações dos algoritmos ckMeans e FCM. 13.

(22) para trabalhar com dados intervalares de uma forma eciente e algoritmos de agrupamento crisp, Interval Based k-Means (IbKM), Interval Based hybrid. k-Means (IbKMH) e IbKMHsup , que são adaptações do algoritmo K-Means. Além disso, aplicamos a distância teoricamente proposta em [61] para ser utilizada em agrupamentos de dados intervalares. Foram também utilizados três índices internos para trabalhar com conjuntos de dados intervalares, apresentados na dissertação de [16]. É importante ressaltar que, diferentemente da maioria dos estudos com dados baseados em intervalos, a medida de distância aplicada aqui retorna um intervalo, em vez de um número real, como no caso da distância de Moore, na qual a distância entre dois intervalos é denida pela maior distância em módulo entre os extremos, [53]. A m de avaliar o desempenho das técnicas propostas, uma análise empírica é conduzida.. Nessa análise, são utilizados conjuntos de dados reais. e sintéticos, e para avaliar o desempenho dos algoritmos de agrupamento utilizamos o índice externo chamado Correct Rand (CR) e seis índices internos.. Sendo que três índices internos são adaptados para trabalhar com os. conjuntos de dados intervalares, como mencionado acima. Para efeito de comparação, alguns algoritmos de agrupamento baseados em intervalos são utilizados nesta análise, [18], [40], [17] e [19] . Esta análise comparativa é feita unicamente em termos da medida do CR, uma vez que não foi possível encontrar na literatura resultados internos na maioria dos trabalhos que utilizam bases de dados intervalares. Esta tese está dividida em 3 partes, sendo organizada da seguinte forma:. •. Na primeira parte é feito um estudo teórico sobre os principais conceitos utilizados neste trabalho.. Assim, no segundo capítulo é dada uma. fundamentação teórica sobre matemática intervalar e sobre métricas. 14.

(23) intervalares. No terceiro capítulo é apresentada uma introdução sobre análise de agrupamento, onde são introduzidos os algoritmos que serão utilizados como base para os algoritmos propostos.. •. Na segunda parte são expostos os métodos propostos neste trabalho. No quarto capítulo são apresentados os métodos propostos para dados intervalares e os índices de validação intervalares.. No capítulo 5 são. exibidos os métodos propostos para trabalhar com dados híbridos e são expostos os estudos sobre funções de agregações de i-distâncias e um exemplo de função de agregação de i-métricas.. •. Na terceira parte, no capítulo 7 são exibidos os conjuntos de dados sintéticos e reais que são utilizados nos experimentos, bem como os resultados alcançados e a análise comparativa realizada. No oitavo e último capítulo são apresentadas as conclusões dessa pesquisa e suas perspectivas futuras.. 15.

(24) Capítulo 2 Intervalos e i-Métricas O conceito fundamental que suporta os algoritmos de agrupamento é o de Espaço Métrico e o tipo de dados sobre o qual essa tese se desenvolve é o de Intervalos. Este é o capítulo dedicado a esses dois conceitos.. 2.1. Espaços Métricos. A noção de distância entre dois pontos oriunda da Geometria pode ser formalizada como uma função para conjuntos quaisquer. M. Denição 2.1 (Métrica) uma função. d : R2 × R2 → R.. Ela pode ser generalizada. da seguinte maneira:. Uma métrica em um conjunto não vazio. d:M ×M →R. que satisfaz:. 1.. d(x, y) ≥ 0;. 2.. d(x, y) = d(y, x);. 3.. d(x, y) = 0. 4.. d(x, z) ≤ d(x, y) + d(y, z). se, e somente se,. x = y;. (desigualdade triangular).. 16. M. é.

(25) O par. (M, d),. onde. d. é uma métrica, é chamado espaço métrico.. Exemplos: •. Métrica Usual da Reta: Considerando o conjunto dos números reais a função. d : R×R → R. dada por. d(x, y) = |x − y|. R,. é uma métrica em. R. •. Métrica Euclidiana: Considerando dada por. •. de (x, y) =. p (x1 − y1 )2 + (x2 − y2 )2. Métrica do Máximo:. R2 × R2 → R x = (x1 , x2 ). e. M = R2 , a função de : R2 × R2 → R. Considerando o conjunto. dada por. y = (y1 , y2 ). R2 .. é uma métrica em. R2 ,. a função. dmax :. dmax (x, y) = max{|x1 − y1 |, |x2 − y2 |}, é uma métrica em. onde. R2 .. Todas essas métricas são denidas sobre o conjunto dos números reais ou sobre o plano Euclideano (Produto Cartesiano Binário do conjunto dos números reais). Ou seja, se pensarmos em termos de tipos de dados, temos métricas para o tipo de dados real e para o tipo produto do tipo de dados. real. Uma métrica que foge a esse padrão e que está ligada a outro tipo de dados é a métrica de Levenshtein. Ela é denida sobre o tipo de dados string, dessa forma, assim como podemos medir a distância entre números e entre pontos, podemos também medir a distância entre strings. A distância de Levenshtein entre duas strings. a, b é dada por leva,b (|a|, |b|),. onde.    max(i, j)            leva,b (i, j)(i − 1, j) + 1    leva,b (i, j) =   min leva,b (i, j)(i, j − 1) + 1             leva,b (i, j)(i − 1, j − 1) + 1(a1 6=bj ). 17. se. min(i, j) = 0,. caso contrário..

(26) 1(ai 6=bj ). onde. é a função indicador igual a 0 quando. ai = b j. e igual a 1. caso contrário. Por exemplo distância entre as palavras kitten e siting é 3, pois com apenas 3 edições conseguimos transformar uma palavra na outra.. 1. kitten. 2. sitten (substituição de 'k' por 's'). 3. sittin (substituição de 'e' por 'i'). 4. sitting (inserção de 'g' no nal).. A teoria de espaços métricos é suciente para suportar os algoritmos de agrupamento, inclusive os heterogêneos.. Entretanto quando o dado em. questão registra a imprecisão nele contida a noção usual de métrica deixa de ser eciente, pois dois dados imprecisos não podem dá origem a uma distância exata e manter a informação de imprecisão nesse valor de distância. Essa tese pretende fundamentar aplicações que utilizem um tipo de dados com essa característica, a saber intervalos, e aplica a generalização de métrica proposta por Santana em [61, 24] para esse tipo de dados.. No que segue. apresenta-se resumidamente a Análise Intervalar proposta por Moore [52] e Sunaga [45] em meados de 1950 e a generalização de métricas proposta por Santana.. 2.2. Análise Intervalar. Em meados dos anos de 1950, Sunaga [45] e Moore [52] propuseram o que hoje conhecemos como Matemática Intervalar. O passo fundamental dessa Matemática foi a criação de uma Aritmética para operar intervalos.. 18.

(27) Denição 2.2. Dados. x, x ∈ R,. tal que. x≤x. o conjunto:. X = [x, x] = {x ∈ R/x ≤ x ≤ x}, é chamado intervalo fechado limitado inferiormente por por. x.. x. e superiormente. Ao longo de todo esse texto, conjuntos desse tipo serão chamados sim-. plesmente de intervalos. Denota-se por. I(R) o conjunto de todos os intervalos. desse tipo. Um intervalo negativo se,. X. X < 0,. X ≥ 0,. é dito não-negativo, se. x < 0.. Se. x = x,. então. quando. X. x ≥ 0. e é dito. é chamado intervalo. degenerado.. Ao realizar de operações sobre intervalos (operações intervalares) pretende captar a seguinte ideia: um intervalo. [a, b]. elementos, já uma operação intervalar, operação real. f,. se o intervalo. F,. F ([a, b]). representa qualquer um de seus. é adequada para representar uma. contiver a imagem. f ([a, b]).. Essa. propriedade chama-se corretude e foi investigada por Santiago e Bedregal em [62]. Eles chamaram de representações intervalares as funções que satisfaziam essa propriedade, o que foi formalizado da seguinte maneira:. Denição 2.3 (Representação Intervalar- [62]) F. é correta com respeito a uma função real. f. Uma função intervalar. se é satisfeita a seguinte con-. dição:. x ∈ [a, b] ⇒ f (x) ∈ F ([a, b]) A denição que segue formaliza a noção da melhor representação intervalar possível.. Denição 2.4 (Representação Canônica Intervalar - CIR [62]). Seja. f : R → R uma função sem assíntotas verticais, então para cada [a, b] ∈ I(R), 19.

(28) CIR(f )[a, b]. é o menor intervalo contendo a imagem de. f ([a, b]):. CIR(f )([a, b]) = [min f ([a, b]), max f ([a, b])].. (2.1). Portanto, a função intervalar CIR é bem denida e além disso é a melhor representação intervalar de. f.. Essa propriedade chama-se Optimalidade [35]. e se refere ao fato de que nenhuma outra função produz intervalos mais precisos. A Aritmética sobre intervalos, conhecida como Aritmética de Moore segue esse paradigma, i.e.,. X♦Y = {x y : x ∈ Xey ∈ Y }.. A seguir são. apresentadas as operações da aritmética de Moore:. Denição 2.5 1. Adição:. Sejam. X , Y ∈ I(R),. X + Y = [x + y, x + y];. 2. Pseudo Inverso Aditivo: 3. Subtração:. −X = [−x, −x];. X + Y = [x − y, x − y];. X · Y = [min(xy, xy, xy, xy), max(xy, xy, xy, xy)]; h i 1 1 1 Pseudo Inverso Multiplicativo: X = x , x se 0 ∈ /X h i x x x x x x x x X Divisão: Y = min y , y , y , y , max y , y , y , y , onde 0 ∈ / Y.. 4. Multiplicação: 5. 6.. n ∈ N,  n n [x , x ] se x < 0 e n for par    X n = [0, max(xn , xn )] se x < 0 < x n    n n [x , x ] Caso contrário.. 7. Potência: Dado. 8. Dado. (2.2a) for par. (2.2b) (2.2c). n ∈ N, √ n X=. h i √ n  √ n x, x . indenido,. 20. se. n. for ímpar ou. x≥0. Caso contrário.. (2.3a) (2.3b).

(29) Denição 2.6 (Diâmetro de um intervalo). X ∈ I(R). Seja. valo, chama-se diâmetro ou amplitude do intervalo. X. um inter-. o número real não-. negativo,. Diam(X) = x − x. O Diâmetro de um intervalo é a medida da qualidade do intervalo em termos de representação de números reais que ele contém, i.e., quanto maior o diâmetro, maior a imprecisão existente, e, portanto, pior a representação (intervalo) utilizada. Assim, as funções intervalares interessantes, serão aquelas funções. que. preservarem. X ⊆ Y ⇒ F (X) ⊆ F (Y ).. Denição 2.7 e. Y1 , Y2 , · · · , Yn. a. qualidade. da. representação,. i.e.. Essas funções são denidas a seguir:. Uma função intervalar n-ária. g. de variáveis. X1 , X2 , · · · , Xn. é uma inclusão monotônica se. Yi ⊆ Xi ⇒ g(Y1 , Y2 , · · · , Yn ) ⊆ g(X1 , X2 , · · · , Xn ).. Denição 2.8 (Módulo de um Intervalo) dulo do intervalo. X. Dado. (2.4). X ∈ I(R) chama-se mó-. como o número real não-negativo:. |X| = max(|x|, |x|), que corresponde à maior distância de elementos de. 2.3. X. a zero.. Ordem. Na seção anterior, foram apresentadas algumas operações intervalares que são fundamentais para aplicações envolvendo intervalos.. Assim como elas. são contrapartida de operações reais a noção de ordem sobre números reais também possui contrapartida intervalar.. 21.

(30) Denição 2.9 A. A um conjunto não-vazio.. Seja. Uma relação binária. é chamada pré-ordem, se ela satisfaz as seguintes condições,. ∀x, y ∈ A. x ≤ x;. 1. Reexividade:. 2. Transitividade: Se O par. ≤ sobre. hA, ≤i,. x≤y. onde. ≤. y ≤ z,. e. então. x ≤ z;. é uma pré-ordem em. pré-ordenado. Uma pré-ordem sobre. A. A,. é chamado conjunto. chama-se ordem parcial, se ela. satisfaz: 3. Anti-simetria: Se. Neste caso, o par. x≤y. hA, ≤i. e. y ≤ x,. então. x = y.. é chamado conjunto parcialmente ordenado ou. poset (abreviatura do inglês partially ordered set). Uma ordem parcial em quaisquer. x, y ∈ A. Denição 2.10 que. tivermos. é chamada de cadeia ou ordem total, se para. x≤y. ou. Considere o poset. ⊥ ≤ x, ∀x ∈ A,. e a estrutura. A. y ≤ x.. hA, ≤i.. Se. A. possui um elemento. ⊥. tal. então este elemento chama-se menor elemento ou bottom. hA, ≤, ⊥i. chama-se ordem parcial com menor elemento.. Existem várias ordens que podem ser denidas sobre o conjunto dos intervalos.. Dentre elas a de maior importância para este trabalho chama-se. ordem de Kulisch-Miranker [43] apresentada abaixo:. Denição 2.11. Dados. X, Y ∈ I(R): X ≤KM Y ⇔ x ≤ y. e. x≤y. (2.5). Como mencionado, a ordem de Kulisch-Miranker [43] tem um maior destaque dentre as demais ordens. natural de que se. X ≤KM Y ,. Pelo fato de que essa ordem tem a ideia então X está à esquerda de. 22. Y. na reta.

(31) real. Outro ponto de destaque sobre a ordem. hI(R), ≤KM , [0, 0]i. ≤KM. é o fato que a estrutura. é um reticulado com menor elemento. [0, 0].. Em conjuntos fuzzy intervalares, até recentemente, apenas uma ordem total era considerada, chamada de Xu e Yager [76]:. Denição 2.12. Sejam. X, Y ∈ I(R).. A ordem Xu e Yager [76] é denida. pela equação:. X ≤XY Y ⇔ x + x < y + y ∨ (x + x = y + y ∧ x − x ≤ y − y) Em 2013, Bustince et al.. (2.6). [9] apresentaram um framework baseado em. funções de agregações para construir um novo conceito de ordem, chamado ordens admissíveis.. Ordens admissíveis são ordens lineares que incluem a. ordem de Kulisch-Miranker, porém apenas para o espaço. [0, 1].. A denição. de ordens admissíveis é dada por:. Denição 2.13 x ≤ x ≤ 1}. 1.. ≺. Seja. A ordem. hL([0, 1]), ≺i uma ordem parcial, onde L([0, 1]) = {[x, x]|0 ≤ ≺. é chamada de ordem admissível, se satisfazer:. é uma cadeia em. 2. para quaisquer. L([0, 1]);. X, Y ∈ L([0, 1]). temos. X≺Y. sempre que. X ≤KM Y .. Denida uma ordem sobre os intervalos podemos continuar com a noção de distância.. 2.4. Métricas e i-métricas. A noção geométrica de distância entre dois pontos pode ser generalizada de uma função que mapeia dois pontos do plano Euclideano num número real não negativo para uma função (com certas propriedades) que mapeia dois objetos quaisquer num número real não negativo.. 23.

(32) Essas funções são chamadas de métricas e são as entidades matemáticas que fundamentam os algoritmos de agrupamento. Em 2012 Santana [24] propôs uma generalização da noção de métrica de forma que o valor da distância entre dois objetos pudessem ser um objeto qualquer que pertencesse a um conjunto que satiszesse algumas condições. Essas funções foram chamadas de i-métricas. Um caso particular de i-métrica que mostrou-se eciente em algoritmos de agrupamento de dados intervalares [66], [64] e [65] é uma função que retorna um intervalo como resultado da medida de distância entre dois intervalos. Essa i-métrica recebeu o nome de i-métrica KM,. dkm.. Essa seção tem como objetivo apresentar os conceitos de métrica e imétrica, em especial a i-métrica. dkm .. Assim como as métricas fundamentam. os algoritmos usuais de agrupamento (baseados em métricas) a i-métrica. dkm. fundamenta os algoritmos de agrupamento que envolvam dados intervalares. A noção de distância é uma ferramenta matemática utilizada em vários campos do conhecimento.. Algoritmos de agrupamento usam a noção de. distância no cálculo da similaridade (dissimilaridade) para relacionar esses objetos aos protótipos dos grupos. Em. I(R), a métrica canônica é a chamada. distância de Moore [51]:. Denição 2.14. Sejam. I(R) × I(R) → R+. X, Y ∈ I(R),. a distância de Moore é a função,. dM :. dada por:. dM (X, Y ) = max(|x − y|, |x − y|),. (2.7). Observe que o módulo de um intervalo é um caso particular dessa distância, ou seja:. dM (X, [0, 0]) = |X|.. Muitos trabalhos, [24, 70], criticam a métrica de Moore, devido ao fato dela não preservar a informação de imprecisão existente nos seus argumen-. 24.

(33) tos, pois o valor que resultante, assim como de qualquer métrica, será um número real. Em 1991, Acioly [1] apresentou um dos primeiros trabalhos que questiona sobre a existência de métricas que preservassem tal informação. Em 2006, Chakraborty et al. [14] defenderam que a distância entre duas medidas imprecisas não poderia ser um valor exato, por isso propuseram uma distância fuzzy para números fuzzy, tal distância tem a capacidade de preservar a nebulosidade existente nos seus argumentos. Em 2009, Trindade [70] apresentou os primeiros resultados na denição de uma métrica intervalar. O objetivo foi promover uma distância intervalar que preservasse a propriedade de inclusão e a informação de imprecisão. Essa distância foi utilizada em processamento digital de sinais. características importantes foram apresentadas:. x)],. garantindo apenas que. Nesse trabalho,. d(X, X) = [0, max(x−x, x−. 0 ∈ d(X, X).. Em 2010, foi apresentado o primeiro trabalho que aplicava uma distância valorada em intervalos na área de agrupamento de dados, por Vargas e Bedregal [27]. Nesse trabalho, os autores propuseram um algoritmo chamado. ckMeans e uma nova distância intervalar, enunciada a seguir:. Denição 2.15 (Distância intervalar [27]) distância é a função denotada por. Sejam. X, Y ∈ I(R).. dI : I(R) × I(R) → I(R)+. de. 2.4.1. i-. denida por:. dI (X, Y ) = [min{de (x, y), de (x, y)}; max{de (x, y), de (x, y)}], onde. A. (2.8). é a distância euclidiana.. i-Métrica e i-Métrica. dkm. Em 2011 e 2012, Santana e Santiago [24, 61] propuseram uma generalização no conceito de métrica, com modicação nos axiomas e no espaço. 25.

(34) de valoração dando origem ao conceito de i-métrica.. Além de fundamen-. tar algumas distâncias que possuíam valores que não eram números reais,. dkm ,. eles também apresentaram a i-métrica. que sustentará os algoritmos de. agrupamento para dados intervalares.. Denição 2.16 (Conjunto d-dirigido) um conjunto existe. D ⊆ A, D. z ∈ D,. chama-se conjunto. z ≤ x, y .. tal que. relação semi-auxiliar para 1. Se. xRy ,. 2. Se. x ≤ y , yRz. 3. Se. hA, R, ≤i. então. ≤. Seja. hA, ≤i um conjunto pré-ordenado,. d-dirigido,. se para cada. R. Uma relação binária. sobre. A. x, y ∈ D,. é chamada. sempre que:. x ≤ y; e. z≤w. então. xRw.. possui menor elemento,. ⊥,. então. ⊥ Rx. para todo. x ∈. A − {⊥}. Um conjunto pré-ordenado,. R,. possui menor elemento separável, sempre que. par de elementos e. hA, ≤, ⊥i, munido de uma relação semi-auxiliar. x, y ∈ A,. com. ⊥ Rx. e. ⊥ Ry. A. é. existe. d-dirigido z∈A. e para cada. tal que. z ≤ x, y. ⊥ Rz . A denição que segue fornece uma estrutura matemática que generaliza. o conjunto dos números reais não negativos como espaço de valores de distâncias.. Denição 2.17 (Valoração de i-Distâncias [24]) distâncias (VID) é uma ordem parcial semi-auxiliar para Uma. VID. ≤. bem. hA, ≤, R, ⊥i. tal que. com menor elemento separável conhecida. é. a. h[0, +∞), ≤, <, 0i. 26. valoração. Uma Valoração de. R. i-. é uma relação. ⊥. das. métricas. usuais:.

(35) Após generalizar o espaço de valoração de distâncias, Santana e Santiago propuseram, a generalização da noção de distância, dando origem à noção de i-métricas.. Denição 2.18 (i-Métrica [24]) Ω = hA, ≤, R, ⊥i. d(a, b) =⊥. 2.. d(a, b) = d(b, a),. A tripla. se, e somente se,. d(a, b)Rε,. (M, d, Ω). conjunto. não-vazio. d : M ×M → A. e. é chamada. a = b;. para quaisquer. para algum. tal que. um. ou simplesmente i-métrica, quando ela satisfaz:. 1.. ⊥ Rδ ,. M. uma VID. Uma função. i-métrica Ω-valorada,. 3. Se. Seja. a, b ∈ M ;. ε∈A. com. ⊥ Rε,. então existe. δ ∈ A,. com. d(b, c)Rδ ⇒ d(a, c)Rε, ∀c ∈ M .. é chamada de. espaço i-métrico.. Em 2011, Santana e Santiago [61] propuseram algumas VID's dando origem as i-métricas baseadas em intervalos. Uma VID dessas, construída sobre a ordem de Kulisch-Miranker tornou-se interessante para a aplicação em agrupamento de dados intervalares. No que segue, apresenta-se essa VID e a i-métrica associada.. Denição 2.19. Seja. uma VID. A função. M. um conjunto não vazio e. d : M ×M → Ω. Ω = hI(R)+ , ≤km , R, [0, 0]i. é chamada i-métrica intervalar ou. simplesmente i-métricas (neste trabalho), se: 1.. d(x, y) = [0, 0]. 2.. d(x, y) = d(y, x),. 3. Se. d(x, y)R. {[0, 0]}. se, e somente se, para quaisquer. para algum. no qual se. x = y; x, y ∈ M ;. ∈ I(R)+ − {[0, 0]},. z ∈ I(R). e. d(y, z)Rσ , 27. então existe. então. d(x, z)R.. σ ∈ I(R)+ −.

(36) (M, d, Ω). Nesse caso, a tripla. é chamada de. espaço i-métrico. aqui,. (neste trabalho) abrevia i-métrico intervalar, uma vez que se subentende que os valores da i-métrica são intervalos.. Denição 2.20 (Essencialmente abaixo- [24]) Considere um conjunto préordenadohA, ≤i. Diz-se que x está essencialmente abaixo de y , o que é denotado por. x y,. um supremóide. s. se para todo conjunto dirigido. tal que. y ≤ s,. existe. d∈D. Proposição 2.1 (Proposição 5.5, [24]) abaixo estrita para 1.. [0, 0] X ,. ≤KM. em. para todo. 2. Se. x, y > 0,. 3. Se. x, x, y, y > 0,. então. Seja. . com ao menos. x ≤ d.. a relação essencialmente. I(R)+ :. X ∈ I(R)+ ;. [0, x] [0, y] ⇔ x < y ;. então. Denição 2.21 ([24]). tal que. D⊆A. X Y ⇔ (x < y) ∧ (x < y).. Dados. X, Y ∈ I(R),. dena. X ∗ Y ⇔ X Y. e. Y 6= [0, 0].. Teorema 2.1 ([61]). A estrutura. Teorema 2.2 ([24, 61]). hI(R)+ , ≤KM , ∗ , [0, 0]i. Sejam dois intervalos. é uma VID.. X, Y ∈ I(R). e uma métrica. qualquer, considere o conjunto das distâncias entre os elementos de. Y. representado por. DXY = {d(x, y) : x ∈ X e y ∈ Y }.. dkm : I(R) × I(R) → hI(R)+ , ≤km , , [0, 0]i denida   [0, 0] dkm (X, Y ) =  [min(D ), max(D )] XY. XY. 28. X. e de. Então, a função. abaixo é uma i-métrica. , se. X=Y. , se. X 6= Y. .. (2.9).

(37) Observe que o conjunto. DXY. tem o mesmo princípio de um conjunto. X♦Y = {x♦y : x ∈ X ∧ y ∈ Y },. ♦. onde. é uma operação sobre números. reais, ou seja, ele tem o resultado do cálculo da distância entre todos os elementos de X com todos os elementos de do conjunto. DXY. Entretanto, essa representação. não é calculável, é necessário que seja provida uma outra. representação para que se possa calcular. Teorema 2.3. Y.. Dados. X, Y ∈ I(R),. dkm (X, Y ):. temos:.    [0, 0] , se X = Y       [d(x, y), d(x, y)] , se x < y      [dx, y), d(x, y)] , se y < x dkm (X, Y ) =   [0, d(x, y)] , se X <km Y       [0, d(x, y)] , se Y <km X     [0, max(d(x, y); d(x, y))] , se X 6= Y. . e. X ∩ Y 6= ∅. e. X ∩ Y 6= ∅. e. (X ⊂ Y ouY ⊂ X) (2.10). 2.5. Considerações Finais. A ideia principal que motivou este estudo foi a necessidade de distâncias capazes de capturar as imprecisões. Incertezas essas que as métricas clássicas não conseguem manter ao calcular a distância entre dois dados intervalares. Assim, a investigação desse tipo de métrica dentro do contexto de agrupamento de dados tornou-se uma questão importante e o alvo desta tese. O Teorema que segue encerra este capítulo e, apesar de simples, demonstra que qualquer distância que seja usada em algoritmos usuais de agrupamento pode ser simulada pela i-métrica. dkm ,. simplesmente aplicando uma. coerção dos argumentos reais para intervalos degenerados, e em seguida aplicar a i-métrica. Isso signica que intervalos munidos da i-métrica. 29. dkm. são um.

(38) ambiente onde a computação usando agrupamentos (pontuais) está imersa.. Teorema 2.4. Seja. canônica, i. e.. i(x) = [x, x].. d : R2 → R. uma métrica e. i : R → I(R). a inclusão. Então,. d(x, y) = z ⇔ dkm [i(x), i(y)] = i(z).. Demonstração: Seja. d : R2 → R. uma métrica qualquer e. i : R → I(R). denida por. i(x) = [x, x]. (⇒) Suponha que. d(x, y) = z def. Caso. x = y,. então. d(x, y) = 0. Caso. x < y,. então. i(x) = x < y = i(y). e. dkm (i(x), i(y)) = [0, 0] = i(0). e. def. dkm (i(x), i(y)) = [d(i(x), i(y)), d(i(x), i(y))] = [d(x, y), d(x, y)] = [z, z] = i(z) Caso tão. x > y,. a prova é análoga. (⇐) Suponha que. dkm ([x, x], [y, y]) = [z, z].. [0, 0] = i(0). e. d(x, y) = 0.. Caso. temos. endef. [x, x] = [y, y], então x = y , dkm (i(x), i(y) =. Os casos. [0, d(x, y)] são análagos ao anterior. [d(x, y), d(x, y)] = [z, z].. dkm (i(x), i(y)) = i(z),. dkm (x, y) = [0, d(x, y)]. Nos casos. e. dkm (x, y) = def. x < y e y < x, dkm (i(x), i(y)) =. Portanto, de acordo com a igualdade de intervalos,. d(x, y) = z .. 30.

(39) Capítulo 3 Análise de Agrupamento de Dados Este capítulo realiza uma revisão da área Agrupamento de Dados. Nele são descritos os métodos de agrupamento que servem de base para os algoritmos propostos neste trabalho. Atualmente, vive-se em um mundo com diversos tipos de dados que são oriundos de todos os tipos de observação.. Busca-se encontrar padrões de. similaridade (ou dissimilaridade) entre os objetos para efetuar classicações ou mesmo, obter informações especícas. Para buscar esses padrões de similaridade é necessário fazer uma análise para que seja possível tomar qualquer decisão sobre os objetos e/ou fenômenos envolvidos.. Uma das formas de efetuar classicações de dados. é utilizando o conhecimento de um especialista.. No entanto, esse tipo de. prossional normalmente é muito caro. Assim, uma outra forma eciente é realizar análise desses dados por meio dos métodos de agrupamento de dados.. 31.

(40) 3.1. Agrupamento de Dados. Agrupamento de dados é um campo que tem sido largamente estudado em aprendizagem de máquina. O principal objetivo é organizar os objetos em grupos. Por denição, agrupamento de dados é um conjunto de técnicas que visa dividir os objetos em grupos, de tal forma que os objetos (instâncias) do mesmo grupo (cluster) são considerados semelhantes e os objetos em grupos distintos considerados dissemelhantes.. Em outras palavras, estas técnicas. têm como objetivo encontrar uma divisão dos objetos em que há grande similaridade entre os objetos de um mesmo grupo e alta dissimilaridade entre objetos de grupos diferentes [37]. Existem vários algoritmos de agrupamento propostos na literatura. Eles são divididos em agrupamentos particionais e agrupamentos hierárquicos [2, 39, 50, 69, 75].. Este estudo é direcionado apenas para agrupamentos. particionais. Os agrupamentos particionais podem ser divididos em duas categorias:. Crisp e Fuzzy. No agrupamento crisp, uma instância pertence a um e somente um cluster, enquanto que o agrupamento fuzzy permite que uma instância pode pertencer a mais de um cluster com um grau de pertinência A notação. uij ∈ [0, 1]. ao i-ésimo. cluster.. uij ∈ [0, 1].. representa o grau de pertinência da j-ésima instância. Nesta tese são estudados algoritmos de agrupamento fuzzy para dados intervalares e algoritmos de agrupamento crisp para dados híbridos que contenham dados intervalares e dados cuja medida de distância sejam números reais. Não existe na literatura uma denição unicada para descrever agrupamento. Isso pode ser reexo do fato de que, no geral, não existe informação prévia sobre a estrutura dos dados e nem existe uma única medida de simi-. 32.

(41) laridade capaz de diferenciar grupos em todas as situações [25, 32]. Como mencionado, algoritmos de agrupamento formam grupos distintos de objetos;esses grupos são formados com base em uma medida que visa estabelecer a similaridade entre tais objetos [39]. Por esse motivo, Agrupamento de Dados é comumente reduzido à agrupar objetos em grupos apropriadamente. Porém, algumas questões fundamentais se tornam pertinentes quando a análise de agrupamentos é necessária [34]:. 1. Como medimos a similaridade?. 2. Como formamos os agrupamentos?. 3. Quantos grupos formamos?. Geralmente três tipos de medidas de similaridade são utilizadas: medidas correlacionais, medidas baseadas em distância e medidas de associação [34]. As duas primeiras estão ligadas a dados numéricos, já a última a dados nãonuméricos. As medidas mais utilizadas são baseadas em métricas e, dentre estas, a mais utilizada é a conhecida métrica Euclidiana. No caso dos dados intervalares, várias medidas foram propostas ao longo do tempo: Distância Hausdorf, L1, L2, Euclidiana [15, 17, 18, 21, 26]. Existem outras medidas tais como:. distância de Mahalanobis, que faz. uma normalização em relação à variância; similaridade usando cossenos, que é usada para a classicação de textos e outros dados de alta dimensão; a Correlação de Pearson muito usada em bioinformática, entre outras. No entanto, não é suciente medir a similaridade, é necessário haver um procedimento para agrupar os dados mais similares em grupos.. 33.

(42) O agrupamento crisp é insuciente em certas situações, por exemplo: como agrupar um conjunto de carros pela cor?. Normalmente um tom de. verde é diferente de outro e nem por isso deixou de ser verde. Para lidar com esse tipo de situação o agrupamento fuzzy é aplicado, pois, nesta abordagem, um determinado objeto pode pertencer a mais de um. cluster com um grau. de pertinência. No caso de classicarmos um carro no grupo dos carros de cor verde estaremos denindo o grau de pertinência do mesmo com relação ao grupo de carros de cor verde. A formação dos clusters necessitam de uma grande atenção quanto ao terceiro questionamento. O número de grupos não é facilmente respondido, pois na maioria dos casos não sabemos, a priori, o número de grupos. Ao se aplicar agrupamento em dados rotulados nem sempre os grupos formados coincidirão com os rótulos conhecidos, pois o objetivo de agrupamento não é apenas classicar dados, mas encontrar grupos que tenham um signicado relevante [31]. No entanto, existem na literatura heurísticas que guiam a escolha da quantidade de grupos baseada na estrutura do agrupamento formado [34]. O que buscamos é o menor número de grupos e a maior homogeneidade dos objetos em cada grupo.. Uma das formas de atingir isso é aplicando. métodos para agrupamentos de dados, que são tratados na próxima seção.. 3.2. Algoritmos para Agrupamento de Dados. Apesar do grande potencial da maioria dos métodos de agrupamento, não existe um único método que seja capaz de obter um bom desempenho em todos os problemas, portanto se faz necessário escolher qual o melhor algoritmo de agrupamento para um determinado conjunto de dados, dentro. 34.

(43) da nalidade da aplicação em questão. De uma forma geral, os algoritmos são classicados em hierárquicos e particionais. Para maiores detalhes veja [2, 50, 69, 75]. Algoritmos hierárquicos são utilizados nas mais diversas áreas, desde a economia [8] até a genética [30].. Esses algoritmos produzem uma série de. partições baseadas no critério de aglomeração ou no critério de divisão que estão relacionados com a medida de similaridade. Os algoritmos aglomerativos iniciam com cada objeto formando um grupo e durante as interações os pares de grupos mais próximos são combinados até que todos os objetos estejam em apenas um grupo. A abordagem divisiva vai na direção contrária, todos os objetos pertencem a um único grupo que iterativamente divide-se em grupos que estão mais afastados um do outro, até que ao nal cada objeto forma um grupo unitário. Algoritmos de agrupamento hierárquico produzem uma partição para cada valor de. c = 1, ..., n. sendo. n. o número total de objetos [75].. No caso dos algoritmos particionais, são calculadas diretamente as partições ao minimizar uma função de otimização. Uma função de otimização muito utilizada é a função custo, a qual potencializa a dissimilaridade entre os grupos e a similaridade dentro de cada grupo.. Os algoritmos par-. ticionados têm sua estrutura centrada nos protótipos.. Os algoritmos mais. conhecidos são:. K-Means, Fuzzy c-Means, Possibilistic C-Means e Mapas. auto-organizáveis [3, 41, 42, 44].. Fuzzy C-Means (FCM), introduzido por. Bezdek em 1981 [3], é um dos primeiros e mais populares algoritmos de agrupamento fuzzy. A partir dele inúmeras variações foram criadas. Outro algoritmo muito utilizado e com diversas versões é o K-Means.. Pelo fato. dos algoritmos aqui apresentados derivarem desses dois algoritmos, vamos apresentá-los mais detalhadamente.. 35.

(44) Para entender o funcionamento desses algoritmos é importante ter clara a representação dos objetos. No caso, cada objeto de entrada para o algoritmo é representado por um vetor de atributos. Por exemplo, considere o conjunto de dados das amostras de informações clínicas de. {x1 , x2 , · · · , xi , · · · , xn }.. Cada paciente. n pacientes (objetos), X =. xi possui um vetor de características,. tais como: peso, idade, sexo, altura, cor da pele, tipo de doença, entre outras. Assim, o que algoritmos baseados no K-Means e no FCM buscam é criar grupos com maior homogeneidade entre elementos do mesmo grupo e maior heterogeneidade entre elementos de grupos diferentes. Portanto, algoritmos baseados no K-Means e no FCM minimizam uma função objetivo na forma:. J(U, V ) =. c X n X. → − → − 2 um ik kxk − vi k − P (U ). (3.1). i=1 k=1. [uik ] = U. sendo a partição. pertencente a. Mhcn ,. tótipos dos grupos são representados pelo vetor. c. é o número de grupos,. zicação, sendo. m = 1. e possibilístico, e. P. n. Mpcn . Os pro− − V = {→ v1 , · · · , → vc } ∈ Rd×c ,. a. Mf cn. o número de objetos,. para K-Means e. m. ou a. o parâmetro de fuz-. m ∈ (1, +∞]. para métodos fuzzy. é uma função de penalidade, usada em agrupamentos. possibilísticos. O cálculo da distância entre o objeto realizado pela distância euclidiana, representado por. − − d(→ xk , → vi ).. da seguinte forma:. k. e o protótipo. − − k→ xk − → vi k =. qP. p j j=1 (xk. i. é geralmente. − vip )2. e pode ser. Os protótipos dos grupos podem ser calculados. Pn − m→ → − k=1 (uik ) xk vi = P n m k=1 (uik ). (3.2). Para obter a matriz de partição, os algoritmos K-Means e FCM efetuam seus cálculos de formas diferentes, assim as subseções seguintes descrevem cada um desses algoritmos.. 36.

(45) 3.2.1. K-Means. No algoritmo K-Means, cada objeto é atribuído a um único grupo, e o cálculo da matriz de partição é dado por.   0 uik =  1. caso. dik > min1≤j≤c {djk }. (3.3). caso contrário.. O algoritmo K-Means é inicializado ao escolhermos aleatoriamente os centros iniciais dos. clusters. O Algoritmo 1 apresenta os passos do algoritmo. K-Means.. Algoritmo 1: Algoritmo K-Means [44] Entrada: X - Conjunto de dados, c - número de grupos, - Tolerância Dados: U - matriz de partição, onde uik indica se o objeto k está no grupo. i.. Saída: U e V Inicialize V repita Calcular. U. usando equação (3.3); Atualizar os. c. protótipos usando. a equação (3.2). até kVnew − Vold k ≤ ; Existem diversos problemas que envolvem o K-Means, tais como: os clus-. ters nais não representam uma otimização global mas apenas local e clusters diferentes podem surgir a partir da diferença na escolha inicial aleatória dos protótipos; o parâmetro. c. deve ser escolhido antecipadamente ou vários. valores devem ser testados até encontrar o melhor; os dados devem ser numéricos e devem ser comparados através da distância Euclideana; o algoritmo trabalha melhor com dados que contêm clusters esféricos; clusters com outras geometrias podem não ser encontrados; o algoritmo é sensível a outliers,. 37.

(46) esses pontos podem distorcer a posição do centroide e deteriorar a qualidade das partições.. 3.2.2. Fuzzy C-Means. O FCM é baseado na lógica fuzzy [77], onde cada instância não pertence apenas a um para cada. c). cluster, mas, ao invés disso, possui um grau de pertinência. cluster existente no processo.. chamada matriz de pertinência.. U. é uma matriz de partição. (n ×. Todas as partições fuzzy satisfazem as. seguintes restrições:. µik ∈ [0, 1], c X k=1 n X. (1 ≤ i ≤ n), (1 ≤ k ≤ c),. (3.4). µik = 1,. (1 ≤ i ≤ n),. (3.5). µik > 0,. (1 ≤ k ≤ c).. (3.6). i=1 Para o algoritmo FCM, a partição fuzzy é calculada por:. uik =.  −1 1 Pc kxk −vi k m−1     j=1 kxk −vj k      . Se. djk 6= 0 ∀j. 1. Se. dik = 0. 0. Se. dik 6= 0. e. djk = 0. para algum. j. (3.7). O cálculo do protótipo, Eq.. (3.2), e da atualização da partição, Eq.. (3.7), são alternados até convergirem. O algoritmo FCM, assim como o KMeans, sofre com a inicialização aleatória dos centros iniciais dos. clusters.. O Algoritmo 2 apresenta os passos do algoritmo FCM. Um ponto fraco do FCM é o fato dele ser computacionalmente mais caro que o K-Means. E assim como o K-Means, o FCM é sensível a outliers. Assim como esses algoritmos serviram de base para os algoritmos propostos neste. 38.

(47) Algoritmo 2: Algoritmo FCM [3] Entrada: X - Conjunto de dados, c - número de grupos, - Tolerância Dados: U - matriz de partição, onde uik é o grau de pertinência do objeto. k. no grupo. i.. Saída: U e V Inicialize V repita Calcular. U. usando a equação (3.7 ); Atualizar os. c. protótipos pela. equação (3.2);. até kVnew − Vold k ≤ ; trabalho, muitos outros algoritmos são encontrados na literatura partindo do FCM e K-Means, dentre esses vamos apresentar na próxima seção os que usam dados intervalares.. 3.2.3. Outros Métodos de Agrupamentos para Dados Intervalares. Nesta subseção vamos apresentar os métodos de agrupamentos para dados intervalares, pois este trabalho é voltado para métodos particionais usando dados intervalares. Em 2000, Bock and Diday [5] propuseram uma maneira de trabalhar com dados intervalares, o qual é conhecida como o método do centro. Neste método é calculada a média aritmética dos valores mínimos e máximos para cada dado intervalar de entrada e em seguida é feito o agrupamento usando o FCM. Em 2003, Bock [4] construiu o algoritmo SOM (do inglês, Self-. organizing maps ) baseado na distância dos vértices para visualizar dados intervalares. Em 2004, Souza e Carvalho [26] propuseram dois algoritmos de agrupa-. 39.

(48) mento dinâmico para dados intervalares: o primeiro faz uma extensão para intervalos usando city-block e o segundo é uma versão adaptada com uma ou duas componentes. Ainda em 2004, Souza et al. [26], propuseram dois algoritmos de agrupamento dinâmico usando a distância de Mahalanobis: sendo que no primeiro método, a distância é igual para todos os grupos; no outro algoritmo proposto é utilizada uma versão adaptativa da distância. Em 2006, Sato-Ilic and Jain [63] zeram uma extensão do método desenvolvido por Bock and Diday [5]. Nessa extensão, os dados são decompostos em dois conjuntos de dados: um com os valores mínimos e o outro com os valores máximos, onde, são atribuídos pesos para essas séries de dados nos valores mínimos e máximos. Carvalho et al. [21] propuseram um algoritmo de agrupamento dinâmico para dados intervalares usando a distância adaptativa de Hausdorf, onde a distância altera a cada iteração que depende da estrutura de cada grupo. Em 2007 Zang et al. [78] propuseram uma extensão do algoritmo FCM para o processamento de dados intervalares. Nesse trabalho os autores realizaram simulações com um conjunto de dados reais que foram obtidos de um sistema de transporte real. O algoritmo permite processar conjuntos de dados intervalares e ainda mostra que a proposta desse algoritmo pode ser usada para extrair regras de intervalos fuzzy tipo 2 [54]. Carvalho [18], propôs um algoritmo não-adaptativo e adaptativo baseado no FCM que utiliza a distância Euclideana entre vetores de intervalos. Em [38], Irpino e Verde, propuseram uma nova distância, Wasserstein, para dados intervalares e também implementaram um algoritmo dinâmico. Em 2010, Carvalho e Tenório em [22], propuseram um algoritmo fuzzy. k-Means que é baseado em distâncias quadráticas e a distância muda a cada iteração, podendo ser a mesma para todos os grupos ou uma para cada grupo.. 40.

(49) Em [17], o autor propôs um algoritmo fuzzy SOM para dados intervalares que é baseado no algoritmo SOM seguindo o mesmo modelo do algoritmo FCM e o algoritmo combina a matriz de pertinência fuzzy com a taxa de aprendizado. No contexto de dados intervalares e distâncias essencialmente intervalares (distâncias cujos valores são intervalos), Vargas em [29] propôs uma extensão do ckMeans baseado no FCM para dados intervalares, usando uma distância essencialmente intervalar. Na próxima subseção, são detalhados os métodos usados para o estudo comparativo dos métodos propostos.. 3.2.4. Métodos Usando Abordagens Fuzzy Para Dados Intervalares. Em 2007, utilizando as estratégias adaptativa e não-adaptativa, Carvalho [18] apresentou duas versões do FCM. Para o método não-adaptativo, chamado de IFCM, foi utilizada a distância euclidiana em uma versão adaptada do FCM que utiliza a seguinte função para calcular os protótipos.. vi = [vi , vi ],. onde. Pn m k=1 (uik ) xk P vi = n m k=1 (uik ). e. Pn (uik )m xk Pk=1 , 1 ≤ i ≤ c. n m k=1 (uik ). (3.8). No método adaptativo o algoritmo busca que ao nal de cada etapa de associação, a distância entre os objetos e os protótipos seja a menor possível, para isso o algoritmo associa uma distância diferente para cada grupo. Nos métodos, o autor, procura minimizar a seguinte função:. J(U, V, dA ) =. c X n X. 2 um ik dA (xk , vi ). (3.9). i=1 k=1 onde. U. é a matriz de partição,. V. é o vetor dos protótipos,. adaptativa que mede a dissimilaridade entre o protótipo. 41. dA é uma distância vi. e o objeto. xk ..

(50) Nos métodos de agrupamentos dinâmicos são considerados pesos,. λ, para. cada cálculo de distância. Esses pesos podem variar ao considerar o resultado do agrupamento ao nal de cada iteração. E mais, eles podem considerar a informação advinda dos grupos como também de cada objeto.. O fato da. distância não ser única para todos os grupos e também o fato de que a cada iteração deve ser medida a qualidade da soma das distâncias, são fatos muito. dA (xk , vi ) é denida por: v uX u p j dA (xk , vi ) = t λi [(xk − vi )2 + (xk − vi )2 ]. importantes. A distância. (3.10). j=1 sendo. dA a parametrização da distância pelo vetor de pesos λi onde 1 ≤ i ≤ c,. e é alterado em cada iteração. Observe que a equação (3.10) é a distância Euclidiana ponderada para cada protótipo. i. e dimensão. j. pelo pesos. λji .. Esses pesos são atualizados. usando a seguinte equação:. Pn 1 p m h h 2 h h 2 p [Π (u ) ((x − v ) + (x − v ) ))] ( ik i i k k h=1 k=1 , (1 ≤ j ≤ p), (1 ≤ i ≤ c) λji = Pn m ((xj − vj )2 + (xj − vj )2 ) (u ) ik i i k k k=1 (3.11) onde. Πpj=1 λji = 1, (1 ≤ i ≤ c).. O Algoritmo 3 descreve os passos do IFCMADC, ele é iniciado com a escolha aleatória de. U. e alterna em três passos até obter a convergência.. Vargas e Bedregal [27] apresentaram a primeira versão de um algoritmo que utiliza uma distância essencialmente intervalar. Nesse estudo, os autores criaram uma versão intervalar do algoritmo ckMeans modicando a distância proposta em [71]. Esse algoritmo, tem a capacidade de considerar graus de pertinência intervalar. De acordo com Bedregal e Vargas em [27], o algoritmo ckMeans segue a mesma estrutura do algoritmo FCM, no entanto, a única mudança é sobre a forma de como calcular o centro dos grupos. Por isso, é. 42.

(51) Algoritmo 3: Algoritmo IFCMADC [18] Entrada: X - Conjunto de dados, c - número de grupos, Dados: U - matriz de partição fuzzy, λ - vetor de pesos. Saída: U e V Inicialize. U. repita Cálculo de. V. é obtido pela equação 3.8. Os pesos são atualizados. utilizando a equação (3.11) Atualiza a matriz de pertinência. " uik =. uik. com equação: 1. c X dA (xk , vi ) m−1 j=1. #−1. dA (xk , vj ). até kJnew − Jold k ≤ ; criada uma nova matriz,chamada. Ucrisp ,. contendo os valores 0 ou 1. Cada. linha desta nova matriz tem 1 na posição do maior valor desta linha na matriz. U. e 0 nas outras posições da linha. O algoritmo ckMeans muda o método de. calcular os protótipos, já que ele não utiliza a matriz. Ucrisp ,. que é obtida a partir de. U,. U,. e sim uma matriz. pela equação abaixo:.    µcrispij = . µij c. max µlj.    ,. (3.12). l=1. e o cálculo dos centros em ckMeans usa a matriz. n X. vj =. Ucrisp ,. na equação:. µcrispij xi. i=1 n X. , 1 ≤ j ≤ c.. (3.13). µcrispij. i=1 No ponto de vista das funções do algoritmo, a versão intervalar não sofreu nenhuma alteração em relação à versão pontual desse algoritmo.. 43. Porém,.

(52) em [27] foi proposta uma nova forma de atualizar a matriz de pertinência intervalar, onde foi obtido um intervalo mais estrito, uma vez que a divisão entre dois intervalos iguais não é necessariamente igual ao intervalo [1,1], para obter isso, foi feita a seguinte substituição: toda vez que a divisão é entre intervalos iguais é substituído pelo intervalo [1,1], ao invés de realizar a divisão.. Algoritmo 4: Algoritmo ckMeans Intervalar [29] Entrada: X - Conjunto de dados, c - número de grupos, Dados: U - matriz de partição fuzzy Saída: U e V Inicialize. U. repita Calcular. Ucrisp. Calcular. V. usando a Equação (3.12).. com. vi = [vi , vi ],. Pn m k=1 (ucrispik ) xk vi = P n m k=1 (ucrispik ). e. Pn m k=1 (ucrispik ) xk , (1 ≤ i ≤ c). vi = P n m k=1 (ucrispik ) (3.14). Atualizar a matriz de pertinência. uik. com.  1 m−1 i−1 X d (x , v ) I k i uik =  + [1, 1] + dI (xk , vj ) j=1. c X dI (xk , vi ) d (xk , vj ) j=i+1 I. −1 1 ! m−1 . até kdI (Jnew , Jold )k ≤ ; Esse algoritmo encerra essa parte onde os métodos atuais de agrupamento são apresentados. A próxima seção apresenta os métodos desenvolvidos nessa tese.. 44.

(53) Parte II Métodos Propostos. 45.

(54) Capítulo 4 Métodos Propostos para Dados Intervalares Neste capítulo, são apresentados algumas das contribuições deste trabalho. É fornecida uma plataforma para a realização de agrupamento com dados intervalares, incluindo medida de distância, algoritmos de agrupamento. fuzzy e índices de validação. Para isso, é formalizada a ideia de uma distância baseada em intervalos. Em seguida, são apresentados as adaptações necessárias para denir dois algoritmos de agrupamento fuzzy para dados baseado em intervalos, os quais são inspirados pelos algoritmos FCM e ckMeans. Ainda neste capítulo, serão apresentados os índices de validação adaptados para dados intervalares, CIh , FSh e XBh . Seja. Ω = {x1 , · · · , xn }. descrito por. s. (x1k , · · · , xsk ),. onde. um conjunto com. n. objetos, sendo cada objeto. variáveis intervalares, obtém-se um vetor de intervalos. xjk = [xjk , xjk ] ∈ I(R),. Considere um conjunto de. c. dos por um vetor de intervalos. para todo. xk. xk =. j = 1, · · · , s.. clusters que também podem ser representa-. vi = (vi1 , · · · , vis ), 46. onde. vij = [v ji , v ji ] ∈ I(R),.

(55) para todo. j = 1, · · · , s.. De acordo com a Denição 2.18, podemos denir uma distância baseada em intervalos, Seja. dV ID. d : hI(R)+ , [0, 0]is × hI(R)+ , [0, 0]is −→ hI(R)+ , [0, 0]i. uma. i-métrica. descrita na Denição 2.18, assim a distância. baseada em intervalos para dados s-dimensionais pode ser denida como:. v uX u s d(xk , vi ) = t dV ID (xjk , vij )2 .. (4.1). j=1 que representa a distância do objeto. xk. para o protótipo. vi ,. onde. xk. e. vi. são. representados como um vetor de intervalos. Para utilizar dados intervalares são denidos alguns algoritmos de agrupamentos fuzzy. Na próxima seção, apresentamos as adaptações necessárias para a construção da matriz de pertinência para intervalos,. U, para trabalhar-. mos com distância baseada em intervalos que também carreguem o conceito de representação intervalar [62].. 4.1. Matriz de Pertinência Intervalar. Para trabalhar com algoritmos de agrupamentos fuzzy que utilizam dados intervalares é preciso também que o grau de pertinência seja intervalar, Portanto, a matriz. U,. precisa ser adaptada.. matriz de pertinência intervalar. I(R) | 0 ≤ x ≤ x ≤ 1}.. µik .. Assim, considere agora a. U = [uik ] ∈ I([0, 1])n×c , onde I([0, 1]) = {x ∈. As restrições descritas nas Eqs. (3.4), (3.5) e (3.6). 47.