A comparison between K-Means, FCM and ckmeans algorithms

(1)

A comparison between K-Means,

FCM and ckMeans algorithms

Rogério R. de Vargas, Benjam´ın R. C. Bedregal Departamento de Informática e Matemática Aplicada Universidade Federal do Rio Grande do Norte, UFRN

Natal, Brazil

rogerio@ppgsc.ufrn.br, bedregal@dimap.ufrn.br

Eduardo Silva Palmeira

Departamento de Ciˆencias Exatas e da Terra Universidade Estadual de Santa Cruz, UESC

Ilh´eus, Brazil espalmeira@uesc.br

Resumo—Fuzzy C-Means, introduzido por Jim Bezdek em 1981 é um dos primeiros e mais populares algoritmos de agrupamento fuzzy. No entanto, com o objetivo de melho-rar o ´ındice de acertos ou sua velocidade, ao longo destes anos diversas modificaç ões tem sido propostas. Entre estas destacamos o ckMeans, proposto pelos autores em 2010, que altera no FCM a forma de calcular o centro dos clusters. A ideia é usar uma função de pertinência auxiliar dos elementos aos clusters que sejam essencialmente crisp e calcular os centroides seguindo um processo similar ao usado no algoritmo K-Means, mas mantendo o restante do algoritmo FCM. De fato, esta hibridizaçao entre o FCM e K-Means motivou o nome ckMeans para esta variante do FCM. Neste artigo aplicamos os algoritmos K-Means, FCM e ckMeans a uma base de dados validada de mamografias com cerca de mil elementos e comparamos estes três algoritmos em termos do ´ındice de acertos e da quantidade de iteraç ões e o tempo de processamento computacional até o sistema convergir. T´ıtulo: Uma comparaç ão entre os algoritmos K-Means, FCM e ckMeans

Keywords-centro dos clusters; ckMeans; FCM; K-Means Abstract—Fuzzy C-Means, introduced by Jim Bezdek in 1981 is one of the earliest and most popular fuzzy clustering algorithms. However, in order to improve the hit rate or speed, over the years several modifications have been proposed. Among these we highlight the ckMeans algorithm proposed by us in 2010 which make a change in the way to calculate the center of the clusters of FCM. The idea is to use an auxiliary membership function of elements to those clusters that are essentially crisp and calculate the centroids following a similar process as done in K-Means algorithm but keeping the same procedures as in FCM in the rest of algorithm. In fact, this hybridization between FCM and K-Means motivated the name ckMeans for this variant of the FCM. In this article we apply K-Means, FCM and ckMeans algorithms in a validated database of mammograms with about a thousand elements and compare these three algorithms in terms of hit rate and number of each iterations and the computational processing time until the convergency of the system.

I. INTRODUC¸ ˜AO

Agrupamento é um método de aprendizado não supervi-sionado e é aplicado em diversas áreas, inclusive mineração de dados, reconhecimento de padrões, visão computacional,

bioinformática, etc. O objetivo desses métodos é organizar um conjunto de dados em grupos de tal forma que os dados dentro de um determinado grupo tenha um alto grau de semelhança, enquanto os dados pertencentes a diferentes grupos tenham um alto grau de dissimilaridade [1].

Agrupamento de dados é uma ferramenta essencial para a busca de grupos de dados não-rotulados. Agrupamento fuzzy é um método que pode capturar a incerteza em uma situação real. O agrupamento fuzzy pode obter um resultado robusto em relação a agrupamentos hard convencional. Em [2] a Figura 1 explica essa ideia.

Figura 1. Exemplo de agrupamento de dados em sete grupos, onde o r´otulo sobre o item indica o grupo a qual o item pertence

Portanto, o objetivo da tarefa de agrupamento é maximizar a similaridade de objetos de um grupo, e minimizá-lo para objetos de diferentes grupos. O sucesso de um algoritmo de agrupamento é a escolha de uma boa medida de similaridade. Em métodos de agrupamento crisp cada ponto do con-junto de dados pertence a exatamente um cluster. Em geral, agrupamento fuzzy tem a sua partição com base na ideia de funções de pertinência expresso por um grau de pertinência correspondente a um cluster, especificamente, os algoritmos fuzzy associam um dado para todos os clusters, variando o grau de pertinência dos dados em cada cluster. Especial-mente, agrupamento fuzzy tem sido amplamente estudado e aplicado em uma variedade de áreas. Em particular, validação de cluster fuzzy desempenha um papel muito importante no agrupamento fuzzy [3].

(2)

A teoria dos Conjuntos Fuzzy foi concebido como um resultado de uma tentativa de lidar com o problema de reconhecimento de padrões no contexto de categorias im-precisamente definidos. Nesses casos, o grau de pertinência de um dado a uma classe é uma questão de grau, como é a questão de haver ou não um grupo de dados formam um cluster [4].

Existem várias propostas diferentes de extensões para o algoritmo FCM (Fuzzy C-Means) na literatura. Em [5], por exemplo, é proposto uma nova métrica, utilizando a função exponencial para substituir a distância euclidiana no algoritmo FCM. No artigo proposto por [6] o objetivo principal é reduzir o tempo de processamento e o número de iterações no algoritmo FCM, a redução é feita através da agregação de exemplos similares. Existem várias outras variantes do algoritmo FCM, por exemplo, os autores [7], [8], [9], [10], [11], que também buscam otimizar a precisão, ou o tempo de convergência do algoritmo FCM tradicional. No entanto, nenhum destes autores propõem uma nova forma de calcular o centro de clusters.

Neste trabalho, propõe-se discutir a variante do algoritmo FCM, tendo como principal recurso à utilização de uma nova forma de calcular os centros dos clusters. A ideia é utilizar a matriz do grau de pertinência, a fim de obter uma matriz crisp que possibilite calcular os novos centros usando uma estratégia semelhante à do algoritmo K-Means [12]. Por este motivo, denominou-se o nome de ckMeans a este algoritmo. Apresentamos o algoritmo ckMeans que usa um número de iterações menor que o algoritmo FCM e, consequente-mente, o tempo total de convergência é menor no algoritmo ckMeans que mantém ou melhora a qualidade do resultado. A seção 2 apresenta uma breve discussão sobre o algo-ritmo FCM. A seção 3 detalha o algoalgo-ritmo ckMeans. Os experimentos são discutidos na seção 4. E, finalmente, a seção 5 traz as conclusões e considerações finais.

II. ALGORITMOFUZZYC-MEANS

No agrupamento não-fuzzy ou hard, os dados são dividi-dos em grupos crisp, onde cada dado pertence a exatamente a um cluster. No agrupamento fuzzy, os dados podem pertencer a mais de um cluster, é associado a cada dado um grau de pertinência que indica o grau em que o dado pertence a diferentes clusters. Esta seção demonstra o algoritmo de agrupamento FCM.

Segundo [13], o algoritmo para agrupamento de dados fuzzy foi proposto por [14], e estendido por [4]. A ideia basicamente é que o conjunto X = {x1, x2, . . . , xn} seja dividido em p clusters, μij é o grau de pertinência da amostra xiao j-ésimo cluster e o resultado do agrupamento é expresso pelos graus de pertinência na matriz μ.

O algoritmo FCM tenta encontrar conjuntos nos dados, minimizando a função objetivo mostrada na equação (1):

J = n i=1 p j=1 μmijd (xi; cj)2 (1) onde:

• _{n ´e o n´umero de dados;}

• p é o número de clusters considerados no algoritmo o qual deve ser decidido antes da execução;

• _{m > 1 é o parâmetro da fuzzificação}1

. Usualmente, m est´a no intervalo[1, 25; 2] [15];

• _x_i _{um vetor de dados de treinamento, onde i =} 1, 2, . . . , n. Onde cada posic¸˜ao no vetor representa um atributo do dado;

• _c_j _{´e o centro de um agrupamento fuzzy (j =} 1, 2, . . . , p);

• d (xi; cj) ´e a distˆancia2 entre xi e cj;

A entrada do algoritmo são os n dados, o número de clusters p e o valor de m. Os passos são:

1) Inicialize μ com um valor aleatório cont´ınuo entre zero (nenhuma pertinência) e um (pertinência total), onde a soma das pertinências deve ser um;

2) Calcule o centro do cluster j da seguinte maneira:

cj = n i=1 μmijxi n i=1 μmij (2)

3) Calcule um valor inicial para J usando a equação (1); 4) Calcule a tabela da função de pertinência fuzzy μ

conforme mostrado na equac¸˜ao (3)

μij= 1 d(xi;cj) 2 m−1 p k=1 1 d (xi; ck) 2 m−1 (3)

5) Retornar à etapa 2 até que uma condição de parada seja alcançada.

Algumas condições de parada poss´ıveis são:

• Um número de iterações pré-fixado for executado; • _{O usuário informa um valor de parada > 0, e se}

d (JU; JA) ≤

então para, onde JA é a função objetiva (equação (1)) calculada na iteração anterior e JU é a função objetiva da última iteração.

1_{Considerando somente valores racionais para simplificar o c´alculo das}

equaç ões (1), (2) e (3). Uma vez que na prática, são usadosm racionais.

2_{Quando são valores numéricos, normalmente é usado a distância}

(3)

III. ALGORITMO CKMEANS

O algoritmo K-Means, proposto por [12], é um método de particionamento (método não-hierárquico) que divide as observações dos dados em k clusters mutuamente exclusivos. Esse algoritmo considera como centro de um grupo o seu centróide. O centróide de um grupo é definido como o vetor soma de todos os vetores correspondentes aos objetos associados a este grupo. Então, a tarefa do algoritmo K-Means é minimizar a função objetivo correspondente à distância total entre os objetos e os centróides dos grupos aos quais esses objetos foram associados.

Segundo [13], o algoritmo para agrupamento de dados fuzzy foi proposto por [14], e estendido por [4]. A ideia basicamente é que o conjunto fuzzy X = {x1, x2, . . . , xn} seja dividido em p clusters, μij é o grau de pertinência da amostra xi ao j-ésimo cluster e o resultado do agrupamento é expresso pelos graus de pertinência na matriz μ.

O algoritmo ckMeans proposto por [16] segue a mesma estrutura do algoritmo FCM, porém, a única alteração deu-se em como calcular o centro dos clusters, ou seja, o cj.

A entrada do algoritmo também são os n dados, o número de clusters p e o valor de m. Os passos são:

1) Inicialize μ com um valor aleatório cont´ınuo entre zero (nenhuma pertinência) e um (pertinência total), onde a soma das pertinências deve ser um;

2) Calcule o centro do cluster j:

Cria-se uma nova matriz μ, chamada de μCrisp con-tendo valores 1 ou 0. Cada linha dessa nova matriz tem 1 na posição do maior valor dessa linha na matriz μ e zero nas demais posições da linha. Quando uma coluna da matriz μCrisp, for toda com zeros, é atribu´ıdo o valor 1 na posição que corresponde ao maior valor dessa mesma coluna na matriz μ.

O algoritmo ckMeans retorna uma matriz μCrisp com valores em {0, 1} conforme é mostrado na equação (4). Ou seja, μCrisp é a matriz enquanto μCrispij é o conteúdo dessa matriz na posição (ij).

μCrispij= max ⎛ ⎝ ⎢ ⎢ ⎢ ⎣ μij p max l=1 μil ⎥ ⎥ ⎥ ⎦ , ⎢ ⎢ ⎢ ⎣ μij n max l=1 μlj ⎥ ⎥ ⎥ ⎦ ⎞ ⎠ (4) O primeiro argumento do max tem que cada dado tenha o valor 1 no cluster ao qual pertence com maior grau de pertinência e grau de pertinência zero nos demais. O segundo argumento tem por objetivo que o maior grau de cada coluna (cluster) seja 1. Para assim garantir que todo cluster tenha pelo menos um elemento. Dessa forma, em raras ocasiões, pode acontecer que uma linha tenha mais de uma valor 1 (o que não ocorre o algoritmo K-Means original), mas como esta matriz é apenas auxiliar, não ocasionará qualquer transtorno.

Os passos do algoritmo para calcular o μCrispij3 ´e realizado da seguinte forma:

a) Leia μ;

b) Em cada linha encontrar o maior valor da matrix μ e atribuir 1 a essa mesma posic¸˜ao em μCrisp e zero nas restantes;

c) Armazenar em um vetor a quantidade de 1’s que cada coluna de μCrisp possui.

Se uma coluna não tiver 1’s marque sumariamente com 1 a posição onde está o maior valor. Após cal-culada a matriz μCrisp calculam-se os novos centros dos clusters conforme a equação (5).

cj = Σ n i=1xiμCrispij Σn i=1μCrispij (5)

O cj ´e calculado pela somat´oria dos dados que per-tencem ao cluster (de forma crisp) e dividido pela quantidade de objetos classificados como 1 na matriz μCrisp deste cluster.

3) Calcule um valor inicial para J usando as mesmas equac¸˜oes do algoritmo FCM;

4) Calcule a tabela da função de pertinência fuzzy μ conforme o algoritmo FCM.

Algumas condições de parada poss´ıveis são as mesmas do algoritmo FCM.

O resultado (sa´ıda) da implementação do algoritmo K-Means retorna qual cluster pertece determinada instância. Para os algoritmos FCM e ckMeans é retornado o grau de pertinência de determinada instância a cada cluster. No final, os três algoritmos distribuem os elementos em m clusters. Cabe ao usuário ou especialista interpretar cada cluster. Porém quando estamos testando a eficácia de um algoritmo para comparar com outros, usualmente usamos bases de dados onde cada dado tenha uma classificação pre-viamente conhecida (CC1, . . . , CCm), por exemplo, a base Mamografia (detalhado na seção IV); para podermos assim determinar a porcentagem de acertos dos algoritmos. Porém um problema é que o algoritmo de agrupamento determina m classes (CA1, . . . , CAm) e não necessariamente CAi corresponde à classe CCi, com i = 1, . . . , m, e nem sempre é possivel determinar a olho nu a melhor forma de associar as classes (CA1, . . . , CAm) as classes (CC1, . . . , CCm) de forma a maximizar a porcentagem de acertos.

Para este fim foi desenvolvido um algoritmo de “força bruta” que combina todas as possibilidades de associação determinando a porcentagem de acertos de cada associação, dando como sa´ıda aquela que devolve o maior número de acertos.

3_{Pode ocorrer uma situac¸˜ao onde o resultado de} _µCrisp

ij não esteja completamente fiel à equação (4). O maior valor da colunaµ_ij terá 1 em

(4)

Os passos para a instalação da biblioteca C-XSC, o código fonte dos algoritmos de agrupamento podem serem vistos em: http://rogerio.in.

IV. EXPERIMENTOS

Inicialmente implementou-se o algoritmo K-Means se-guindo o tutorial dispon´ıvel em [17] e o algoritmo FCM (tradicional) baseado na implementac¸˜ao4_{de [18], dispon´ıvel}

em http://www.usyd.edu.au/agric/acpa/fkme/program.html. Todos os algoritmos aqui discutidos, foram executados e desenvolvidos em C++ (Versão 4.4) usando a biblioteca C-XSC (versão 2.5) [19], dispon´ıvel em http://www.xsc.de, usando um Notebook Intel CoreT M i3 CPU M 350 2.27GHz, e 3 GB de memória principal, usando o sistema operacional Linux (Kernel 2.6.35-28-generic, GNOME 2.32, Ubuntu 10.10).

A. Base de Dados Mamografia

A mamografia é o método mais eficaz para o rastreamento do câncer de mama dispon´ıveis atualmente. No entanto, a biópsia de mama resultantes da interpretação mamografia leva a aproximadamente 70% biópsias desnecessárias com resultados benignos. Para reduzir o elevado número de biópsias mamárias desnecessárias, vários computer-aided diagnóstico (CAD) têm sido propostas nos últimos anos. Este conjunto de dados5 _{podem ser usados para predizer}

a gravidade (benigno ou maligno) de uma les˜ao de massa de mamografia. Esta base esta dividida em 516 dados classificados como benignos e 445 dados classificados como malignos que foram identificadas na mamografia coletadas no Instituto de Radiologia do da. Universidade Erlangen-Nuremberg, entre 2003 e 2006.

B. Parâmetros para a Inicialização

O número de clusters é dois, o valor fuzziness m = 1, 25 e = 0, 001. Estes parâmetros são usados nas três configurações dos algoritmos aqui discutidos, ou seja, os algoritmos K-Means, FCM e ckMeans.

Os valores iniciais de μijsão números aleatórios. Usou-se os mesmos valores para inicializar os algoritmos K-Means, FCM e ckMeans. O valor inicial de Cj foram os mesmos nos algoritmos FCM e ckMeans.

C. Resultados Comparativos

O número de instâncias espalhadas nos clusters usando os algoritmos K-Means, FCM e ckMeans é o mesmo. A Figura 2 mostra a distribuição dos dados a cada classes.

4_{De fato, essa implementac¸ ˜ao reporta exatamente os mesmo valores de}

[18].

5_{Esta base de dados est´a dispon´ıvel em http://archive.ics.uci.edu/ml/}

datasets/Mammographic+Mass.

Figura 2. Instˆancias

Observe que a classe Benigno teve 516 instâncias e a classe Maligno teve 445 instâncias, totalizando 961 instâncias.

A Figura 3 mostra as instˆancias classificadas usando o algoritmo K-Means. Cluster 1 Cluster 2 0 50 100 150 200 250 300 350 400 _Benigno Maligno

Figura 3. Classificaç ão das Instâncias usando o algoritmo K-Means

Note que o Cluster 1 teve 339 Benigno e 106 Maligno. Por possuir maiores valores a classe Benigno, associamos o cluster 1 a classe Benigno. Para o cluster 2, esse teve 217 instˆancias na classe Benigno e 299 na classe Maligno, associando o Cluster 2 a classe Maligno.

(5)

339 299 323 Benigno Maligno Incorretos

Figura 4. Instˆancias Classificadas Corretamente e Incorretamente com o algoritmos K-Means

As instˆancias classificadas nessa base de dados foram 638, representando 66,39% dos dados.

Os resultados obtidos com os algoritmos FCM e ckMeans s˜ao diferentes que se comparados com o algoritmo K-Means. A Figura 5 mostra as instˆancias classificadas usando os algoritmos FCM e ckMeans. Cluster 1 Cluster 2 0 50 100 150 200 250 300 350 400 _Benigno Maligno

Figura 5. Classificaç ão das Instâncias usando os algoritmos FCM e ckMeans

Note que o Cluster 1 teve 353 Benigno e 77 Maligno. Por possuir maiores valores a classe Benigno, associamos o cluster 1 a classe Benigno. Para o cluster 2, esse teve 229 instˆancias na classe Benigno e 302 na classe Maligno, associando o Cluster 2 a classe Maligno.

A Figura 6 mostra a classificação de cada dado nas classes. O número de instâncias classificadas incorretamente em cada cluster é 306, o que corresponde a 31,84% com os algoritmos simulados. 353 302 306 Benigno Maligno Incorretos

Figura 6. Instˆancias Classificadas Corretamente e Incorretamente com os algoritmos FCM e ckMeans

As instˆancias classificadas nessa base de dados foram 655, representando 68,16% dos dados.

A Tabela I mostra a quantidade de iterações, a média do tempo de processamento de cada iteração em segundos e o tempo total em segundos que os algoritmos levaram para convergir.

Tabela I PERFORMANCE

K-Means FCM ckMeans

Iterac¸ ˜oes 7 26 9

Tempo médio de cada iteração 0,08 0,09 0,05 Tempo Convergência 0,57 2,46 0,52

O algoritmo K-Means tem o menor número de iterações (sete) e com o tempo total de convergência em 0,57 segun-dos. No entanto, se comparado com os demais algoritmos simulados não apresentou o menor tempo de convergência e a taxa de acerto foram menor se comparado com os algoritmos FCM e ckMeans. O tempo médio para cada iteração foram de 0,08 segundos.

O algoritmo FCM convergiu com 26 iterações, o tempo médio de cada iteração foram de 0,09 segundos e o tempo total até a convergência foram de 2,46 segundos, sendo o algoritmo que teve o maior tempo de processamento se comparado ao K-Means e ckMeans.

O algoritmo ckMeans se comparado entre os algoritmos testados, teve o menor tempo até a sua convergência, com tempo total de 0,52 segundos. O número de iterações foram 9 e o tempo médio de cada iteração foram de 0,05 segundos. O valor inicial de J foram iguais entre os algoritmos FCM e ckMeans (374,498) e a última iteração no algoritmo FCM foram de 0,0008829561 na iteração 26. No algoritmo ckMeans o valor de J foram zero na iteração 9.

(6)

o tempo de processamento s˜ao os mesmos mostrados na Tabela I. E mesmo assim, o algoritmo ckMeans tem o tempo de processamento melhor que se comparado com os demais algoritmos.

V. CONCLUSAO E˜ CONSIDERAÇ ÕESFINAIS Neste trabalho, comparou-se três algoritmos, o K-Means, FCM e o ckMeans. Este último, propõe uma alteração na forma de calcular o centro dos clusters nos algoritmos tipo FCM, reduzindo o tempo de processamento e número de iterações e, em alguns casos, melhorando a classificação de instâncias de seus respectivos clusters.

O algoritmo ckMeans mostrou-se um bom método para calcular os centros dos clusters. Esse algoritmo reduziu o tempo de processamento e o número de iterações na classificação de dados. O algoritmo ckMeans fornece uma aceleração perante a aplicação FCM tradicional [20].

Compreende-se que a expressão para o cálculo da função objetiva e os centros dos cluster no algoritmo FCM é uma derivação matemática de uma função objetiva. Porém, não se tem essa preocupação no algoritmo ckMeans, os valores de J (função objetivo) é um pouco menor no algoritmo ckMeans do que no algoritmo FCM, e portanto, na prática o objetivo de minimizar J também pode ser alcançado pelo algoritmo ckMeans.

Os experimentos mostram que a classificação do grau de pertinência com o algoritmo ckMeans em relação ao cluster é similar do que com o algoritmo FCM (considerando o caso estudado). O número de iterações em relação à con-vergência em todos os cluster usando o algoritmo K-Means e FCM foram 7 e 26 iterações, respectivamente. No entanto, usando o algoritmo ckMeans obteve-se a convergência com 9 iterações, embora tenha mais iterações se comparado com o K-Means, o tempo de processamento foi menor. Testes com outras bases tais como [16] e [21] também mostram que o algoritmo ckMeans tem um desempenho melhor que o algoritmos FCM e K-Means.

Observe que a condição de parada fornecido por epsilon quanto menor for, maior é o número de iterações no al-goritmo FCM. Entretanto, no alal-goritmo ckMeans isso não ocorre, como o epsilon é utizado para calcular a diferença do valor de J na iteração atual com a iteração anterior, no algoritmo ckMeans a tendência é que essa diferença seja zero.

A ideia é que a forma de calcular o centro dos clusters com o algoritmo ckMeans seja genérico, ou seja, possa ser aplicado em outras variantes do FCM, por exemplo, MFCM (Modified Fuzzy C-Means) em [22], isso será provado em trabalhos futuros. Também, usaremos outras distâncias como as propostas nos trabalhos de [23] e [24] em vez da Euclidiana para demonstrar a qualidade dos resultados usando o algoritmo ckMeans.

ACKNOWLEDGMENT

O autor Rog´erio R. de Vargas ´e bolsista de doutorado e agradece a CAPES-Brasil pelo apoio financeiro.

REFERENCIASˆ

[1] F. de Carvalho, “Fuzzy k-means clustering algorithms for interval-valued data based on adaptive quadratic distances,” Fuzzy Sets and Systems, vol. 161, no. 23, pp. 2978 – 2999, 2010.

[2] R. de Vargas and B. Bedregal, “Interval ckmeans: An algo-rithm for clustering symbolic data,” in Proc. Conf. North American Fuzzy Information Processing Society (NAFIPS 2011), El Paso, USA, 2011.

[3] W. Wang and Y. Zhang, “On fuzzy cluster validity indices,” Fuzzy Sets and Systems, vol. 158, no. 19, pp. 2095–2117, 2007.

[4] J. Bezdek, Pattern Recognition with Fuzzy Objective Func-tion Algorithms. Norwell, MA, USA: Kluwer Academic Publishers, 1981.

[5] K. Zang, B. Li, J. Xu, and L. Wu, “New modification of fuzzy c-means clustering algorithm,” Fuzzy Information and Engineering, vol. 1, pp. 445–448, 2009.

[6] S. Eschrich, J. Ke, L. Hall, and D. Goldgof, “Fast accurate fuzzy clustering through data,” IEEE Transactions on Fuzzy Systems, vol. 11, pp. 262–270, 2003.

[7] R. L. Cannon, J. V. Dave, and J. C. Bezdek, “Efficient implementation of the fuzzy c-means clustering algorithms,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 8, no. 2, pp. 248–255, 1986.

[8] F. H¨oppner, “Speeding up fuzzy c-means: Using a hierarchical data organisation to control the precision of membership calculation,” Fuzzy Sets and Systems, vol. 128, no. 3, pp. 365–376, 2002.

[9] T. Cheng, D. Goldgof, and L. Hall, “Fast clustering with application to fuzzy rule generation,” in Proceedings of the IEEE International Conference on Fuzzy Systems, Tokio, Japan, 1995, pp. 2289–2295.

[10] D. Hershfinkel and I. Dinstein, “Accelerated fuzzy c-means clustering algorithm,” in B. Bosachi, J.C. Bezdek (Eds.), Proc. SPIE Appl. Fuzzy Logic Technol. III 2761, 1996, pp. 41–52. [11] B. Shankar and N. Pal, “FFCM: an effective approach for large data sets,” in Proceedings of the 3rd International Conference on Fuzzy Logic, Neural Nets and Soft Computing, 1994, pp. 331–332.

[12] J. MacQueen, “Some methods for classification and analysis of multivariate observations,” in Proceedings of the Fifth Ber-keley Symposium on Mathematical Statistics and Probability. Berkeley, CA: University of California Press, 1967, pp. 281– 297.

(7)

[14] J. C. Dunn, “A fuzzy relative of the isodata process and its use in detecting compact well-separated clusters,” Journal of Cybernetics, vol. 3, no. 3, pp. 32–57, 1973.

[15] E. Cox, Fuzzy Modeling and Genetic Algorithms for Data Mining and Exploration. Amsterdam ; Boston : Else-vier/Morgan Kaufmann, 2005.

[16] R. de Vargas and B. Bedregal, “A comparative study between fuzzy c-means and ckmeans algorithms,” in Proc. Conf. North American Fuzzy Information Processing Society (NAFIPS 2010), Toronto, Canada, 2010.

[17] K. Teknomo, “K-Means Clustering Tutorials,” 2010,

http://people.revoledu.com/kardi/tutorial/kMean/, Acessado 22/Maio/2010.

[18] J. DeGruijter and A. McBratney, “A modified fuzzy k-means for predictive classification,” in Classification and Related Methods of Data Analysis. Amsterdam: H.H. Bock, ed., Elsevier Science, 1988, pp. 97–104.

[19] W. Hofschuster and W. Kr¨amer, “C-xsc 2.0: A c++ library for extended scientific computing,” in Dagstuhl Seminars. Springer, 2003, pp. 15–35.

[20] R. de Vargas, B. Bedregal, and E. Palmeira, “ckmeans: A new variant of fuzzy c-means algorithm,” Information Sciences, 2011, submitted.

[21] R. de Vargas and B. Bedregal, “Uma nova forma de calcular o centro dos clusters no algoritmo fuzzy c-means,” in Procee-dings of CNMAC 2010 (33th Brazilian Conference on Applied and Computational Math). SBMAC (Brazilian Society of Applied and Computational Math), ´Aguas de Lind´oia, Brazil, 2010.

[22] R. Brouwer and A. Groenwold, “Modified fuzzy c-means for ordinal valued attributes with particle swarm for optimiza-tion,” Fuzzy Sets and Systems, vol. 161, no. 13, pp. 1774 – 1789, 2010.

[23] K.-L. Wu and M.-S. Yang, “Alternative c-means clustering algorithms,” Pattern Recognition, vol. 35, no. 10, pp. 2267– 2278, 2002.