Motivação (Geral)
Motivação (Geral)
Motivação (Pontual)
Motivação (Intervalar)
Quantidade de dados armazenados;
A mineração de dados têm grande relevância;
Existe uma grande quantidade de algoritmos de agrupamento de dados;
Métodos apresentam dificuldades em alguns aspectos;
Motivação (Pontual)
Motivação (Geral)
Motivação (Pontual)
Motivação (Intervalar)
“Tempo é dinheiro”;
Algoritmo K-Means é crisp;
Motivação (Intervalar)
Motivação (Geral) Motivação (Pontual)
Motivação (Intervalar)
Representar o conjunto de dados como intervalos consiste em delimitar os erros ocasionados por estimativas de medições, de simplificações, modelagem, por falha humana ou pelo instrumento de medição;
Uma outra motivação para este trabalho é apresentar uma forma de agrupamento para os valores amostrais que consideram os erros contidos. Então a entrada dos dados são valores
Uma Nova Forma de Calcular os Centros dos
Clusters em Algoritmos de Agrupamento
Tipo Fuzzy C-Means
Apresentação da Tese de Doutorado de:
Rogério R. de Vargas
Orientado por: Benjamín R. C. Bedregal
Objetivo Geral
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Objetivos Objetivo Geral Objetivos EspecíficosObjetivos Específicos
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Objetivos Objetivo Geral Objetivos EspecíficosModificar a forma de calcular o centro dos clusters no algoritmo FCM (ckMeans);
Comparar o desempenho desta nova variante do FCM com K-Means;
Aplicar outras distâncias nos algoritmos, K-Means, FCM e ckMeans, comparando seu desempenho;
Matemática Intervalar
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Matemática Intervalar Matemática Intervalar Matemática Intervalar Matemática Intervalar Métrica Métrica de Moore Métrica IntervalarRecentemente, a análise de dados simbólicos foi proposto como um método de análise. Isso tem gerado um grande interesse por parte dos pesquisadores;
Por exemplo, se observamos a situação de quanto tempo as
pessoas assistem TV por dia e fazer o seguinte questionamento: “Quanto tempo você assiste TV por dia?”. Se o entrevistado
Matemática Intervalar
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Matemática Intervalar Matemática Intervalar Matemática Intervalar Matemática Intervalar Métrica Métrica de Moore Métrica IntervalarOperações: Adição e Subtração
Matemática Intervalar
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Matemática Intervalar Matemática Intervalar Matemática Intervalar Matemática Intervalar Métrica Métrica de Moore Métrica IntervalarOperações: Multiplicação e Divisão
Métrica
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Matemática Intervalar Matemática Intervalar Matemática Intervalar Matemática Intervalar Métrica Métrica de Moore Métrica IntervalarDistância é a medida da separação de dois pontos. Dado um conjunto
S
, uma métrica emS
é uma funçãod : S × S → R
+que possui as seguintes propriedades:
Positiva:
d(X, Y ) ≥ 0
;Simetria:
d(X, Y ) = d(Y, X)
;Desigualdade Triangular:
d(X, Z) ≤ d(X, Y ) + d(Y, Z)
;Métrica de Moore
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Matemática Intervalar Matemática Intervalar Matemática Intervalar Matemática Intervalar Métrica Métrica de Moore Métrica IntervalarSejam
X = [x
1; x
2]
eY = [y
1; y
2]
dois intervalos. Define-se a distância deX
paraY
como sendo o número real não-negativoδ = max {|x
1− y
1|; |x
2− y
2|}
. Notação:dist (X, Y ) = max {|x
1− y
1|, |x
2− y
2|} ≥ 0
. R}
}
X Y 1 22 3 4 5Métrica Intervalar
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Matemática Intervalar Matemática Intervalar Matemática Intervalar Matemática Intervalar Métrica Métrica de Moore Métrica Intervalar Definição:Dado um conjunto
S
, uma métrica intervalar emS
é uma funçãod : S × S → IR
+ que possui as seguintes propriedades para todoX, Y
eZ
emS
:1.
0 ∈ d(X, X)
;2.
|d(X, Y )| ≤ |d(X, Z)| + |d(Z, Y )|
3.d(X, Y ) = d(Y, X)
e4. se
0 ∈ d(X, Y ) = d(X, X) = d(Y, Y )
entãoX = Y
Métrica Intervalar proposta para intervalos:Algoritmo K-Means
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Algoritmos de Agupamento Algoritmo K-Means Algoritmo Fuzzy C-Means Algoritmo Fuzzy C-Means Condições de ParadaO K-Means é um dos mais simples algoritmos de aprendizado não-supervisionado. O procedimento segue uma maneira
relativamente simples e fácil de usar;
Algoritmo Fuzzy C-Means
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Algoritmos de Agupamento Algoritmo K-Means Algoritmo Fuzzy C-Means Algoritmo Fuzzy C-Means Condições de ParadaA ideia é que o conjunto
X = {x
1, x
2, . . . , x
n}
seja dividido emp
clusters,
µ
ij é o grau de pertinência da amostrax
i aoj
-ésimo cluster e o resultado do agrupamento é expresso pelos graus de pertinência na matrizµ
.J =
nX
i=1 pX
j=1µ
mijd (x
i; c
j)
2 onde:
n
é o número de dados ep
é o número de clusters;
m > 1
é o parâmetro da fuzzificação;Algoritmo Fuzzy C-Means
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Algoritmos de Agupamento Algoritmo K-Means Algoritmo Fuzzy C-Means Algoritmo Fuzzy C-Means Condições de Parada 1. Inicialize µ;2. Calcule o centro do cluster j:
cj = n X i=1 µmijxi n X i=1 µmij
3. Calcule um valor inicial para J;
4. Calcule a tabela da função de pertinência Fuzzy µ
µij = 1 d(xi;cj) m−12 p X k=1 1 d(xi; ck) m−12
Condições de Parada
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Algoritmos de Agupamento Algoritmo K-Means Algoritmo Fuzzy C-Means Algoritmo Fuzzy C-Means Condições de ParadaAlgumas condições de parada possíveis são:
Um número de iterações pré-fixado for executado;
O usuário informa um valor de parada
ǫ > 0
, e sed (J
U; J
A) ≤ ǫ
ckMeans (Pontual)
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Métodos Propostos ckMeans (Pontual) ckMeans (Pontual) ckMeans (Pontual) Métricas Distância Euclidiana Distância Não-Métrica Distância Métrica-Normalizada Interval ckMeans (Intervalar)O algoritmo ckMeans proposto segue a mesma estrutura do algoritmo FCM, porém, a única alteração deu-se em como calcular o centro dos clusters, ou seja, o
c
j;ckMeans (Pontual)
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Métodos Propostos ckMeans (Pontual) ckMeans (Pontual) ckMeans (Pontual) Métricas Distância Euclidiana Distância Não-Métrica Distância 1. Leiaµ
;2. Em cada linha encontrar o maior valor da matrix
µ
e atribuir 1 a essa mesma posição emµ
Crisp e zero nas restantes;3. Armazenar em um vetor a quantidade de 1’s que cada coluna de
µ
Crisp possui.Se uma coluna não tiver 1’s marque sumariamente com 1 a posição onde está o maior valor.
Após calculada a matriz
µ
Crisp calculam-se os novos centros dos clusters.c
j=
Σ
n
i=1
x
iµCrisp
ijΣ
ni=1µCrisp
ijMétricas
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Métodos Propostos ckMeans (Pontual) ckMeans (Pontual) ckMeans (Pontual) Métricas Distância Euclidiana Distância Não-Métrica Distância Distância Euclidiana;Distância Não-Métrica proposta por [WU; YANG, 2002];
Distância Métrica-Normalizada proposta por [ZHANG; CHEN, 2004].
WU, K.-L.; YANG, M.-S. Alternative c-means clustering algorithms. Pattern Recognition, v. 35, n. 10, p. 2267-2278, 2002.
Distância Não-Métrica
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Métodos Propostos ckMeans (Pontual) ckMeans (Pontual) ckMeans (Pontual) Métricas Distância Euclidiana Distância Não-Métrica Distânciad
N M(X, Y ) = 1 − exp(−βd
E(X, Y )
2)
para todo
X = (X
1, . . . , X
n)
eY = (Y
1, . . . , Y
n)
emR
n. Ondeβ
é uma função que é calculada a cada iteração.Distância Métrica-Normalizada
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Métodos Propostos ckMeans (Pontual) ckMeans (Pontual) ckMeans (Pontual) Métricas Distância Euclidiana Distância Não-Métrica Distância Métrica-Normalizada Interval ckMeans (Intervalar)A distância Métrica-Normalizada é uma alteração da distância
Não-Métrica. Essa alteração, permite com que a nova função satisfaça as condições de uma definição de distância.
d
M N(X, Y ) =
p1 − exp(−β(d
E(X, Y )
2))
Interval ckMeans (Intervalar)
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Métodos Propostos ckMeans (Pontual) ckMeans (Pontual) ckMeans (Pontual) Métricas Distância Euclidiana Distância Não-Métrica DistânciaInicialize
µ
com subintervalos de[0; 1]
aleatórios associados a cada par (dados/clusters) tais que para cada par dados/cluster(X
i; j)
ea
j∈ µ
ij temos que existema
k∈ µ
ik para todoResultados (Pontual)
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual)Resultados - Base Iris Resultados - Base Iris Resultados - Base Iris Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Sonar Resultados - Base
No intuito de comparar os algoritmos K-Means, FCM e ckMeans, tanto do ponto de vista de eficácia (porcentagem de acertos) como eficiência (tempo de execução e quantidade de iterações), foram executados
usando 3 bases de dados:
Iris;
Sonar;
Resultados - Base Iris
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual)Resultados - Base Iris
Resultados - Base Iris Resultados - Base Iris Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Vogais
Base Vogaisrogerio.in PPgSC / Universidade Federal do Rio Grande do Norte – slide 41
Os parâmetros de entrada são 150 dados e estes dados
referem-se à classe (1-50 Iris Setosa, 51-100 Iris Versicolour e 101-150 Iris Virginica).
O número de clusters são 3, o valor de fuzziness é
m = 1, 25
eǫ = 0, 001
. Estes parâmetros foram usados nas trêsconfigurações dos algoritmos (K-Means, FCM e ckMeans);
Resultados - Base Iris
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base IrisResultados - Base Iris
Resultados - Base Iris Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Sonar Resultados - Base
Tabela 1: Base Iris agrupada pelos algoritmos FCM e ckMeans utilizando as distâncias Euclidiana, Não-Métrica e Métrica-Normalizada.
Assinalado ao Cluster 1 2 3
Iris-setosa 50 0 0
Iris-virginica 0 15 35
Iris-versicolor 0 48 2
Tabela 2: Base Iris agrupada pelo algoritmo K-Means utilizando as dis-tâncias Euclidiana, Não-Métrica e Métrica-Normalizada.
Assinalado ao Cluster 1 2 3
Iris-setosa 50 0 0
Iris-virginica 0 14 36
Resultados - Base Iris
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base IrisResultados - Base Iris
Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Vogais
Base Vogaisrogerio.in PPgSC / Universidade Federal do Rio Grande do Norte – slide 43
Tabela 3: Performance entre os algoritmos na base Iris.
Quantidade de Iterações Tempo do Processamento (s) Algoritmo
d
Ed
N Md
M Nd
Ed
N Md
M NK-Means 13 13 13 0,56 0,98 0,98
FCM 13 13 13 1,67 2,42 2,46
Resultados - Base Sonar
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base Iris Resultados - Base IrisResultados - Base Sonar
Resultados - Base Sonar Resultados - Base Sonar Resultados - Base
Este conjunto de dados serviu como estudo para a classificação de sinais sonares no treinamento de uma rede neural;
O número de clusters são 2, o valor de fuzziness é
m = 1, 5
eǫ = 0, 0001
. Estes parâmetros foram usados nas trêsResultados - Base Sonar
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base Iris Resultados - Base Iris Resultados - Base SonarResultados - Base Sonar
Resultados - Base Sonar Resultados - Base Vogais
Base Vogaisrogerio.in PPgSC / Universidade Federal do Rio Grande do Norte – slide 45
Tabela 4: Base Sonar agrupada pelos algoritmos K-Means, FCM e ck-Means utilizando a distância Euclidiana.
Assinalado ao Cluster 1 2
Rock 62 46
Mine 50 50
Tabela 5: Base Sonar agrupada pelo algoritmo FCM e ckMeans utili-zando a distância Não-Métrica.
Assinalado ao Cluster 1 2
Rock 62 46
Mine 55 45
Tabela 6: Base Sonar agrupada pelo algoritmo FCM e ckMeans utili-zando a distância Métrica-Normalizada.
Assinalado ao Cluster 1 2
Rock 62 48
Resultados - Base Sonar
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base Iris Resultados - Base Iris Resultados - Base Sonar Resultados - Base SonarResultados - Base Sonar
Resultados - Base
Tabela 7: Performance entre os algoritmos na base Sonar.
Quantidade de Iterações Tempo do Processamento (s) Algoritmo
d
Ed
N Md
M Nd
Ed
N Md
M NK-Means 16 16 16 8,94 13,61 8,94
FCM 12 18 27 13,73 31,63 46,65
Resultados - Base Vogais
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base Iris Resultados - Base Iris Resultados - Base Sonar Resultados - Base Sonar Resultados - Base SonarResultados - Base Vogais
Base Vogaisrogerio.in PPgSC / Universidade Federal do Rio Grande do Norte – slide 47
Os parâmetros de entrada são 3.878 dados e estes dados referem-se a 5 classes (A, E, I, O e U).
O número de clusters são 5, o valor de fuzziness é
m = 1, 25
eǫ = 0, 001
. Estes parâmetros foram usados nas 3 configurações dos algoritmos (K-Means, FCM e ckMeans);Base Vogais
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base Iris Resultados - Base Iris Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Sonar Resultados - BaseBase Vogais (K-Means)
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base Iris Resultados - Base Iris Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Sonar Resultados - Base VogaisBase Vogaisrogerio.in PPgSC / Universidade Federal do Rio Grande do Norte – slide 49
Base Vogais (ckMeans)
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base Iris Resultados - Base Iris Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Sonar Resultados - Base VogaisBase Vogaisrogerio.in PPgSC / Universidade Federal do Rio Grande do Norte – slide 51
Base Vogais (K-Means)
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base Iris Resultados - Base Iris Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Sonar Resultados - BaseO número de instâncias classificadas incorretamente em cada cluster é 1900, o que corresponde a 48,99% com o algoritmo K-Means.
Base Vogais (FCM)
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base Iris Resultados - Base Iris Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Sonar Resultados - Base VogaisBase Vogaisrogerio.in PPgSC / Universidade Federal do Rio Grande do Norte – slide 53
O número de instâncias classificadas incorretamente em cada cluster é 1655, o que corresponde a 42.67% com o algoritmo FCM.
Base Vogais (ckMeans)
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base Iris Resultados - Base Iris Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Sonar Resultados - BaseO número de instâncias classificadas incorretamente em cada cluster é 1615, o que corresponde a 41,64% com o algoritmo ckMeans.
Base Vogais (Comparativos)
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base Iris Resultados - Base Iris Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Sonar Resultados - Base VogaisBase Vogaisrogerio.in PPgSC / Universidade Federal do Rio Grande do Norte – slide 55
Tabela 8: Performance
K-Means FCM ckMeans
Iterações 15 127 22
Tempo médio de cada iteração 0,59 2,24 1,80
Resultados (Intervalar)
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base Iris Resultados - Base Iris Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Sonar Resultados - BaseA base de dados a ser analisada pelos algoritmos é uma
classificação de cidades baseada na temperatura. Foi obtido a temperatura mínima e máxima (em graus Celsius) do mês em um determinado ano entre 37 cidades espalhadas entre os
continentes;
O número de clusters são 4;
O valor de fuzziness é
m = 2
;Resultados (Intervalar)
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base Iris Resultados - Base Iris Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Sonar Resultados - Base VogaisBase Vogaisrogerio.in PPgSC / Universidade Federal do Rio Grande do Norte – slide 57
O algoritmo IFCM realizou 60 iterações para obter o melhor resultado de acordo com o critério de convergência escolhido;
Realizando um agrupamento crisp dos graus de pertinência de acordo com o ponto médio, o algoritmo Interval ckMeans
convergiu após 7 iterações;
Resultados (Intervalar)
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base Iris Resultados - Base Iris Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Sonar Resultados - BaseA Tabela 9 mostra a quantidade de instâncias agrupadas em cada cluster. Como nos resultados dos algoritmos MSV e IFCM a
classificação da cidade Singapore foi ignorada por alguma razão, nós também a ignoramos para efeito de comparação embora tenha sido classificada no cluster 1.
Tabela 9: Quantidade de Objetos Agrupados entre os Algoritmos
Cluster IFCM MSV Interval ckMeans
1 7 14 11
2 12 20 11
3 8 1 4
Resultados (Intervalar)
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base Iris Resultados - Base Iris Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Sonar Resultados - Base VogaisBase Vogaisrogerio.in PPgSC / Universidade Federal do Rio Grande do Norte – slide 59
O algoritmo Interval ckMeans classificou diversos dados em comuns se comparado com os algoritmos IFCM e MSV, a Tabela 10 mostra essa distribuição.
Resultados (Intervalar)
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base Iris Resultados - Base Iris Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Sonar Resultados - BaseHá uma coincidência de classificações de 66,66% perante o IFCM e 63,88% perante o MSV;
Apenas 21 cidades foram classificadas nos mesmos clusters pelos
algoritmos IFCM e MSV, ou seja, o uma coincidência de classificação de 58,33%;
Sobre o algoritmo Interval ckMeans, o cluster 1 teve 11 instâncias agrupadas idêntica ao MSV, a exceção foi a cidade de Sydney e 4 cidades em comum na classificação com o IFCM;
O cluster 2 teve todos os dados classificados idênticos ao algoritmo MSV e com a exceção de um dado ao algoritmo IFCM;
O cluster 3 foi o que apresentou maior diferença entre os os algoritmos comparados, com apenas uma instância em comum;
Resultados - Base Iris Intervalar
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base Iris Resultados - Base Iris Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Sonar Resultados - Base VogaisBase Vogaisrogerio.in PPgSC / Universidade Federal do Rio Grande do Norte – slide 61
Base Iris (Intervalar)
Intervalizamos os dados de entrada para intervalos;
Intervalizamos a inicialização do
µ
ij do algoritmo ckMeans (pontual);Resultados - Base Iris Intervalar
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base Iris Resultados - Base Iris Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Sonar Resultados - BaseTabela 11: Base Iris agrupada pelos algoritmos FCM e ckMeans utili-zando as distâncias Euclidiana, Não-Métrica e Métrica-Normalizada.
Assinalado ao Cluster 1 2 3
Iris-setosa 50 0 0
Iris-virginica 0 15 35
Iris-versicolor 0 48 2
Tabela 12: Base Iris Intervalar agrupada pelo algoritmo Interval ckMe-ans.
Assinalado ao Cluster 1 2 3
Iris-setosa 50 0 0
Iris-virginica 0 14 36
Resultados - Base Iris
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base Iris Resultados - Base Iris Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Sonar Resultados - Base VogaisBase Vogaisrogerio.in PPgSC / Universidade Federal do Rio Grande do Norte – slide 63
Tabela 13: Performance entre os algoritmos na base Iris.
Quantidade de Iterações Tempo do Processamento (s) Algoritmo
d
Ed
N Md
M Nd
Ed
N Md
M NK-Means 13 13 13 0,56 0,98 0,98
FCM 13 13 13 1,67 2,42 2,46
ckMeans 11 11 11 1,33 2,03 2,06
Tabela 14: Performance do algoritmo Interval ckMeans na Base Iris In-tervalar.
Quantidade de Iterações Tempo do Processamento (s)
Conclusões
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Conclusões Conclusões Conclusões (Pontual) Conclusões (Intervalar) Conclusões (Intervalar)Esta tese apresentou dois estudos:
1. Agrupamento de dados pontuais, mostrando um novo método para calcular os centros dos clusters, o algoritmo ckMeans. Esse algoritmo reduziu o tempo de processamento e o número de
iterações na classificação de dados. O algoritmo ckMeans fornece uma aceleração perante a aplicação FCM tradicional;
2. Agrupamento de dados simbólicos, mostra um estudo das principais operações e funções especiais da matemática intervalar;
3. Os experimentos nas bases simuladas mostram que a
Conclusões (Pontual)
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Conclusões Conclusões Conclusões (Pontual) Conclusões (Intervalar) Conclusões (Intervalar)Em algumas base de dados, utilizar outras distâncias como a
distância Não-Métrica e Métrica-Normalizada em vez da distância Euclidiana (mais usual) a quantidade de dados classificados
corretamente não é alterado ou é até pior que se comparado com a distância Euclidiana;
Observe que a condição de parada fornecido por
epsilon
quanto menor for, maior é o número de iterações no algoritmo FCM.Entretanto, no algoritmo ckMeans isso não ocorre, como o
Conclusões (Intervalar)
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Conclusões Conclusões Conclusões (Pontual) Conclusões (Intervalar) Conclusões (Intervalar)Vários pesquisadores vêm trabalhando no sentido de estabelecer e aplicar metodologias no agrupamento de dados intervalares;
Este trabalho também pretende ser um aporte para essa área;
Conclusões (Intervalar)
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Conclusões Conclusões Conclusões (Pontual) Conclusões (Intervalar) Conclusões (Intervalar)Então a vantagem é que neste algoritmo Interval ckMeans consideram graus de pertinências intervalares propiciando conhecer ainda mais a imprecisão nos dados de entrada;
O grande trunfo deste algoritmo é sempre manter os dados de entrada e operações com intervalos e quando necessário calcular a distância de cada ponto ao centro de cada cluster, usar uma métrica intervalar em vez de usar uma métrica pontual como a distância Euclidiana;
O algoritmo Interval ckMeans permitiu a aplicação de duas
Etapas a Realizar
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Próximas Etapas Etapas a RealizarComparar os resultados de outras extensões do FCM com o algoritmo ckMeans;
Modificar a forma de calcular os centros dos clusters em outras variantes do algoritmo FCM e comparar a sua perfomance;
Trabalhar com outras bases de dados simbólicos que já estejam validadas;
Verificar a propriedade de corretude do algoritmo Interval ckMeans com respeito ao algoritmo ckMeans;
Utilizar imagens médicas no processo de agrupamento com os algoritmos K-Means, FCM e ckMeans;
Principais Publicações Obtidas
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Publicações Principais Publicações Obtidas Publicações Obtidas Questionamentos...de Vargas, R. ; Bedregal, B. ; Palmeira, E. . A Comparison between K-Means, FCM and ckMeans Algorithms. In: Simone
André da Costa Cavalheiro; Luciana Foss; Marilton Sanchotene de Aguiar;Graçaliz Pereira Dimuro; Antônio Carlos da Rocha Costa. (Org.). Post-Proceedings of the Workshop-School on Theoretical Computer Science. Los Alamitos: IEEE, 2011, v. 1, p. 32-38;
de Vargas, R. ; Bedregal, B.: Interval ckMeans: An Algorithm for Clustering Symbolic Data. In: Proc. Conf. North American Fuzzy Information Processing Society (NAFIPS 2011), El Paso, USA (2011);
Vargas, R., Bedregal, B.: A Comparative Study Between fuzzy
Publicações Obtidas
Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Publicações Principais Publicações Obtidas Publicações Obtidas Questionamentos...PPgSC / Universidade Federal do Rio Grande do Norte – slide 73
de Vargas, R., Bedregal, B.: Uma Nova Forma de Calcular o Centro dos Clusters no Algoritmo Fuzzy C-Means. In:
Proceedings of CNMAC 2010 (33th Brazilian Conference on Applied and Computational Math), SBMAC (Brazilian Society of Applied and Computational Math), Águas de Lindóia, Brazil
(2010);
de Vargas, R., Bedregal, B., Oliveira Filho, I.: Agrupamento de Dados Intervalares com o Algoritmo IFCM. In: Proceedings of CISAISI 2009 (13th Congresso Internacional Sudamericano de Ingenearía de Sistemas e Informática), Arica, Chile (2009);
de Vargas, R., Bedregal, B.: Uma Extensão Intervalar do
Algoritmo Fuzzy C-Means. In: Proceedings of CNMAC 2009 (32th Brazilian Conference on Applied and Computational Math),