Chuvas e Precipitações

(1)

(2)

(3)

(4)

(5)

(6)

(7)

(8)

(9)

(10)

(11)

(12)

Motivação (Geral)

Motivação (Pontual)

Motivação (Intervalar)

Quantidade de dados armazenados;

A mineração de dados têm grande relevância;

Existe uma grande quantidade de algoritmos de agrupamento de dados;

Métodos apresentam dificuldades em alguns aspectos;

(13)

Motivação (Pontual)

Motivação (Geral)

Motivação (Pontual)

“Tempo é dinheiro”;

Algoritmo K-Means é crisp;

(14)

(15)

(16)

(17)

Motivação (Intervalar)

Motivação (Geral) Motivação (Pontual)

Representar o conjunto de dados como intervalos consiste em delimitar os erros ocasionados por estimativas de medições, de simplificações, modelagem, por falha humana ou pelo instrumento de medição;

Uma outra motivação para este trabalho é apresentar uma forma de agrupamento para os valores amostrais que consideram os erros contidos. Então a entrada dos dados são valores

(18)

Uma Nova Forma de Calcular os Centros dos

Clusters em Algoritmos de Agrupamento

Tipo Fuzzy C-Means

Apresentação da Tese de Doutorado de:

Rogério R. de Vargas

Orientado por: Benjamín R. C. Bedregal

(19)

(20)

Objetivo Geral

Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Objetivos Objetivo Geral Objetivos Específicos

(21)

Objetivos Específicos

Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Objetivos Objetivo Geral Objetivos Específicos

Modificar a forma de calcular o centro dos clusters no algoritmo FCM (ckMeans);

Comparar o desempenho desta nova variante do FCM com K-Means;

Aplicar outras distâncias nos algoritmos, K-Means, FCM e ckMeans, comparando seu desempenho;

(22)

(23)

Matemática Intervalar

Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Matemática Intervalar Matemática Intervalar Matemática Intervalar Matemática Intervalar Métrica Métrica de Moore Métrica Intervalar

Recentemente, a análise de dados simbólicos foi proposto como um método de análise. Isso tem gerado um grande interesse por parte dos pesquisadores;

Por exemplo, se observamos a situação de quanto tempo as

pessoas assistem TV por dia e fazer o seguinte questionamento: “Quanto tempo você assiste TV por dia?”. Se o entrevistado

(24)

Matemática Intervalar

Operações: Adição e Subtração

(25)

Matemática Intervalar

Operações: Multiplicação e Divisão

(26)

Métrica

Distância é a medida da separação de dois pontos. Dado um conjunto

S

, uma métrica em

S

é uma função

d : S × S → R

+

que possui as seguintes propriedades:

Positiva:

d(X, Y ) ≥ 0

;

Simetria:

d(X, Y ) = d(Y, X)

;

Desigualdade Triangular:

d(X, Z) ≤ d(X, Y ) + d(Y, Z)

(28)

Métrica Intervalar

Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Matemática Intervalar Matemática Intervalar Matemática Intervalar Matemática Intervalar Métrica Métrica de Moore Métrica Intervalar Definição:

:

1.

0 ∈ d(X, X)

;

2.

|d(X, Y )| ≤ |d(X, Z)| + |d(Z, Y )|

3.

d(X, Y ) = d(Y, X)

e

4. se

0 ∈ d(X, Y ) = d(X, X) = d(Y, Y )

então

X = Y

Métrica Intervalar proposta para intervalos:

(29)

(30)

Algoritmo K-Means

Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Algoritmos de Agupamento Algoritmo K-Means Algoritmo Fuzzy C-Means Algoritmo Fuzzy C-Means Condições de Parada

2 onde:

n

é o número de dados e

p

é o número de clusters;

m > 1

é o parâmetro da fuzzificação;

(32)

Algoritmo Fuzzy C-Means

Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Algoritmos de Agupamento Algoritmo K-Means Algoritmo Fuzzy C-Means Algoritmo Fuzzy C-Means Condições de Parada 1. Inicialize µ;

2. Calcule o centro do cluster j:

cj = n X i=1 µm_ijxi n X i=1 µm_ij

3. Calcule um valor inicial para J;

4. Calcule a tabela da função de pertinência Fuzzy _µ

µij = 1 d(xi;cj) _m−12 p X k=1 1 d(xi; ck) _m−12

(33)

Condições de Parada

Algumas condições de parada possíveis são:

Um número de iterações pré-fixado for executado;

O usuário informa um valor de parada

ǫ > 0

, e se

d (J

U

; J

A

) ≤ ǫ

(34)

(35)

ckMeans (Pontual)

Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Métodos Propostos ckMeans (Pontual) ckMeans (Pontual) ckMeans (Pontual) Métricas Distância Euclidiana Distância Não-Métrica Distância Métrica-Normalizada Interval ckMeans (Intervalar)

Crisp possui.

Se uma coluna não tiver 1’s marque sumariamente com 1 a posição onde está o maior valor.

Após calculada a matriz

µ

Crisp calculam-se os novos centros dos clusters.

c

_j

=

Σ

n

i=1

x

i

µCrisp

ij

Σ

n_i=1

µCrisp

_ij

(37)

(38)

(39)

(40)

(41)

(42)

Métricas

Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Métodos Propostos ckMeans (Pontual) ckMeans (Pontual) ckMeans (Pontual) Métricas Distância Euclidiana Distância Não-Métrica Distância Distância Euclidiana;

Distância Não-Métrica proposta por [WU; YANG, 2002];

Distância Métrica-Normalizada proposta por [ZHANG; CHEN, 2004].

em

R

n. Onde

β

é uma função que é calculada a cada iteração.

(45)

Distância Métrica-Normalizada

Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Métodos Propostos ckMeans (Pontual) ckMeans (Pontual) ckMeans (Pontual) Métricas Distância Euclidiana Distância Não-Métrica Distância Métrica-Normalizada Interval ckMeans (Intervalar)

A distância Métrica-Normalizada é uma alteração da distância

Não-Métrica. Essa alteração, permite com que a nova função satisfaça as condições de uma definição de distância.

d

M N

(X, Y ) =

p1 − exp(−β(d

E

(X, Y )

2

))

(46)

Interval ckMeans (Intervalar)

Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Métodos Propostos ckMeans (Pontual) ckMeans (Pontual) ckMeans (Pontual) Métricas Distância Euclidiana Distância Não-Métrica Distância

Inicialize

µ

com subintervalos de

[0; 1]

aleatórios associados a cada par (dados/clusters) tais que para cada par dados/cluster

(X

i

; j)

e

a

j

∈ µ

ij temos que existem

a

k

∈ µ

ik para todo

(47)

(48)

Resultados (Pontual)

Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual)

Resultados - Base Iris Resultados - Base Iris Resultados - Base Iris Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Sonar Resultados - Base

No intuito de comparar os algoritmos K-Means, FCM e ckMeans, tanto do ponto de vista de eficácia (porcentagem de acertos) como eficiência (tempo de execução e quantidade de iterações), foram executados

usando 3 bases de dados:

Iris;

Sonar;

(49)

Resultados - Base Iris

Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual)

Resultados - Base Iris

Resultados - Base Iris Resultados - Base Iris Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Vogais

Base Vogaisrogerio.in PPgSC / Universidade Federal do Rio Grande do Norte – slide 41

Os parâmetros de entrada são 150 dados e estes dados

referem-se à classe (1-50 Iris Setosa, 51-100 Iris Versicolour e 101-150 Iris Virginica).

O número de clusters são 3, o valor de fuzziness é

m = 1, 25

e

ǫ = 0, 001

. Estes parâmetros foram usados nas três

configurações dos algoritmos (K-Means, FCM e ckMeans);

(50)

Resultados - Base Iris

Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris

Resultados - Base Iris Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Sonar Resultados - Base

Tabela 1: Base Iris agrupada pelos algoritmos FCM e ckMeans utilizando as distâncias Euclidiana, Não-Métrica e Métrica-Normalizada.

Assinalado ao Cluster 1 2 3

Iris-setosa 50 0 0

Iris-virginica 0 15 35

Iris-versicolor 0 48 2

Tabela 2: Base Iris agrupada pelo algoritmo K-Means utilizando as dis-tâncias Euclidiana, Não-Métrica e Métrica-Normalizada.

Iris-setosa 50 0 0

(51)

Resultados - Base Iris

Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base Iris

Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Vogais

Tabela 3: Performance entre os algoritmos na base Iris.

_{M N}

K-Means 13 13 13 0,56 0,98 0,98

FCM 13 13 13 1,67 2,42 2,46

(52)

Resultados - Base Sonar

Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base Iris Resultados - Base Iris

Resultados - Base Sonar

Resultados - Base Sonar Resultados - Base Sonar Resultados - Base

Este conjunto de dados serviu como estudo para a classificação de sinais sonares no treinamento de uma rede neural;

m = 1, 5

e

ǫ = 0, 0001

. Estes parâmetros foram usados nas três

(53)

Resultados - Base Sonar

Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base Iris Resultados - Base Iris Resultados - Base Sonar

Resultados - Base Sonar Resultados - Base Vogais

Tabela 4: Base Sonar agrupada pelos algoritmos K-Means, FCM e ck-Means utilizando a distância Euclidiana.

Assinalado ao Cluster 1 2

Rock 62 46

Mine 50 50

Tabela 5: Base Sonar agrupada pelo algoritmo FCM e ckMeans utili-zando a distância Não-Métrica.

Rock 62 46

Mine 55 45

Tabela 6: Base Sonar agrupada pelo algoritmo FCM e ckMeans utili-zando a distância Métrica-Normalizada.

Rock 62 48

(54)

Resultados - Base Sonar

Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base Iris Resultados - Base Iris Resultados - Base Sonar Resultados - Base Sonar

Resultados - Base

_{M N}

K-Means 16 16 16 8,94 13,61 8,94

FCM 12 18 27 13,73 31,63 46,65

(55)

Resultados - Base Vogais

Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base Iris Resultados - Base Iris Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Sonar

Resultados - Base Vogais

Os parâmetros de entrada são 3.878 dados e estes dados referem-se a 5 classes (A, E, I, O e U).

m = 1, 25

e

ǫ = 0, 001

. Estes parâmetros foram usados nas 3 configurações dos algoritmos (K-Means, FCM e ckMeans);

(56)

Base Vogais

Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base Iris Resultados - Base Iris Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Sonar Resultados - Base

(57)

Base Vogais (K-Means)

Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Resultados Resultados (Pontual) Resultados - Base Iris Resultados - Base Iris Resultados - Base Iris Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Sonar Resultados - Base Vogais

(58)

(59)

Base Vogais (ckMeans)

(60)

Base Vogais (K-Means)

O número de instâncias classificadas incorretamente em cada cluster é 1900, o que corresponde a 48,99% com o algoritmo K-Means.

(61)

Base Vogais (FCM)

O número de instâncias classificadas incorretamente em cada cluster é 1655, o que corresponde a 42.67% com o algoritmo FCM.

(62)

Base Vogais (ckMeans)

O número de instâncias classificadas incorretamente em cada cluster é 1615, o que corresponde a 41,64% com o algoritmo ckMeans.

(63)

Base Vogais (Comparativos)

Tabela 8: Performance

K-Means FCM ckMeans

Iterações 15 127 22

Tempo médio de cada iteração 0,59 2,24 1,80

(64)

Resultados (Intervalar)

A base de dados a ser analisada pelos algoritmos é uma

classificação de cidades baseada na temperatura. Foi obtido a temperatura mínima e máxima (em graus Celsius) do mês em um determinado ano entre 37 cidades espalhadas entre os

continentes;

O número de clusters são 4;

O valor de fuzziness é

m = 2

;

(65)

Resultados (Intervalar)

O algoritmo IFCM realizou 60 iterações para obter o melhor resultado de acordo com o critério de convergência escolhido;

Realizando um agrupamento crisp dos graus de pertinência de acordo com o ponto médio, o algoritmo Interval ckMeans

convergiu após 7 iterações;

(66)

Resultados (Intervalar)

A Tabela 9 mostra a quantidade de instâncias agrupadas em cada cluster. Como nos resultados dos algoritmos MSV e IFCM a

classificação da cidade Singapore foi ignorada por alguma razão, nós também a ignoramos para efeito de comparação embora tenha sido classificada no cluster 1.

Tabela 9: Quantidade de Objetos Agrupados entre os Algoritmos

Cluster IFCM MSV Interval ckMeans

1 7 14 11

2 12 20 11

3 8 1 4

(67)

Resultados (Intervalar)

O algoritmo Interval ckMeans classificou diversos dados em comuns se comparado com os algoritmos IFCM e MSV, a Tabela 10 mostra essa distribuição.

(68)

Resultados (Intervalar)

Há uma coincidência de classificações de 66,66% perante o IFCM e 63,88% perante o MSV;

Apenas 21 cidades foram classificadas nos mesmos clusters pelos

algoritmos IFCM e MSV, ou seja, o uma coincidência de classificação de 58,33%;

Sobre o algoritmo Interval ckMeans, o cluster 1 teve 11 instâncias agrupadas idêntica ao MSV, a exceção foi a cidade de Sydney e 4 cidades em comum na classificação com o IFCM;

O cluster 2 teve todos os dados classificados idênticos ao algoritmo MSV e com a exceção de um dado ao algoritmo IFCM;

O cluster 3 foi o que apresentou maior diferença entre os os algoritmos comparados, com apenas uma instância em comum;

(69)

Resultados - Base Iris Intervalar

Base Iris (Intervalar)

Intervalizamos os dados de entrada para intervalos;

Intervalizamos a inicialização do

µ

_ij do algoritmo ckMeans (pontual);

(70)

Resultados - Base Iris Intervalar

Tabela 11: Base Iris agrupada pelos algoritmos FCM e ckMeans utili-zando as distâncias Euclidiana, Não-Métrica e Métrica-Normalizada.

Iris-setosa 50 0 0

Iris-versicolor 0 48 2

Tabela 12: Base Iris Intervalar agrupada pelo algoritmo Interval ckMe-ans.

Iris-setosa 50 0 0

FCM 13 13 13 1,67 2,42 2,46

ckMeans 11 11 11 1,33 2,03 2,06

Tabela 14: Performance do algoritmo Interval ckMeans na Base Iris In-tervalar.

Quantidade de Iterações Tempo do Processamento (s)

(72)

(73)

Conclusões

Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Conclusões Conclusões Conclusões (Pontual) Conclusões (Intervalar) Conclusões (Intervalar)

Esta tese apresentou dois estudos:

1. Agrupamento de dados pontuais, mostrando um novo método para calcular os centros dos clusters, o algoritmo ckMeans. Esse algoritmo reduziu o tempo de processamento e o número de

iterações na classificação de dados. O algoritmo ckMeans fornece uma aceleração perante a aplicação FCM tradicional;

2. Agrupamento de dados simbólicos, mostra um estudo das principais operações e funções especiais da matemática intervalar;

3. Os experimentos nas bases simuladas mostram que a

(74)

Conclusões (Pontual)

Em algumas base de dados, utilizar outras distâncias como a

distância Não-Métrica e Métrica-Normalizada em vez da distância Euclidiana (mais usual) a quantidade de dados classificados

corretamente não é alterado ou é até pior que se comparado com a distância Euclidiana;

Observe que a condição de parada fornecido por

epsilon

quanto menor for, maior é o número de iterações no algoritmo FCM.

Entretanto, no algoritmo ckMeans isso não ocorre, como o

(75)

Conclusões (Intervalar)

Vários pesquisadores vêm trabalhando no sentido de estabelecer e aplicar metodologias no agrupamento de dados intervalares;

Este trabalho também pretende ser um aporte para essa área;

(76)

Conclusões (Intervalar)

Então a vantagem é que neste algoritmo Interval ckMeans consideram graus de pertinências intervalares propiciando conhecer ainda mais a imprecisão nos dados de entrada;

O grande trunfo deste algoritmo é sempre manter os dados de entrada e operações com intervalos e quando necessário calcular a distância de cada ponto ao centro de cada cluster, usar uma métrica intervalar em vez de usar uma métrica pontual como a distância Euclidiana;

O algoritmo Interval ckMeans permitiu a aplicação de duas

(77)

(78)

Etapas a Realizar

Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Próximas Etapas Etapas a Realizar

Comparar os resultados de outras extensões do FCM com o algoritmo ckMeans;

Modificar a forma de calcular os centros dos clusters em outras variantes do algoritmo FCM e comparar a sua perfomance;

Trabalhar com outras bases de dados simbólicos que já estejam validadas;

Verificar a propriedade de corretude do algoritmo Interval ckMeans com respeito ao algoritmo ckMeans;

Utilizar imagens médicas no processo de agrupamento com os algoritmos K-Means, FCM e ckMeans;

(79)

(80)

Principais Publicações Obtidas

Motivação (Geral) Motivação (Pontual) Motivação (Intervalar) Publicações Principais Publicações Obtidas Publicações Obtidas Questionamentos...

de Vargas, R. ; Bedregal, B. ; Palmeira, E. . A Comparison between K-Means, FCM and ckMeans Algorithms. In: Simone

André da Costa Cavalheiro; Luciana Foss; Marilton Sanchotene de Aguiar;Graçaliz Pereira Dimuro; Antônio Carlos da Rocha Costa. (Org.). Post-Proceedings of the Workshop-School on Theoretical Computer Science. Los Alamitos: IEEE, 2011, v. 1, p. 32-38;

de Vargas, R. ; Bedregal, B.: Interval ckMeans: An Algorithm for Clustering Symbolic Data. In: Proc. Conf. North American Fuzzy Information Processing Society (NAFIPS 2011), El Paso, USA (2011);

Vargas, R., Bedregal, B.: A Comparative Study Between fuzzy

(81)

Publicações Obtidas

PPgSC / Universidade Federal do Rio Grande do Norte – slide 73

de Vargas, R., Bedregal, B.: Uma Nova Forma de Calcular o Centro dos Clusters no Algoritmo Fuzzy C-Means. In:

Proceedings of CNMAC 2010 (33th Brazilian Conference on Applied and Computational Math), SBMAC (Brazilian Society of Applied and Computational Math), Águas de Lindóia, Brazil

(2010);

de Vargas, R., Bedregal, B., Oliveira Filho, I.: Agrupamento de Dados Intervalares com o Algoritmo IFCM. In: Proceedings of CISAISI 2009 (13th Congresso Internacional Sudamericano de Ingenearía de Sistemas e Informática), Arica, Chile (2009);

de Vargas, R., Bedregal, B.: Uma Extensão Intervalar do

Algoritmo Fuzzy C-Means. In: Proceedings of CNMAC 2009 (32th Brazilian Conference on Applied and Computational Math),