Medidas de avaliação de agrupamentos (Clustering)

(1)

Medidas de avalia¸c˜ ao de agrupamentos (Clustering)

Sarajane M. Peres e Clodoaldo A. M. Lima

12 de novembro de 2015

(2)

Motiva¸c˜ ao

Avalia¸c˜ao→Valida¸c˜ao

O processo de avalia¸ c˜ ao do resultado obtido a partir de um algoritmo de agrupamento

´

e comumente chamado de valida¸ c˜ ao.

Objetivo

A pergunta a ser respondida ´ e se o modelo de grupos descoberto ´ e, de fato, a organiza¸ c˜ ao em grupos dos dados sob an´ alise. Por´ em, se n˜ ao conhecemos a organiza¸ c˜ ao, como saber se o que descobrimos ´ e o que dever´ıamos ter descoberto?

Estrat´egias

analisar a compacidade: encontramos grupos que maximizou a similaridade intragrupo?

analisar a separabilidade: encontramos grupos que minimizou a similaridade

(3)

´Indices de valida¸c˜ao

Possibilidades

H´ a dois principais tipos de ´ındices de valida¸ c˜ ao de agrupamentos

´ındices externos: compara a estrutura de grupos descoberta com uma estrutura de grupos previamente conhecida;

´ındices internos: analisa a estrutura de grupos descoberta em rela¸ c˜ ao a alguma crit´ erio, como por exemplo, compacidade e/ou separabilidade.

Os ´ındices internos tamb´ em podem ser encontrados sob a nomenclatura de “´ındices

relativos”.

(4)

Exemplos de organiza¸c˜ oes em grupos

(5)

´Indices Externos

Considere:

uma organiza¸c˜ao em gruposG, proveniente da execu¸c˜ao do algoritmo de agrupamento, comk grupos:G₁, ...,G_k;

uma organiza¸cão em parti¸cõesP, conhecidaa priori, comcparti¸cões:P1, ...,Pc.

todos os pares de dados{^→x_p,^→x_q}do conjunto de dados submetido ao algoritmo de agrupamento, sendop6=qe{^→x_p,^→x_q}={^→x_q,^→x_p}

e calcule:

SOMA A: quantidade de pares de exemplares que pertencem a um mesmo grupoG e `a uma mesma parti¸c˜aoP;

SOMA B: quatidade de pares de exemplares que pertencem a um mesmo grupoGe `a parti¸c˜oesP diferentes;

SOMA C: quantidade de pares de exemplares que pertencem a gruposGdiferentes e `a mesma parti¸c˜aoP;

SOMA D: quantidade de pares de exemplares que pertencem a gruposGdiferentes e `a parti¸c˜oesP diferentes.

(6)

´Indices Externos

A partir dos c´ alculos do slide anterior, os seguintes ´ındices podem ser aplicados:

´ Indice de Rand :

_(A+B+C+D)^(A+D)

´ Indice de Jaccard:

_(A+B+C)^A

´ Indice de Folkes e Mallows:

^q_A+B^A ∗_A+C^A

Esses ´ındices variam no intervalo [0, 1]. Valores altos para esses ´ındices indicam alto

grau de similaridade entre a organiza¸ c˜ ao em grupos e a organiza¸ c˜ ao das parti¸ c˜ oes.

(7)

(8)

(9)

Figura : Com ru´ıdo - distribui¸c˜ ao normal - 500 pontos

(10)

Efeito do ru´ıdo sobre os ´ındices externos

Considerando cada ponto ruidoso com sendo um grupo diferente.

Densidade Soma A Soma B Soma C Soma D Rand Jaccard Folkes-Mallows do ru´ıdo

0 67.141 32.980 0 210.745 0.8936 0.6706 0.8189

10 67.141 32.980 0 218.680 0.8965 0.6706 0.8189

100 67.141 32.980 0 294.595 0.9164 0.6706 0.8189

500 67.141 32.980 0 729.995 0.9603 0.6706 0.8189

1.000 67.141 32.980 0 1.499.245 0.9794 0.6706 0.8189

10.000 67.141 32.980 0 58.095.745 0.9994 0.6706 0.8189

(11)

Efeito do ru´ıdo sobre os ´ındices externos

Considerando cada ponto ruidoso com sendo um grupo diferente na parti¸ c˜ ao conhecida, mas um grupo ´ unico identificado no agrupamento.

0 67.141 32.980 0 210.745 0.8936 0.6706 0.8189

10 67.141 33.025 0 217.837 0.8961 0.6703 0.8187

100 67.141 37.930 0 288.757 0.9037 0.6390 0.7994

500 67.141 157.730 0 603.957 0.8097 0.2986 0.5464

1.000 67.141 532.480 0 997.957 0.6667 0.1120 0.3346

10.000 67.141 50.027.980 0 8.089.957 0.1402 0.0013 0.0366

(12)

Efeito do ru´ıdo sobre os ´ındices externos

Considerando cada ponto ruidoso com sendo um grupo diferente na parti¸ c˜ ao conhecida, mas fazendo parte de um dos grupos (reais) encontrados para o conjunto de dados.

0 67.141 32.980 0 210.745 0.8936 0.6706 0.8189

.... perdi conex˜ ao com o servidor .... fiquei sem Matlab ... ent˜ ao fica como

exerc´ıcio!!!!!!

(13)

Outros ´ındices externos

Czekanowski-Dice Hubert Γ

Kulczinski McNemar

Phi Rogers-Tanimoto

Russel-Rao Sokal-Seneath

Tabela : Fonte: Desgraupes, 2013

(14)

´Indices Internos

´Indice Dunn

I

Dunn

= min

1≤p≤k{min1≤q≤k,p6=q{

dist(G

p,

G

q

) maxdisp(G

k

)

}

em que k ´ e o n´ umero de grupos no agrupamento.

ou

´Indice Dunn

I

Dunn

= min

1≤p≤q≤k

dist(G

p,

G

q

) maxdisp(G

k

) em que k ´ e o n´ umero de grupos no agrupamento.

Esse ´ındice compara as distˆ ancias intergrupos com o tamanho do grupo mais disperso.

(15)

´Indices Internos

´Indice Davies-Bouldin

I

DB

= 1 k

k

X

p=1

R

p

em que

R

p

= max

p=1,..k,p6=q

R

pq

para p, q = 1..k

R

pq

= disp(C

p

) + disp(C

q

) dist(C

p,

C

q

)

Quanto MENOR o valor do ´ındice MELHOR, pois isso significa baixas medidas de

dispers˜ ao intragrupo e grandes distˆ ancias intergrupos.

(16)

´Indices Internos

´Indice Silhouette

I

SIL

= b(i )

−

a(i ) max{a(i ), b(i )}

em que

a(i ) ´ e a distˆ ancia m´ edia do dado i a todos os demais dados do seu grupo;

b(i ) ´ e a distˆ ancia m´ınima do dado i a todos os demais dados que n˜ ao pertencem ao seu grupo;

O I

SIL

´ e calculado por dado e o I

SIL

de um grupo ´ e a m´ edia dos I

SIL

de todos os dados

no grupo. E o I

SIL

do agrupamento ´ e a m´ edia dos I

SIL

dos grupos.Quanto MAIOR o

valor do ´ındice MELHOR.

(17)

Exemplos de organiza¸c˜ oes em grupos

Figura : Conjuntos de dados

(http://cs.joensuu.fi/sipu/datasets/)

(18)

´Indice Dunn nos conjuntos de dados

Considerando a distˆ ancias entre os pontos mais distantes dentro do grupo como dispers˜ ao de um grupos e a distˆ ancia entre centr´ oides como sendo a distˆ ancia entre grupos, os seguintes valores para o ´Indice Dunn foram obtidos:

Sem normaliza¸c˜ao Com normaliza¸c˜ao

Conjunto Distância Dispersão Índice Distância Dispersão Índice

de dados m´ınima m´axima Dunn m´ınima m´axima Dunn

compound 0.5904 20.7966 0.0284 0.0166 0.9413 0.0176

aggregation 8.3044 15.4144 0.5387 0.3049 0.4966 0.6139

t4.8k – – – – – –

flame 5.4437 13.7179 0.3968 0.4077 1.0014 0.4071

jain 17.7020 27.2273 0.6502 0.5790 0.7101 0.8154

pathbased 6.2617 29.2959 0.2137 0.2213 1.0408 0.2126

R15 1.6584 1.8750 0.8750 0.1208 0.1378 0.8769

D31 2.9889 6.0535 0.4937 0.1136 0.2278 0.4986

spiral 3.1464 25.9993 0.1210 0.1094 0.8992 0.1217

(19)

Outros ´ındices internos

Ball-Hall Banfeld-Raftery C

Calinski-Harabasz Det-Ratio Baker-Hubert Gamma

GDI G-plus Ksq-Det-Ratio

Log-Det-Ratio McClain-Rao PBM

Point-Biserial Ratkowsky-Lance Ray-Turi

Scott-Symons SD S-Dbw

Tau Trace-W Trace-WiB

Wemmert-Gan¸ carski Xie-Beni

Tabela : Fonte: Desgraupes, 2013

(20)

Escolha do melhor modelo de agrupamento

A melhor parti¸ c˜ ao pode estar relacionada ` a qualidade dos grupos encontrados e/ou ` a quantidade de grupos encontrados. Muito provavelmente, a melhor qualidade estar´ a relacionada com quantidade ideal.

Estrat´egia

crie v´ arios modelos de agrupamento para o conjunto de dados sob an´ alise, variando, sistematicamente, o n´ umero de grupos e os demais parˆ ametros do algoritmo;

para cada modelo de agrupamento compute um ´ındice de qualidade;

selecione o modelo de agrupamento que gerou o MELHOR valor para o ´ındice

(21)

Comparando diferentes agrupamentos para um mesmo conjunto de dados

´Indice Dunn para o agrupamento com 7 grupos: 0.6139

´Indice Dunn para o agrupamento com 4 grupos: 0.4034

(22)

Referˆencias Bibliogr´ aficas

Davies, D. L.; Bouldin, D. W. A Cluster Separation Measure. In: IEEE Transaction on Pattern Analysis and Machine Intelligence, v.1, no 2, p.

224-227, 1979.

Desgraupes, B. Clustering Indices. Package clusterCrit for R. University Paris Ouest - Lab Modal’X, 2013.

Dunn, J. C. A Fuzzy Relative of the ISODATA Process and its Use in Detection Compact Well-Separate Clusters. In. Journal of Cybernetics, v. 3, no 3, p.

32-57, 1973.

Halkidi, M.; Batistakis, Y.; Vazirgiannis, M. On Clustering Validation Techniques. In: Journal of Intelligent Information Systems, v. 17, no 2-3, o 107-145, 2001.