Medidas de avalia¸c˜ ao de agrupamentos (Clustering)
Sarajane M. Peres e Clodoaldo A. M. Lima
12 de novembro de 2015
Motiva¸c˜ ao
Avalia¸c˜ao→Valida¸c˜ao
O processo de avalia¸ c˜ ao do resultado obtido a partir de um algoritmo de agrupamento
´
e comumente chamado de valida¸ c˜ ao.
Objetivo
A pergunta a ser respondida ´ e se o modelo de grupos descoberto ´ e, de fato, a organiza¸ c˜ ao em grupos dos dados sob an´ alise. Por´ em, se n˜ ao conhecemos a organiza¸ c˜ ao, como saber se o que descobrimos ´ e o que dever´ıamos ter descoberto?
Estrat´egias
analisar a compacidade: encontramos grupos que maximizou a similaridade intragrupo?
analisar a separabilidade: encontramos grupos que minimizou a similaridade
´Indices de valida¸c˜ao
Possibilidades
H´ a dois principais tipos de ´ındices de valida¸ c˜ ao de agrupamentos
´ındices externos: compara a estrutura de grupos descoberta com uma estrutura de grupos previamente conhecida;
´ındices internos: analisa a estrutura de grupos descoberta em rela¸ c˜ ao a alguma crit´ erio, como por exemplo, compacidade e/ou separabilidade.
Os ´ındices internos tamb´ em podem ser encontrados sob a nomenclatura de “´ındices
relativos”.
Exemplos de organiza¸c˜ oes em grupos
´Indices Externos
Considere:
uma organiza¸c˜ao em gruposG, proveniente da execu¸c˜ao do algoritmo de agrupamento, comk grupos:G1, ...,Gk;
uma organiza¸c˜ao em parti¸c˜oesP, conhecidaa priori, comcparti¸c˜oes:P1, ...,Pc.
todos os pares de dados{→xp,→xq}do conjunto de dados submetido ao algoritmo de agrupamento, sendop6=qe{→xp,→xq}={→xq,→xp}
e calcule:
SOMA A: quantidade de pares de exemplares que pertencem a um mesmo grupoG e `a uma mesma parti¸c˜aoP;
SOMA B: quatidade de pares de exemplares que pertencem a um mesmo grupoGe `a parti¸c˜oesP diferentes;
SOMA C: quantidade de pares de exemplares que pertencem a gruposGdiferentes e `a mesma parti¸c˜aoP;
SOMA D: quantidade de pares de exemplares que pertencem a gruposGdiferentes e `a parti¸c˜oesP diferentes.
´Indices Externos
A partir dos c´ alculos do slide anterior, os seguintes ´ındices podem ser aplicados:
´ Indice de Rand :
(A+B+C+D)(A+D)´ Indice de Jaccard:
(A+B+C)A´ Indice de Folkes e Mallows:
qA+BA ∗A+CAEsses ´ındices variam no intervalo [0, 1]. Valores altos para esses ´ındices indicam alto
grau de similaridade entre a organiza¸ c˜ ao em grupos e a organiza¸ c˜ ao das parti¸ c˜ oes.
Figura : Com ru´ıdo - distribui¸c˜ ao normal - 500 pontos
Efeito do ru´ıdo sobre os ´ındices externos
Considerando cada ponto ruidoso com sendo um grupo diferente.
Densidade Soma A Soma B Soma C Soma D Rand Jaccard Folkes-Mallows do ru´ıdo
0 67.141 32.980 0 210.745 0.8936 0.6706 0.8189
10 67.141 32.980 0 218.680 0.8965 0.6706 0.8189
100 67.141 32.980 0 294.595 0.9164 0.6706 0.8189
500 67.141 32.980 0 729.995 0.9603 0.6706 0.8189
1.000 67.141 32.980 0 1.499.245 0.9794 0.6706 0.8189
10.000 67.141 32.980 0 58.095.745 0.9994 0.6706 0.8189
Efeito do ru´ıdo sobre os ´ındices externos
Considerando cada ponto ruidoso com sendo um grupo diferente na parti¸ c˜ ao conhecida, mas um grupo ´ unico identificado no agrupamento.
Densidade Soma A Soma B Soma C Soma D Rand Jaccard Folkes-Mallows do ru´ıdo
0 67.141 32.980 0 210.745 0.8936 0.6706 0.8189
10 67.141 33.025 0 217.837 0.8961 0.6703 0.8187
100 67.141 37.930 0 288.757 0.9037 0.6390 0.7994
500 67.141 157.730 0 603.957 0.8097 0.2986 0.5464
1.000 67.141 532.480 0 997.957 0.6667 0.1120 0.3346
10.000 67.141 50.027.980 0 8.089.957 0.1402 0.0013 0.0366
Efeito do ru´ıdo sobre os ´ındices externos
Considerando cada ponto ruidoso com sendo um grupo diferente na parti¸ c˜ ao conhecida, mas fazendo parte de um dos grupos (reais) encontrados para o conjunto de dados.
Densidade Soma A Soma B Soma C Soma D Rand Jaccard Folkes-Mallows do ru´ıdo
0 67.141 32.980 0 210.745 0.8936 0.6706 0.8189
.... perdi conex˜ ao com o servidor .... fiquei sem Matlab ... ent˜ ao fica como
exerc´ıcio!!!!!!
Outros ´ındices externos
Czekanowski-Dice Hubert Γ
Kulczinski McNemar
Phi Rogers-Tanimoto
Russel-Rao Sokal-Seneath
Tabela : Fonte: Desgraupes, 2013
´Indices Internos
´Indice Dunn
I
Dunn= min
1≤p≤k{min1≤q≤k,p6=q{dist(G
p,G
q) maxdisp(G
k)
}em que k ´ e o n´ umero de grupos no agrupamento.
ou
´Indice Dunn
I
Dunn= min
1≤p≤q≤kdist(G
p,G
q) maxdisp(G
k) em que k ´ e o n´ umero de grupos no agrupamento.
Esse ´ındice compara as distˆ ancias intergrupos com o tamanho do grupo mais disperso.
´Indices Internos
´Indice Davies-Bouldin
I
DB= 1 k
k
X
p=1
R
pem que
R
p= max
p=1,..k,p6=qR
pqpara p, q = 1..k
R
pq= disp(C
p) + disp(C
q) dist(C
p,C
q)
Quanto MENOR o valor do ´ındice MELHOR, pois isso significa baixas medidas de
dispers˜ ao intragrupo e grandes distˆ ancias intergrupos.
´Indices Internos
´Indice Silhouette
I
SIL= b(i )
−a(i ) max{a(i ), b(i )}
em que
a(i ) ´ e a distˆ ancia m´ edia do dado i a todos os demais dados do seu grupo;
b(i ) ´ e a distˆ ancia m´ınima do dado i a todos os demais dados que n˜ ao pertencem ao seu grupo;
O I
SIL´ e calculado por dado e o I
SILde um grupo ´ e a m´ edia dos I
SILde todos os dados
no grupo. E o I
SILdo agrupamento ´ e a m´ edia dos I
SILdos grupos.Quanto MAIOR o
valor do ´ındice MELHOR.
Exemplos de organiza¸c˜ oes em grupos
Figura : Conjuntos de dados
(http://cs.joensuu.fi/sipu/datasets/)´Indice Dunn nos conjuntos de dados
Considerando a distˆ ancias entre os pontos mais distantes dentro do grupo como dispers˜ ao de um grupos e a distˆ ancia entre centr´ oides como sendo a distˆ ancia entre grupos, os seguintes valores para o ´Indice Dunn foram obtidos:
Sem normaliza¸c˜ao Com normaliza¸c˜ao
Conjunto Distˆancia Dispers˜ao ´Indice Distˆancia Dispers˜ao ´Indice
de dados m´ınima m´axima Dunn m´ınima m´axima Dunn
compound 0.5904 20.7966 0.0284 0.0166 0.9413 0.0176
aggregation 8.3044 15.4144 0.5387 0.3049 0.4966 0.6139
t4.8k – – – – – –
flame 5.4437 13.7179 0.3968 0.4077 1.0014 0.4071
jain 17.7020 27.2273 0.6502 0.5790 0.7101 0.8154
pathbased 6.2617 29.2959 0.2137 0.2213 1.0408 0.2126
R15 1.6584 1.8750 0.8750 0.1208 0.1378 0.8769
D31 2.9889 6.0535 0.4937 0.1136 0.2278 0.4986
spiral 3.1464 25.9993 0.1210 0.1094 0.8992 0.1217
Outros ´ındices internos
Ball-Hall Banfeld-Raftery C
Calinski-Harabasz Det-Ratio Baker-Hubert Gamma
GDI G-plus Ksq-Det-Ratio
Log-Det-Ratio McClain-Rao PBM
Point-Biserial Ratkowsky-Lance Ray-Turi
Scott-Symons SD S-Dbw
Tau Trace-W Trace-WiB
Wemmert-Gan¸ carski Xie-Beni
Tabela : Fonte: Desgraupes, 2013
Escolha do melhor modelo de agrupamento
A melhor parti¸ c˜ ao pode estar relacionada ` a qualidade dos grupos encontrados e/ou ` a quantidade de grupos encontrados. Muito provavelmente, a melhor qualidade estar´ a relacionada com quantidade ideal.
Estrat´egia