• Nenhum resultado encontrado

Medidas de avaliação de agrupamentos (Clustering)

N/A
N/A
Protected

Academic year: 2021

Share "Medidas de avaliação de agrupamentos (Clustering)"

Copied!
22
0
0

Texto

(1)

Medidas de avalia¸c˜ ao de agrupamentos (Clustering)

Sarajane M. Peres e Clodoaldo A. M. Lima

12 de novembro de 2015

(2)

Motiva¸c˜ ao

Avalia¸c˜ao→Valida¸c˜ao

O processo de avalia¸ c˜ ao do resultado obtido a partir de um algoritmo de agrupamento

´

e comumente chamado de valida¸ c˜ ao.

Objetivo

A pergunta a ser respondida ´ e se o modelo de grupos descoberto ´ e, de fato, a organiza¸ c˜ ao em grupos dos dados sob an´ alise. Por´ em, se n˜ ao conhecemos a organiza¸ c˜ ao, como saber se o que descobrimos ´ e o que dever´ıamos ter descoberto?

Estrat´egias

analisar a compacidade: encontramos grupos que maximizou a similaridade intragrupo?

analisar a separabilidade: encontramos grupos que minimizou a similaridade

(3)

´Indices de valida¸c˜ao

Possibilidades

H´ a dois principais tipos de ´ındices de valida¸ c˜ ao de agrupamentos

´ındices externos: compara a estrutura de grupos descoberta com uma estrutura de grupos previamente conhecida;

´ındices internos: analisa a estrutura de grupos descoberta em rela¸ c˜ ao a alguma crit´ erio, como por exemplo, compacidade e/ou separabilidade.

Os ´ındices internos tamb´ em podem ser encontrados sob a nomenclatura de “´ındices

relativos”.

(4)

Exemplos de organiza¸c˜ oes em grupos

(5)

´Indices Externos

Considere:

uma organiza¸c˜ao em gruposG, proveniente da execu¸c˜ao do algoritmo de agrupamento, comk grupos:G1, ...,Gk;

uma organiza¸c˜ao em parti¸c˜oesP, conhecidaa priori, comcparti¸c˜oes:P1, ...,Pc.

todos os pares de dados{xp,xq}do conjunto de dados submetido ao algoritmo de agrupamento, sendop6=qe{xp,xq}={xq,xp}

e calcule:

SOMA A: quantidade de pares de exemplares que pertencem a um mesmo grupoG e `a uma mesma parti¸c˜aoP;

SOMA B: quatidade de pares de exemplares que pertencem a um mesmo grupoGe `a parti¸c˜oesP diferentes;

SOMA C: quantidade de pares de exemplares que pertencem a gruposGdiferentes e `a mesma parti¸c˜aoP;

SOMA D: quantidade de pares de exemplares que pertencem a gruposGdiferentes e `a parti¸c˜oesP diferentes.

(6)

´Indices Externos

A partir dos c´ alculos do slide anterior, os seguintes ´ındices podem ser aplicados:

´ Indice de Rand :

(A+B+C+D)(A+D)

´ Indice de Jaccard:

(A+B+C)A

´ Indice de Folkes e Mallows:

qA+BAA+CA

Esses ´ındices variam no intervalo [0, 1]. Valores altos para esses ´ındices indicam alto

grau de similaridade entre a organiza¸ c˜ ao em grupos e a organiza¸ c˜ ao das parti¸ c˜ oes.

(7)
(8)
(9)

Figura : Com ru´ıdo - distribui¸c˜ ao normal - 500 pontos

(10)

Efeito do ru´ıdo sobre os ´ındices externos

Considerando cada ponto ruidoso com sendo um grupo diferente.

Densidade Soma A Soma B Soma C Soma D Rand Jaccard Folkes-Mallows do ru´ıdo

0 67.141 32.980 0 210.745 0.8936 0.6706 0.8189

10 67.141 32.980 0 218.680 0.8965 0.6706 0.8189

100 67.141 32.980 0 294.595 0.9164 0.6706 0.8189

500 67.141 32.980 0 729.995 0.9603 0.6706 0.8189

1.000 67.141 32.980 0 1.499.245 0.9794 0.6706 0.8189

10.000 67.141 32.980 0 58.095.745 0.9994 0.6706 0.8189

(11)

Efeito do ru´ıdo sobre os ´ındices externos

Considerando cada ponto ruidoso com sendo um grupo diferente na parti¸ c˜ ao conhecida, mas um grupo ´ unico identificado no agrupamento.

Densidade Soma A Soma B Soma C Soma D Rand Jaccard Folkes-Mallows do ru´ıdo

0 67.141 32.980 0 210.745 0.8936 0.6706 0.8189

10 67.141 33.025 0 217.837 0.8961 0.6703 0.8187

100 67.141 37.930 0 288.757 0.9037 0.6390 0.7994

500 67.141 157.730 0 603.957 0.8097 0.2986 0.5464

1.000 67.141 532.480 0 997.957 0.6667 0.1120 0.3346

10.000 67.141 50.027.980 0 8.089.957 0.1402 0.0013 0.0366

(12)

Efeito do ru´ıdo sobre os ´ındices externos

Considerando cada ponto ruidoso com sendo um grupo diferente na parti¸ c˜ ao conhecida, mas fazendo parte de um dos grupos (reais) encontrados para o conjunto de dados.

Densidade Soma A Soma B Soma C Soma D Rand Jaccard Folkes-Mallows do ru´ıdo

0 67.141 32.980 0 210.745 0.8936 0.6706 0.8189

.... perdi conex˜ ao com o servidor .... fiquei sem Matlab ... ent˜ ao fica como

exerc´ıcio!!!!!!

(13)

Outros ´ındices externos

Czekanowski-Dice Hubert Γ

Kulczinski McNemar

Phi Rogers-Tanimoto

Russel-Rao Sokal-Seneath

Tabela : Fonte: Desgraupes, 2013

(14)

´Indices Internos

´Indice Dunn

I

Dunn

= min

1≤p≤k{min1≤q≤k,p6=q{

dist(G

p,

G

q

) maxdisp(G

k

)

}

em que k ´ e o n´ umero de grupos no agrupamento.

ou

´Indice Dunn

I

Dunn

= min

1≤p≤q≤k

dist(G

p,

G

q

) maxdisp(G

k

) em que k ´ e o n´ umero de grupos no agrupamento.

Esse ´ındice compara as distˆ ancias intergrupos com o tamanho do grupo mais disperso.

(15)

´Indices Internos

´Indice Davies-Bouldin

I

DB

= 1 k

k

X

p=1

R

p

em que

R

p

= max

p=1,..k,p6=q

R

pq

para p, q = 1..k

R

pq

= disp(C

p

) + disp(C

q

) dist(C

p,

C

q

)

Quanto MENOR o valor do ´ındice MELHOR, pois isso significa baixas medidas de

dispers˜ ao intragrupo e grandes distˆ ancias intergrupos.

(16)

´Indices Internos

´Indice Silhouette

I

SIL

= b(i )

a(i ) max{a(i ), b(i )}

em que

a(i ) ´ e a distˆ ancia m´ edia do dado i a todos os demais dados do seu grupo;

b(i ) ´ e a distˆ ancia m´ınima do dado i a todos os demais dados que n˜ ao pertencem ao seu grupo;

O I

SIL

´ e calculado por dado e o I

SIL

de um grupo ´ e a m´ edia dos I

SIL

de todos os dados

no grupo. E o I

SIL

do agrupamento ´ e a m´ edia dos I

SIL

dos grupos.Quanto MAIOR o

valor do ´ındice MELHOR.

(17)

Exemplos de organiza¸c˜ oes em grupos

Figura : Conjuntos de dados

(http://cs.joensuu.fi/sipu/datasets/)

(18)

´Indice Dunn nos conjuntos de dados

Considerando a distˆ ancias entre os pontos mais distantes dentro do grupo como dispers˜ ao de um grupos e a distˆ ancia entre centr´ oides como sendo a distˆ ancia entre grupos, os seguintes valores para o ´Indice Dunn foram obtidos:

Sem normaliza¸ao Com normaliza¸ao

Conjunto Distˆancia Dispers˜ao ´Indice Distˆancia Dispers˜ao ´Indice

de dados m´ınima axima Dunn m´ınima axima Dunn

compound 0.5904 20.7966 0.0284 0.0166 0.9413 0.0176

aggregation 8.3044 15.4144 0.5387 0.3049 0.4966 0.6139

t4.8k

flame 5.4437 13.7179 0.3968 0.4077 1.0014 0.4071

jain 17.7020 27.2273 0.6502 0.5790 0.7101 0.8154

pathbased 6.2617 29.2959 0.2137 0.2213 1.0408 0.2126

R15 1.6584 1.8750 0.8750 0.1208 0.1378 0.8769

D31 2.9889 6.0535 0.4937 0.1136 0.2278 0.4986

spiral 3.1464 25.9993 0.1210 0.1094 0.8992 0.1217

(19)

Outros ´ındices internos

Ball-Hall Banfeld-Raftery C

Calinski-Harabasz Det-Ratio Baker-Hubert Gamma

GDI G-plus Ksq-Det-Ratio

Log-Det-Ratio McClain-Rao PBM

Point-Biserial Ratkowsky-Lance Ray-Turi

Scott-Symons SD S-Dbw

Tau Trace-W Trace-WiB

Wemmert-Gan¸ carski Xie-Beni

Tabela : Fonte: Desgraupes, 2013

(20)

Escolha do melhor modelo de agrupamento

A melhor parti¸ c˜ ao pode estar relacionada ` a qualidade dos grupos encontrados e/ou ` a quantidade de grupos encontrados. Muito provavelmente, a melhor qualidade estar´ a relacionada com quantidade ideal.

Estrat´egia

crie v´ arios modelos de agrupamento para o conjunto de dados sob an´ alise, variando, sistematicamente, o n´ umero de grupos e os demais parˆ ametros do algoritmo;

para cada modelo de agrupamento compute um ´ındice de qualidade;

selecione o modelo de agrupamento que gerou o MELHOR valor para o ´ındice

(21)

Comparando diferentes agrupamentos para um mesmo conjunto de dados

´Indice Dunn para o agrupamento com 7 grupos: 0.6139

´Indice Dunn para o agrupamento com 4 grupos: 0.4034

(22)

Referˆencias Bibliogr´ aficas

Davies, D. L.; Bouldin, D. W. A Cluster Separation Measure. In: IEEE Transaction on Pattern Analysis and Machine Intelligence, v.1, no 2, p.

224-227, 1979.

Desgraupes, B. Clustering Indices. Package clusterCrit for R. University Paris Ouest - Lab Modal’X, 2013.

Dunn, J. C. A Fuzzy Relative of the ISODATA Process and its Use in Detection Compact Well-Separate Clusters. In. Journal of Cybernetics, v. 3, no 3, p.

32-57, 1973.

Halkidi, M.; Batistakis, Y.; Vazirgiannis, M. On Clustering Validation Techniques. In: Journal of Intelligent Information Systems, v. 17, no 2-3, o 107-145, 2001.

Rousseeuw, P. J. Silhouettes: A Graphical Aid to the Interpretation and

Validation of Cluster Analysis. In: Journal of Computational and Applied

Referências

Documentos relacionados

Our contributions are: a set of guidelines that provide meaning to the different modelling elements of SysML used during the design of systems; the individual formal semantics for

O valor da reputação dos pseudônimos é igual a 0,8 devido aos fal- sos positivos do mecanismo auxiliar, que acabam por fazer com que a reputação mesmo dos usuários que enviam

Analysis of relief and toponymy of the landscape based on the interpretation of the military topographic survey: Altimetry, Hypsometry, Hydrography, Slopes, Solar orientation,

A assistência da equipe de enfermagem para a pessoa portadora de Diabetes Mellitus deve ser desenvolvida para um processo de educação em saúde que contribua para que a

Se você vai para o mundo da fantasia e não está consciente de que está lá, você está se alienando da realidade (fugindo da realidade), você não está no aqui e

servidores, software, equipamento de rede, etc, clientes da IaaS essencialmente alugam estes recursos como um serviço terceirizado completo...

O segundo Beneficiário será designado pelo Segurado na Proposta de Adesão, podendo ser substituído a qualquer tempo, mediante solicitação formal assinada pelo próprio Segurado, para

Os casos não previstos neste regulamento serão resolvidos em primeira instância pela coorde- nação do Prêmio Morena de Criação Publicitária e, em segunda instância, pelo