Agrupamento de Dados e Aplicações

(1)

Agrupamento de Dados e

Aplicações

Representação de Dados e

Medidas de Proximidade

(2)

2

Créditos

 O material a seguir consiste de adaptações e

extensões dos originais:

 Elaborados por Eduardo Hruschka e Ricardo Campello  de (Tan et al., 2006)

 de E. Keogh (SBBD 2003)

(3)

Agenda



Motivação



Tipos e Escalas de Dados



Normalizações



Medidas de Proximidade



Similaridade



Dissimilaridade

(4)

Agrupamento de Dados (

Clustering

)

- Aprendizado não supervisionado

- Encontrar grupos “naturais” de objetos

0 20 40 60 80 100 120 140 160 180 0 50 100 150

(5)

Noção de grupo pode ser ambígua

Quantos grupos (clusters)?

Quatro grupos Dois grupos

(6)

Visualizando Clusters



Sistema visual humano é muito poderoso para

reconhecer padrões



Entretanto...

 “Humans are good at discerning subtle patterns that

are really there, but equally so at imagining them when they are altogether absent” (Carl Sagan)

 Everitt et al., Cluster Analysis, Chapter 2 (Visualizing

Clusters), Fourth Edition, Arnold, 2001

(7)

Definindo o que é um Cluster



Conceitualmente, definições são subjetivas:

 Homogeneidade (coesão interna)...  Heterogeneidade (separação)...

 Densidade (concentração)...



É preciso formalizar matematicamente



Existem diversas medidas

 Cada uma induz (impõe) uma estrutura aos dados

(8)

Medidas de (Dis)Similaridade

8



Existem diversas medidas de (dis)similaridade, para

diferentes contextos de aplicação



Cada uma presume que os objetos são descritos

por atributos de uma determinada natureza

 qualitativos, quantitativos, misturas, textos



Para discuti-las precisamos antes falar um pouco

(9)



Reconhecer o tipo e a escala dos dados nos

ajuda a escolher o algoritmo de agrupamento:



Tipo de dados: no presente contexto,

refere-se ao grau de quantização dos dados

 Atributo Binário:

 2 valores

 Atributo Discreto:

 valores enumeráveis

 binário é caso particular

 Atributo Contínuo:

 valores numéricos reais

(10)

 Podemos tratar qualquer atributo como assumindo valores na forma de números, em algum tipo de escala

 Escala de dados: indica a significância relativa dos números (nominal, ordinal, intervalar e taxa)

 Escala Qualitativa:

 Nominal: números usados como nomes; p. ex.

 {M, F} = {0, 1}

 {Solteiro, Casado, Separado, Viúvo} = {0, 1, 2, 3}

 Ordinal: números possuem apenas informação sobre a ordem relativa:

 {ruim, médio, bom} = {1, 2, 3} = {10, 20, 30} = {1, 20, 300}  {frio, morno, quente} = {1, 2, 3}

10

(11)

 Escala Quantitativa:

 Intervalar:

 Interpretação dos números depende de uma unidade de medida, cujo zero é arbitrário

 Exemplos:

 26ºC = 78F não é 2 vezes mais quente do que 13ºC (55F)  400D.C. não é 2x mais tempo histórico do que 200D.C.

 Razão:

 Interpretação não depende de qualquer unidade  Exemplo:

(12)

Medidas de (Dis)similaridade

12

“

A escolha da medida de dis(similaridade) é

importante para aplicações, e a melhor escolha é

frequentemente obtida via uma combinação de

experiência, habilidade, conhecimento e sorte

...”

Gan, G., Ma, C., Wu, J., Data Clustering: Theory, Algorithms, and

(13)

Notação

 Matriz de Dados X:

 N linhas (objetos) e n colunas (atributos):

 Cada objeto (linha da matriz) é denotado por um vetor x_i

 Exemplo:















Nn N N n n

x











2 1 2 22 21 1 12 11

X



x₁₁ x₁_n



1   x 13

(14)

Notação

 Matriz de Dados X:

 N linhas (objetos) e n colunas (atributos):

 Cada atributo (coluna) da matriz será denotada por um vetor a_i

 Exemplo:















Nn N N n n

x











2 1 2 22 21 1 12 11

X





T N x x₁₁ ₁ 1   a 14

(15)

Notação

 Matriz de Proximidade (Dissimilaridade ou Similaridade):

 N linhas e N colunas:

 Simétrica se proximidade d apresentar propriedade de simetria



























 





















N N N N N N

d

x

D

,

2 1 2 2 2 1 2 1 2 1 1 1











15

(16)

16

Proximidade



Similaridade

 Mede o quanto dois objetos são parecidos  quanto mais parecidos, maior o valor

 Geralmente valor  [0, 1] 

Dissimilaridade

 Mede o quanto dois objetos são diferentes  quanto mais diferentes, maior o valor

(17)

17

Similaridade x Dissimilaridade

 Converter dissimilaridades (d) em similaridades (s) e vice-versa é útil:

 Se ambas forem definidas em [0,1], a conversão é direta:

 s = 1 – d ou d = 1 – s (linear, não distorce os valores)

 Caso contrário, algumas alternativas são:

 se limitantes para s (s_min e s_max) ou d (d_min e d_max) forem conhecidos, podemos re-escalar em [0,1] e usar s = 1 – d (homework)

 se d  [0,], não há como evitar uma transformação não linear

 Ex: s = 1/(1 + d) ou s = ed

  constante positiva

(18)

18

Dissimilaridade e Distância



Dissimilaridades são em geral calculadas

utilizando medidas de distância



Uma medida de distância é uma medida de

dissimilaridade que apresenta um conjunto

de propriedades

(19)

Propriedades de Distâncias

 Seja d(p, q) a distância entre dois objetos p e q

 Então valem a seguintes propriedades:

 Positividade e Reflexividade:

 d(p, q)  0  p e q

 d(p, q) = 0 se, e somente se, p = q

 Simetria:

 d(p, q) = d(q, p)  p e q

 Além disso, d é dita uma métrica se também vale:

 d(p, q)  d(p, r) + d(r, q)  p, q e r (Desigualdade Triangular)  Estudar slide oculto (homework)

(20)

Desigualdade Triangular:

a

b

c

Q

a b c a 6.70 7.07 b 2.30 c

Keogh, E. A Gentle Introduction to Machine Learning and Data Mining for the Database Community, SBBD 2003, Manaus.

- Encontrar o objeto mais próximo de Q em uma base de dados formada por três objetos (a,b,c)

- Assumamos que já se disponha de algumas

distâncias entre pares de objetos: d(a,b), d(a,c), d(b,c) - Calculamos d(Q,a) = 2 e d(Q,b) = 7.81

- Não é necessário calcular explicitamente d(Q,c):

d(Q,b)  d(Q,c) + d(c,b) d(Q,b) – d(c,b)  d(Q,c)

7.81 – 2.30  d(Q,c) 5.51  d(Q,c)

 Já se pode afirmar que a está mais próximo de Q do que qualquer outro objeto da base de dados

 Veremos mais adiante no curso um possível uso desta propriedade em agrupamento de dados

(21)

Propriedades de Similaridade



As seguintes propriedades são desejáveis

e em geral são válidas para similaridades:



Seja s(p, q) a similaridade entre p e q

 s(p, q) = 1 apenas se p = q (similaridade máxima)  s(p, q) = s(q, p)  p e q (simetria)

(22)

Medidas de (Dis)similaridade:

a) Atributos contínuos b) Atributos discretos c) Atributos mistos

 Estudaremos medidas amplamente utilizadas na prática  Há uma vasta literatura sobre este assunto

 ver bibliografia

(23)

a) Atributos Contínuos

a.1) Distância Euclidiana:

• Métrica

• Tende a induzir clusters hiper-esféricos

• Clusters invariantes com rel. a translação e rotação no

espaço dos atributos (Duda et al., Pattern Classification, 2001)

• Implementações computacionais eficientes usam (dE)2 • Atributos com maiores valores e variâncias tendem a

dominar os demais... 23



     n k jk ik j i E x x d j i 1 2 ) , (x x x x ( )

(24)

Exemplo 1:

24 a₁ a₂ a₃ a₄ x₁ 1 2 5 803 x₂ 1 1 5 712 x₃ 1 1 5 792 x₄ 0 2 6 608 x₅ 0 1 5 677 x₆ 1 1 5 927 x₇ 1 1 5 412 x₈ 1 1 6 368 x₉ 1 1 6 167 x₁₀ 0 2 5 847 Média 0,70 1,30 5,30 631,30 Variância 0,23 0,23 0,23 59045,34 dE_(x 1,x2) = ?

(25)

25

y [R$] y [R$]

x [m] x [cm]

Exemplo 2:

•

Pode-se lidar com tais problemas por meio do que

usualmente se denomina normalização

(26)

Normalização

• Re-escala Linear [0,1]: • Padronização Escore z : 26 j j ij ij

x

z

a a









)

min(

)

max(

)

min(

j j j ij ij

x

l

a





N(0,1) se atributo possui dist. Normal

(27)

Normalização não é necessariamente sempre apropriada ...

escore z

(efeito semelhante para linear [0,1])

(28)

 Em Resumo:

 Atributos com escala mais ampla / maior variabilidade tendem a ter maior peso nos cálculos de distâncias

 Isso representa uma espécie de pré-ponderação implícita dos dados

 Normalização busca eliminar esse efeito, assumindo ser artificial

 p. ex., simples consequência do uso de unidades de medida específicas  porém, também impõe uma (contra) ponderação aos dados originais

 pode introduzir distorções se (ao menos parte das) diferentes variabilidades originais refletiam corretamente a natureza do problema

 Por esses e outros motivos, agrupamento de dados é

(29)

Recomendações ?

• Difícil fornecer sugestões independentes de domínio

• Everitt et al. (2001) sugerem que escores z e

normalizações lineares [0,1] não são eficazes em geral

• Lembremos que ADs envolve, em essência, análise

exploratória de dados

 Quais são os pesos mais apropriados ?

 para pesos 0 e 1  quais são os melhores atributos ?  questão remete a agrupamento em sub-espaços...

(30)

a.2) Distância de Minkowski:

• Para p = 2: Distância Euclidiana

• Para p = 1: Distância de Manhattan (city block, taxicab)  recai na Distância de Hamming para atributos binários

• Para p∞: Dist. Suprema

• (Homework) Em 2-dimensões, quais são as superfícies formadas pelos pontos equidistantes de um ponto de origem? 30 p p n k ik jk p j i p x x d j i / 1 1 ) , (             x x x x jk ik n k j i x x d j i         1 ) , (x x x x max

(31)

 a.2.1) Distância de Minkowski Normalizada:

_ijk = 0 se x_ik ou x_jk forem ausentes _ijk = 1 se x_ik e x_jk forem conhecidos

• Permite cálculos na presença de valores faltantes • Alternativa à imputação

• Qual a melhor abordagem?

• análise exploratória de dados...

p n k ijk p n k ijk ik jk p j i p x x d j i / 1 1 1 ) , (                       x x x x

(32)

Distância com Valores Ausentes

Exemplo (

Distância Euclidiana Normalizada entre x₁ e x₃

):



Exercício:

calcule todas as demais distâncias.

Obj. /Atrib. a₁ a₂ a₃ a₄

x₁ 2 -1 ? 0

x₂ 7 0 -4 8

x₃ ? 3 5 2

(33)









                 j N l T j l j l j nn n n n n j N c c c c c c c c c 1 2 1 2 22 21 1 12 11 1 v x v x Σ       

a.3) Distância de Mahalanobis:

_j = matriz de covariâncias do j-ésimo grupo de dados, com objetos x_l (l = 1, ..., N_j) e centro v_j:

33









j



i j



T j i m j i

d

₍_x _,_v ₎ 2



x



v

Σ

1

x



v



  j N l l j j N ₁ 1 x v simétrica

(34)

a.3) Distância de Mahalanobis...

34









j



i j



T j i m j i

d

₍_x _,_v ₎ 2



x



v

Σ

1

x



v



  j N l l j j N ₁ 1 x v

- Iniciemos desprezando a inversa da matriz de covariâncias, presumindo que seja Identidade

- Vetores capturam, em 2D, diferenças de valores das variáveis em dois eixos (x e y) representadas por x e y

- Lembrando que:

Temos que tais diferenças se referem àquelas entre um objeto e o vetor médio de um dado grupo de dados (cluster):

d2_{= [x y] [x y]}T _{= x}2 _{+ y}2 _{(distância Euclidiana)}

(35)









                 j N l T j l j l j nn n n n n j N c c c c c c c c c 1 2 1 2 22 21 1 12 11 1 v x v x Σ       

a.3) Distância de Mahalanobis ...

_j = matriz de covariâncias do j-ésimo grupo de dados, com objetos x_l (l = 1, ..., N_j) e centro v_j:



  j N l l j j N ₁ 1 x v

(36)

a) Pensando apenas no grupo circular (esquerda), o que esperamos encontrar na matriz?

b) Analogamente, o que esperamos para o grupo elipsoidal?

c) (Homework) Faça os cálculos para os dois grupos de dados acima.

Lembrete: queremos calcular a média de termos de forma:

(37)

Exemplo pedagógico:

37        1 . 0 0 0 1 . 0 c Σ         10 0 0 10 1 c Σ _          50 17 17 7 1 e Σ        11 . 0 27 . 0 27 . 0 80 . 0 e Σ Considere o pto. (2,1) e suas distâncias aos centros dos grupos:

dm_(2,1)

c=10

dm_(2,1)

e=29

Consideremos agora que esse ponto se mova para cima...

(38)

Exemplo pedagógico:

38        1 . 0 0 0 1 . 0 c Σ         10 0 0 10 1 c Σ _          50 17 17 7 1 e Σ        11 . 0 27 . 0 27 . 0 80 . 0 e Σ Qual é o cluster mais próximo?

(39)

Exemplo pedagógico...

39 dm_(2.0,1.5) c=12.5 dm_(2.0,1.5) e= 8.80

 Voltaremos a esse assunto quando estudarmos GK e EM  Problemas apresentados pela distância de Mahalanobis?

(40)

40

Nota:

 A distância de Mahalanobis é uma distância de um

objeto a um grupo de pontos (em particular, ao seu centro)  Se calculada entre dois objetos, assume implicitamente que um deles é o centro de um grupo com covariância _j

 Generalizações para distância entre 2 grupos são

(41)

Visão Geométrica

Distância Manhattan Distância Euclidiana atributo 2 atributo 1 Distância Suprema

 Onde se situam os pontos eqüidistantes de um vetor

vetor

(42)

a.4) Correlação Linear de Pearson

 medida de similaridade  interpretação intuitiva ? 42





















i j j i j i j i n i jk n k ik n k jk ik j i

x

n

x

n

r

x x x x x x

_x

x















  

cov(

,

)

1

1 ,

1 2 1 2 1

Pearson, K., Mathematical contributions to the theory of evolution, III Regression,

(43)

Interpretação intuitiva – agrupamento de atributos:

a₁ a₂ a₂' 0.8009 0.6000 0.6558 0.8116 0.6128 0.6128 0.8222 0.6255 0.6255 0.8228 0.6262 0.6262 0.8243 0.6280 0.6280 0.8303 0.6352 0.6352 0.8381 0.6446 0.6446 0.8411 0.6482 0.6482 0.8446 0.6523 0.6523 0.8475 0.6558 0.6000 0.5900 0.6000 0.6100 0.6200 0.6300 0.6400 0.6500 0.6600 0.7900 0.8000 0.8100 0.8200 0.8300 0.8400 0.8500 a 2 a₁ 0.5900 0.6000 0.6100 0.6200 0.6300 0.6400 0.6500 0.6600 0.7900 0.8000 0.8100 0.8200 0.8300 0.8400 0.8500 a 2 ’ a₁ (a₁ ,a₂) (a₁ ,a₂’) Pearson 1.000 -0.080

Há várias outras medidas de correlação, e.g. ver: Campello & Hruschka, On Comparing Two Sequences of Numbers and Its Applications to Clustering Analysis, Information Sciences, 2009)

(44)

Correlação

 Mede interdependência entre vetores numéricos

 Por exemplo, interdependência linear

 Pode ser portanto usada para medir similaridade

 entre 2 objetos descritos por atributos numéricos  entre 2 atributos numéricos (seleção de atributos)

 Correlação de Pearson mede a compatibilidade

linear entre as tendências dos vetores

 despreza média e variabilidade  muito útil em bioinformática

(45)

Correlação de Pearson



Cálculo do coeficiente de Pearson:

 Padronizar vetores via score-z

 Calcular produto interno

p p





)

/

(







_k k

p

q q





)

/

(







_k k

q

n

q

p

q

p

,

)









(

correlação

(46)

46

Correlação



Valor no intervalo [-1, +1]

 Correlação (p, q) = +1

 Objetos p e q têm um relacionamento linear positivo perfeito  Correlação (p, q) = –1

 Objetos p e q têm um relacionamento linear negativo perfeito  Correlação (p, q) = 0

 Não existe relacionamento linear entre os objetos p e q  Relacionamento linear: p_k = aq_k + b

(47)

Avaliação Visual de Correlação

Scatter plots para dois

objetos considerando

(48)

48

Exercício



Calcular correlação de Pearson entre os

seguintes objetos p e q

p = [1 -3 0 4 1 0 3] q = [0 1 4 -2 3 -1 4]

(49)

a.5) Cosseno

 Correlação de Pearson tende a enxergar os vetores

como sequências de valores e capturar as semelhanças de forma / tendência dessas sequências

 Não trata os valores como assimétricos  Valores nulos interferem no resultado

 Similaridade baseada no Cosseno, embora seja

matematicamente similar, possui características

diferentes: 49 j i j T i j i

x





)

,

cos(

(50)

Similaridade Cosseno

50

 Apropriada para atributos assimétricos*

 Muito utilizada em mineração de textos

 grande número de atributos, poucos não nulos (dados esparsos)

 Sejam d₁ e d₂ vetores de valores assimétricos

 cos(d₁, d₂ ) = (d₁  d₂) / ||d₁|| ||d₂||

 : produto interno entre vetores

 || d ||: é o tamanho (norma) do vetor d

 Mede o cosseno do ângulo entre os respectivos versores

(51)

Exemplo gráfico:

51 x₁ x₂ cos(x₁,x₂) = 1 x₃

cos(x₁,x₃) = cos(x₂,x₃) = 0.95 (ângulo ≈ 18o)

(52)

52

Exemplo numérico



Sejam os vetores d

₁

e d

₂

:



d

₁

= [3 2 0 5 0 0 0 2 0 0]



d

₂

= [1 0 0 0 0 0 0 1 0 2]

cos(d₁,d₂) = (d₁  d₂) / ||d₁|| ||d₂|| d₁  d₂ = 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5 ||d₁|| = (32₊₂2₊₀2₊₅2₊₀2₊₀2₊₀2₊₂2₊₀2₊₀2₎0.5 _{= (42)}0.5 _{= 6.481} ||d₂|| = (12₊₀2₊₀2₊₀2₊₀2₊₀2₊₀2₊₁2₊₀2₊₂2₎0.5_{= (6)}0.5 _{= 2.245} cos(d₁,d₂) = 0.3150

(53)

Exercícios

1) Calcular dissimilaridade entre p e q

usando medida de similaridade cosseno:

2) Assumindo que p e q são versores,

demonstre que d

_E

(p,q)

2

_{= 2d}

cos

para

d

_cos

=(1-cos)

p = [1 0 0 4 1 0 0 3] q = [0 5 0 2 3 1 0 4]

(54)

b) Atributos Discretos

Motivação:

54

Sexo País Estado Civil Comprar

x₁ M França solteiro Sim

x₂ M China separado Sim

x₃ F França solteiro Sim

x₄ F Inglaterra casado Sim

x₅ F França solteiro Não

x₆ M Alemanha viúvo Não

x₇ M Brasil casado Não

x₈ F Alemanha casado Não

x₉ M Inglaterra solteiro Não

x₁₀ M Argentina casado Não

d(x₁,x₆)=? d(x₁,x₇)=?

(55)

b.1) Atributos Binários:

 Calcular a distância entre x₁ = [1 0 0 1 1 0 0 1 0 0] e

x₂ = [0 0 0 1 0 1 1 0 0 0]  Usando uma tabela de contingências temos:

55 Objeto x_j Objeto x_i 1 0 Total 1 n₁₁ n₁₀ n₁₁+n₁₀ 0 n₀₁ n₀₀ n₀₁+n₀₀ Total n₁₁+n₀₁ n₁₀+n₀₀ n n n n n n n n n n SSM j i 00 11 01 10 00 11 00 11 ) , (        x x

Coeficiente de Casamento Simples (Zubin, 1938)

n

d

n

S

i j j i SM Hamming ) , ( 01 10 ) , (

1 

_x _x







x x (Hamming, 1950)

(56)

Entretanto, podemos ter:

 Atributos simétricos: valores igualmente importantes  Exemplo típico  Sexo (M ou F)

 Atributos assimétricos: valores com importâncias distintas – presença de um efeito é mais importante do que sua ausência

Exemplo: sejam 3 objetos que apresentam (1) ou não (0) dez sintomas para uma determinada doença

x₁ = [1 0 0 1 1 0 0 1 0 1] x₂ = [1 0 1 1 0 1 1 1 0 0] x₃ = [0 0 0 0 0 0 0 0 0 0] 56 SSM_(x 1,x2) = 0.5; SSM_(x 1,x3) = 0.5;  Conclusão?

(57)



Para atributos assimétricos, pode-se usar, por

exemplo, o

Coeficiente de Jaccard

(1908):

 Focada nos casamentos do tipo 1-1  Despreza casamentos do tipo 0-0



Existem outras medidas similares na literatura,

mas CCS e Jaccard são as mais utilizadas

 Ver Kaufman & Rousseeuw, Finding Groups in Data: An Introduction to Cluster Analysis, Wiley, 2005.

57 01 10 11 11 ) , (

n

S

Jaccard j i x





x

(58)

58

Outro Exemplo

p = [1 0 0 0 0 0 0 0 0 0] q = [0 0 0 0 0 0 1 0 0 1]

n₀₁ = 2 (número de atributos em que p = 0 e q = 1) n₁₀ = 1 (número de atributos em que p = 1 e q = 0) n₀₀ = 7 (número de atributos em que p = 0 e q = 0) n₁₁ = 0 (número de atributos em que p = 1 e q = 1)

CCS = (n₁₁ + n₀₀)/(n₀₁ + n₁₀ + n₁₁ + n₀₀) = (0+7) / (2+1+0+7) = 0.7

(59)

Exercício



Calcular disssimilaridade entre p e q

usando coeficientes:



Casamento Simples



Jaccard

p = [1 0 0 1 1 0 1 0 1 1 1 0] q = [0 1 0 0 1 1 0 0 1 0 1 1]

(60)

b.2) Atributos Nominais (não binários)

 Pode-se usar uma Codificação 1-de-n

o Exemplo:

o Estado civil  {solteiro, casado, divorciado, viúvo}:

o Criar 4 atributos binários: solteiro  {0,1}, ... , viúvo  {0,1}

 Tratar como atributos assimétricos

 Pode introduzir um número elevado de atributos

(61)

b.3) Atributos Ordinais

Ex.: Gravidade de um efeito: {nula, baixa, média, alta} - Ordem dos valores é importante

- Normalizar e então utilizar medidas de (dis)similaridade para valores contínuos (p. ex. Euclidiana, cosseno, etc):

- {1, 2, 3, 4}  (rank – 1) / (número de valores – 1) - {0, 1/3, 2/3, 1}

 Abordagem comum

(62)

c) Atributos Mistos (

Contínuos e Discretos

)

Método de Gower (1971): 62





n k ijk

s

n

s

j i 1 ) , (

1

x x k jk ik ijk x x / R s  1           ; s ) x x ( ; s ) x x ( ijk jk ik ijk jk ik 0 1

Para atributos nominais / binários:

Para atributos ordinais ou contínuos:

R_k= faixa de observações do k-ésimo atributo (termo de normalização)

) , ( ) , ( _i _j

1 S

_i _j

d

_x _x





_x _x mk m mk m k

R



max

x



min

x

(63)

General Approach for Combining Similarities

l

Sometimes attributes are of many different

types, but an overall similarity is needed

(64)

Sumário:

 Medidas de dis(similaridade) mais populares foram descritas, mas há várias outras na bibliografia

 Diferentes medidas de dis(similaridade) afetam a

formação (indução) dos clusters

• Como selecionar a medida de (dis)similaridade? • Devemos padronizar? Caso afirmativo, como?  Infelizmente, não há respostas definitivas e globais

 Análise de agrupamento de dados é, em essência,

um processo subjetivo, dependente do problema

 Lembrem: análise exploratória de dados!

(65)

Algumas Questões Complementares...

Suponha que já se conheça um conjunto de pontos que pertençam a um grupo G₁ e que se considere esses pontos como mais ou menos próximos ao grupo como um todo segundo alguma medida de distância a partir do seu centro

Questão: Dado que a distância de um novo ponto (até

então desconhecido) para o centro de G₁ é, digamos, d=5, o quão próximo de G₁ é de fato este ponto ?

 A quantificação (d=5) é absoluta, mas a interpretação é relativa  Teoria de Probabilidades pode ajudar

(66)

A discussão anterior remete a uma questão fundamental quando se lida com diferentes medidas, índices, critérios para quantificar um determinado evento

Questão: Como interpretar um dado valor medido ?

Note que 0.9, por exemplo, não é necessariamente um valor significativamente alto de uma medida c/ escala 0 a 1 Depende de distribuições de probabilidade !

 Precisamos de uma distribuição de referência para avaliar a magnitude do valor da medida

(67)

 Por hora, para fins do nosso exemplo simples, a distribuição de ref. pode ser a da distância “d” de interesse

 de pontos gerados pelo fenômeno descrito por G₁ ao seu centro

 Suponha hipoteticamente que se conheça essa distribuição:

 p. ex. normal com média  e desvio padrão , ou seja, N(,)

 Fazendo a padronização escore-z tem-se N(0,1)

 z = (d – ) / 

 Suponha mais uma vez hipoteticamente que a média e

desvio sejam tais que nossa medida d = 5 implica z = 1,96  O que poderíamos concluir...?

(68)

 Poderíamos concluir que a probabilidade de se observar

um valor de distância d < 5 para um ponto de G₁ é 97,5%

 Isso pode sugerir que:

 um novo ponto observado com d = 5 não foi gerado pelo mesmo fenômeno descrito por G₁, ou

 esse ponto é um evento relativamente raro de G₁

 Mas... e se não conhecemos a distribuição ? ₆₈

(69)

 Se não conhecemos, podemos tentar estimar...

 No caso do nosso exemplo simples, podemos montar um

histograma das distâncias dos pontos conhecidos de G₁

 Aprofundaremos essas questões mais adiante no curso... Dados (100 pontos 2D) _{Histograma (10 bins) – Dist. Euclidiana}

(70)

Principais referências usadas para preparar essa aula:

• Xu, R., Wunsch, D., Clustering, IEEE Press, 2009  Capítulos 1 e 2, pp. 1-30

• Jain, A. K., Dubes, R. C., Algorithms for Clustering Data, Prentice Hall, 1988

 Capítulos 1 e 2, pp. 1-25

• Gan, G., Ma, C., Wu, J., Data Clustering: Theory, Algorithms, and Applications, SIAM Series on Statistics and Applied Probability, 2007

 Capítulos 1 e 2, pp. 1-24

• Kaufman, L., Rousseeuw, P. J., Finding Groups in Data: An Introduction to Cluster Analysis, 2a Edição, Wiley, 2005

 Capítulo 1, seção 2

(71)

Outras Referências

 Everitt, B. S., Landau, S., Leese, M., Cluster Analysis, Hodder

Arnold Publication, 2001

 P.-N. Tan, Steinbach, M., and Kumar, V., Introduction to Data

Mining, Addison-Wesley, 2006

 Duda, R. O., Hart, P. E., and Stork, D. G., Pattern Classification,

2nd Edition, Wiley, 2001