• Nenhum resultado encontrado

Agrupamento de Dados e Aplicações

N/A
N/A
Protected

Academic year: 2021

Share "Agrupamento de Dados e Aplicações"

Copied!
71
0
0

Texto

(1)

Agrupamento de Dados e

Aplicações

Representação de Dados e

Medidas de Proximidade

(2)

2

Créditos

 O material a seguir consiste de adaptações e

extensões dos originais:

 Elaborados por Eduardo Hruschka e Ricardo Campello  de (Tan et al., 2006)

 de E. Keogh (SBBD 2003)

(3)

Agenda

Motivação

Tipos e Escalas de Dados

Normalizações

Medidas de Proximidade

Similaridade

Dissimilaridade

(4)

Agrupamento de Dados (

Clustering

)

- Aprendizado não supervisionado

- Encontrar grupos “naturais” de objetos

0 20 40 60 80 100 120 140 160 180 0 50 100 150

(5)

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 ‹nº›

Noção de grupo pode ser ambígua

Quantos grupos (clusters)?

Quatro grupos Dois grupos

(6)

Visualizando Clusters

Sistema visual humano é muito poderoso para

reconhecer padrões

Entretanto...

 “Humans are good at discerning subtle patterns that

are really there, but equally so at imagining them when they are altogether absent” (Carl Sagan)

 Everitt et al., Cluster Analysis, Chapter 2 (Visualizing

Clusters), Fourth Edition, Arnold, 2001

(7)

Definindo o que é um Cluster

Conceitualmente, definições são subjetivas:

 Homogeneidade (coesão interna)...  Heterogeneidade (separação)...

 Densidade (concentração)...

É preciso formalizar matematicamente

Existem diversas medidas

 Cada uma induz (impõe) uma estrutura aos dados

(8)

Medidas de (Dis)Similaridade

8

Existem diversas medidas de (dis)similaridade, para

diferentes contextos de aplicação

Cada uma presume que os objetos são descritos

por atributos de uma determinada natureza

 qualitativos, quantitativos, misturas, textos

Para discuti-las precisamos antes falar um pouco

(9)

Reconhecer o tipo e a escala dos dados nos

ajuda a escolher o algoritmo de agrupamento:

Tipo de dados: no presente contexto,

refere-se ao grau de quantização dos dados

 Atributo Binário:

 2 valores

 Atributo Discreto:

 valores enumeráveis

binário é caso particular

 Atributo Contínuo:

 valores numéricos reais

(10)

 Podemos tratar qualquer atributo como assumindo valores na forma de números, em algum tipo de escala

Escala de dados: indica a significância relativa dos números (nominal, ordinal, intervalar e taxa)

Escala Qualitativa:

Nominal: números usados como nomes; p. ex.

 {M, F} = {0, 1}

 {Solteiro, Casado, Separado, Viúvo} = {0, 1, 2, 3}

Ordinal: números possuem apenas informação sobre a ordem relativa:

 {ruim, médio, bom} = {1, 2, 3} = {10, 20, 30} = {1, 20, 300}  {frio, morno, quente} = {1, 2, 3}

10

(11)

Escala Quantitativa:

Intervalar:

 Interpretação dos números depende de uma unidade de medida, cujo zero é arbitrário

 Exemplos:

 26ºC = 78F não é 2 vezes mais quente do que 13ºC (55F)  400D.C. não é 2x mais tempo histórico do que 200D.C.

Razão:

 Interpretação não depende de qualquer unidade  Exemplo:

(12)

Medidas de (Dis)similaridade

12

A escolha da medida de dis(similaridade) é

importante para aplicações, e a melhor escolha é

frequentemente obtida via uma combinação de

experiência, habilidade, conhecimento e sorte

...”

Gan, G., Ma, C., Wu, J., Data Clustering: Theory, Algorithms, and

(13)

Notação

Matriz de Dados X:

N linhas (objetos) e n colunas (atributos):

Cada objeto (linha da matriz) é denotado por um vetor xi

 Exemplo:

Nn N N n n

x

x

x

x

x

x

x

x

x

2 1 2 22 21 1 12 11

X

x11 x1n

1   x 13

(14)

Notação

Matriz de Dados X:

N linhas (objetos) e n colunas (atributos):

Cada atributo (coluna) da matriz será denotada por um vetor ai

 Exemplo:

Nn N N n n

x

x

x

x

x

x

x

x

x

2 1 2 22 21 1 12 11

X

T N x x11 1 1   a 14

(15)

Notação

Matriz de Proximidade (Dissimilaridade ou Similaridade):

N linhas e N colunas:

Simétrica se proximidade d apresentar propriedade de simetria

 

N N N N N N

d

d

d

d

d

d

d

d

d

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

D

,

,

,

,

,

,

,

,

,

2 1 2 2 2 1 2 1 2 1 1 1

15

(16)

16

Proximidade

Similaridade

 Mede o quanto dois objetos são parecidos  quanto mais parecidos, maior o valor

 Geralmente valor  [0, 1] 

Dissimilaridade

 Mede o quanto dois objetos são diferentes  quanto mais diferentes, maior o valor

(17)

17

Similaridade x Dissimilaridade

Converter dissimilaridades (d) em similaridades (s) e vice-versa é útil:

 Se ambas forem definidas em [0,1], a conversão é direta:

s = 1 – d ou d = 1 – s (linear, não distorce os valores)

 Caso contrário, algumas alternativas são:

se limitantes para s (smin e smax) ou d (dmin e dmax) forem conhecidos, podemos re-escalar em [0,1] e usar s = 1 – d (homework)

se d  [0,], não há como evitar uma transformação não linear

Ex: s = 1/(1 + d) ou s = ed

  constante positiva

(18)

18

Dissimilaridade e Distância

Dissimilaridades são em geral calculadas

utilizando medidas de distância

Uma medida de distância é uma medida de

dissimilaridade que apresenta um conjunto

de propriedades

(19)

Propriedades de Distâncias

Seja d(p, q) a distância entre dois objetos p e q

 Então valem a seguintes propriedades:

Positividade e Reflexividade:

 d(p, q)  0  p e q

 d(p, q) = 0 se, e somente se, p = q

Simetria:

 d(p, q) = d(q, p)  p e q

Além disso, d é dita uma métrica se também vale:

 d(p, q)  d(p, r) + d(r, q)  p, q e r (Desigualdade Triangular)  Estudar slide oculto (homework)

(20)

Desigualdade Triangular:

a

b

c

Q

a b c a 6.70 7.07 b 2.30 c

Keogh, E. A Gentle Introduction to Machine Learning and Data Mining for the Database Community, SBBD 2003, Manaus.

- Encontrar o objeto mais próximo de Q em uma base de dados formada por três objetos (a,b,c)

- Assumamos que já se disponha de algumas

distâncias entre pares de objetos: d(a,b), d(a,c), d(b,c) - Calculamos d(Q,a) = 2 e d(Q,b) = 7.81

- Não é necessário calcular explicitamente d(Q,c):

d(Q,b)  d(Q,c) + d(c,b) d(Q,b) – d(c,b)  d(Q,c)

7.81 – 2.30  d(Q,c) 5.51  d(Q,c)

Já se pode afirmar que a está mais próximo de Q do que qualquer outro objeto da base de dados

 Veremos mais adiante no curso um possível uso desta propriedade em agrupamento de dados

(21)

Propriedades de Similaridade

As seguintes propriedades são desejáveis

e em geral são válidas para similaridades:

Seja s(p, q) a similaridade entre p e q

 s(p, q) = 1 apenas se p = q (similaridade máxima)  s(p, q) = s(q, p)  p e q (simetria)

(22)

Medidas de (Dis)similaridade:

a) Atributos contínuos b) Atributos discretos c) Atributos mistos

 Estudaremos medidas amplamente utilizadas na prática  Há uma vasta literatura sobre este assunto

 ver bibliografia

(23)

a) Atributos Contínuos

a.1) Distância Euclidiana:

• Métrica

• Tende a induzir clusters hiper-esféricos

• Clusters invariantes com rel. a translação e rotação no

espaço dos atributos (Duda et al., Pattern Classification, 2001)

• Implementações computacionais eficientes usam (dE)2 • Atributos com maiores valores e variâncias tendem a

dominar os demais... 23

     n k jk ik j i E x x d j i 1 2 ) , (x x x x ( )

(24)

Exemplo 1:

24 a1 a2 a3 a4 x1 1 2 5 803 x2 1 1 5 712 x3 1 1 5 792 x4 0 2 6 608 x5 0 1 5 677 x6 1 1 5 927 x7 1 1 5 412 x8 1 1 6 368 x9 1 1 6 167 x10 0 2 5 847 Média 0,70 1,30 5,30 631,30 Variância 0,23 0,23 0,23 59045,34 dE(x 1,x2) = ?

(25)

25

y [R$] y [R$]

x [m] x [cm]

Exemplo 2:

Pode-se lidar com tais problemas por meio do que

usualmente se denomina normalização

(26)

Normalização

• Re-escala Linear [0,1]: • Padronização Escore z : 26 j j ij ij

x

z

a a

)

min(

)

max(

)

min(

j j j ij ij

x

l

a

a

a

Triola, Notas de Aula, Copyright © 2004 Pearson Education

N(0,1) se atributo possui dist. Normal

(27)

Normalização não é necessariamente sempre apropriada ...

escore z

(efeito semelhante para linear [0,1])

(28)

Em Resumo:

 Atributos com escala mais ampla / maior variabilidade tendem a ter maior peso nos cálculos de distâncias

Isso representa uma espécie de pré-ponderação implícita dos dados

 Normalização busca eliminar esse efeito, assumindo ser artificial

 p. ex., simples consequência do uso de unidades de medida específicas  porém, também impõe uma (contra) ponderação aos dados originais

 pode introduzir distorções se (ao menos parte das) diferentes variabilidades originais refletiam corretamente a natureza do problema

 Por esses e outros motivos, agrupamento de dados é

(29)

Recomendações ?

• Difícil fornecer sugestões independentes de domínio

• Everitt et al. (2001) sugerem que escores z e

normalizações lineares [0,1] não são eficazes em geral

• Lembremos que ADs envolve, em essência, análise

exploratória de dados

 Quais são os pesos mais apropriados ?

 para pesos 0 e 1  quais são os melhores atributos ?  questão remete a agrupamento em sub-espaços...

(30)

a.2) Distância de Minkowski:

• Para p = 2: Distância Euclidiana

• Para p = 1: Distância de Manhattan (city block, taxicab)  recai na Distância de Hamming para atributos binários

• Para p∞: Dist. Suprema

• (Homework) Em 2-dimensões, quais são as superfícies formadas pelos pontos equidistantes de um ponto de origem? 30 p p n k ik jk p j i p x x d j i / 1 1 ) , (             x x x x jk ik n k j i x x d j i         1 ) , (x x x x max

(31)

a.2.1) Distância de Minkowski Normalizada:

ijk = 0 se xik ou xjk forem ausentes ijk = 1 se xik e xjk forem conhecidos

• Permite cálculos na presença de valores faltantes • Alternativa à imputação

• Qual a melhor abordagem?

• análise exploratória de dados...

p n k ijk p n k ijk ik jk p j i p x x d j i / 1 1 1 ) , (                       x x x x

(32)

Distância com Valores Ausentes

Exemplo (

Distância Euclidiana Normalizada entre x1 e x3

):

Exercício:

calcule todas as demais distâncias.

Obj. /Atrib. a1 a2 a3 a4

x1 2 -1 ? 0

x2 7 0 -4 8

x3 ? 3 5 2

(33)



                 j N l T j l j l j nn n n n n j N c c c c c c c c c 1 2 1 2 22 21 1 12 11 1 v x v x Σ       

a.3) Distância de Mahalanobis:

j = matriz de covariâncias do j-ésimo grupo de dados, com objetos xl (l = 1, ..., Nj) e centro vj:

33

j

i j

T j i m j i

d

(x ,v ) 2

x

v

Σ

1

x

v

  j N l l j j N 1 1 x v simétrica

(34)

a.3) Distância de Mahalanobis...

34

j

i j

T j i m j i

d

(x ,v ) 2

x

v

Σ

1

x

v

  j N l l j j N 1 1 x v

- Iniciemos desprezando a inversa da matriz de covariâncias, presumindo que seja Identidade

- Vetores capturam, em 2D, diferenças de valores das variáveis em dois eixos (x e y) representadas por x e y

- Lembrando que:

Temos que tais diferenças se referem àquelas entre um objeto e o vetor médio de um dado grupo de dados (cluster):

d2= [x y] [x y]T = x2 + y2 (distância Euclidiana)

(35)



                 j N l T j l j l j nn n n n n j N c c c c c c c c c 1 2 1 2 22 21 1 12 11 1 v x v x Σ       

a.3) Distância de Mahalanobis ...

j = matriz de covariâncias do j-ésimo grupo de dados, com objetos xl (l = 1, ..., Nj) e centro vj:

  j N l l j j N 1 1 x v

(36)

a) Pensando apenas no grupo circular (esquerda), o que esperamos encontrar na matriz?

b) Analogamente, o que esperamos para o grupo elipsoidal?

c) (Homework) Faça os cálculos para os dois grupos de dados acima.

Lembrete: queremos calcular a média de termos de forma:

(37)

Exemplo pedagógico:

37        1 . 0 0 0 1 . 0 c Σ         10 0 0 10 1 c Σ          50 17 17 7 1 e Σ        11 . 0 27 . 0 27 . 0 80 . 0 e Σ Considere o pto. (2,1) e suas distâncias aos centros dos grupos:

dm(2,1)

c=10

dm(2,1)

e=29

Consideremos agora que esse ponto se mova para cima...

(38)

Exemplo pedagógico:

38        1 . 0 0 0 1 . 0 c Σ         10 0 0 10 1 c Σ          50 17 17 7 1 e Σ        11 . 0 27 . 0 27 . 0 80 . 0 e Σ Qual é o cluster mais próximo?

(39)

Exemplo pedagógico...

39 dm(2.0,1.5) c=12.5 dm(2.0,1.5) e= 8.80

 Voltaremos a esse assunto quando estudarmos GK e EM  Problemas apresentados pela distância de Mahalanobis?

(40)

40

Nota:

 A distância de Mahalanobis é uma distância de um

objeto a um grupo de pontos (em particular, ao seu centro)  Se calculada entre dois objetos, assume implicitamente que um deles é o centro de um grupo com covariância j

 Generalizações para distância entre 2 grupos são

(41)

Visão Geométrica

Distância Manhattan Distância Euclidiana atributo 2 atributo 1 Distância Suprema

 Onde se situam os pontos eqüidistantes de um vetor

vetor

(42)

a.4) Correlação Linear de Pearson

 medida de similaridade  interpretação intuitiva ? 42

i j j i j i j i n i jk n k ik n k jk ik j i

x

x

n

x

x

n

r

x x x x x x

x

x

x

x

  

cov(

,

)

1

1

,

1 2 1 2 1

Pearson, K., Mathematical contributions to the theory of evolution, III Regression,

(43)

Interpretação intuitiva – agrupamento de atributos:

a1 a2 a2' 0.8009 0.6000 0.6558 0.8116 0.6128 0.6128 0.8222 0.6255 0.6255 0.8228 0.6262 0.6262 0.8243 0.6280 0.6280 0.8303 0.6352 0.6352 0.8381 0.6446 0.6446 0.8411 0.6482 0.6482 0.8446 0.6523 0.6523 0.8475 0.6558 0.6000 0.5900 0.6000 0.6100 0.6200 0.6300 0.6400 0.6500 0.6600 0.7900 0.8000 0.8100 0.8200 0.8300 0.8400 0.8500 a 2 a1 0.5900 0.6000 0.6100 0.6200 0.6300 0.6400 0.6500 0.6600 0.7900 0.8000 0.8100 0.8200 0.8300 0.8400 0.8500 a 2 ’ a1 (a1 ,a2) (a1 ,a2’) Pearson 1.000 -0.080

Há várias outras medidas de correlação, e.g. ver: Campello & Hruschka, On Comparing Two Sequences of Numbers and Its Applications to Clustering Analysis, Information Sciences, 2009)

(44)

Correlação

 Mede interdependência entre vetores numéricos

 Por exemplo, interdependência linear

 Pode ser portanto usada para medir similaridade

 entre 2 objetos descritos por atributos numéricos  entre 2 atributos numéricos (seleção de atributos)

Correlação de Pearson mede a compatibilidade

linear entre as tendências dos vetores

 despreza média e variabilidade  muito útil em bioinformática

(45)

Correlação de Pearson

Cálculo do coeficiente de Pearson:

 Padronizar vetores via score-z

 Calcular produto interno

p p

)

/

(

k k

p

p

q q

)

/

(

k k

q

q

n

q

p

q

p

,

)

(

correlação

(46)

46

Correlação

Valor no intervalo [-1, +1]

Correlação (p, q) = +1

 Objetos p e q têm um relacionamento linear positivo perfeito  Correlação (p, q) = –1

 Objetos p e q têm um relacionamento linear negativo perfeito  Correlação (p, q) = 0

 Não existe relacionamento linear entre os objetos p e q  Relacionamento linear: pk = aqk + b

(47)

Avaliação Visual de Correlação

Scatter plots para dois

objetos considerando

(48)

48

Exercício

Calcular correlação de Pearson entre os

seguintes objetos p e q

p = [1 -3 0 4 1 0 3] q = [0 1 4 -2 3 -1 4]

(49)

a.5) Cosseno

 Correlação de Pearson tende a enxergar os vetores

como sequências de valores e capturar as semelhanças de forma / tendência dessas sequências

 Não trata os valores como assimétricos  Valores nulos interferem no resultado

Similaridade baseada no Cosseno, embora seja

matematicamente similar, possui características

diferentes: 49 j i j T i j i

x

x

x

x

x

x

)

,

cos(

(50)

Similaridade Cosseno

50

Apropriada para atributos assimétricos*

 Muito utilizada em mineração de textos

 grande número de atributos, poucos não nulos (dados esparsos)

Sejam d1 e d2 vetores de valores assimétricos

cos(d1, d2 ) = (d1  d2) / ||d1|| ||d2||

 : produto interno entre vetores

|| d ||: é o tamanho (norma) do vetor d

 Mede o cosseno do ângulo entre os respectivos versores

(51)

Exemplo gráfico:

51 x1 x2 cos(x1,x2) = 1 x3

cos(x1,x3) = cos(x2,x3) = 0.95 (ângulo ≈ 18o)

(52)

52

Exemplo numérico

Sejam os vetores d

1

e d

2

:

d

1

= [3 2 0 5 0 0 0 2 0 0]

d

2

= [1 0 0 0 0 0 0 1 0 2]

cos(d1,d2) = (d1  d2) / ||d1|| ||d2|| d1  d2 = 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5 ||d1|| = (32+22+02+52+02+02+02+22+02+02)0.5 = (42)0.5 = 6.481 ||d2|| = (12+02+02+02+02+02+02+12+02+22)0.5= (6)0.5 = 2.245 cos(d1,d2) = 0.3150

(53)

Exercícios

1) Calcular dissimilaridade entre p e q

usando medida de similaridade cosseno:

2) Assumindo que p e q são versores,

demonstre que d

E

(p,q)

2

= 2d

cos

para

d

cos

=(1-cos)

p = [1 0 0 4 1 0 0 3] q = [0 5 0 2 3 1 0 4]

(54)

b) Atributos Discretos

Motivação:

54

Sexo País Estado Civil Comprar

x1 M França solteiro Sim

x2 M China separado Sim

x3 F França solteiro Sim

x4 F Inglaterra casado Sim

x5 F França solteiro Não

x6 M Alemanha viúvo Não

x7 M Brasil casado Não

x8 F Alemanha casado Não

x9 M Inglaterra solteiro Não

x10 M Argentina casado Não

d(x1,x6)=? d(x1,x7)=?

(55)

b.1) Atributos Binários:

Calcular a distância entre x1 = [1 0 0 1 1 0 0 1 0 0] e

x2 = [0 0 0 1 0 1 1 0 0 0]  Usando uma tabela de contingências temos:

55 Objeto xj Objeto xi 1 0 Total 1 n11 n10 n11+n10 0 n01 n00 n01+n00 Total n11+n01 n10+n00 n n n n n n n n n n SSM j i 00 11 01 10 00 11 00 11 ) , (        x x

Coeficiente de Casamento Simples (Zubin, 1938)

n

d

n

n

n

S

i j j i SM Hamming ) , ( 01 10 ) , (

1

x x

x x (Hamming, 1950)

(56)

Entretanto, podemos ter:

Atributos simétricos: valores igualmente importantes  Exemplo típico  Sexo (M ou F)

Atributos assimétricos: valores com importâncias distintas – presença de um efeito é mais importante do que sua ausência

Exemplo: sejam 3 objetos que apresentam (1) ou não (0) dez sintomas para uma determinada doença

x1 = [1 0 0 1 1 0 0 1 0 1] x2 = [1 0 1 1 0 1 1 1 0 0] x3 = [0 0 0 0 0 0 0 0 0 0] 56 SSM(x 1,x2) = 0.5; SSM(x 1,x3) = 0.5;  Conclusão?

(57)

Para atributos assimétricos, pode-se usar, por

exemplo, o

Coeficiente de Jaccard

(1908):

 Focada nos casamentos do tipo 1-1  Despreza casamentos do tipo 0-0

Existem outras medidas similares na literatura,

mas CCS e Jaccard são as mais utilizadas

 Ver Kaufman & Rousseeuw, Finding Groups in Data: An Introduction to Cluster Analysis, Wiley, 2005.

57 01 10 11 11 ) , (

n

n

n

n

S

Jaccard j i x

x

(58)

58

Outro Exemplo

p = [1 0 0 0 0 0 0 0 0 0] q = [0 0 0 0 0 0 1 0 0 1]

n01 = 2 (número de atributos em que p = 0 e q = 1) n10 = 1 (número de atributos em que p = 1 e q = 0) n00 = 7 (número de atributos em que p = 0 e q = 0) n11 = 0 (número de atributos em que p = 1 e q = 1)

CCS = (n11 + n00)/(n01 + n10 + n11 + n00) = (0+7) / (2+1+0+7) = 0.7

(59)

Exercício

Calcular disssimilaridade entre p e q

usando coeficientes:

Casamento Simples

Jaccard

p = [1 0 0 1 1 0 1 0 1 1 1 0] q = [0 1 0 0 1 1 0 0 1 0 1 1]

(60)

b.2) Atributos Nominais (não binários)

Pode-se usar uma Codificação 1-de-n

o Exemplo:

o Estado civil  {solteiro, casado, divorciado, viúvo}:

o Criar 4 atributos binários: solteiro  {0,1}, ... , viúvo  {0,1}

 Tratar como atributos assimétricos

 Pode introduzir um número elevado de atributos

(61)

b.3) Atributos Ordinais

Ex.: Gravidade de um efeito: {nula, baixa, média, alta} - Ordem dos valores é importante

- Normalizar e então utilizar medidas de (dis)similaridade para valores contínuos (p. ex. Euclidiana, cosseno, etc):

- {1, 2, 3, 4}  (rank – 1) / (número de valores – 1) - {0, 1/3, 2/3, 1}

 Abordagem comum

(62)

c) Atributos Mistos (

Contínuos e Discretos

)

Método de Gower (1971): 62

n k ijk

s

n

s

j i 1 ) , (

1

x x k jk ik ijk x x / R s  1           ; s ) x x ( ; s ) x x ( ijk jk ik ijk jk ik 0 1

Para atributos nominais / binários:

Para atributos ordinais ou contínuos:

Rk= faixa de observações do k-ésimo atributo (termo de normalização)

) , ( ) , ( i j

1

S

i j

d

x x

x x mk m mk m k

R

max

x

min

x

(63)

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 ‹nº›

General Approach for Combining Similarities

l

Sometimes attributes are of many different

types, but an overall similarity is needed

(64)

Sumário:

 Medidas de dis(similaridade) mais populares foram descritas, mas há várias outras na bibliografia

 Diferentes medidas de dis(similaridade) afetam a

formação (indução) dos clusters

• Como selecionar a medida de (dis)similaridade? • Devemos padronizar? Caso afirmativo, como?  Infelizmente, não há respostas definitivas e globais

 Análise de agrupamento de dados é, em essência,

um processo subjetivo, dependente do problema

Lembrem: análise exploratória de dados!

(65)

Algumas Questões Complementares...

Suponha que já se conheça um conjunto de pontos que pertençam a um grupo G1 e que se considere esses pontos como mais ou menos próximos ao grupo como um todo segundo alguma medida de distância a partir do seu centro

Questão: Dado que a distância de um novo ponto (até

então desconhecido) para o centro de G1 é, digamos, d=5, o quão próximo de G1 é de fato este ponto ?

 A quantificação (d=5) é absoluta, mas a interpretação é relativa  Teoria de Probabilidades pode ajudar

(66)

A discussão anterior remete a uma questão fundamental quando se lida com diferentes medidas, índices, critérios para quantificar um determinado evento

Questão: Como interpretar um dado valor medido ?

Note que 0.9, por exemplo, não é necessariamente um valor significativamente alto de uma medida c/ escala 0 a 1 Depende de distribuições de probabilidade !

 Precisamos de uma distribuição de referência para avaliar a magnitude do valor da medida

(67)

 Por hora, para fins do nosso exemplo simples, a distribuição de ref. pode ser a da distância “d” de interesse

 de pontos gerados pelo fenômeno descrito por G1 ao seu centro

 Suponha hipoteticamente que se conheça essa distribuição:

 p. ex. normal com média  e desvio padrão , ou seja, N(,)

 Fazendo a padronização escore-z tem-se N(0,1)

 z = (d – ) / 

 Suponha mais uma vez hipoteticamente que a média e

desvio sejam tais que nossa medida d = 5 implica z = 1,96  O que poderíamos concluir...?

(68)

 Poderíamos concluir que a probabilidade de se observar

um valor de distância d < 5 para um ponto de G1 é 97,5%

 Isso pode sugerir que:

 um novo ponto observado com d = 5 não foi gerado pelo mesmo fenômeno descrito por G1, ou

 esse ponto é um evento relativamente raro de G1

 Mas... e se não conhecemos a distribuição ? 68

(69)

 Se não conhecemos, podemos tentar estimar...

 No caso do nosso exemplo simples, podemos montar um

histograma das distâncias dos pontos conhecidos de G1

 Aprofundaremos essas questões mais adiante no curso... Dados (100 pontos 2D) Histograma (10 bins) – Dist. Euclidiana

(70)

Principais referências usadas para preparar essa aula:

Xu, R., Wunsch, D., Clustering, IEEE Press, 2009  Capítulos 1 e 2, pp. 1-30

• Jain, A. K., Dubes, R. C., Algorithms for Clustering Data, Prentice Hall, 1988

 Capítulos 1 e 2, pp. 1-25

• Gan, G., Ma, C., Wu, J., Data Clustering: Theory, Algorithms, and Applications, SIAM Series on Statistics and Applied Probability, 2007

 Capítulos 1 e 2, pp. 1-24

• Kaufman, L., Rousseeuw, P. J., Finding Groups in Data: An Introduction to Cluster Analysis, 2a Edição, Wiley, 2005

 Capítulo 1, seção 2

(71)

Outras Referências

 Everitt, B. S., Landau, S., Leese, M., Cluster Analysis, Hodder

Arnold Publication, 2001

 P.-N. Tan, Steinbach, M., and Kumar, V., Introduction to Data

Mining, Addison-Wesley, 2006

 Duda, R. O., Hart, P. E., and Stork, D. G., Pattern Classification,

2nd Edition, Wiley, 2001

Referências

Documentos relacionados

Este presente artigo é o resultado de um estudo de caso que buscou apresentar o surgimento da atividade turística dentro da favela de Paraisópolis, uma

Changes in the gut microbiota appears to be a key element in the pathogenesis of hepatic and gastrointestinal disorders, including non-alcoholic fatty liver disease, alcoholic

As principais indicações para a realização foram a suspeita de tuberculose (458 pacientes) e uso de imunobiológicos (380 pacientes).. A maior prevalência de resultado positivo

Apesar de o mercado acionário brasileiro ter se tornado mais importante para a economia brasileira, sobretudo entre o período de 2002 para 2005 (Tabela 3), sua repre- sentatividade

Membro_Faculdade (Matrícula: Inteiro, Nome: string[50], Carga: Inteiro, IniContrato: data, Curso: string[30], professor: booleano, aluno: booleano). Membro

Estes resultados apontam para melhor capacidade de estabelecimento inicial do siratro, apresentando maior velocidade de emergência e percentual de cobertura do solo até os 60

Entendendo, então, como posto acima, propõe-se, com este trabalho, primeiramente estudar a Lei de Busca e Apreensão para dá-la a conhecer da melhor forma, fazendo o mesmo com o

A variação do pH da fase móvel, utilizando uma coluna C8 e o fluxo de 1,2 mL/min, permitiu o ajuste do tempo de retenção do lupeol em aproximadamente 6,2 minutos contribuindo para