Agrupamento de Dados e
Aplicações
Representação de Dados e
Medidas de Proximidade
2
Créditos
O material a seguir consiste de adaptações e
extensões dos originais:
Elaborados por Eduardo Hruschka e Ricardo Campello de (Tan et al., 2006)
de E. Keogh (SBBD 2003)
Agenda
Motivação
Tipos e Escalas de Dados
Normalizações
Medidas de Proximidade
Similaridade
Dissimilaridade
Agrupamento de Dados (
Clustering
)
- Aprendizado não supervisionado
- Encontrar grupos “naturais” de objetos
0 20 40 60 80 100 120 140 160 180 0 50 100 150
© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 ‹nº›
Noção de grupo pode ser ambígua
Quantos grupos (clusters)?
Quatro grupos Dois grupos
Visualizando Clusters
Sistema visual humano é muito poderoso para
reconhecer padrões
Entretanto...
“Humans are good at discerning subtle patterns that
are really there, but equally so at imagining them when they are altogether absent” (Carl Sagan)
Everitt et al., Cluster Analysis, Chapter 2 (Visualizing
Clusters), Fourth Edition, Arnold, 2001
Definindo o que é um Cluster
Conceitualmente, definições são subjetivas:
Homogeneidade (coesão interna)... Heterogeneidade (separação)...
Densidade (concentração)...
É preciso formalizar matematicamente
Existem diversas medidas
Cada uma induz (impõe) uma estrutura aos dados
Medidas de (Dis)Similaridade
8
Existem diversas medidas de (dis)similaridade, para
diferentes contextos de aplicação
Cada uma presume que os objetos são descritos
por atributos de uma determinada natureza
qualitativos, quantitativos, misturas, textos
Para discuti-las precisamos antes falar um pouco
Reconhecer o tipo e a escala dos dados nos
ajuda a escolher o algoritmo de agrupamento:
Tipo de dados: no presente contexto,
refere-se ao grau de quantização dos dados
Atributo Binário:
2 valores
Atributo Discreto:
valores enumeráveis
binário é caso particular
Atributo Contínuo:
valores numéricos reais
Podemos tratar qualquer atributo como assumindo valores na forma de números, em algum tipo de escala
Escala de dados: indica a significância relativa dos números (nominal, ordinal, intervalar e taxa)
Escala Qualitativa:
Nominal: números usados como nomes; p. ex.
{M, F} = {0, 1}
{Solteiro, Casado, Separado, Viúvo} = {0, 1, 2, 3}
Ordinal: números possuem apenas informação sobre a ordem relativa:
{ruim, médio, bom} = {1, 2, 3} = {10, 20, 30} = {1, 20, 300} {frio, morno, quente} = {1, 2, 3}
10
Escala Quantitativa:
Intervalar:
Interpretação dos números depende de uma unidade de medida, cujo zero é arbitrário
Exemplos:
26ºC = 78F não é 2 vezes mais quente do que 13ºC (55F) 400D.C. não é 2x mais tempo histórico do que 200D.C.
Razão:
Interpretação não depende de qualquer unidade Exemplo:
Medidas de (Dis)similaridade
12
“
A escolha da medida de dis(similaridade) é
importante para aplicações, e a melhor escolha é
frequentemente obtida via uma combinação de
experiência, habilidade, conhecimento e sorte
...”
Gan, G., Ma, C., Wu, J., Data Clustering: Theory, Algorithms, and
Notação
Matriz de Dados X:
N linhas (objetos) e n colunas (atributos):
Cada objeto (linha da matriz) é denotado por um vetor xi
Exemplo:
Nn N N n nx
x
x
x
x
x
x
x
x
2 1 2 22 21 1 12 11X
x11 x1n
1 x 13Notação
Matriz de Dados X:
N linhas (objetos) e n colunas (atributos):
Cada atributo (coluna) da matriz será denotada por um vetor ai
Exemplo:
Nn N N n nx
x
x
x
x
x
x
x
x
2 1 2 22 21 1 12 11X
T N x x11 1 1 a 14Notação
Matriz de Proximidade (Dissimilaridade ou Similaridade):
N linhas e N colunas:
Simétrica se proximidade d apresentar propriedade de simetria
N N N N N Nd
d
d
d
d
d
d
d
d
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
D
,
,
,
,
,
,
,
,
,
2 1 2 2 2 1 2 1 2 1 1 1
1516
Proximidade
Similaridade
Mede o quanto dois objetos são parecidos quanto mais parecidos, maior o valor
Geralmente valor [0, 1]
Dissimilaridade
Mede o quanto dois objetos são diferentes quanto mais diferentes, maior o valor
17
Similaridade x Dissimilaridade
Converter dissimilaridades (d) em similaridades (s) e vice-versa é útil:
Se ambas forem definidas em [0,1], a conversão é direta:
s = 1 – d ou d = 1 – s (linear, não distorce os valores)
Caso contrário, algumas alternativas são:
se limitantes para s (smin e smax) ou d (dmin e dmax) forem conhecidos, podemos re-escalar em [0,1] e usar s = 1 – d (homework)
se d [0,], não há como evitar uma transformação não linear
Ex: s = 1/(1 + d) ou s = ed
constante positiva
18
Dissimilaridade e Distância
Dissimilaridades são em geral calculadas
utilizando medidas de distância
Uma medida de distância é uma medida de
dissimilaridade que apresenta um conjunto
de propriedades
Propriedades de Distâncias
Seja d(p, q) a distância entre dois objetos p e q Então valem a seguintes propriedades:
Positividade e Reflexividade:
d(p, q) 0 p e q
d(p, q) = 0 se, e somente se, p = q
Simetria:
d(p, q) = d(q, p) p e q
Além disso, d é dita uma métrica se também vale:
d(p, q) d(p, r) + d(r, q) p, q e r (Desigualdade Triangular) Estudar slide oculto (homework)
Desigualdade Triangular:
a
b
c
Q
a b c a 6.70 7.07 b 2.30 cKeogh, E. A Gentle Introduction to Machine Learning and Data Mining for the Database Community, SBBD 2003, Manaus.
- Encontrar o objeto mais próximo de Q em uma base de dados formada por três objetos (a,b,c)
- Assumamos que já se disponha de algumas
distâncias entre pares de objetos: d(a,b), d(a,c), d(b,c) - Calculamos d(Q,a) = 2 e d(Q,b) = 7.81
- Não é necessário calcular explicitamente d(Q,c):
d(Q,b) d(Q,c) + d(c,b) d(Q,b) – d(c,b) d(Q,c)
7.81 – 2.30 d(Q,c) 5.51 d(Q,c)
Já se pode afirmar que a está mais próximo de Q do que qualquer outro objeto da base de dados
Veremos mais adiante no curso um possível uso desta propriedade em agrupamento de dados
Propriedades de Similaridade
As seguintes propriedades são desejáveis
e em geral são válidas para similaridades:
Seja s(p, q) a similaridade entre p e q
s(p, q) = 1 apenas se p = q (similaridade máxima) s(p, q) = s(q, p) p e q (simetria)
Medidas de (Dis)similaridade:
a) Atributos contínuos b) Atributos discretos c) Atributos mistos
Estudaremos medidas amplamente utilizadas na prática Há uma vasta literatura sobre este assunto
ver bibliografia
a) Atributos Contínuos
a.1) Distância Euclidiana:
• Métrica
• Tende a induzir clusters hiper-esféricos
• Clusters invariantes com rel. a translação e rotação no
espaço dos atributos (Duda et al., Pattern Classification, 2001)
• Implementações computacionais eficientes usam (dE)2 • Atributos com maiores valores e variâncias tendem a
dominar os demais... 23
n k jk ik j i E x x d j i 1 2 ) , (x x x x ( )Exemplo 1:
24 a1 a2 a3 a4 x1 1 2 5 803 x2 1 1 5 712 x3 1 1 5 792 x4 0 2 6 608 x5 0 1 5 677 x6 1 1 5 927 x7 1 1 5 412 x8 1 1 6 368 x9 1 1 6 167 x10 0 2 5 847 Média 0,70 1,30 5,30 631,30 Variância 0,23 0,23 0,23 59045,34 dE(x 1,x2) = ?25
y [R$] y [R$]
x [m] x [cm]
Exemplo 2:
•
Pode-se lidar com tais problemas por meio do queusualmente se denomina normalização
Normalização
• Re-escala Linear [0,1]: • Padronização Escore z : 26 j j ij ijx
z
a a
)
min(
)
max(
)
min(
j j j ij ijx
l
a
a
a
Triola, Notas de Aula, Copyright © 2004 Pearson Education
N(0,1) se atributo possui dist. Normal
Normalização não é necessariamente sempre apropriada ...
escore z
(efeito semelhante para linear [0,1])
Em Resumo:
Atributos com escala mais ampla / maior variabilidade tendem a ter maior peso nos cálculos de distâncias
Isso representa uma espécie de pré-ponderação implícita dos dados
Normalização busca eliminar esse efeito, assumindo ser artificial
p. ex., simples consequência do uso de unidades de medida específicas porém, também impõe uma (contra) ponderação aos dados originais
pode introduzir distorções se (ao menos parte das) diferentes variabilidades originais refletiam corretamente a natureza do problema
Por esses e outros motivos, agrupamento de dados é
Recomendações ?
• Difícil fornecer sugestões independentes de domínio
• Everitt et al. (2001) sugerem que escores z e
normalizações lineares [0,1] não são eficazes em geral
• Lembremos que ADs envolve, em essência, análise
exploratória de dados
Quais são os pesos mais apropriados ?
para pesos 0 e 1 quais são os melhores atributos ? questão remete a agrupamento em sub-espaços...
a.2) Distância de Minkowski:
• Para p = 2: Distância Euclidiana
• Para p = 1: Distância de Manhattan (city block, taxicab) recai na Distância de Hamming para atributos binários
• Para p∞: Dist. Suprema
• (Homework) Em 2-dimensões, quais são as superfícies formadas pelos pontos equidistantes de um ponto de origem? 30 p p n k ik jk p j i p x x d j i / 1 1 ) , ( x x x x jk ik n k j i x x d j i 1 ) , (x x x x max
a.2.1) Distância de Minkowski Normalizada:
ijk = 0 se xik ou xjk forem ausentes ijk = 1 se xik e xjk forem conhecidos
• Permite cálculos na presença de valores faltantes • Alternativa à imputação
• Qual a melhor abordagem?
• análise exploratória de dados...
p n k ijk p n k ijk ik jk p j i p x x d j i / 1 1 1 ) , ( x x x x
Distância com Valores Ausentes
Exemplo (
Distância Euclidiana Normalizada entre x1 e x3):
Exercício:
calcule todas as demais distâncias.
Obj. /Atrib. a1 a2 a3 a4
x1 2 -1 ? 0
x2 7 0 -4 8
x3 ? 3 5 2
j N l T j l j l j nn n n n n j N c c c c c c c c c 1 2 1 2 22 21 1 12 11 1 v x v x Σ a.3) Distância de Mahalanobis:
j = matriz de covariâncias do j-ésimo grupo de dados, com objetos xl (l = 1, ..., Nj) e centro vj:
33
j
i j
T j i m j id
(x ,v ) 2
x
v
Σ
1x
v
j N l l j j N 1 1 x v simétricaa.3) Distância de Mahalanobis...
34
j
i j
T j i m j id
(x ,v ) 2
x
v
Σ
1x
v
j N l l j j N 1 1 x v- Iniciemos desprezando a inversa da matriz de covariâncias, presumindo que seja Identidade
- Vetores capturam, em 2D, diferenças de valores das variáveis em dois eixos (x e y) representadas por x e y
- Lembrando que:
Temos que tais diferenças se referem àquelas entre um objeto e o vetor médio de um dado grupo de dados (cluster):
d2= [x y] [x y]T = x2 + y2 (distância Euclidiana)
j N l T j l j l j nn n n n n j N c c c c c c c c c 1 2 1 2 22 21 1 12 11 1 v x v x Σ a.3) Distância de Mahalanobis ...
j = matriz de covariâncias do j-ésimo grupo de dados, com objetos xl (l = 1, ..., Nj) e centro vj:
j N l l j j N 1 1 x va) Pensando apenas no grupo circular (esquerda), o que esperamos encontrar na matriz?
b) Analogamente, o que esperamos para o grupo elipsoidal?
c) (Homework) Faça os cálculos para os dois grupos de dados acima.
Lembrete: queremos calcular a média de termos de forma:
Exemplo pedagógico:
37 1 . 0 0 0 1 . 0 c Σ 10 0 0 10 1 c Σ 50 17 17 7 1 e Σ 11 . 0 27 . 0 27 . 0 80 . 0 e Σ Considere o pto. (2,1) e suas distâncias aos centros dos grupos:dm(2,1)
c=10
dm(2,1)
e=29
Consideremos agora que esse ponto se mova para cima...
Exemplo pedagógico:
38 1 . 0 0 0 1 . 0 c Σ 10 0 0 10 1 c Σ 50 17 17 7 1 e Σ 11 . 0 27 . 0 27 . 0 80 . 0 e Σ Qual é o cluster mais próximo?Exemplo pedagógico...
39 dm(2.0,1.5) c=12.5 dm(2.0,1.5) e= 8.80 Voltaremos a esse assunto quando estudarmos GK e EM Problemas apresentados pela distância de Mahalanobis?
40
Nota:
A distância de Mahalanobis é uma distância de um
objeto a um grupo de pontos (em particular, ao seu centro) Se calculada entre dois objetos, assume implicitamente que um deles é o centro de um grupo com covariância j
Generalizações para distância entre 2 grupos são
Visão Geométrica
Distância Manhattan Distância Euclidiana atributo 2 atributo 1 Distância Suprema Onde se situam os pontos eqüidistantes de um vetor
vetor
a.4) Correlação Linear de Pearson
medida de similaridade interpretação intuitiva ? 42
i j j i j i j i n i jk n k ik n k jk ik j ix
x
n
x
x
n
r
x x x x x xx
x
x
x
cov(
,
)
1
1
,
1 2 1 2 1Pearson, K., Mathematical contributions to the theory of evolution, III Regression,
Interpretação intuitiva – agrupamento de atributos:
a1 a2 a2' 0.8009 0.6000 0.6558 0.8116 0.6128 0.6128 0.8222 0.6255 0.6255 0.8228 0.6262 0.6262 0.8243 0.6280 0.6280 0.8303 0.6352 0.6352 0.8381 0.6446 0.6446 0.8411 0.6482 0.6482 0.8446 0.6523 0.6523 0.8475 0.6558 0.6000 0.5900 0.6000 0.6100 0.6200 0.6300 0.6400 0.6500 0.6600 0.7900 0.8000 0.8100 0.8200 0.8300 0.8400 0.8500 a 2 a1 0.5900 0.6000 0.6100 0.6200 0.6300 0.6400 0.6500 0.6600 0.7900 0.8000 0.8100 0.8200 0.8300 0.8400 0.8500 a 2 ’ a1 (a1 ,a2) (a1 ,a2’) Pearson 1.000 -0.080Há várias outras medidas de correlação, e.g. ver: Campello & Hruschka, On Comparing Two Sequences of Numbers and Its Applications to Clustering Analysis, Information Sciences, 2009)
Correlação
Mede interdependência entre vetores numéricos
Por exemplo, interdependência linear
Pode ser portanto usada para medir similaridade
entre 2 objetos descritos por atributos numéricos entre 2 atributos numéricos (seleção de atributos)
Correlação de Pearson mede a compatibilidade
linear entre as tendências dos vetores
despreza média e variabilidade muito útil em bioinformática
Correlação de Pearson
Cálculo do coeficiente de Pearson:
Padronizar vetores via score-z Calcular produto interno
p p
)
/
(
k kp
p
q q
)
/
(
k kq
q
n
q
p
q
p
,
)
(
correlação
46
Correlação
Valor no intervalo [-1, +1]
Correlação (p, q) = +1 Objetos p e q têm um relacionamento linear positivo perfeito Correlação (p, q) = –1
Objetos p e q têm um relacionamento linear negativo perfeito Correlação (p, q) = 0
Não existe relacionamento linear entre os objetos p e q Relacionamento linear: pk = aqk + b
Avaliação Visual de Correlação
Scatter plots para dois
objetos considerando
48
Exercício
Calcular correlação de Pearson entre os
seguintes objetos p e q
p = [1 -3 0 4 1 0 3] q = [0 1 4 -2 3 -1 4]
a.5) Cosseno
Correlação de Pearson tende a enxergar os vetores
como sequências de valores e capturar as semelhanças de forma / tendência dessas sequências
Não trata os valores como assimétricos Valores nulos interferem no resultado
Similaridade baseada no Cosseno, embora seja
matematicamente similar, possui características
diferentes: 49 j i j T i j i
x
x
x
x
x
x
)
,
cos(
Similaridade Cosseno
50
Apropriada para atributos assimétricos*
Muito utilizada em mineração de textos
grande número de atributos, poucos não nulos (dados esparsos)
Sejam d1 e d2 vetores de valores assimétricos
cos(d1, d2 ) = (d1 d2) / ||d1|| ||d2||
: produto interno entre vetores
|| d ||: é o tamanho (norma) do vetor d
Mede o cosseno do ângulo entre os respectivos versores
Exemplo gráfico:
51 x1 x2 cos(x1,x2) = 1 x3cos(x1,x3) = cos(x2,x3) = 0.95 (ângulo ≈ 18o)
52
Exemplo numérico
Sejam os vetores d
1e d
2:
d
1= [3 2 0 5 0 0 0 2 0 0]
d
2= [1 0 0 0 0 0 0 1 0 2]
cos(d1,d2) = (d1 d2) / ||d1|| ||d2|| d1 d2 = 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5 ||d1|| = (32+22+02+52+02+02+02+22+02+02)0.5 = (42)0.5 = 6.481 ||d2|| = (12+02+02+02+02+02+02+12+02+22)0.5= (6)0.5 = 2.245 cos(d1,d2) = 0.3150Exercícios
1) Calcular dissimilaridade entre p e q
usando medida de similaridade cosseno:
2) Assumindo que p e q são versores,
demonstre que d
E(p,q)
2= 2d
cos
para
d
cos=(1-cos)
p = [1 0 0 4 1 0 0 3] q = [0 5 0 2 3 1 0 4]
b) Atributos Discretos
Motivação:
54
Sexo País Estado Civil Comprar
x1 M França solteiro Sim
x2 M China separado Sim
x3 F França solteiro Sim
x4 F Inglaterra casado Sim
x5 F França solteiro Não
x6 M Alemanha viúvo Não
x7 M Brasil casado Não
x8 F Alemanha casado Não
x9 M Inglaterra solteiro Não
x10 M Argentina casado Não
d(x1,x6)=? d(x1,x7)=?
b.1) Atributos Binários:
Calcular a distância entre x1 = [1 0 0 1 1 0 0 1 0 0] e
x2 = [0 0 0 1 0 1 1 0 0 0] Usando uma tabela de contingências temos:
55 Objeto xj Objeto xi 1 0 Total 1 n11 n10 n11+n10 0 n01 n00 n01+n00 Total n11+n01 n10+n00 n n n n n n n n n n SSM j i 00 11 01 10 00 11 00 11 ) , ( x x
Coeficiente de Casamento Simples (Zubin, 1938)
n
d
n
n
n
S
i j j i SM Hamming ) , ( 01 10 ) , (1
x x
x x (Hamming, 1950)Entretanto, podemos ter:
Atributos simétricos: valores igualmente importantes Exemplo típico Sexo (M ou F)
Atributos assimétricos: valores com importâncias distintas – presença de um efeito é mais importante do que sua ausência
Exemplo: sejam 3 objetos que apresentam (1) ou não (0) dez sintomas para uma determinada doença
x1 = [1 0 0 1 1 0 0 1 0 1] x2 = [1 0 1 1 0 1 1 1 0 0] x3 = [0 0 0 0 0 0 0 0 0 0] 56 SSM(x 1,x2) = 0.5; SSM(x 1,x3) = 0.5; Conclusão?
Para atributos assimétricos, pode-se usar, por
exemplo, o
Coeficiente de Jaccard
(1908):
Focada nos casamentos do tipo 1-1 Despreza casamentos do tipo 0-0
Existem outras medidas similares na literatura,
mas CCS e Jaccard são as mais utilizadas
Ver Kaufman & Rousseeuw, Finding Groups in Data: An Introduction to Cluster Analysis, Wiley, 2005.
57 01 10 11 11 ) , (
n
n
n
n
S
Jaccard j i x
x58
Outro Exemplo
p = [1 0 0 0 0 0 0 0 0 0] q = [0 0 0 0 0 0 1 0 0 1]
n01 = 2 (número de atributos em que p = 0 e q = 1) n10 = 1 (número de atributos em que p = 1 e q = 0) n00 = 7 (número de atributos em que p = 0 e q = 0) n11 = 0 (número de atributos em que p = 1 e q = 1)
CCS = (n11 + n00)/(n01 + n10 + n11 + n00) = (0+7) / (2+1+0+7) = 0.7
Exercício
Calcular disssimilaridade entre p e q
usando coeficientes:
Casamento Simples
Jaccard
p = [1 0 0 1 1 0 1 0 1 1 1 0] q = [0 1 0 0 1 1 0 0 1 0 1 1]
b.2) Atributos Nominais (não binários)
Pode-se usar uma Codificação 1-de-n
o Exemplo:
o Estado civil {solteiro, casado, divorciado, viúvo}:
o Criar 4 atributos binários: solteiro {0,1}, ... , viúvo {0,1}
Tratar como atributos assimétricos
Pode introduzir um número elevado de atributos
b.3) Atributos Ordinais
Ex.: Gravidade de um efeito: {nula, baixa, média, alta} - Ordem dos valores é importante
- Normalizar e então utilizar medidas de (dis)similaridade para valores contínuos (p. ex. Euclidiana, cosseno, etc):
- {1, 2, 3, 4} (rank – 1) / (número de valores – 1) - {0, 1/3, 2/3, 1}
Abordagem comum
c) Atributos Mistos (
Contínuos e Discretos)
Método de Gower (1971): 62
n k ijks
n
s
j i 1 ) , (1
x x k jk ik ijk x x / R s 1 ; s ) x x ( ; s ) x x ( ijk jk ik ijk jk ik 0 1Para atributos nominais / binários:
Para atributos ordinais ou contínuos:
Rk= faixa de observações do k-ésimo atributo (termo de normalização)
) , ( ) , ( i j
1
S
i jd
x x
x x mk m mk m kR
max
x
min
x
© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 ‹nº›
General Approach for Combining Similarities
l
Sometimes attributes are of many different
types, but an overall similarity is needed
Sumário:
Medidas de dis(similaridade) mais populares foram descritas, mas há várias outras na bibliografia
Diferentes medidas de dis(similaridade) afetam a
formação (indução) dos clusters
• Como selecionar a medida de (dis)similaridade? • Devemos padronizar? Caso afirmativo, como? Infelizmente, não há respostas definitivas e globais
Análise de agrupamento de dados é, em essência,
um processo subjetivo, dependente do problema
Lembrem: análise exploratória de dados!
Algumas Questões Complementares...
Suponha que já se conheça um conjunto de pontos que pertençam a um grupo G1 e que se considere esses pontos como mais ou menos próximos ao grupo como um todo segundo alguma medida de distância a partir do seu centro
Questão: Dado que a distância de um novo ponto (até
então desconhecido) para o centro de G1 é, digamos, d=5, o quão próximo de G1 é de fato este ponto ?
A quantificação (d=5) é absoluta, mas a interpretação é relativa Teoria de Probabilidades pode ajudar
A discussão anterior remete a uma questão fundamental quando se lida com diferentes medidas, índices, critérios para quantificar um determinado evento
Questão: Como interpretar um dado valor medido ?
Note que 0.9, por exemplo, não é necessariamente um valor significativamente alto de uma medida c/ escala 0 a 1 Depende de distribuições de probabilidade !
Precisamos de uma distribuição de referência para avaliar a magnitude do valor da medida
Por hora, para fins do nosso exemplo simples, a distribuição de ref. pode ser a da distância “d” de interesse
de pontos gerados pelo fenômeno descrito por G1 ao seu centro
Suponha hipoteticamente que se conheça essa distribuição:
p. ex. normal com média e desvio padrão , ou seja, N(,)
Fazendo a padronização escore-z tem-se N(0,1)
z = (d – ) /
Suponha mais uma vez hipoteticamente que a média e
desvio sejam tais que nossa medida d = 5 implica z = 1,96 O que poderíamos concluir...?
Poderíamos concluir que a probabilidade de se observar
um valor de distância d < 5 para um ponto de G1 é 97,5%
Isso pode sugerir que:
um novo ponto observado com d = 5 não foi gerado pelo mesmo fenômeno descrito por G1, ou
esse ponto é um evento relativamente raro de G1
Mas... e se não conhecemos a distribuição ? 68
Se não conhecemos, podemos tentar estimar...
No caso do nosso exemplo simples, podemos montar um
histograma das distâncias dos pontos conhecidos de G1
Aprofundaremos essas questões mais adiante no curso... Dados (100 pontos 2D) Histograma (10 bins) – Dist. Euclidiana
Principais referências usadas para preparar essa aula:
• Xu, R., Wunsch, D., Clustering, IEEE Press, 2009 Capítulos 1 e 2, pp. 1-30
• Jain, A. K., Dubes, R. C., Algorithms for Clustering Data, Prentice Hall, 1988
Capítulos 1 e 2, pp. 1-25
• Gan, G., Ma, C., Wu, J., Data Clustering: Theory, Algorithms, and Applications, SIAM Series on Statistics and Applied Probability, 2007
Capítulos 1 e 2, pp. 1-24
• Kaufman, L., Rousseeuw, P. J., Finding Groups in Data: An Introduction to Cluster Analysis, 2a Edição, Wiley, 2005
Capítulo 1, seção 2
Outras Referências
Everitt, B. S., Landau, S., Leese, M., Cluster Analysis, Hodder
Arnold Publication, 2001
P.-N. Tan, Steinbach, M., and Kumar, V., Introduction to Data
Mining, Addison-Wesley, 2006
Duda, R. O., Hart, P. E., and Stork, D. G., Pattern Classification,
2nd Edition, Wiley, 2001