1. d(xi, xj) ≥ 0 (N˜ao-Negatividade)
2. d(xi, xj) = 0 ⇐⇒ xi = xj (Identidade)
3. d(xi, xj) = d(xj, xi) (Simetria)
4. d(xi, xj) + d(xj, xm) ≥ d(xi, xm) (Desigualdade Triangular)
para todos os objetos xi, xj e xm. A primeira condi¸c˜ao afirma que as medidas de
distˆancia s˜ao n´umeros n˜ao-negativos, enquanto a segunda diz que a distˆancia de um objeto a ele mesmo ´e zero. A terceira propriedade ´e o axioma da simetria, ou seja, a distˆancia entre dois objetos ´e a mesma independentemente do objeto de partida. A quarta propriedade necessita de uma interpreta¸c˜ao geom´etrica. Basicamente, essa propriedade expressa que partindo de xi e indo em dire¸c˜ao a xm, o caminho direto
´
e prefer´ıvel a um caminho que faz um desvio no objeto xj.
Semi-m´etrica ou pseudo-distˆancia. Uma semi-m´etrica ou pseudo-distˆancia difere de uma medida de distˆancia pelo fato da propriedade chamada desigualdade triangu- lar n˜ao ser respeitada. As medidas de dissimilaridade s˜ao, em sua maioria, semi- m´etricas.
4.3
Medidas de Dissimilaridade para Dados Cl´assicos
Esta se¸c˜ao mostra como determinar, para um conjunto de indiv´ıduos E = {1, . . . , n}, valores de dissimilaridades d(xi, xj) para todos os pares xi, xj ∈ E, isto ´e, a matriz de
dissimilaridades n × n. Tal matriz deve refletir a similaridade entre os indiv´ıduos, assim, a matriz de dissimilaridades pode tamb´em ser obtida a partir da matriz de similaridades S entre os n indiv´ıduos.
As proximidades entre os indiv´ıduos geralmente s˜ao obtidas a partir da soma das semelhan¸cas (similaridades ou dissimilaridades) definidas para cada vari´avel que descreve os indiv´ıduos. Sendo δz uma dissimilaridade e σz a medida de similaridade em Yz (para
z = 1, . . . , p). Ent˜ao a proximidade total ´e obtida atrav´es das seguintes f´ormulas:
d(xi, xj) = p X z=1 δp(xiz, xjz) (4.2) ou s(xi, xj) = p X z=1 σp(xiz, xjz) (4.3)
4.3 Medidas de Dissimilaridade para Dados Cl´assicos 44
As subse¸c˜oes abaixo ir˜ao apresentar medidas de proximidade para diferentes tipos de vari´aveis.
4.3.1
Vari´aveis Bin´arias
Vari´aveis bin´arias possuem somente dois poss´ıveis valores. Por exemplo, algumas vari´aveis bin´arias poderiam ser: sexo (feminino ou masculino), fumante (sim ou n˜ao), etc. Geralmente, essas vari´aveis s˜ao codificadas como 0 (zero) ou 1 (um), onde 1 (um) indica a presen¸ca da propriedade e 0 (zero), a ausˆencia. O c´alculo da similaridade ou dissimilaridade entre objetos com esse tipo de vari´avel ´e realizado com base na tabela de associa¸c˜ao (Tabela 4).
1 0
1 a b a+b 0 c d c+d a+c b+d p
Tabela 4: Tabela de Associa¸c˜ao.
Nessa tabela, a ´e o n´umero de vari´aveis iguais a 1 em ambos os objetos. Analogamente, b ´e o n´umero de vari´aveis que tem valor 1 para o objeto xi e 0 para o objeto xj, e assim
por diante. Obviamente, a + b + c + d = p, o n´umero total de vari´aveis. Os valores a, b, c e d podem ser combinados em ´ındices que descrevem o n´ıvel de concordˆancia entre os dois objetos.
A vari´avel bin´aria “sexo”pode assumir o valor “masculino”ou “feminino”. Ambos possuem o mesmo valor, n˜ao existe preferˆencia sobre qual deve ser codificado com 0 ou 1. Nesse caso, a vari´avel ´e dita sim´etrica. Para vari´aveis sim´etricas, ´e natural trabalhar com coeficientes invariantes, isto ´e, o resultado n˜ao deve mudar se a codifica¸c˜ao da vari´avel muda. A Tabela 5 apresenta os coeficientes invariantes de similaridades e dissimilaridades mais utilizados.
O coeficiente invariante mais conhecido ´e o coeficiente de simples correspondˆencia (Simple Matching), cujo c´alculo somente considera o percentual de concordˆancia ou, equi- valentemente, o percentual de discordˆancia entre dois objetos.
Os outros coeficientes da Tabela 5 s˜ao menos usados. Em Rogers e Tanimoto (1960), a discordˆancia tem o dobro do peso da concordˆancia. Por outro lado, Sokal e Sneath (1963) dobraram o peso da concordˆancia.
4.3 Medidas de Dissimilaridade para Dados Cl´assicos 45
Nome s(xi, xj) d(xi, xj)
Coeficiente de Simples Cor- respondˆencia (Zubin (1938), Dumas (1955), Sokal e Michener (1958), Sneath (1962), Hill et al. (1965)) a + d a + b + c + d b + c a + b + c + d Rogers e Tanimoto (1960) a + d (a + d) + 2(b + c) 2(b + c) (a + d) + 2(b + c)
Sokal e Sneath (1963) 2(a + d) 2(a + d) + (b + c)
b + c 2(a + d) + (b + c)
Tabela 5: Coeficientes Invariantes para dados bin´arios.
Por exemplo, a respeito de cores de flores: a vari´avel bin´aria vermelha = 1 / n˜ao vermelha = 0 ´e assim´etrica. No caso de concordˆancia no valor 1 indica que as flores possuem a mesma cor, enquanto a concordˆancia no valor 0 tem menor importˆancia pois permite que as flores possuam cores distintas e desconhecidas. Ent˜ao, torna-se necess´aria a defini¸c˜ao de outros coeficientes de proximidades. Nesses coeficientes a concordˆancia de 1’s ter´a um peso maior que a concordˆancia de 0’s, isto ´e, o peso de a ser´a maior que o peso do ´ındice d. Tais coeficientes n˜ao s˜ao invariantes.
Os coeficientes n˜ao-invariantes mais comuns s˜ao apresentados na Tabela 6. Eles sim- plesmente n˜ao levam em considera¸c˜ao o ´ındice d.
4.3.2
Vari´aveis Quantitativas
Quando as vari´aveis s˜ao quantitativas, as medidas apresentadas abaixo s˜ao tipica- mente utilizadas em an´alise de dados (BOCK; DIDAY, 2000).
Distˆancia Euclidiana no <p. Para uma matriz de dados cl´assicos X = (xiz) com p
vari´aveis quantitativas, a distˆancia Euclidiana pode ser utilizada como m´etrica:
d(xi, xj) = v u u t p X z=1 (xiz− xjz)2 (4.4)
4.3 Medidas de Dissimilaridade para Dados Cl´assicos 46 Nome s(xi, xj) d(xi, xj) Jaccard (1908) (Sneath (1957), Hill et al. (1965)) a a + b + c b + c a + b + c Dice (1945), Sorensen (1948) 2a 2a + b + c b + c 2a + b + c
Sokal e Sneath (1963) (Du- ran e Odell (1974)) a a + 2(b + c) 2(b + c) a + 2(b + c) Kulczynski (1928) 1 2 a a + b + a a + c 1 2 b a + b + c a + c Ochiai (1957) a p(a + b)(a + c) 1 − a p(a + b)(a + c)
Tabela 6: Coeficientes N˜ao-Invariantes para dados bin´arios.
Minkowski no <p induz a seguinte semi-m´etrica no conjunto E de indiv´ıduos:
d(xi, xj) = " p X z=1 (xiz− xjz)q #1/q (4.5)
Caso q = 2, obt´em-se a distˆancia Euclidiana; no caso em que q = 1, ´e chamada de distˆancia Manhattan:
d(xi, xj) = p
X
z=1
|xiz− xjz| (4.6)
Distˆancia Euclidiana Generalizada e Distˆancia Mahalanobis. No caso de p vari´aveis quantitativas, uma generaliza¸c˜ao da distˆancia Euclidiana ´e obtida atrav´es da in- trodu¸c˜ao de uma matriz positiva p × p, com inversa B−1 e definida por:
d(xi, xj) =
q
(xiz− xjz)tB−1(xiz− xjz) (4.7)
Esta dissimilaridade ponderada pode ser utilizada com o prop´osito de levar em considera¸c˜ao dependˆencia estat´ıstica entre as vari´aveis quantitativas observadas Y1, . . . , Yp. Nesse caso, utiliza-se B = Σ, a matriz de covariˆancia das vari´aveis