• Nenhum resultado encontrado

Medidas de Dissimilaridade para Dados Cl´ assicos

1. d(xi, xj) ≥ 0 (N˜ao-Negatividade)

2. d(xi, xj) = 0 ⇐⇒ xi = xj (Identidade)

3. d(xi, xj) = d(xj, xi) (Simetria)

4. d(xi, xj) + d(xj, xm) ≥ d(xi, xm) (Desigualdade Triangular)

para todos os objetos xi, xj e xm. A primeira condi¸c˜ao afirma que as medidas de

distˆancia s˜ao n´umeros n˜ao-negativos, enquanto a segunda diz que a distˆancia de um objeto a ele mesmo ´e zero. A terceira propriedade ´e o axioma da simetria, ou seja, a distˆancia entre dois objetos ´e a mesma independentemente do objeto de partida. A quarta propriedade necessita de uma interpreta¸c˜ao geom´etrica. Basicamente, essa propriedade expressa que partindo de xi e indo em dire¸c˜ao a xm, o caminho direto

´

e prefer´ıvel a um caminho que faz um desvio no objeto xj.

Semi-m´etrica ou pseudo-distˆancia. Uma semi-m´etrica ou pseudo-distˆancia difere de uma medida de distˆancia pelo fato da propriedade chamada desigualdade triangu- lar n˜ao ser respeitada. As medidas de dissimilaridade s˜ao, em sua maioria, semi- m´etricas.

4.3

Medidas de Dissimilaridade para Dados Cl´assicos

Esta se¸c˜ao mostra como determinar, para um conjunto de indiv´ıduos E = {1, . . . , n}, valores de dissimilaridades d(xi, xj) para todos os pares xi, xj ∈ E, isto ´e, a matriz de

dissimilaridades n × n. Tal matriz deve refletir a similaridade entre os indiv´ıduos, assim, a matriz de dissimilaridades pode tamb´em ser obtida a partir da matriz de similaridades S entre os n indiv´ıduos.

As proximidades entre os indiv´ıduos geralmente s˜ao obtidas a partir da soma das semelhan¸cas (similaridades ou dissimilaridades) definidas para cada vari´avel que descreve os indiv´ıduos. Sendo δz uma dissimilaridade e σz a medida de similaridade em Yz (para

z = 1, . . . , p). Ent˜ao a proximidade total ´e obtida atrav´es das seguintes f´ormulas:

d(xi, xj) = p X z=1 δp(xiz, xjz) (4.2) ou s(xi, xj) = p X z=1 σp(xiz, xjz) (4.3)

4.3 Medidas de Dissimilaridade para Dados Cl´assicos 44

As subse¸c˜oes abaixo ir˜ao apresentar medidas de proximidade para diferentes tipos de vari´aveis.

4.3.1

Vari´aveis Bin´arias

Vari´aveis bin´arias possuem somente dois poss´ıveis valores. Por exemplo, algumas vari´aveis bin´arias poderiam ser: sexo (feminino ou masculino), fumante (sim ou n˜ao), etc. Geralmente, essas vari´aveis s˜ao codificadas como 0 (zero) ou 1 (um), onde 1 (um) indica a presen¸ca da propriedade e 0 (zero), a ausˆencia. O c´alculo da similaridade ou dissimilaridade entre objetos com esse tipo de vari´avel ´e realizado com base na tabela de associa¸c˜ao (Tabela 4).

1 0

1 a b a+b 0 c d c+d a+c b+d p

Tabela 4: Tabela de Associa¸c˜ao.

Nessa tabela, a ´e o n´umero de vari´aveis iguais a 1 em ambos os objetos. Analogamente, b ´e o n´umero de vari´aveis que tem valor 1 para o objeto xi e 0 para o objeto xj, e assim

por diante. Obviamente, a + b + c + d = p, o n´umero total de vari´aveis. Os valores a, b, c e d podem ser combinados em ´ındices que descrevem o n´ıvel de concordˆancia entre os dois objetos.

A vari´avel bin´aria “sexo”pode assumir o valor “masculino”ou “feminino”. Ambos possuem o mesmo valor, n˜ao existe preferˆencia sobre qual deve ser codificado com 0 ou 1. Nesse caso, a vari´avel ´e dita sim´etrica. Para vari´aveis sim´etricas, ´e natural trabalhar com coeficientes invariantes, isto ´e, o resultado n˜ao deve mudar se a codifica¸c˜ao da vari´avel muda. A Tabela 5 apresenta os coeficientes invariantes de similaridades e dissimilaridades mais utilizados.

O coeficiente invariante mais conhecido ´e o coeficiente de simples correspondˆencia (Simple Matching), cujo c´alculo somente considera o percentual de concordˆancia ou, equi- valentemente, o percentual de discordˆancia entre dois objetos.

Os outros coeficientes da Tabela 5 s˜ao menos usados. Em Rogers e Tanimoto (1960), a discordˆancia tem o dobro do peso da concordˆancia. Por outro lado, Sokal e Sneath (1963) dobraram o peso da concordˆancia.

4.3 Medidas de Dissimilaridade para Dados Cl´assicos 45

Nome s(xi, xj) d(xi, xj)

Coeficiente de Simples Cor- respondˆencia (Zubin (1938), Dumas (1955), Sokal e Michener (1958), Sneath (1962), Hill et al. (1965)) a + d a + b + c + d b + c a + b + c + d Rogers e Tanimoto (1960) a + d (a + d) + 2(b + c) 2(b + c) (a + d) + 2(b + c)

Sokal e Sneath (1963) 2(a + d) 2(a + d) + (b + c)

b + c 2(a + d) + (b + c)

Tabela 5: Coeficientes Invariantes para dados bin´arios.

Por exemplo, a respeito de cores de flores: a vari´avel bin´aria vermelha = 1 / n˜ao vermelha = 0 ´e assim´etrica. No caso de concordˆancia no valor 1 indica que as flores possuem a mesma cor, enquanto a concordˆancia no valor 0 tem menor importˆancia pois permite que as flores possuam cores distintas e desconhecidas. Ent˜ao, torna-se necess´aria a defini¸c˜ao de outros coeficientes de proximidades. Nesses coeficientes a concordˆancia de 1’s ter´a um peso maior que a concordˆancia de 0’s, isto ´e, o peso de a ser´a maior que o peso do ´ındice d. Tais coeficientes n˜ao s˜ao invariantes.

Os coeficientes n˜ao-invariantes mais comuns s˜ao apresentados na Tabela 6. Eles sim- plesmente n˜ao levam em considera¸c˜ao o ´ındice d.

4.3.2

Vari´aveis Quantitativas

Quando as vari´aveis s˜ao quantitativas, as medidas apresentadas abaixo s˜ao tipica- mente utilizadas em an´alise de dados (BOCK; DIDAY, 2000).

Distˆancia Euclidiana no <p. Para uma matriz de dados cl´assicos X = (xiz) com p

vari´aveis quantitativas, a distˆancia Euclidiana pode ser utilizada como m´etrica:

d(xi, xj) = v u u t p X z=1 (xiz− xjz)2 (4.4)

4.3 Medidas de Dissimilaridade para Dados Cl´assicos 46 Nome s(xi, xj) d(xi, xj) Jaccard (1908) (Sneath (1957), Hill et al. (1965)) a a + b + c b + c a + b + c Dice (1945), Sorensen (1948) 2a 2a + b + c b + c 2a + b + c

Sokal e Sneath (1963) (Du- ran e Odell (1974)) a a + 2(b + c) 2(b + c) a + 2(b + c) Kulczynski (1928) 1 2  a a + b + a a + c  1 2  b a + b + c a + c  Ochiai (1957) a p(a + b)(a + c) 1 − a p(a + b)(a + c)

Tabela 6: Coeficientes N˜ao-Invariantes para dados bin´arios.

Minkowski no <p induz a seguinte semi-m´etrica no conjunto E de indiv´ıduos:

d(xi, xj) = " p X z=1 (xiz− xjz)q #1/q (4.5)

Caso q = 2, obt´em-se a distˆancia Euclidiana; no caso em que q = 1, ´e chamada de distˆancia Manhattan:

d(xi, xj) = p

X

z=1

|xiz− xjz| (4.6)

Distˆancia Euclidiana Generalizada e Distˆancia Mahalanobis. No caso de p vari´aveis quantitativas, uma generaliza¸c˜ao da distˆancia Euclidiana ´e obtida atrav´es da in- trodu¸c˜ao de uma matriz positiva p × p, com inversa B−1 e definida por:

d(xi, xj) =

q

(xiz− xjz)tB−1(xiz− xjz) (4.7)

Esta dissimilaridade ponderada pode ser utilizada com o prop´osito de levar em considera¸c˜ao dependˆencia estat´ıstica entre as vari´aveis quantitativas observadas Y1, . . . , Yp. Nesse caso, utiliza-se B = Σ, a matriz de covariˆancia das vari´aveis

Documentos relacionados