Medidas de Dissimilaridade para Dados Cl´ assicos

1. d(xi, xj) ≥ 0 (N˜ao-Negatividade)

2. d(xi, xj) = 0 ⇐⇒ xi = xj (Identidade)

3. d(xi, xj) = d(xj, xi) (Simetria)

4. d(xi, xj) + d(xj, xm) ≥ d(xi, xm) (Desigualdade Triangular)

para todos os objetos xi, xj e xm. A primeira condi¸c˜ao afirma que as medidas de

distância são números não-negativos, enquanto a segunda diz que a distância de um objeto a ele mesmo é zero. A terceira propriedade é o axioma da simetria, ou seja, a distância entre dois objetos é a mesma independentemente do objeto de partida. A quarta propriedade necessita de uma interpreta¸cão geométrica. Basicamente, essa propriedade expressa que partindo de xi e indo em dire¸cão a xm, o caminho direto

e prefer´ıvel a um caminho que faz um desvio no objeto xj.

Semi-métrica ou pseudo-distância. Uma semi-métrica ou pseudo-distância difere de uma medida de distância pelo fato da propriedade chamada desigualdade triangular não ser respeitada. As medidas de dissimilaridade são, em sua maioria, semi- métricas.

4.3 Medidas de Dissimilaridade para Dados Cl´assicos

Esta se¸c˜ao mostra como determinar, para um conjunto de indiv´ıduos E = {1, . . . , n}, valores de dissimilaridades d(xi, xj) para todos os pares xi, xj ∈ E, isto ´e, a matriz de

dissimilaridades n × n. Tal matriz deve refletir a similaridade entre os indiv´ıduos, assim, a matriz de dissimilaridades pode tamb´em ser obtida a partir da matriz de similaridades S entre os n indiv´ıduos.

As proximidades entre os indiv´ıduos geralmente s˜ao obtidas a partir da soma das semelhan¸cas (similaridades ou dissimilaridades) definidas para cada vari´avel que descreve os indiv´ıduos. Sendo δz uma dissimilaridade e σz a medida de similaridade em Yz (para

z = 1, . . . , p). Então a proximidade total é obtida através das seguintes fórmulas:

d(xi, xj) = p X z=1 δp(xiz, xjz) (4.2) ou s(xi, xj) = p X z=1 σp(xiz, xjz) (4.3)

4.3 Medidas de Dissimilaridade para Dados Cl´assicos 44

As subse¸cões abaixo irão apresentar medidas de proximidade para diferentes tipos de variáveis.

4.3.1 Vari´aveis Bin´arias

Variáveis binárias possuem somente dois poss´ıveis valores. Por exemplo, algumas variáveis binárias poderiam ser: sexo (feminino ou masculino), fumante (sim ou não), etc. Geralmente, essas variáveis são codificadas como 0 (zero) ou 1 (um), onde 1 (um) indica a presen¸ca da propriedade e 0 (zero), a ausência. O cálculo da similaridade ou dissimilaridade entre objetos com esse tipo de variável é realizado com base na tabela de associa¸cão (Tabela 4).

1 0

1 a b a+b 0 c d c+d a+c b+d p

Tabela 4: Tabela de Associa¸c˜ao.

Nessa tabela, a é o número de variáveis iguais a 1 em ambos os objetos. Analogamente, b é o número de variáveis que tem valor 1 para o objeto xi e 0 para o objeto xj, e assim

por diante. Obviamente, a + b + c + d = p, o número total de variáveis. Os valores a, b, c e d podem ser combinados em ´ındices que descrevem o n´ıvel de concordância entre os dois objetos.

A variável binária “sexo”pode assumir o valor “masculino”ou “feminino”. Ambos possuem o mesmo valor, não existe preferência sobre qual deve ser codificado com 0 ou 1. Nesse caso, a variável é dita simétrica. Para variáveis simétricas, é natural trabalhar com coeficientes invariantes, isto é, o resultado não deve mudar se a codifica¸cão da variável muda. A Tabela 5 apresenta os coeficientes invariantes de similaridades e dissimilaridades mais utilizados.

O coeficiente invariante mais conhecido é o coeficiente de simples correspondência (Simple Matching), cujo cálculo somente considera o percentual de concordância ou, equi- valentemente, o percentual de discordância entre dois objetos.

Os outros coeficientes da Tabela 5 são menos usados. Em Rogers e Tanimoto (1960), a discordância tem o dobro do peso da concordância. Por outro lado, Sokal e Sneath (1963) dobraram o peso da concordância.

4.3 Medidas de Dissimilaridade para Dados Cl´assicos 45

Nome s(xi, xj) d(xi, xj)

Coeficiente de Simples Cor- respondˆencia (Zubin (1938), Dumas (1955), Sokal e Michener (1958), Sneath (1962), Hill et al. (1965)) a + d a + b + c + d b + c a + b + c + d Rogers e Tanimoto (1960) a + d (a + d) + 2(b + c) 2(b + c) (a + d) + 2(b + c)

Sokal e Sneath (1963) 2(a + d) 2(a + d) + (b + c)

b + c 2(a + d) + (b + c)

Tabela 5: Coeficientes Invariantes para dados bin´arios.

Por exemplo, a respeito de cores de flores: a variável binária vermelha = 1 / não vermelha = 0 é assimétrica. No caso de concordância no valor 1 indica que as flores possuem a mesma cor, enquanto a concordância no valor 0 tem menor importância pois permite que as flores possuam cores distintas e desconhecidas. Então, torna-se necessária a defini¸cão de outros coeficientes de proximidades. Nesses coeficientes a concordância de 1’s terá um peso maior que a concordância de 0’s, isto é, o peso de a será maior que o peso do ´ındice d. Tais coeficientes não são invariantes.

Os coeficientes não-invariantes mais comuns são apresentados na Tabela 6. Eles sim- plesmente não levam em considera¸cão o ´ındice d.

4.3.2 Vari´aveis Quantitativas

Quando as variáveis são quantitativas, as medidas apresentadas abaixo são tipica- mente utilizadas em análise de dados (BOCK; DIDAY, 2000).

Distˆancia Euclidiana no <p. Para uma matriz de dados cl´assicos X = (xiz) com p

variáveis quantitativas, a distância Euclidiana pode ser utilizada como métrica:

d(xi, xj) = v u u t p X z=1 (xiz− xjz)2 (4.4)

4.3 Medidas de Dissimilaridade para Dados Cl´assicos 46 Nome s(xi, xj) d(xi, xj) Jaccard (1908) (Sneath (1957), Hill et al. (1965)) a a + b + c b + c a + b + c Dice (1945), Sorensen (1948) 2a 2a + b + c b + c 2a + b + c

Sokal e Sneath (1963) (Du- ran e Odell (1974)) a a + 2(b + c) 2(b + c) a + 2(b + c) Kulczynski (1928) 1 2 a a + b + a a + c 1 2 b a + b + c a + c Ochiai (1957) a p(a + b)(a + c) 1 − a p(a + b)(a + c)

Tabela 6: Coeficientes N˜ao-Invariantes para dados bin´arios.

Minkowski no <p induz a seguinte semi-m´etrica no conjunto E de indiv´ıduos:

d(xi, xj) = " _p X z=1 (xiz− xjz)q #1/q (4.5)

Caso q = 2, obtém-se a distância Euclidiana; no caso em que q = 1, é chamada de distância Manhattan:

d(xi, xj) = p

z=1

|xiz− xjz| (4.6)

Distância Euclidiana Generalizada e Distância Mahalanobis. No caso de p variáveis quantitativas, uma generaliza¸cão da distância Euclidiana é obtida através da in- trodu¸cão de uma matriz positiva p × p, com inversa B−1 e definida por:

d(xi, xj) =

(xiz− xjz)tB−1(xiz− xjz) (4.7)

Esta dissimilaridade ponderada pode ser utilizada com o propósito de levar em considera¸cão dependência estat´ıstica entre as variáveis quantitativas observadas Y1, . . . , Yp. Nesse caso, utiliza-se B = Σ, a matriz de covariância das variáveis

No documento Metodos de Agrupamento de Dados Simbolicos Baseados em funções de Dissimilaridades (páginas 59-63)