Análise de clusters
2.3 Medidas de proximidade
E mais ainda,
p
X
i=1
V ar(Yi) =
p
X
i=1
V ar(Zi) =p. (2.11)
E,
Cor(Yi, Zj) =ejip
λi, i, j= 1,2, . . . , p. (2.12) Tem-se ainda que a proporção de variância explicada pelai-ésima CP associada às variáveis es- tandardizadas,Zi0s, é dada por,
Proporção de variância explicada
pelai-ésima CP
=λi
p, i= 1,2, . . . , p. (2.13)
2.3. Medidas de proximidade
A dissemelhança (ou semelhança) entre objectos caracterizados por variáveisquantitativasé, fre- quentemente, calculada com base na distância Eucledeana entre pares de objectos. A distância Eucledeana é definida por
d(xi,xj) = q
[xi−xj]t[xi−xj],
onde xi = [xi1, ..., xip]t, i = 1,2, . . . , n, são os objectos do conjunto de dados caracterizado por p variáveis. Outra distância comum é adistância de Manhattan(ouCity Block) que se define por
d(xi,xj) =
p
X
k=1
|xik−xjk|.
Ambas as distâncias, a Eucledeana e a de Manhattan, satisfazem as propriedades de uma métrica ou distância, que são, para além das propriedades mencionadas anteriormente para as dissemelhanças (1. e 2.), a desigualdade triangular que se define por (Han e Kamber [2006]),
Desigualdade triangular:d(xi,xj)≤d(xi,xh) +d(xh,xj), i, j, h= 1,2, . . . , n.
Adistância de Minkowskié uma generalização, quer da distância Eucledeana, quer da distância de Manhattan e é definida por
d(xi,xj) =
p
X
k=1
|xik−xjk|q
!1/q
,
onde qé um número inteiro positivo e xi = [xi1, ..., xip]t, i = 1, ..., nrepresenta oi-ésimo objecto do conjunto de dados, que é caracterizado por pvariáveis. Quando se está perante um problema em que as variáveis têm importâncias diferentes, ou seja, a cada variável está associado um peso wi, i= 1, ..., p, então pode usar-se adistância Eucledeana ponderadaque se define por,
d(xi,xj) = [xi−xj]tA[xi−xj],
eA= diag(√
w1, . . . ,√ wp).
Podem, igualmente, definir-se as distância ponderadas de Manhattan ou de Minkowski de forma análoga. Por fim, define-se ainda adistância de Mahalanobisque é baseada na matriz de covariân- cias,Σ,
d(xi,xj) = q
[xi−xj]tΣ−1[xi−xj].
Considere-se, agora, que as variáveis sãoqualitativas, i.e. os valores possíveis representam ca- tegorias ou estados. O caso mais simples é aquele em que todas as variáveis sãobinárias. Calcular dissemelhanças entre objectos caracterizados por variáveis binárias utilizando as distâncias definidas para variáveis quantitativas pode levar a resultados enganosos, devendo por isso definir-se medidas de proximidade (semelhanças ou dissemelhanças) adequadas a este tipo de variáveis (Han e Kamber [2006]).
A dissemelhança entre dois objectos,xiexj, pode então ser calculada tendo em conta uma tabela de contingência, como a que é apresentada na Tabela 2.1.
Tabela 2.1:Tabela de contingência para variáveis binárias xj
1 0 Total
xi
1 a b a+b
0 c d c+d
Total a+c b+d p
Na Tabela 2.1 considera-se que os dois valores possíveis para as variáveis são 0 e 1. Por exemplo, bé o número de vezes que o objectoxiassume o valor 1 e em simultâneo o objectoxj assume o valor 0. Diz-se que uma variável binária ésimétricase ambos os estados que pode assumir são igualmente
“importantes”, ou seja, não há preferência por um dos estados e portanto têm igual relevância. Por exemplo, se uma variável assume o valor 1 se o indivíduo é do género masculino e 0 se for do género feminino, ambos os estados são relevantes. Nestes casos pode definir-se uma dissemelhança entre dois objectosxiexjcomo se segue:
d(xi,xj) = b+c
a+b+c+d. (2.14)
Por outro lado, uma variável binária diz-seassimétricaquando os dois possíveis estados têm “im- portâncias” diferentes. Por convenção, costuma associar-se o valor 1 ao estado mais importante. Neste caso, dadas duas variáveis binárias assimétricas, o facto de concordarem em dois 1’s é considerado mais significativo do que em dois 0’s. Por exemplo, admita que uma das variáveis assume o valor 1 se o indivíduo é apoiante do clube de futebol A e zero caso contrário. Dois apoiantes do clube A têm valor 1 nesta variáveis, concordando no seu gosto pelo clube, mas dois indivíduos que declarem não ser apoiantes do clube A não significa, necessariamente, que sejam apoiantes do mesmo clube de futebol, logo não concordam sobre o seu apoio a clubes de futebol. Assim, uma dissemelhança entre dois objectosxiexjpode ser definida por:
d(xi,xj) = b+c
a+b+c. (2.15)
Muitas das medidas de proximidade mais conhecidas entre objectos caracterizados por variáveis binárias são definidas em termos de medidas de semelhança. Por exemplo,sij = 1−d(xi,xj)é uma medida de semelhança entre os objectosxiexjconhecida por coeficiente de concordância simples se d(xi,xj)é definida por (2.14) e é conhecida por coeficiente de Jacard sed(xi,xj)é definida por (2.15).
É longa a lista de coeficientes de semelhança associados a variáveis binárias. Uma tabela com as mais populares medidas de semelhança pode ser encontrada em Branco [2004].
Os objectos podem ainda ser caracterizados por variáveis nominais, que são uma generalização das variáveis binárias, já que podem ter mais do que dois estados. Note-se que estes estados ou categorias não obedecem a alguma relação de ordem entre eles. A estratégia mais simples consiste em definir novas variáveis binárias, uma para cada estado da variável binária em causa e aplicar os
2.3. Medidas de proximidade
coeficientes definidos anteriormente. Mas existem outras propostas, por exemplo, em Han e Kamber [2006] sugere-se definir uma dissemelhança entre dois objectos,xi exj, caracterizados por este tipo de variáveis tendo por base a razão entre as discordâncias :
d(xi,xj) =p−m
p , (2.16)
ondemé o número de variáveis para as quais os objectos têm o mesmo valor.
As variáveisordinais são semelhantes às variáveis nominais, mas neste caso existe uma ordem entre os valores que estas podem assumir. Estas variáveis são úteis para registar avaliações sub- jectivas de qualidades que não podem ser medidas quantitativamente. As variáveis ordinais podem, ainda, ser obtidas pela discretização de variáveis quantitativas. Quanto à dissemelhança entre objectos caracterizados por este tipo de variáveis, esta pode ser calculada de um modo semelhante ao das va- riáveis quantitativas. Pode atribuir-se uma sequência de valores aos estados da variável, por exemplo, suponha-se que uma variável ordinalXjtemsestados. Estes estados ordenados definem a sequência 1, ..., s. O cálculo da dissemelhança entre objectos caracterizados pela variável ordinal Xj envolve, então, os seguintes passos (Han e Kamber [2006]):
1. O valor deXjpara oi-ésimo objecto éxijeXjtemsestados ordenados que definem a sequên- cia1, ..., s. Substitua-se cadaxijpelo correspondente valor da sequência,rij ∈1, ..., s.
2. Como cada variável ordinal pode ter um número diferente de estados, muita vezes é necessário transformar o domínio das variáveis para o intervalo[0,1]tal que cada variável tenha o mesmo peso. Para tal, substituem-se os valoresxij por
zij =rij−1
s−1 . (2.17)
3. A dissemelhança pode depois ser calculada usando as distâncias descritas para as variáveis qualitativas, usandozij como o valor da variávelXj para o objectoxi.
No entanto, este procedimento é controverso pois ao atribuir a sequência de valores,1, ..., s, aos estados ordenados da variável, parte-se do pressuposto que as diferenças entre cada estado da va- riável são constantes, o que pode não ser verdade. Outra forma de calcular a dissemelhança entre objectos caracterizados por este tipo de variáveis passa por definir variáveis binárias (Yk), uma por cada categoria, e se o valor observado é o da categoriai, entãoY1=...=Yi= 1eyi+1=...=yp= 0.
Posteriormente, a dissemelhança pode ser calculada do modo utilizado para variáveis binárias.
Até agora discutiu-se como se calculam dissemelhanças entre objectos descritos por variáveis do mesmo tipo. No entanto, na generalidade dos problemas reais, os objectos são caracterizados por vários tipos de variáveis. Nestas situações, existem abordagens que consideram cada tipo de variável separadamente e efectuam a análise de clusters por cada tipo de variável. Tal, só é possível se das várias análises se obtiverem resultados compatíveis e que se podem cruzar, o que nem sempre é verdade. Para além de que nesta abordagem se perdem as dependências entre variáveis de diferentes tipos. Descreve-se, então, outra abordagem que combina as diferentes variáveis numa única matriz de
dissemelhanças, transformando primeiro as variáveis para uma escala comum no intervalo[0,1]. Esta dissemelhança denomina-sedistância de Gower.
Suponha-se que o conjunto de dados contempvariáveis de tipos diferentes. A dissemelhança entre os objectosxiexj é dada por:
d(xi,xj) = Pp
l=1δij(l)d(l)ij Pp
l=1δ(l)ij
, (2.18)
ondeδij(l) = 0sexil ouxjl são omissos (ou seja, se a variávelXl não tem valor para o objectoxi ou xj), ou sexil =xil= 0e a variávelXlé binária assimétrica, caso contrárioδij(l)= 1. A contribuição da variávelXlpara a dissemelhança entrexiexj, isto éd(l)ij é calculada de acordo com o tipo da variável, ou seja:
• SeXlé quantitativa,d(l)ij = max |xil−xjl|
hxhl−minhxhl.
• SeXlé binária ou nominal,d(l)ij = 0sexil=xjl, caso contráriod(l)ij = 1.
• SeXl é ordinal, calcula-se os valoreszil (vide Equação (2.16)) e tratam-se estes valores como sendo de uma variável quantitativa.
Os cálculos em cima são idênticos aos que se efectuam para cada tipo de variável. A única diferença é para as variáveis quantitativas, já que aqui os valores são normalizados, tal que o domínio da variável passe a ser o intervalo [0,1]. Tem-se, portanto, que as dissemelhanças entre objectos podem ser calculadas mesmo quando as variáveis que os descrevem são de tipos diferentes.
O leitor deve estar alerta, já que em cada caso o número de propostas de semelhanças e ou dis- semelhanças existentes na literatura é imensa, constituindo esta larga escolha uma dificuldade em seleccionar a melhor dissemelhança para o nosso problema. Uma escolha frequente recai na distância Euclidiana, pela facilidade de cálculo, por estar disponível na generalidade de programas de estatística, e a sua interpretação não levantar dificuldades ao analista. Esta escolha acontece mesmo quando existem variáveis que não são quantitativas.