2 TRANSFORMAÇÕES EUCLIDIANAS DE DISSEMELHANÇAS
2.2 Transformações monótonas da distância
2.2.1 Transformações com constantes aditivas
“Se d não é uma distância, existe uma constante c, tal que: δij =dij +c e δii =dii =0 é uma distância, sendo
, ,
= + −
c Max dij djk dik
i j k ”,
surgiu naturalmente, a pergunta: “Pode-se adicionar uma constante à dissemelhança d não euclidiana para a tornar euclidiana?” (Torgerson, 1952). Ou, por outras palavras, pretende- se encontrar a solução do ”problema da constante aditiva” (e.g., Cailliez e Pagès, 1976):
Sendo d uma dissemelhança num conjunto finito Ι com n elementos, pretende-se encontrar o menor número c* tal que a dissemelhança δc, definida por:
88
( )
δ = + ≠ , se i j , 0 , se i = j dij c i jc tenha uma representação euclidiana para todos os c ≥ c*.
A solução inicial proposta por Torgerson (1952), não resolve este problema.
No entanto, o problema da constante aditiva sobre d2 é resolvido, em primeiro lugar. Lingoes (1971) resolve este problema, já posto inicialmente por Guttman, adicionando uma constante c ao quadrado da dissemelhança d, d2, como podemos ver pelo teorema e corolário apresentados em seguida.
Teorema 2.2.1. (Lingoes, 1971)
Seja d uma dissemelhança não euclidiana e WG(D2) a sua matriz de Torgerson105. Seja λ n o seu menor valor próprio, inf
λ
=λ
∈ i n
i I .
A solução do problema, encontrar a menor constante c (c∈ +) tal que a dissemelhança δ c, definida por
( )
δ = + ≠ 2 , se i j 2 , 0 , se i = j dij c i jc , seja euclidiana é dada por c0 = 2λn.
Corolário 2.2.1. (Lingoes, 1971)
Sejam d uma dissemelhança e c0 a constante precedente. Então, ∀c>c0 a dissemelhança δC definida por δc2
( )
,i j =dij2+c, δc2 ,( )
i i =0 é euclidiana de ordem plena e por isso pode-se inscrever numa esfera de n−1.O sucesso desta transformação tem a ver com a simplicidade de cálculo e com o facto de ela não modificar os vectores próprios de WG(D2), pois os vectores próprios das matrizes WG(D2) e WG(δ2) são idênticos, sendo apenas modificado o peso dos eixos. Os valores próprios αi de WG(D2) são αi = λi + nλ , i= 1 ou 2, (Beninel, 1987). No entanto, não se percebe bem a que tipo de transformação geométrica ou a que deformação esta transformação faz referência.
Finalmente, Cailliez (1983) propõe os teoremas que apresentamos de seguida, para darem resposta ao problema da constante aditiva.
Teorema 2.2.2. (Cailliez, 1983)
Seja δC a dissemelhança definida por
( )
δ = + ≠ , se i j , 0 ,se i = j c dij c i jEntão existe uma constante c* tal que:
- para ∀ ≥ *c c , a dissemelhança δC tem uma representação euclidiana.
- para c= *c , a representação euclidiana de
δ
c* define um espaço com, no máximo, (n-2) dimensões.Sendo o valor de c* obtido no teorema seguinte: Teorema 2.2.3. (Cailliez, 1983)
A constante aditiva c* é o maior valor próprio da matriz quadrada 2nx 2n, B:
- 1/ 2 0 2 4 d d W B W = − I
(2.2.1)
sendo: as matrizes 1/ 2 1 2 = − d W ADA, 1 2 2 = − d W AD A , D2 =( )
dij2 e A= −I 1 '11 n (Ι designa amatriz identidade e 1 o vector cujas coordenadas são todas iguais à unidade).
As matrizes Wd1/ 2 e Wd, são as matrizes de Torgerson: Wd1/ 2
=
WG( )D
e Wd= WG( )
D2 (Beninel, 1987).“Analisando a sua demonstração, Cailliez também faz notar que a matriz WG(δ 2
c) é
igualmente a matriz de Torgerson associada à transformação dij → dij −c ” (Le Calvé,
apresentação pessoal)
.
De forma análoga ao Teorema 2.2.3, Cailliez deduz o seguinte teorema:
Teorema 2.2.4. (Cailliez, 1983)
Se d não tem representação euclidiana existe uma constante negativa c**, tal que a distância δC definida por
( )
δ = + ≠ , se i j , 0 , se i = j dij c i j c90
é euclidiana, de dimensão máxima (n-2), ∀c≤c**. A constante c** é o menor valor próprio da matriz B (definida em 2.2.1).
Esta transformação, embora seja pouco utilizada na prática, tem uma interpretação geométrica interessante no caso em que |c**|≤ dij , ∀i≠j. Le Calvé mostra que, neste caso, a dissemelhança dij é a distância entre as superfícies das esferas de raio c**, desenhadas à volta dos pontos Mi, representativos da distância δC**.
De forma equivalente pode-se pois concluir que (Cailliez, 1983):
• Para mergulhar uma dissemelhança d, definida num conjunto finito, num espaço euclidiano, uma das práticas mais comum, devido à simplicidade computacional, consiste em transformar d em ε definida por:
(
)
ε + ≠ = 1 2 2 , se i j 0 , se i = j dij k ijO menor n.º k* tal que ε tem uma representação euclidiana, para ∀k ≥ k* é (- 2λn), em que λn é o menor valor próprio da matriz Wd.
“Quando se adiciona uma quantidade positiva e se faz uma deslocação paralela à diagonal, faz-se entrar d no cone das distâncias euclidianas.” (e.g., Perrier, 1998).
Das duas transformações pela constante aditiva apresentadas, na prática utiliza-se preferencialmente a transformação pela constante aditiva associada a d2 (Teorema 2.2.1, Lingoes, 1971) devido à dimensão da matriz B e por ela não ser simétrica (Beninel, 1987). No caso particular dos índices de dissemelhança para dados dicotómicos, Fichet e Le Calvé (1984) estudam o impacto das transformações com as constantes aditivas sobre as famílias de índices dθ (família que engloba, consoante os valores de θ, os índices de Jaccard, de Czekanowski e Dice e de Sokal e Sneath e Anderberg – Tabela 1.3.5) e índices dθ .
Sobre as transformações com as constantes aditivas, encontram-se vantagens e desvantagens, que se passam a enunciar.
Vantagens:
• Tal como tem sido referido, estas técnicas preservam a preordenação induzida pela dissemelhança d.
• Estas transformações escrevem-se sob uma forma matemática simples e conduzem a uma solução analítica que se baseia num problema de valores próprios.
Desvantagens:
• As constantes aditivas introduzem, frequentemente, uma deformação importante nos valores de dissemelhança iniciais. Acontece com frequência que o valor da constante é muito grande em relação aos valores de dij, de tal maneira que a distorção é grande (Joly e Le Calvé, 1994). Benasséni (1994), utilizando outros métodos, exemplifica esta situação, com uma distância entre oito pontos, em que os valores destas variam entre 10 e 60, para a qual a constante de Lingoes é 507, enquanto que a matriz de Torgerson tem apenas dois valores próprios negativos.
• Mesmo que a constante seja menos importante do que a apresentada no exemplo, ela introduzirá uma deformação forte no caso das distâncias serem pequenas e uma deformação fraca no caso de elas serem grandes. Ou seja, adicionar a mesma constante a todas as dissemelhanças pode afectar de forma expressiva o padrão inicial dos valores, uma vez que as variações relativas das pequenas dissemelhanças são mais importantes do que as das maiores.
• Mardia (1978) afirma que a configuração obtida, quando se utiliza a técnica da constante aditiva sobre D, conduz geralmente a uma aproximação mais pobre do que a configuração que se obtém quando se utilizam apenas os valores próprios positivos (Everitt e Rabe-Hesketh, 1997).
• No caso dos índices de dissemelhança para variáveis dicotómicas, a utilização destas transformações torna-se delicada, pois põe problemas, devido à modificação da forma analítica do índice inicial (Fichet e Le Calvé, 1984).
Com o objectivo de ultrapassar as desvantagens referidas, Bénasséni, Bennani Dosse e Joly (2007) apresentam uma generalização da transformação pela constante aditiva, considerando uma classe de transformações introduzida por Critchley (1986), que se baseia em adicionar o quadrado de uma medida de dissemelhança, δ, que tem uma representação euclidiana com dimensão n-1, à dissemelhança inicial, d, de forma a obter d:
(
2 2)
1 2ij ij ij d c
d = +
δ
, c >0. A existência de um valor c∈ +, tal que a distância d sejaeuclidiana deve-se ao facto do conjunto dos quadrados de distâncias euclidianas ser um cone convexo cujo interior é formado por quadrados de distâncias euclidianas com ordem
92
maximal. Bénasséni et al. (2007) dão, para a distância euclidiana δ específica, o valor mínimo da constante c. São escolhidas para δ, entre outras, distâncias apresentadas nas subsecções seguintes (e.g., transformação pela função potência).