Transformações com constantes aditivas - Transformações monótonas da distância

2 TRANSFORMAÇÕES EUCLIDIANAS DE DISSEMELHANÇAS

2.2 Transformações monótonas da distância

2.2.1 Transformações com constantes aditivas

“Se d não é uma distância, existe uma constante c, tal que: δ_ij =d_ij +c e δ_ii =d_ii =0 é uma distância, sendo

, ,

= + −

c Max d_ij d_jk d_ik

i j k ”,

surgiu naturalmente, a pergunta: “Pode-se adicionar uma constante à dissemelhança d não euclidiana para a tornar euclidiana?” (Torgerson, 1952). Ou, por outras palavras, pretende- se encontrar a solução do ”problema da constante aditiva” (e.g., Cailliez e Pagès, 1976):

Sendo d uma dissemelhança num conjunto finito Ι com n elementos, pretende-se encontrar o menor número c* tal que a dissemelhança δc, definida por:

88 ( )

δ _{= } + ≠  , se i j , 0 , se i = j d_ij c i j

c tenha uma representação euclidiana para todos os c ≥ c*.

A solução inicial proposta por Torgerson (1952), não resolve este problema.

No entanto, o problema da constante aditiva sobre d2_{é resolvido, em primeiro lugar. Lingoes} (1971) resolve este problema, já posto inicialmente por Guttman, adicionando uma constante c ao quadrado da dissemelhança d, d2_{, como podemos ver pelo teorema e} corolário apresentados em seguida.

Teorema 2.2.1. (Lingoes, 1971)

Seja d uma dissemelhança não euclidiana e WG_(D2_{) a sua matriz de Torgerson}105_{. Seja λ} n o seu menor valor próprio, inf

λ

∈ i n

i I .

A solução do problema, encontrar a menor constante c (c∈ +_{) tal que a dissemelhança δ} c, definida por

( )

δ _{= } + ≠  2 _{, se i} _j 2 , 0 , se i = j d_ij c i j

c , seja euclidiana é dada por c0 = 2λn.

Corolário 2.2.1. (Lingoes, 1971)

Sejam d uma dissemelhança e c0 a constante precedente. Então, ∀c>c0 a dissemelhança δC definida por δ_c2

( )

,i j =d_ij2+c, δ_c2 ,

( )

i i =0 é euclidiana de ordem plena e por isso pode-se inscrever numa esfera de n−1_.

O sucesso desta transformação tem a ver com a simplicidade de cálculo e com o facto de ela não modificar os vectores próprios de WG_(D2_{), pois os vectores próprios das matrizes} WG_(D2_{) e W}G_(δ2_{) são idênticos, sendo apenas modificado o peso dos eixos. Os valores} próprios αi de WG(D2) são α_i = λ_i + nλ , i= 1 ou 2, (Beninel, 1987). No entanto, não se percebe bem a que tipo de transformação geométrica ou a que deformação esta transformação faz referência.

Finalmente, Cailliez (1983) propõe os teoremas que apresentamos de seguida, para darem resposta ao problema da constante aditiva.

Teorema 2.2.2. (Cailliez, 1983)

Seja δC a dissemelhança definida por

( )

δ _{= } + ≠  , se i j , 0 ,se i = j c d_ij c i j

Então existe uma constante c* tal que:

- para ∀ ≥ *c c , a dissemelhança δC tem uma representação euclidiana.

- para c= *c , a representação euclidiana de

δ

c* define um espaço com, no máximo, (n-2) dimensões.

Sendo o valor de c* obtido no teorema seguinte: Teorema 2.2.3. (Cailliez, 1983)

A constante aditiva c* é o maior valor próprio da matriz quadrada 2nx 2n, B:

- 1/ 2 0 2 4 d d W B W   =  ₋   I 

(2.2.1)

sendo: as matrizes 1/ 2 1 2 = − d W ADA, 1 2 2 = − d W AD A , D2 =

( )

_dij2 e A= −I 1 '11 n (Ι designa a

matriz identidade e 1 o vector cujas coordenadas são todas iguais à unidade).

As matrizes W_d1/ 2 e Wd, são as matrizes de Torgerson: W_d1/ 2

=

( )D

e W_d= WG

( )

D2 (Beninel, 1987).

“Analisando a sua demonstração, Cailliez também faz notar que a matriz WG₍_{δ 2}

c) é

igualmente a matriz de Torgerson associada à transformação d_ij → d_ij −c ” (Le Calvé,

apresentação pessoal)

.

De forma análoga ao Teorema 2.2.3, Cailliez deduz o seguinte teorema:

Teorema 2.2.4. (Cailliez, 1983)

Se d não tem representação euclidiana existe uma constante negativa c**, tal que a distância δC definida por

( )

δ _{= } + ≠  , se i j , 0 , se i = j d_ij c i j c

90

é euclidiana, de dimensão máxima (n-2), ∀c≤c**. A constante c** é o menor valor próprio da matriz B (definida em 2.2.1).

Esta transformação, embora seja pouco utilizada na prática, tem uma interpretação geométrica interessante no caso em que |c**|≤ dij , ∀i≠j. Le Calvé mostra que, neste caso, a dissemelhança dij é a distância entre as superfícies das esferas de raio c**, desenhadas à volta dos pontos Mi, representativos da distância δC**.

De forma equivalente pode-se pois concluir que (Cailliez, 1983):

• Para mergulhar uma dissemelhança d, definida num conjunto finito, num espaço euclidiano, uma das práticas mais comum, devido à simplicidade computacional, consiste em transformar d em ε definida por:

(

)

ε   ₊ _≠ =    1 2 _{2 , se i j} 0 , se i = j d_ij k ij

O menor n.º k* tal que ε tem uma representação euclidiana, para ∀k ≥ k* é (- 2λn), em que λn é o menor valor próprio da matriz Wd.

“Quando se adiciona uma quantidade positiva e se faz uma deslocação paralela à diagonal, faz-se entrar d no cone das distâncias euclidianas.” (e.g., Perrier, 1998).

Das duas transformações pela constante aditiva apresentadas, na prática utiliza-se preferencialmente a transformação pela constante aditiva associada a d2 _{(Teorema 2.2.1,} Lingoes, 1971) devido à dimensão da matriz B e por ela não ser simétrica (Beninel, 1987). No caso particular dos índices de dissemelhança para dados dicotómicos, Fichet e Le Calvé (1984) estudam o impacto das transformações com as constantes aditivas sobre as famílias de índices dθ (família que engloba, consoante os valores de θ, os índices de Jaccard, de Czekanowski e Dice e de Sokal e Sneath e Anderberg – Tabela 1.3.5) e índices d_θ .

Sobre as transformações com as constantes aditivas, encontram-se vantagens e desvantagens, que se passam a enunciar.

Vantagens:

• Tal como tem sido referido, estas técnicas preservam a preordenação induzida pela dissemelhança d.

• Estas transformações escrevem-se sob uma forma matemática simples e conduzem a uma solução analítica que se baseia num problema de valores próprios.

Desvantagens:

• As constantes aditivas introduzem, frequentemente, uma deformação importante nos valores de dissemelhança iniciais. Acontece com frequência que o valor da constante é muito grande em relação aos valores de dij, de tal maneira que a distorção é grande (Joly e Le Calvé, 1994). Benasséni (1994), utilizando outros métodos, exemplifica esta situação, com uma distância entre oito pontos, em que os valores destas variam entre 10 e 60, para a qual a constante de Lingoes é 507, enquanto que a matriz de Torgerson tem apenas dois valores próprios negativos.

• Mesmo que a constante seja menos importante do que a apresentada no exemplo, ela introduzirá uma deformação forte no caso das distâncias serem pequenas e uma deformação fraca no caso de elas serem grandes. Ou seja, adicionar a mesma constante a todas as dissemelhanças pode afectar de forma expressiva o padrão inicial dos valores, uma vez que as variações relativas das pequenas dissemelhanças são mais importantes do que as das maiores.

• Mardia (1978) afirma que a configuração obtida, quando se utiliza a técnica da constante aditiva sobre D, conduz geralmente a uma aproximação mais pobre do que a configuração que se obtém quando se utilizam apenas os valores próprios positivos (Everitt e Rabe-Hesketh, 1997).

• No caso dos índices de dissemelhança para variáveis dicotómicas, a utilização destas transformações torna-se delicada, pois põe problemas, devido à modificação da forma analítica do índice inicial (Fichet e Le Calvé, 1984).

Com o objectivo de ultrapassar as desvantagens referidas, Bénasséni, Bennani Dosse e Joly (2007) apresentam uma generalização da transformação pela constante aditiva, considerando uma classe de transformações introduzida por Critchley (1986), que se baseia em adicionar o quadrado de uma medida de dissemelhança, δ, que tem uma representação euclidiana com dimensão n-1, à dissemelhança inicial, d, de forma a obter d:

(

₂ ₂

)

1 2

ij ij ij d c

d = +

δ

, c >0. A existência de um valor c∈ +, tal que a distância d seja

euclidiana deve-se ao facto do conjunto dos quadrados de distâncias euclidianas ser um cone convexo cujo interior é formado por quadrados de distâncias euclidianas com ordem

92

maximal. Bénasséni et al. (2007) dão, para a distância euclidiana δ específica, o valor mínimo da constante c. São escolhidas para δ, entre outras, distâncias apresentadas nas subsecções seguintes (e.g., transformação pela função potência).

No documento Representações euclidianas de dados : uma abordagem para variáveis heterogéneas (páginas 96-101)