• Nenhum resultado encontrado

1 APRESENTAÇÃO UNIFICADA DE DIVERSOS MÉTODOS DE

1.3 Dissemelhanças e semelhanças

1.3.5 Estrutura de dados euclidiana

A distância euclidiana é muito utilizada em Análise de Dados, devido á facilidade e simplicidade da representação gráfica de um conjunto de indivíduos Ι munido de uma distância euclidiana D. É uma distância que está muito estudada (e.g., Gower, 1971; Fichet e Le Calvé, 1984; Joly e Le Calvé, 1986; Gower e Legendre, 1986; Beninel, 1987; Caillez e Kuntz, 1996). Aqui apresentam-se algumas das suas propriedades métricas.

Recorde-se que uma distância D=(dij) sobre um conjunto Ι de cardinal n é euclidiana, se e só

se ela verifica a condição: p∃ ∈ e X uma matriz real, nxp, tais que

( )

p

(

)

2 ij 1 i,j d ik jk k x x = ∀ ∈ ×I I, =

− .

Também se pode dizer que: “Uma dissemelhança D=(dij) sobre Ι é euclidiana se e só se existem n pontos, M1,…, Mn de um espaço euclidiano que verificam:

M M

i j = dij (1.3.21)” (e.g., Joly e Le Calvé, 1986).

Daí a definição que se segue:

Definição 1.3.14. Imagem euclidiana

Seja E um espaço afim euclidiano de dimensão finita. Chama-se imagem euclidiana em E associada à estrutura de dados (Ι, D) um sistema de pontos {Mi, i∈Ι} de E que verificam a igualdade (1.3.21):

M M

i j = dij.

A representação euclidiana de uma estrutura de dados (Ι, D) consiste, pois, em representar todo o indivíduo i∈ Ι por um ponto Mi do espaço euclidiano de tal forma que a figura assim obtida dê conta da dissemelhança D, i.e.,

M M

i j = dij.

Certas estruturas de dados admitem uma imagem euclidiana, outras não (e.g., exemplificado em Gower e Legendre, 1986; Beninel, 1987):

- Sobre um conjunto Ι limitado a 3 elementos toda a semi-distância é euclidiana.

50

- Uma dissemelhança euclidiana é necessariamente uma semi-distância. A propriedade da desigualdade triangular é uma condição necessária para que (Ι, D) seja euclidiana, mas não é suficiente.

• A “dimensão” de D é a dimensão do espaço gerado por uma qualquer das suas imagens euclidianas, sendo a dimensão máxima (n-1). Se a dimensão é igual a 2, o espaço de representação é o plano com as suas regras habituais de leitura, em que a escolha da origem e dos eixos é arbitrária.

Mostra-se que o conjunto das distâncias euclidianas (dissemelhanças mergulháveis num espaço vectorial de dimensão finita munido da norma de Minkowski de ordem 2), De, é um cone fechado, mas não é convexo (com um contra-exemplo, vê-se que a soma de duas distâncias euclidianas de dimensão 1 não pode ter representação euclidiana) (e.g., Perrier, 1998).

• Uma caracterização de distância euclidiana pode ser dada a partir da forma-W associada a D (em que 2 2= 2

( )

,

ij

d d i j ), sob a forma do seguinte teorema atribuído a Fréchet51 (Joly e Le Calvé, 1986):

Teorema 1.3.2. (Fréchet, 1935)

A matriz de dissemelhanças D pode ser considerada como uma matriz de distâncias entre n pontos de um espaço euclidiano se e só se existe um ponto M tal que a matriz WM(D2) é semidefinida positiva (s.d.p.).

Observações:

- Sendo D euclidiana, a forma WM(D2) pode ser vista como a matriz dos produtos escalares Mi Mj dos vectores Mi e Mj (e.g., Joly e Le Calvé, 1994).

- A matriz WM(D2) sendo uma matriz de produtos escalares é por isso s.d.p. (e.g., Beninel, 1987).

- Demonstra-se que se existir um ponto M∈Ι tal que WM(D2) seja s.d.p. então WM(D2) é s.d.p. para todo o M∈Ι - O que motiva o uso frequente deste

51 Joly e Le Calvé (1986) lembram que este teorema também pode ser atribuído a Gauss, Minkowski, Schoënberg, dependendo da forma como é enunciado por cada um deles. Por exemplo, Gauss enunciou-o em 1831 para três dimensões, e Fréchet para os espaços de Hilbert, em 1935.

teorema para mostrar que uma dissemelhança é euclidiana, pois basta mostrar que, para pelo menos um ponto M, a forma-W associada é s.d.p.. - Perrier (1998) refere o programa WinABCD que propõe uma verificação da

natureza euclidiana de uma distância por procura dos valores próprios da matriz WM(D2) e verificação da positividade do menor dos seus valores próprios. Refere também que a detecção de uma matriz francamente não euclidiana não é um problema. O problema maior é o de mostrar que uma distância, euclidiana por construção, é realmente euclidiana devido aos valores dos valores próprios poderem ser muito pequenos52 neste caso.

• Quando se escolhe para o ponto M o centro de gravidade G, M=G, obtém-se a forma de Torgerson WG(D2). Pode-se demonstrar que a estrutura de dados é euclidiana se e só se WG(D2) é s.d.p. (e.g., Beninel, 1987), recorrendo ao Teorema de Fréchet.

ƒ “Se D não é euclidiana, vale a pena fazer notar que a escolha do centro de gravidade G seria completamente errada” (Joly e Le Calvé, 1994). Só no caso de D ser euclidiana é que a forma de Torgerson permite calcular a distância entre i e o centro de gravidade.

ƒ “Se D é euclidiana, quando G é a origem, o plano factorial corresponde ao máximo da inércia – nisto reside o principal interesse em se escolher G. Quando a origem é um ponto arbitrário M, o plano factorial corresponde ao máximo do momento centrado de ordem 2 em relação a qualquer M” (Joly e Le Calvé, 1994).

• Uma condição suficiente para que D=(1-S)½ seja euclidiana é dada pelo seguinte teorema, muito usado nesta área.

Teorema 1.3.3. (Gower e Legendre, 1986)

Se S é uma matriz de semelhanças s.d.p. com elementos 0≤sij≤1 e sii=1, então a matriz de dissemelhanças com elementos dij = (1 - sij)½ é euclidiana.

• É muito usada a seguinte condição necessária e suficiente de eucliniaridade, dada pela decomposição da dissemelhança d definida num conjunto finito Ι via uma forma

52 Mesmo atingindo a precisão da máquina 10-15 com os reais em precisão dupla, não está assegurada a obtenção de uma estimação positiva do menor valor próprio.

52

bilinear simétrica q, relembrada por vários autores (e.g., Caillez e Kuntz, 1996) com referência a (e.g., Blumenthal, 1953):

“Sendo d2(i,j) = q

ii+ qjj - 2·qij, uma condição necessária e suficiente para que d seja euclidiana, é a de q ser s.d.p.”

Uma consequência deste resultado, que terá interesse ter em conta quando se escolhe o coeficiente de semelhança em Análise de Dados, refere-se à possibilidade de poder interpretar qij como um coeficiente de semelhança sij com o valor máximo igual a 1, smax=1; esta situação reporta-nos ao teorema apresentado anteriormente (Teorema 1.3.3).

• Outro resultado a reter é apresentado por Beninel (1987):

“No caso da matriz de semelhanças S ser s.d.p., a diagonalização de S fornece uma imagem euclidiana esférica representando (Ι, 2D )”. Verificando-se

∀(i,j)∈ΙxΙ, dij=1-sij ou ainda ∀(i,j)∈ΙxΙ, dij =½(sii + sjj – 2sij), S desempenha o papel da forma quadrática associada à estrutura (Ι ∪ {ω}, 2D ) tomada no ponto ω.

Existem mais resultados importantes (por exemplo, Lema de Schur) sobre formas semidefinidas positivas e sobre a correspondência entre as semi-distâncias euclidianas e as formas semidefinidas positivas (e.g., Joly e Le Calvé, 1994; Al Ayoubi, 1991) – aqui limitámo-nos a apresentar alguns deles por nos parecerem úteis no prosseguimento deste trabalho.

Outro aspecto interessante a ter em conta, refere-se à ligação das distâncias euclidianas a outras dissemelhanças (já referenciada para o caso das ultramétricas na Subsecção 1.3.1). Este assunto é apresentado e bem exemplificado, por exemplo, em Beninel (1987) e Perrier (1998) que se basearam em trabalhos de Le Calvé.

Uma última observação leva-nos a relembrar que apenas algumas das dissemelhanças que são calculadas são euclidianas:

• Gower e Legendre (1986) apresentam um estudo sobre as propriedades métrica e euclidiana de dez coeficientes de dissemelhança entre variáveis quantitativas e verificam que apenas a distância D5 (Tabela 1.3.1) é euclidiana para valores positivos da variável. Verificam também que algumas não são métricas. Relembra-se que estes autores consideram que uma dissemelhança é métrica quando verifica a desigualdade triangular, ou seja, métrica é uma designação equivalente a semi- distância (Definição 1.3.6). Legendre e Legendre (2000) actualizam aquele estudo.

• Sabe-se que a distância χ2 (fórmula 1.3.12, Subsecção 1.3.1) é euclidiana (Legendre e Legendre, 2000).

• No caso de alguns dos coeficientes de dissemelhança entre objectos descritos por variáveis binárias, estudados por vários autores (e.g., Fichet e Le Calvé, 1984; Gower e Legendre, 1986), nenhum deles é euclidiano; mas, para todos eles, a sua raiz quadrada é euclidiana (Subsecção 1.3.6 e Tabela 2.2.1, Capítulo 2).