• Nenhum resultado encontrado

Representação euclidiana da estrutura de dados (H,D)

1 APRESENTAÇÃO UNIFICADA DE DIVERSOS MÉTODOS DE

1.4 Representações

1.4.4 Representação euclidiana da estrutura de dados (H,D)

O problema da representação euclidiana da estrutura de dados (H,D) pode-se enunciar da seguinte maneira:

• Sendo dada uma matriz de dissemelhanças D, pretende-se encontrar uma matriz euclidiana de distâncias ˆD com dimensão r, e tal que −r D Dˆr 2 seja mínimo.

Não existe solução para este problema (Le Calvé, 1976b). Le Calvé mostra que não existe solução, apresentando também um exemplo simples, e afirma que:

ƒ ”Seja D uma matriz de distâncias e S a matriz de “produtos escalares” gerada por D. Então a melhor aproximação Ŝ de ordem r de S não gera a melhor aproximação ˆD de ordem r de D, mesmo no caso em que S é definida positiva.” r Esta afirmação é reforçada:

ƒ “ ... em vez de dizer que, “é falso que a análise factorial dê sempre uma solução ...”, seria mais exacto dizer que “a análise factorial nunca dá uma solução óptima para o problema das distâncias”, e isto quer os valores próprios sejam positivos ou negativos. .... Se a solução da melhor aproximação dos produtos escalares, no sentido dos mínimos quadrados, é a projecção, isto é falso para a distância”96.

A representação euclidiana da estrutura de dados (H,D) é pois o caso da análise de uma matriz de distâncias ou de dissemelhanças - Análise Métrica97 (AM) (Le Calvé, 1976b) -, habitualmente designada por Multidimensional Scaling (MDS) (e.g., Mardia et al., 1979; Saporta, 1990; Caillez e Kuntz, 1996; Borg e Groenen, 2005). Segundo Caillez e Kuntz (1996), “o multidimensional scaling representa as relações entre n dados (indivíduos, estímulos, conceitos, ...) em gráficos que se percebam facilmente, restringindo-se ao caso simples em que estas relações são quantificadas por n(n-1)/2 medidas de semelhança ou de dissemelhança entre os pares de dados. O processo de representação mais familiar consiste em mergulhar estas medidas (de semelhança ou de dissemelhança) num espaço euclidiano”98. O objectivo do multidimensional scaling é o mesmo da ACP mas a matriz de dados de partida é diferente – é uma matriz de dissemelhanças ou de distâncias entre os indivíduos (ou entre as variáveis).

Le Calvé (apresentação pessoal) apresenta de forma simples a procura da solução para o problema enunciado:

• Como não se sabe resolver aquele problema, enquanto que o da aproximação dos produtos escalares é simples, vários autores (e.g., Torgerson, 1958; Gower, 1966; Escoufier et al., 1978; Cailliez e Pagès, 1976) pensaram em substituir o problema enunciado pelo segundo problema, uma vez que, sendo dada uma matriz de dissemelhanças D, pode-se-lhe associar de diversas maneiras, uma matriz de semelhanças tal que:

2 2

ij ii jj ij

d =s +ss

96 Tradução livre de «…au lieu, «il est faux que l’analyse factorielle fournisse toujours une solution …», il serait plus exact de dire «l’analyse factorielle ne fournit jamais une solution optimal au problème des distances», et ceci que les valeurs propres soient positives ou négatives. … Si la solution de la meilleure approximation, au sens des moindres carrés, des produits scalaires, est la projection, ceci est faux pour la distance.» (Le Calvé,1976b).

97Analyse métrique, no original.

98Tradução livre de “Multidimensional Scaling represents relationships between n data (individual, stimuli, concepts, ...) on graphical displays wich are easily understandable. We restrict ourselves to the simple case where these relationships are quantified by n(n-1)/2 measures of pairwise similarities or dissimilarities among the data. The most familiar representation procedure consists of embedding these measures in a Euclidean space” (Caillez e Kuntz, 1996).

82

Recorrendo à fórmula de Torgerson (expressão 1.3.20, Subsecção 1.3.4.2), escolheu-se S=W (G D2), sendo

( )

2

=

(

2

+

2

2

2

)

. . ..

1

w

2

G i j ij ij

D

d

d

d

d

.

• O problema inicial é substituído pelo seguinte problema:

ƒ Sendo dada uma matriz de dissemelhanças D, pretende-se encontrar uma matriz de distâncias euclidianas ˆD , de dimensão r, tal que r

− 2

2 ˆ2

W (G ) W (G )

r

D D seja mínimo.

É o que a Análise Factorial de uma Matriz de Distâncias99 (AFMD) (e.g., Saporta, 1990) e a Análise em Coordenadas Principais100 (ACoP) de Gower (1966) fazem – substituíram o problema inicial por este.

• A solução é dada pela diagonalização da matriz W (G D . Sabe-se que os vectores 2)

próprios de 1W ( 2)

n

G D são as componentes principais da nuvem dos n pontos. O

melhor ajustamento a um espaço de representação de dimensão r (r<n-1) é pois dado pelos r vectores próprios de W (G D correspondentes aos r maiores valores 2)

próprios. Se D for euclidiana a matriz W (G D2) será s.d.p. de ordem (n-1).

A dimensão do espaço de representação é igual à ordem de W (G D , sendo a 2)

(ordem de W (G D )< (n-1). Verifica-se que D é euclidiana se 2) W (G D for s.d.p.. 2)

No caso de W (G D ter valores próprios negativos, D não é euclidiana. Neste caso é 2)

habitual (nas duas análises, AFMD e ACoP) restringir-se à projecção sobre os vectores próprios correspondentes aos valores próprios positivos.

Mas, se a matriz W (G D tiver muitos valores próprios negativos – situação frequente na 2)

prática, pois é muito instável – pode-se recorrer a outros métodos de multidimensional scaling como, por exemplo, o nonmetric multidimensional scaling101 (e.g., Legendre e

Legendre, 2000; Everitt e Rabe-Hesketh, 1997). Outra das opções possível corresponde a deformar os dados, aplicando uma transformação monótona sobre as distâncias para as tornar euclidianas (e.g., Bénasséni et al., 2007; Beninel, 1999; Benayde e Beninel, 2002) – é o que se apresenta no Capítulo 2.

99Analyse Factorielle sur Tableaux de Distances (AFTD), no original.

100 Também é designada por classical multidimensional scaling (e.g., Everitt e Rabe-Hesketh, 1997) ou por metric multidimensional scaling.

Na realidade, se a matriz W (G D tiver muitos valores próprios negativos é porque a 2)

solução é má. E se a solução é má, todas as soluções euclidianas são más, o que faz pensar que não se deve escolher o espaço de representação euclidiano. Le Calvé (1976b) alerta precisamente para esta situação:

“Todas as dificuldades resultam da obstinação em representar de forma euclidiana alguma coisa que o não é! Em vez de “violar” os dados para os fazer entrar no nosso modelo, seria muito mais simples representá-los no seu espaço natural, mesmo se não for euclidiano!”102

Algumas metodologias de MDS estão implementadas em diversos softwares estatísticos, entre eles o SPSS.

Mais recentemente, por exemplo, Greenacre (2005) propõe a “Weighted Metric Multidimensional Scaling”103 (WMDS) que, a partir de qualquer medida de distância calculada entre os indivíduos de uma matriz de dados rectangular indivíduos-por-variáveis, permite visualizar os indivíduos e as variáveis utilizando biplots.

Em Gorban et al. (2008), de forma mais abrangente, apresentam-se vários métodos para visualizar os dados em espaços de dimensão reduzida dos quais fazem parte a ACP e o MDS, entre outros, com aplicações a várias áreas e particularmente à biologia.

Le Calvé e os seus colaboradores (e.g., Beninel, 1987, 1999; Bénasséni et al., 2007) têm dedicado uma parte importante da sua investigação a este problema da representação das distâncias (quer euclidianas, quer não euclidianas e em particular as city block), entre outros (e.g., Le Calvé, 2000). Os seus trabalhos são uma referência nesta área!

102 Tradução livre de “Toutes les difficultés proviennent de ce que l’on s’obstine à représenter de façon euclidienne quelque chose qui ne l’est pas! Au lieu de “violer” les données pour les faire entrer dans notre modèle, il serait beaucoup plus simple de les représenter dans leur espace naturel, même s’il n’est pas euclidien!” (Le Calvé, 1976b).

103 Conferência convidada da International Conference of Classification and Data Analysis Group of Italian Statistical Society, University of Bologna, Italy.

2 TRANSFORMAÇÕES EUCLIDIANAS DE