Approches non linéaires pour la réduction de la dimensionnalité

2.3 Extraction de caractéristiques

2.3.3 Approches non linéaires pour la réduction de la dimensionnalité

2.3.3.1 Approches algébriques pour la réduction de dimension non linéaire

Locally Linear Embedding (LLE) est une méthode de réduction non linéaire basée sur des aspects géométriques [Roweis and Sam, 2000; Saul and Roweis, 2003]². Cette méthode algébrique tente de projeter les observations d’entrée dans un espace de plus faible dimension, en considé- rant que les observations, globalement non linéaires, sont localement linéaires, amenant ainsi à conserver les configurations locales.

L’algorithme, illustré à la figure 2.13, commence par chercher leskplus proches voisins autour de chaque observation d’entréex_i. Puis, il exprime leurs relations en calculant les vecteurs poids de reconstruction (w) en minimisant la fonction de coût suivante :

E(w) =X

¯¯

¯¯x_i−X

wijx_j

¯¯

. (2.6)

Sachant que le poids wij est associé au couple d’observations(x_i,x_j), où x_j appartient au voisinage de x_i (parmi lesk plus proches voisins). Aussi, la minimisation impose de respecter deux contraintes suivantes :





w_ij = 0,sixj n’est pas un voisin proche dexi, P

jwij = 1.

(2.7) Les poids de reconstructionw_ij reflètent les proprié- tés géométriques de l’espace initial, soit les structures locales. La projectionyi de l’observation xi est réalisée en minimisant ce nouveau critère :

E(y) =X

¯¯

¯¯y_i−X

w_ijy_j

¯¯

. (2.8)

Similaires à la fonction de coût précédente (2.6), les poids du critère de projection sont dorénavant fixes de manière à préserver les structures locales propre à l’espace initial.

Fig.2.13 – Algorithme de projection LLE [Roweis and Sam, 2000].

L’algorithme isometric feature mapping ou encore isomap³ [Tenenbaum et al., 2000] est une technique de réduction de dimension qui, à l’image de MDS, utilise également une matrice de dis- similarités. Cependant, dans le cas d’isomap, la mesure de dissimilarité entre deux observations est définie en termes de distance géodésique [Leeet al., 2004]. Elle est obtenue par le plus court chemin entre deux observations passant par d’autres observations. Dans [Tenenbaumet al., 2000], ce chemin est obtenu à l’aide d’un « graphe » liant chaque observation à ses kplus proches voisins (voir figure 2.14). Une fois la matrice de dissimilarité construite, il reste à la traiter par MDS.

2Des informations complémentaires sont disponibles sur http ://www.cs.toronto.edu/∼roweis/lle/

3Des informations complémentaires, notamment algorithmiques, sont disponibles sur le site de Josh Tenenbaum http ://isomap.stanford.edu/ .

Fig.2.14 – Illustration du « graphe » et de la distance obtenue par la méthodeisomap entre deux pointsx₁ etx₂ (pour k= 3).

Une autre variante de MDS est la réduction non linéaire de Sammon [Sammon Jr, 1969] (Sam- mon’s nonlinear mapping −NLM) qui, comme MDS, préserve les distances entre les observations dans l’espace de dimension réduit. Cet algorithme effectue la réduction en utilisant la fonction de coût ci-dessous :

E= 1

j6=i

d^∗_ij X

j6=i

(d^∗_ij−d_ij)²

d^∗_ij . (2.9)

2.3.3.2 Approches neuronales pour la réduction de dimension non linéaire

Dans son ouvrage, [Bishop, 2006] présente des approches neuronales pour la réduction de la dimensionnalité d’un problème. Il évoque notamment les réseaux de neurones auto-organisants qui, à la section 1.4.2.4, avaient été abordés afin d’illustrer l’apprentissage non supervisé. Parmi ce type de réseaux de neurones, les cartes auto-organisatrices de Kohonen (SOM,self-organizing map) [Kohonen, 1982; Kohonen, 1995] sont certainement les plus utilisées. L’algorithme SOM effectue un partitionnement de l’espace en plusieursclusters (appeléquantification vectorielle) et une projection non linéaire des observations originales dans un espace discret de très faible dimension, appelé « carte » ou « grille ». La grille est prédéfinie, généralement rectangulaire ou hexagonale. Elle doit aboutir à devenir une représentation discrète de l’espace d’entrée. Chaque neurone de l’espace de projection, appartenant donc à la grille, est lié à l’espace des observations par un vecteur référent. L’apprentissage s’efforce d’adapter ces vecteurs référents à la distribution des observations, en conservant la topologie de la carte. Ainsi, deux neurones proches sur la carte doivent avoir leur vecteur référent proche dans l’espace des observations.

Dans un but d’améliorer l’algorithme SOM, la méthode nommée par son auteur generative topographic mapping (GTM) [Bishop et al., 1997; Bishop et al., 1998] permet de s’affranchir de quelques faiblesses de SOM. Soulignées dans [Kohonen, 1995], ces faiblesses font référence à l’ab- sence d’une fonction de coût ou à la difficulté d’ajuster les paramètres de l’apprentissage. De plus, l’optimisation de l’adaptation de la grille passe par une connaissance a priori sur la forme de la structure, ce qui limite encore l’utilisation de cette méthode.

Apparue dans les années quatre-vingt-dix, l’analyse en composantes curvilignes [Demartines, 1994; Demartines and Hérault, 1997; Heraultet al., 1999] (ACC,curvilinear component analysis) a été proposée également comme une amélioration de SOM, où l’espace de projection n’est plus fixéa priori par une grille. L’ACC peut être vue comme une extension neuronale de la méthode de Sammon. [Dreyfus et al., 2002] interprètent cette méthode comme une extension non linéaire de l’ACP. Ils évoquent une ACP « par parties », rappelant le principe introduit par [Bishop, 2006], qui

combine plusieurs ACP. Cette fois-ci, les observations sont « étirées » et projetées dans un espace de plus petite dimension de manière à respecter localement la topologie des observations d’entrée.

Pour optimiser le résultat de la projection en termes de préservation de la topologie, les distances de l’espace de sortie (dij) doivent être proportionnelles aux distances de l’espace d’entrée (d^∗_ij). Il est évident que la correspondance des distances ne peut pas être parfaite, pour cause de réduction de la dimension. Dès lors, une fonction de pondération F(d_ij, λ_y) est introduite dans la fonction de coût à minimiser (2.10) et permet de favoriser et de conserver la topologie locale.

Le paramètre de voisinageλ_y peut évoluer avec le temps [Demartines and Hérault, 1997].

E = 1 2

j6=i

(d^∗_ij −d_ij)²F(d_ij, λ_y) (2.10) La fonctionF(d_ij, λ_y)est définie comme monotone, positive et décroissante par rapport àd_ij. Dans leurs simulations, [Demartines and Hérault, 1997] utilisent l’expression deF suivante :

F(d_ij, λ_y) =

½ 1 si d_ij ≤λ_y,

0 si d_ij > λ_y. (2.11)

La minimisation de la fonction de coût (2.10) est réalisée par un algorithme de descente de gradient stochastique :

∀i6=j , ∆yi =α(t)F(dij, λy)d^∗_ij −d_ij

d_ij (yi−y_j), (2.12) où le taux d’apprentissage α(t) et le paramètre de voisinage λ_y, tous deux compris entre [0,1], décroissent en fonction du temps. Dès lors, chaque itération de la descente de gradient a un coût calculatoire proportionnel àn² (où,n représente le nombre d’observations), limitant la méthode à de petites bases de données. Le problème de coût est résolu en effectuant une quantification vectorielle (partitionnement de l’espace en plusieursclusters,cf.l’algorithme SOM) avant l’ACC, afin de fournir un sous-ensemble de vecteurs, appelés centroïdes, représentant au mieux la distribution des observations d’origine. On peut alors faire intervenir dans (2.10) les distances entre les centroïdes à la place des distances entre les observations. Le coût calculatoire de l’algorithme devient proportionnel au nombre de centroïdes.

Les trois étapes de l’ACC, la quantification vectorielle, la projection des centroïdes et la projection des observations en fonction de ces centroïdes, permettent à cet algorithme d’obtenir de bonnes performances en un temps raisonnable. [Lee et al., 2000; Lee et al., 2004] proposent une amélioration de l’ACC, en permettant d’automatiser le choix des paramètres. Par ailleurs, ils utilisent la distance curviligne (ADC −Curvilinear Distance Analysis) à la place de la distance euclidienne. La distance curviligne est, en fait, équivalente à la distance géodésique (figure 2.12).

À l’image de la méthode isomap, où la distance entre deux observations est obtenue par le chemin passant par les plus proches voisins (voir la figure 2.14), la méthode ADC remplace les plus proches voisins par les plus proches centroïdes.

Un des intérêts de ces approches est la possibilité de projeter facilement une autre observation dans le nouvel espace réduit. Ceci n’est pas forcément le cas pour d’autres méthodes, qui limitent donc leur utilisation à la visualisation.

Dans cette section, nous avons abordé différentes approches pour réaliser la réduction de dimension en tenant compte de relations non linéaires. Bien évidemment, la liste des méthodes citées n’est pas exhaustive. Nous pouvons aussi trouver plusieurs variantes des méthodes présen- tées, comme la méthodehessian-basedLLE proposée par [Donoho and Grimes, 2003], qui se fonde notamment sur le calcul de la matrice Hessienne.

2.3.3.3 Interprétation

L’erreur de projection pourrait être obtenue en examinant la fonction de coût, telle que celle de l’ACC (2.10) obtenue pour chaque paire d’observations après la projection. Cependant, cette approche distingue difficilement les erreurs des « petites » et des « grandes » distances. Or la conservation de la topologie locale est l’objectif de la plupart des méthodes de projection non linéaire. L’analyse de l’erreur de la projection ne permet donc pas d’observer rigoureusement la qualité de la projection, au sens de la conservation de la topologie.

[Demartines, 1992] a proposé une représentation, appelée «dy−dx», afin de vérifier la pré- servation de la topologie obtenue par l’algorithme SOM. Dans son utilisation originale, cette représentation consiste à tracer pour chaque paire de neurones un point [dy, dx]et comparer les distances des neurones sur la grille (dy) avec les distances des vecteurs poids (dx). Ainsi, une projection préservant correctement la topologie s’observe lorsque lesdysont proportionnelles aux dx, au moins pour des petites distances dedy.

Dans le cadre de l’ACC, [Demartines and Hérault, 1997] ont adapté cette représentation à leur algorithme. Dès lors, l’axe nommé précédemment dx représente désormais les distances d^∗_ij et l’axedyest remplacé par dij. On voit aisément que l’on compare, cette fois-ci, les distances de l’espace d’origine à celles de l’espace réduit. Ainsi, de la même manière, la topologie initiale est respectée si on obtient une bonne corrélation entre les distances de ces deux espaces. Des détails supplémentaires seront donnés à la section 6.4.2.

Comme l’ont fait [Demartines and Hérault, 1997] pour l’ACC, on peut généraliser cette repré- sentation à beaucoup d’autres méthodes de réduction. En effet, comme évoqué en introduction de cette partie, la plupart des approches de réduction non linéaire sont fondées sur des notions de topologie et de voisinage, similaires à l’ACC.

2.3.3.4 Illustrations

La figure 2.15 propose deux exemples traditionnellement employés dans la démonstration et l’évaluation des méthodes de projection non linéaire : le « petit suisse » (swiss role) et les deux anneaux imbriqués.

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2

0 2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5

-1 -0.5 0 0.5 1

-0.5 -1 0.5 0 1 -1 -0.5 0 0.5 1

Fig.2.15 – Ensembles de données, du « petit suisse » (swiss role) et de deux anneaux imbriqués, utilisés pour comparer les méthodes de projection.

Trois méthodes (ACP, ACC et LLE) sont comparées pour chaque exemple (voir figure 2.16).

Pour chaque méthode, la représentation dy−dxest proposée afin d’évaluer, grâce aux distances entre les observations, la déformation obtenue lors du passage à une dimension plus réduite.

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 0

0.5 1 1.5 2 2.5 3 3.5 4 4.5

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5

0 1 2 3 4 5 6 7 8

-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5

-3 -2 -1 0 1 2 3 4 5

-4 -3 -2 -1 0 1 2 3 4 5

-3 -2 -1 0 1 2 3

-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5

0 0.5 1 1.5 2 2.5 3 3.5 4

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5

-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5

-4 -3 -2 -1 0 1 2 3

0 1 2 3 4 5 6

-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5

-1 -0.5 0 0.5 1 1.5

0 0.5 1 1.5 2 2.5 3 3.5 4

Fig.2.16 – Comparaison de projections linéaires et non linéaires sur l’exemple du « petit suisse » (swiss role) et de deux anneaux imbriqués.

On peut observer le pouvoir des méthodes non linéaires à « étirer » et « déplier » les données, facilitant l’extraction et la visualisation des structures non linéaires. De plus, pour l’ACC, la représentationdy−dxmontre dans l’espace de projection une préservation des petites distances et un allongement des grandes distances, ce qui implique l’étirement des observations.

No documento prédiction de la syncope chez l’homme (páginas 82-87)