• Nenhum resultado encontrado

Approches linéaires

No documento prédiction de la syncope chez l’homme (páginas 76-82)

2.3 Extraction de caractéristiques

2.3.2 Approches linéaires

Une bonne préparation des données est donc un prérequis incontournable au succès de l’ana- lyse de données. Aussi, selon [Jermyn et al., 1999], 60 à 80% du temps employé à l’analyse des données devrait être consacré à la phase de préparation. Bien que la littérature manifeste un in- térêt modéré à la préparation des données, le lecteur pourra néanmoins trouver des informations supplémentaires dans [Famili et al., 1997; Hernández and Stolfo, 1998; Pyle, 1999].

associés aux axes sont ordonnés suivant la variance restituée sur chacun d’eux, qui elle est obtenue par les valeurs propresλ. Par conséquent, ces valeurs propres nous donnent l’information sur la contribution d’inertie de chacun des p axes principaux. Ainsi, le pourcentage d’inertie expliquée Iq par les q premiers axes est donné par :

Iq = Pq k=1

λk Pp i=1

λi

, q≤p . (2.2)

La projection d’une observation xi de dimensionp sur lesq nouveaux axes, permet d’obtenir les nouvelles coordonnées yi de cette observation, telles que chacun des q éléments du vecteur yi est obtenu par yj =xiuj, avec j = 1, . . . , q et uj donne le vecteur propre associé à la j-ème composante principale. Dès lors, la projection de toutes les observations disponibles donne les nouvelles caractéristiques appelées composantes principales (CPs). Chacune des q composantes principales est une combinaison linéaire despvariables initiales, telle que lak-ième CP est définie par :

cpk=Xuk. (2.3)

Les CPs sont des vecteurs indépendants et sont donc non corrélées linéairement entre elles, évitant la présence de variables redondantes. Géométriquement, la première composante princi- pale, notéecp1, donne la direction du nuage des observations qui suit l’axe d’étirement maximal du nuage, comme le montre la figure 2.8.

Fig. 2.8 – Illustration de la réduction de dimension par l’analyse en composantes principales.

Cette transformation linéaire respecte la topologie globale des données originales, mais dans laquelle les axes n’ont pas forcément de signification par rapport à la structure des données. Ce- pendant, une bonne interprétation de l’ACP permet de dégager un certain nombre d’informations.

Choix du nombre de composantes principales à conserver .

La variance de chacune des CPs est donnée dans l’ordre décroissant des valeurs propres, par : λ1, λ2, . . . , λp. Ainsi, en éliminant les axes où la variance est faible, on obtient la réduction de la dimension. L’information sur la variance, associée à chaque axe, ne permet pas de choisir for- mellement le nombre de composantes à conserver. D’autre part, une décroissance régulière des valeurs propres indique que les données sont peu structurées et rend par conséquent difficile le choix de la dimension de l’espace de projection. Plusieurs critères permettent d’apporter une

solution à ce problème, notamment la règle de Kaiser [Kaiser, 1961]. Cette règle est certaine- ment la plus utilisée : on conserve les CPs correspondant aux valeurs propres supérieures à la moyenne des valeurs propres. Ainsi, si les observations sont centrées réduites (cf. section 2.2.3), on retient uniquement les CPs correspondant à des valeurs propres supérieures à 1. La règle de Kaiser appliquée à l’exemple donné à la figure 2.9 conserverait les quatre premières composantes principales. Une autre approche, fondée sur une analyse graphique, est le « test de l’éboulis » (scree test [Cattell, 1966]). Ce critère consiste à tracer les valeurs propres dans l’ordre décroissant et conserver les CPs jusqu’à la première rupture de la pente des valeurs propres (voir figure 2.9, où l’on conserverait les cinq premières composantes principales). Plus récemment, [Karlis et al., 2003] proposent de tenir compte de la dispersion des valeurs propres ; ainsi, ils conservent les valeurs propres supérieures au critère suivant :

λ >1 + 2

rp−1

n−1. (2.4)

Rappelons que p et n définissent respectivement le nombre de variables et le nombre d’obser- vations. Enfin, un dernier type d’approche se fonde sur le pourcentage d’inertie à conserver, généralement de l’ordre de 80 à 90%. Cette approche, critiquée par [Saporta, 2006], est cepen- dant souvent employée. L’auteur condamne son utilisation en indiquant que l’on ne peut pas donner un seuil universel sans tenir compte de la taille des observations (matrice X) à analyser et des corrélations entre les variables.

2 4 6 8 10 12

Fig.2.9 – Comparaison de critères pour le choix du nombre de composantes principales à conser- ver.

Interprétation .

Plusieurs interprétations peuvent être faites à partir de l’ACP, notamment sur la visua- lisation des relations entre les variables, ainsi que sur les groupements d’observations et des variables. Pour plus de détails, le lecteur pourra se référer aux ouvrages de [Saporta, 2006;

Lebart et al., 2006], mais aussi celui de [Georgin, 2002]. Ce dernier offre de nombreux exemples très détaillés et exploitables à l’aide du logiciel Microsoft® Excel.

Nous avons déjà abordé le pourcentage d’inertie expliquée pour chaque axe principal, qui per- met d’observer la quantité d’informations restituées sur chaque axe. L’ACP est une technique qui autorise de faire une synthèse sur les données initiales, en apportant de nombreuses informations

sur leur structure. Dans les paragraphes suivants, nous nous intéresserons particulièrement à deux interprétations.

La première est la qualité de la représentation des variables dans les composantes principales. Celle-ci permet de déterminer la signification à donner aux nouvelles caractéris- tiques, soit les composantes principales, en les reliant aux variables originales. Tout d’abord, il faut projeter les variables sur les axes principaux, ainsi, les coordonnées factorielles desp« points

− variables » sur l’axe j sont obtenues par uj

λj. Par conséquent, en appliquant ce calcul à toutes les composantes principales, nous pouvons obtenir la qualité de la représentationQij (2.5) d’une variable i dans la composante j. Sachant que uij représente le i-ème élément du vecteur propre associé à laj-ème composante principale.

Qij =

³pλjuij´2

Pp l=1

¡√λluil¢2 (2.5)

Cette approche, évoquée dans les ouvrages exposant les aspects théoriques de l’ACP, est ce- pendant très peu utilisée dans les applications faisant intervenir une ACP. Une explication plus détaillée est proposée au chapitre 6, relatant les contributions apportées sur l’extraction d’infor- mation et l’interprétation des méthodes de projection.

La seconde interprétation, fondée sur la représentation simultanée des observations et des variables, est obtenue par le diagramme de double projection, nommé plus couramment biplot [Gabriel, 1971; Smith and Cornell, 1993; Gower and Hand, 1996]. Cette représentation est réalisée dans l’espace réduit et son objectif est d’interpréter directement sur le diagramme les deux éléments suivants : les projections des observations sur les axes principaux et les corrélations entre les variables et les CPs. Ces corrélations sont obtenues à partir des « points− variables », les détails de la construction du biplot peuvent être également trouvés dans [Georgin, 2002;

Lebart et al., 2006]. Le graphique obtenu identifie alors les relations entre des variables et des groupes d’observations dans l’espace réduit. Ainsi, si une CP a une forte corrélation avec une variable initiale, alors une grande valeur de cette CP pour un groupe d’observations sera associée à une grande valeur de la variable pour ces mêmes observations.

2.3.2.2 Multidimensional scaling

Lemultidimensional scaling (MDS) est une autre technique très populaire. Elle peut être tra- duite par « mise à l’échelle multidimensionnelle » ou encore « positionnement multidimensionnel » [Torgeson, 1952; Shepard, 1962; Borg and Groenen, 2005]. Cette technique consiste à trouver une projection dans un espace de faible dimension en préservant au mieux les distances entre chaque paire d’observations. L’objectif reste identique à l’ACP, mais la présentation des données est diffé- rente. Dans le cas de MDS, nous n’avons plus la représentation « observations−variables », mais une matrice contenant lesdistances ou les similarités (ou dissimilarités) entre les observations (comme dans l’exemple proposé au tableau 2.2). Si ces distances sont euclidiennes, le résultat du MDS sera similaire à celui obtenu par l’ACP. Dans l’autre cas, en présence de mesures de proximité (similarités ou dissimilarités), où l’information est de nature ordinale, nous pouvons retrouver une version étendue de l’algorithme nomménonmetric MDS.

Son objectif peut être résumé, par un désir de reconstituer une « carte » des observations à partir d’une matrice de proximité, en recherchant une représentation des observations dans un espace euclidien.

L’exemple le plus populaire est le repositionnement des villes sur une carte, à partir de l’in- formation sur les distances les séparant. Ainsi, on dispose d’une matrice donnant les distances entre chaque ville (tableau 2.2), le MDS doit restituer le positionnement des villes sur la carte.

AMIENS ANGERS · · · LE MANS · · · STRASBOURG TOULOUSE

AMIENS 0 342 · · · 238 · · · 440 690

ANGERS 342 0 · · · 104 · · · 679 468

... ... ... ... ... ... ... ...

LE MANS 238 104 · · · 0 · · · 596 524

... ... ... ... ... ... ... ...

STRASBOURG 440 679 · · · 596 · · · 0 765

TOULOUSE 690 468 · · · 524 · · · 765 0

Tab. 2.2 – Matrice représentative de l’ensemble de données employé par la méthode MDS pour reconstituer le positionnement des villes sur une carte.

Le résultat obtenu est montré à la figure 2.10(a). Nous pouvons comparer ce résultat au positionnement des villes à partir de leurs latitudes et longitudes donné à la figure 2.10(b). On remarque une forte similitude, validant par conséquent le repositionnement MDS.

-1 0 1 2 3 4 5 6 7 8

42 43 44 45 46 47 48 49 50 51

CARCASSONNE MARSEILLE CAEN

TOULOUSE

BORDEAUX GRENOBLE

ANGERS LAVAL

LILLE

PAU

PERPIGNAN

STRASBOURG

LYON LE MANS

ANNECY PARIS

ROUEN AMIENS

AUXERRE

BELFORT

longitude

latitude

-400 -300 -200 -100 0 100 200 300 400

-500 -400 -300 -200 -100 0 100 200 300 400 500

CARCASSONNE

MARSEILLE CAEN

TOULOUSE BORDEAUX

GRENOBLE ANGERS

LAVAL

LILLE

PAU

PERPIGNAN STRASBOURG

LYON LE MANS

ANNECY PARIS

ROUEN AMIENS

AUXERRE BELFORT

MDS 1

MDS 2

Fig. 2.10 – Projection par la méthode multidimensional scaling pour reconstituer le positionne- ment des villes sur une carte.

2.3.2.3 Analyse factorielle discriminante

Dans l’analyse de données étiquetées, où l’appartenance des observations aux classes est connue, l’ACP ne garantit pas une projection permettant de faciliter la séparation des classes.

La figure 2.11(a) illustre parfaitement cette remarque [Theodoridis and Koutroumbas, 2006] : les deux classes («x» et « o ») suivent une distribution gaussienne de même matrice de covariance (le vecteur propreu1 correspond à la plus grande valeur propre). Ainsi, nous pouvons remarquer que la projection des données sur ce premier axe entraîne un recouvrement des deux classes et ne permet donc pas de les discriminer correctement.

Dans un contexte de classification supervisée, l’appartenance des observations aux classes est une information utile et qui, si elle le peut, doit être considérée tout au long du processus de construction du modèle. Ainsi, contrairement à l’ACP, l’analyse factorielle discriminante (AFD) recherche de nouvelles directions (ou caractéristiques) sur lesquelles les projections des classes

sont bien séparées ; ces directions sont appelées axes factoriels discriminants. Le critère de pro- jection est, cette fois-ci, la maximisation du rapport entre la variance inter-classe et la variance intra-classe.

Comme évoqué à la section 1.3.2.1, dans le cadre de classification linéaire, nous avons cherché une fonction discriminante par une réduction de dimension. Pour cela, nous avons abordé la fonc- tion discriminante de Fisher [Fisher, 1936], donnant l’hyperplan discriminant comme une fonction orthogonale à la droite de projection. Cette droite de projection sépare aux mieux la moyenne de chaque classe tout en réduisant leur variance, et elle correspond à l’axe obtenu par l’AFD, repré- sentatif de la nouvelle caractéristique. C’est dans ce contexte que nous pouvons voir que l’approche de Fisher déborde le simple cadre de la discrimination [Bishop, 2006]. Le lecteur pourra donc se ré- férer à la section 1.3.2.1 et aux nombreux ouvrages décrivant cette méthode, comme [Confais, 2003;

Saporta, 2006; Tufféry, 2007].

L’illustration 2.11 compare les projections obtenues sur le premier axe de l’ACP et de l’AFD.

Ainsi, nous pouvons apercevoir que la première caractéristique résultante de l’AFD semble plus apte à conserver la séparation des données, contrairement à l’ACP qui, sur sa première composante principale, obtient un recouvrement des classes.

Fig.2.11 – Comparaison de la projection par une analyse en composantes principales et par une analyse factorielle discriminante [Theodoridis and Koutroumbas, 2006].

2.3.2.4 Conclusions

Nous avons décrit l’ACP comme une méthode de réduction de dimension, autorisant notam- ment une visualisation des données dans leur globalité. Cette méthode permet de décorréler les variables de l’espace d’origine dans un nouvel espace et de débruiter les données par l’élimination des axes considérés comme insignifiants. En maximisant la variance des observations projetées, l’ACP demeure une méthode très sensible aux valeurs extrêmes. Aussi, l’ACP ne traduit que des liaisons linéaires entre les variables.

La facilité d’implémentation rend néanmoins ces méthodes de projection linéaire très popu- laires et justifie leur large utilisation. Cependant, comme indiqué auparavant, ces méthodes ne peuvent pas détecter des structures ou des relations non linéaires présentes dans les données, ce qui oblige selon les applications, à utiliser d’autres approches.

No documento prédiction de la syncope chez l’homme (páginas 76-82)