• Nenhum resultado encontrado

Influence de la taille de l’´ echantillon et de la normalisation

DEUXIEME PARTIE

A. Influence de la taille de l’´ echantillon et de la normalisation

Nous effectuons deux types de sous-´echantillonnage des donn´ees :

par tirage al´eatoire de 5000 exemples par classe (not´e 8×5000 (RN)) ;

3Nous reviendrons ult´erieurement sur le choix ded.

96 VI. S´election automatique des attributs

par Quantification Vectorielle (QV) (LBG) en utilisant 1024 centro¨ıdes par classe (not´e 8×1024 (QV)).

Les algorithmes de s´election sont ex´ecut´es `a la fois sur l’´echantillon disponible dans son int´egralit´e (not´e ) et sur les deux sous-ensembles RN et QV, et ce avec et sans normalisation des donn´ees (normalisations “min-max” et “µσ”,cf. section VI-6-A).

En raison de la complexit´e importante de l’algorithme SVM-RFE, celui-ci n’a pu ˆetre test´e que sur les sous-´echantillons de donn´ees (RN et QV)4. En outre, cette approche n’a pas produit de solution (dans un d´elai acceptable) en absence de normalisation.

1) Sorties des algorithmes de s´election

Dans un premier temps nous examinons la variation des attributs s´electionn´es en sortie des algorithmes, en fonction de l’´echantillon utilis´e et de la normalisation. Les r´esultats sont syn- th´etis´es dans le tableau VI.1, dans lequel nous indiquons par un mˆeme symbole (“×”,””, etc.) le mˆeme sous-ensemble d’attributs s´electionn´es.

Les remarques suivantes peuvent ˆetre faites concernant l’effet de la normalisation :

– l’algorithme Fisher n’est pas sensible `a la normalisation des donn´ees, les mˆemes attributs en sortie sont obtenus avec ou sans normalisation. Le fait de ne pas retrouver les mˆemes sous-ensembles d’attributs par QV est plutˆot dˆu `a l’impact de la normalisation sur le processus de quantification. Le r´esultat est pr´evisible puisque la normalisation ne change pas la tendance du crit`ere optimis´e.

– La normalisation “min-max” ne modifie pas le r´esultat de la s´election IRMFSP effectu´ee sans normalisation. Par contre, la sortie est modifi´ee par la normalisation µσ. L’´etape d’orthogonalisation intervenant dans cet algorithme fait qu’il ne se d´eroule pas avec la normalisation µσ de la mˆeme fa¸con qu’en absence de normalisation (ou avec la normalisa- tion “min-max”), `a cause de l’op´eration de soustraction des moyennes des attributs.

– Tous les autres algorithmes sont r´eactifs `a la normalisation : les attributs s´electionn´es varient sensiblement pour des normalisations diff´erentes (les normalisations modifient les tendances des crit`eres optimis´es).

4Cet algorithme a ´et´e initialement propos´e pour des probl`emes dans lesquelsD > N, ce qui n’est pas le cas ici.

VI-6. Comparaison du comportement des Algorithmes de S´election d’Attributs 97 Nb exemples 8×5000 (RN) 229543 () 8×1024 (QV)

Normalisation - min-max µσ - min-max µσ - min-max µσ

Fisher × × × ×

IRMFSP

MUTINF

SVM-RFE ! ! ! ! !

Tab. VI.1 Impact de la normalisation et la taille de l’´echantillon sur le r´esultat de la s´election d’attributs.

“min-max” d´esigne le proc´ed´e de normalisation en amplitude et “µσ” la normalisation par rapport `a la moyenne et l’´ecart-type (cf. section VI-2). Un mˆeme symbole (“×”,””, etc.) indique un mˆeme sous- ensemble d’attributs s´electionn´es. Lorsqu’une case est vide, c’est que les attributs s´electionn´es sont

diff´erents. Les calculs non-aboutis sont indiqu´es par des cases noires.

Par ailleurs, toutes les approches sont sensibles au sous-´echantillonnage des donn´ees. Notons que l’approche Fisher semble la plus robuste, puisque les sous-ensembles d’attributs obtenus en utilisant le sous-´echantillon 8×5000 (RN) ne diff`erent que de deux attributs (2/40) par rapport au sous-ensemble s´electionn´e en exploitant l’´echantillon complet.

2) Performances des ASA relativement `a la normalisation et l’´echantillon

Afin de mesurer efficacement les performances des algorithmes de s´election consid´er´es, nous exploitons les r´esultats de classification de 8 classes d’instruments par κ-NN, GMM, et SVM (cf.section V) parall`element aux crit`eres heuristiques propos´es (cf.section VI-5). L’attention est ici port´ee sur les performances relatives des ASA, par cons´equent nous exploitons des r´eglages

“g´en´eriques” des classificateurs, permettant une faible complexit´e tout en ´evitant les probl`emes de sur-apprentissage (overfitting)5. Ainsi :

– pour les κ-NN, le param`etre κ est choisi comme la racine carr´ee du nombre d’exemples d’apprentissage (κ=489) ;

– pour les GMM, nous utilisonsM=8 composantes de m´elange ; des valeurs plus ´elev´ees ne permettent pas forc´ement d’am´eliorer les performances) ;

– pour les SVM, nous exploitons un noyau lin´eaire et un param`etre de p´enalit´e C adaptatif (r´egl´e `a partir des donn´ees selon (VII.1)).

5Nous reviendrons sur le r´eglage “optimal” des classificateurs au chapitre VII.

98 VI. S´election automatique des attributs

Le tableau VI.2 pr´esente pour chaque ASA les normalisations et les ´echantillons de donn´ees produisant les “meilleures” valeurs des crit`eres ainsi que celles qui sont jug´ees les moins satisfai- santes par ces crit`eres.

Crit`ere eparabilit´e (S) Entropie (H) Pire Meilleur Pire Meilleur

PCA

RN, - QV, - QV, - ,µσ

0.004 0.006 0.8 4.1

Fisher RN, (*) QV, - QV, - , (*)

0.045 0.056 0.3 2.5

IRMFSP RN, (*) QV,µσ QV, - , (*)

0.038 0.049 0.4 2.9

MUTINF

, - QV, - , - RN,µσ

0.040 0.053 0.9 2.6

SVM-RFE RN, mn-mx QV, mn-mx QV,µσ RN,µσ

0.036 0.052 1.6 2.8

Tab. VI.2 Extrˆema des crit`eres heuristiques pour les diff´erents ASA. Les colonnes “Meilleur” (res- pectivement, “Pire”) pr´esentent les cas les plus performants (respectivement, les moins performants) en indiquant la valeur des crit`eres ainsi que la normalisation et l’´echantillon utilis´e par l’ASA echantillon,normalisation). Le symbole (*) indique que toutes les configurations possibles produisent

le mˆeme r´esultat.

Le tableau VI.3 pr´esente pour chaque ASA associ´e `a une normalisation et un ´echantillon de donn´ees d’apprentissage, les r´esultats de classification de l’´echantillon de test SUB-INS-T. Ces r´esultats sont obtenus en moyennant sur les trois classificateurs les taux de bonne recon- naissance moyens obtenus pour les 8 classes d’instruments consid´er´ees. Notons que l’ensemble de test complet () est utilis´e pour l’apprentissage des classificateurs, ind´ependamment du sous-´echantillon utilis´e par les ASA (, RN ou QV), ce qui permet de mesurer l’influence de l’´echantillon sp´ecifiquement sur le comportement des algorithmes de s´election. Par ailleurs, l’effet de la normalisation sur les performances des ASA, en termes de taux de reconnaissance, doit ˆetre analys´e avec prudence puisque nous utilisons, pour des raisons de simplicit´e, les mˆemes normalisations pour la s´election des attributs et l’apprentissage des classificateurs. La normalisation peut alors avoir un double impact : sur les performances de l’algorithme de s´election et sur les performances de classification.

VI-6. Comparaison du comportement des Algorithmes de S´election d’Attributs 99

De plus, les r´esultats obtenus en utilisant une transformation par PCA vers un espace de mˆeme dimension d= 40 sont pr´esent´es afin de servir de r´ef´erence.

Nb exemples 5×5000 (RN) 229543 () 8×1024 (QV) Normalisation - min-max µσ - min-max µσ - min-max µσ PCA 43.9 62.1 59.7 44.2 62.1 60.5 43.8 63.1 58.7 Fisher 51.3 62.5 64.4 51.2 62.6 64.7 49.1 63.4 63.9 IRMFSP 45.3 61.4 61.7 37.1 62.9 63.9 47.5 57.6 62.4 MUTINF 61.9 63.2 64.4 57.9 61.2 62.2 61.6 63.3 64.5

SVM-RFE - 61.6 61.6 - - - - 63.2 63.3

Tab. VI.3 Performances des ASA et de la transformation par PCA en termes de taux de bonne reconnaissance moyens relativement `a la normalisation et l’´echantillon utilis´es. 8 classes d’instruments, 40 attributs s´electionn´es `a partir de 162 possibles, 229543 exemples d’apprentissage et 270898 exemples de test. Pour chaque ASA, les meilleurs r´esultats (aux intervalles de confiance `a 90% pr`es : rayon<

0.2%) par rapport `a la normalisation sont pr´esent´es en gras. Les meilleurs r´esultats, toutes configurations confondues, sont soulign´es.

A partir de ces deux tableaux nous observons que :

– dans tous les cas, les performances de classification obtenues sans normalisation sont nettement inf´erieures `a celles obtenues avec l’une des deux normalisations : on constate plus de 20% d’am´elioration dans certains cas (pour IRMFSP par exemple). Notons cependant que la normalisation a un impact plus important sur le processus de classification que sur la phase de s´election en soi puisque nous savons que pour les approches Fisher et IRMFSP, les mˆemes attributs sont s´electionn´es quelle que soit la normalisation (cf.section VI-6-A.1).

Il apparaˆıt que le crit`ere de s´eparabilit´eS ne permet pas de traduire ce comportement de fa¸con syst´ematique puisqu’il privil´egie dans tous les cas la sortie des ASA bas´es sur le sous-

´echantillon QV. Dans ce cas il semble que la normalisation a un impact plus important sur le processus de “clustering” et nous relevons des valeurs deS´elev´ees avec des donn´ees non normalis´ees. Par contre, le crit`ere d’entropie de repr´esentation H refl`ete bien l’importance de la normalisation.

– La normalisation “µσ” donne lieu globalement aux meilleures performances avec la plupart des ASA (Fisher, IRMFSP, MUTINF, SVM-RFE), alors que la normalisation “min-max”

semble mieux adapt´ee `a la transformation par PCA, et elle est tout aussi efficace que la normalisation “µσ” avec SVM-RFE. En se rappelant que les deux normalisations “µσ” et

100 VI. S´election automatique des attributs

“min-max” produisent les mˆemes attributs en sortie de Fisher et de IRMFSP, nous d´edui- sons que la normalisation “µσ” est la plus adapt´ee au fonctionnement des classificateurs consid´er´es (en moyenne). Nous reviendrons dans la suite sur le comportement de chaque classificateur en particulier vis `a vis de la normalisation. Notons que le crit`ereHs´electionne syst´ematiquement la solution “µσ” quel que soit l’ASA.

– Les performances obtenues en effectuant la s´election sur les sous-´echantillons sont globa- lement peu d´egrad´ees par rapport `a celles atteintes en exploitant l’int´egralit´e des donn´ees alors mˆeme que nous avions not´e `a la section VI-6-A.1 que les attributs en sortie variaient avec des ´echantillons diff´erents. Cela indique, eu ´egard `a la redondance des attributs de d´epart, que les ASA consid´er´es pr´esentent une certaine robustesse car les diff´erents sous- ensembles s´electionn´es `a partir d’´echantillons diff´erents produisent des taux de reconnais- sance comparables : il existe en fait diff´erentes solutions d’attributs aux performances

´equivalentes.

– Par ailleurs, nous relevons que le sous-´echantillonnage par QV est une alternative int´e- ressante car elle permet d’atteindre des taux de reconnaissance parfois meilleurs qu’avec l’´echantillon complet (avec PCA et MUTINF) tout en all´egeant la complexit´e de la s´election (alors effectu´ee sur moins d’exemples). D’ailleurs le crit`ere de s´eparabilit´e ´elit dans tous les cas la sortie des ASA bas´es sur le sous-´echantillon QV. Il est raisonnable de penser que cela est dˆu `a un effet de “d´e-bruitage”, c’est-`a-dire de limitation de l’impact des exemples aberrants (outliers) sur le r´esultat d’un ASA, ce qui expliquerait aussi le fait que l’approche MUTINF se comporte mieux en utilisant les sous-´echantillons.