Critères d’évaluation - Sélection de variables

2.4 Sélection de variables

2.4.2 Critères d’évaluation

Rappelons que nous sommes dans le cadre de l’amélioration des performances d’un système de classification par la sélection de variables. À ce titre, il est nécessaire de définir une mesure de pertinence, faisant état de la qualité de la variable ou du sous-ensemble de variables sélectionnées.

[Bennani, 2001] définit une variable pertinente telle que sa suppression entraîne une détérioration des performances du système de classification.

Idéalement, en classification supervisée, le critère d’évaluation d’un sous-ensemble de variables pourrait être fondé sur le taux de classification. Ce dernier serait obtenu par l’évaluation des performances de généralisation du modèle, une fois l’apprentissage réalisé ; les entrées de ce modèle

seraient composées des variables pré-sélectionnées. Les méthodologies d’évaluation des performances d’un modèle seront au chapitre 3. Cependant, comme le note judicieusement [Bishop, 1995], les procédures d’apprentissage peuvent être très coûteuses, notamment avec les réseaux de neurones, et répéter le processus d’évaluation pour chaque sous-ensemble pourrait devenir exces- sivement long. [Bishop, 1995] suggère alors d’utiliser des méthodes de classification plus simples et plus rapides, telles que des techniques linéaires (cf.section 1.3), pour sélectionner les variables et, ainsi, générer le modèle « final » avec des méthodes de classification plus sophistiquées à partir du sous-ensemble préalablement déterminé. Cependant, par cette approche, le sous-ensemble de variables, obtenu durant la sélection, ne sera pas forcément optimal pour la conception du modèle.

En effet, [Liu and Yu, 2002] soulignent judicieusement qu’un sous-ensemble de variables peut être optimal suivant un certain critère et peut ne plus l’être pour un autre. Ils notent ainsi l’importance et l’influence du critère d’évaluation dans le processus de sélection. Ainsi, pour un outil de classification donné, la sélection du sous-ensemble peut être biaisée par le taux de classification obtenu, et par conséquent, ce même sous-ensemble peut donner des taux de classification bien moins optimaux pour d’autres classifieurs. Ce processus de recherche appartient à une catégorie de méthodes nomméewrapper, qui suggère l’utilisation d’un algorithme d’apprentissage dans la phase de sélection de variables [Kohavi and John, 1997].

Un autre ensemble de méthodes permet de rechercher des sous-ensembles de variables, sans utiliser un algorithme d’apprentissage : cette catégorie de méthodes est nommée filter [Kohavi and John, 1997; Hall, 2000; Yu and Liu, 2003]. En effet, en présence d’observations étiquetées, le choix d’un sous-ensemble de variables peut se faire en considérant l’habilité du sous-ensemble à discriminer les classes. Dans ce cas, la pertinence d’une variable pourrait être définie par une mesure de séparabilité des classes, ou encore, par une évaluation du recouvrement entre les classes [Theodoridis and Koutroumbas, 2006]. Cette pertinence s’obtiendrait indépendamment d’un algorithme d’apprentissage.

Les deux catégories, filter et wrapper, se distinguent donc en fonction de la participation de l’algorithme d’apprentissage dans la sélection du sous-ensemble de variables ; la figure 2.20 illustre ces deux approches.

Fig. 2.20 – Approches à la sélection de sous-ensembles de variables (filter et wrapper) fondées sur l’intégration d’un algorithme d’apprentissage [Yang and Honavar, 1997].

Des auteurs, comme [Blum and Langley, 1997], font référence à une autre catégorie, appelée embedded, qui réalise la sélection de variables parallèlement à l’apprentissage. Plus couramment, on joindra aux deux catégories principales (filter et wrapper), une dernière catégorie nommée hybride [Das, 2001; Xinget al., 2001; Sebban and Nock, 2002]. Celle-ci tente de tirer avantage des précédentes approches, en exploitant leurs différents critères d’évaluation dans plusieurs étapes de la recherche du sous-ensemble [Liu and Yu, 2005]. Cette dernière approche peut être privilégiée en présence d’un nombre de variables très important. Dans la pratique, on pourrait dans une première étape faire une pré-sélection par des méthodes de type filter, afin de réduire le nombre de variables. Puis, pour optimiser la sélection, une deuxième étape fondée sur une approche de type wrapper pourrait être réalisée afin d’obtenir la sélection du sous-ensemble final.

Dans la présentation générale des approches évaluant la pertinence d’un sous-ensemble, nous avons abordé l’utilisation du taux de classification comme critère d’évaluation des approches de type wrapper. Ce critère est obtenu nécessairement par un algorithme d’apprentissage. Concer- nant les approches de type filter, [Webb, 2002; Theodoridis and Koutroumbas, 2006] décrivent rigoureusement plusieurs mesures d’évaluation, afin d’estimer la capacité d’une variable ou d’un sous-ensemble à séparer les classes. Nous pouvons les regrouper en plusieurs catégories.

2.4.2.1 Mesures de distances probabilistes

Les mesures de distances probabilistes sont parfois appelées mesures de discrimination, ou encore, mesures de divergence [Theodoridis and Koutroumbas, 2006].

À la section 1.2.2, nous avons évoqué la règle de décision de Bayes, où pour deux classes C1

etC2, nous attribuons le vecteur d’entréexà la classeC1, si P(C1|x)> P(C2|x). Par conséquent, l’erreur de classification, et donc la capacité de discrimination, s’identifie par l’écart entre les deux probabilités a posteriori P(C1|x) etP(C2|x). Connaissant la relation liant ces probabilités aux densités de probabilité, nous pouvons désormais retrouver cette même information dans le rapport entre les densités de probabilitép(x|C1)etp(x|C2). Dans leur démonstration, [Theodoridis and Koutroumbas, 2006] nous permettent d’aboutir à la relation (2.14). Ainsi, pour évaluer la capacité d’une variablexà discriminer deux classes, nous pouvons utiliser le calcul de la distance probabiliste, donné par la relation suivante, connue aussi sous le nom de divergence :

J_D = Z +∞

−∞

[p(x|C1)−p(x|C2)] log

µp(x|C1) p(x|C2)

dx . (2.14)

La figure 2.21 montre l’évolution de cette mesure en fonction du recouvrement entre les deux classes. La valeur du critère JD est l’aire sous la courbe en pointillés (notée divergence), soit la zone hachurée. Ainsi, nous pouvons observer que cette mesure est maximale lorsque le recouvrement des classes est minimal.

Sous certaines conditions, il est fréquent d’estimer les densités de probabilité par des gaus- siennes, soit µ₁ et µ₂ les moyennes et Σ₁ etΣ₂ les matrices de covariances respectivement pour les deux classesC1 etC2.

J_D = 1

2trace{Σ⁻₁¹Σ₂+ Σ⁻₂¹Σ₁−2I}+1

2(µ₁−µ₂)^T ¡

Σ⁻₁¹Σ⁻₂¹¢

(µ₁−µ₂), (2.15) où I est la matrice identité. D’autre part, si nous supposons que les matrices de covariances sont égales, soit Σ₁ = Σ₂= Σ, alors la mesure de divergence devient :

J_D = (µ₁−µ₂)Σ⁻¹(µ₁−µ₂). (2.16)

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 0

0.5 1 1.5 2 2.5 3 3.5 4 4.5

Note : Le critère JD est l’aire sous la courbe en pointillés (notée divergence), il correspond donc à la zone hachurée.

Fig.2.21 – Observation de la mesure de divergence (distance probabiliste) en fonction du niveau de recouvrement des classes.

Cette relation est tout simplement la distance probabiliste la plus connue, nommée distance de Mahalanobis. Ces relations illustrent un cas à deux classes, mais nous pouvons facilement les généraliser aux cas multiclasses [Webb, 2002; Theodoridis and Koutroumbas, 2006]. [Webb, 2002] propose, en annexe de son ouvrage, un nombre important d’autres mesures de distances probabilistes, toujours fondées sur les densités de probabilité.

2.4.2.2 Mesures de distances fondées sur les matrices de covariances

Conformément à la section 1.3.2.1, où nous avons abordé la classification linéaire, nous notons respectivement S_B et S_W, les matrices de covariances interclasse et intraclasse. [Webb, 2002;

Theodoridis and Koutroumbas, 2006] proposent plusieurs critères basés sur ces matrices, afin d’évaluer la capacité d’une variable ou d’un sous-ensemble de variables à séparer des classes. Le critère le plus populaire est certainementJ₁ :

J₁=trace{S⁻_W¹S_M}, (2.17)

notons queS_M =S_W +S_B. Dans quelques applications, la matriceS_M de J₁ est remplacée par S_B, tout comme pour le critère J2 :

J₂ = trace{S_M}

trace{S_W}. (2.18)

Aussi, l’opérateur « trace » est parfois remplacé par le « déterminant », comme dans le critère J3 :

J3= det{S_M}

det{S_W}. (2.19)

La figure 2.22(a) montre que le critère J₂ est indépendant de l’élargissement de la dimen- sion, soit à l’augmentation du nombre de variables, contrairement au critèreJ₃. La figure 2.22(b) illustre l’évolution des critères en fonction de l’augmentation du recouvrement entre les classes, lorsque la variance interclasse diminue.

0 2 4 6 8 10 12 14 16 18 20 0

20 40 60 80 100 120 140

0 2 4 6 8 10 12

-1.5 -1 -0.5 0 0.5 1 1.5

Note : (à gauche) Évolution des critères en fonction de l’augmentation du nombre de variables considérées. (à droite) Évolution des critères en fonction de l’augmentation du recouvrement.

Fig.2.22 – Observation de l’évolution des critères basés sur les matrices de covariances en fonction de différentes distributions des observations.

Comme nous l’avons montré, les trois critères permettent d’évaluer la pertinence d’un sous- ensemble de variables. Cependant, en considérant uniquement l’évaluation d’une variable, nous pouvons observer une simplification des expressions des matrices de covariance interclasse et intraclasse, respectivement parS_B= (µ₁−µ₂)² et parS_W =σ₁²+σ₂². Cette nouvelle formulation nous permet de faire le parallèle avec la fonction discriminante de Fisher (cf. section 1.3.2.1), où, µ₁ etσ₁ sont respectivement la moyenne et la variance des observations liées à la classe C1. Ainsi, en combinant S_B etS_W, nous retrouvons la relation appelée critère de Fisher. Rappelons que ce critère, que l’on notera FDR (pourFisher Discriminant Ratio), minimise le ratio entre la variance interclasse et la variance intraclasse :

F DR= (µ₁−µ₂)²

σ₁²+σ₂² . (2.20)

[Theodoridis and Koutroumbas, 2006] généralisent ce critère au traitement deK classes :

F DR_M = XK

XK j6=i

(µ_i−µ_j)²

σ_i²+σ_j² . (2.21)

2.4.2.3 Mesures de dépendance

Les mesures de dépendance évaluent la capacité d’une variable à en prédire une autre. En d’autres termes, elles cherchent à mesurer la redondance d’information dans les variables [Yu and Liu, 2004].

[Yu and Liu, 2003] indiquent qu’une variable est pertinente, si elle est corrélée à la variable de sortie (classe) et si elle n’est pas redondante avec d’autres variables. Cette définition incite à mesurer une certaine corrélation entre les variables originales et la « variable −classe ». Notons que, si les variables étaient continues, nous pourrions utiliser le coefficient de corrélation linéaire de Pearson, comme le proposent [Guyon and Elisseeff, 2003; Stoppigliaet al., 2003]. Cependant, dans notre contexte de classification, la « variable−classe⁴» est composée d’étiquettes liant les

4Nous simplifierons par la suite le terme « variable−classe » par classe.

observations aux classes. Ainsi, [Guyon and Elisseeff, 2003] suggèrent d’utiliser des critères mesu- rant la séparabilité, comme le critère de Fisher (FDR), utilisé notamment par [Golubet al., 1999;

Fureyet al., 2000] dans des applications liées à la bio-informatique. Dans cette même direction, où l’on cherche à évaluer la corrélation des variables avec la classe, la méthode ANOVA (ANalysis Of VAriance) est parfois utilisée [Sahai, 2000; Guyon and Elisseeff, 2003].

Évaluer uniquement la corrélation ou la dépendance entre les variables et la classe, amène un inconvénient majeur. En effet, d’une part, cette approche ne peut pas écarter les variables redondantes, et d’autre part, comme évoqué par [Guyon and Elisseeff, 2003], elle peut éliminer des variables peu corrélées avec la classe sans prendre garde à d’hypothétiques complémentarités avec d’autres variables. [Stoppigliaet al., 2003; Theodoridis and Koutroumbas, 2006] proposent une procédure intégrant cette remarque, elle sera discutée à la section 2.4.3.1.

Remarquons que ce type de critère d’évaluation, appartenant à la catégoriefilter, est parfaite- ment adapté pour traiter des ensembles de données contenant un nombre important de variables.

Ainsi dans le domaine de la bio-informatique, l’analyse de l’expression de gènes entraîne une re- présentation du problème pouvant atteindre plusieurs milliers de variables. Par exemple, [Golubet al., 1999; Furey et al., 2000] ont utilisé le critère de Fisher pour faire la sélection. Autre exemple, [Mercieret al., 2004] ont analysé un ensemble contenant pas moins de 6 135 gènes. Raisonnable- ment, avant d’effectuer l’apprentissage du modèle, ils ont trié et classé les gènes par pertinence.

Dans leur étude [Mercier et al., 2004] ont utilisé, pour la sélection, des méthodes fondées sur l’analyse d’indépendance, comme ANOVA et RELIEF.

L’algorithme RELIEF est fondé sur un processus aléatoire qui estime la qualité de chaque variable pour un problème de classification, en assignant un poids de pertinence. Ainsi, pour une observation choisie aléatoirement, l’algorithme recherche deux observations parmi ses plus proches voisins : la première appartenant à sa classe (appeléenearest hit :x_h) et la seconde étant de classe différente (appeléenearest miss : x_m). [Kononenko, 1994] estime le poidsw_j de la variablej par la différence entre deux probabilités :

w_j =p(x_ij|x_mj)−p(x_ij|x_hj), (2.22)

où x_ij représente la i-ème valeur de l’observation de la variable j, x_hj et x_mj sont les deux observations sélectionnées. Ainsi, une variable pertinente se distingue par une différence importante entre ces deux probabilités.

[Kononenko, 1994; Robnik-Sikonja and Kononenko, 2003] proposent et récapitulent un nombre important d’évolutions de l’algorithme RELIEF, comme le remplacement des deux observations les plus proches (de même classe et de classe différente) par deux sous-ensembles d’observations.

Cela permet d’obtenir une plus grande résistance au bruit. Ainsi, l’algorithme recherche deux sous-ensembles d’observations parmi les plus proches voisins de l’observation choisie, nous note- ronsXh etXm, les sous-ensembles contenant les observations les plus proches respectivement de même classe et de classes différentes à l’observation choisie.

L’algorithme 2.1 montre une estimation des poidsw faite par [Kononenko, 1994].

Algorithme 2.1: Pseudo-code de l’algorithme d’évaluation RELIEF.

Données:

X ={x_i, ti}^i=1,...,n,x_i ∈R^p, ti∈ {−1,1}

m: nombre d’observations considéré dans l’évaluation desppoidsw Résultat:wj : poids des variables j= 1, . . . , p

début

pour chaquej= 1 àpfaire

wj ←0;

pour chaquei= 1 àmfaire

sélectionner une observationxij par tirage aléatoire de son indicei;

trouver le sous-ensemble d’observationsX^h plus proche dexij et de même classe ;

trouver le sous-ensemble d’observationsX^m plus proche dexij et de classe différente ;

wj ←wj− Ã P

x_rj∈Xh

|xij−xrj| − P

x_rj∈Xm

|xij−xrj|

;

fin

wj ←wj/m;

fin

L’intérêt des méthodes d’évaluation de typefilter réside dans leur rapidité d’exécution, grâce notamment à la non-utilisation d’outils de classification. Cependant, comme souligné auparavant par [Liu and Yu, 2002]⁵, le sous-ensemble optimal pourrait se révéler inefficace une fois appliqué à un outil de classification. Cet inconvénient n’apparaît pas dans les méthodes de typewrapper, où l’évaluation est fondée directement sur l’outil de classification. En contre-partie, cette démarche rend les méthodes wrapper fortement dépendantes du classifieur utilisé. En d’autres termes, le sous-ensemble sélectionné peut être rendu inexploitable pour d’autres classifieurs : interdisant une certaine généralisation. Le choix du type d’évaluation peut donc dépendre de l’importance que l’on souhaite donner aux outils de classification.

No documento prédiction de la syncope chez l’homme (páginas 90-96)