Mélanges de distributions gaussiennes pour la discrimination

Chapitre 2 Approche générative pour l’apprentissage statistique supervisé

2.3 Exemples de classifieurs génératifs

2.3.2 Mélanges de distributions gaussiennes pour la discrimination

2.3. Exemples de classifieurs génératifs Siβ˜1:d = 0, on peut prendrem˜1 = ˜m2 = (0,· · ·,0)^T. Pout toutβ, nous avons donc prouvé l’existence de˜ θ˜ vérifiantLC(˜θ) =LL( ˜β). De plus, d’après (2.23),LC(ˆθC)≥ LC(˜θ), on a doncLL( ˜β)≤ LC(ˆθC).

Ansi, on a nécessairementLL( ˜β) =LC(ˆθC) =LL( ˆβ)et si la solution de la régression logistique est supposée

unique, on a nécessairementβ˜= ˆβ=g(ˆθ). 2

Notons que le résultat précédent est immédiat lorsqu’on utilise la paramétrisation logistique. Nous avons ici justifié le fait de conserver les paramètres génératifs pour effectuer la régression logistique linéaire. Le fait de n’avoir pas de maximum unique peut parfois poser des problèmes de maximisation, mais nous verrons dans le chapitre 5 un moyen de définir de manière unique l’estimateur discriminatif de LDA.

Un classifieur génératif très efficace lorsque la dimension des données est élévée est le classifieur de Bayes naïf (NB) qui suppose l’indépendance entre toutes les entrées [ 40] conditionnellement à la classe. Ce type de classifieur est obtenu naturellement en contraignant la matrice de variance commune à être diagonale. Ainsi, conditionnellement à la classeY = k, toutes les covariables sont indépendantes et suivent des lois gaussiennes univariées.

Tous les résultats précédents restent applicables, on peut ainsi conserver la paramétrisation de NB pour effectuer la régression logistique. En réalité, même si les hypothèses du modèle sont irréalistes, ce type de classifieur est efficace dans de nombreuses applications [36].

Ce type de modèle génératif sera ensuite utilisé à plusieurs reprises dans les différents chapitres de cette thèse.

Les modèles de mélange sont des modèles très appréciés pour modéliser des distributions de forme a priori inconnue [115, 34]. Il a déjà été remarqué qu’utiliser pour chaque classe un mélange de distributions gaussiennes avec des matrices de covariances égales est une extension directe de l’analyse discriminante [ 70]. Un modèle équivalent mais permettant l’affectation partielle des composants aux classes a aussi été proposé, pour des résultats équivalents [155]. C’est d’ailleurs le modèle de prédilection en classification non supervisée utilisé en fouille de données[25]. Des comparaisons de performance en classification pour différents types de paramètrisation de la matrice de covariance (pleine, diagonale, PPCA⁹, spherical) montrent que le choix de modèle n’est pas facile et dépend vraiment de l’approche considérée [ 121].

Nous insistons sur le caractère universel des distributions de mélanges, puisque toute distribution intégrable peut être approximée par un mélange fini de gaussiennes [ 34]. Mais cette qualité d’« approximateur universel » des mélanges n’est pas seulement asymptotique, et de nombreuses distributions peuvent êtres représentées par un nombre relativement limité de composants. Il est par exemple très difficile de différentier une distribution Gamma et le mélange de trois distributions gaussiennes convenablement choisies [ 115]. Dans un cadre discriminatif, nous pouvons aller plus loin dans la parcimonie puisque le but recherché n’est pas l’adéquation aux données mais plutôt à la frontière de discrimination. En effet, le problème de classification ne s’intéresse qu’au taux d’erreur et des groupes à la structure complexe mais très séparés peuvent, par application du principe de parcimonie¹⁰, être modélisés par un seul composant.

Classification par boules gaussiennes

Nous considérons un problème de classification à K classes dont les données sont x = {x,y} où x = (x1,· · ·, xn)est un ensemble de vecteurs dansR^dety= (y1,· · · , yn)correspond aux labels des classes.

Lorsque le nombre de composants dans une classe donnéekvautRk,k= 1,· · · , K, le modèle de densité de

9Le modèle Probabilistic Principal Component Analysis (PPCA) consiste à paramétrer la matrice de variance sous la formeΣ =σ²Id+ PR

r=1λrvrv^Tr oùRest le nombre de composantes principales (ayant vocation à être petit). Ce modèle est pariculièrement adapté aux données de grande dimension ayant de fortes corrélations [154].

10Le philosophe Ockham est souvent cité dans ce cas : « Pluralitas non est ponenda sine neccesitate », ce qui peut se traduire par « Les choses ne devraient pas se multiplier si ce n’est pas nécessaire ».

2.3. Exemples de classifieurs génératifs cette lak^èmeclasse s’écrit :

fk(x;θk) =

R_k

r=1

πrφ(x;µr, σ_r²Id) (2.26)

oùπr,µrandσrsont respectivement le poids, la moyenne et l’écart-type dur^èmecomposant etφ(x;µ,Σ)désigne la densité d’une distribution gaussienne multivariée de moyenneµet de matrice de covariance Σ. On noteθk

l’ensemble des paramètres de la classek. Contraindre la matrice de variance à être proportionnelle à la matrice identité permet d’avoir un modèle à la fois stable (la matrice de variance n’est dégénérée que lorsqueσr→0) et parcimonieux, i.e. avec un nombre limité de de paramètres par composant. Ainsi, un composant du mélange auraνr = d+ 1paramètres, à comparer aux2dparamètres dans le cas de covariances diagonales etd+d(d+ 1)/2paramètres pour des covariances libres. Grâce à cette relative simplicité des composants, leur nombre peut varier significativement entre les classes. Les modèles de mélange gardent une certaine souplesse d’ajustement aux données car les paramètres de varianceσ_r²ne sont pas contraints à être égaux au sein d’une même classe.

L’estimateur du maximum de vraisemblance génératif des paramètres peut être obtenu en maximisant les vrai- semblances partielles des classes séparément. L’algorithme EM est utilisé, puisque l’affectation des données aux composants au sein d’un classe est inconnue. Les affectations initiales sont obtenues par l’algorithme desk-means.

La Figure 2.1 donne une illustration de la frontière obtenue avec cette méthode de classification générative.

Ces données simulées sont issues de Hastie et al (2001)[71]. Elles consistent en 200 points en dimension 2 séparés en deux classes équiprobables¹¹. Sur la figure, les classes sont identifiées grâce à des symboles différents. La distribution estimée par l’algorithme EM est représentée par des cercles correspondant à l’isocontour contenant 80% de la masse des composants.

Sélection du nombre de composants des mélanges

Cette méthode d’Analyse Discriminante par Mélange (MDA) basée sur des matrices de variance sphériques peut donner de bons résultats en classification car elle est à la fois souple et parcimonieuse. Cependant, le choix du nombre de composants{Rk}k=1,···,K des mélanges est un problème difficile. En effet, si nous considérons que nous voulons tester tous les modèles avec au plusM composants par classe, le nombre de modèles à tester s’élève àM^K, ce qui est exponentiel en fonction du nombre de classes. Le fait que les paramètres sont estimés

11Le jeu de données est disponible à l’adressehttp ://www-stat.stanford.edu/ElemStatLearn.

indépendemment dans chaque classe permet de réduire le temps d’apprentissage, puisqueM Kestimations de mé- langes par l’algorithme EM seront nécessaires. Cette simplification n’est pas toujours possible en discrimination.

Par exemple, dans le cas de MDA telle qu’elle a été définie par Hastie et Tibshirani [ 70], le fait que les matrices de variance de tous les clusters sont égales ne permet pas de d’estimer les densités des classes de manière indé- pendante. Un autre problème apparaît lorsqu’il faut déterminer lequel des cesM^K modèles est le plus adapté à la discrimination. La validation croisée necessiteνM Kestimations de paramètres, etνM^Kcalculs de taux d’erreur, oùν est le nombre de divisions de l’échantillon d’apprentissage. Des critères tels que BIC [ 147] semblent plus adaptés, mais sont sous-optimaux dans un cadre de classification supervisée (voir chapitre 4). La table 2.1 donne une illustration du choix obtenu par validation croisée pourR1 ≤7etR2 ≤6. On remarque dans ce cas que le modèle MDA avec des distributions sphériques est meilleur que LDA pour le modèle contenant 4 composants dans chaque classe et est capable de trouver une frontière de classification très proche de la frontière optimale de Bayes.

(voir [71], p. 22).

1 2 3 4 5 6 7

1 0.297 0.284 0.255 0.247 0.244 0.249 0.256 2 0.273 0.262 0.235 0.226 0.226 0.233 0.241 R2 3 0.268 0.254 0.230 0.223 0.224 0.228 0.234 4 0.256 0.244 0.225 0.219 0.220 0.223 0.229 5 0.252 0.243 0.228 0.219 0.219 0.221 0.224 6 0.250 0.243 0.229 0.221 0.221 0.221 0.223

TAB. 2.1 – Taux moyen d’erreur en test sur les données simulées estimé par half-sampling sur 500 jeux d’apprentissage/tests aléatoires. Le taux d’erreur de test pour LDA est de 0.283. Le taux d’erreur optimal pour MDA avec des distributions gaussiennes sphériques apparaît en gras.

D’un point de vue quantité de calculs, le critère BIC est attractif. En effet, on peut constater que BIC=

kBICk, BICk étant le critère BIC calculé pour la classek. Ainsi, comme pour l’étape d’estimation, il est possible de calculer le vecteurR= (Rk, k= 1, . . . , K)optimal enM Kopérations aux lieux deM^Kévaluations par

2.4. Méthodes concurrentes

No documento Les modèles génératifs en classification supervisée et applications à la catégorisation d’images et à la fiabilité industrielle (páginas 48-52)