• Nenhum resultado encontrado

Chapitre 3 Modèles à classes latentes en régression

3.2 Le modèle

Considérons les relations entre trois variablesX,Y etH: – X dansRdest un vecteur dedrégresseurs,

Y dansRest la variable à expliquer,

H dans {1,· · ·, K} est la variable latente (inobservée).

Soit(x, y) ={(xi, yi)i=1,···,n}un échantillon iid d’observations du couple(X, Y). CommeHn’est pas observée, la densité de(X, Y)est obtenue par marginalisation :

p(X, Y) = K k=1

p(X, Y, H=k). (3.1)

La règle de Bayes appliquée àp(X, Y, H)permet de trouver deux expressions utiles de la densité jointe :

p(X, Y) = K k=1

p(X)p(H=k|X)p(Y|X, H =k) (3.2)

p(X, Y) = K k=1

p(H =k)p(X|H =k)p(Y|X, H =k). (3.3)

Pour ces deux paramétrisations, la distribution deY conditionnellement àH =ketX =xest, comme pour la régression linéaire une variable gaussienne univariée de moyenneβkx+αket de varianceτk2:

Y|X =x, H=k∼ N(βkx+αk, τk2). (3.4)

Nous présentons maintenant les moyens d’estimerβk,αketτk.

3.2. Le modèle

3.2.1 Mélanges d’experts classiques

L’expression (3.2) correspond au modèle de mélange conditionnel, puisque maximiser sa log-vraisemblance ne nécessite pas de connaître la distribution des régresseursX. Il est donc équivalent de travailler avec la distribution conditionnelle deY sachantX:

p(Y|X) = K k=1

p(H=k|X)

gating network

p(Y|X, H=k)

expert

(3.5)

Dans ce cas, le « gating network » est une sorte de classifieur retournantp(H|X). Le modèle logit multinomial, aussi appelé fonction softmax, est souvent utilisé. C’est un modèle linéaire généralisé dont la forme de la distribu- tion conditionnelle est :

p(H =k|X) = pkevkx K

l=1plevlx, k= 1,· · · , K, (3.6) où les vecteursvket les proportionspksont des paramètres tels quevK = 0,0< pk <1etK

k=1pk= 1.

3.2.2 Mélanges d’experts localisés

Modélisant de manière générative les paramètres, nous optons pour une paramétrisation qui correspond aux modèles de mélanges classiques. Chaque composant a une densité qui se décompose sous la formep(X|H = k)p(Y|X, H=k). La variableHest discrète et suit une distribution multinomiale :

H ∼ M(1, p), (3.7)

p = (p1,· · ·, pK) est un vecteur de proportions (K

k=1pk = 1). Sachant le composant de mélangeH, les régresseursX sont supposés gaussiens :

X|H =k∼ N(µk,Σk). (3.8)

Avec la paramétrisation gaussienne, les composants peuvent être interprétés de manière plus naturelle que pour les ME classiques [165], puisque les moyennesµkdonnent une idée de la position des régresseurs. La fonction gating network est obtenue par une application directe de la règle de Bayes :

p(H =k|X =x) = p(H =k)p(X =x|H=k)

p(X =x) (3.9)

= pk|Σk|12e12(xmk)Σ1k (xmk) K

l=1pl|Σl|12e12(xml)Σ1l (xml). (3.10)

FIG. 3.3 – Illustration d’un mélange de régressions : à partir d’un jeu de données où une simple régression linéaire n’est pas adaptée (en haut à gauche). Pour les modèles estimés, les proportions sont représentées en bas de chaque graphe. Le modèle de switching regression (en haut à droite) considère que les deux droites de régression ne dépendent pas des covariables (proportions constantes). Le modèle classique des mélanges d’experts (en bas à gauche) suppose que les proportions dépendent des régresseurs à travers un lien logistique. Les ME localisés supposent que la distribution des régresseurs dans chaque groupe est normale. Le paramètre de proportion est égal au rapport des densités. On voit que les deux modèles du bas donnes des résultats très similaires.

−4 −2 0 2 4

−4

−2 0 2 4 6

Original set

−4 −2 0 2 4

−4

−2 0 2 4 6

Switching regression

x

y

−4 −2 0 2 4

−4

−2 0 2 4 6

Localized mixture of experts

x

y

−4 −2 0 2 4

−4

−2 0 2 4 6

Standard mixture of experts

x

y

Cela correspond exactement à la forme logistique du gating network proposé par [ 165]. Ici, cette paramétrisation diffère de la fonction softmax classique1/(1 + exp(βx))par la forme quadratique de la fonction de lien. Une

3.2. Le modèle étude empirique [120], compare les deux types de gating network et conclut sur une légère supériorité du gating network de type linéaire, ce qui correspond à contraindre les variances de gaussiennes associées aux régresseurs à être égales. Les mélanges d’experts localisés ont été appliqués avec succès dans des applications de reconnaissance du langage [51] and [52]. Il est montré que de tels modèles permettent de réduire considérablement le temps d’ap- prentissage grâce à une procédure d’initialisation non-supervisée (sur les régresseursXseulement) des paramètres µkandΣk. Cependant, cette étude empirique n’étudie pas les avantages théoriques des ME localisés.

La distribution jointe des observations(X, Y), X Rp,Y R est un mélange de gaussiennesd+ 1 dimensionnelles. Les proportions sont les pk,k = 1,· · ·, K définies plus haut, la moyenne et la matrice de covariance duk-ième composant sont

mk =

⎜⎜

µk

µkβk+αk

⎟⎟

, Γk =

⎢⎢

⎢⎢

⎢⎢

Σk Σkβk

βkΣk τk2+βkΣkβk

⎥⎥

⎥⎥

⎥⎥

. (3.11)

Ainsi, le ME localisés est un simple mélange de gaussiennes avec une paramétrisation spécifique.

3.2.3 Contraintes sur les paramètres

Le nombre de paramètres dans le modèle mélange de régression que nous venons de présenter est une fonction quadratique de la dimensionddes données d’entrée :

ν= (d2 2 +5

2d+ 3)K−1,

ce qui peut être élevé lorsque les données sont en grande dimension. Pour obtenir un modèle plus parcimonieux et ainsi éviter le surapprentissage, il est possible de contraindre certains paramètres à être nuls ou égaux entre eux.

Une contrainte classique est de supposer que les matricesΣksont diagonales ([Σ(k)]ij = 0pouri =j), c’est-à-dire que les covariables sont supposées indépendantes au sein de chaque cluster. Un tel modèle contientK(2d+ 3)1 paramètres, ce qui est linéaire end. Cette contrainte ne portant que sur le modèle de densité des covariables, la forme de la densité conditionnellep(y|x, θ)reste inchangée. Ainsi l’estimation des paramètres devient plus stable, sans pour autant introduire un biais dans la régression. Nous obtenons de cette manière des matrices de covariance

particulièresΓkpour la distribution jointe des données du composantk:

Γk=

⎢⎢

⎢⎢

⎢⎢

⎢⎢

⎢⎢

σk12 0 . . . σ2k1βk1

... . .. 0 ...

0 . . . σ2kd σ2kdβkd

σ2k1βk1 . . . σ2kdβkd τk2+%d

i=1β2kiσ2ki

⎥⎥

⎥⎥

⎥⎥

⎥⎥

⎥⎥

. (3.12)

Notons que cette matrice de covariance peut avoir son intérêt dans des problèmes différents de la régression, par exemple dans les modèles de mélange classiques avec des dépendances particulières entre les variables.

D’autres modèles peuvent être obtenus en forçant certains paramètres à être égaux entre les groupes :

1. pk = p: les proportions des composants sont égales. Cette contrainte permet d’obtenir des groupes de tailles approximativement égales en terme de nombre de données. En pratique, cette contrainte améliore l’estimation du maximum de vraisemblance car elle permet de réduire le nombre de maxima locaux de la fonction de vraisemblance.

2. βk=β: une pente commune entre les composants. Le modèle devient une régression linéaire hétéroscéda- tique, c’est-à-dire que la distribution de l’erreur autour de sa moyenne dépend de la valeur des régresseurs (Figure 3.4 en haut à gauche).

3. τk=τ: variance de l’erreur de régression commune entre les clusters. (en haut à groite sur la Figure 3.4).

4. Σk = Σ: matrice de variance des regresseurs commune. Cette contrainte est utile lorsque l’on souhaite avoir des séparations linéaires entre les groupes au lieu de frontières quadratiques. Ceci est illustré sur la Figure 3.4 en bas à droite : Avec la contrainteσk =σ, les probabilités des composants sont séparées entre droite et gauche, contrairement aux autres modèles.

Il est aussi possible de définir d’autres contraintes telles queαk = αou µk = µ (Figure 3.4 à gauche), i.e.

supposer que les composants ont des ordonnées à l’origine ou des moyennes égales, ce qui donne des modèles très particuliers. Notons que les contraintes qui viennent d’être définies peuvent être combinées afin d’obtenir une famille de modèles très variée.