Modélisation par mélange de gaussiennes (GMM)

4.5 Conclusion

5.1.3 Modélisation par mélange de gaussiennes (GMM)

La modélisation par mélange de gaussiennes consiste à représenter une classe (ici un locuteur) par un ensemble de gaussiennes sur plusieurs observations (ici descripteurs acoustiques). Il s'agit alors de déterminer les paramètres de chaque gaussienne (moyenne, variance et amplitude) en fonction d'un critère de vraisemblance. Ces paramètres sont optimisés suivant l'algorithme EM (expectation, maximisation). Le calcul de la densité de probabilité de chacun des mélanges permet de comparer les résultats obtenus sur le signal de test par rapport aux diérents modèles existants.

On suppose que chaque observation x suit une loi combinaison linéaire de K gaussiennes, ou loi normales (voir équation 5.1).

x∼X

πk·N(µk, σk) (5.1)

Les paramètres π_k, µ_k, σ_k (probabilité a priori, paramètres de la gaussienne k) sont inconnus.

5.1.3.1 Modélisation GMM

Mélange de gaussiennes Une variable x suit une loi normale si sa densité de probabi- lité se représente par la fonction suivante 5.2. La matrice de covariance est généralement considérée comme diagonale, c'est-à-dire que les variables sont considérés comme étant indépendantes.

p(x;µ, σ) = 1

√2π·σ·e⁻

(x−µ)2

2σ2 =N(x;µ, σ²) (5.2) moyenne :µ=E[x] =´

xx·p(x)·dx et dispersion :σ²=E[(x−µ)²] =´

x(x−µ)²·p(x)·dx

Un mélange de gaussiennes est une combinaison linéaire de K lois normales (eq. 5.3) tel quePK

k=1πk= 1

p(x;µ1, σ1, ..., µk, σk) =

k=1

πk·p(x;µk, σk) (5.3) Chaque classe sera modélisée par un mélange de gaussiennes, la probabilité que x appartienne à cette classe s'esprime alors suivant l'équation 5.4

p(x/Cq) =

k=1

πk,q·p(x, µk,q, σk,q) (5.4) L'apprentissage consiste à déterminer pour chaque classe q, les poidsπk,qet les para- mètres des gaussiennes (moyennesµk,qet dispersionσk,q).

Apprentissage des paramètres des mélanges de gaussiennes L'initialisation des paramètres des mélanges de gaussiennes se fait grâce à l'algorithme des k-moyennes. Cette première étape permet d'obtenir une bonne approximation des paramètres. L'optimisation est réalisé suivant l'agorithme E.M. (Estimation, Maximisation) [Dempster et al. 77] dont le nombre d'itérations est généralement xé à 10.

Décision La classication est réalisée à partir d'une règle de décision fondé sur le maximum à posteriori. L'ensemble des classes sont considérées comme équiprobales. Le score de vraisemblance est déterminé suivant la formule de Bayes, par l'équation 5.5.

p(Cq/x) =p(Cq)·p(x/Cq)

p(x) = 1

Q· p(x/Cq)

p(x) (5.5)

La classe la plus probable pour l'observation x, sera celle correspondante au maximum de probabilité suivant l'ensemble des classesC_q. On détermine alors la log vraisemblance de l'observation x confrontée à chaque classe q. La classe correspondant le plus probable- ment à l'observation x est celle pour laquelle la log vraisemblance est maximum.

S(x, q) =log(p(C_q/x)) (5.6)

5.1.3.2 Normalisation des descripteurs acoustiques

Plusieurs types de normalisation ont été expérimentés [Barras and Gauvain 03]. La plus simple consiste à soustraire le cepstre moyen (Cepstral Mean Substraction ou CMS) pour chaque matrice d'entrée (apprentissage et test). Cette normalisation permet théori- quement de s'aranchir des variations dues au canal (salle d'enregistrement, diérences de bruit, etc.).

La normalisation type warping [Pelecanos and Sridharan 01] permet de faire une projection de la distribution cepstrale observée suivant une distribution normale. Cette normalisation permet de réduire ecacement le taux d'erreur (de 8% par rapport à la normalisation CMS selon [Barras and Gauvain 03]).

La Z-norme permet de normaliser une valeur V par rapport à la moyenne et à la variance suivant l'équation 5.7.

VZ−norme =V −µ_v

σv (5.7)

La T-norme permet de normaliser une valeurV en log par rapport à la moyenne et à la variance suivant l'équation 5.8. Cette norme permet par exemple de centrer-réduire

un score de vraisemblance par rapport à des scores d'imposteurs en identication du locuteur.

V_T−norme= log(V)−µv

σv (5.8)

5.1.3.3 Adaptation

Il existe deux grands types d'adaptation : l'adaptation MAP et l'adaptation MLLR [Leggetter and Woodland 95]. L'adaptation MAP est la plus couramment utilisée, nous avons donc choisi ce type d'adaptation.

L'adaptation MAP (Maximum A Posteriori) a été appliquée en identication du locuteur aux HMM et GMM par [Gauvain and Lee 94]. Elle permet d'adapter un modèle générique (Universal Background Model) a un locuteur ou un type de locuteur particulier.

L'avantage de cette méthode est qu'il n'est pas nécessaire d'avoir un grand nombre de données du locuteur auquel on souhaite adapter le modèle, contrairement à la création de modèles non adaptés.

Dans [Barras et al. 07], l'adaptation du modèle UBM se fait sur quelques dizaines de secondes. L'expérience a été réalisé dans le cadre d'une campagne NIST sur un corpus de séminaires (évaluation CLEAR). La reconnaissance se fait sur plusieurs dizaines de locuteurs. Les résultats ci-dessous permettent d'avoir une idée des taux d'erreur (ER : error rate).

apprentissage 15s, test 1s, ER =51.7% ; test 10s, ER=6.6%, apprentissage 30s, test 1s, ER=38.8% ; test 10s, ER=2.1%.

5.1.3.4 Mesures de performances

Deux types de mesures sont généralement utilisées sur la détection du locuteur. Dans le cas d'une tâche d'identication du locuteur, on peut avoir plus de deux résultats possibles, on utilise alors un taux d'erreur. Lors d'une tâche de vérication du locuteur ou même de reconnaissance du genre, le problème est binaire, on utilise alors des mesures standards mises en place entre autre lors des campagnes NIST SRE. Ces mesures prennent en compte les fausses alarmes (lorsqu'on croit reconnaître un locuteur) et les détections manquées (le locuteur n'a pas été reconnu comme tel).

La fonction de coût (DCF : Detection Cost Function) est dénie comme la somme pondérée des deux probabilités (de fausses alarmes et de détections manquées). Le coût normalisé se dénit alors suivant l'équation 5.9 avecα, β choisis suivant que l'on cherche à privilégier les détections manquées ou les fausses alarmes.

C_norm=α·P_manqu´_ees+β·PF aussesAlarmes (5.9) La fonction de coût dépend du seuil choisi a posteriori pour la meilleure identication et ne considère a priori qu'un seul point de fonctionnement, il convient alors de la mettre en parallèle avec une autre fonction (EER : Equal Error Rate) qui permet de considérer l'ensemble des seuils possibles.

Les courbes de détection d'erreurs (DET : Detection Error Tradeo ) représentent les détections manquées en fonction du nombre de fausses alarmes paramétrées par le seuil de décision. Cette courbe est équivalente aux courbes (ROC : Receiver Operating

est alors stable dans l'intervallep±conf iance%. conf iance= 1,96·

rp·(1−p)

N ·100 (5.10)

5.1.3.5 Normalisation des scores

An d'obtenir des systèmes les plus robustes possibles aux types de données, aux diérents modes de transmission de la voix existants, une attention particulière doit être portée sur les scores de vraisemblance. Une première normalisation des scores est de pondéré la log-vraisemblance par la longueur du segment testé. En eet, plus le segment est court moins le score sera able et la log-vraisemblance élevée (eq. 5.11 et 5.12) avecS la fonction de vraisemblance etL(x)la longueur de l'observationx=

x₁, x₂, ..., x_L(x) . S(x/q) =

L(x)

i=1

S(xi/q) (5.11)

S⁰(x/q) =S(x/q)^L(x)¹ (5.12)

Dans le cas d'une adaptation MAP avec un modèle UBM génériqueR, on peut éga- lement normaliser la vraisemblance par celle du modèle UBM (voir eq. 5.13)

S(x/q) =logf⁰(x/q)−logf⁰(x/R) (5.13) Enn des expériences ont été menées pour étudier l'impact d'une normalisation T- norm ou Z-norm de la distribution des scores de vraisemblance [Barras and Gauvain 03].

Cette normalisation nécessite d'avoir susamment de données pour faire l'apprentissage et un ensemble de développement pour estimer la distribution des scores a priori. Cette normalisation permettra entre autre d'être plus indépendante de la distribution des don- nées d'apprentissage et d'adapter la normalisation a un éventuel sous corpus plus proche de l'application nale.

No documento lors d’une interaction humain-robot (páginas 109-112)