Mesure de variabilité - Proposition d'une mesure relative pour la variabilité des locuteurs et

4.4 Proposition d'une mesure relative pour la variabilité des locuteurs et de

4.4.2 Mesure de variabilité

La mesure de variabilité est ici envisagée pour un descripteurddonné pour un corpus choisi. Soitd(i, l)la valeur du descripteurdde l'instanceipour le locuteurlaveci∈[1 : L(l)]etd(i, e)la valeur du descripteurdde l'instanceipour l'émotioneaveci∈[1 :L(e)]. L(l) (respectivement L(e)) correspond au nombre d'instances du locuteur l pour une émotion neutre (respectivement au nombre d'instances de tous les locuteurs pour une émotionequi n'est pas neutre).

Pour chaque locuteurl, la valeur moyenne du descripteurdest normalisé par la valeur moyenne de ce descripteur sur l'ensemble du corpus (eq. 4.5). La mesure de variabilité correspond alors à l'écart-type calculé sur l'ensemble des locuteurs (eq. 4.6). La varia-

σL

4.4.2.1 Exemple

L'exemple suivant permet d'illuster la mesure de variabilité que nous proposons. Le corpus utilisé est NAO-HR1, il y a 10 locuteurs et 5 états émotionnels dont un état neutre.

Pour estimer le pouvoir de discrimination du descripteur suivant les émotions ou le locuteur, il faut comparer le rapport de variabilité à 1 :

R≈1, le descripteur varie globalement autant suivant les émotions que suivant les locuteurs,

R <1, la variabilité liée aux locuteurs est importante relativement à celle liée aux émotions,

R >1, la variabilité liée aux émotions est importante relativement à celle liée aux locuteurs.

Dans notre exemple, le descripteur F0 médian est proche de 1, il n'est donc pas intéressant pour discriminer les émotions indépendamment du locuteur. Le descripteur MFCC12 est largement supérieur à 1, il est donc intéressant pour disciminer les émotions. La gure 4.5 détaille ces résultats : les valeurs de F0 médian normalisé sont du même ordre de grandeur (∀l, F0medL,norm(l)<0,5et∀e, F0medE,norm(e)<0,5) suivant les émotions (bas) et les locuteurs (haut) alors que les valeurs de MFCC12 normalisé sont plus importantes suivant les émotions (particulièrement la colère, M F CC12_E,norm(col`ere) ≈ 1,5) que suivant les locuteurs (∀l, F0med_L,norm(l) < 1). Une fois normalisé au locuteur, le rapport de variabilité du descripteur F0 médian devient supérieur à 1 (R= 1,15). La normalisation au locuteur permet donc d'augmenter le pouvoir de discrimination des émotions du F0 médian. Ce n'est pas le cas du descripteur MFCC12.

En fonction de ce rapport, nous avons classé les 208 descripteurs groupés par familles suivant le type de fonction statistique, ou suivant le type de descripteur étudié. Ces familles regroupent plusieurs descripteurs de manière à ce que leur nombre soit relativement homogène entre les familles. Avant de faire ce classement, certains indices doivent être retirés de la liste car ils ne semblent pas pertinents pour une utilisation à grande échelle.

C'est le cas de certains descripteurs de rythme (précision). A chaque famille est associé un rang moyen correspondant à la moyenne des rangs des descripteurs qu'elle contient.

4.4.2.2 Résultats

Les tableaux en annexe B1 résume les moyennes sur l'ensemble des cinq corpus de ce rang moyen. La gure 4.6 permet de mettre en évidence les familles de descripteurs dont la variabilité liée au locuteur est plus forte que celle liée aux émotions. Cette variabilité pouvant être réduite avec une normalisation au locuteur.

Sans normalisation, les familles dont le rang est le plus élevé (supérieur à 110) sont :

a) Variabilité du descripteur F0 médianR= 0,92

b) Variabilité du descripteur MFCC12R= 1,83

Figure 4.5 Exemple de mesure de variabilité locuteur et émotion sur le corpus NAO- HR1 (10 locuteurs, 5 états émotionnels dont neutre) pour la F0 médiane (a) et le coecient MFCC12 (b)

Figure 4.6 Variabilité relative locuteur/émotion, inuence de la normalisation locuteur et rang moyen par famille de descripteurs (NO : sans normalisation, NS : normalisation locuteur) sur l'ensemble des corpus Romeo (tableaux B1, B2).

l'énergie sur tout le signal,

les largeurs de bande des formants F1, F2 et F3, les diérences de formants F2-F1 et F3-F2, les bandes de Bark sur le signal non-voisé, le rythme.

L'articulation semble être un paramètre relativement robuste au locuteur, il a été conçu pour être indépendant des locuteurs. Par contre une normalisation au locuteur lui est extrêmement préjudiciable. La normalisation au locuteur permet de rendre robuste un certain nombre de familles : l'énergie sur les parties voisées, les bandes de fréquence des formants, les bandes harmoniques et la qualité vocale. L'ensemble des descripteurs cepstraux voient leur rang augmenter avec la normalisation au locuteur. Globalement l'utilisation des portions non-voisées du signal pour le calcul des descripteurs (bandes de Bark, cepstre, descripteurs spectraux) donne un rang moins bon que l'utilisation des portions incluant les parties voisées (parties voisées uniquement ou tout le signal) sauf pour l'énergie. Les dérivées des coecients cepstraux ont un rang moins bons que les coecients cepstraux. Nous retrouvons ce résultat dans les expériences cross-corpus sur diérents corpus (section 6.2.2.1).

La liste de descripteurs étudiée a été conçue de manière à être exhaustive, certains indices sont donc redondants. C'est le cas des bandes de Bark et des bandes Harmoniques.

D'après le classement obtenu, il semblerait que les bandes Harmoniques soient plus in- téressantes pour la discrimination des émotions que les bandes de Bark. La diérence de classement sans normalisation entre les deux méthodes de calcul du jitter (Praat : 82,8 ; Matlab : 80,8) n'est pas signicative sur l'ensemble des corpus. Nous pouvons donc considérer que le calcul proposé avec Matlab est pertinent (équation 4.1).

Le rang moyen calculé suivant des familles de fonctions statistiques (médiane, écart- type, maximum et minimum) est sensiblement identique quelles que soit les familles (en moyenne 111,2), ce rang diminue de 12 avec une normalisation au locuteur. Ainsi il semble dicile d'inclure certains fonctions statistiques dans la liste noire.

4.4.2.3 Liste noire descripteurs

A partir de cette première expérience fondée sur les variabilités relatives liées aux locuteurs et aux émotions sur un ensemble de cinq corpus, nous pouvons établir une première ébauche de liste noire :

bandes de Bark,

descripteurs calculés sur les parties non-voisées, dérivées des coecients cepstraux,

diérences de formants en semitons, et bandes de fréquences de ces formants.

Très peu d'études ont été réalisées sur de telles sélections de descripteurs. Nous pouvons néamoins citer à nouveau les travaux de Ruiz [Ruiz et al. 10] sur des signaux de parole enregistrés dans la cabine de pilotage des avions. Sa conclusion est qu'il reste extrême- ment complexe de faire correspondre les variations de descripteurs acoustiques avec des phénomènes comme la fatigue ou l'engourdissement et donc de dénir à partir d'analyses précises les descripteurs les plus robustes.

No documento lors d’une interaction humain-robot (páginas 97-101)