Corpus IDV-HR - Contenu des corpus utilisés, données caractéristiques

1.4 Conclusion

2.2.4 Contenu des corpus utilisés, données caractéristiques

2.2.4.1 Corpus IDV-HR

Le corpus IDV-HR [Tahon et al. 11] consiste en 22 sessions (une par locuteur) enre- gistrées dans l'appartement témoin de l'Institut de la Vision à Paris. Nous avons choisi de nous focaliser entre autres sur ce corpus parce qu'il regroupe des locuteurs ayant des qualités de voix très diérentes dues principalement à leur âge. La segmentation et l'annotation a été réalisée par deux annotateurs experts.

Figure 2.4 Répartition des durées des segments sur IDV-HR

Organisation du corpus La collecte du corpus IDV-HR est basée sur l'alternance d'interactions entre le robot NAO et le participant et de questionnaires. Un premier questionnaire oral est proposé au participant an de collecter des informations personnelles.

Ensuite l'alternance de trois comportements du robot NAO positif (encouragement, em- pathie, amabilité), négatif (hésitant, neutre, directif) puis à nouveau positif suivi à chaque fois de questionnaires relatifs aux comportements du robot. La session se clôture par un questionnaire plus global sur l'aspect physique et comportemental du robot. Pour chaque comportement, 5 scénarios basés sur le lever du matin étaient proposés (en pleine forme, malade, déprimé, urgence, joyeux). Lors des phases d'interaction, la parole avait tendance à être plutôt induite (le sujet s'imagine dans une situation particulière), alors que lors des questionnaires, le sujet était bien plus spontané.

Après segmentation, le corpus représente 4 h 7 min 43 s. La durée moyenne des segments est de 2,45 s (min : 0,24 s, max : 5,94 s). Le nombre de segments est 6071.

La gure 2.4 montre la répartition du nombre de segments.

Annotations des émotions et répartition des segments consensuels L'annotation du corpus a été réalisée en 2 étapes : les locuteurs 1 à 8 ont été annotées très précisement an de dénir les étiquettes et les dimensions qui semblent les plus pertientes à la fois pour obtenir un maximum de consensus entre les annotateurs et pour obtenir une bonne répartition entre les locuteurs. Pour les locuteurs 1 à 8, le schéma d'annotation est le suivant :

#labels *macro Locuteurs 1 à

8 (labels) Locuteurs 1 à 8 (macro)

Majeure #28 *7 0,22 *0,33

Mineure #28 *7 0,43 *0,44

Valence dim #5 *3 0,31 *0,39

Valence lbl #5 0,63

Activation dim #5 *3 0,51 *0,55

Discours #2 0,97

Direction #2 0,92

Table 2.4 Scores d'agréement entre annotateurs (2 annotateurs) locuteurs 1 à 8 sur IDV-HR (# nombre de labels, * nombre de macro-classes)

émotion majeure et mineure : suivant le tableau 2.3 (ou ajoute une étiquette pou- belle pour les instances que l'on ne peut pas annoter),

valence et activation entre -2 et 2,

valence : positive, négative, ambigüe, positif/négatif, neutre, discours : acté ou spontané,

direction : au robot ou à l'expérimentateur.

Les scores de kappa (tableau 2.4) ont été calculés suivant l'équation 2.1. L'accord sur l'émotion majeure est relativement faible par rapport à celui sur l'émotion mineure (on peut remarquer que l'accord sur l'émotion mineure porte essentiellement sur l'état neutre).

Les taux d'accord sur le type de discours et sur la direction sont très élevés. Ce résultat coïncide avec celui de [Callejas and Lopez-Cozar 08] qui montre la robustesse des coef- cients kappa avec l'annotation du contexte. De plus, pour ces annotations, il n'y avait la possibilité que sur deux étiquettes ce qui réduit la marge d'erreur. La valence a été annotée suivant deux protocoles, l'utilisation d'étiquettes et l'utilsation d'une graduation continue entre -2 et 2. Au vu des valeurs de kappa du tableau 2.4, il semblerait que l'annotation catégorielle soit plus consensuelle. Les étiquettes les plus consensuelles sont celles correspondant aux valences positive, négative ou neutre. Les étiquettes de valence am- bigü et positif/négatif semblent plus subjectives. On peut remarquer que les niveaux moyens des dimensions valence et activation ne sont pas les mêmes pour les deux annotateurs (valence (activation) moyenne : 0,06 (-0,28) pour l'annotateur 1 et 0,76 (-0,62) pour l'annotateur 2). Pour améliorer les scores d'accord inter-annotateurs plusieurs solutions peuvent être envisagées :

regrouper les étiquettes en macro-classes (cf colonne macro du tableau 2.4), normaliser les dimensions pour chaque annotateur par sa valeur moyenne, utiliser les étiquettes plutôt que les dimensions dans la mesure du possible.

Le tableau 2.5 montre une baisse de kappa pour les locuteurs 9 à 22. Cela vient entre autre du fait que les données sont plus nombreuses. Le schéma d'annotation a été simplié an de diminuer la durée de la tâche d'annotation. Il est possible que la concentration des annotateurs ait été moins bonne sur cette seconde partie.

Etant donné l'eort fourni pour collecter des données émotionnelles, nous avons fait en sorte que la plupart des segments soient utilisables pour la reconnaissance des émotions.

Pour cela, on peut dénir des règles utilisant les annotations majeure et mineure pour

macros %moyen par

locuteur écart-type entre les locuteurs

neutre 60,18 17,54

colère 5,61 3,35

négatif 6,97 7,94

tristesse 5,06 3,24

pos-neg 5,05 4,45

peur 3,05 2,48

joie 14,07 7,58

Table 2.6 Répartition des segments émotionnels du corpus IDV-HR suivant les locuteurs

déterminer une macro-classe qui soit consensuelle pour les deux annotateurs. Un exemple de règle sur les émotions majeures est : joie & (tristesse | colère | peur | négatif) = positif- négatif. Si l'une des émotions majeures est neutre, on peut regarder si il y a consensus sur les émotions mineures.

Malgré ces règles certaines annotations restent non consensuelles. Une triple annotation (voire une quadruple) sur la macro-classe et l'activation permet alors de réannoter ces segments an de pouvoir conserver la plus grande partie des enregistrements. Seules les instances consensuelles sont conservées par la suite, ce qui réduit également la durée totale du corpus. La répartition des macro-classes sur le corpus IDV-HR est présentée sur la gure 2.6. Junk correspond aux instances qui ne pouvaient pas être annotées : présence de bruits, saturation, durée trop courte, pas de consensus trouvé, soues, toux, etc. Plus de la majorité des instances consensuelles sont neutres. L'annotation est basée uniquement sur l'acoustique, on demande aux annotateurs de ne pas interprêter le support lexical.

Les segments sont tous annotés en contexte avec l'outil transcriber. Une annotation hors contexte aurait pu être réalisée avec un autre outil que Transcriber permettant d'annoter des segments dans un ordre aléatoire.

Les émotions attendues dans le corpus IDV-HR étaient principalement des émotions relatives à la vie quotidienne comme l'énervement, le soulagement, la satisfaction ou l'ennui et quelques émotions relatives à l'urgence, à la douleur. Les émotions attendues n'étaient pas prototypiques, mais assez masquées du fait que les participants se contrôlent durant la session. Il a été assez dicile d'obtenir de la douleur et de l'urgence, sans doute parce que le contexte de l'enregistrement était trop éloigné d'un contexte réel de scénario d'urgence. Par contre, l'ensemble des autres émotions ont été globalement collectées.

No documento lors d’une interaction humain-robot (páginas 53-57)