lors d’une interaction humain-robot

Percevoir une émotion dans la voix revient souvent à percevoir consciemment ou inconsciemment la musique de la voix. Les indices paralinguistiques que nous avons étudiés sont composés d'émotions (notamment la valence), de stress et de personnalité.

Théories des émotions

Dénition d'une émotion : une question pluridisciplinaire
Les principales théories émotionnelles
Les aect bursts
Le locuteur et les théories émotionnelles
Conclusion

Les émotions correspondent à un phénomène humain de la vie quotidienne, trouver une définition simple est un véritable défi. Les émotions peuvent être étudiées sous plusieurs points de vue : la perception des émotions, le ressenti et l'expression.

État de l'art : stratégie d'acquisition de bases de données locuteur et émotions 28

Bases de données locuteur

Les bases de données d’identification du locuteur sont généralement plus faciles à collecter que celles contenant des émotions. Les technologies liées au genre et à la reconnaissance du locuteur (vérification ou identification) sont aujourd’hui relativement avancées.

Bases de données de personnalité

Des campagnes récentes du NIST ont été menées pour étudier l'effet de l'effort vocal sur la reconnaissance du locuteur. Bases de données paralinguistiques (âge et sexe) L'identification du locuteur est aujourd'hui une tâche relativement bien étudiée, tandis que l'identification d'informations paralinguistiques telles que le sexe ou l'âge est beaucoup moins étudiée.

Stratégie d'acquisition de nos corpus

Les corpus ROMEO

NAO-HR1 : un corpus pour la reconnaissance des émotions dans la voix des enfants Le corpus NAO-HR1 [Delaborde et al. Le tableau de correspondance entre mots et émotions se situe derrière le robot.

Les autres corpus utilisés pour nos études

12b] est un corpus de voix de deux joueurs interagissant avec le robot NAO. 09], corpus vocal d'enfants jouant avec le robot Aibo de Sony en allemand (colère, empathie, neutre).

Conclusion

Annotation perceptive

Mesures d'accord inter-juges
Biais de l'annotation

Il est relativement simple de demander à un acteur de commenter lui-même après chaque phrase qu'il prononce, mais dans le cas d'une collecte de données réaliste, il peut ne pas être demandé au participant de commenter lui-même après chaque phrase. Dans [Callejas et Lopez-Cozar 08], plusieurs études ont été réalisées pour évaluer la robustesse de la mesure pour faire correspondre la similarité entre les étiquettes, aux annotateurs et à l'ajout d'informations contextuelles.

Annotation du contexte et des informations locuteur

Description du contexte
Informations locuteur

Cependant, la distinction de genre reste essentielle pour toute analyse acoustique de l’expression des émotions : hommes et femmes sont physiologiquement différents par nature, ce qui implique des différences acoustiques (notamment au niveau des fréquences fondamentales). 10a] : la différence entre enfants et adultes est presque plus une question de sexe que d'âge, pour une simple question de morphologie.

Unités temporelles pour l'annotation des émotions

L'annotation continue
L'annotation segmentale

10b], montre qu'une durée de 1 s serait nécessaire pour une reconnaissance satisfaisante des émotions dans ces corpus. Une problématique intéressante sur la localisation temporelle du phénomène émotionnel consiste à constater l'ancrage de l'émotion [Grichkovtsova et al.

Annotation des informations paralinguistiques émotionnelles : des

Décrire et analyser les émotions

Grâce à des schémas d'annotation de ce type, des émotions complexes peuvent être analysées [Mower et al. L’annotation d’informations de nature psychologique a commencé dans les années 2000 avec les corpus du Trinity College de Dublin [Douglas-Cowie et al.

Unité pour l'annotation : le segment

L'annotation se fait alors en contexte puisque l'annotateur sait ce qui a été dit avant et après le segment en cours. Un certain nombre de règles ont été établies pour précisément nier la tranche émotionnelle et éviter les cas atypiques.

Contexte et informations locuteur

Ces règles permettent d'obtenir des segments émotionnellement homogènes, qui ne contiennent qu'un seul groupe de chansons sur un discours relativement clair. Cette segmentation est très précise et nécessite beaucoup d’attention de la part de ceux qui effectuent la segmentation.

Annotation des émotions

Émotions nes et macro-classes
Valence et activation
Etiquettes émotionnelles utilisés

Pour chaque séance, un questionnaire (oral ou écrit) permet d'obtenir des informations importantes sur l'intervenant. Pour être utiles du point de vue de la classification, les entrées sont simplifiées au niveau du segment.

Contenu des corpus utilisés, données caractéristiques

Corpus IDV-HR
Corpus NAO-HR1
Corpus IDV-HH
Corpus NAO-HR2
Corpus JEMO
Corpus COMPARSE

La répartition des macroclasses sur le corpus IDV-HR est présentée dans la figure 2.6. Annotations des émotions L'annotation du corpus NAO-HR1 a été réalisée selon le même principe que le corpus IDV-HR.

Conclusion

Production de la parole

Lorsque les cordes vocales vibrent, plusieurs mécanismes (ou registres) de vibration peuvent être distingués, chacun correspondant à un mode de vibration des cordes vocales. Il existe couramment deux modes de vibration M1 (voix pectorale, cordes vocales courtes et épaisses) et M2 (voix principale, cordes vocales fines et longues), auxquels on peut ajouter le mode M0 (ou frite) et le mode M3 (ou tamis). , semblable à un cri).

Aspects linguistiques

Les mots et la langue
L'organisation temporelle de la parole

Selon l’usage des cordes vocales, les modes de production de la parole peuvent être différents. D'autres approches de l'organisation temporelle de la parole ont été proposées : une analyse modulaire de la parole et la segmentation prosodique des unités de parole par Simon [Simon 02] ou par Martin [Martin 87].

Le signal de parole

La perception du rythme dans la parole repose à la fois sur des battements (et non sur la temporalité) et sur des groupes de mots (temporalité globale). Plus le ZCR est élevé, plus la quantité de bruit est importante, il y a donc une forte probabilité qu'il ne s'agisse pas de parole.

La prosodie

Fréquence fondamentale

Fonction bas-niveau
L'intonation
Indices haut-niveau

Energie

La plus courante est l'énergie RMS, elle correspond au niveau d'énergie moyen sur une fenêtre temporelle donnée, elle est homogène au carré de l'amplitude du signal. L'énergie perçue (loudness) correspond à l'énergie du signal auquel est appliqué un filtre correspondant à l'oreille humaine.

Proéminences et accentuation dans la parole

Pour la suite du travail nous utiliserons un filtre basé sur les bandes Bark. Comme pour la fréquence et l’énergie fondamentales, plusieurs pistes de haut niveau sont mises en avant.

Timbre et qualité vocale

Descripteurs sémantiques

Descripteurs sémantiques pour la voix chantée
Descripteurs sémantiques pour la voix parlée
Qualité vocale et théorie de l'évaluation

Tension de l'appareil vocal Hypotension de la musculature Amplitude F0 élevée et très faible, petite amplitude. Dans son travail de thèse, Abrilian [Abrilian 07] propose plusieurs descripteurs de qualité vocale pour la construction d'un schéma d'annotation de parole expressive multimodale.

Descripteurs acoustiques

Descripteurs spectraux
Descripteurs cepstraux
Descripteurs de qualité vocale
Voix pathologiques

02] dépend de la fréquence fondamentale et de la configuration glottale à travers le Quotient d'Amplitude. Cette VUF varie selon les différents modes de production et également selon la qualité de la voix.

Le rythme de la parole

Structure voisée

La recherche du rythme dans la parole ne reposera pas sur des méthodes aussi précises. Il semble que l’inverse de la durée moyenne d’une syllabe n’ait de sens que dans un contexte de laboratoire [Beller 09, Obin et al.

Loi de Zipf

Fonctionnelles et descripteurs de références

Fonctionnelles

10] sur la relaxation vocale (coefficient de relaxation Rd, moyenne et écart type sur toutes les parties voisées d'un même segment ; fonctions de distorsion de phase (FPD) également moyennées sur les parties voisées). Nous avons également cherché à améliorer les scores de reconnaissance de valence à l'aide de descripteurs de qualité vocale (Section 5.2.2.3).

Conclusion de l'état de l'art

Les recherches présentées dans cette deuxième partie se concentrent donc sur ce que les descripteurs acoustiques peuvent mesurer. Ainsi, toutes les analyses réalisées dans cette partie seront essentiellement des analyses sur les descripteurs acoustiques.

Descripteurs acoustiques pour les émotions

Descripteurs acoustiques usuels

Fonctions bas-niveau (LLD)
Descripteurs haut-niveau
Fréquence fondamentale
Jitter

Autres descripteurs acoustiques

Variations de F0 dans/entre parties voisées
Coecient de relaxation pour la qualité vocale sur la valence 86
La précision
Le débit

Nouveaux descripteurs d'articulation
Conclusion sur les nouveaux descripteurs de rythme et d'articulation 89
Inuence du contexte sur les descripteurs

Expérience n°1 : Inuence de l'environnement acoustique 90

Conclusion sur la robustesse des descripteurs

Ensuite, nous proposons une mesure pour rejeter la distribution statistique de la durée des parties voisées et non voisées des périodes voisées et non voisées. Les descripteurs qui varient le plus en fonction de la tâche sont les descripteurs spectraux (bandes d'écorce, fréquence de roulis, barycentre spectral), ZCR et énergie (loudness).

Proposition d'une mesure relative pour la variabilité des locuteurs et de

Protocole

Les bandes de Bark ne semblent pas robustes pour le type de tâche ou l'environnement acoustique. Les deux premiers formants F1 et F2 (moyennés sur toutes les parties voisées, pas d'écart type, pas de maximum) semblent robustes à l'environnement acoustique et à la tâche.

Mesure de variabilité

Exemple
Résultats
Liste noire descripteurs

La normalisation du locuteur permet donc d’augmenter le pouvoir de discrimination émotionnelle de la moyenne F0. La figure 4.6 permet de mettre en évidence des familles de descripteurs dont la variabilité liée au locuteur est supérieure à la variabilité liée à l'émotion.

Sélection automatique des descripteurs

Résultats
Liste noire de descripteurs

A partir de cette première expérience, basée sur les variabilités relatives associées aux locuteurs et aux émotions sur un ensemble de cinq corpus, nous pouvons construire une première ébauche de liste noire. De cette seconde expérience, basée sur un algorithme de sélection automatique sur un ensemble de cinq corpus, nous pouvons renforcer la première ébauche de la liste noire.

Conclusion

Paramètres acoustiques

Les MFCC ont l'avantage de modéliser également le conduit vocal tout en étant relativement robustes au bruit [Reynolds et Rose 95]. La plupart des travaux de recherche en identification de haut-parleurs reposent donc sur l'extraction de coefficients MFCC toutes les 10 ms sur une fenêtre de 30 ms.

Modélisation par mélange de gaussiennes (GMM)

Modélisation GMM
Normalisation des descripteurs acoustiques
Adaptation
Mesures de performances
Normalisation des scores

La norme Z permet de normaliser une valeur V par rapport à la moyenne et à la variance selon l'équation 5.7. Cnorm=α · Pfailed+β · PF aussesAlarmes (5.9) La fonction coût dépend du seuil choisi a posteriori pour la meilleure identification et ne prend en compte a priori qu'un seul point de fonctionnement, elle doit alors être mise en parallèle avec une autre fonction ( EER : Equal Error Rate), qui permet de considérer tous les seuils possibles.

Prise en compte du contexte émotionnel

S(x/q) =logf0(x/q)−logf0(x/R) (5.13) Enfin, des expériences ont été menées pour étudier l'impact d'une normalisation en norme T ou en norme Z sur la distribution de probabilité des résultats [ Barras et Gauvain 03]. Une synthèse LPC ajoutée à une modification d'amplitude après analyse prosodique permet d'obtenir une conversion de la parole émotionnelle en parole neutre.

Identication du locuteur dans une interaction réaliste

Protocole de construction des modèles
Identication du genre sur de la parole neutre (IDV-HR)
Inuence d'une parole émotionnelle sur l'identication du genre

En conditions normales (IDV-HR)
En conditions très réverbérantes (IDV-HH)

Identication d'autres caractéristiques locuteur

Reconnaissance de l'âge
Identication de locuteurs connus

Expérience n° 1 : Test de validation croisée sur 22 locuteurs d'IDV-HR sur la parole émotionnelle. Compte tenu des résultats du discours neutre, nous utiliserons un temps d’apprentissage de 30 secondes pour le discours émotionnel.

Conclusion

La classication automatique d'indices paralinguistiques

Classieurs
Conditions d'apprentissage
Mesures de performances

K(x, y) =exp(−γ kx−yk2) (6.1) Les modèles GMM sont moins couramment utilisés que les SVM, mais fournissent néanmoins des résultats satisfaisants pour la reconnaissance des émotions [Clavel et al. La mesure pondérée WAR est également cohérente avec la trace de la matrice de confusion (ou matrice de précision).

Émotions actées/ induites, types de classes, performances

Nous avons proposé une autre mesure pour tenir compte de la diagonale de la matrice : la précision minimale. 08] correspond à une parole émotionnelle spontanée sur 47 locuteurs et le corpus EMO-DB [Burkhardt et al.

Extraction des descripteurs

Normalisation
Sélection automatique des descripteurs
Fusion d'indices

01] pour la reconnaissance de quatre classes de contraintes de la base de données SUSAS [Hansen et Bou-Ghazale 97]. Taux de reconnaissance de Valence (UAR) obtenu en croisant les corpus Roméo et AIBO.

Reconnaissance d'indices paralinguistiques en conditions d'interaction homme-

Protocole pour la reconnaissance automatique

Choix des descripteurs acoustiques
Conditions d'apprentissage
Classication automatique

Enfin, les tests cross-corpus (ou cross-corpus) sont absolument indispensables pour évaluer la robustesse des modèles dans différentes conditions. Les tests cross-corpus permettent d'évaluer la robustesse au type de tâche, à l'environnement acoustique.

Reconnaissance automatique des émotions

Performances en cross-validation
Reconnaissance des émotions en cross-corpus
Reconnaissance d'aect bursts, exemple des rires

Pour pouvoir utiliser les six corpus à notre disposition, nous avons étudié la reconnaissance de valence (positive, négative ou neutre). Chaque ensemble de descripteurs (par exemple OE-F0 + Rd) est utilisé comme entrée dans le système de classification automatique de valence.

Reconnaissance automatique d'autres caractéristiques humaines

Reconnaissance de la personnalité
Reconnaissance du stress

L’amélioration du classement en classe C est cohérente avec les résultats des tests de discrimination. En termes de personnalité, l’analyse du stress présente quelques problèmes en termes de temps.

Conclusion

Synopsis

Le projet Romeo
Eléments de contexte
Architecture du système

Ce deuxième composant n'a pas encore vu le jour, nous n'avons donc pas pu travailler directement avec les signaux audio issus de la capture du robot. Pour des raisons pratiques (enregistrements de corpus, analyses, etc.) nous avons préféré travailler sur des signaux de haute qualité enregistrés sur un micro-cravate.

Evaluation de SysRELL en contexte de laboratoire

Identication du locuteur
Reconnaissance des émotions

Reconnaissance d'état émotionnel Nous calculons 144 descripteurs à partir de séries temporelles extraites de la bibliothèque Voxler. Cet ensemble de 144 descripteurs peut encore être optimisé, certaines fonctionnalités devraient être ajoutées et d'autres supprimées.

Conclusion

Les performances hors ligne (WAR) des modèles SVM implémentés dans le module SysRELL sont données dans le tableau 7.2. Ce point est important dans le cas de la construction de robots assistants présents au domicile d’une personne en perte d’autonomie.

Réexion sur l'éthique

Collecte de données en vue de la construction de modèles

Le consentement du participant
Les données à caractère personnel
Cas de collecte de données dans le cadre de mes travaux

Systèmes de reconnaissance/détection automatique de traits humains159

Reconnaissance automatique sur des données de centre

Ethique des robots

Un robot acceptable
Les robots sociaux
Les robots d'assistance

Conclusion

Axe de recherche (prétraitement ou intégration du bruit ou de la réverbération dans les modèles) Puissance de. Système de référence pour évaluer les applications et caractériser les bases de données en reconnaissance automatique de la parole.

Contributions

Les corpus

L'idée générale que nous avons suivie pour l'étude des corpus est de leur donner une signature (acoustique, linguistique ou autre). Nous avons également participé à l'enregistrement d'un corpus de stress lors de prises de parole publiques.

Les indices acoustiques

Dans ce contexte, nous avons collaboré à la collecte et à l'annotation de quatre corpus de données naturelles en interaction homme-robot. Tous ces corpus ont été collectés dans le cadre d’un travail d’équipe. etc.) nous avons établi une liste noire d’indices peu robustes à la variabilité de ces corpus.

Expériences cross-corpus : pouvoir de généralisation des modèles . 166

A partir des indices nous proposons une mesure de spontanéité issue de la colère et une mesure de variabilité qui permet de positionner un corpus dans un espace émotion/parole.

Perspectives à court-terme

Perspectives pour la suite du projet ROMEO : ROMEO2

Perspectives à long-terme

L'expression et la perception des émotions tirées du discours spontané : preuves du coréen et de l'anglais. Pour une éthique de la recherche en sciences et technologies de l'information et de la communication (STIC).