Percevoir une émotion dans la voix revient souvent à percevoir consciemment ou inconsciemment la musique de la voix. Les indices paralinguistiques que nous avons étudiés sont composés d'émotions (notamment la valence), de stress et de personnalité.
Théories des émotions
- Dénition d'une émotion : une question pluridisciplinaire
- Les principales théories émotionnelles
- Les aect bursts
- Le locuteur et les théories émotionnelles
- Conclusion
Les émotions correspondent à un phénomène humain de la vie quotidienne, trouver une définition simple est un véritable défi. Les émotions peuvent être étudiées sous plusieurs points de vue : la perception des émotions, le ressenti et l'expression.
État de l'art : stratégie d'acquisition de bases de données locuteur et émotions 28
Bases de données locuteur
Les bases de données d’identification du locuteur sont généralement plus faciles à collecter que celles contenant des émotions. Les technologies liées au genre et à la reconnaissance du locuteur (vérification ou identification) sont aujourd’hui relativement avancées.
Bases de données de personnalité
Des campagnes récentes du NIST ont été menées pour étudier l'effet de l'effort vocal sur la reconnaissance du locuteur. Bases de données paralinguistiques (âge et sexe) L'identification du locuteur est aujourd'hui une tâche relativement bien étudiée, tandis que l'identification d'informations paralinguistiques telles que le sexe ou l'âge est beaucoup moins étudiée.
Stratégie d'acquisition de nos corpus
Les corpus ROMEO
NAO-HR1 : un corpus pour la reconnaissance des émotions dans la voix des enfants Le corpus NAO-HR1 [Delaborde et al. Le tableau de correspondance entre mots et émotions se situe derrière le robot.
Les autres corpus utilisés pour nos études
12b] est un corpus de voix de deux joueurs interagissant avec le robot NAO. 09], corpus vocal d'enfants jouant avec le robot Aibo de Sony en allemand (colère, empathie, neutre).
Conclusion
Annotation perceptive
- Mesures d'accord inter-juges
- Biais de l'annotation
Il est relativement simple de demander à un acteur de commenter lui-même après chaque phrase qu'il prononce, mais dans le cas d'une collecte de données réaliste, il peut ne pas être demandé au participant de commenter lui-même après chaque phrase. Dans [Callejas et Lopez-Cozar 08], plusieurs études ont été réalisées pour évaluer la robustesse de la mesure pour faire correspondre la similarité entre les étiquettes, aux annotateurs et à l'ajout d'informations contextuelles.
Annotation du contexte et des informations locuteur
- Description du contexte
- Informations locuteur
Cependant, la distinction de genre reste essentielle pour toute analyse acoustique de l’expression des émotions : hommes et femmes sont physiologiquement différents par nature, ce qui implique des différences acoustiques (notamment au niveau des fréquences fondamentales). 10a] : la différence entre enfants et adultes est presque plus une question de sexe que d'âge, pour une simple question de morphologie.
Unités temporelles pour l'annotation des émotions
- L'annotation continue
- L'annotation segmentale
10b], montre qu'une durée de 1 s serait nécessaire pour une reconnaissance satisfaisante des émotions dans ces corpus. Une problématique intéressante sur la localisation temporelle du phénomène émotionnel consiste à constater l'ancrage de l'émotion [Grichkovtsova et al.
Annotation des informations paralinguistiques émotionnelles : des
- Décrire et analyser les émotions
Grâce à des schémas d'annotation de ce type, des émotions complexes peuvent être analysées [Mower et al. L’annotation d’informations de nature psychologique a commencé dans les années 2000 avec les corpus du Trinity College de Dublin [Douglas-Cowie et al.
Unité pour l'annotation : le segment
L'annotation se fait alors en contexte puisque l'annotateur sait ce qui a été dit avant et après le segment en cours. Un certain nombre de règles ont été établies pour précisément nier la tranche émotionnelle et éviter les cas atypiques.
Contexte et informations locuteur
Ces règles permettent d'obtenir des segments émotionnellement homogènes, qui ne contiennent qu'un seul groupe de chansons sur un discours relativement clair. Cette segmentation est très précise et nécessite beaucoup d’attention de la part de ceux qui effectuent la segmentation.
Annotation des émotions
- Émotions nes et macro-classes
- Valence et activation
- Etiquettes émotionnelles utilisés
Pour chaque séance, un questionnaire (oral ou écrit) permet d'obtenir des informations importantes sur l'intervenant. Pour être utiles du point de vue de la classification, les entrées sont simplifiées au niveau du segment.
Contenu des corpus utilisés, données caractéristiques
- Corpus IDV-HR
- Corpus NAO-HR1
- Corpus IDV-HH
- Corpus NAO-HR2
- Corpus JEMO
- Corpus COMPARSE
La répartition des macroclasses sur le corpus IDV-HR est présentée dans la figure 2.6. Annotations des émotions L'annotation du corpus NAO-HR1 a été réalisée selon le même principe que le corpus IDV-HR.
Conclusion
Production de la parole
Lorsque les cordes vocales vibrent, plusieurs mécanismes (ou registres) de vibration peuvent être distingués, chacun correspondant à un mode de vibration des cordes vocales. Il existe couramment deux modes de vibration M1 (voix pectorale, cordes vocales courtes et épaisses) et M2 (voix principale, cordes vocales fines et longues), auxquels on peut ajouter le mode M0 (ou frite) et le mode M3 (ou tamis). , semblable à un cri).
Aspects linguistiques
- Les mots et la langue
- L'organisation temporelle de la parole
Selon l’usage des cordes vocales, les modes de production de la parole peuvent être différents. D'autres approches de l'organisation temporelle de la parole ont été proposées : une analyse modulaire de la parole et la segmentation prosodique des unités de parole par Simon [Simon 02] ou par Martin [Martin 87].
Le signal de parole
La perception du rythme dans la parole repose à la fois sur des battements (et non sur la temporalité) et sur des groupes de mots (temporalité globale). Plus le ZCR est élevé, plus la quantité de bruit est importante, il y a donc une forte probabilité qu'il ne s'agisse pas de parole.
La prosodie
Fréquence fondamentale
- Fonction bas-niveau
- L'intonation
- Indices haut-niveau
Energie
La plus courante est l'énergie RMS, elle correspond au niveau d'énergie moyen sur une fenêtre temporelle donnée, elle est homogène au carré de l'amplitude du signal. L'énergie perçue (loudness) correspond à l'énergie du signal auquel est appliqué un filtre correspondant à l'oreille humaine.
Proéminences et accentuation dans la parole
Pour la suite du travail nous utiliserons un filtre basé sur les bandes Bark. Comme pour la fréquence et l’énergie fondamentales, plusieurs pistes de haut niveau sont mises en avant.
Timbre et qualité vocale
Descripteurs sémantiques
- Descripteurs sémantiques pour la voix chantée
- Descripteurs sémantiques pour la voix parlée
- Qualité vocale et théorie de l'évaluation
Tension de l'appareil vocal Hypotension de la musculature Amplitude F0 élevée et très faible, petite amplitude. Dans son travail de thèse, Abrilian [Abrilian 07] propose plusieurs descripteurs de qualité vocale pour la construction d'un schéma d'annotation de parole expressive multimodale.
Descripteurs acoustiques
- Descripteurs spectraux
- Descripteurs cepstraux
- Descripteurs de qualité vocale
- Voix pathologiques
02] dépend de la fréquence fondamentale et de la configuration glottale à travers le Quotient d'Amplitude. Cette VUF varie selon les différents modes de production et également selon la qualité de la voix.
Le rythme de la parole
Structure voisée
La recherche du rythme dans la parole ne reposera pas sur des méthodes aussi précises. Il semble que l’inverse de la durée moyenne d’une syllabe n’ait de sens que dans un contexte de laboratoire [Beller 09, Obin et al.
Loi de Zipf
Fonctionnelles et descripteurs de références
Fonctionnelles
10] sur la relaxation vocale (coefficient de relaxation Rd, moyenne et écart type sur toutes les parties voisées d'un même segment ; fonctions de distorsion de phase (FPD) également moyennées sur les parties voisées). Nous avons également cherché à améliorer les scores de reconnaissance de valence à l'aide de descripteurs de qualité vocale (Section 5.2.2.3).
Conclusion de l'état de l'art
Les recherches présentées dans cette deuxième partie se concentrent donc sur ce que les descripteurs acoustiques peuvent mesurer. Ainsi, toutes les analyses réalisées dans cette partie seront essentiellement des analyses sur les descripteurs acoustiques.
Descripteurs acoustiques pour les émotions
- Descripteurs acoustiques usuels
- Fonctions bas-niveau (LLD)
- Descripteurs haut-niveau
- Fréquence fondamentale
- Jitter
- Autres descripteurs acoustiques
- Variations de F0 dans/entre parties voisées
- Coecient de relaxation pour la qualité vocale sur la valence 86
- La précision
- Le débit
- Nouveaux descripteurs d'articulation
- Conclusion sur les nouveaux descripteurs de rythme et d'articulation 89
- Inuence du contexte sur les descripteurs
- Expérience n°1 : Inuence de l'environnement acoustique 90
- Conclusion sur la robustesse des descripteurs
Ensuite, nous proposons une mesure pour rejeter la distribution statistique de la durée des parties voisées et non voisées des périodes voisées et non voisées. Les descripteurs qui varient le plus en fonction de la tâche sont les descripteurs spectraux (bandes d'écorce, fréquence de roulis, barycentre spectral), ZCR et énergie (loudness).
Proposition d'une mesure relative pour la variabilité des locuteurs et de
Protocole
Les bandes de Bark ne semblent pas robustes pour le type de tâche ou l'environnement acoustique. Les deux premiers formants F1 et F2 (moyennés sur toutes les parties voisées, pas d'écart type, pas de maximum) semblent robustes à l'environnement acoustique et à la tâche.
Mesure de variabilité
- Exemple
- Résultats
- Liste noire descripteurs
La normalisation du locuteur permet donc d’augmenter le pouvoir de discrimination émotionnelle de la moyenne F0. La figure 4.6 permet de mettre en évidence des familles de descripteurs dont la variabilité liée au locuteur est supérieure à la variabilité liée à l'émotion.
Sélection automatique des descripteurs
- Résultats
- Liste noire de descripteurs
A partir de cette première expérience, basée sur les variabilités relatives associées aux locuteurs et aux émotions sur un ensemble de cinq corpus, nous pouvons construire une première ébauche de liste noire. De cette seconde expérience, basée sur un algorithme de sélection automatique sur un ensemble de cinq corpus, nous pouvons renforcer la première ébauche de la liste noire.
Conclusion
Paramètres acoustiques
Les MFCC ont l'avantage de modéliser également le conduit vocal tout en étant relativement robustes au bruit [Reynolds et Rose 95]. La plupart des travaux de recherche en identification de haut-parleurs reposent donc sur l'extraction de coefficients MFCC toutes les 10 ms sur une fenêtre de 30 ms.
Modélisation par mélange de gaussiennes (GMM)
- Modélisation GMM
- Normalisation des descripteurs acoustiques
- Adaptation
- Mesures de performances
- Normalisation des scores
La norme Z permet de normaliser une valeur V par rapport à la moyenne et à la variance selon l'équation 5.7. Cnorm=α · Pfailed+β · PF aussesAlarmes (5.9) La fonction coût dépend du seuil choisi a posteriori pour la meilleure identification et ne prend en compte a priori qu'un seul point de fonctionnement, elle doit alors être mise en parallèle avec une autre fonction ( EER : Equal Error Rate), qui permet de considérer tous les seuils possibles.
Prise en compte du contexte émotionnel
S(x/q) =logf0(x/q)−logf0(x/R) (5.13) Enfin, des expériences ont été menées pour étudier l'impact d'une normalisation en norme T ou en norme Z sur la distribution de probabilité des résultats [ Barras et Gauvain 03]. Une synthèse LPC ajoutée à une modification d'amplitude après analyse prosodique permet d'obtenir une conversion de la parole émotionnelle en parole neutre.
Identication du locuteur dans une interaction réaliste
- Protocole de construction des modèles
- Identication du genre sur de la parole neutre (IDV-HR)
- Inuence d'une parole émotionnelle sur l'identication du genre
- En conditions normales (IDV-HR)
- En conditions très réverbérantes (IDV-HH)
- Identication d'autres caractéristiques locuteur
- Reconnaissance de l'âge
- Identication de locuteurs connus
Expérience n° 1 : Test de validation croisée sur 22 locuteurs d'IDV-HR sur la parole émotionnelle. Compte tenu des résultats du discours neutre, nous utiliserons un temps d’apprentissage de 30 secondes pour le discours émotionnel.
Conclusion
La classication automatique d'indices paralinguistiques
- Classieurs
- Conditions d'apprentissage
- Mesures de performances
K(x, y) =exp(−γ kx−yk2) (6.1) Les modèles GMM sont moins couramment utilisés que les SVM, mais fournissent néanmoins des résultats satisfaisants pour la reconnaissance des émotions [Clavel et al. La mesure pondérée WAR est également cohérente avec la trace de la matrice de confusion (ou matrice de précision).
Émotions actées/ induites, types de classes, performances
Nous avons proposé une autre mesure pour tenir compte de la diagonale de la matrice : la précision minimale. 08] correspond à une parole émotionnelle spontanée sur 47 locuteurs et le corpus EMO-DB [Burkhardt et al.
Extraction des descripteurs
- Normalisation
- Sélection automatique des descripteurs
- Fusion d'indices
01] pour la reconnaissance de quatre classes de contraintes de la base de données SUSAS [Hansen et Bou-Ghazale 97]. Taux de reconnaissance de Valence (UAR) obtenu en croisant les corpus Roméo et AIBO.
Reconnaissance d'indices paralinguistiques en conditions d'interaction homme-
Protocole pour la reconnaissance automatique
- Choix des descripteurs acoustiques
- Conditions d'apprentissage
- Classication automatique
Enfin, les tests cross-corpus (ou cross-corpus) sont absolument indispensables pour évaluer la robustesse des modèles dans différentes conditions. Les tests cross-corpus permettent d'évaluer la robustesse au type de tâche, à l'environnement acoustique.
Reconnaissance automatique des émotions
- Performances en cross-validation
- Reconnaissance des émotions en cross-corpus
- Reconnaissance d'aect bursts, exemple des rires
Pour pouvoir utiliser les six corpus à notre disposition, nous avons étudié la reconnaissance de valence (positive, négative ou neutre). Chaque ensemble de descripteurs (par exemple OE-F0 + Rd) est utilisé comme entrée dans le système de classification automatique de valence.
Reconnaissance automatique d'autres caractéristiques humaines
- Reconnaissance de la personnalité
- Reconnaissance du stress
L’amélioration du classement en classe C est cohérente avec les résultats des tests de discrimination. En termes de personnalité, l’analyse du stress présente quelques problèmes en termes de temps.
Conclusion
Synopsis
- Le projet Romeo
- Eléments de contexte
- Architecture du système
Ce deuxième composant n'a pas encore vu le jour, nous n'avons donc pas pu travailler directement avec les signaux audio issus de la capture du robot. Pour des raisons pratiques (enregistrements de corpus, analyses, etc.) nous avons préféré travailler sur des signaux de haute qualité enregistrés sur un micro-cravate.
Evaluation de SysRELL en contexte de laboratoire
- Identication du locuteur
- Reconnaissance des émotions
Reconnaissance d'état émotionnel Nous calculons 144 descripteurs à partir de séries temporelles extraites de la bibliothèque Voxler. Cet ensemble de 144 descripteurs peut encore être optimisé, certaines fonctionnalités devraient être ajoutées et d'autres supprimées.
Conclusion
Les performances hors ligne (WAR) des modèles SVM implémentés dans le module SysRELL sont données dans le tableau 7.2. Ce point est important dans le cas de la construction de robots assistants présents au domicile d’une personne en perte d’autonomie.
Réexion sur l'éthique
- Collecte de données en vue de la construction de modèles
- Le consentement du participant
- Les données à caractère personnel
- Cas de collecte de données dans le cadre de mes travaux
- Systèmes de reconnaissance/détection automatique de traits humains159
- Reconnaissance automatique sur des données de centre
- Ethique des robots
- Un robot acceptable
- Les robots sociaux
- Les robots d'assistance
- Conclusion
Axe de recherche (prétraitement ou intégration du bruit ou de la réverbération dans les modèles) Puissance de. Système de référence pour évaluer les applications et caractériser les bases de données en reconnaissance automatique de la parole.
Contributions
Les corpus
L'idée générale que nous avons suivie pour l'étude des corpus est de leur donner une signature (acoustique, linguistique ou autre). Nous avons également participé à l'enregistrement d'un corpus de stress lors de prises de parole publiques.
Les indices acoustiques
Dans ce contexte, nous avons collaboré à la collecte et à l'annotation de quatre corpus de données naturelles en interaction homme-robot. Tous ces corpus ont été collectés dans le cadre d’un travail d’équipe. etc.) nous avons établi une liste noire d’indices peu robustes à la variabilité de ces corpus.
Expériences cross-corpus : pouvoir de généralisation des modèles . 166
A partir des indices nous proposons une mesure de spontanéité issue de la colère et une mesure de variabilité qui permet de positionner un corpus dans un espace émotion/parole.
Perspectives à court-terme
Perspectives pour la suite du projet ROMEO : ROMEO2
Perspectives à long-terme
L'expression et la perception des émotions tirées du discours spontané : preuves du coréen et de l'anglais. Pour une éthique de la recherche en sciences et technologies de l'information et de la communication (STIC).