Reconnaissance du stress - Reconnaissance automatique d'autres caractéristiques humaines

6.2 Reconnaissance d'indices paralinguistiques en conditions d'interaction homme-

6.2.3 Reconnaissance automatique d'autres caractéristiques humaines

6.2.3.2 Reconnaissance du stress

An de continuer à tester nos paramètres de rythme et d'articulation, nous sommes intéressés à une autre tâche : la détection du stress dans la parole. Etant donné que l'annotation du corpus COMPARSE n'est pas terminée à l'heure de rendre ce manuscrit, nous n'avons pas eu l'opportunité de mener des tests de reconnaissance automatique du stress. Cependant nous proposons quelques pistes de recherches qui nous semblent pertinentes pour l'analyse du stress dans la voix.

Comme pour la personnalité, l'analyse du stress pose quelques problématiques au niveau de la temporalité. En eet, sur quel type de fenêtre temporelle, le stress dans la voix peut-il être annoté, analysé ? Quelle inuence peut avoir le contrôle de soi sur l'expression du stress ? En eet, nous avons pu remarquer dans la majeure partie des

échantillons audio collectés, que le stress provoqué par la tâche de prise de parole en public est extrêmement ténu, il ne semble ce manifester que sur des indices très ponctuels et très précis. Par exemple, un léger tremblement de voix, une fréquence fondamentale plus haute que d'habitude ou encore une pause, une hésitation, sont des marqueurs de stress.

Protocole Nous avons donc choisi d'analyser certains descripteurs acoustiques sur quelques enregistrements de la collecte Comparse. Parmi ces descripteurs, nous avons sélectionné la fréquence fondamentale, l'énergie perçue (ou loudness), le rythme et l'articulation. Pour cette analyse, nous avons choisi les locuteurs 4 et 8 qui correspondent à des comportements ressentis comme extrêmes face au stress lors de la tâche de prise de parole en public. Le locuteur 4 est un homme relativement calme et posé alors que le locuteur 8 est une femme qui a été bien stressée par la tâche.

Les descripteurs d'articulation, de rythme et de fréquence fondamentale sont calculés par pas de 10s avec un overlap de 50%. Pour chacune des phases, nous représentons uniquement la moyenne temporelle. Le choix d'un pas de 10 s permet d'avoir susamment de signal pour déterminer de manière robuste les paramètres de rythme, cependant il semble que cette fenêtre temporelle soit inférieure à celle de la manifestation du stress.

Résultats La fréquence fondamentale est légèrement plus élevée au début de la phase de présentation que pour la phase de lecture pour les deux locuteurs étudiés. Au cours de la présentation, la F0 du locuteur 8 a tendance à diminuer (−0,0015st/s) alors que celle du locuteur 4 oscille autour de sa valeur moyenne. Pour le locuteur 8, il y a une baisse importante autour de 150 s de présentation, cela correspond avec un embrouillement au niveau du discours, des retours en arrières, des pauses, des hésitations. La baisse de la F0 sur un long temps de parole peut alors traduire la fatigue vocale, mais également une perte de conance en soi.

Alors que le locuteur 4 a une F0 plutôt basse lors de ses réponses aux remarques négatives des juges, et plutôt haute sur les remarques positives, le locuteur 8 emploit la stratégie opposée. Il faudrait bien sûr étudier ces comportements sur l'ensemble des participants pour pouvoir généraliser ces tendances, mais nous pouvons d'ores et déjà dire qu'il existe des stratégies très diérentes au niveau de la F0 en fonction des locuteurs.

L'articulation (gure 6.5) est en moyenne moins élevée lors de la présentation que lors de la phase de lecture, ce phénomène est relativement logique puisque lors de la lecture les mots sont déjà donnés. On peut néamoins remarquer que le locuteur 4 articule nettement moins que le locuteur 8 et son articulation a tendance à diminuer au cours de la phase de présentation (−0,0002s⁻¹). Il articule cependant plus sur la phase d'entretien et plus sur les questions négatives. Ce qui peut correspondre à une manifestation de stress. Le locuteur 8 va avoir une autre stratégie : comme au niveau de la F0, une rupture dans l'articulation se ressent également autour de 150 s. Lors des phases de questions négatives, le locuteur 8 aura tendance a moins articuler que pendant les questions négatives. Nous sommes donc en présence de deux comportements diérents face au stress : l'un va hyper- articuler (stratégie de défense pour quelqu'un qui a conance en soi ?) lors des remarques négatives alors que l'autre va au contraire sous-articuler (stratégie de fuite pour quelqu'un qui n'a peu conance en soi ?).

Figure 6.4 Evolution de la fréquence fondamentale en semiton normalisée au locuteur pas à pas sur les phases de lecture (L) et de présentation (P) (a), en moyenne sur les diérentes phases de lecture, présentation et questions (négatives QN et positives QP) (b)

Figure 6.5 Evolution de l'articulation pas à pas sur les phases de lecture (L) et de présentation (P) (a), en moyenne sur les diérentes phases de lecture, présentation et questions (négatives QN et positives QP) (b)

période va augmenter en moyenne sur les questions négatives, signe d'un débit plus lent ou d'une augmentation des pauses. Evidemment cette mesure de débit (ou de périodicité) doit s'accompagner d'une mesure de régularité. Ce que nous avons proposé également parmi nos descripteurs de rythme (densité de la période entre deux parties non-voisées consécutives). On peut remarquer que le locuteur 8 s'exprime de manière moins régulière que le locuteur 4.

Conclusions Les résultats présentés ci-dessus ne sont pas encore généralisables mais représentent des hypothèses de travail élaborées sur quelques locuteurs du corpus COM- PARSE. Les descripteurs de fréquence fondamentale, de rythme et d'articulation que nous proposons semblent pertinents pour une analyse du stress dans la voix. Cependant ils n'ont pas été testés dans des systèmes de reconnaissance automatique du stress puisque le corpus n'était pas encore disponible. D'autres indices ponctuels doivent être ajoutés pour caractériser les tremblements de voix (jitter ou tremor). Cependant une des plus grandes dicultés de cette tâche reste dans le choix des fenêtres temporelles et des seg- ments à analyser : pour la plupart des participants enregistrés, le stress ne se manifeste dans la voix que de manière extrêmement ne et ponctuelle.

Nous n'avions pas à disposition les annotations de stress an de pouvoir présenter des résultats sur les performances de reconnaissance. Une étude précédente sur la reconnaissance du stress dans la parole montre que les performances peuvent atteindre 51,2% sur quatre classes de stress [Fernandez and Picard 03] (modèle SVM, indépendant des locuteurs) en utilisant l'opérateur d'énergie Teager. Cet opérateur est également utilisé avec succès par Zhou [Zhou et al. 01] pour la reconnaissance de quatre classes de stress de la base de données SUSAS [Hansen and Bou-Ghazale 97]. Les performances de reconnaissance obtenues sont de 45-65% pour les types de stress non neutres. Une des perspectives pour cet axe de recherche serait de tester la classication automatique du stress en com- binant nos descripteurs de rythme et d'articulation avec les des descripteurs comme les opérateurs Teager ou bien des ltres de Gabor [He et al. 10].

No documento lors d’une interaction humain-robot (páginas 140-144)