• Nenhum resultado encontrado

Evaluation objective de la qualité vocale en contexte de conversation

N/A
N/A
Protected

Academic year: 2023

Share "Evaluation objective de la qualité vocale en contexte de conversation"

Copied!
183
0
0

Texto

Qualité vocale Expression utilisée pour décrire la qualité de la transmission téléphonique d'un signal vocal. Pour fonctionner, la partie mesure du modèle objectif nécessite un modèle de qualité auditive et un modèle de qualité vocale.

Qualité vocale dans les télécommunications

Considérations sur la qualité vocale

  • Subjective par nature
  • Critères de qualité
  • Contexte
  • Synthèse

Ces méthodes d'évaluation de la qualité vocale sont dites analytiques [IEEE 1969], considérant la qualité vocale comme un phénomène multidimensionnel. Pour résumer, le jugement de la qualité de la voix est influencé par plusieurs paramètres, qui peuvent dépendre : (i) de facteurs propres à celui qui la juge (expérience passée, attentes et humeur de chacun), (ii) du contenu de la voix. le signal vocal. le discours lui-même, (iii) les critères de qualité examinés, et (iv) les facteurs extérieurs à l'individu (contexte et environnement).

Figure 1.1 : Représentation schématique de l
Figure 1.1 : Représentation schématique de l'auditeur lors d'une expérience auditive (d'après [Blauert 1997])

Évolution des systèmes de télécommunications

  • Téléphonie classique
  • Systèmes numériques
  • Systèmes mobiles
  • Réseaux en mode paquet
  • Synthèse

La transformation du signal, analogique en numérique et inversement, est alors assurée par le codec situé dans le poste utilisateur. Une des particularités du réseau IP par rapport au RTC réside dans le mode de transport des données.

Évaluation subjective de la qualité vocale

  • Choix des sujets
  • Méthodes normalisées
    • Essais d'opinion d'écoute
    • Tests de parole et d'écoute
    • Essais d'opinion de conversation
    • Synthèse
  • Eets subjectifs des diérentes dégradations sur la qualité vocale
    • Échos
    • Délai
    • Distorsion de la parole due au codage
    • Bruits
    • Pertes de paquets
    • Distorsion de l'eet local
    • Variations dans le temps des dégradations
    • Double parole
    • Dispositifs de traitement du signal
    • Synthèse
  • Limites de l'évaluation subjective

Les conditions testées concernent les dégradations qui affectent la qualité d'écoute, telles que la distorsion de la parole due au codage, le bruit pour l'auditeur et les pertes de paquets. L'impact des pertes de paquets sur la qualité de la parole se manifeste par des coupures et/ou des crépitements dans le signal reçu, qui, dans des cas extrêmes, peuvent rendre la parole inintelligible pour l'auditeur.

Tableau 1.1 : Échelle de qualité d
Tableau 1.1 : Échelle de qualité d'écoute (méthode ACR)

Modèles objectifs de la qualité vocale

  • Modèles paramétriques
    • Modèle E
    • Modèle CCI
    • Modèle P.564
    • Avantages et limites
  • Modèles basés sur les signaux avec référence
    • Transformation par représentation interne
    • Modèle PESQ
    • Modèle PESQM
    • Avantages et limites
  • Modèles basés sur les signaux sans référence
  • Évaluation des mesures objectives de la qualité vocale

Un autre modèle asymétrique de qualité d'écoute est décrit dans la Recommandation P.564 [Rec. La difficulté d'évaluer la qualité de la parole réside d'abord dans la définition du signal de référence qui doit être utilisé comme entrée du modèle [Appel et Beerends 2002].

Figure 1.15 : Classication des modèles objectifs de la qualité vocale existants. Le sigle P.xxx ou G.xxx désigne la recommandation correspondante à l
Figure 1.15 : Classication des modèles objectifs de la qualité vocale existants. Le sigle P.xxx ou G.xxx désigne la recommandation correspondante à l'UIT-T, le nom usuel du modèle est entre guillemets.

Problématique

Dans ce chapitre, nous présenterons d'abord le problème posé par le développement d'un tel modèle objectif non paramétrique de la qualité de la parole dans un contexte conversationnel. Après avoir déterminé les objectifs que nous souhaitons atteindre avec ce modèle, nous décrirons dans la thèse la méthode proposée pour construire un modèle objectif de qualité vocale conversationnelle.

Objectifs

Un autre objectif de cette thèse consistera donc à concevoir et mettre en œuvre plusieurs tests subjectifs pour étudier l'impact des dégradations survenant dans le contexte d'une conversation sur la qualité vocale perçue.

Méthode proposée

Partie intégration

L'appréciation de la qualité de la conversation est ainsi évaluée en combinant les résultats de la qualité d'écoute et de parole et la valeur du retard présent dans la communication testée. Construction du modèle : des évaluations subjectives de la qualité de la parole, de la qualité d'écoute et de la qualité de la conversation sont obtenues lors de tests subjectifs dans différentes conditions de dégradation.

Partie mesure

À partir de ces scores subjectifs et valeurs de retard, le rapport F entre les trois composantes (évaluation subjective de la qualité de la parole, évaluation subjective de la qualité d'écoute et retard) est déterminé pour estimer l'évaluation subjective de la qualité de la parole. La méthode proposée dans le chapitre 2 consiste à tenter de combiner la qualité d’écoute et de parole et la latence pour estimer la qualité conversationnelle.

Figure 2.1 : Méthode proposée pour l
Figure 2.1 : Méthode proposée pour l'évaluation objective de la qualité conversationnelle

Méthodologie de test proposée

  • Protocole
  • Déroulement des tests
  • Choix des conditions de test
  • Montage expérimental et enregistrement
  • Analyse des résultats subjectifs et rejet des sujets aberrants

Un logiciel de notation a été développé dans le cadre de la thèse pour accélérer et automatiser la collecte et l'analyse des scores fournis par les participants. Les communications effectuées lors des tests subjectifs seront enregistrées afin d'être utilisées pour évaluer les performances du modèle proposé au niveau objectif, discuté au chapitre 5.

Tests subjectifs réalisés

Test 1 : délai et écho

  • Objectifs
  • Conditions et facteurs expérimentaux
  • Analyse des résultats
  • Synthèse

En présence de réverbération, l'effet de retard dépend du contexte dans lequel se situe le sujet (interaction importante entre les deux facteurs), qui résulte essentiellement d'un contexte d'écoute non affecté par la réverbération et pour lequel la note moyenne globale reste relativement stable (autour de 4 MOS), à mesure que le retard augmente. En l’absence de réverbération, le retard n’a pas d’effet significatif sur le jugement, quel que soit le contexte, puisque la question porte sur l’inconfort de la réverbération.

Tableau 3.1 : Conditions - Test 1 sur le délai et l
Tableau 3.1 : Conditions - Test 1 sur le délai et l'écho

Test 2 : pertes de paquets et bruit

  • Objectif
  • Conditions et facteurs expérimentaux
  • Analyse des résultats
  • Synthèse

Dans le cadre de l'écoute, la qualité varie en fonction du taux de perte de paquets et du niveau de bruit à distance. Quant à la mesure globale de la qualité, l’appréciation moyenne des inconvénients liés aux erreurs est affectée par le contexte et le taux de perte de paquets.

Tableau 3.11 : Conditions - Test 2 sur les pertes de paquets et le bruit
Tableau 3.11 : Conditions - Test 2 sur les pertes de paquets et le bruit

Test 3 : bruit

  • Objectif
  • Conditions et facteurs expérimentaux
  • Analyse des résultats
  • Synthèse

Quant à la mesure globale de la qualité, l’indice moyen d’interférence sonore est affecté par le contexte et le taux de perte de paquets, mais peu par le bruit. Une ANOVA réalisée sur des mesures de qualité globale et d'interférence sonore confirme que le bruit a un effet très significatif et que le contexte n'a pas d'effet significatif sur les jugements des sujets.

Tableau 3.21 : Conditions - Test 3 sur le bruit
Tableau 3.21 : Conditions - Test 3 sur le bruit

Test 4 : écho, délai et pertes de paquets

  • Objectif
  • Conditions et facteurs expérimentaux
  • Analyse des résultats
  • Synthèse

Dans un contexte conversationnel, la qualité semble varier principalement en fonction du taux de perte de paquets et semble moins affectée par le délai et l'écho. Dans le contexte vocal, le score moyen global reste presque stable à mesure que la perte de paquets augmente.

Tableau 3.29 : Conditions - Test 4 sur l
Tableau 3.29 : Conditions - Test 4 sur l'écho, le délai et les pertes de paquets

Relation entre les diérentes composantes de la qualité vocale

  • Test 1 : délai et écho
  • Test 2 : pertes de paquets et bruit
  • Test 3 : bruit
  • Test 4 : écho, délai et pertes de paquets
  • Détection des dégradations
  • Tous tests
    • Apprentissage
    • Validation

Le mappage entre les scores de conversation subjectifs et estimés obtenus de cette manière est présenté dans la figure 3.24. Le mappage entre les scores de conversation subjectifs et estimés obtenus de cette manière est présenté dans la figure 3.25.

Tableau 3.39 : Analyse de régression linéaire - Test 1 sur le délai et l
Tableau 3.39 : Analyse de régression linéaire - Test 1 sur le délai et l'écho

Optimisation du modèle de qualité de locution PESQM

Étude préliminaire de PESQM sur deux tests de locution de la littérature 96

  • Protocole
  • Analyse des résultats
  • Enregistrement des signaux de test
  • Vérication de la reproductibilité des notes subjectives entre

D'après le tableau 4.6, l'effet local a un effet significatif mais faible par rapport aux effets d'autres facteurs. Quatre des cinq facteurs (bruit, pertes de paquets (notés PP), délai et atténuation) ont un effet significatif, tandis que le facteur local Eet n'a aucun effet significatif.

Tableau 4.1 : Conditions et notes MOS du test de locution avec écho seul - Contribution UIT-T COM 12-16 [Gierlich et Diedrich 2000]
Tableau 4.1 : Conditions et notes MOS du test de locution avec écho seul - Contribution UIT-T COM 12-16 [Gierlich et Diedrich 2000]

Étude de PESQM sur les résultats de notre test de locution

Pour chacune des répartitions, la corrélation r entre les notes subjectives et les scores PESQM correspondants est calculée. La corrélation obtenue entre les scores MOS et les scores PESQM est fortement dépendante des dégradations présentes.

Tableau 4.13 : ANOVA pour le critère de qualité de l
Tableau 4.13 : ANOVA pour le critère de qualité de l'eet local - Session 2

Optimisation et validation de PESQM

  • Optimisation
  • Choix des paramètres optimaux
  • Version optimisée de PESQM appliquée au test de locution . 112

Les trois courbes de mappage (écho uniquement, écho + perte de paquets et écho uniquement et écho + perte de paquets) sont comparées dans la figure 4.9, pour les conditions avec écho uniquement et écho + perte de paquets. Une seule fonction de mappage a été déterminée pour les conditions d'écho uniquement et d'écho + perte de paquets, ce qui a donné une corrélation de Pearson r = 0,9165 entre les scores de parole subjectifs et objectifs.

Figure 4.6 : Mappings et corrélations entre scores PESQM et notes MOS, avec p = 1.4 et q = 5
Figure 4.6 : Mappings et corrélations entre scores PESQM et notes MOS, avec p = 1.4 et q = 5

Découpage des signaux de conversation

La courbe de cartographie obtenue dans toutes les conditions d'écho uniquement et d'écho + perte de paquets donne lieu à la meilleure corrélation Pearsonr entre les scores de parole subjectifs et objectifs. Les scores PESQM sont ensuite convertis en scores MOS à l'aide d'une fonction de mappage unique déterminée pour les conditions d'écho uniquement et d'écho + perte de paquets et résultant en une corrélation de Pearson = 0,9165 entre les scores de parole subjectifs et objectifs.

Figure 4.10 : Illustration du découpage des signaux pour utilisation avec le modèle PESQM (qualité de locution évaluée pour l
Figure 4.10 : Illustration du découpage des signaux pour utilisation avec le modèle PESQM (qualité de locution évaluée pour l'interlocuteur A)

Application à des signaux de test

  • Performances du modèle objectif de qualité d'écoute (PESQ)
  • Performances du modèle objectif de qualité de locution (PESQM)
  • Performances du modèle objectif de qualité de conversation (CONV) . 123
  • Synthèse

Puisque α = 0, le score de qualité vocale n’est pas inclus dans le score de qualité de conversation. Les performances du modèle objectif de qualité d'appel avec détection de bruit dans toutes les conditions de test sont présentées dans la figure 5.5(a).

Tableau 5.1 : Performances des modèles objectifs des qualités d
Tableau 5.1 : Performances des modèles objectifs des qualités d'écoute (PESQ), de locution (PESQM) et de conversation (CONV sans ou avec détection du bruit) pour les diérents tests - Signaux de test

Application à des signaux de conversation

  • Performances du modèle objectif de qualité d'écoute (PESQ)
  • Performances du modèle objectif de qualité de locution (PESQM)
  • Performances du modèle objectif de qualité de conversation (CONV) . 129
  • Synthèse

Nous présentons dans un premier temps les performances du modèle de conversation sans détection de bruit, puis dans le but d'étudier l'apport de la détection de bruit aux signaux conversationnels. Les performances du modèle objectif de qualité de conversation avec détection de bruit sont présentées dans la figure 5.9(a).

Étude de l'interactivité

Motivations

Les rafales de parole et les temps de pause sont détectés à l'aide d'un détecteur d'activité vocale. Le temps de séjour moyen dans l'état I peut être déterminé en fonction de la température de conversation τ.

Figure 5.10 : Modèle de la conversation à quatre états : état A = parole de A et silence de B, état B = parole de B et silence de A, état M = silence mutuel, état D = double parole
Figure 5.10 : Modèle de la conversation à quatre états : état A = parole de A et silence de B, état B = parole de B et silence de A, état M = silence mutuel, état D = double parole

Application

Les moyennes des temps de séjour, des probabilités d'état et des températures de parole sont tracées en fonction du retard dans un sens dans la figure 5.12. En particulier, les temps de séjour moyens tA et tB sont supérieurs à ceux rapportés dans la recommandation P.59.

Figure 5.11 : Paramètres conversationnels, température de conversation moyenne et notes MOS en fonction du délai (d
Figure 5.11 : Paramètres conversationnels, température de conversation moyenne et notes MOS en fonction du délai (d'après [Hammer 2006])

Synthèse

Cependant, l'impact du retard sur la qualité de la conversation varie en fonction de l'interactivité de la communication. Il manquait donc un modèle d’évaluation de la qualité de la conversation basé sur l’analyse du signal (avec ou sans référence).

Physique du phénomène sonore

Capacités sensorielles et dimensions de la perception auditive

Bandes critiques

Masquage

Si un son pur est présenté sur fond de bruit blanc de masquage, seules les fréquences de bruit proches de celles du son pur contribuent à l'effet de masquage. Le seuil masqué correspond à l'égalité de l'énergie du signal et de celle du bruit dans la bande critique centrée sur le signal.

Audiogramme masqué

Le son test est perçu dès que son niveau, dans la bande critique autour de 1 kHz, est inférieur d'environ 4 dB au niveau du son de masquage dans la même bande de fréquence.

Perception de l'intensité acoustique

Si l'on applique l'intensité d'un son pur à 1 kHz à celle d'une bande de bruit centrée à 1 kHz, en gardant constante la puissance acoustique du bruit, le bruit est indépendant de la bande passante jusqu'à 160 Hz, ce qui correspond à la bande critique. à 1 kHz. Au-dessus de 160 Hz, le volume sonore augmente avec la largeur si le niveau global est supérieur à 20 dB SPL.

Perception de la hauteur

Dans la plage d'intensité comprise entre 30 et 120 dB, la fonction d'intensité sonore peut être décrite par la loi de puissance de Stevens avec l'exposant 0,6 : S = kp0,6, où S = intensité sonore en sones, p = pression acoustique en µPa et k = constante.

Échelles naturelles de la membrane basilaire

Ce modèle objectif d'évaluation de la qualité de la parole (dans un contexte d'écoute) est le résultat de la fusion de deux modèles : PSQM [Rec. Perte de paquets et masquage de perte de paquets avec des codecs de type MIC Coupure temporaire du signal vocal.

Tableau B.1 : Facteurs pour lesquels la méthode PESQ s
Tableau B.1 : Facteurs pour lesquels la méthode PESQ s'est révélée d'une précision acceptable

Principe

Échelonnement et alignement temporel

  • Échelonnement du niveau
  • Filtrage du système IRS
  • Alignement temporel

Le modèle ne doit donc pas prendre en compte la différence de niveau entre le signal initial et le signal dégradé. En calculant le temps de propagation n, il est possible de déterminer une valeur exacte du temps de propagation par échantillon, selon les étapes suivantes.

Figure B.1 : Principe de fonctionnement du module d
Figure B.1 : Principe de fonctionnement du module d'alignement temporel utilisé dans le modèle PESQ ( Perceptual Evaluation of Speech Quality) [UIT-T Rec

Modèle psychoacoustique

  • Initialisations et calibrations
  • Transformation temps-fréquence
  • Prédistorsion et densité de puissance fondamentale
  • Compensations
  • Densité de sonie
  • Densité de perturbation
  • Traitement de l'asymétrie
  • Accentuation des parties de silence
  • Intégration en temps et fréquence
  • Calcul du score PESQ

L'effet de filtrage et les modifications de gain à court terme sont partiellement compensés par le traitement de la densité de puissance sous-jacente image par image. Ce facteur d'asymétrie est égal au rapport de la densité de puissance fondamentale du signal dégradé sur le signal d'origine élevé à la puissance 1,2.

Figure B.2 : Principe de fonctionnement du modèle psychoacoustique utilisé dans le modèle PESQ ( Perceptual Evaluation of Speech Quality) [UIT-T Rec
Figure B.2 : Principe de fonctionnement du modèle psychoacoustique utilisé dans le modèle PESQ ( Perceptual Evaluation of Speech Quality) [UIT-T Rec

Performances

Dans le cas de la qualité vocale, le signal de référence est beaucoup plus difficile à nier. Cependant, il n'est pas possible ici d'utiliser le signal entrant dans l'embouchure du HATS comme signal de référence.

Équations

  • Initialisations et calibrations
  • Fenêtrage et densité spectrale de puissance
  • Prédistorsion et densité de puissance fondamentale
  • Étalement dans le domaine fréquentiel
  • Densité de sonie
  • Densité de perturbation due au bruit
  • Suppression du bruit
  • Calcul du score PESQM

La prédistorsion permet de passer de l'échelle de fréquence en Hertz (indice k) à l'échelle psychophysique des tons dans le domaine des bandes critiques (indice j), pour obtenir une représentation image par image de la densité de puissance fondamentale. L'excitation provoquée par le stimulus sonore sur la membrane basilaire est déterminée par une convolution de la densité de puissance fondamentale avec une fonction d'étalement de fréquence.

Figure C.1 : Principe de fonctionnement du modèle PESQM ( Perceptual Echo and Sidetone Quality Measure) en version acoustique [Appel et Beerends 2002]
Figure C.1 : Principe de fonctionnement du modèle PESQM ( Perceptual Echo and Sidetone Quality Measure) en version acoustique [Appel et Beerends 2002]

Performances

La régression linéaire multiple consiste à expliquer au mieux une quantité y (la réponse) en fonction d'autres quantités x (les régresseurs). Le but de la régression linéaire multiple est de trouver la meilleure estimation desk=p−1 coecientsβ, notée β, qui minimise le vecteur des résidusˆu, c'est-à-dire la différence entre la réponse observée syi et les prédictions correspondantes de modelˆi.

Tableau C.1 : Caractéristiques de chaque bande j (avec une fréquence d
Tableau C.1 : Caractéristiques de chaque bande j (avec une fréquence d'échantillonnage de 16 kHz)

Suppositions

Statistiques

  • Sommes des carrés (SC)
  • Coecient de détermination
  • Coecient de détermination ajusté
  • Test de Fisher
  • Table d'analyse de variance (ANOVA)
  • Intervalles de conance des coecients estimés
  • Test de nullité d'un coecient

Si les hypothèses de régression sur les résidus sont satisfaites, la distribution des coefficients de régression estimés est normale avec une variance proportionnelle à l'erreur quadratique moyenne (MC E). Les résultats sont résumés dans un tableau d'analyse des coefficients : Facteur estimé (βˆj) Écart type (ˆσ( ˆβj)) Pr(>|t|).

Analyse des résidus

Multicolinéarité

Sélection des régresseurs

Backward elimination

Forward selection

Répétez les étapes 4 et 5 jusqu'à ce que tous les prédicteurs de la régression soient significatifs et que tous ceux en dehors de la régression soient non significatifs.

Stepwise regression

Méthode de bootstrap

Perceptual Evaluation of Speech Quality (PESQ), the new ITU standard for end-to-end speech quality assessment - Part II: Psychoacoustic model. Perceptual Evaluation of Speech Quality (PESQ), the new ITU standard for end-to-end assessment of speech quality - Part I: Time delay compensation.

Figure E.1 : Exemple de scénario de conversation ( Short Conversation Test, SCT) - Participant 1
Figure E.1 : Exemple de scénario de conversation ( Short Conversation Test, SCT) - Participant 1

Imagem

Figure 1.3 : Impact du délai sur la conversation (d'après [Hammer et al. 2005])
Figure 1.16 : Principe de fonctionnement du modèle non intrusif CCI ( Call Clarity Index) [UIT-T Rec
Figure 2.1 : Méthode proposée pour l'évaluation objective de la qualité conversationnelle
Figure 3.2 : Notes MOS du critère de qualité globale et intervalles de conance à 95% correspondants du test 1 sur le délai et l'écho
+7

Referências

Documentos relacionados

It was concluded that to the Nuclear Power monitoring using data from the theoretical IEA-R1 reactor model, a Multilayer Perceptron Network could be trained by