• Nenhum resultado encontrado

Performances du modèle objectif de qualité de conversation (CONV) . 123

5.1 Application à des signaux de test

5.1.3 Performances du modèle objectif de qualité de conversation (CONV) . 123

tions de test fournies dans la gure 5.3(a) sont bonnes (r= 0.860etEAM = 0.236MOS). La distribution de l'erreur absolue, présentée dans la gure 5.3(b), montre que 91.1% des notes moyennes de conversation objectives dièrent de moins de 0.5 MOS des notes subjectives et que 100% dièrent de moins de 1 MOS. Sur l'ensemble des quatre tests, les intervalles de conance à 95% des notes objectives sont faibles comparés à ceux des notes subjectives, comme l'indique la gure 5.3(c). La corrélation et l'erreur entre notes moyennes de conversa- tion subjectives et objectives sont bonnes, sauf pour le test 3 sur le bruit (cf. tableau 5.1). Les erreurs élevées constatées avec les modèles PESQ et PESQM sont en grande partie compen- sées par les coecients de régression (α = 0.4059etβ = 0.5519). Cependant, les performances médiocres de PESQM dans les conditions avec bruit seul (test 3, conditions 18-24) se réper- cutent fortement sur les performances du modèle de conversation pour le test 3 (r= 0.706et EAM = 0.446MOS).

1 2 3 4 5 1

2 3 4 5

Notes MOS CONV Notes MOSconv subjectives

EAM = 0.236 r = 0.860 rs = 0.862

(a) Mapping entre notes moyennes de conversation subjectives et objectives (CONV)

0 0.25 0.5 0.75 1 1.25 1.5

0 20 40 60 80 100

Erreur absolue (MOS)

% d’erreurs absolues dans un intervalle donné

35.6 66.7

84.4

91.1 93.3 93.3

97.8 100.0 100.0 100.0 100.0 100.0

(b) Distribution cumulative de l'erreur absolue entre notes moyennes de conversation subjectives et objec- tives (CONV)

0 5 10 15 20 25 30 35 40 45

1 2 3 4 5

Condition

MOS

Notes MOS

conv subjectives Notes MOS

CONV

(c) Notes moyennes de conversation subjectives et objectives (CONV) avec intervalles de conance à 95%

Figure 5.3 : Performances du modèle de conversation - Signaux de test

An d'améliorer les performances du modèle de conversation dans ces conditions, la pre- mière solution consisterait à modier le modèle PESQM pour qu'il aboutisse à de meilleures performances dans les conditions avec bruit seul. Cependant, cette solution suppose de dis- poser de données subjectives étudiant l'impact du bruit seul sur la qualité de locution, pour pouvoir modier et optimiser PESQM. Ne disposant pas de telles données (indépendantes de celles utilisées pour la construction du modèle objectif), nous proposons une seconde solution pour le court terme. Dans le chapitre 3, une relation de régression linéaire multipleFi du type M OS\conversation=α×M OSlocution+β×M OS´ecoute+δ×max(0, d´elai−d´elaiseuil)+γ (5.2) a été déterminée pour chaque testi. Pour le test 3 sur le bruit, en particulier, les coecients de l'équation de régression sontα= 0,β= 0.864,δ= 0 etγ = 0.367. Comme α= 0, la note de qualité de locution n'intervient pas dans l'estimation de la note de qualité de conversation.

Appliquée aux notes objectives de qualité, l'équation 5.3 est obtenue, qui ne fait ainsi intervenir que la note objective de qualité d'écoute (fournie par PESQ) et la constanteγ pour calculer la note objective de qualité de conversation, sans avoir besoin de la note de qualité de locution

(fournie par PESQM).

M OSCON V = 0.864×M OSP ESQ+ 0.367. (5.3)

La solution proposée consiste à appliquer l'équation 5.3 dans les conditions du test 3 sur le bruit et l'équation 5.1 dans les autres conditions. Les conditions du test 3 se dis- tinguent des autres conditions par des rapports signal-à-bruit segmentaux moyens RSBseg (calculés du côté réception du bruit et présentés dans le tableau 3.21 du chapitre 3) faibles (RSBseg< 17 dB). Un seuil de rapport signal-à-bruit segmental, calculé sur le signal reçu durant la phase d'écoute, permettrait de détecter les conditions avec bruit et de choisir l'équa- tion de régression adéquate. An de déterminer ce seuil, l'ensemble des chiers (enregistrés du côté réception du bruit pendant la phase d'écoute) est divisé en une base d'apprentissage composée de 157 chiers enregistrés dans les conditions sans bruit (tests 1, 2, 3 et 4) et de 36 chiers enregistrés dans les conditions avec bruit (test 3), et une base de validation composée du reste des chiers (517 chiers sans bruit et 41 chiers avec bruit). Pour l'apprentissage, le rapport signal-à-bruit segmental de chaque chier est calculé selon l'équation 3.2 du chapitre 3. Les valeurs obtenues sont présentées dans la gure 5.4, en fonction du type de chier (sans ou avec bruit). D'après ces valeurs, le seuil de RSBseg retenu est égal à 20 dB et permet de discriminer sans erreur les deux types de chiers (sans ou avec bruit). Appliqué à la base de validation, ce seuil de 20 dB aboutit à un taux de fausse détection de 0% et un taux de non détection de 2.4% (1 non détection sur 41 chiers).

0 50 100 150

0 10 20 30 40 50

Numéro de fichier RSB seg

Fichier sans bruit Fichier avec bruit

Figure 5.4 : Calcul du rapport signal-à-bruit segmental sur les chiers (sans ou avec bruit) de la base d'apprentissage

5.1.4 Performances du modèle objectif de qualité de conversation (CONV) avec détection du bruit

Le rapport signal-à-bruit segmental est calculé sur le signal dégradé de PESQ (i.e. le signal reçu pendant la phase d'écoute) pour chaque condition et chaque participant. Pour des signaux d'une durée de 11 secondes, ce calcul supplémentaire augmente d'environ 1 seconde le temps de traitement du modèle objectif (soit 4 secondes). Sur la base des conclusions présentées dans le paragraphe 5.1.3, la règle appliquée pour le choix de l'équation de régression est donc la suivante :

si RSBseg ≥ 20 dB, la note objective de qualité de conversation est obtenue à partir de l'équation 5.1,

sinon, la note objective de qualité de conversation est obtenue à partir de l'équation 5.3.

Les performances du modèle objectif de qualité de conversation avec détection du bruit sur l'ensemble des conditions de test sont fournies dans la gure 5.5(a). Elles sont élevées (r= 0.904 et EAM = 0.206MOS) et meilleures que celles obtenues avec le modèle objectif

1 2 3 4 5 1

2 3 4 5

Notes MOS

CONV avec détection du bruit Notes MOSconv subjectives

EAM = 0.206 r = 0.904 rs = 0.901

(a) Mapping entre notes moyennes de conversation subjectives et objectives (CONV)

0 0.25 0.5 0.75 1 1.25 1.5

0 20 40 60 80 100

Erreur absolue (MOS)

% d’erreurs absolues dans un intervalle donné

37.8 64.4

86.7

97.8 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0

(b) Distribution cumulative de l'erreur absolue entre notes moyennes de conversation subjectives et objec- tives (CONV)

0 5 10 15 20 25 30 35 40 45

1 2 3 4 5

Condition

MOS

Notes MOS

conv subjectives Notes MOS

CONV avec détection du bruit

(c) Notes moyennes de conversation subjectives et objectives (CONV) avec intervalles de conance à 95%

Figure 5.5 : Performances du modèle de conversation avec détection du bruit - Signaux de test

sans détection du bruit. La distribution de l'erreur absolue, présentée dans la gure 5.5(b), montre que 100% des notes moyennes de conversation objectives dièrent de moins de 0.625 MOS des notes subjectives. Les résultats fournis dans le tableau 5.1 indiquent que, logique- ment, seules les performances pour le test 3 sur le bruit changent et s'améliorent par rapport au modèle objectif sans détection du bruit en atteignantr= 0.893etEAM = 0.264MOS au lieu der = 0.706etEAM = 0.446MOS.