• Nenhum resultado encontrado

Motivations à l’utilisation de l’échelle des ERB

97

98 7. Application de l’EMSR à une analyse en banc de filtres ERB La capacité de notre système auditif à distinguer un signal utile dans un environnement bruyant est intimement liée à cette notion de filtres auditifs. En effet, la détection d’un signal corrompu par un bruit additif est dépendante du seul RSB au sein du filtre auditif dont les caractéristiques (fréquence centrale et largeur de bande) maximisent ce RSB.

Dès lors, dans le contexte du rehaussement de la parole, il nous semble alors particuliè- rement intéressant d’étudier la possibilité de procéder à l’analyse du signal en employant une échelle conforme aux lois de la psychoacoustique plutôt qu’une échelle linéaire en fréquence comme le fait l’analyse par TFCT.

7.1.2. Choix de l’échelle fréquentielle

La largeur des bandes critiques des filtres auditifs a été mesurée sur la totalité de la bande audible à partir d’expériences classiques de masquage [81]. Ces résultats ont permis de définir une nouvelle échelle de fréquence pour laquelle une distance d’une unité corres- pond à une largeur bande critique. L’unité ainsi définie porte le nom de Bark et l’échelle de fréquence correspondante est l’échelle Bark que l’on retrouve notamment dans les ap- plications de codage audio citées plus haut [57, 35]. On peut également noter l’utilisation de l’échelle Bark et d’une autre échelle fréquentielle issue de la psychoacoustique, l’échelle des mels, dans le domaine du traitement de la parole [63, 12].

Moore et Glasberg au cours d’expériences visant à déterminer la forme des filtres auditifs ont mis au point une autre échelle de fréquence appelée l’échelle Equivalent Rectangular Bandwidth (ERB) [55]. La figure 7.1 illustre la correspondance entre l’échelle ERB et les valeurs en Hertz. A notre connaissance, il semble que l’échelle ERB, plus récente, soit également plus juste et plus rigoureuse que l’échelle Bark du point de vue psychoacous- tique. Cette affirmation est appuyée par son utilisation dans les modèles utilisés pour les calculs de sonie et depattern d’excitation. L’utilisation de l’échelle ERB nous semble donc préférable par rapport à celle de l’échelle Bark.

7.1.3. Application de l’EMSR selon une analyse en échelle ERB

Actuellement, dans une prothèse auditive, l’implémentation de la méthode de rehaus- sement de la parole par application de l’EMSR peut se révéler inadaptée si la taille de la TFCT dépasse les 128 à 256 points à une fréquence d’échantillonnage de16kHz. Pour une décomposition fréquentielle sur plus d’une centaine de coefficients, les différentes raisons de cette inadaptation sont les suivantes :

— L’EMSR induit une complexité de calcul relativement importante étant données les capacités actuelles des processeurs dédiés aux prothèses auditives.

— Le délai de traitement par blocs est alors proche de la limite accessible de10à20ms.

— Quelquefois, les processeurs de signaux dédiés hébergent des DFT ou des bancs de

7.1. Motivations à l’utilisation de l’échelle des ERB 99

Taux d’ERB

FréquenceenHz

0 5 10 15 20 25 30

0 1000 2000 3000 4000 5000 6000 7000

Fig. 7.1: Correspondance entre l’échelle ERB et les valeurs en Hertz

filtres d’analyse de petite taille (par exemple 32 canaux).

A cet effet, lors de son travail de thèse [32], Alain Goyé a implanté l’EMSR sur un banc de filtres uniforme à 32 canaux. Selon l’auteur, les résultats subjectifs obtenus étaient tout à fait convenables et de l’ordre de ceux réalisés en employant une analyse TFCT sur 256 canaux à la même fréquence d’échantillonnage de 16kHz. Au regard de la théorie, ces résultats sont difficilement explicables car Ephraïm et Malah ont conçu leur règle de suppression sur des hypothèses d’indépendance statistique des coefficients relatifs de la TFCT du signal de parole et du bruit. Cette indépendance et l’hypothèse de gaussianité des coefficients sont d’autant plus utilisables que la taille de la TFCT est grande. Ainsi, selon la théorie, l’EMSR est censée être d’autant plus efficace que la taille de la TFCT est grande.

Sur la base de ces résultats, il apparaît que l’implémentation de l’EMSR à partir d’une analyse en banc de filtres sur un nombre réduit de canaux est réalisable. Nous avons souhaité étudier la possibilité d’utiliser une analyse par banc de filtres non-uniformes sur un nombre également restreint de canaux. La résolution fréquentielle choisie est une résolution uniforme sur l’échelle des ERB.

Dans certaines publications très récentes, on trouve l’idée de concevoir une règle de suppression selon des critères psychoacoustiques [75, 77]. Malgré l’intérêt d’une telle dé- marche, notre propos, ici, est simplement de réaliser l’analyse des signaux, l’estimation du niveau et le rehaussement selon une échelle fréquentielle répondant à des critères psychoa-

100 7. Application de l’EMSR à une analyse en banc de filtres ERB coustiques. Les phénomènes de masquage et de discrimination des sons sont intimement liés à la notion de filtres auditifs qui conditionnent les facultés de perception et d’extrac- tion d’informations extrêmement performantes de notre système auditif. Il paraît donc intéressant d’envisager une analyse et une estimation du signal bruité en accord avec ce fonctionnement interne du système auditif.

Outre cet intérêt perceptif pour le rehaussement, la démarche choisie ici présente éga- lement un intérêt vis-à-vis des autres modules de traitement du signal de la prothèse. En effet, nous avons précédemment évoqué la compatibilité d’architecture entre les méthodes de rehaussement de la parole par atténuation spectrale à court-terme et les autres mo- dules de traitement du signal d’une prothèse auditive. Or, pour ces autres traitements, le choix de l’utilisation d’une analyse fréquentielle uniforme sur l’échelle ERB est fortement appréciable.

7.1.4. Rehaussement de la parole sur une échelle fréquentielle non-linéaire

Dans [34], les auteurs comparent plusieurs méthodes de rehaussement de la parole réalisées sur un banc de filtres en ondelettes de 70 canaux et sur un banc de filtres de 256 canaux non-uniformes à une implémentation classique au moyen d’un TFCT sur 256 canaux. Dans cet article, les deux bancs de filtres à résolution non-uniforme avaient été construits de manière à approximer une résolution uniforme en échelle Bark. Le banc de filtres à ondelettes se découpe en 7 octaves de 10 voies. Le banc de filtres non-uniforme a été synthétisé par modification d’un banc de filtres polyphase classique. La synthèse de ces filtres consiste à remplacer les délais par des filtres passe-tout, réalisant un warping du signal au moyen d’une transformée bi-linéaire [70, 38].

Les méthodes de rehaussement choisies sont l’EMSR et la soustraction spectrale clas- sique.

Selon les auteurs, l’utilisation d’une résolution fréquentielle uniforme en échelle Bark permet d’obtenir, du point de vue perceptif, des résultats meilleurs que les méthodes classiques de soustraction spectrale. Néanmoins, la présence de bruit musical est encore constatée. Par contre, les auteurs signalent que ces deux types d’analyse améliorent légè- rement la qualité sonore lorsqu’on utilise la règle de suppression d’Ephraïm et Malah.

7.2. Synthèse de bancs de filtres sur-échantillonnés en échelle ERB 101

7.2. Synthèse de bancs de filtres sur-échantillonnés en