Modelo do Ouvido Perif´erico - Modelos Perceptuais

6.4 Modelos Perceptuais

6.4.1 Modelo do Ouvido Perif´erico

Ambas as abordagens de modela¸cão perceptual come¸cam por calcular os padrões de excita¸cão usando um modelo do ouvido periférico. A Figura 6.6 representa esquematicamente as prin- cipais etapas envolvidas neste processamento, que descrevemos a seguir.

An´alise Espectral e Rectifica¸c˜ao

De uma forma geral todos os modelos perceptuais propostos para a finalidade que nos in- teressa come¸cam por obter uma representa¸cão espectral dos sinais. Na verdade trata-se de representa¸cões tempo-frequência: uma sucessão de espectros de segmentos extra´ıdos dos sinais através de uma janela deslizante de curta dura¸cão.

Naturalmente, a transformada discreta de Fourier (DFT) tem sido usada frequentemente para este fim. Tipicamente, é aplicada após uma janela de Hann [62] com sobreposi¸cão de 50% entre tramas sucessivas, para melhorar a selectividade espectral. Também há exemplos de utiliza¸cão de transformadas com sobreposi¸cão [120] e bancos de filtros com resolu¸cão não uniforme [7][76]. Em [145], Sporer e Brandenburg estabelecem requisitos de resolu¸cão temporal e espectral a que devem satisfazer os bancos de filtros usados em medidas de qualidade perceptual e analisam alguns casos concretos à luz dessas condi¸cões.

Os coeficientes da transformada ou banco de filtros são rectificados geralmente com uma lei quadrática para determinar a potência em cada canal analisado. Quando a análise consiste em

Sinal de Entrada An´alise Espectral

Rectifica¸c˜ao

Ouvido Externo e M´edio Ru´ıdo Interno

Integra¸c˜ao em Bandas Auditivas

Dispers˜ao da Excita¸c˜ao na Membrana Basilar

Dispersão no Tempo Padrão de Excita¸cão y x |Y|2 |X|2 |Y|2_{+ N} |X|2_{+ N} PY PX E0 Y E0 X EY EX

Figura 6.6: Modelo do Ouvido Perif´erico.

bancos de filtros ou transformadas reais, ´e aplicada uma filtragem passa-baixo para suavizar as estimativas.

Fun¸cão de Transferência do Ouvido Externo e Médio

Tanto o ouvido externo como o ouvido médio têm um comportamento considerado essencialmente linear na gama de intensidades usadas em codifica¸cão e podem consequentemente ser descritos por uma opera¸cão de filtragem. Sendo linear, a filtragem deveria preceder a rectifica¸cão e até a análise espectral, de forma a preservar a resposta de fase e evitar artefactos. Na prática, não se modela a resposta de fase, pelo que esta opera¸cão é geralmente implementada directamente no dom´ınio da frequência por pondera¸cão do espectro de potência do sinal com a resposta espectral de potência do filtro.

Os efeitos de filtragem direccional introduzidos pela orelha, tronco e cabe¸ca também po- deriam ser inclu´ıdos neste passo. Bastaria filtrar sinais provenientes de diferentes fontes sonoras usando as fun¸cões de transferência correspondentes às respectivas direçcões de in- cidência. Este processamento diferenciado deveria contribuir para a modela¸cão do fenómeno de desmascaramento binaural.

Em vários modelos, a resposta espectral de potência do ouvido externo e médio é modelada pela expressão,

W (F )/dB = −3.64βF−0.8_{+ 6.5e}−0.6(F −3.3)2

− 10−3_F4_, _(6.1) onde F = f /kHz , e β ∈ [0, 1] é um parâmetro que varia de modelo para modelo. Esta expressão (com β = 1) é simétrica da proposta por Terhardt para modelar o limiar absoluto

de audi¸c˜ao [149].

Ru´ıdo Interno e/ou Limiar Absoluto de Audi¸c˜ao

Nesta fase, pode-se adicionar ao espectro de potência um termo que representa um ru´ıdo interno, associado aos batimentos card´ıacos e outra actividade muscular [169, p. 166], que contribui para prejudicar ainda mais a sensibilidade a baixas frequências. O ru´ıdo interno é modelado por uma expressão relacionada com o primeiro termo de (6.1):

N (F )/dB = 3.64(1 − β)F−0.8_.

Este passo é por vezes aplicado depois do integra¸cão em bandas auditivas, o que é equivalente se forem corrigidos os termos adicionados.4 Algumas implementa¸cões omitem simplesmente este passo, compensando-o com um refor¸co da atenua¸cão do ouvido externo e médio (fazendo β = 1).

Em modelos destinados à estima¸cão de limiares de mascaramento é mais frequente que tanto o ru´ıdo interno como o ouvido externo e médio sejam omitidos, e substitu´ıdos no fim do processo por uma aplica¸cão correctiva do limiar absoluto de audi¸cão ao limiar de mascaramento.

Integra¸c˜ao em Bandas Auditivas

Esta opera¸cão é um passo intermédio para o cálculo da excita¸cão. Consiste na integra¸cão do espectro de potência através de uma “janela” rectangular deslizante com uma largura fixa na escala Bark. Isto equivale a uma transforma¸cão do espectro de potência para o dom´ınio Bark. Na maioria dos modelos, as janelas de integra¸cão são adjacentes e não sobrepostas, o que produz uma representa¸cão com um número reduzido de coeficientes igualmente espa¸cados na escala auditiva.

Uma fórmula emp´ırica que permite converter uma frequência de Hertz para Bark é (BA- PAC): z Bark = 13 arctan f 1.3kHz + 3.5 arctan 2 f 7.5kHz. (6.2)

Existem outras f´ormulas emp´ıricas para esta rela¸c˜ao, algumas mais simples e precisas [154, 155].

Dispers˜ao da Excita¸c˜ao na Membrana Basilar

O espectro em bandas auditivas é então convolu´ıdo com uma fun¸cão de espraiamento para se obter o padrão de excita¸cão instantâneo. A fun¸cão de espraiamento S(z1, z2), que indica a quantidade relativa de excita¸cão num ponto de frequência z2 provocada por um est´ımulo de frequência z1, só depende da diferen¸ca de frequências em Bark, ∆z = z2 − z1, ou seja S(z1, z2) = S(∆z). Na literatura encontram-se várias fórmulas emp´ıricas para esta fun¸cão, que diferem essencialmente em dois aspectos: a maior ou menor suavidade da curva, e a capacidade de variar o declive descendente em fun¸cão da intensidade. Uma é descrita anali- ticamente pela expressão:

S(∆z)/dB = 15.81 + 7.5(∆z + 0.474) − 17.5p1 + (∆z + 0.474)2_{+ d(∆z),} _(6.3) 4

onde d(∆z) = min{0, 8(∆z − 0.5)(∆z − 2.5)} é um termo correctivo adicionado à fórmula original de [136], que introduz uma pequena depressão no in´ıcio da rampa descendente da curva, modelando um fenómeno que ocorre com mascarantes de grande intensidade. Um inconveniente desta fun¸cão é que apresenta declives fixos, independentes da intensidade do mascarante. Outra expressão muito utilizada é a fun¸cão de espraiamento de [149]:

S(∆z)/dB = (

27∆z se ∆z ≤ 0

(−24 − 230 Hz_{f (z)} + 0.2LP )∆z se ∆z > 0 . (6.4) que tem uma forma triangular com um declive ascendente fixo, e um declive descendente dependente do n´ıvel do excitante, LP = 10 log₁₀(P/P0). Também inclui uma correçcão ligeira para frequências baixas.

A convolu¸cão do excitante P com a fun¸cão S produz a excita¸cão instantânea,

E0 (z) = X ν P (ν)10S(z−ν)α !1/α , (6.5)

onde o expoente α possibilita a sobreposi¸cão num dom´ınio comprimido (α < 1), de forma a poder modelar a aditividade não linear dos padrões. Alguns modelos optam por α = 1, considerando a aditividade linear.

Dispers˜ao Temporal

Um modelo simples (e algo grosseiro) para o fenómeno de pós-mascaramento foi apresen- tado em [9]. Consiste num espalhamento temporal da energia de cada componente espectral segundo uma curva de deca´ımento exponencial. É facilmente implementável por um filtro passa-baixo recursivo com um único atraso e ganho a = e−T /τ_{, onde T é o per´ıodo entre} amostras consecutivas da mesma componente espectral e τ é a constante de tempo do decai- mento exponencial. Esta constante de tempo depende da frequência central f da componente segundo uma lei que pode ser aproximada por:

τ (f ) = τmin+

100 Hz

f (τ100− τmin), (6.6)

onde τ100 e τmin são as constantes de tempo à frequência de 100 Hz e às altas frequências, respectivamente. Note-se que o tempo de deca´ımento do pós-mascaramento modelado excede τ (f ) em cerca de metade da resolu¸cão temporal das componentes, τpost = τ (f ) + T /2. Por exemplo, no modelo baseado na FFT da medida PEAQ, estes parâmetros têm os valores: T ≈ 21 ms, τ100 = 30 ms e τmin = 8 ms.

Dada a curta dura¸cão do fenómeno de pré-mascaramento, o tempo de subida do filtro deve ser bastante menor que o de deca´ımento, por isso o filtro deve reduzir a constante de tempo para sinais crescentes. Na prática faz-se normalmente τs = 0 porque a resolu¸cão temporal da transformada já introduz tempo de subida superior ao do pré-mascaramento. Ou seja, o filtro funciona na verdade como um detector de envolvente.

No documento Codificação digital de áudio baseada em retroadaptação perceptual (páginas 85-88)