Princ´ıpios Psico-ac´ usticos - Percep¸c˜ ao auditiva

2.2 Percep¸c˜ ao auditiva

2.2.2 Princ´ıpios Psico-ac´ usticos

A psico-acústica estuda a forma como o cérebro humano interpreta os sons. Através dela têm-se realizado grandes avan¸cos, com o objectivo de compreender e caracterizar a percep¸cão auditiva humana, e em particular a capacidade de análise tempo-frequência realizada pelo ouvido interno.

Vários princ´ıpios psico-acústicos simulam o funcionamento do sistema auditivo humano, sendo usados para identificar informa¸cão irrelevante, a qual não é detectável por ouvintes especializados.

Desta forma, estes princ´ıpios são aplicados tanto na cria¸cão de codecs (codificadores), retirando informa¸cão irrelevante e assim poupar recursos, como em algoritmos de avalia¸cão de qualidade de sistemas de codifica¸cão ou de telecomunica¸cões.

Limiar absoluto de audi¸c˜ao

O Limiar absoluto de audi¸cão, tipicamente expresso em dB SPL (dB Sound Pressure Level), exprime a intensidade sonora m´ınima que um som de uma dada frequência deverá ter para que possa ser detectado pelo ouvido humano, em condi¸cões de ambiente silencioso. A intensidade sonora (objectiva), medida em dB Sound Pressure Level (dB SPL) é dada pela expressão 2.1.

SP L= 20 ∗ log ∆p ∆p0

(2.1) em que,

∆p, é a pressão acústica gerada pelo sinal; ∆p0, é a pressão acústica de referência;

A curva representada na figura 2.5 (ou linha a tracejado da figura 2.4), traduz o limiar absoluto de audi¸cão para um ouvinte médio. Esta curva pode ser aproximada pela equa¸cão 2.2, apresentada de seguida [9] [11]. Assim todos os sons abaixo da curva representada na figura 2.5 não são aud´ıveis. De acordo com a figura 2.5 podemos referir que a gama de audi¸cão do ouvido humano varia sensivelmente entre os 20Hz e os 20KHz, perdendo rapidamente sensibilidade para sinais superiores a 10KHz.

L= 3.64 ∗ ( f 1000) 2₋_{6.5 ∗ exp −0.6(} f 1000 −3.3) 2_{+ 0.001(} f 1000) 4 _(2.2) Loudness

O ouvido Humano não entende a intensidade sonora da mesma maneira. Assim, para diferentes valores SPL (Sound Pressure Level) podem dar a mesma sensa¸cão de intensidade e, por outro lado, iguais valores SPL podem dar diferentes sensa¸cões de intensidade, tudo dependendo da frequência, da amplitude e da dura¸cão de um sinal (figura 2.4). Este fenómeno designa-se por loudness e pode ser descrito como a intensidade subjectiva. Na literatura ele tem a unidade de Phon ou Sone [27].

No entanto a subjectividade não é propriamente esta questão de diferentes pesos que as diferentes frequências conferem em termos de sensa¸cão auditiva, mas o facto de tal sensa¸cão

variar ainda de indiv´ıduo para indiv´ıduo.

Figura 2.4 – Curvas de idˆentica intensidade sonora subjectiva;

Bandas Cr´ıticas

O conceito de bandas cr´ıticas está intimamente ligado com o mascaramento. Este efeito consiste na influência que uma dada componente de som (mascarante) exerce na audibilidade de uma outra componente sonora (mascarada) situada na vizinhan¸ca espectral da primeira. Essa influência é fun¸cão da rela¸cão temporal, da intensidade e da frequência entre as duas componentes [9].

De uma forma muito simples, bandas cr´ıticas são bandas onde as caracter´ısticas auditivas permanecem praticamente constantes. An´ıbal et. al [9] dão um exemplo prático deste conceito. A partir de uma banda de ru´ıdo muito estreita, cuja a intensidade espectral de potência se fixou, ajustou-se a intensidade de um tom puro colocado no centro da banda, de modo a permanecer no limiar do mascaramento total (Threshold of Masking). Concluiu-se que, à medida que se alargava a banda de ru´ıdo, a intensidade do tom deveria aumentar correspondentemente, mas só até um dado limite. A partir da´ı, por mais que aumentasse a largura de banda de ru´ıdo, o tom mantinha-se no limiar de mascaramento total, com a mesma intensidade. A esse limite passou a chamar-se banda cr´ıtica por traduzir a largura de banda em que a presen¸ca de um sinal efectivamente contribui para mascarar outro. Outros autores apresentam outra defini¸cão de bandas criticas. O ouvido interno, como

visto no ponto anterior, separa as frequências e centra-as em certos locais da membrana basilar. Por isso, o sistema auditivo humano pode ser visto com um sistema complexo de filtros sobrepostos com respostas em amplitude assimétricas e não lineares. Para além disso, os filtros ”cocleares”não têm uma largura de banda uniforme, aumentando com o aumento da frequência [11]. Para saber onde essas bandas estão centradas bem como a sua largura vários testes psico-acústicos têm sido feitos. Um desses modelos que centra as frequências destes filtros é chamada escala de banda cr´ıtica, onde as frequências são divididas em 25 bandas cr´ıticas cuja unidade é chamada Bark [28]. Um Bark corresponde à largura de uma banda cr´ıtica, que segundo [9] e [11] pode ser convertida através da equa¸cão 2.3, embora outros autores apresentem outras equa¸cões. Uma forma bastante conveniente de apresentar as bandas de Bark é em forma de tabela, mostrando a frequência central, largura de banda e correspondente banda de Bark.

z= 13 ∗ arctang(76f

105) + 3.5 ∗ arctang(

f 7500)

2 _(2.3)

Mascaramento Simultˆaneo e Curvas de Mascaramento

Como referido no ponto anterior, mascaramento refere o processo de tornar um som inaud´ıvel devido à presen¸ca de outro. Esta caracter´ıstica do sistema auditivo humano é das mais exploradas no projecto de codificadores de voz e áudio. O mascaramento simultâneo é a capacidade de um sinal mascarar outro coexistindo temporalmente. A figura 2.5 apresenta o limiar absoluto de audi¸cão na linha inferior (limite abaixo do qual o ser humano não tem precep¸cão auditiva), e as curvas de mascaramento que representam o limiar absoluto do mascaramento total (Threshold of Masking) para a frequência de 1KHz a diferentes intensidades. É de referir que quanto maior é a intensidade de um sinal, maior influência este terá sobre sinais de menor intensidade na vizinhan¸ca deste.

As curvas de mascaramento são apresentadas na figura 2.5, sendo então o limite abaixo do qual um som é mascarado. Esta curva é centrada em cada componente individual de frequência, de forma a que qualquer sinal na sua vizinhan¸ca tenha que ter uma intensidade superior a essa curva para ser aud´ıvel.

As curvas de mascaramento variam significativamente de forma, em fun¸cão da frequência [9] [27]. Por isso, é necessário recriar tais curvas recorrendo-se à escala de Bark para a

Figura 2.5 – Limiar Absoluto de Audi¸cão apresentado na linha delimitadora inferior; Curvas de Mascaramento Simultâneo (rela¸cão entre as curvas de limiar de mascaramento e a intensidade de um som com frequência de 1KHz);

aproximá-las de forma única, sendo válidas para qualquer ´ındice de mascaramento (TMN - tone-masking-noise, NMT - noise-masking-tone, TMT - tone-masking-tone, NMN - noise- masking-noise) bem como para qualquer ponto de frequência.

Ainda que as curvas de mascaramento variem com diversos factores, como por exemplo a intensidade do sinal [27], um modelo genericamente aceite foi proposto por Shroeder, Atal e Hall [29] e ´e descrito pela express˜ao 2.4.

CMdB = 15.81 + 7.5 ∗ (z + 0.474) − 17.5p1 + (z + 0.474)2 (2.4)

onde, z representa a frequˆencia em Bark;

A figura 2.6 apresenta na escala de Bark a curva de mascaramento de um tom puro mascarante à frequência zc Bark e com intensidade S dB. O limiar de mascaramento é

definido de acordo com a express˜ao 2.4, centrada no tom mascarante e deslocada para baixo de acordo com um ´ındice de mascaramento adequado.

Assim, SNR (signal to noise ratio) representa a rela¸cão sinal ru´ıdo entre o tom puro de frequência zc e o ru´ıdo com intensidade N dB. Por sua vez, MNR (mask to noise ratio) é a

(signal to mask ratio) designa a diferen¸ca (em dB) entre a intensidade do sinal mascarante e a intensidade do sinal mascarado no limiar da detec¸c˜ao.

Figura 2.6 – Modelo de curva de mascaramento na escala de Bark [9];

Mascaramento Temporal

Os casos de mascaramento apresentados até agora, têm em conta que sinal mascarante e mascarado se apresentam simultâneamente. Nesta situa¸cão o efeito de mascaramento é máximo como se pode ver pela figura 2.7.

O efeito de mascaramento temporal é baseado na premissa de que o sistema auditivo humano necessita de um determinado tempo de recupera¸cão quando submetido a um tom de instensidade elevado (mascarante), até se conseguir detectar um tom com menor intensidade (mascarado).

O efeito de pr´e-mascaramento acontece quando um sinal mascarado se inicia um pouco antes do sinal mascarante. Por outro lado o p´os-mascaramento acontece quando um sinal mascarado cessa um pouco depois do sinal mascarante.

Na figura 2.7, está representado o efeito de mascaramento temporal. É vis´ıvel que o mascaramento simultâneo ocorre quando o sinal mascarante e mascarado estão desfasados no máximo em cerca de 100ms, antes ou depois do sinal mascarante ocorrer. Se o desfasamento entre sinais for maior que este limite, então ocorre o efeito de pré ou pós- mascaramento. É poss´ıvel verificar também que o efeito de pós-mascaramento é mais

Figura 2.7 – Mascaramento temporal. O efeito de p´os-mascaramento mais marcado de que pr´e-mascaramento (Adaptado de [11]);

marcante que o efeito de pré-mascaramento. Alguns estudos têm sido realizados [30] [27], e apesar de mostrarem a mesma tendência (efeito de pós-mascaramento mais marcante que o de pré-mascaramento) os resultados não são totalmente conclusivos. Isto porque a extensão dos efeitos depende muito da natureza dos sinais.

3

Codifica¸c˜ao Digital

A codifica¸cão é o primeiro factor que influência a qualidade de voz, numa transmissão. Estes processos visam a redu¸cão da informa¸cão de forma a optimizar o armazenamento e a transmissão dos sinais. É portanto necessário analisar os processos de digitaliza¸cão, fazendo um apanhado do estado da arte nesta matéria. Será abordado neste cap´ıtulo o processo de digitaliza¸cão de sinais analógicos, partindo depois para a uma breve descri¸cão dos codificadores de voz.

3.1 Digitaliza¸c˜ao de Sinais Anal´ogicos

Como visto no cap´ıtulo anterior, a fala produz uma onda acústica a qual é radiada pelo ar. Essa onda é um sinal analógico, pois é caracterizada por uma continuidade temporal. Num sistema de comunica¸cão de voz, baseado numa rede de comuta¸cão de pacotes não é poss´ıvel que tal informa¸cão possa ser enviada sem que sofra um processo de transforma¸cão, pois é um sistema de comunica¸cão digital. Ao processo de transforma¸cão de um sinal analógico em digital chama-se conversão analógico-digital.

Assim, como um sinal analógico é cont´ınuo no tempo é necessário proceder a uma discretiza- ¸cão e quantifica¸cão para que possa ser empacotado. A digitaliza¸cão de um sinal é feita através de um dispositivo chamado conversor analógico digital (A/D), que pode ser decom- posto em três estágios, amostragem, quantifica¸cão e codifica¸cão [12] [13] [1].

No processo de amostragem são feitas várias amostras do sinal original em intervalos de tempo regulares e igualmente espa¸cados. Matematicamente, o processo de amostragem pode ser definido como a multiplica¸cão de um trem de impulso infinito de amplitude unitária, com um per´ıodo correspondente ao per´ıodo de amostragem, pelo sinal original cont´ınuo a ser amostrado. Isto leva a uma representa¸cão PAM (Pulse Amplitude Modulation) discreta no tempo, do sinal como pode ver na figura 3.1.

Figura 3.1 – Processo de amostragem (Adaptado de [12]);

A conversão analógico-digital implica a perda de alguma informa¸cão contida no sinal original, que nunca poderá ser recuperada. E muito importante escolher a taxa de´ amostragem e a escala de quantifica¸cão apropriada, pois isto influencia directamente a qualidade à sa´ıda do algoritmo de processamento de sinal.

Obter amostras demais não é económico pois origina um volume de dados desnecessário, que torna imposs´ıvel o processamento numa aplica¸cão prática. Por outro lado, poucas amostras impossibilitam a reconstru¸cão do sinal original no destino.

De acordo com o teorema da amostragem, um sinal cont´ınuo no tempo com componentes em frequˆencia compreendidas entre zero e Fmax, deve ser amostrado com uma frequˆencia

no m´ınimo de 2 ∗ Fmax (ritmo de Nyquist), para que possa ser reconstru´ıdo com sucesso

[12]. Quando a frequência de amostragem é inferior ao ritmo de Nyquist, então estamos numa situa¸cão de subamostragem, que leva a perda de informa¸cão, e que origina distor¸cão no sinal, conhecida por aliasing. Por outro lado, quando um sinal é amostrado a um ritmo superior ao m´ınimo exigido é usual falar-se de sobreamostragem.

Como compromisso entre custo e qualidade dos sistemas telefónicos, definiu-se internacional- mente que o espectro do sinal de voz está compreendido entre os 300 e os 3400Hz, sendo esta a banda passante dos sistemas telefónicos. Assim, está definido também que para

os sistemas telefónicos a amostragem dos sinais de voz deve ser feita a 8KHz, para deste modo garantir-se que não existe perda de informa¸cão do sinal original.

Após a amostragem procede-se à quantifica¸cão do sinal. O processo de quantifica¸cão é caracterizado pela discretiza¸cão, em vários n´ıveis pré-definidos, da amplitude como representado na figura 3.2.

Figura 3.2 – Esquema geral de digitaliza¸c˜ao de um sinal amostrado (Adaptado de [13]);

O sinal PAM, como visto anteriormente discretiza o sinal no dom´ınio dos tempos, contudo o sinal ainda não está na sua representa¸cão digital, pois a sua componente em amplitude ainda é cont´ınua. Para isso é necessário quantificar a amplitude de cada amostra do sinal PAM em vários n´ıveis fixos. A quantifica¸cão é o processo de, a n´ıveis cont´ınuos de amplitude atribuir-se um n´ıvel discreto de amplitude que mais se aproxima da amplitude dessa amostra. Este facto introduz um erro no sinal codificado sendo conhecido como ru´ıdo de quantifica¸cão (figura 3.2).

A quantifica¸cão pode ser realizada usando um quantificador uniforme, que apresenta intervalos de quantifica¸cão de igual dimensão, ou um quantificador não uniforme e com este tipo de quantificador os intervalos de quantifica¸cão variam com a amplitude do sinal de entrada.

Na quantifica¸cão uniforme a rela¸cão sinal-ru´ıdo depende da amplitude do sinal a quantificar. Para obter uma rela¸cão sinal ru´ıdo de quantifica¸cão independente da amplitude do sinal de entrada, os intervalos de quantifica¸cão não podem ser uniformes e por isso é necessário recorrer à quantifica¸cão não uniforme [1].

Para sinais de voz, existem dois tipos de quantificadores não uniformes normalizados pela ITU, na recomenda¸cão ITU-T G.711 [31], sendo conhecidas por lei A (usada na Europa) e lei µ (usada nos EUA e no Japão). Elas utilizam intervalos de quantifica¸cão mais pequenos

para baixas amplitudes e intervalos maiores para amplitudes maiores, dentro dos quais é feita codifica¸cão uniforme, sendo por isso chamadas de leis de quantifica¸cão segmentadas. Na figura 3.3 é apresentada a caracter´ıstica não linear da lei A.

Figura 3.3 – Lei A [1], onde ’x’ representa o sinal de entrada e ’y’ o sinal de sa´ıda;

Após a amostragem e quantifica¸cão, é necessário codificar o sinal de forma a atribuir uma palavra a cada n´ıvel quantificado. Na tabela 3.1 estão apresentados os segmentos de quantifica¸cão não linear e os respectivos códigos (em binário). Ao primeiro bit de cada código é atribu´ıdo, zero ou um, correspondendo a uma amplitude positiva ou negativa respectivamente. Após isto trabalha-se apenas com o módulo do sinal. Depois verifica- se o segmento a que o sinal pertence, representado com os próximos 3 bits. Por fim é atribu´ıdo um código com 4 bits dentro de segmento, ficando assim codificada a amplitude da amostra. É de referir que a gama de varia¸cão normalizada da amplitude no caso da lei A é de -4096 a +4096 [1].

o mesmo número de bits por amostra é designada por Pulse Code Modulation (PCM). Um dos exemplos de utiliza¸cão de PCM é na digitaliza¸cão de sinais de voz e está normalizada na ITU-T Rec. G.711 [31].

Tabela 3.1 – Tabela de codifica¸c˜ao da lei A [1];

Segmento Valor de entrada Passo de Código do Código dentro normalizado quantifica¸cão segmento do segmento

0 - 2 0000 0 2 - 4 2 000 0001 ... ... 30 - 32 1111 32 - 34 0000 1 ... 2 001 ... 62 - 64 1111 64 - 68 0000 2 ... 4 010 124 - 128 1111 128 - 136 0000 3 ... 8 011 ... 248 - 256 1111 256 - 272 0000 4 ... 16 100 ... 496 - 512 1111 512 - 544 0000 5 ... 32 101 ... 992 - 1024 1111 1024 - 1088 0000 6 ... 64 110 ... 1984 - 2048 1111 2048 - 2176 0000 7 ... 128 111 ... 3968 - 4096 1111

Visto estes conceitos de digitaliza¸cão, é fácil entender que o codec tem influência directa na qualidade percebida pelo utilizador. A escolha do codec determina, entre outros factores, o atraso de codifica¸cão, a quantidade de dados a ser transmitidos (payload) e consequentemente, a largura de banda m´ınima necessária.

Para realizar o processo de compressão, os codecs levam um determinado per´ıodo de tempo até criar uma frame de voz. Alguns codecs necessitam de mais ou menos tempo dependendo do tamanho da frame, número de frames por pacote e do tipo de compressão realizada. A recomenda¸cão ITU-T G.114 [2] apresenta o atraso introduzido pelos diversos codecs. Na tabela 3.2 são apresentados alguns codecs e respectivos tempos de cria¸cão do pacote de voz, considerando uma frame por pacote.

Durante a codifica¸cão do sinal analógico, os bits podem seguir da mesma forma que foram criados, ou então é aplicada alguma técnica de compressão adicional de forma a diminuir

Tabela 3.2 – Atraso de codifica¸c˜ao para aplica¸c˜oes baseadas em IP [2];

Tipo de BitRate Tamanho da Lookahead Mean one-way delay(ms) Referência Codifica¸cão (Kbit/s) frame (ms) (ms) M´ınimo Máximo

PCM 64 0.125 0 0.25 0.375 G.711,G.712

CS-ACELP 8 10 5 25 35 G.729

ACELP 5.3 30 7.5 67.5 97.5 G.723.1

MP-MLQ 6.3 30 7.5 67.5 97.5 G.723.1

a taxa de transmissão de bits ou aumentar a robustez do sinal, aplicando técnicas de compensa¸cão de perdas.

Ao processo através do qual a informa¸cão digital representada em PCM sofre um processo de codifica¸cão de forma a tornar o sinal mais compacto, é chamado de codifica¸cão fonte. Este processo de codifica¸cão pode conter ou não perda de informa¸cão, dependendo do tipo de compressão que se pretende atingir para o objectivo espec´ıfico. Existem vários princ´ıpios para aplicar tais formas de compressão. É de referir, a codifica¸cão entrópica, que explora o efeito de redundância estat´ıstica como por exemplo a diminui¸cão do tamanho das palavras dos códigos que ocorrem mais frequentemente. A codifica¸cão preditiva que explora o efeito de redundância temporal, ou seja, amostras em instantes diferentes com códigos iguais ou parecidos. E poderá referir-se ainda a redundância perceptual ou irrelevância, que explora os aspectos perceptuais, no contexto da aplica¸cão, que não sejam relevantes para a correcta percep¸cão da informa¸cão [1].

Da mesma forma, ao processo através do qual um sinal digital representado em codifica¸cão fonte sofre um processo de codifica¸cão de forma a tornar o sinal mais robusto a erros de transmissão, é designado de codifica¸cão de canal. O objectivo deste tipo de técnicas é processar o resultado da codifica¸cão de fonte, de forma a minimizar a probabilidade de erro a quando da entrega numa transmissão do sinal.

3.2 Codifica¸c˜ao de Voz

Na literatura existem duas grandes classes de codificadores de voz: os de forma de onda (waveform coders) e os vocoders (voice coders) [32].

Os codificadores de forma de onda, tentam reproduzir o mais fielmente poss´ıvel a forma de onda do sinal quer no dom´ınio do tempo quer na frequˆencia. Por outro lado, os vocoders,

também designados por codificadores paramétricos, pretendem modular os mecanismos de produ¸cão da fala sem pretender obter uma reprodu¸cão exacta do sinal original.

Muitos estudos foram realizados na modifica¸cão e evolu¸cão destes modelos genéricos. O maior sucesso dentro dos muitos modelos propostos foram os codificadores de análise-por- s´ıntese baseada em predi¸cão linear. Estes métodos são frequentemente designados por h´ıbridos pois vão buscar as caracter´ısticas de modula¸cão dos vocoders, mas pertencem à classe dos codificadores que tenta seguir a forma de onda do sinal [32].

No documento Métodos de Avaliação de QoS em Serviços de Voz sobre Redes IP (páginas 35-49)