• Nenhum resultado encontrado

2.2 Percep¸c˜ ao auditiva

2.2.2 Princ´ıpios Psico-ac´ usticos

A psico-ac´ustica estuda a forma como o c´erebro humano interpreta os sons. Atrav´es dela tˆem-se realizado grandes avan¸cos, com o objectivo de compreender e caracterizar a percep¸c˜ao auditiva humana, e em particular a capacidade de an´alise tempo-frequˆencia realizada pelo ouvido interno.

V´arios princ´ıpios psico-ac´usticos simulam o funcionamento do sistema auditivo humano, sendo usados para identificar informa¸c˜ao irrelevante, a qual n˜ao ´e detect´avel por ouvintes especializados.

Desta forma, estes princ´ıpios s˜ao aplicados tanto na cria¸c˜ao de codecs (codificadores), retirando informa¸c˜ao irrelevante e assim poupar recursos, como em algoritmos de avalia¸c˜ao de qualidade de sistemas de codifica¸c˜ao ou de telecomunica¸c˜oes.

Limiar absoluto de audi¸c˜ao

O Limiar absoluto de audi¸c˜ao, tipicamente expresso em dB SPL (dB Sound Pressure Level), exprime a intensidade sonora m´ınima que um som de uma dada frequˆencia dever´a ter para que possa ser detectado pelo ouvido humano, em condi¸c˜oes de ambiente silencioso. A intensidade sonora (objectiva), medida em dB Sound Pressure Level (dB SPL) ´e dada pela express˜ao 2.1.

SP L= 20 ∗ log ∆p ∆p0

(2.1) em que,

∆p, ´e a press˜ao ac´ustica gerada pelo sinal; ∆p0, ´e a press˜ao ac´ustica de referˆencia;

A curva representada na figura 2.5 (ou linha a tracejado da figura 2.4), traduz o limiar absoluto de audi¸c˜ao para um ouvinte m´edio. Esta curva pode ser aproximada pela equa¸c˜ao 2.2, apresentada de seguida [9] [11]. Assim todos os sons abaixo da curva representada na figura 2.5 n˜ao s˜ao aud´ıveis. De acordo com a figura 2.5 podemos referir que a gama de audi¸c˜ao do ouvido humano varia sensivelmente entre os 20Hz e os 20KHz, perdendo rapidamente sensibilidade para sinais superiores a 10KHz.

L= 3.64 ∗ ( f 1000) 26.5 ∗ exp −0.6( f 1000 −3.3) 2+ 0.001( f 1000) 4 (2.2) Loudness

O ouvido Humano n˜ao entende a intensidade sonora da mesma maneira. Assim, para diferentes valores SPL (Sound Pressure Level) podem dar a mesma sensa¸c˜ao de intensidade e, por outro lado, iguais valores SPL podem dar diferentes sensa¸c˜oes de intensidade, tudo dependendo da frequˆencia, da amplitude e da dura¸c˜ao de um sinal (figura 2.4). Este fen´omeno designa-se por loudness e pode ser descrito como a intensidade subjectiva. Na literatura ele tem a unidade de Phon ou Sone [27].

No entanto a subjectividade n˜ao ´e propriamente esta quest˜ao de diferentes pesos que as diferentes frequˆencias conferem em termos de sensa¸c˜ao auditiva, mas o facto de tal sensa¸c˜ao

variar ainda de indiv´ıduo para indiv´ıduo.

Figura 2.4 – Curvas de idˆentica intensidade sonora subjectiva;

Bandas Cr´ıticas

O conceito de bandas cr´ıticas est´a intimamente ligado com o mascaramento. Este efeito consiste na influˆencia que uma dada componente de som (mascarante) exerce na audibilidade de uma outra componente sonora (mascarada) situada na vizinhan¸ca espectral da primeira. Essa influˆencia ´e fun¸c˜ao da rela¸c˜ao temporal, da intensidade e da frequˆencia entre as duas componentes [9].

De uma forma muito simples, bandas cr´ıticas s˜ao bandas onde as caracter´ısticas auditivas permanecem praticamente constantes. An´ıbal et. al [9] d˜ao um exemplo pr´atico deste conceito. A partir de uma banda de ru´ıdo muito estreita, cuja a intensidade espectral de potˆencia se fixou, ajustou-se a intensidade de um tom puro colocado no centro da banda, de modo a permanecer no limiar do mascaramento total (Threshold of Masking). Concluiu-se que, `a medida que se alargava a banda de ru´ıdo, a intensidade do tom deveria aumentar correspondentemente, mas s´o at´e um dado limite. A partir da´ı, por mais que aumentasse a largura de banda de ru´ıdo, o tom mantinha-se no limiar de mascaramento total, com a mesma intensidade. A esse limite passou a chamar-se banda cr´ıtica por traduzir a largura de banda em que a presen¸ca de um sinal efectivamente contribui para mascarar outro. Outros autores apresentam outra defini¸c˜ao de bandas criticas. O ouvido interno, como

visto no ponto anterior, separa as frequˆencias e centra-as em certos locais da membrana basilar. Por isso, o sistema auditivo humano pode ser visto com um sistema complexo de filtros sobrepostos com respostas em amplitude assim´etricas e n˜ao lineares. Para al´em disso, os filtros ”cocleares”n˜ao tˆem uma largura de banda uniforme, aumentando com o aumento da frequˆencia [11]. Para saber onde essas bandas est˜ao centradas bem como a sua largura v´arios testes psico-ac´usticos tˆem sido feitos. Um desses modelos que centra as frequˆencias destes filtros ´e chamada escala de banda cr´ıtica, onde as frequˆencias s˜ao divididas em 25 bandas cr´ıticas cuja unidade ´e chamada Bark [28]. Um Bark corresponde `a largura de uma banda cr´ıtica, que segundo [9] e [11] pode ser convertida atrav´es da equa¸c˜ao 2.3, embora outros autores apresentem outras equa¸c˜oes. Uma forma bastante conveniente de apresentar as bandas de Bark ´e em forma de tabela, mostrando a frequˆencia central, largura de banda e correspondente banda de Bark.

z= 13 ∗ arctang(76f

105) + 3.5 ∗ arctang(

f 7500)

2 (2.3)

Mascaramento Simultˆaneo e Curvas de Mascaramento

Como referido no ponto anterior, mascaramento refere o processo de tornar um som inaud´ıvel devido `a presen¸ca de outro. Esta caracter´ıstica do sistema auditivo humano ´e das mais exploradas no projecto de codificadores de voz e ´audio. O mascaramento simultˆaneo ´e a capacidade de um sinal mascarar outro coexistindo temporalmente. A figura 2.5 apresenta o limiar absoluto de audi¸c˜ao na linha inferior (limite abaixo do qual o ser humano n˜ao tem precep¸c˜ao auditiva), e as curvas de mascaramento que representam o limiar absoluto do mascaramento total (Threshold of Masking) para a frequˆencia de 1KHz a diferentes intensidades. ´E de referir que quanto maior ´e a intensidade de um sinal, maior influˆencia este ter´a sobre sinais de menor intensidade na vizinhan¸ca deste.

As curvas de mascaramento s˜ao apresentadas na figura 2.5, sendo ent˜ao o limite abaixo do qual um som ´e mascarado. Esta curva ´e centrada em cada componente individual de frequˆencia, de forma a que qualquer sinal na sua vizinhan¸ca tenha que ter uma intensidade superior a essa curva para ser aud´ıvel.

As curvas de mascaramento variam significativamente de forma, em fun¸c˜ao da frequˆencia [9] [27]. Por isso, ´e necess´ario recriar tais curvas recorrendo-se `a escala de Bark para a

Figura 2.5 – Limiar Absoluto de Audi¸c˜ao apresentado na linha delimitadora inferior; Curvas de Mascaramento Simultˆaneo (rela¸c˜ao entre as curvas de limiar de mascaramento e a intensidade de um som com frequˆencia de 1KHz);

aproxim´a-las de forma ´unica, sendo v´alidas para qualquer ´ındice de mascaramento (TMN - tone-masking-noise, NMT - noise-masking-tone, TMT - tone-masking-tone, NMN - noise- masking-noise) bem como para qualquer ponto de frequˆencia.

Ainda que as curvas de mascaramento variem com diversos factores, como por exemplo a intensidade do sinal [27], um modelo genericamente aceite foi proposto por Shroeder, Atal e Hall [29] e ´e descrito pela express˜ao 2.4.

CMdB = 15.81 + 7.5 ∗ (z + 0.474) − 17.5p1 + (z + 0.474)2 (2.4)

onde, z representa a frequˆencia em Bark;

A figura 2.6 apresenta na escala de Bark a curva de mascaramento de um tom puro mascarante `a frequˆencia zc Bark e com intensidade S dB. O limiar de mascaramento ´e

definido de acordo com a express˜ao 2.4, centrada no tom mascarante e deslocada para baixo de acordo com um ´ındice de mascaramento adequado.

Assim, SNR (signal to noise ratio) representa a rela¸c˜ao sinal ru´ıdo entre o tom puro de frequˆencia zc e o ru´ıdo com intensidade N dB. Por sua vez, MNR (mask to noise ratio) ´e a

(signal to mask ratio) designa a diferen¸ca (em dB) entre a intensidade do sinal mascarante e a intensidade do sinal mascarado no limiar da detec¸c˜ao.

Figura 2.6 – Modelo de curva de mascaramento na escala de Bark [9];

Mascaramento Temporal

Os casos de mascaramento apresentados at´e agora, tˆem em conta que sinal mascarante e mascarado se apresentam simultˆaneamente. Nesta situa¸c˜ao o efeito de mascaramento ´e m´aximo como se pode ver pela figura 2.7.

O efeito de mascaramento temporal ´e baseado na premissa de que o sistema auditivo humano necessita de um determinado tempo de recupera¸c˜ao quando submetido a um tom de instensidade elevado (mascarante), at´e se conseguir detectar um tom com menor intensidade (mascarado).

O efeito de pr´e-mascaramento acontece quando um sinal mascarado se inicia um pouco antes do sinal mascarante. Por outro lado o p´os-mascaramento acontece quando um sinal mascarado cessa um pouco depois do sinal mascarante.

Na figura 2.7, est´a representado o efeito de mascaramento temporal. ´E vis´ıvel que o mascaramento simultˆaneo ocorre quando o sinal mascarante e mascarado est˜ao desfasados no m´aximo em cerca de 100ms, antes ou depois do sinal mascarante ocorrer. Se o desfasamento entre sinais for maior que este limite, ent˜ao ocorre o efeito de pr´e ou p´os- mascaramento. ´E poss´ıvel verificar tamb´em que o efeito de p´os-mascaramento ´e mais

Figura 2.7 – Mascaramento temporal. O efeito de p´os-mascaramento mais marcado de que pr´e-mascaramento (Adaptado de [11]);

marcante que o efeito de pr´e-mascaramento. Alguns estudos tˆem sido realizados [30] [27], e apesar de mostrarem a mesma tendˆencia (efeito de p´os-mascaramento mais marcante que o de pr´e-mascaramento) os resultados n˜ao s˜ao totalmente conclusivos. Isto porque a extens˜ao dos efeitos depende muito da natureza dos sinais.

3

Codifica¸c˜ao Digital

A codifica¸c˜ao ´e o primeiro factor que influˆencia a qualidade de voz, numa transmiss˜ao. Estes processos visam a redu¸c˜ao da informa¸c˜ao de forma a optimizar o armazenamento e a transmiss˜ao dos sinais. ´E portanto necess´ario analisar os processos de digitaliza¸c˜ao, fazendo um apanhado do estado da arte nesta mat´eria. Ser´a abordado neste cap´ıtulo o processo de digitaliza¸c˜ao de sinais anal´ogicos, partindo depois para a uma breve descri¸c˜ao dos codificadores de voz.

3.1

Digitaliza¸c˜ao de Sinais Anal´ogicos

Como visto no cap´ıtulo anterior, a fala produz uma onda ac´ustica a qual ´e radiada pelo ar. Essa onda ´e um sinal anal´ogico, pois ´e caracterizada por uma continuidade temporal. Num sistema de comunica¸c˜ao de voz, baseado numa rede de comuta¸c˜ao de pacotes n˜ao ´e poss´ıvel que tal informa¸c˜ao possa ser enviada sem que sofra um processo de transforma¸c˜ao, pois ´e um sistema de comunica¸c˜ao digital. Ao processo de transforma¸c˜ao de um sinal anal´ogico em digital chama-se convers˜ao anal´ogico-digital.

Assim, como um sinal anal´ogico ´e cont´ınuo no tempo ´e necess´ario proceder a uma discretiza- ¸c˜ao e quantifica¸c˜ao para que possa ser empacotado. A digitaliza¸c˜ao de um sinal ´e feita atrav´es de um dispositivo chamado conversor anal´ogico digital (A/D), que pode ser decom- posto em trˆes est´agios, amostragem, quantifica¸c˜ao e codifica¸c˜ao [12] [13] [1].

No processo de amostragem s˜ao feitas v´arias amostras do sinal original em intervalos de tempo regulares e igualmente espa¸cados. Matematicamente, o processo de amostragem pode ser definido como a multiplica¸c˜ao de um trem de impulso infinito de amplitude unit´aria, com um per´ıodo correspondente ao per´ıodo de amostragem, pelo sinal original cont´ınuo a ser amostrado. Isto leva a uma representa¸c˜ao PAM (Pulse Amplitude Modulation) discreta no tempo, do sinal como pode ver na figura 3.1.

Figura 3.1 – Processo de amostragem (Adaptado de [12]);

A convers˜ao anal´ogico-digital implica a perda de alguma informa¸c˜ao contida no sinal original, que nunca poder´a ser recuperada. E muito importante escolher a taxa de´ amostragem e a escala de quantifica¸c˜ao apropriada, pois isto influencia directamente a qualidade `a sa´ıda do algoritmo de processamento de sinal.

Obter amostras demais n˜ao ´e econ´omico pois origina um volume de dados desnecess´ario, que torna imposs´ıvel o processamento numa aplica¸c˜ao pr´atica. Por outro lado, poucas amostras impossibilitam a reconstru¸c˜ao do sinal original no destino.

De acordo com o teorema da amostragem, um sinal cont´ınuo no tempo com componentes em frequˆencia compreendidas entre zero e Fmax, deve ser amostrado com uma frequˆencia

no m´ınimo de 2 ∗ Fmax (ritmo de Nyquist), para que possa ser reconstru´ıdo com sucesso

[12]. Quando a frequˆencia de amostragem ´e inferior ao ritmo de Nyquist, ent˜ao estamos numa situa¸c˜ao de subamostragem, que leva a perda de informa¸c˜ao, e que origina distor¸c˜ao no sinal, conhecida por aliasing. Por outro lado, quando um sinal ´e amostrado a um ritmo superior ao m´ınimo exigido ´e usual falar-se de sobreamostragem.

Como compromisso entre custo e qualidade dos sistemas telef´onicos, definiu-se internacional- mente que o espectro do sinal de voz est´a compreendido entre os 300 e os 3400Hz, sendo esta a banda passante dos sistemas telef´onicos. Assim, est´a definido tamb´em que para

os sistemas telef´onicos a amostragem dos sinais de voz deve ser feita a 8KHz, para deste modo garantir-se que n˜ao existe perda de informa¸c˜ao do sinal original.

Ap´os a amostragem procede-se `a quantifica¸c˜ao do sinal. O processo de quantifica¸c˜ao ´e caracterizado pela discretiza¸c˜ao, em v´arios n´ıveis pr´e-definidos, da amplitude como representado na figura 3.2.

Figura 3.2 – Esquema geral de digitaliza¸c˜ao de um sinal amostrado (Adaptado de [13]);

O sinal PAM, como visto anteriormente discretiza o sinal no dom´ınio dos tempos, contudo o sinal ainda n˜ao est´a na sua representa¸c˜ao digital, pois a sua componente em amplitude ainda ´e cont´ınua. Para isso ´e necess´ario quantificar a amplitude de cada amostra do sinal PAM em v´arios n´ıveis fixos. A quantifica¸c˜ao ´e o processo de, a n´ıveis cont´ınuos de amplitude atribuir-se um n´ıvel discreto de amplitude que mais se aproxima da amplitude dessa amostra. Este facto introduz um erro no sinal codificado sendo conhecido como ru´ıdo de quantifica¸c˜ao (figura 3.2).

A quantifica¸c˜ao pode ser realizada usando um quantificador uniforme, que apresenta intervalos de quantifica¸c˜ao de igual dimens˜ao, ou um quantificador n˜ao uniforme e com este tipo de quantificador os intervalos de quantifica¸c˜ao variam com a amplitude do sinal de entrada.

Na quantifica¸c˜ao uniforme a rela¸c˜ao sinal-ru´ıdo depende da amplitude do sinal a quantificar. Para obter uma rela¸c˜ao sinal ru´ıdo de quantifica¸c˜ao independente da amplitude do sinal de entrada, os intervalos de quantifica¸c˜ao n˜ao podem ser uniformes e por isso ´e necess´ario recorrer `a quantifica¸c˜ao n˜ao uniforme [1].

Para sinais de voz, existem dois tipos de quantificadores n˜ao uniformes normalizados pela ITU, na recomenda¸c˜ao ITU-T G.711 [31], sendo conhecidas por lei A (usada na Europa) e lei µ (usada nos EUA e no Jap˜ao). Elas utilizam intervalos de quantifica¸c˜ao mais pequenos

para baixas amplitudes e intervalos maiores para amplitudes maiores, dentro dos quais ´e feita codifica¸c˜ao uniforme, sendo por isso chamadas de leis de quantifica¸c˜ao segmentadas. Na figura 3.3 ´e apresentada a caracter´ıstica n˜ao linear da lei A.

Figura 3.3 – Lei A [1], onde ’x’ representa o sinal de entrada e ’y’ o sinal de sa´ıda;

Ap´os a amostragem e quantifica¸c˜ao, ´e necess´ario codificar o sinal de forma a atribuir uma palavra a cada n´ıvel quantificado. Na tabela 3.1 est˜ao apresentados os segmentos de quantifica¸c˜ao n˜ao linear e os respectivos c´odigos (em bin´ario). Ao primeiro bit de cada c´odigo ´e atribu´ıdo, zero ou um, correspondendo a uma amplitude positiva ou negativa respectivamente. Ap´os isto trabalha-se apenas com o m´odulo do sinal. Depois verifica- se o segmento a que o sinal pertence, representado com os pr´oximos 3 bits. Por fim ´e atribu´ıdo um c´odigo com 4 bits dentro de segmento, ficando assim codificada a amplitude da amostra. ´E de referir que a gama de varia¸c˜ao normalizada da amplitude no caso da lei A ´e de -4096 a +4096 [1].

o mesmo n´umero de bits por amostra ´e designada por Pulse Code Modulation (PCM). Um dos exemplos de utiliza¸c˜ao de PCM ´e na digitaliza¸c˜ao de sinais de voz e est´a normalizada na ITU-T Rec. G.711 [31].

Tabela 3.1 – Tabela de codifica¸c˜ao da lei A [1];

Segmento Valor de entrada Passo de C´odigo do C´odigo dentro normalizado quantifica¸c˜ao segmento do segmento

0 - 2 0000 0 2 - 4 2 000 0001 ... ... 30 - 32 1111 32 - 34 0000 1 ... 2 001 ... 62 - 64 1111 64 - 68 0000 2 ... 4 010 124 - 128 1111 128 - 136 0000 3 ... 8 011 ... 248 - 256 1111 256 - 272 0000 4 ... 16 100 ... 496 - 512 1111 512 - 544 0000 5 ... 32 101 ... 992 - 1024 1111 1024 - 1088 0000 6 ... 64 110 ... 1984 - 2048 1111 2048 - 2176 0000 7 ... 128 111 ... 3968 - 4096 1111

Visto estes conceitos de digitaliza¸c˜ao, ´e f´acil entender que o codec tem influˆencia directa na qualidade percebida pelo utilizador. A escolha do codec determina, entre outros factores, o atraso de codifica¸c˜ao, a quantidade de dados a ser transmitidos (payload) e consequentemente, a largura de banda m´ınima necess´aria.

Para realizar o processo de compress˜ao, os codecs levam um determinado per´ıodo de tempo at´e criar uma frame de voz. Alguns codecs necessitam de mais ou menos tempo dependendo do tamanho da frame, n´umero de frames por pacote e do tipo de compress˜ao realizada. A recomenda¸c˜ao ITU-T G.114 [2] apresenta o atraso introduzido pelos diversos codecs. Na tabela 3.2 s˜ao apresentados alguns codecs e respectivos tempos de cria¸c˜ao do pacote de voz, considerando uma frame por pacote.

Durante a codifica¸c˜ao do sinal anal´ogico, os bits podem seguir da mesma forma que foram criados, ou ent˜ao ´e aplicada alguma t´ecnica de compress˜ao adicional de forma a diminuir

Tabela 3.2 – Atraso de codifica¸c˜ao para aplica¸c˜oes baseadas em IP [2];

Tipo de BitRate Tamanho da Lookahead Mean one-way delay(ms) Referˆencia Codifica¸c˜ao (Kbit/s) frame (ms) (ms) M´ınimo M´aximo

PCM 64 0.125 0 0.25 0.375 G.711,G.712

CS-ACELP 8 10 5 25 35 G.729

ACELP 5.3 30 7.5 67.5 97.5 G.723.1

MP-MLQ 6.3 30 7.5 67.5 97.5 G.723.1

a taxa de transmiss˜ao de bits ou aumentar a robustez do sinal, aplicando t´ecnicas de compensa¸c˜ao de perdas.

Ao processo atrav´es do qual a informa¸c˜ao digital representada em PCM sofre um processo de codifica¸c˜ao de forma a tornar o sinal mais compacto, ´e chamado de codifica¸c˜ao fonte. Este processo de codifica¸c˜ao pode conter ou n˜ao perda de informa¸c˜ao, dependendo do tipo de compress˜ao que se pretende atingir para o objectivo espec´ıfico. Existem v´arios princ´ıpios para aplicar tais formas de compress˜ao. ´E de referir, a codifica¸c˜ao entr´opica, que explora o efeito de redundˆancia estat´ıstica como por exemplo a diminui¸c˜ao do tamanho das palavras dos c´odigos que ocorrem mais frequentemente. A codifica¸c˜ao preditiva que explora o efeito de redundˆancia temporal, ou seja, amostras em instantes diferentes com c´odigos iguais ou parecidos. E poder´a referir-se ainda a redundˆancia perceptual ou irrelevˆancia, que explora os aspectos perceptuais, no contexto da aplica¸c˜ao, que n˜ao sejam relevantes para a correcta percep¸c˜ao da informa¸c˜ao [1].

Da mesma forma, ao processo atrav´es do qual um sinal digital representado em codifica¸c˜ao fonte sofre um processo de codifica¸c˜ao de forma a tornar o sinal mais robusto a erros de transmiss˜ao, ´e designado de codifica¸c˜ao de canal. O objectivo deste tipo de t´ecnicas ´e processar o resultado da codifica¸c˜ao de fonte, de forma a minimizar a probabilidade de erro a quando da entrega numa transmiss˜ao do sinal.

3.2

Codifica¸c˜ao de Voz

Na literatura existem duas grandes classes de codificadores de voz: os de forma de onda (waveform coders) e os vocoders (voice coders) [32].

Os codificadores de forma de onda, tentam reproduzir o mais fielmente poss´ıvel a forma de onda do sinal quer no dom´ınio do tempo quer na frequˆencia. Por outro lado, os vocoders,

tamb´em designados por codificadores param´etricos, pretendem modular os mecanismos de produ¸c˜ao da fala sem pretender obter uma reprodu¸c˜ao exacta do sinal original.

Muitos estudos foram realizados na modifica¸c˜ao e evolu¸c˜ao destes modelos gen´ericos. O maior sucesso dentro dos muitos modelos propostos foram os codificadores de an´alise-por- s´ıntese baseada em predi¸c˜ao linear. Estes m´etodos s˜ao frequentemente designados por h´ıbridos pois v˜ao buscar as caracter´ısticas de modula¸c˜ao dos vocoders, mas pertencem `a classe dos codificadores que tenta seguir a forma de onda do sinal [32].

Documentos relacionados