Princípios de codificação de áudio - Introdução à Voz sobre IP e Asterisk

\ PCM (Pulse Code Modulation); \

\ Como converter áudio analógico em digital?

\ Como minimizar o erro de quantização (duas formas)? \

\ Que taxa de amostragem deve ser utilizada, supondo que: \

\ Frequência da voz humana: 20 Hz – 6.000 Hz (banda de 4 kHz fornece inteligibilidade perfeita).

\ Frequência do ouvido humano: 20 Hz – 20.000 Hz; \

\ Qual o número de níveis e amostras no PCM comercial?

O primeiro passo para a codificação de áudio consiste na captura dos sinais sonoros (ondas sonoras) e transformação destes em sinais digitais. Como é feita a conversão de sinais analógicos para sinais digitais?

Uma técnica bastante utilizada em telefonia é a técnica PCM (Pulse Code Modulation). O PCM analisa o sinal analógico em instantes uniformes de tempo, obtém a magnitude do sinal nestes instantes e representa esta magnitude de forma numérica (de forma binária).

Introdução à V

oz sobre IP e Asterisk

A imagem abaixo mostra um exemplo de um sinal de áudio analógico que será convertido para digital:

O eixo y do gráfico mostra a magnitude do sinal e o eixo x do gráfico denota o tempo. A linha azul representa a onda sonora, enquanto as linhas verticais ao longo do gráfico marcam os momentos em que serão obtidas amostras da onda sonora, ou seja, os momentos onde a magnitude da onda será representada por um número binário. O próximo gráfico mostra o resultado da aplicação do PCM sobre a primeira parte da onda:

001 011 101 111 000 011 100 011 011 101 110 111 010 100 110

O eixo y mostra uma escala com um número para cada linha horizontal. Este número está representado em binário (com 3 bits para facilitar o entendimento) e corresponde ao símbolo que será utilizado pelo PCM para representar cada uma das oito linhas horizontais. A cada instante de tempo (linhas verticais) o PCM verifica a magnitude da onda e encontra a linha horizontal que mais se aproxima deste valor. Ele usa então o símbolo associado a esta linha para representar a magnitude da onda nesse instante. Esse processo vai se repetindo em instantes de tempo uniformes, gerando os símbolos que representam a onda. Esses símbolos estão exibidos no gráfico ao longo do eixo x (000, 011, 100 etc.). A linha vermelha mostra o formato que a onda passa a ser representada após ser convertida para o formato digital pelo PCM.

Figura 1.7

Capítulo 1 – Histórico e conceitos básicos Cada valor obtido pelo PCM ao longo do tempo é chamado de uma amostra do sinal,

e por isso este processo é chamado de amostragem da onda sonora. A definição do número de amostras obtidas é um parâmetro muito importante do processo, que influencia diretamente na qualidade do sinal digital. Quanto maior o número de amostras, maior será a proximidade do sinal digital com o sinal analógico, mas também maior será a quantidade de dados necessários para representar este sinal. Há um teorema, o teorema de Nyquist, que indica que a taxa de amostragem do sinal deve ser o dobro ou mais do que a frequência do sinal. Este teorema é muito usado como base para definição da taxa de amostragem que será utilizada. A definição da taxa de amostragem normalmente é baseada na frequência da voz humana e na sensitividade do ouvido humano. A voz humana pode variar entre 20 Hz e 6000 Hz, aproximadamente, entretanto, limitando em 4 kHz a conversa fica totalmente inteligível, pois frequências altas são mais raras. Portanto, muitos sistemas que trabalham com voz humana tomam como base a frequência 4 kHz, que, aplicando o teorema de Nyquist, indica o uso de uma taxa de amostragem de 8 kHz, ou 8.000 amostras por segundo.

Já o ouvido humano é capaz de perceber sons entre 20 Hz e 20 kHz,

aproximadamente, ou seja, sons com frequências acima de 20 kHz não podem ser ouvidos. Este conhecimento costuma ser utilizado na digitalização de sons mais complexos que a voz, onde se deseja a capacidade de representação de todo o espectro de frequências que pode ser ouvido pelo homem. Em CDs de áudio, por exemplo, é utilizada a taxa de amostragem de 44.1 kHz, pouco mais que o dobro da frequência máxima ouvida pelo homem.

Outro parâmetro que influencia diretamente na qualidade do sinal digital é o número de bits utilizado em cada amostra. No exemplo anterior foram utilizados 3 bits por motivos didáticos. Com um número maior de bits é possível representar mais fielmente o sinal analógico (mais linhas horizontais no gráfico), reduzindo a diferença entre os sinais, o que é chamado de erro de quantização. Em CDs de áudio, são utilizados 16 bits para cada amostra. Em telefonia se trabalha com 8 bits por amostra.

\ Compansão do sinal; \

\ Voz pode variar 10.000 vezes, pois o ser humano pode falar baixinho ou

gritando e o outro lado deve ouvir perfeitamente. Como lidar com isso? Outra técnica aplicada durante a digitalização de sinais sonoros é a compansão do sinal, representada na figura a seguir. Este processo é necessário, pois a amplitude

Introdução à V

oz sobre IP e Asterisk

No processo de compansão, os sinais mais fracos são elevados e os mais fortes são reduzidos, e assim todos podem ser representados por um número fixo de bits, pois o sinal analógico da voz é “homogeneizado”. Dessa forma, se a pessoa fala baixo, sua voz é amplificada antes da digitalização, e se fala alto, não é amplificada. Assim, todos os sinais podem ser representados com os 8 bits, economizando na taxa de transmissão via rede. As duas formas mais utilizadas de compansão são chamadas de “lei A” (mais usada na Europa) e “lei μ” (mais usada nos Estados Unidos e Japão).

Ve Compansão segundo lei A ou μ (analógico)

Usar 13 bits e comprimir segundo lei A ou μ (digital)

Mais informações:

\ Tutorial de VoIP disponível em:

www.teleco.com.br/tutoriais/tutorialtelip/pagina_1.asp \

\ Resumo/Comparação de diversos codificadores de vídeo: en.wikipedia.org/wiki/Comparison_of_audio_codecs

No documento Introdução à Voz sobre IP e Asterisk (páginas 35-38)