\
\ PCM (Pulse Code Modulation); \
\ Como converter áudio analógico em digital?
\
\ Como minimizar o erro de quantização (duas formas)? \
\ Que taxa de amostragem deve ser utilizada, supondo que: \
\ Frequência da voz humana: 20 Hz – 6.000 Hz (banda de 4 kHz fornece inteligibilidade perfeita).
\
\ Frequência do ouvido humano: 20 Hz – 20.000 Hz; \
\ Qual o número de níveis e amostras no PCM comercial?
O primeiro passo para a codificação de áudio consiste na captura dos sinais sonoros (ondas sonoras) e transformação destes em sinais digitais. Como é feita a conversão de sinais analógicos para sinais digitais?
Uma técnica bastante utilizada em telefonia é a técnica PCM (Pulse Code Modulation). O PCM analisa o sinal analógico em instantes uniformes de tempo, obtém a magnitude do sinal nestes instantes e representa esta magnitude de forma numérica (de forma binária).
Introdução à V
oz sobre IP e Asterisk
A imagem abaixo mostra um exemplo de um sinal de áudio analógico que será convertido para digital:
O eixo y do gráfico mostra a magnitude do sinal e o eixo x do gráfico denota o tempo. A linha azul representa a onda sonora, enquanto as linhas verticais ao longo do gráfico marcam os momentos em que serão obtidas amostras da onda sonora, ou seja, os momentos onde a magnitude da onda será representada por um número binário. O próximo gráfico mostra o resultado da aplicação do PCM sobre a primeira parte da onda:
001 011 101 111 000 011 100 011 011 101 110 111 010 100 110
O eixo y mostra uma escala com um número para cada linha horizontal. Este número está representado em binário (com 3 bits para facilitar o entendimento) e corresponde ao símbolo que será utilizado pelo PCM para representar cada uma das oito linhas horizontais. A cada instante de tempo (linhas verticais) o PCM verifica a magnitude da onda e encontra a linha horizontal que mais se aproxima deste valor. Ele usa então o símbolo associado a esta linha para representar a magnitude da onda nesse instante. Esse processo vai se repetindo em instantes de tempo uniformes, gerando os símbolos que representam a onda. Esses símbolos estão exibidos no gráfico ao longo do eixo x (000, 011, 100 etc.). A linha vermelha mostra o formato que a onda passa a ser representada após ser convertida para o formato digital pelo PCM.
Figura 1.7
Capítulo 1 – Histórico e conceitos básicos Cada valor obtido pelo PCM ao longo do tempo é chamado de uma amostra do sinal,
e por isso este processo é chamado de amostragem da onda sonora. A definição do número de amostras obtidas é um parâmetro muito importante do processo, que influencia diretamente na qualidade do sinal digital. Quanto maior o número de amostras, maior será a proximidade do sinal digital com o sinal analógico, mas também maior será a quantidade de dados necessários para representar este sinal. Há um teorema, o teorema de Nyquist, que indica que a taxa de amostragem do sinal deve ser o dobro ou mais do que a frequência do sinal. Este teorema é muito usado como base para definição da taxa de amostragem que será utilizada. A definição da taxa de amostragem normalmente é baseada na frequência da voz humana e na sensitividade do ouvido humano. A voz humana pode variar entre 20 Hz e 6000 Hz, aproximadamente, entretanto, limitando em 4 kHz a conversa fica totalmente inteligível, pois frequências altas são mais raras. Portanto, muitos sistemas que trabalham com voz humana tomam como base a frequência 4 kHz, que, aplicando o teorema de Nyquist, indica o uso de uma taxa de amostragem de 8 kHz, ou 8.000 amostras por segundo.
Já o ouvido humano é capaz de perceber sons entre 20 Hz e 20 kHz,
aproximadamente, ou seja, sons com frequências acima de 20 kHz não podem ser ouvidos. Este conhecimento costuma ser utilizado na digitalização de sons mais complexos que a voz, onde se deseja a capacidade de representação de todo o espectro de frequências que pode ser ouvido pelo homem. Em CDs de áudio, por exemplo, é utilizada a taxa de amostragem de 44.1 kHz, pouco mais que o dobro da frequência máxima ouvida pelo homem.
Outro parâmetro que influencia diretamente na qualidade do sinal digital é o número de bits utilizado em cada amostra. No exemplo anterior foram utilizados 3 bits por motivos didáticos. Com um número maior de bits é possível representar mais fielmente o sinal analógico (mais linhas horizontais no gráfico), reduzindo a diferença entre os sinais, o que é chamado de erro de quantização. Em CDs de áudio, são utilizados 16 bits para cada amostra. Em telefonia se trabalha com 8 bits por amostra.
\
\ Compansão do sinal; \
\ Voz pode variar 10.000 vezes, pois o ser humano pode falar baixinho ou
gritando e o outro lado deve ouvir perfeitamente. Como lidar com isso? Outra técnica aplicada durante a digitalização de sinais sonoros é a compansão do sinal, representada na figura a seguir. Este processo é necessário, pois a amplitude
Introdução à V
oz sobre IP e Asterisk
No processo de compansão, os sinais mais fracos são elevados e os mais fortes são reduzidos, e assim todos podem ser representados por um número fixo de bits, pois o sinal analógico da voz é “homogeneizado”. Dessa forma, se a pessoa fala baixo, sua voz é amplificada antes da digitalização, e se fala alto, não é amplificada. Assim, todos os sinais podem ser representados com os 8 bits, economizando na taxa de transmissão via rede. As duas formas mais utilizadas de compansão são chamadas de “lei A” (mais usada na Europa) e “lei μ” (mais usada nos Estados Unidos e Japão).
Vs
Ve Compansão segundo lei A ou μ (analógico)
Usar 13 bits e comprimir segundo lei A ou μ (digital)
Mais informações:
\
\ Tutorial de VoIP disponível em:
www.teleco.com.br/tutoriais/tutorialtelip/pagina_1.asp \
\ Resumo/Comparação de diversos codificadores de vídeo: en.wikipedia.org/wiki/Comparison_of_audio_codecs