• Nenhum resultado encontrado

CAPÍTULO 2 CONCEITOS RELACIONADOS À FALA E VOZ

2.5 Seleção de algoritmos

compressão de voz que use a menor quantidade de banda, o uso deste tipo de métrica pode não resultar na seleção de um algoritmo apropriado. Quando a banda é um importante critério de seleção, existem áreas adicionais que devem ser investigadas. A Tabela 1 lista sete questões para se estabelecer critérios de seleção de algoritmo, que devem ser respondidas. Para facilitar as respostas de cinco das sete questões, a Tabela 2 mostra a comparação de cinco recomendações de voz da série G. Cuidadosamente comparando a resposta de cada questão contida na Tabela 1 com as informações contidas na Tabela 2, mais os requerimentos de cada aplicação específica, pode-se selecionar o algoritmos de compressão de voz mais apropriado e que satisfaça os requerimentos específicos de cada aplicação. Entretanto vale ressaltar que os valores MOS (Mean Opinion Score) listados na Tabela 2, são opiniões e não fatos científicos, e que o delay de codificação representa um delay resultante de uma amostra da fala. Quando um relativo e longo delay é indesejado em algum tipo de ambiente de aplicação, é importante se notar que o delay de codificação é apenas um componente do delay end-to-end. Se os outros componentes são nominais, é possível se usar um codificador com um longo delay mas que consuma pouca banda, caso a banda seja uma restrição. Entretanto, se a latencia é a principal restrição, então a opção de um codificador que consuma maior banda representa a melhor solução.

Tabela 1 Critério de seleção para algoritmo de codificação de voz Que tipo de codificação de banda o

algoritmo requer?

O algoritmo gerará alta qualidade de voz ou somente fala “inteligente”.

Outros fabricantes suportam interoperabilidade baseada no algoritmo a ser considerado?

O algoritmo é padronizado?

Qual é o delay end-to end, associado ao algoritmo?

O algoritmo é recomendado para ser utilizado em redes de pacotes?

O algoritmo passa fax e/ou modulação de modem ou sinalização semelhante?

Fonte: Held (2001)

Tabela 2 Série G – Comparação de codificadores de voz

Standard Description Bandwidth(Kbps) MOS Coding Delay

G.711 PCM 64 4.3 1.0µs G.721 ADPCM 32,16,24,40 4.0 1.25µs G.728 LD-CELP 16 4,0 2.5ms G.729 CS-ACELP 8 4.0 15.0ms G.723.1 Muti-rate CELP 6.3 3.8 67.5ms 5.3 3.6 67.5ms Fonte: Held (2001)

Vários algoritmos passíveis de serem executados nos microcomputadores atuais, são compatíveis com os padrões G.729, G729A e G723 [ITU 96]. Tem-se também o G.728 [ITU 92], contudo, sua taxa de 16 Kbps é considerada muito alta para aplicações sobre o protocolo IP.

O padrão G.729 [ITU 96A], também chamado de Conjugate-Structure Agebraic Code Excited Linear Prediction – CS-ACEL, é um algoritmo de codificação que gera uma taxa de 8Kbps, com boa qualidade de voz. Sendo projetado originalmente para ambientes sem fio, também pode ser usado para comunicação de multimídia e em redes de dados, possuindo um retardo de processamento de ordem de 15 ms. O anexo A da recomendação G729 (G729 A) descreve uma versão simplificada deste algoritmo. Sendo projetado especificamente para aplicações que necessitam de integração de voz e dados. São muito comuns em pequenos ambientes de escritório, que permitem comunicação de multimídia a uma

taxa de transmissão baixa. Estes vocoders usam a mesma formatação de bits e podem operar uns com os outros.

A recomendação ITU-T G723 foi originalmente projetada para comunicação multimídia em videofones, a uma taxa de 6,3 e 5,3Kbps, com retardo de 30ms. Para as aplicações onde o retardo é crítico, este padrão torna-se intolerável. Entretanto, se não for o caso, o padrão G723 é uma excelente alternativa ao padrão G.729, com menor complexidade e maior compressão, às custas de uma pequena degradação na qualidade de voz.

A recomendação G728 contém a descrição de um algoritmo para codificação de sinais de voz a uma taxa de 16 Kbps, também chamada de Low-Delay Code Exited Liner Prediction - LD-CELP.

O objetivo dos algoritmos acima citados é o de reduzir a taxa de codificação do sinal de voz, com fins de armazenamento ou transmissão, e ao mesmo tempo manter um nível aceitável de qualidade para as aplicações em questão. Nível este que é considerado aceitável se estiver bem próximo possível da qualidade no serviço tradicional de telefonia (Toll-Quality).

As aplicações de voz em redes de dados, como a Internet e as Intranets, podem ser dedicadas ou estarem baseadas em aplicações de multimídia. Como aplicações de multimídia comportam vários tipos diferentes de mídia, o sinal de voz já codificado compartilha o meio de comunicação com outros sinais .

Em princípio, a utilização de um único vocoder específico possa ser desejável por questões de otimização, contudo, é mais econômico adaptar o vocoder para cada aplicação em si. Esta é a razão de existirem vários padrões, como os acima citados, e a escolha apropriada de um deles é um grande desafio.

tecnologia prover novos serviços de voz baseados em redes de dados. Os processadores de sinal (Digital Signal Processors - DSP) têm progredido a ponto de permitir se atingir uma boa qualidade de voz. Apesar da tecnologia de análise de voz e sintetização de voz através de vocoders ter sido muito utilizada, esta tem um problema , que é a produção de um sinal metálico robotizado. No entanto, isto tem mudado dramaticamente nos últimos anos, e um grande esforço tem sido feito para testar a qualidade de voz produzida pelos algoritmos propostos.

A medida usada para comparar estes algoritmos procura verificar como a voz soa em condições ideais, como uma voz pura, sem erros de transmissão e utilizando somente um tipo de codificação.