M´etodos Perceptuais - M´etodos Objectivos

5.4 M´etodos Objectivos

5.4.1 M´etodos Perceptuais

Este tipo de modelos utilizam a análise perceptual de sinais de voz, áudio ou v´ıdeo para determinar a QoS. Por não necessitarem de ter conhecimento à partida do sistema em teste, como o tipo de codec ou a taxa de perda de pacotes, estes podem ser aplicados na avalia¸cão de sistemas desconhecidos. Contudo, alguns dos métodos pertencentes a esta categoria não podem ser usados em cenários cujo o sinal de referência não esteja dispon´ıvel. É o caso do PESQ e do PEAQ. Por exemplo, é dif´ıcil obter um sinal de referência num ponto médio da rede, embora possamos contornar este problema utilizando trechos pré-definidos para servirem de referência a quando da compara¸cão do sinal. Mas isto torna o processo de avalia¸cão limitado pois só é poss´ıvel realizar a avalia¸cão de sinais pré-definidos. Assim, apenas é utilizada informa¸cão pré-definida e não a que está realmente a ser consumida por utilizadores reais. Por outro lado, métodos como o apresentado na recomenda¸cão ITU-T P.563 [60] vêm contornar este problema, fazendo igualmente uma análise perceptual do sinal, mas sem necessidade do sinal de referência.

Perceptual Speech Quality Measure (PSQM)

O Perceptual Speech Quality Measure, como referido anteriormente, foi padronizado em 1995 e encontra-se descrito na recomenda¸cão ITU-T P.861 [52]. Originalmente criado para avaliar codecs o PSQM disponibiliza um método, através do qual, a voz dentro da largura de banda 300-3400Hz pode ser objectivamente medida para efeitos de distor¸cão, de ru´ıdo, entre outros factores perceptuais. A pontua¸cão final dada por este método indica o grau de degrada¸cão de qualidade do sinal a avaliar em rela¸cão ao sinal de referência. Assim, a pontua¸cão zero indica qualidade perfeita, valores mais altos indicam n´ıveis crescentes de degrada¸cão.

Contudo, na transmissão/transporte de um sinal existem vários processos de degrada¸cão. Estes podem apresentar-se e incluir filtragem, varia¸cões de atraso (jitter ) ou distor¸cões, tanto devidas a erros ocorridos no canal de transmissão como nos codecs de alta compressão [21].

pois não tem em conta tais fenómenos, sendo apenas recomendado para avaliar codecs de voz. Desta forma a ITU-T substituiu esta recomenda¸cão pela ITU-T P.862 [22], que inclui um algoritmo melhorado de avalia¸cão de qualidade da voz, o PESQ, descrito no ponto a seguir. O PSQM foi posteriormente revisto dando origem à versão PSQM+ [61]. Este foi desenvolvido para aumentar a correla¸cão com as pontua¸cões MOS na presen¸ca de factores de degrada¸cão impostos pela rede.

Perceptual Evaluation of Speech Quality (PESQ)

O Perceptual Evaluation of Speech Quality (PESQ) constitui um modelo objectivo de avalia¸cão subjectiva da voz de banda estreita, tanto em sistemas fim-a-fim como na avalia¸cão de codecs de voz de banda estreita [21]. Descrito na recomenda¸cão ITU-T Rec. P.862 [22], o PESQ tem em linha de conta factores de degrada¸cão inseridos por sistemas telefónicos reais, como a filtragem, a varia¸cão de atraso ou distor¸cão. Ele combina o modelo psico-acústico e cognitivo do PSQM+ [61] com o algoritmo de alinhamento temporal adoptado pelo Perceptual Analysis Measurement System (PAMS) [62] desenvolvido em 1998 por Micheal P. Hollier, do grupo Psytechnics da British Telecommunication.

O princ´ıpio de funcionamento do PESQ é comparar um sinal original x(t), com um sinal degradado y(t), este obtido através da passagem do sinal x(t) pelo sistema a avaliar. O output dado pelo PESQ é uma predi¸cão da qualidade percept´ıvel que, num teste de avalia¸cão subjectivo seria dado por um conjunto de sujeitos avaliadores ao sinal y(t) [21], apresentado numa escala do tipo MOS de 1 até 5 designada por M OS − LQO 2 _como

apresentado na tabela 5.5.

O sinal degradado e o sinal de referência são individualmente alinhados e filtrados com as caracter´ısticas de transferência do dispositivo de recep¸cão. Os sinais são alinhados no tempo, de forma a compensar pequenos desvios que podem ocorrer por exemplo em aplica¸cões de VoIP devido ao atraso e varia¸cão do mesmo (jitter ). A filtragem pode ser feita através de dois tipos de filtros dispon´ıveis, podendo ser escolhidos em fun¸cão da aplica¸cão em causa (filtros de banda estreita e filtros de banda larga).

Com o objectivo de entender de que forma as distor¸c˜oes s˜ao realmente percebidas pelo ouvinte Humano o modelo transforma os dois sinais alinhados e filtrados, do dom´ınio

tempo-amplitude para frequência-loudness, obtendo assim uma representa¸cão psico-acústica dos sinais de áudio.

Através da subtraçcão da representa¸cão dos dois sinais, é derivada uma estimativa das diferen¸cas aud´ıveis. As diferen¸cas aud´ıveis são acumuladas ao longo do tempo, enquanto são ponderadas de forma diferente dependendo se a distor¸cão foi adicionada ao sinal ou se partes do sinal desapareceram após a transmissão [63]. Após esta análise é gerada uma pontua¸cão MOS. Esta é normalmente usado para descrever a qualidade da voz numa escala de 1 (qualidade má) até 5 (qualidade excelente).

Single-ended method for objective speech quality assessment in narrow- band telephony applications (ITU-T P.563)

Descrito na recomenda¸cão ITU-T Rec. P.563 [60], este consiste num método de avalia¸cão objectivo da qualidade da voz em aplica¸cões telefónicas. Ao contrário do PESQ, este não necessita de um sinal de referência para fazer a avalia¸cão do sinal degradado. Por este motivo é designado de não-intrusivo, sendo portanto um método para aplica¸cões de monitoriza¸cão e avalia¸cão da rede em tempo real [21].

Como input, o algoritmo P.563 necessita do sinal de voz a ser avaliado, que segundo [21] deve ser amostrada a uma frequência m´ınima de 8kHz, com uma resolu¸cão em amplitude 16 bits codificado em PCM linear, conter um tempo m´ınimo de 3 segundos de voz activa, o ficheiro deve ter um tamanho máximo de 20 segundos, entre outros.

O output do algoritmo relativo ao método ITU-T P.563 [60] é uma escala perceptual MOS-LQO, como descrito na recomenda¸cão ITU-T P.800.1 [5]. O método não se restringe a medidas fim-a-fim, podendo ser usado em qualquer ponto da rede. Desta forma a pontua¸cão obtida a partir deste método, é comparável à qualidade percebida por um ouvinte que esteja à escuta nesse ponto da rede, com um telefone de caracter´ısticas convencionais.

Perceptual Evaluation of Audio Quality (PEAQ)

O Perceptual Evaluation of Audio Quality (PEAQ) é um método de avalia¸cão objectivo da qualidade percebida de áudio de alta-fidelidade. Tal como o PESQ, este modelo também necessita de um sinal de referência para analisar o sinal degradado, com a diferen¸ca de que o PESQ foi criado especialmente para aplica¸cões de banda estreita.

Normalizado na ITU-R Rec. BS.1387-1 [54], o PEAQ é o resultado da análise de desempenho de um conjunto de métodos (Disturbance Index (DIX), Noise-to-Mask Ratio (NMR), Perceptual Audio Quality Measure (PAQM), Perceptual Evaluation (PERCEVAL), Percep- tual Objective Measure (POM) e The Toolbox Approach) apresentadas em [54] e pormenori- zadamente estudadas em [64], sendo as suas melhores caracter´ısticas extra´ıdas e integradas num único método, o PEAQ.

O PEAQ é aplicado especialmente para sinais de áudio de alta qualidade, tendo como requisitos para o sinal de entrada uma frequência de amostragem de 48KHz, resolu¸cão de amplitude PCM linear a 16 bits, tamanho do sinal 10 a 20 segundos e n´ıvel médio do sinal 92dBSPL3.

Neste método são realizados vários processamentos de fundamento psico-acústico tais como separa¸cão de bandas cr´ıticas, a adapta¸cão de n´ıvel, o mascaramento em frequência e tempo e a aplica¸cão da curva de audibilidade. Estas tarefas são realizadas com o objectivo de preparar as entradas para o cálculo das variáveis de sa´ıda do modelo (MOVs). Estas variáveis são as entradas de uma rede neuronal treinada para gerar um resultado simples que corresponde à diferen¸ca percebida entre o sinal de referência e o sinal degradado, quantificando a degrada¸cão numa escala ODG (Objective Difference Grade) que varia 0 (impercept´ıvel) a -4 (inaceitável) [59].

No documento Métodos de Avaliação de QoS em Serviços de Voz sobre Redes IP (páginas 75-78)