5.4 M´etodos Objectivos
5.4.1 M´etodos Perceptuais
Este tipo de modelos utilizam a an´alise perceptual de sinais de voz, ´audio ou v´ıdeo para determinar a QoS. Por n˜ao necessitarem de ter conhecimento `a partida do sistema em teste, como o tipo de codec ou a taxa de perda de pacotes, estes podem ser aplicados na avalia¸c˜ao de sistemas desconhecidos. Contudo, alguns dos m´etodos pertencentes a esta categoria n˜ao podem ser usados em cen´arios cujo o sinal de referˆencia n˜ao esteja dispon´ıvel. ´E o caso do PESQ e do PEAQ. Por exemplo, ´e dif´ıcil obter um sinal de referˆencia num ponto m´edio da rede, embora possamos contornar este problema utilizando trechos pr´e-definidos para servirem de referˆencia a quando da compara¸c˜ao do sinal. Mas isto torna o processo de avalia¸c˜ao limitado pois s´o ´e poss´ıvel realizar a avalia¸c˜ao de sinais pr´e-definidos. Assim, apenas ´e utilizada informa¸c˜ao pr´e-definida e n˜ao a que est´a realmente a ser consumida por utilizadores reais. Por outro lado, m´etodos como o apresentado na recomenda¸c˜ao ITU-T P.563 [60] vˆem contornar este problema, fazendo igualmente uma an´alise perceptual do sinal, mas sem necessidade do sinal de referˆencia.
Perceptual Speech Quality Measure (PSQM)
O Perceptual Speech Quality Measure, como referido anteriormente, foi padronizado em 1995 e encontra-se descrito na recomenda¸c˜ao ITU-T P.861 [52]. Originalmente criado para avaliar codecs o PSQM disponibiliza um m´etodo, atrav´es do qual, a voz dentro da largura de banda 300-3400Hz pode ser objectivamente medida para efeitos de distor¸c˜ao, de ru´ıdo, entre outros factores perceptuais. A pontua¸c˜ao final dada por este m´etodo indica o grau de degrada¸c˜ao de qualidade do sinal a avaliar em rela¸c˜ao ao sinal de referˆencia. Assim, a pontua¸c˜ao zero indica qualidade perfeita, valores mais altos indicam n´ıveis crescentes de degrada¸c˜ao.
Contudo, na transmiss˜ao/transporte de um sinal existem v´arios processos de deg- rada¸c˜ao. Estes podem apresentar-se e incluir filtragem, varia¸c˜oes de atraso (jitter ) ou distor¸c˜oes, tanto devidas a erros ocorridos no canal de transmiss˜ao como nos codecs de alta compress˜ao [21].
pois n˜ao tem em conta tais fen´omenos, sendo apenas recomendado para avaliar codecs de voz. Desta forma a ITU-T substituiu esta recomenda¸c˜ao pela ITU-T P.862 [22], que inclui um algoritmo melhorado de avalia¸c˜ao de qualidade da voz, o PESQ, descrito no ponto a seguir. O PSQM foi posteriormente revisto dando origem `a vers˜ao PSQM+ [61]. Este foi desenvolvido para aumentar a correla¸c˜ao com as pontua¸c˜oes MOS na presen¸ca de factores de degrada¸c˜ao impostos pela rede.
Perceptual Evaluation of Speech Quality (PESQ)
O Perceptual Evaluation of Speech Quality (PESQ) constitui um modelo objectivo de avalia¸c˜ao subjectiva da voz de banda estreita, tanto em sistemas fim-a-fim como na avalia¸c˜ao de codecs de voz de banda estreita [21]. Descrito na recomenda¸c˜ao ITU-T Rec. P.862 [22], o PESQ tem em linha de conta factores de degrada¸c˜ao inseridos por sistemas telef´onicos reais, como a filtragem, a varia¸c˜ao de atraso ou distor¸c˜ao. Ele combina o modelo psico-ac´ustico e cognitivo do PSQM+ [61] com o algoritmo de alinhamento temporal adoptado pelo Perceptual Analysis Measurement System (PAMS) [62] desenvolvido em 1998 por Micheal P. Hollier, do grupo Psytechnics da British Telecommunication.
O princ´ıpio de funcionamento do PESQ ´e comparar um sinal original x(t), com um sinal degradado y(t), este obtido atrav´es da passagem do sinal x(t) pelo sistema a avaliar. O output dado pelo PESQ ´e uma predi¸c˜ao da qualidade percept´ıvel que, num teste de avalia¸c˜ao subjectivo seria dado por um conjunto de sujeitos avaliadores ao sinal y(t) [21], apresentado numa escala do tipo MOS de 1 at´e 5 designada por M OS − LQO 2 como
apresentado na tabela 5.5.
O sinal degradado e o sinal de referˆencia s˜ao individualmente alinhados e filtrados com as caracter´ısticas de transferˆencia do dispositivo de recep¸c˜ao. Os sinais s˜ao alinhados no tempo, de forma a compensar pequenos desvios que podem ocorrer por exemplo em aplica¸c˜oes de VoIP devido ao atraso e varia¸c˜ao do mesmo (jitter ). A filtragem pode ser feita atrav´es de dois tipos de filtros dispon´ıveis, podendo ser escolhidos em fun¸c˜ao da aplica¸c˜ao em causa (filtros de banda estreita e filtros de banda larga).
Com o objectivo de entender de que forma as distor¸c˜oes s˜ao realmente percebidas pelo ouvinte Humano o modelo transforma os dois sinais alinhados e filtrados, do dom´ınio
2
tempo-amplitude para frequˆencia-loudness, obtendo assim uma representa¸c˜ao psico-ac´ustica dos sinais de ´audio.
Atrav´es da subtrac¸c˜ao da representa¸c˜ao dos dois sinais, ´e derivada uma estimativa das diferen¸cas aud´ıveis. As diferen¸cas aud´ıveis s˜ao acumuladas ao longo do tempo, enquanto s˜ao ponderadas de forma diferente dependendo se a distor¸c˜ao foi adicionada ao sinal ou se partes do sinal desapareceram ap´os a transmiss˜ao [63]. Ap´os esta an´alise ´e gerada uma pontua¸c˜ao MOS. Esta ´e normalmente usado para descrever a qualidade da voz numa escala de 1 (qualidade m´a) at´e 5 (qualidade excelente).
Single-ended method for objective speech quality assessment in narrow- band telephony applications (ITU-T P.563)
Descrito na recomenda¸c˜ao ITU-T Rec. P.563 [60], este consiste num m´etodo de avalia¸c˜ao objectivo da qualidade da voz em aplica¸c˜oes telef´onicas. Ao contr´ario do PESQ, este n˜ao necessita de um sinal de referˆencia para fazer a avalia¸c˜ao do sinal degradado. Por este motivo ´e designado de n˜ao-intrusivo, sendo portanto um m´etodo para aplica¸c˜oes de monitoriza¸c˜ao e avalia¸c˜ao da rede em tempo real [21].
Como input, o algoritmo P.563 necessita do sinal de voz a ser avaliado, que segundo [21] deve ser amostrada a uma frequˆencia m´ınima de 8kHz, com uma resolu¸c˜ao em amplitude 16 bits codificado em PCM linear, conter um tempo m´ınimo de 3 segundos de voz activa, o ficheiro deve ter um tamanho m´aximo de 20 segundos, entre outros.
O output do algoritmo relativo ao m´etodo ITU-T P.563 [60] ´e uma escala perceptual MOS-LQO, como descrito na recomenda¸c˜ao ITU-T P.800.1 [5]. O m´etodo n˜ao se restringe a medidas fim-a-fim, podendo ser usado em qualquer ponto da rede. Desta forma a pontua¸c˜ao obtida a partir deste m´etodo, ´e compar´avel `a qualidade percebida por um ouvinte que esteja `a escuta nesse ponto da rede, com um telefone de caracter´ısticas convencionais.
Perceptual Evaluation of Audio Quality (PEAQ)
O Perceptual Evaluation of Audio Quality (PEAQ) ´e um m´etodo de avalia¸c˜ao objectivo da qualidade percebida de ´audio de alta-fidelidade. Tal como o PESQ, este modelo tamb´em necessita de um sinal de referˆencia para analisar o sinal degradado, com a diferen¸ca de que o PESQ foi criado especialmente para aplica¸c˜oes de banda estreita.
Normalizado na ITU-R Rec. BS.1387-1 [54], o PEAQ ´e o resultado da an´alise de desempenho de um conjunto de m´etodos (Disturbance Index (DIX), Noise-to-Mask Ratio (NMR), Perceptual Audio Quality Measure (PAQM), Perceptual Evaluation (PERCEVAL), Percep- tual Objective Measure (POM) e The Toolbox Approach) apresentadas em [54] e pormenori- zadamente estudadas em [64], sendo as suas melhores caracter´ısticas extra´ıdas e integradas num ´unico m´etodo, o PEAQ.
O PEAQ ´e aplicado especialmente para sinais de ´audio de alta qualidade, tendo como requisitos para o sinal de entrada uma frequˆencia de amostragem de 48KHz, resolu¸c˜ao de amplitude PCM linear a 16 bits, tamanho do sinal 10 a 20 segundos e n´ıvel m´edio do sinal 92dBSPL3.
Neste m´etodo s˜ao realizados v´arios processamentos de fundamento psico-ac´ustico tais como separa¸c˜ao de bandas cr´ıticas, a adapta¸c˜ao de n´ıvel, o mascaramento em frequˆencia e tempo e a aplica¸c˜ao da curva de audibilidade. Estas tarefas s˜ao realizadas com o objectivo de preparar as entradas para o c´alculo das vari´aveis de sa´ıda do modelo (MOVs). Estas vari´aveis s˜ao as entradas de uma rede neuronal treinada para gerar um resultado simples que corresponde `a diferen¸ca percebida entre o sinal de referˆencia e o sinal degradado, quantificando a degrada¸c˜ao numa escala ODG (Objective Difference Grade) que varia 0 (impercept´ıvel) a -4 (inaceit´avel) [59].