• Nenhum resultado encontrado

6.4 Descric¸˜ao dos Experimentos Realizados

6.4.3 Metodologia e Ambiente dos Experimentos

Avaliar a qualidade de fluxos VoIP interativos ´e uma tarefa mais complicada que o caso onde queremos avaliar a qualidade de fluxos em uma direc¸˜ao (one-way). Al´em da neces- sidade de mais parˆametros, como retardo e jitter, outros fatores devem ser considerados. Por exemplo, devemos verificar se uma determinada conversa possui alta interatividade ou se um dos participantes a monipolizou. A metodologia utilizada para a realizac¸˜ao dos testes subjetivos obedece as recomendac¸˜oes da ITU-T P.920 [73] que lista o tipo de con- versa e o grau de interatividade entre os participantes do teste e a P.800 que descreve a estrutura f´ısica dos testes [71].

Seis parˆametros que afetam a qualidade percebida pelo usu´ario final foram considera- dos. Quatro deles est˜ao relacionados ao estado da rede e os restantes est˜ao relacionados com os esquemas de codificac¸˜ao de voz utilizados. Os parˆametros de rede utilizados

Parˆametros Valores

Percentual de Perda 0%. . . 60%

Tamanho M´edio da Rajada de Perdas 1. . . 5

Retardo em uma direc¸˜ao 0ms. . . 600ms

Jitter (em func¸˜ao do retardo) 0%. . . 40%

Taxa de envio de bits (codificador Speex) 2.4kbps. . . 24.8kbps

FEC desligado, 1:2, 1:2::3:6

Tabela 6.3: Parˆametros de rede e de codificac¸˜ao utilizados durante os testes subjetivos. s˜ao: percentual de pacotes perdidos (PP), tamanho m´edio da rajada de perda de pacotes (MBLS), o valor m´edio para o retardo em uma direc¸˜ao e o jitter (em func¸˜ao do retardo). Relacionados ao processo de codificac¸˜ao, consideramos o esquema de FEC proposto em [47] e a taxa de transmiss˜ao de pacotes gerada pelo codificador Speex. Somente o codifi- cador Speex foi utilizado durante os experimentos [135], dado que este codificador resulta em uma boa qualidade para voz, mesmo com baixas taxas de envio de bits, al´em de pos- sibilitar diversos valores para a taxa de envio. A Tabela 6.3 mostra o conjunto de valores utilizados para os parˆametros considerados. Nesta tabela, o esquema de FEC 1:2 ´e capaz de corrigir rajadas de perda de pacotes com tamanho 1 e o esquema 1:2::3:6 pode corrigir rajadas de no m´aximo 4 pacotes perdidos.

Para a realizac¸˜ao dos testes ´e necess´ario simular uma rede com as mesmas condic¸˜oes de cada uma das configurac¸˜oes consideradas no modelo da rede neural. Com esta fina- lidade, utilizamos um computador, executando o sistema operacional Linux, com o papel de roteador entre dois computadores que executavam o programa VivaVoz. Uma vers˜ao modificada do NetEm [129] foi utilizada para emular as condic¸˜oes de rede de cada uma das configurac¸˜oes. Esta vers˜ao modificada do NetEm incorpora o modelo de Gilbert para o representar o processo de perda de pacotes. Para o jitter, a definic¸˜ao usada pelo NetEm ´e o valor esperado da diferenc¸a entre o retardo do pacote atual e do retardo m´edio. Seja a vari´avel aleat´oria Di que representa o retardo do i-´esimo pacote. Como consideramos

valores de jitter que s˜ao dependentes do retardo m´edio D, normalizamos este valor por D. Em outras palavras, se Di ´e a vari´avel aleat´oria que assume valores a partir de um

conjunto atual de valores de retardo para os pacotes pertencentes ao fluxo de voz, ent˜ao o

jitter ´e definido como E[|Di− D|]/D.

Os seis parˆametros considerados geram diversas configurac¸˜oes poss´ıveis a serem pos- teriormente avaliadas. Escolhemos um conjunto de valores para os parˆametros de tal maneira que tenhamos um n´umero de configurac¸˜oes razo´avel a serem avaliadas, e que

ao mesmo tempo, tenhamos dados suficientes para o treinamento da rede neural. No contexto de testes subjetivos, por razo´avel entende-se um n´umero de configurac¸˜oes que possam ser avaliadas sem que o cansac¸o das pessoas que participam dos testes influenciem na avaliac¸˜ao subjetiva da qualidade de servic¸o.

Para a realizac¸˜ao dos testes subjetivos, selecionamos 120 configurac¸˜oes entre todos os valores poss´ıveis. Este n´umero foi determinado pela durac¸˜ao dos testes subjetivos: con- siderando que cada sess˜ao relacionada a cada configurac¸˜ao tenha durac¸˜ao de, em m´edia, 3 minutos, 120 configurac¸˜oes ser˜ao avaliadas em 6 horas de testes. Achamos que, em termos pr´aticos, testes superiores a 6 horas possu´ıam alta chance da fatiga dos partici- pantes, podendo influenciar a avaliac¸˜ao da qualidade de servic¸o. Vale ressaltar que as 120 configurac¸˜oes foram divididas em 4 grupos de 30 configurac¸˜oes cada.

Dentre as 120 configurac¸˜oes, 48 correspondem a condic¸˜oes limites, por exemplo com percentual de perda entre 40% − 60% e retardo entre 400ms − 600ms. As demais foram selecionadas seguindo uma tendˆencia na direc¸˜ao do que consideramos estados normais de operac¸˜ao na Internet, considerando o conjunto de traces obtidos entre a UMASS e a UFRJ: percentual de perda 1% − 3%, tamanho m´edio de rajadas de perda 1 − 5 e taxa de envio de bits m´edia e alta.

Os experimentos foram realizados paralelamente com 12 participantes no IRISA/Fran- c¸a e no LAND/UFRJ. Cada um dos participantes de um determinado par realizou os testes em uma sala diferente, utilizando headsets. A utilizac¸˜ao de headsets minimiza o problema de eco que ocorre em aplicac¸˜oes de voz. Portanto, podemos desconsiderar este parˆametro no treinamento da rede neural aleat´oria.

Conforme sugerido nas recomendac¸˜oes ITU-T P.800 [71] e P.920 [73], ao in´ıcio de cada sess˜ao de testes algumas configurac¸˜oes denominadas warm-up devem ser realizadas. Desta forma, o participante se familiariza com os testes que ser˜ao feitos, podendo analisar configurac¸˜oes com qualidades boa, m´edia ou ruim e estabelecer um crit´erio individual de classificac¸˜ao. As avaliac¸˜oes realizadas nesta etapa inicial n˜ao s˜ao consideradas no c´alculo do MOS.

Todos os participantes possuem experiˆencia pr´evia na utilizac¸˜ao de aplicativos de VoIP. Para cada configurac¸˜ao, dois tipos de tarefas foram realizadas, objetivando con- versas com diferentes n´ıveis de interatividade[73]:

• contar at´e 20, alternadamente, o mais r´apido poss´ıvel;

em uma conversa livre.

Para cada uma das 120 configurac¸˜oes, as notas fornecidas pelos participantes s˜ao agru- padas, uma m´edia ´e calculada e um tratamento estat´ıstico, conhecido como teste β2 de-

scrito em [136] e originalmente proposto em [68], ´e realizado para detectar os partici- pantes n˜ao confi´aveis, cujos resultados s˜ao extremamente diferentes dos resultados dos demais, sugerindo um comportamento n˜ao correto ao realizar os testes. A m´edia final obtida para cada configurac¸˜ao considerada ´e o Mean Opinion Score.

6.5 Resultados Obtidos

Nesta sec¸˜ao mostraremos os resultados obtidos a partir da aplicac¸˜ao da metodologia PSQA para avaliac¸˜ao de qualidade de aplicac¸˜oes interativas de voz na Internet. Primeira- mente, avaliaremos o desempenho da metodologia PSQA proposta. Posteriormente, apre- sentaremos um conjunto amplo de gr´aficos que mostram como a variac¸˜ao dos parˆametros afeta a qualidade percebida pelo usu´ario (MOS).