Metodologia e Ambiente dos Experimentos - Descric¸˜ao dos Experimentos Realizados

6.4 Descric¸˜ao dos Experimentos Realizados

6.4.3 Metodologia e Ambiente dos Experimentos

Avaliar a qualidade de fluxos VoIP interativos é uma tarefa mais complicada que o caso onde queremos avaliar a qualidade de fluxos em uma direção (one-way). Além da neces- sidade de mais parâmetros, como retardo e jitter, outros fatores devem ser considerados. Por exemplo, devemos verificar se uma determinada conversa possui alta interatividade ou se um dos participantes a monipolizou. A metodologia utilizada para a realização dos testes subjetivos obedece as recomendações da ITU-T P.920 [73] que lista o tipo de conversa e o grau de interatividade entre os participantes do teste e a P.800 que descreve a estrutura f´ısica dos testes [71].

Seis parâmetros que afetam a qualidade percebida pelo usuário final foram considerados. Quatro deles estão relacionados ao estado da rede e os restantes estão relacionados com os esquemas de codificação de voz utilizados. Os parâmetros de rede utilizados

Parˆametros Valores

Percentual de Perda 0%. . . 60%

Tamanho M´edio da Rajada de Perdas 1. . . 5

Retardo em uma direc¸˜ao 0ms. . . 600ms

Jitter (em func¸˜ao do retardo) 0%. . . 40%

Taxa de envio de bits (codificador Speex) 2.4kbps. . . 24.8kbps

FEC desligado, 1:2, 1:2::3:6

Tabela 6.3: Parâmetros de rede e de codificação utilizados durante os testes subjetivos. são: percentual de pacotes perdidos (PP), tamanho médio da rajada de perda de pacotes (MBLS), o valor médio para o retardo em uma direção e o jitter (em função do retardo). Relacionados ao processo de codificação, consideramos o esquema de FEC proposto em [47] e a taxa de transmissão de pacotes gerada pelo codificador Speex. Somente o codifi- cador Speex foi utilizado durante os experimentos [135], dado que este codificador resulta em uma boa qualidade para voz, mesmo com baixas taxas de envio de bits, além de pos- sibilitar diversos valores para a taxa de envio. A Tabela 6.3 mostra o conjunto de valores utilizados para os parâmetros considerados. Nesta tabela, o esquema de FEC 1:2 é capaz de corrigir rajadas de perda de pacotes com tamanho 1 e o esquema 1:2::3:6 pode corrigir rajadas de no máximo 4 pacotes perdidos.

Para a realização dos testes é necessário simular uma rede com as mesmas condições de cada uma das configurações consideradas no modelo da rede neural. Com esta fina- lidade, utilizamos um computador, executando o sistema operacional Linux, com o papel de roteador entre dois computadores que executavam o programa VivaVoz. Uma versão modificada do NetEm [129] foi utilizada para emular as condições de rede de cada uma das configurações. Esta versão modificada do NetEm incorpora o modelo de Gilbert para o representar o processo de perda de pacotes. Para o jitter, a definição usada pelo NetEm é o valor esperado da diferença entre o retardo do pacote atual e do retardo médio. Seja a variável aleatória Di que representa o retardo do i-ésimo pacote. Como consideramos

valores de jitter que são dependentes do retardo médio D, normalizamos este valor por D. Em outras palavras, se Di é a variável aleatória que assume valores a partir de um

conjunto atual de valores de retardo para os pacotes pertencentes ao fluxo de voz, ent˜ao o

jitter ´e definido como E[|Di− D|]/D.

Os seis parâmetros considerados geram diversas configurações poss´ıveis a serem posteriormente avaliadas. Escolhemos um conjunto de valores para os parâmetros de tal maneira que tenhamos um número de configurações razoável a serem avaliadas, e que

ao mesmo tempo, tenhamos dados suficientes para o treinamento da rede neural. No contexto de testes subjetivos, por razoável entende-se um número de configurações que possam ser avaliadas sem que o cansaço das pessoas que participam dos testes influenciem na avaliação subjetiva da qualidade de serviço.

Para a realização dos testes subjetivos, selecionamos 120 configurações entre todos os valores poss´ıveis. Este número foi determinado pela duração dos testes subjetivos: considerando que cada sessão relacionada a cada configuração tenha duração de, em média, 3 minutos, 120 configurações serão avaliadas em 6 horas de testes. Achamos que, em termos práticos, testes superiores a 6 horas possu´ıam alta chance da fatiga dos participantes, podendo influenciar a avaliação da qualidade de serviço. Vale ressaltar que as 120 configurações foram divididas em 4 grupos de 30 configurações cada.

Dentre as 120 configurações, 48 correspondem a condições limites, por exemplo com percentual de perda entre 40% − 60% e retardo entre 400ms − 600ms. As demais foram selecionadas seguindo uma tendência na direção do que consideramos estados normais de operação na Internet, considerando o conjunto de traces obtidos entre a UMASS e a UFRJ: percentual de perda 1% − 3%, tamanho médio de rajadas de perda 1 − 5 e taxa de envio de bits média e alta.

Os experimentos foram realizados paralelamente com 12 participantes no IRISA/Fran- ça e no LAND/UFRJ. Cada um dos participantes de um determinado par realizou os testes em uma sala diferente, utilizando headsets. A utilização de headsets minimiza o problema de eco que ocorre em aplicações de voz. Portanto, podemos desconsiderar este parâmetro no treinamento da rede neural aleatória.

Conforme sugerido nas recomendações ITU-T P.800 [71] e P.920 [73], ao in´ıcio de cada sessão de testes algumas configurações denominadas warm-up devem ser realizadas. Desta forma, o participante se familiariza com os testes que serão feitos, podendo analisar configurações com qualidades boa, média ou ruim e estabelecer um critério individual de classificação. As avaliações realizadas nesta etapa inicial não são consideradas no cálculo do MOS.

Todos os participantes possuem experiência prévia na utilização de aplicativos de VoIP. Para cada configuração, dois tipos de tarefas foram realizadas, objetivando con- versas com diferentes n´ıveis de interatividade[73]:

• contar at´e 20, alternadamente, o mais r´apido poss´ıvel;

em uma conversa livre.

Para cada uma das 120 configurações, as notas fornecidas pelos participantes são agru- padas, uma média é calculada e um tratamento estat´ıstico, conhecido como teste β2 de-

scrito em [136] e originalmente proposto em [68], é realizado para detectar os participantes não confiáveis, cujos resultados são extremamente diferentes dos resultados dos demais, sugerindo um comportamento não correto ao realizar os testes. A média final obtida para cada configuração considerada é o Mean Opinion Score.

6.5 Resultados Obtidos

Nesta seção mostraremos os resultados obtidos a partir da aplicação da metodologia PSQA para avaliação de qualidade de aplicações interativas de voz na Internet. Primeira- mente, avaliaremos o desempenho da metodologia PSQA proposta. Posteriormente, apre- sentaremos um conjunto amplo de gráficos que mostram como a variação dos parâmetros afeta a qualidade percebida pelo usuário (MOS).

No documento Publicações do PESC Métodos Computacionais para Modelos Markovianos com Recompensa (páginas 189-192)