Uma ´ unica m´ aquina remota - An´ alise dos resultados

6.4 An´ alise dos resultados

6.4.1 Uma ´ unica m´ aquina remota

Esta se¸cão apresenta os primeiros resultados obtidos com o driver OpenGL modificado, sendo as suas fun¸cões transferidas pela rede Ethernet. Neste caso de uso, foram utilizados dois computadores iguais: um deles para a aplica¸cão e o outro somente para a exibi¸cão do conteúdo.

Os tempos médios de renderiza¸cão estão representados na figura 25, e seus valores na tabela 5. Apesar desta infraestrutura não representar um sistema imersivo real, os valores obtidos nos permitem analisar o overhead do driver OpenGL e de sua respectiva abstra¸cão da rede. Esta compara¸cão pode ser realizada, pois a imagem obtida nesta configura¸cão é exatamente igual à obtida com um único computador local. Em ambos os casos, a imagem é exibida em dois projetores DepthQ, na mesma resolu¸cão e com o mesmo frustum de visualiza¸cão.

Sendo assim, é poss´ıvel observar o impacto da distribui¸cão no desempenho das alternativas mais convencionais de renderiza¸cão. No caso do modo ubosub cpucull com 64 modelos, por exemplo, o desempenho piorou, em média, mais de 600%, reduzindo consideravelmente o número de quadros renderizados por segundo, quando comparado com um computador local.

E importante notar que embora exista uma comunica¸cão através da rede, a maioria das informa¸cões não são de fato enviadas, uma vez que o driver utiliza uma codifica¸cão

Tabela 5: Tempo médio de renderiza¸cão com 1 máquina remota (milissegundos). Qtd. de modelos Modos de renderiza¸cão 1 27 64 125 ubosub 5.02 124.74 297.47 579.60 ubosub cpucull 5.59 74.21 188.83 329.32 uborange 5.09 87.71 209.81 410.92 uborange cpucull 2.89 25.05 68.16 113.16 indexedmdi 3.16 25.00 55.85 108.42 indexedmdi gpucull 2.94 16.11 35.57 67.57 indexedmdi unified 3.16 23.64 51.74 98.21 indexedmdi unified gpucull 2.93 14.55 30.90 56.51

em delta, onde apenas as informa¸cões diferentes do quadro anterior são transferidas. No entanto, grande parte da perda de desempenho é causada pelo processo de verifica¸cão, onde todas as informa¸cões do quadro corrente precisam ser comparadas com as do quadro anterior.

Apesar de existir um overhead estabelecido pela comunica¸cão e pelo sincronismo, este overhead pode ser dilu´ıdo ao utilizar um conjunto maior de objetos, juntamente com as técnicas mais modernas de renderiza¸cão discutidas neste trabalho. Este fato pode ser observado, por exemplo, no modo indexedmdi, onde para um único modelo o desempenho piorou em 18%, porém para 125 modelos, o impacto foi de apenas 7%.

Outro fato interessante pode ser observado nos modos indexedmdi gpucull e indexedmdi unified gpucull, onde a renderiza¸cão indireta é utilizada junto com o culling na GPU. No benchmark com uma máquina local, estes modos apresentaram desempenho inferior aos modos tradicionais, em fun¸cão algoritmo do culling. No entanto, ao introduzir a rede como elemento intermediário de comunica¸cão, o desempenho das técnicas modernas apresentam resultados extremamente vantajosos.

Além disto, especificamente no modo indexedmdi unified gpucull, a aplica¸cão apresen- tou melhora de desempenho no caso distribu´ıdo, quando comparado com uma máquina local. Apesar de não ter sido antecipado, este comportamento pode ser explicado através de um grau reduzido de paralelismo, obtido através da execu¸cão de tarefas distintas nas duas máquinas do teste.

No caso espec´ıfico da cena com 125 modelos, o tempo de renderiza¸cão reduziu quase 8%. Entre os motivos identificados para este grau de paralelismo, podemos mencionar por exemplo, o fato de que quando o algoritmo de culling na GPU está habilitado, o mesmo faz uso de uma barreira de memória. Esta barreira na GPU existe para garantir que a

Figura 26: Taxa de transferˆencia na rede. 1 27 64 125 0 0.5 1 ·104 Modelos 3D K B/s

ubosub ubosub cpucull

uborange uborange cpucull

indexedmdi indexedmdi gpucull

indexedmdi unified indexedmdi unified gpucull

solicita¸cão de renderiza¸cão seja executada apenas após a conclusão do algoritmo de culling. No entanto, ao executar a aplica¸cão em um sistema distribu´ıdo, a barreira introduzida pelo algoritmo afeta apenas a máquina responsável pela exibi¸cão, garantindo que a máquina da aplica¸cão seja liberada para executar outras instru¸cões. Este fato promove certo grau de paralelismo, criando oportunidade para um ganho marginal de desempenho.

Novamente, as vantagens das técnicas mais modernas de renderiza¸cão são evidenci- adas em cenas mais complexas. Considerando o caso com 64 modelos, por exemplo, um modo como o ubosub cpucull funciona com uma taxa inferior a 6 quadros/segundo. O modo uborange cpucull proporciona uma melhora considerável, operando à 14 quadros/segundo. No entanto, ambos com o desempenho aquém do considerado satisfatório. O modo indexedmdi unified gpucull, por sua vez, proporciona um desempenho bem melhor, a 32 quadros/segundo.

A figura 26 apresenta a taxa de transferência utilizada na rede por cada modo de renderiza¸cão. Em fun¸cão das otimiza¸cões aplicadas pelo driver, principalmente devido à codifica¸cão em delta, pouca informa¸cão é de fato transferida.

Conforme pode ser observado na figura, apenas os modos de renderiza¸cão ubosub - cpucull e uborange cpucull apresentam taxa de transferência com valores significativos. Isto ocorre pois estes são os únicos modos que utilizam culling na CPU. Ao utilizar este algoritmo de culling, as chamadas do OpenGL, enviadas através da rede, sofrem mu- dan¸cas constantes em fun¸cão de altera¸cões na posi¸cão da câmera e, consequentemente, no conjunto de objetos vis´ıveis. Estas altera¸cões prejudicam o recurso de codifica¸cão em

delta praticado pelo driver, o que aumenta consideravelmente as informa¸cões enviadas na rede. Mesmo assim, a taxa de transferência é relativamente pequena, sempre inferior a 10 MB/s.

Os modos que não possuem frustum culling habilitado sempre renderizam todos os objetos da cena, independente da posi¸cão da câmera. Embora esta abordagem deteriore o desempenho gráfico da aplica¸cão, a mesma garante certa uniformidade nas chamadas de fun¸cão OpenGL entre quadros consecutivos, o que facilita o recurso de codifica¸cão em delta e, consequentemente, reduz a taxa de transferência nestes modos. Nas outras alternativas, que utilizam culling na GPU, a justificativa é semelhante - o algoritmo de culling não altera de forma significativa as chamadas OpenGL efetuadas pela aplica¸cão, uma vez que o algoritmo é executado diretamente na GPU. Sendo assim, esta última abordagem também facilita o recurso de codifica¸cão em delta.

Para melhor investigar a influência da latência da rede sobre o desempenho da aplica¸cão, selecionou-se a alternativa com maior taxa de transferência média: o modo ubosub - cpucull com 27 modelos na cena. Nesta situa¸cão, a aplica¸cão possui taxa de transferência inferior a 8 MB/s. Para aferir a latência, o comando ping foi utilizado para realizar me- didas de RTT (round-trip time) na mesma infraestrutura onde são executados os testes gráficos. Este comando foi utilizado transferindo pacotes de 64 KB em intervalos de 8 ms. Estes parâmetros aproximam o perfil de uso da rede efetuado pela aplica¸cão. Neste cenário, o valor médio obtido para o RTT foi de 2 ms e desvio padrão de 0.4 ms.

Sendo assim, pode-se concluir que grande parte do overhead da aplica¸cão ocorre na intercepta¸cão e no processamento das chamadas OpenGL, dentro do driver adaptado. Ao reduzir o número destas chamadas utilizando um mecanismo moderno de renderiza¸cão, por exemplo, o impacto no desempenho da aplica¸cão é reduzido de forma significativa, podendo até promover um ganho de desempenho, como observado na alternativa indexedmdi unified gpucull.

No documento Uma arquitetura de comunicação escalável para sistemas de visualização imersivos. (páginas 90-93)