Considerações sobre os codificadores do MPEG

Os codificadores apresentados seguem abordagens distintas para realizar a compressão de nuvens de pontos dinâmicas. O PCC-âncora é focado em comprimir a informação de geometria por meio de octree e utiliza uma abordagem para predição inter-nuvens que explora redundância no espaço 3D. Por outro lado, o V-PCC utiliza uma abordagem baseada na conversão da nuvem de pontos em um vídeo 2D, usando o codificador de vídeo HEVC para comprimir tanto informação de geometria como textura. Nesse sentido, o V-PCC não explora as redundâncias temporais no espaço 3D original. A importância dessa exploração é comprovada diante da chamada para experimento de novas abordagens para ME 3D realizada pelo próprio MPEG, conforme documento (ZAKHARCHENKO; KIM, 2018). Uma abordagem recente, com foco na ME em 3D, foi proposta por (LI, et al., 2019) e implementada no codificador V-PCC. Porém, o método se limita a encontrar blocos colocalizados na nuvem de pontos 3D com o objetivo de auxiliar a ME 2D realizada no codificador HEVC. Para isso, a nuvem de pontos é reconstruída e a coordenada de um determinado patch 2D é convertida para 3D. Assim, por meio do bloco colocalizado, é possível obter a coordenada de um outro patch 2D que pode fornecer uma melhor correspondência. Essa abordagem tem como objetivo auxiliar a ME 2D, já que a divisão por patch pode inviabilizar a ME 2D, mesmo em blocos 3D espacialmente próximos ou colocalizados como pode ser visto na Figura 21.

Embora a proposta de (LI, et al., 2019) tenha como objetivo corrigir possíveis problemas da ausência de exploração do espaço 3D no V-PCC, essa abordagem ainda não explora, de forma satisfatória, as possibilidades em uma área de pesquisa tridimensional.

O V-PCC pode facilmente atingir menores taxas de bits de geometria na com- paração com o PCC-âncora, no entanto, pode também apresentar resultados de qualidade de geometria inferiores (GONÇALVES, et al., 2019). Na Figura 22 são apresen- tados os gráficos de taxa e distorção (Rate and Distortion - RD) para a sequência Loot avaliada em (GONÇALVES, et al., 2019). Na Figura 22 são apresentados cinco LoD, representados pelos pontos das curvas, onde quanto maior o LoD maior a resolução das nuvens de pontos e consequentemente maior qualidade. Na Figura 22 (a) é pos- sível ver que o PCC atinge níveis de qualidade de geometria mais altos para os LoD

maiores em comparação ao V-PCC, enquanto o V-PCC só atinge resultados satisfa- tórios para resoluções baixas.

Em relação à textura, os resultados obtidos pelo V-PCC são superiores em am- bos os eixos, taxa e qualidade da nuvem codificada, como pode ser visto na Figura 22 (b) conforme apresentado em (GONÇALVES, et al., 2019). Estes resultados são esperados, uma vez que o V-PCC utiliza os algoritmos avançados do codificador HEVC, que é especializado na codificação de textura, enquanto o PCC utiliza um codificador JPEG para a compressão das informações de textura.

Neste trabalho, o codificador PCC-âncora será usado como base para o desen- volvimento das soluções propostas para a predição inter-nuvens no espaço 3D, visto que este codificador opera sobre os dados originais das nuvens de pontos, ou seja, no espaço 3D. Além disso, cabe destacar que a etapa de predição inter do V-PCC é exatamente a mesma utilizada no padrão HEVC, sem nenhuma inovação no cenário

Figura 21: Problema na ME no V-PCC (adaptado de (LI, et al., 2019)).

da compressão de nuvens de pontos dinâmicas. É importante destacar também que a proposta desenvolvida nesta tese pode ser adaptada para o V-PCC em trabalhos futuros, diante da ausência desse tipo de solução e do potencial ganho de eficiência na predição que ela pode trazer.

30,0 32, 3 , 3 , 3 ,0 32,54 34,4 36,15 38,75 42,34 V a lo re s m d io s U V -PSN R dB

Taxa de bits textura Mbps

PCC-âncora V-PCC

Figura 22: Comparativo entre V-PCC e PCC-âncora (adaptado de (GONÇALVES, et al., 2019)) (b) (a) 3,22 , ,3 2, , 58,68 61,71 63,5 65,64 67,53 P S N R M d io de G e o m e tr ia dB

Taxa de bits geometria Mbps

4 PREDIÇÃO INTER-NUVENS

Nos compressores de vídeo, a eficiência de codificação é obtida por meio da exploração de redundâncias, tais como: redundância temporal, espacial e entrópica (SULLIVAN et al., 2012). As correlações temporais em nuvens de pontos dinâmicas ainda não são exploradas de forma satisfatória, e a eficiência da compressão não é significativamente aprimorada devido ao tamanho fixo de blocos, segundo Li (2019).

A ME é responsável por explorar a redundância temporal presente entre quadros temporalmente vizinhos em uma cena. Para isto, os quadros são divididos em blocos e uma busca é realizada comparando cada bloco do quadro atual (quadro sendo codificado) com blocos de um quadro de referência (previamente codificado). O bloco mais similar é selecionado e posteriormente é calculado o vetor de movimento, que contempla o deslocamento do bloco no quadro corrente em relação à posição de maior similaridade no quadro de referência. Para realização da busca pelo melhor bloco pode ser aplicado o algoritmo de busca completa (Full Search – FS) que apresenta o melhor resultado em termos de qualidade. O FS testa todas as possibilidades em uma determinada área de busca. Logo, sempre encontra o bloco de maior similaridade com o bloco do quadro atual. Porém, o custo computacional deste algoritmo pode, em muitos casos, ser proibitivo devido à grande quantidade de blocos candidatos que costumam estar presentes numa área de busca, especialmente quando aplicados à compressão de vídeos de alta resolução. Assim, na literatura são encontradas diferentes propostas de algoritmos rápidos de ME com o objetivo de reduzir o número de comparações realizadas e, consequentemente, reduzir o custo computacional da ME, mas mantendo a qualidade mais próxima possível do algoritmo FS.

Outro aspecto importante e tratado na predição inter-quadros em codificadores de vídeo como o H.264/AVC (Advanced Video Coding) e o HEVC (High Efficiency

predição (SULLIVAN; WIEGAND, 2005). Assim, macroblocos de tamanho 16x16 amostras, por exemplo, podem ser particionados em blocos de 8x8 e até mesmo subparticionados em blocos ainda menores, como 4x4. Os cálculos da estimação de movimento são realizados para vários tamanhos de blocos e assim a melhor combinação de tamanhos é escolhida. Essa escolha é realizada a partir da análise dos resultados de taxa (em bits) e distorção (qualidade objetiva) de cada tamanho de bloco visando sempre a opção que gere a codificação mais eficiente (SULLIVAN et al., 2012).

Assim como os avanços na etapa de predição inter-quadros trouxeram ganhos expressivos nas taxas de compressão dos compressores de vídeo, a exploração eficiente da ME em 3D pode viabilizar ganhos significativos para o aumento da eficiência de codificação de nuvens de pontos. Porém, devido ao acréscimo de uma dimensão em relação aos vídeos, a ME em 3D para nuvens de pontos apresenta uma complexidade ainda maior.

A variação dos tamanhos de blocos presente em codificadores de vídeos permite explorar, de maneira mais eficiente, as diferentes características de conteúdo presentes dentro dos quadros de um vídeo. Grandes regiões homogêneas e com pouca ou nenhuma variação podem ser mais eficientemente codificadas com blocos grandes. Já os blocos menores podem ser usados em regiões com maiores detalhes de textura, bordas e movimentos, auxiliando numa predição mais precisa. O uso de diversos tamanhos de bloco na ME para a codificação de nuvens de pontos pode, igualmente, beneficiar a compressão, principalmente porque uma das características das nuvens de pontos é a variação do número de pontos entre nuvens temporalmente vizinhas. Nesse contexto, a possibilidade o uso de blocos grandes, bem como do seu particionamento de diferentes tamanhos de bloco menores, pode viabilizar a seleção de blocos que possibilitem uma codificação com a melhor relação entre qualidade e taxa.

No documento Compressão de nuvens de pontos dinâmicas: uma abordagem eficiente para a etapa de predição (páginas 58-62)