Comparação com outras arquiteturas DVC

6 CODIFICAÇÃO DA CAMADA DE REALCE

H.264/AVC Camada Base

7.5.2 Comparação com outras arquiteturas DVC

Para uma melhor análise da eficiência do nosso codificador, comparamos o codificador com resolução mista com um dos codecs WZ mais populares na literatura: o codec DISCOVER [67]. O DISCOVER é um codificador distribuído que utiliza a arquitetura de Stanford (ver Seção 3.2.1). Dentro dos codecs com a arquitura de Stanford, o DISCOVER é um dos codecs que

600 800 1000 1200 1400 1600 1800 2000 32 33 34 35 36 37 38 39 40 41

Hall Monitor CIF: IbIbI

Taxa (Kbps) @ 30 fps

Y − Psnr Média (dB)

H.264/AVC Camada Base Camada base + SSR WZ com resolução mista

1000 1500 2000 2500 3000 3500 30 31 32 33 34 35 36 37 38 39 40

Coastguard CIF: IbIbI

Taxa (Kbps) @ 30 fps

Y − Psnr Média (dB)

H.264/AVC Camada Base Camada base + SSR WZ com resolução mista

(a) (b) 0 500 1000 1500 2000 2500 3000 3500 30 32 34 36 38 40 42

foreman CIF: IbIbI

Taxa (Kbps) @ 30 fps

Y − Psnr Média (dB)

H.264/AVC Camada Base Camada base + SSR WZ com resolução mista

(c)

Figura 7.9: Resultados de PSNR para a componente de luminância no modo IbIbI. Comparando H.264 convencional no modo IBIBI, o modo de codificação Wyner-Ziv depois de 3 iterações e a camada base e os quadros chave junto com os quadros SSR. (a) Hall Monitor - baixo movimento, (b) Coastguard- alto movimento, (c) Foreman- alto movimento

reportam melhor desempenho. O DISCOVER utiliza uma geração de informação lateral mediante interpolação temporal de quadros uni e bi-direcional, refinamento dos vetores de movimento e técnicas de suavização [95, 96]. A codificação de canal do DISCOVER, pode ser feita por Turbo Codesou LDPC, sendo que a implementação com LDPC apresenta um melhor desempenho e foi utilizada nestes testes.

As simulações do DISCOVER foram feitas utilizando estimação de movimento rápida e codificação de entropia CAVLC. Além disso, realizamos testes com o DISCOVER com e sem

600 800 1000 1200 1400 1600 1800 2000 37 38 39 40 41 42 43

Hall Monitor CIF: IbIbI

Taxa (Kbps) @ 30 fps

YUV − Psnr Média (dB)

H.264/AVC Camada Base WZ com resolução mista

1000 1500 2000 2500 3000 3500 38 39 40 41 42 43 44

Coastguard CIF: IbIbI

Taxa (Kbps) @ 30 fps

YUV − Psnr Média (dB)

H.264/AVC Camada Base WZ com resolução mista

(a) (b) 0 500 1000 1500 2000 2500 3000 3500 36 37 38 39 40 41 42 43 44

foreman CIF: IbIbI

Taxa (Kbps) @ 30 fps

YUV − Psnr Média (dB)

H.264/AVC Camada Base WZ com resolução mista

(c)

Figura 7.10: Resultados de PSNR para a componente de luminância e crominância no modo IbIbI. Comparando H.264 convencional no modo IBIBI; o modo de codificação Wyner-Ziv depois de 3 iterações; e a camada base. (a) Hall Monitor - baixo movimento, (b) Coastguard- alto movimento, (c) Foreman- alto movimento

RDO. A maioria dos resultados do DISCOVER reportados na literatura utilizam o RDO [67, 95]. O codec DISCOVER somente trabalha com a componente de luminância Y e unicamente permite utilizar quadros chave do tipo intra, ou seja, o modo de codificação foi IZIZI, onde Z indica um quadro WZ codificado totalmente de forma distribuída. Também é importante notar que o DISCOVER utiliza tabelas de quantização para os quadros Z que são dependentes da seqüência. Em outras palavras, dada uma determinada seqüência, o DISCOVER utiliza uma determinada tabela de quantização. Esta tabela de quantização não é feita para maximizar o desempenho, mas

100 200 300 400 500 600 700 800 900 1000 1100 31 32 33 34 35 36 37 38 39 40

41 foreman CIF: IbbPbbP

Taxa (Kbps) @ 30 fps

Y − Psnr Média (dB)

H.264/AVC

WZ com resolução mista

Figura 7.11: Resultados de PSNR para a componente de luminância da seqüência Foreman no modo IbbP bbP . Comparando H.264 convencional e o modo de codificação Wyner-Ziv.

para obter uma qualidade visual subjetiva uniforme da seqüência decodificada. O DISCOVER também utiliza um canal de retorno. O modo de codificação distribuído proposto neste trabalho, não utiliza canal de retorno e a seleção dos parâmetros de quantização para os quadros NRWZ é feita de forma automática.

Em termos de complexidade utilizando o RDO, o codec DISCOVER codifica uma seqüência CIF em 165 segundos, em média. Este tempo é comparável ao tempo do codificador proposto nos modos IbP bP e IpP pP sem RDO. Por outro lado, sem RDO, o DISCOVER pode codificar uma seqüência inteira em aproximadamente 20 segundos. A arquitetura de resolução mista não consegue atingir uma complexidade tão baixa. No caso, de utilizar quadros chave do tipo intra (IbIbI) o codificador com resolução mista utiliza aproximadamente 60 segundos. Porém, como pode ser visto na Figura 7.12, o modo proposto possui um desempenho em termos de RD superior ao DISCOVER. Na Figura 7.12 mostramos a curvas de RD: (i) o codificador com resolução mista no modo IbP bP e (ii) no modo IbIbI, (iii) o DISCOVER no modo IZIZI com RDO e (iv) sem RDO. Note que tanto a PSNR como a taxa são calculadas somente para a componente de luminância.

Nas seqüências Foreman e Hall Monitor o codificador com resolução mista em ambas as configurações supera o DISCOVER por uma margem significativa. Na seqüência Foreman o modo de codificação na configuração IbIbI supera o DISCOVER por 1 a 2 dB, e o modo na

configuração IbP bP por mais de 5 dB. Na seqüência Hall Monitor a diferença é ainda maior. De todos os testes realizados, o único onde o DISCOVER consegue superar o codificador proposto é na seqüência Soccer, onde o DISCOVER supera o modo de resolução mista somente em IbIbI para altas taxas. Isto deve se dar porque a estimação dos parâmetros {QPwz, M } não

foi satisfatória na seqüência Soccer no modo IbIbI, enquanto o DISCOVER utiliza um canal de retorno. Contudo, o modo IbP bP tem um melhor desempenho que o DISCOVER também nesta seqüência. 0 1000 2000 3000 4000 5000 6000 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 Foreman CIF Taxa (Kbps) @ 30 fps Y − Psnr Média (dB)

DISCOVER IZIZI com RDO DISCOVER IZIZI sem RDO WZ com resolução Mista IbPbP WZ com resolução Mista IbIbI

0 500 1000 1500 2000 2500 3000 3500 4000 32 33 34 35 36 37 38 39 40 41 42 43 44

Hall Monitor CIF

Taxa (Kbps) @ 30 fps

Y − Psnr Média (dB)

DISCOVER IZIZI com RDO DISCOVER IZIZI sem RDO WZ com resolução Mista IbPbP WZ com resolução Mista IbIbI

(a) (b) 0 500 1000 1500 2000 2500 3000 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 Soccer CIF Taxa (Kbps) @ 30 fps Y − Psnr Média (dB)

DISCOVER IZIZI sem RDO DISCOVER IZIZI com RDO WZ com resolução mista IbPb WZ com resolução mista IbIb

(c)

Figura 7.12: Curvas de PSNR para a componente Y . Comparando o modo de codificação com resolução mista com outra arquitetura de DVC: (a) Foreman CIF; (b)Hall Monitor CIF, (c) Soccer CIF

Como já foi mencionado, o DISCOVER somente opera com quadros chave intra. Para verificar o potencial da arquitetura de Stanford com quadros chave inter, implementamos uma

geração de informação temporal muito utilizada nesta arquitetura: algoritmo SE-B [65, 66]. Neste algoritmo, a idéia básica é realizar estimação de movimento entre os dois quadros chave e gerar o quadro interpolado. Inicialmente a estimação de movimento é feita utilizando o quadro anterior como fonte e o posterior como referência obtendo os vetores de movimento MVF. Depois, um

novo processo de estimação de movimento é feito agora com o quadro posterior como fonte e o anterior como referência, gerando MVB. O quadro intermediario é gerado a partir de uma média

entre os quadros compensados utilizando MVF/2 e M VB/2. Basicamente, este método assume

que o movimento do quadro que está sendo interpolado é a metade entre o movimento existente entre os quadros chave anterior e posterior. A interpolação SE-B é uma das mais usadas na arquitetura de Stanford, e é usada como referência para comparar geração de informação lateral em outros trabalhos [30, 31, 32]. Realizamos, então, testes de geração de informação lateral comparando o SE-B e o algoritmo de semi super resolução (SSR), assumindo que uma melhor informação lateral possibilita um melhor desempenho do codificador Wyner-Ziv.

Na Figura 7.13, é mostrada a comparação entre o desempenho dos processos de geração de SI. Estas curvas de PSNR foram calculadas a partir da MSE da seqüência inteira. Isto se deve ao fato que seqüências formadas pelos quadros chaves e quadros da geração de SI (SE-B ou SSR) possuem grandes variações de PSNR. Os quadros chaves possuem uma PSNR significativamente melhor que os quadros de SI. Logo, utilizar a PSNR média para este caso particular não é um bom indicativo da qualidade subjetiva do sinal. Nos gráficos são mostrados: (i) os quadros chave decodificados e os quadros resultantes do processo de SSR após uma iteração, para o codificador com resolução mista no modo IbIbI; (ii) os quadros chave decodificados e os quadros resultantes do processo de SSR após uma iteração, para o codificador com resolução mista no modo IbP bP ; (iii) os quadros chave tipo I e os quadros interpolados mediante o método SE-B para a arquitetura de Stanford; e (iv) os quadros chave tipo P e os quadros interpolados mediante o método SE-B para a arquitetura de Stanford. Foram utilizadas as seqüências de alto movimento Coastguard, Foreman, Mobile, e a seqüência de movimento médio Silent.

Como era esperado, o nosso método possui um desempenho superior à geração de informação lateral SE-B. Novos métodos de geração de informação lateral para a arquitetura de Stanford podem levar a um melhor desempenho do codificador Wyner-Ziv [30, 31, 32, 97]. Porém, como nosso framework trabalha com uma versão em baixa resolução do quadro, a nossa arquitetura

0 500 1000 1500 2000 2500 3000 3500 32 33 34 35 36 37 38 39 40 41 Silent CIF Rate (Kbps) @ 30 fps Y Psnr(dB)

Resolução Mista+SSR (IbIbI) Resolução Mista+SSR (IbPbP) Stanford + SE-B (IZPZP) Stanford + SE-B (IZIZI)

500 1000 1500 2000 2500 3000 3500 30.5 31 31.5 32 32.5 33 33.5 34 34.5 35 Coastguard CIF Rate (Kbps) @ 30 fps Y Psnr(dB)

Resolução Mista + SSR (IbIbI) Resolução Mista+SSR (IbPbP) Stanford + SE-B (IZPZP) Stanford + SE-B (IZIZI)

(a) (b) 0 500 1000 1500 2000 2500 3000 3500 29 30 31 32 33 34 35 36 37 Foreman CIF Rate (Kbps) @ 30 fps Y Psnr(dB)

Resolução Mista + SSR (IbIbI) Resolução Mista+SSR (IbPbP) Stanford + SE-B (IZPZP) Stanford + SE-B (IZIZI)

0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 25.5 26 26.5 27 27.5 28 Mobile CIF Rate (Kbps) @ 30 fps Y Psnr(dB)

Resolução Mista + SSR (IbIbI) Resolução Mista+SSR (IbPbP) Stanford + SE-B (IZPZP) Stanford + SE-B (IZIZI)

(a) (b)

Figura 7.13: Resultados do processo de semi super resolução para quatro seqüências diferentes. Comparando a semi super resolução para quadros b usando quadros-chave tipo I e tipo P , e a interpolação SE-B para os mesmos quadros chave.

tem o potencial de superar qualquer método de geração de informação lateral da arquitetura de Stanford. Uma melhor informação lateral implica um melhor desempenho de RD do codec [66]. Por outro lado, como foi discutido anteriormente, a arquitetura de Stanford consegue codificar seqüências de vídeo a um custo computacional menor.

No próximo capítulo serão apresentadas as conclusões gerais do trabalho, detalhando as contribuições realizadas na presente pesquisa e as perspectivas para trabalhos futuros.

8 CONCLUSÕES

O trabalho apresentado consiste em um modo de codificação de vídeo com complexidade reversa, ideal para cenários onde a codificação de vídeo é feita por dispositivos móveis com restrição de energia. A codificação com complexidade reversa é baseada na codificação distribuída de vídeo. A redução de complexidade, no processo de codificação, é alcançada mediante a codificação de quadros em baixa resolução, formando a camada base. A camada de realce é gerada a partir de um quadro residual entre o quadro reconstruído interpolado e o quadro original. Os coeficientes transformados do quadro residual são codificados mediante uma técnica distribuída utilizando índices de cosets sem memória, sem o uso de um canal de retorno.

O modo de codificação possui resolução mista, já que os quadros-chave são codificados em uma resolução espacial normal. Este modo pode ser utilizado opcionalmente, permitindo que o codificador de vídeo não opere sempre no modo de complexidade reversa. Este modo pode ser ligado somente quando necessário, por exemplo, se o dispositivo móvel está com pouca bateria. O uso de quadros com resolução mista faz com que a codificação Wyner-Ziv possua um desempenho competitivo, em termos de taxa-distorção. A redução no esforço computacional, que implica uma perda de desempenho, pode ser feita de forma adaptável mudando a quantidade de quadros em baixa resolução e o fator de dizimação.

O único canal de comunicação entre o decodificador e codificador é o sinal de vídeo codificado em duas camadas. Não existe canal de retorno nem informação auxiliar (hash). Logo, o decodificador pode reproduzir a seqüência de vídeo imediatamente após esta ser recebida ou armazenar a seqüência para reproduzi-la em qualquer outro momento. A arquitetura também permite que o decodificador consiga reproduzir uma seqüência com baixa complexidade de decodificação sem perda de quadros, simplesmente interpolando os quadros da camada base.

Foi feito um estudo de complexidade, baseado no tempo de codificação, para verificar a redução do esforço computacional que a arquitetura proposta possibilita. Foi mostrado que a codificação com resolução mista pode obter uma complexidade similar com um desempenho superior à arquitetura de codificação Wyner-Ziv de Stanford [17, 67], usando quadros-chave

com codificação do tipo inter. Por outro lado, é improvável que consigamos obter uma redução de complexidade tão drástica como a obtida pela arquitetura de Stanford com quadros chave do tipo intra, já que na codificação com resolução mista a estimação de movimento é sempre necessária. Porém, o uso de codificadores de vídeo em hardware, ou o aumento de capacidade dos dispositivos móveis, pode fazer que uma drástica redução de complexidade não seja necessária. Assim, a arquitetura desenvolvida permite uma melhor adaptabilidade da redução de complexidade em troca do desempenho de codificação.

Para se atingir um bom desempenho de taxa-distorção foi apresentado um novo método de geração de informação lateral que usa um fator de confiabilidade (Seção 4.4) para controlar a adição de alta freqüência. Este método possibilita que o nosso codificador com resolução mista consiga alcançar um desempenho até mesmo superior à codificação convencional para seqüências de baixo conteúdo de alta freqüência e baixo movimento. Em outras palavras, o método de geração de informação lateral consegue recuperar satisfatoriamente perdas moderadas de informação de alta freqüência. A geração da informação lateral pode ser feita de forma iterativa melhorando a sua qualidade visual, mas a um custo de maior complexidade de decodificação, já que cada iteração é um novo processo de decodificação.

8.1 APRESENTAÇÃO DAS CONTRIBUIÇÕES DO DOUTORADO

No documento ELÉTRICA CODIFICADOR DISTRIBUÍDO DE VÍDEO COM COMPLEXIDADE VARIÁVEL A PARTIR DE CODIFICAÇÃO EM RESOLUÇÃO ESPACIAL MISTA (páginas 111-120)