Renderização Baseada na Disparidade da Imagem

3.4 Extração de Profundidade em Vídeos 3D

3.4.1 Renderização Baseada na Disparidade da Imagem

A renderização baseada na disparidade da imagem é uma técnica utilizada para formação da imagem 3D, em que ela é formada a partir da multiplexação das imagens esquerda (Figura 3.4a) e direita (Figura 3.4a) em uma imagem de referência e no mapa de profundidade, Figura 3.4c. O mapa de profundidade correspondente, às informações armazenadas de profundidade com 8-bits em valores de cinza, com 0 no lugar mais distante e 255 no local mais próximo, e a mesma resolução espaço-temporal (Hur et al., 2005).

O posicionamento das câmeras ou a seleção dos parâmetros de renderização tem um impacto direto sobre a profundidade percebida de uma cena. Vários parâmetros têm influência sobre o efeito estereoscópico incluindo a distância real da cena, a distância interocular, a distância entre as lentes da câmera, o ângulo entre as câmeras, que podem ser tanto paralelas ou convergentes. A fim de proporcionar ao observador um ótimo

(a) Vista Esquerda. (b) Vista Direita.

Figura 3.4: Vistas esquerda e direita e a disparidade do vídeo src01_hrc00 do banco de dados NAMA3DS1-COSPAD1.

efeito 3D é importante compreender a influência destes parâmetros sobre a qualidade do conteúdo percebido 3D. A distância interaxial e a distância de convergência são cruciais para determinar a qualidade da imagem estereoscópica, mas é difícil de determinar a distância e o ângulo adequados dentro de uma faixa de valores.

Na Figura 3.5 é apresentada a geometria das câmeras, em paralelo, para a geração

da imagem 3D. Os parâmetros F e tc são o distância focal e a distância entre as duas

câmeras, Cr e Cl, respectivamente. Os pontos (Xr, y), (Xl, y) e (Xc, y) correspondem

às posições dos pixels na imagem de referência e o ponto virtual, que corresponde ao ponto P com profundidade Z.

As Equações 3.10 e 3.11 mostram como encontrar esses valores (Zhang & Tam, 2005). Xl = Xc+ tc· αu 2Z(Xc, y) − z, (3.10) Xr = Xc− tc· αu 2Z(Xc, y) + z. (3.11)

Figura 3.5: Geometria da câmera para geração das duas imagens.

O valor do fator de escala αu é obtido dividindo a distância focal pelo tamanho do

pixel e pode ser determinado pela Fórmula 3.13. O valor de z depende do valor da

distância de convergência Zc (a distância além das câmaras em que os eixos ópticos

das câmeras se cruzam) e é calculado como segue

z = tc· αu

2Zc

. (3.12)

αu = 0.0005 · W (3.13)

Os dois parâmetros, Zce tc, podem ser usados para controlar e adaptar a impressão

da profundidade pelo receptor. Por exemplo, se a distância entre as câmeras aumenta, a disparidade entre as duas imagens aumenta e, consequentemente, a percepção da profundidade aumenta. Essa característica do DIBR é bastante útil pois a percepção da profundidade pode ser controlada pelo usuário de acordo com sua preferência.

O telespectador pode sentir algum desconforto visual se as diferenças entre Xl e

Desta forma, a máxima diferença será de 3% do valor da largura da imagem, w.

Xl− Xr < 0, 03 · W, (3.14)

em que w é o valor da largura da imagem.

Alguns problemas são inerentes ao DIBR, como a desoclusão4_{. Este problema se}

caracteriza por áreas que não são visíveis nos mapas de profundidade e são visíveis nas imagens esquerda e direita. A Figura 3.6 representa uma imagem gerada com o mapa de profundidade com a desoclusão. Para reduzir esse problema, um filtro passa- baixa é aplicado para reduzir as áreas de desoclusão e manter uma boa qualidade na profundidade das imagens (Cheolkon & Jiao, 2011).

Figura 3.6: Áreas de desoclusão na imagem do vídeo "Ballet" representado por pontos brancos. a) Fenômeno da desoclusão. b) Vista esquerda de "Ballet"com buracos.

Muitos pesquisadores têm estudado técnicas DIBR para serem aplicadas em serviços T-DMB (Terrestrial - Digital Multimedia Broadcasting), juntamente com técnicas de compressão e transmissão, de forma a melhorar os serviços 3D em dispositivos móveis.

Pré-Processamento

O pré-processamento de mapas de profundidade inclui duas questões: escolher a distância de convergência Z(c) (o chamado zero-parallax setting (ZPS)) e o ajuste do mapa de profundidade.

A utilização de métodos de pré-processamento da imagem se faz necessária para que, ao se calcular a profundidade, não haja deformidades que impossibilitem sua percepção

adequada. O parâmetro Distância de Convergência, conhecida como paralaxe zero é dado por

Z(c) = Znear− Zf ar

2 , (3.15)

na qual Znear e Zf ar são os planos mais próximo e mais distante do mapa de profundi-

dade.

Para o ajuste do mapa de profundidade utilizam-se filtros assimétricos para a re- tirada do borramento da imagem, entre eles o sobel e o gaussiano (Zhang & Tam, 2005). Os dois filtros são importantes, pois o primeiro remove os ruídos e preserva a profundidade, o segundo baseado na suavização do gradiente, suaviza a profundidade nas imagens originais na direção horizontal e reduz os buracos.

Conversão Disparity to Depth (DtoD)

Em métodos como o DIBR a conversão de disparidade para profundidade (DtoD) é realizada no receptor. No entanto, nesse método, a conversão é realizada no transmissor porque a informação é transmitida pelo canal de transmissão em vez das informações de profundidade. Isto é muito eficiente, pois o transmissor tem grande poder compu- tacional e maior capacidade de armazenamento em relação ao receptor (Cheolkon & Jiao, 2011).

Após o pré-processamento, a conversão DtoD é realizada por

Z(v) = 1 1 Znear v 255 + 1 Zf ar 1 − v 255 , v ∈ [0, · · · , 255], (3.16)

em que Z(v) é dada em milímetros, mede a v-ésima distância entre um objeto e um

observador, Znear e Zf ar representam a maior e a menor distância entre o objeto e um

observador, respectivamente.

Com isso, a disparidade de cada pixel é calculada a partir da distância de profundidade da Equação 3.16. É escrita desta forma, devido a fatores humanos que foram levados em consideração, como a distância de profundidade percebida dos objetos mais próximos, que é muito menor que a distância da profundidade de objetos mais distantes. A disparidade entre cada pixel, apresentada na Equação 3.17, é calculada utilizando os valores de Z(v).

D(v) = αutc 2 1 Z(v) − 1 Zc (3.17)

Os valores de Z(v) e D(v) são inversamente proporcionais. Além disso, o máximo valor de D(v) é aproximadamente cinco. O valor máximo é devido ao fato de que os usuários se sentem desconfortáveis quando o valor da paralaxe entre as vistas esquerda e direita é maior do que 3% do tamanho da largura da imagem (Cheolkon & Jiao, 2011).

A maioria dos vídeos estereoscópicos tem valores de disparidade positivas ou nega- tivas, que constituem os objetos reais 3D para frente e para trás do monitor 3D.

No documento Métrica de avaliação objetiva de vídeo usando a informação espacial, a temporal e a disparidade. (páginas 63-68)