Estimativa de Conteúdo de Background para DIBR

2.2 Trabalhos Relacionados

2.2.2 Estimativa de Conteúdo de Background para DIBR

A subtração de background de vídeos capturados por câmeras estáticas tem sido um dos tópicos de pesquisa mas ativos em visão computacional nas últimas duas déca- das, em razão do seu grande número de aplicações, como monitoramento de tráfego e vigilância inteligente de atividades humanas em espaços públicos (BOUWMANS et al., 2019). Como parte deste processo, produz-se um modelo matemático de background es- tático, empregado no comparativo com cada quadro da sequência de vídeo (JUNG, 2009; VISWANATH et al., 2015). Neste comparativo, identificam-se pixels do quadro analisado que não possuem correspondência com o modelo, os quais são indicados como candida- tos a pertencer ao foreground (MOHAMED; TAHIR; ADNAN, 2010). Com isso, torna-se possível identificar objetos de foreground e separá-los do background em sequências de vídeo.

No contexto de DIBR, não se tem como objetivo fim identificar ou remover objetos de foreground, mas sim utilizar a informação estimada no modelo de background es- tático para preencher parcial ou totalmente holes em imagens sintéticas, como ocorre em (YANG, 2015; LUO et al., 2016; LIE; HSIEH; LIN, 2018). Essas abordagens baseiam-se na premissa de que alguns dos holes formados após a projeção (mais especificamente, as disocclusions), correspondem a regiões do background que estavam cobertas por elemen-

tos no foreground que foram expostas. Neste caso, se o modelo de background estático – projetado para o ponto de vista virtual – possuir conteúdo disponível onde ocorrem as disocclusions, basta copiar a informação para a imagem sintética.

De fato, modelos de background estático permitem que disocclusions sejam pre- enchidas de forma eficiente e confiável, evitando processamento desnecessário de algoritmos de inpainting. Contudo, como observa Xu et al. (2016), métodos para a estimativa de modelos de background enfrentam diferentes desafios, tais como: mudança de ilumi- nação; background dinâmico (por movimento de árvores, semáforos, etc.); sombras de objetos no foreground; ruído no vídeo (devido a ruído do sensor, artefatos de compressão, etc.). Estes problemas tornam o processo de estimativa ainda mais desafiador. Por isso, o método de formulação do modelo não deve levar em conta somente a identificação dos elementos de background, mas também alterações decorrentes do processo de captação do vídeo.

Métodos para a geração de modelos de background contam, normalmente, somente com o conteúdo do vídeo. Mas com DIBR, tem-se sempre informação adicional de disparidade associada a cada pixel de cada um dos quadros da sequência de vídeo. Neste caso, além de poder estimar padrões de intensidade nas imagens da sequência de vídeo, as abordagens podem analisar o posicionamento no cenário de pixels e/ou segmentos, para definir qual parte do conteúdo pertence efetivamente ao background. Entretanto, mapas de disparidade podem conter inconsistências temporais, decorrentes do modo como foram estimados (YAO et al., 2014). Portanto, validações adicionais são requeridas quando este tipo de informação for utilizada no processo de geração do modelo de background.

Abordagens DIBR normalmente produzem modelos de background com base em informação de cor e disparidade (ou profundidade), processando um ou mais quadros de uma sequência de vídeo. Por exemplo, Yao et al. (2014) baseiam-se na observação de que a maioria das regiões oclusas em uma cena pertencem ao background que está coberto por objetos de foreground, e essas regiões oclusas podem se tornar visíveis em outros quadros, devido ao movimento do foreground. Desta forma, se os quadros do vídeo forem analisa- dos em sequência, e o conteúdo associado ao maior valor de profundidade for acumulado no modelo, ao final será formada uma imagem com todo o conteúdo de background vi- sível no vídeo. Contudo, se esta estratégia for adotada, partes do background podem não ser exibidas no vídeo, fazendo com que objetos no foreground permaneçam como parte do modelo. Uma estratégia diferente foi adotada por Luo et al. (2019), que utiliza apenas um quadro da sequência de vídeo para formular o modelo de background, no qual objetos

Figura 2.8: Preenchimento de vista sintética com informação de um modelo de background. Em (a) e (b) são exibidos a imagem de referência e o modelo de background, respectivamente, após a projeção. A imagem (c) corresponde a (a) preenchida com o con- teúdo disponível em (b). Na imagem (c), destacam-se erros de preenchimento em laranja, vermelho e amarelo (marcados nas mesmas posições em (a) e (b)), produzidos pela cópia de informação inadequada de (b), exibidas em detalhe ao lado.

(a) (b)

(c)

Fonte: O autor, com imagens adaptadas do dataset Ballet de (ZITNICK et al., 2004).

de foreground são segmentados, removidos e as regiões correspondentes reconstruídas com um algoritmo de inpainting. Apesar da abordagem precisar de apenas um quadro do vídeo para construir o modelo, sua formulação depende da adequada detecção e recons- trução das regiões ocupadas pelos objetos de foreground. Neste caso, um erro em algum dos processos pode fazer com que seja mantido um modelo incoerente para todo o vídeo. Com base no exposto, pode-se perceber que falhas em etapas do processo ou a falta de informação real de background podem levar à construção de um modelo de background com erros ou conteúdo de foreground. Por esta razão, não se pode copiar diretamente a informação do modelo para a vista sintética, e validações adicionais são requeridas, de modo a evitar que possíveis erros de estimativa possam ser replicados.

A Figura 2.8 exibe um exemplo do preenchimento direto de uma imagem sintética com conteúdo de um modelo de background. No exemplo, a imagem (a) foi preenchida com conteúdo da (b), produzindo (c). Como pode ser observado em detalhe no lado direito da Figura 2.8(c), a cópia direta de informação pode produzir erros. Na região destacada em vermelho, pode-se observar que parte do corpo da bailarina preservado no modelo de background foi utilizado para preencher parcialmente a disocclusion. Neste caso, se houver uma verificação baseada em disparidade ou coerência com os elementos de background vizinhos da disocclusion, a informação incorreta pode ser identificada e descartada. Abaixo, em amarelo e laranja, cracks translúcidos podem ser visualizados, decorrentes do preenchimento inadequado de ocorrências do artefato na forma vazia com conteúdo retirado do modelo. Ainda, fica evidente no exemplo que modelos produzidos com câmeras estáticas não são capazes de produzir conteúdo para o preenchimento de OOFAs, por não conseguirem capturar esta região. Sendo assim, após analisar os pos- síveis erros de preenchimento, fica evidente que modelos de background não podem ser utilizados para preencher cracks e OOFAs. De outro modo, se o conteúdo a ser copiado for verificado adequadamente, parte significativa das disocclusions pode ser preenchida com informação confiável, sem o uso de algoritmos de inpainting.

No documento Síntese de fotografias e vídeos com depth-image-based rendering (páginas 43-46)