As câmeras citadas até aqui fazem a captura de imagens a partir de um único ponto de vista. Isso resulta na perda de informações de profundidades da cena. Para se obter dados de profundidade, usa-se duas ou mais câmeras com características e configurações idênticas, mas com variações de posição em relação a seus eixos ho- rizontal, vertical ou em ambos. No caso de uma cena estática, podemos mover uma câmera nesses eixos e capturar a cena a partir de novas perspectivas com sobreposi- ção de regiões entre as imagens.
2.2.1 Visão estéreo
O processo de extração da informação 3D feito a partir de duas perspectivas distin- tas é chamado de visão estéreo (IKEUCHI, 2014). A visão estéreo serve como base para entendimento dos métodos usados em imagens com mais de duas perspectivas, como é o caso das imagenslight field.
Para fins de definição dos parâmetros usados, em imagens estéreo, cada vista possui uma matriz de projeçãoP e P′ associadas a cada uma das câmeras (câmera P e câmeraP′). Sendo que o apóstrofo (’) é usado para apontar parâmetros referentes ao que é designado como segunda perspectiva, e sua ausência denota parâmetros da
primeira vista. Exemplificando, um ponto espacial tridimensional X, com as coorde- nadas espaciais (x, y, z), é projetado como a transformação geométrica x = P X na primeira perspectiva e comox′ = P′X na segunda (HARTLEY; ZISSERMAN, 2004).
Os pontosxex′ são correspondentes, pois representam a projeção bidimensional do mesmo pontoX tridimensional. Essa abordagem aponta para três problemas básicos (HARTLEY; ZISSERMAN, 2004):
1. Geometria da correspondência- De que forma a localização de um pontoxna primeira perspectiva restringe a localização dex′ na segunda vista?
2. Geometria da câmera (movimento) - Dada uma imagem e seu conjunto de pontos correspondentes xi ↔x′i,i = 1, ..., n, quais são as câmeras (matrizes) P e P’ para as duas visualizações?
3. Geometria (estrutura) da cena - Dado os pontos de imagem correspondentes x↔x′ e matrizes P e P’, qual é a posição de X no espaço 3D?
A última questão é o objetivo final dessa proposta quando aplicada a n-vistas. Mas para se chegar neste ponto é necessário responder as duas questões anteriores. Con- vém ressaltar que o problema da retificação das imagens não está sendo abordado nesse trabalho, pois as imagens geradas já estão retificadas pelos softwares utiliza- dos.
2.2.2 Geometria Epipolar
A primeira questão apresentada é também conhecida comoproblema da corres- pondência estéreo. Como existem dois pontos de vista do objeto, um ponto locali- zado na superfície de um objeto 3D ocupa coordenadas distintas em cada perspectiva.
Por exemplo, na Figura 14 o pontoX é projetado nos planos de captura da esquerda nas coordenadas x e o mesmo ponto é projetado nas coordenadas x′ no plano da direita.
Desta forma, é necessário localizar para cada pontox∈I a projeção x′emI′ para poder determinar a diferença entre as coordenadas. Como saída desse processo temos ummapa de disparidade onde o valor de intensidade representa a diferença entre x e x′ (ZHANG, 2013). Portanto, encontrar a correspondência estéreo do ponto X é identificar o local de sua projeção em cada plano com suas respectivas coordenadas.
Segundo (DAVIES, 2017) existem duas principais abordagens para mapear a infor- mação de profundidade em imagens: light striping em imagens monoculares e linhas epipolares em imagens estéreo. A primeira técnica é baseada em iluminação estrutu- rada (light striping) para marcar pontos conforme a Figura 15 e se usa a distorção do
Figura 14 – Projeção de uma imagem 3D. Fonte: Adaptado de Zhang (2013)
padrão para calcular o mapa de profundidade. Essa abordagem não é usada nesse projeto.
Figura 15 – Luz estruturada monocular usando faixas coloridas. Fonte: Geng (2011).
A segunda abordagem, linhas epipolares, é a mais comum em se tratando de ima- gens estéreo sem controle estruturado de iluminação. Porgeometria epipolarse en- tende as relações geométricas associadas a geometria projetiva intrínseca entre duas vistas de um objeto espacial (OROZCO et al., 2017) . Essa geometria é independente da estrutura da cena e depende apenas dos parâmetros internos das câmeras (matriz intrínseca) e das poses relativas (HARTLEY; ZISSERMAN, 2004).
A ideia básica é reduzir a região de busca para encontrar o paresxex′. Conforme a Figura 16, existe um ponto x correspondente a projeção de X. Em vez de varrer toda imagem da direita atrás das coordenadas x′ se estabelece uma linha e′ para a busca do ponto correspondente a X nesse plano. Essa linha é chamada de linha epipolar. Ela pode variar de acordo com as características geométricas das imagens, por exemplo, distorções das lentes.
Para se definir a linha epipolar é necessário se definir a geometria epipolar. Na Figura 16 cada câmera é indicada por seus centros de convergência C e C′ e seus respectivos planos de imagem. Alinha de base(baseline) une os centros das câme-
rasC eC′, sendo que os pontos de intersecção entre ela e os planos de imagens são chamados deepipolos, representados na Figura 16a comoe ee′. Na mesma Figura se observa que oplano epipolar π é determinado pelos centros das câmeras e pelo ponto espacial X. Para cada intersecção de um plano epipolar com um plano visual temos uma linha epipolar. Como o plano epipolar intersecta ambos planos visuais temos pares de linhas epipolares (l,l′) correspondentes.
Se for conhecida apenas as coordenadasx, pode-se restringir a busca do pontox′ a linha epipolar no plano da imagemI′. O epipoloe′funciona como limite para a busca.
Na Figura 16b temos a visão da linha epipolar em ambos planos, após a retificação das vistasI e I′. As perspectivas são retificadasde forma a ficarem coplanares, desta forma as linhas epipolares para cada par de pontos (x,x′) passam a sercolineares.
Figura 16 – Geometria das linhas epipolares. Alinha de base(baseline) une os centros das câmerasC e C′, sendo que os pontos de intersecção entre ela e os planos de imagens são chamados de epipolos (e,e’). Fonte: Adaptado de Orozco et al. (2017).
Uma vez estabelecidos os pares de linhas epipolares, se busca em l′ o ponto x′ relativo axusando uma função de custo que retorne os pares de pontos com máxima correspondência.
2.2.3 Matrizes de projeção das câmeras
A projeção de uma imagem em um plano visual (Figura 14) depende das carac- terísticas ópticas e físicas da câmera. As relações entre as coordenadas 3D de um pontoX e sua projeção 2D em uma câmera é descrita por uma matriz de transforma- ção chamadamatriz intrínseca(P). Ao multiplicarmos a matriz intrínsecaP pelo vetor que contém as coordenadas espaciais(Xi, Yi, Zi)do pontoXobtemos os valores das coordenadas(xi, yi)na projeção 2D (Equação 7). Na Equação 8 temos os parâmetros da matrizP: A distância focal (fx =fy); o ponto central da imagem (cx, cy); e o valorw que é igual aZi. Se a distância focal for modificada, as coordenadas 2D mudam. Para fins de simplificação a matriz extrínseca será chamada apenas de câmera a partir de agora.
x=P X (7)
xi yi wi
=
fx 0 cx 0 fx cy 0 0 1
Xi
Yi Zi
(8)
Uma projeção estéreo é calculada usando os conjuntos de pares (P,P′) e as coor- denadas espaciaisX conforme a Equação 9.
x=P X
x′ =P′X (9)
Quando os sistemas de coordenadas da câmera e do mundo real não estão usando o mesmo referencial de posição, ou seja, o plano focal de projeção 2D da imagem não está paralelo ao plano da imagem 3D, é necessário realizar o ajuste através de uma transformação geométrica. Isso é feito através damatriz extrínseca que converte as coordenadas do mundo real para o mesmo referencial do sistema de coordenadas da câmera. Essa abordagem não é necessária nesse trabalho.
2.2.4 Estrutura da cena e cálculo de distâncias
A última questão envolve a busca da posição deX no espaço 3D dado os pontos de imagem correspondentesx↔x′e as matrizesP eP′, ou seja, busca a estrutura da cena capturada em termos de posição e distância em relação ao ponto de observação.
O conceito para o cálculo de distâncias envolve triangulação dos pontos conhecidos, lembrando que sempre existe um erro associado, visto que existe ruído na captura.
Antes de se calcular as relações trigonométricas na projeção estéreo é necessário entender o comportamento da captura de um ponto em uma única câmera. Para fins de simplificação na Figura 17 é usada uma câmerapinhole. Observa-se que o ponto tridimensionalXé projetado na posiçãoxi do sensor de captura, equivalente ao ponto xf no plano frontal. A variável f é adistância focalda lente, sendo o deslocamento dexi ef proporcional aXceZc, estabelecendo as relações dadas na Equação 10.
xi f = Xc
Zc ⇒xi = f
ZcXc
yi
f = Yc
Zc ⇒yi =
f ZcYc
(10)
Para que se possa calcular a estrutura da cena por um sistema estéreo a partir
Figura 17 – Relações trigonométricas na projeção de um ponto em uma câmerapinhole. Fonte:
Adaptado de Shapiro; Stockman (2001)
.
dessas relações básicas é necessário realizar a retificação, onde os planos visuais são ajustados de forma a ficarem coplanares. Desta forma, as câmeras ficam em eixos ópticos colineares, tendo apenas deslocamento horizontal entre elas (Figura 18). Uma vez que se encontre o mesmo ponto em ambas imagens (xex′) pode se estimar sua distância.
Figura 18 – Planos visuais retificados, prontos para a triângulação. Fonte: De autoria própria.
Pelas relações trigonométricas da Figura 19 temos a disparidadedentre os pontos xex′ dada pela Equação 11. Uma vez conhecida a disparidade é possível calcular a profundidade pela linha base horizontalb e a distância focal f (Equação 12), ou pela descoberta dos ângulosαeβ determinados pelos valoresxex′ (Equação 13).
d=x−x′ (11)
Figura 19 – Relações trigonométricas em um sistema de captura estéreo retificado. Fonte: De autoria própria.
.
x−x′
b = z−f
z ⇒z = f b
d (12)
b= z
tan(α) + z
tan(β) (13)
Observa-se pela Equação 11 que a profundidade é inversamente proporcional a disparidade.
2.2.5 Mapa de disparidade e mapa de profundidade
O conjunto de disparidades entre todos os pontos das imagens I eI′ (Figura 19) formam omapa de disparidade. Conforme já citado, dado o mapa de disparidade é possível calcular a profundidade de cada ponto através da linha base horizontalbe a distância focal f pela Equação 12, criando uma imagem em tons de cinza chamada mapa de profundidade, onde o valor de intensidade de cada pixel é proporcional a distância (Figura 20). O mapa de disparidade pode ser convertido para uma nuvem de pontos 3D representando a cena.