• Nenhum resultado encontrado

3.3

Geometria Epipolar

Devido à característica projetiva inerentes às câmeras, não é possível recuperar infor- mações de profundidade de pontos visualizados pela câmera utilizando somente uma ima- gem. Entretanto, coordenadas 3D de pontos característicos podem ser recuperadas com informações presentes em mais de uma imagem, assim como o movimento relativo entre as posições de câmera correspondentes a cada uma delas. A recuperação de movimento e estrutura pode ser realizada por meio de duas câmeras que visualizam uma mesma cena simultaneamente, no que se chama de visão estéreo, ou através de duas imagens de uma mesma cena capturadas pelo mesmo sensor de diferentes posições e orientações, no que se chama de estrutura e movimento. Os dois processos descritos somente são possíveis devido à existência de restrições geométricas entre diferentes projeções em imagens de um mesmo ponto 3D presente na cena, sendo estas diferentes projeções alcançadas visua- lizando a mesma cena sob diferentes pontos de vista. A geometria que restringe pontos em duas imagens, chamada de geometria epipolar, pode ser computada para recuperar tanto o movimento relativo entre as duas poses de câmera relacionadas com as imagens quanto a estrutura 3D da cena visualizada. O movimento e estrutura recuperados são determina- dos completamente pelos parâmetros internos da câmera e por correspondências obtidas entre as imagens, independentemente da cena visualizada [Hartley & Zisserman 2004]. Estas correspondências nada mais são do que um conjunto de pares de pontos caracterís- ticos{xi, xi} que relacionam diferentes projeções presentes em duas imagens I e I′de um

mesmo ponto 3D Xi. Neste trabalho, as duas imagens I e I′são obtidas sequencialmente

por uma mesma câmera, à medida em que ela se move visualizando os mesmos pontos característicos, caracterizando assim um sistema monocular que computa movimento e estrutura.

A geometria epipolar restringe duas visualizações de uma mesma cena devido a um fato importante: dado um ponto no mundo Xwe as suas projeções na primeira e segunda

imagens x e x′, sendo estas projeções adquiridas com os centros de projeção de câmeras em C e C, existe um plano chamado plano epipolar que contém todos os pontos su- pracitados. A imagem mostrada na Figura 3.8 ilustra este fato, na qual também pode-se visualizar os epipolos (projeção de um centro de câmera na outra câmera) e e e′e as linhas epipolares ex e ex′.

Matematicamente, as restrições da geometria epipolar estão codificadas em duas im- portantes matrizes: a matriz essencial e a matriz fundamental. Estas duas matrizes podem ser deduzidas geometricamente, como discutido a seguir [Hartley & Zisserman 2004, Trucco & Verri 1998].

O ponto 3D Xworiginalmente referenciado em relação a um sistema de coordenadas

no mundo pode ser referenciado no sistema de coordenadas de duas câmeras que o estão visualizando, sendo X o mesmo ponto em relação ao sistema de coordenadas da primeira câmera e X′ o mesmo ponto referenciado na segunda câmera. Claramente, os dois siste- mas de coordenadas estão relacionados por uma transformação rígida que envolve uma rotação R e uma translação t= (C − C′) entre os centros de projeção, como mostrado na

22 CAPÍTULO 3. FUNDAMENTOS TEÓRICOS X x' x C C' e e' Plano epipolar R,t w

Figura 3.8: Geometria epipolar entre duas visualizações de uma mesma cena. São mos- trados além do plano epipolar, os centros de projeções C e C, o ponto no mundo Xw e

as suas projeções nas duas imagens x e x′. São mostrados também os dois epipolos: a projeção ede C no plano imagem de Ce a projeção e de Cno plano imagem de C. Exemplos de linhas epipolares são exibidas, sendo elas os segmentos ex e ex′ em cada uma das imagens.

X= R(X − t). (3.8)

Utilizando a condição de coplanaridade entre X, t e X− t, pode-se determinar o plano epipolar que passa por Xwcomo

(X − t)tt× X = 0.

Substituindo a Equação 3.8 nesta última igualdade, podemos reescrevê-la como mostrado na Equação 3.9.

(RtX′)tt× X = 0 (3.9) O produto vetorial t× X pode ser obtido utilizando matrizes anti-simétricas [Trucco & Verri 1998], como em t× X = SX, onde S igual a

  0 −tz ty tz 0 −tx −ty tx 0  .

Assim, a Equação 3.9 ganha a forma mostrada na Equação 3.10, com E= RS.

X′tEX= 0 (3.10)

A matriz E de dimensão 3× 3 é denominada matriz essencial, e relaciona pontos referenciados em sistemas de coordenadas de câmera diferentes através dos parâmetros extrínsecos R e t. Sabendo-se que as projeções em coordenadas normalizadas de câmera dos pontos X= [X,Y, Z]t e X= [X,Y, Z]r são dadas por ˜x= [ f

1X/Z, f1Y/Z, f1]t =

3.3. GEOMETRIA EPIPOLAR 23

câmeras, pode-se substituir X e Xna Equação 3.10, e então dividí-la por ZZ′, resultando na Equação 3.11.

˜x′tE ˜x= 0 (3.11)

Como a relação entre coordenadas de imagem em pixels e coordenadas normalizadas de câmera dos pontos é dada por x= K1˜x e x= K2˜x′para ambas as câmeras com matrizes

de calibração K1e K2, então ˜x= K1−1x e ˜x= K2−1x′, já que as matrizes de calibração são

inversíveis [Hartley & Zisserman 2004]. Substituindo ˜x e ˜x′na Equação 3.11, obtém-se a Equação 3.12, explicitando a forma da matriz fundamental F= K2−tEK1−1.

x′tFx= 0 (3.12)

A matriz fundamental F (também de tamanho 3× 3) relaciona pontos x em coordena- das de imagem de uma primeira câmera com pontos correspondentes x′em coordenadas de imagem de uma segunda câmera. Em sistemas monoculares, K1= K2= K, isto é, a

matriz de calibração é a mesma para as duas câmeras e não muda ao longo do tempo. Isto posto, uma vez achada a matriz essencial E (ou a matriz fundamental F), se tivermos conhecimento da matriz de parâmetros intrínsecos K, podemos extrair a rotação R e a translação t, ou seja, a pose relativa[R|t] que relaciona um par de imagens.

3.3.1

Recuperando a Pose Relativa Entre Duas Imagens

A extração dos parâmetros de câmera a partir da matriz essencial E pode ser realizada através de uma simples operação de fatoração [Hartley & Zisserman 2004], com a ressalva de que o vetor de translação t somente poderá ser obtido a menos de um fator de escala.

Supõe-se duas matrizes de projeção normalizadas (com os efeitos da matriz de cali- bração K removidos) Pn e Pn, sendo elas Pn= K−1P= [I|0] e Pn= K−1P= [R|t]. Em

seguida, obtém-se a Decomposição em Valores Singulares da matriz essencial E, digamos pela fatoração U GVt, onde U e Vt são matrizes 3× 3 ortogonais denomindas de matrizes de vetores singulares à esquerda e à direita respectivamente e G é uma matriz diagonal de tamnho 3× 3 contendo em suas entradas os valores singulares. Quatro soluções são passíveis de serem resposta para os parâmetros R e t, sendo elas dadas por:

• Pn= [UWVt| + u3]; • Pn= [UWVt| − u3]; • Pn= [UWtVt| + u3]; • Pn= [UWtVt| − u3]; onde W =   0 −1 0 1 0 0 0 0 1  

24 CAPÍTULO 3. FUNDAMENTOS TEÓRICOS

Apesar de todas as quatro soluções estarem numericamente corretas, a solução real pode ser encontrada analizando-se cada uma das possíveis Pn′. Geometricamente, estas soluções representam uma ambiguidade entre a direção de translação (+u3ou -u3) e entre

a direção em que aponta o eixo principal (rotacionado em torno da linha de base por π radianos, conforme a matriz W ). Este fato é ilustrado na Figura 3.9.

(a) (b)

(c) (d)

Figura 3.9: Diagrama ilustrando os centros de projeções C e Ce o ponto 3D X, de acordo com as quatro possíveis soluções para a extração de R e t a partir da matriz essencial E. Apenas em (a) o ponto X encontra-se “visível” pelas duas câmeras, sendo esta a solução correta.

Todavia, em apenas uma das quatro possíveis combinações estarão “visíveis” (estarão posicionados na frente da câmera) os pontos característicos utilizados no cálculo da matriz E (e consequentemente da matriz F). Portanto, para obter a pose relativa correta dentre as possíveis soluções, realiza-se uma “votação” envolvendo um certo número de corres- pondências entre pontos característicos e todas as quatro possibilidades para P= KPn′, onde K é a matriz de calibração. Nesta votação, obtém-se por triangulação (Seção 3.4) a posição 3D em coordenadas homogêneas X= [X,Y, Z, T ]t que através de uma matriz de

Documentos relacionados