Correspondências Entre Pontos (Matching)

2.5 Estimativa de Movimento

2.5.3 Correspondências Entre Pontos (Matching)

A detecção de correspondência em técnicas baseadas em características é essencial. Quando uma imagem é obtida, encontram-se pontos de interesse, ou seja, pontos com características fortes que, provavelmente, serão encontrados na imagem consecutiva.

Visando a localização robótica, resolver o problema de correspondência de um modo preciso e seguro é fundamental. Existem diferentes alternativas para resolver este problema, como mostrado abaixo:

• Técnicas Baseadas em Intensidade

• Técnicas Baseadas em Análise de Textura

• Técnicas Baseadas em Fluxo Ótico

• Técnicas Baseadas em Descritores Locais

Para estabelecer correspondências entre as imagens, é considerado, freqüentemente, que pixeis correspondentes têm um valor de intensidade semelhante. Porém, existem diversos pixeis de valores de intensidade idênticos em uma imagem. A solução então é considerar os pixeis vizinhos ao ponto na imagem, definindo uma janela. Logo, a cor- respondência entre pontos é determinada utilizando uma medida de semelhança, que é aplicada em janelas ao redor dos pontos de interesse da imagem.

Uma medida de semelhança muito utilizada é o CS [Giachetti, 2000]. Esta medida de correlação, normalmente, é computada utilizando valores de intensidade da imagem.

Porém, se forem utilizadas imagens coloridas, essa medida de correlação produz melhores resultados utilizando a banda azul da imagem em ambiente subaquático [Garcia, 2001], isto se deve ao fato da variação das propriedades ópticas de diferentes corpos dentro da água, ou seja, da interação da água com o meio.

Para a obtenção do CS de cada ponto, é necessário considerar uma janela nxn pixeis, ou seja, uma vizinhança em torno do ponto m e do ponto m0 na imagem consecutiva. Este cálculo pode consumir muito tempo de processamento, dependendo do número de pontos de interesse detectados, logo a janela considera apenas alguns pixeis a cada q existentes, gerando uma janela de correlação efetiva de m × m pixeis, sendo m = ((n − 1)/q) + 1. A figura 2.18 mostra uma janela de 17×17 pixeis, à direita, enquanto à esquerda, considera-se a janela efetivamente utilizada com q = 4. A precisão dessa janela reduzida é praticamente a mesma da janela completa [Giachetti, 2000].

Figura 2.18: Janela de correlação do CS.

Considerando ponto m e o ponto m0 na imagem consecutiva, com coordenadas (x, y) e (x0, y0), respectivamente, I e I0, duas imagens consecutivas, o CS pode ser calculado conforme equação 2.40 [Zhang et al., 1995], considerando α = ((n−1)q)₂ e sendo I(x, y) a média da janela de correlação, conforme equação 2.38, e σ2(I) a variância da janela de correlação, conforme equação 2.39.

I(x, y) = Pα i=−α Pα j=−αI(x + i ∗ q, y + j ∗ q) 2 α2 (2.38)

σ2(I) = Pα i=−α Pα j=−αI(x + i ∗ q, y + j ∗ q)2 α2 − I(x, y) 2 (2.39) CS(m, m0) = Pα i=−α Pα

j=−α(I(x + iq, y + jq) − I(x, y))(I

(x0 + iq, y0 + jq) − I0(x0, y0)) α2pσ2_(I)σ2_(I0

)

(2.40) Os valores de CS estão em um intervalo [−1, 1], no qual −1 significa nenhuma similaridade e 1 significa que as vizinhanças dos dois pontos são idênticas. Garcia propõe valores maiores que 0.7 sejam considerados como valores válidos [Garcia, 2001], já em outra abordagem, propõem-se a utilização de 0.8, ou seja, uma semelhança superior a 90% [Neves, 2006].

As técnicas baseadas em análise de textura para a determinação de cor- respondência entre pontos são muito utilizadas [Garcia, 2001], diversos ope- rados de textura são citados na bibliografia, como Co-ocurrence Matrix [S. Aksoy and Haralick, 1998], Energy Filter [Randen and Husoy, 1999], Lo- cal Binary Pattern [He and Wang, 1991][Ojala et al., 1996], Contrast Features [Ojala and Pietikäinen, 1997], Symmetric Covariances [Harwood et al., 1995], entre outros. A partir desses operadores, vetores de caracterização de pontos de interesse são gerados. Esses vetores são utilizados para permitir a correlação entre pontos, para isso são utilizadas medidas de similaridade, como distância média, desvio padrão e distância euclidiana, embora existam diversas outras [Garcia, 2001]. Sendo v = [v1, v2, ..., vn]

o vetor de caracterização do ponto m e v0 = [v0₁, v₂0, ..., v_n0] o vetor de caracterização do ponto m0, com n = l timesl definindo o tamanho do vetor de caracterização, com valores típicos de l de 7, 9 ou 11 [Garcia, 2001], as equações abaixo que mostram como determinar essas medidas de similaridade.

• (Distância Média -) Sendo µ = Pni=1vi

n a média dos valores armazenados no vetor de

caracterização, é obtida a medida de similaridade dn,mdada pela equação 2.41, sendo

µ a distância média da imagem I e µ0 a distância média da imagem consecutiva I0.

dn,m = |µn,m − µ

• (Desvio Padrão -) Sendo σ = + q

i=1 (vi−µ)2

n o desvio padrão dos valores armazena-

dos no vetor de caracterização, é obtida a medida de similaridade dn,m pela equação

2.42.

dn,m = |σn,m − σ

n,m| (2.42)

• (Distância Euclidiana -) A medida de similaridade d(v, v0) é dada pela equação 2.43.

d(v, v0) = v u u t n X i=1 (vi− vi 0 )2 _(2.43)

Uma abordagem diferente é a adotada pelo KLT [Tomasi and Kanade, 1991], no qual não se busca pontos em duas imagens consecutivas e, posteriormente, se faz a correlação entre pontos. Nessa abordagem, faz-se um tracking das características baseado no modelo do fluxo ótico, o critério de similaridade para localização de pontos correlatos é baseado no método de Newton para minimização da soma das diferenças quadráticas(SSD) dentro de uma janela de busca ao redor da posição da característica(ponto de interesse) buscada na próxima imagem, assumindo um modelo de movimento translacional entre imagens subseqüentes.

Shi e Tomasi [Shi and Tomasi, 1994] estenderam o algoritmo considerando também deslocamentos mais complexos, utilizando um modelo de movimento afim. A qualidade das características rastreadas é monitorada, visando identificar erros acumulados do rastreamento.

Enquanto o modelo translacional é mais adequado para rastreamento entre quadros adjacentes, o modelo afim deve ser utilizado para rastreamento entre quadros distantes.

Para se determinar o movimento da imagens, o método KLT utiliza a seguinte abordagem, considerando I(x, y, t) a imagem no tempo t, δ = (ξ, η) representando o deslocamento do ponto (x, y) na imagem e τ o intervalo de tempo entre cada imagem, é obtida a equação 2.44, que representa o deslocamento sofrido pela imagem com o passar do tempo, porém mesmo em ambientes controlados, a propriedade descrita pode não ser válida em muitas situações. Nas bordas, os pontos podem sair e voltar a imagem, por exemplo. Além disso, os pontos podem sofrer variações de iluminação, que influenciam na intensidade.

I(x, y, t + τ ) = I(x + ξ, y + η, t) (2.44)

Para o modelo afim é definido δ = Dx + d, enquanto para o movimento translacional, que tem D = 0, δ = d, onde d é a translação do centro da janela e D é a matriz de deformação [Shi and Tomasi, 1994].

Considerando J (x) = I(x, y, t + τ ) e I(x − δ) = I(x + ξ, y + η, t), pode ser obtida a equação 2.45, sendo que n(x) é a função que modela o ruído, para uma melhor aproximação da realidade [Shi and Tomasi, 1994].

J (x) = I(x − δ) + n(x) (2.45)

A função d é obtida através da minimização da equação 2.46, que representa o erro residual, sendo definida através de uma integral dupla sobre uma janela W , sendo w(x) a função peso, definida usualmente por uma gaussiana ou, simplesmente, por uma con- stante 1 [Tomasi and Kanade, 1991]. O resultado da minimização é definido por Gd = e, considerando g = (∂I_∂x,∂I_∂y), obtêm-se a equação 2.47 para pequenos deslocamentos, para maiores detalhes[Tomasi and Kanade, 1991][Shi and Tomasi, 1994].

= Z Z W [I(x − δ) − J (x)]2w(x)dx (2.46) G = Z W ggTw(x)dA = Z W (I(x) − J (x))gw(x)dA (2.47)

Uma abordagem piramidal pode ser utilizado para dar maior robustez, assim o método apresentado acima é aplicado a cada nível da pirâmide construída a partir da imagem original, produzindo novas imagens em diferentes escalas. O deslocamento total é dado pela soma dos deslocamentos estimados em cada nível. Esta abordagem é adequada quando o deslocamento entre correspondências for maior que três pixeis.

Outra maneira de se trabalhar com correspondência de imagens é a utilização de descritores locais para se representar pontos de interesse. Descritores são vetores de características de uma imagem ou de determinadas regiões de uma imagem que podem ser

usados para compararem-se regiões em imagens diferentes. Este vetor de características é, normalmente, formado por descritores locais ou globais. Descritores locais computados em pontos de interesse provaram ser bem sucedidos em aplicações como correspondência e reconhecimento de imagens [Mikolajczyk and Schmid, 2005]. Descritores são distintos, robustos à oclusão e não requerem segmentação.

O mais simples descritor é um vetor com as intensidades dos pixels da imagem. Porém existem diversas técnicas para a obtenção de descritores [Mikolajczyk and Schmid, 2005], embora, neste trabalho, exista um especial interesse no descritor proposto por Lowe no SIFT [Lowe, 2004].

Para encontrarem-se correspondências entre duas imagens, conhecendo-se os descritores, é necessário localizar os melhores candidatos a serem seus equivalentes na outra imagem. Isto é feito procurando-se o vizinho mais próximo ou nearest neighbor do descritor do ponto entre todos os possíveis candidatos. Quando se procura classificar um ponto em um extenso banco de dados de descritores para vários objetos, a busca exaustiva do vizinho mais próximo pode ser demorada, assim Lowe propõe o uso de uma variação do K-D Tree [Friedman et al., 1977], o BBF [Beis and Lowe, 1997] para acelerar a busca [Lowe, 2004].

Para determinar-se o vizinho mais próximo, é utilizada a mínima distância euclidiana entre os descritores do SIFT. Porém, nem sempre o vizinho mais próximo é o ponto procurado, assim é necessária a utilização da distância euclidiana com o segundo vizinho mais próximo, sendo excluídas correlações que tem a razão entre o vizinho mais próximo e o segundo maior que um determinado limiar, Lowe propõe 0.8, removendo assim 90% de falsos verdadeiros(outliers) e apenas 5% de correlações corretas [Lowe, 2004].

No documento Robótica Subaquática: Uma Abordagem Baseada em Visão Computacional Aplicada a SLAM (páginas 51-56)