• Nenhum resultado encontrado

2.4 Conclusão do Capítulo

3.2.2 SLAM Visual com Estrutura a Partir do Movimento (SFM)

construir a geometria 3D do ambiente a partir de imagens captadas deste ambiente que possuem duas dimensões. Basicamente, se o SFM for elaborado de tal forma que a re- construção da cena e a estimação da pose da câmera ocorra de forma simultânea, temos o SLAM visual [Davison et al. 2010]. Assim, a grande maioria dos trabalhos nessa linha se preocupa com essa questão e também com a exigência de realizar essa tarefa em tempo real. Podemos classificar as várias abordagens dessa técnica em dois grandes grupos: as que usam extração e correspondência de características e as que não usam.

Desde o início da década de 90 encontram-se trabalhos que usam extração e corres- pondência de características. São eles: os trabalhos de Tomasi e Kanade (1992), Poelman e Kanade (1997) e Morris e Kanade. (1998). Alguns que usam modelos conhecidos da cena como Huttenlocher e Ullman (1990) ou que usam câmeras com parâmetros conhe- cidos, como o trabalho de Faugeras (1993) entre outros.

Podemos citar também os trabalhos de Davison (2003), Molton et al. (2004) e Davi- son et al. (2007) que abordam o SFM monocular. Konolige e Agrawal (2008) fizeram um trabalho que foge um pouco da linha discutida, mas que pode ser citado. Eles implemen- taram o que chamaram de FrameSLAM e tratam o problema de loops fechados longos. Basicamente usam uma técnica para guardar alguns frames importantes e os usam para fazer comparações e detectar caminhos que já foram percorridos. Então está claro que na literatura existe um vasto número de trabalhos que buscaram solucionar o problema através da extração e correspondência de característica, cada um com suas vantagens e

CAPÍTULO 3. SLAM VISUAL E TRABALHOS RELACIONADOS 25

desvantagens. Porém quando falamos da técnica de estrutura a partir do movimento sem extração e correspondência de características, esse número cai drasticamente.

O trabalho pioneiro foi o de Thrun et al. (2000) que usa máxima verossimilhança e algoritmos conhecido como Expectation-Maximization para comparar medidas. Temos também o trabalho de Jin et al. (2003) que usa, o que ele chamou de: métodos semi-diretos que utilizam apenas a intensidade dos pixels de regiões da imagem e o trabalho de Davison et al. (2004), que usa estrutura a partir do movimento em tempo real e considera a imagem como um conjunto de planos locais usando métodos diretos para estimar o modelo de transformação desses planos. Essa técnica é sensível às mudanças de iluminação, não considera o forte acoplamento entre o movimento da câmera e a estrutura da cena que são estimados separadamente. Podemos falar também do trabalho de Murray e Klein (2008) que implementou o que eles chamaram de SLAM visual baseado em keyframes, onde tratam os movimentos rápidos da câmera e conseguem fazer o tracking usando técnicas diretas, mas deixam bem claro que a técnica é para tracking e não para mapeamento. Davison et al. (2010) fazem um estudo detalhado sobre as técnicas recentes de SLAM visual com estrutura a partir do movimento e comparam o uso de filtros estatísticos com o uso de métodos de otimização para tratar as incertezas.

O SLAM Visual com SFM sem correspondência de características pode ser visto, na maior parte dos trabalhos, como um problema de máxima verossimilhança, onde intensi- dades de pixels são comparados e através de uma otimização procura-se achar os parâme- tros necessários para estimar a pose da câmera e o mapa do ambiente. A vantagem dessa abordagem é evitar os erros de detecção, correspondência e descritores de características, além de tornar o SLAM robusto em situações onde não é possível a extração das mesmas, ou seja, imagens onde não se encontram características salientes. A desvantagem dessa técnica é o pré-requisito de funcionar em tempo real, pois a quantidade de dados a serem processados é grande.

3.3

Conclusão do Capítulo

Nesse capítulo foram apresentadas as duas abordagens principais de SLAM Visual: a baseada em características e a que não usa características, das quais destacamos as vantagens e desvantagens de cada uma.

Também neste capítulo encontra-se um relato sobre os trabalhos existentes na lite- ratura cujo foco é o SLAM Visual onde não há extração de características. Eles foram separados em duas categorias: Os que usam registro direto de imagem e os que usam estrutura a partir do movimento baseada em intensidades. Foi visto que a abordagem escolhida nesse trabalho é muito recente e poussui poucos trabalhos relacionados.

Capítulo 4

Sistema Proposto

Nesse capítulo será apresentado o sistema proposto, onde começaremos com uma visão geral do problema no qual será aplicado o sistema, depois veremos como foi for- mulada a solução para resolver o problema proposto dando ênfase na maneira como foi calculado o erro de reprojeção usado para estimar os parâmetros necessários. O objetivo desse capítulo é apresentar a base teórica do sistema proposto.

4.1

Visão Geral

Dentro das abordagens de SLAM Visual encontram-se várias técnicas que propõem estimar os parâmetros relativos ao mapa e à localização do robô de forma eficiente. A grande maioria delas usa extração e correspondência de características das imagens e funcionam bem apenas quando o robô está inserido em um ambiente onde é possível a extração, descrição (classificação) e correspondências de primitivas geométricas das imagens. Na figura 4.1 retirada de [Aires 2009] está um exemplo desse tipo de ambiente.

Figura 4.1: Ambiente de fácil extração e correspondência de características, onde os pon- tos verdes e vermelhos representam as características extraídas da imagem

CAPÍTULO 4. SISTEMA PROPOSTO 27

Para evitar essa restrição esse trabalho propôs uma abordagem de SLAM Visual onde os parâmetros são estimados sem a extração de primitivas geométricas da imagem, atra- vés, apenas, das comparações entre intensidades das imagens capturadas pelo robô por um um sistema de visão monocular. O sistema deve ser capaz de retornar boas estimativas mesmo quando o robô está inserido em um ambiente onde não há características salientes, como na figura 4.2. A única restrição é que esse ambiente possua regiões planares com texturas não homogêneas.

O sistema foi implementado de tal forma que os métodos de otimização utilizados ficaram desacoplados ao sistema, possibilitando que vários destes fossem utilizados e testados afim de chegar em um bom equilíbrio computacional.

Figura 4.2: Ambiente de difícil extração e correspondência de características

Documentos relacionados