Motivação - Contribuições para a localização e mapeamento em robótica através da identificação

Actualmente, pode dizer-se que a localização visual de robôs é um problema em larga medida resolvido, dada a existência de enquadramentos teóricos (filtros de Bayes, geometria epipolar) e técnicas de extracção de características que suportam vários sistemas bem sucedidos. Este cenário tem justificado a maior ênfase dada pela comunidade científica, nos últimos anos, ao problema de extracção de mapas, o qual é teórica e tecnicamente mais desafiador. No entanto, desde os trabalhos de Jogan et al. (2002) e de Pronobis et al. (2006), que são conhecidas as dificuldades da localização sob diferentes condições de luminosidade. Mais recentemente, Neubert, Sunderhauf e Protzel (2013) observaram que “os ambientes variáveis colocam problemas sérios aos sistemas robóticos actuais que ambicionem uma operacionalidade de longo termo. Os sistemas de reconhecimento de lugares resultam razoavelmente bem em ambientes estáticos ou de dinâmica reduzida, contudo, variações severas de aparência, que ocorram entre o dia e a noite, entre diferentes estações ou diferentes condições atmosféricas, permanecem um desafio”. De facto, a formulação tradicional do problema de localização, do ponto de vista probabilístico, é inadequada nestes casos, já que a premissa de Markov pressupõe ambientes estáticos. Por outro lado, a verificação geométrica pelos constrangimentos da geometria epipolar, embora robusta, é uma medida insuficiente perante variações severas de aparência, devido à forte presença de outliers.

O problema descrito foi recentemente abordado por Churchill e Newman (2012) e Krajnik et al. (2014), que optaram por modelar explicitamente as variações temporais de aparência. Complementar a estes esforços está a necessidade de se desenvolverem representações da aparência mais robustas. Esta é a via seguida na presente tese, que estuda formas de representação e comparação da aparência na perspectiva do poder descritivo que proporcionam. O âmbito deste estudo é o da descrição da aparência por características locais, em particular do tipo SIFT, a qual constitui a abordagem mais popular e bem documentada na literatura relacionada. Subjacente a este trabalho está a ideia de que a representação que tem vindo a ser genericamente aceite para estas características, dentro do modelo BoW, limita o seu poder descritivo. Esta observação foi pela primeira vez feita por Jurie e Triggs (2005) no contexto de características densamente extraídas na imagem. Calculando a distribuição de características numa partição regular do espaço de descritores, os autores verificaram que as características

encontradas em imagens naturais seguem aproximadamente uma distribuição da lei de potência, à semelhança da lei de Zipf para as palavras em documentos de texto. Com base neste dado foi concluído que os centróides resultantes da aglomeração por

k-means se concentram nas áreas mais densas do espaço de descritores. Mais tarde,

Boiman, Shechtman e Irani (2008) aprofundaram a análise das propriedades do modelo BoW, verificando que os erros introduzidos na etapa de quantização de descritores aumentam com a discriminatividade das características. Em suma, as características de maior discriminatividade perdem maior poder descritivo, pelo facto de aquelas regiões do espaço de descritores estarem pouco representadas na distribuição de centróides. O artigo de Boiman, Shechtman e Irani (2008) teve repercussões importantes no seio da comunidade científica, tendo sido desenvolvidas diversas extensões ao classificador Naive Bayes Nearest Neighbour, então proposto, devidas a Lowe (2012), Timofte, Tuytelaars e Van Gool (2013) e Rematas, Fritz e Tuytelaars (2013).

Esta tese explora as conclusões de Jurie e Triggs (2005) e de Boiman, Shechtman e Irani (2008), apresentando um método de localização visual baseada na representação não-quantizada (NQ) das características. A ideia fundamental na base desta proposta é a de que, através da eliminação dos erros de quantização, é possível obter-se repre- sentações de aparência mais discriminativas e, por isso, mais robustas perante variações ambientais severas. A apresentação do método original é acompanhada da comparação das representações quantizada (Q) e NQ no que diz respeito à sua precisão, tempo de comutação e memória utilizada.

Em termos da avaliação de métodos candidatos, o trabalho desenvolvido segue a linha de (Pronobis et al., 2006; Valgren e Lilienthal, 2010; Jianxin e Rehg, 2011) em que a localização é entendida como um problema de classificação – para cada imagem de teste, o localizador deve devolver um lugar do ambiente, apenas com base nessa imagem. Este é o contexto da localização global, em que o robô deve situar-se no ambiente, partindo de informação nula sobre o seu estado.

Nesta tese é também estudado o problema anterior à localização, o da extracção de um mapa do ambiente, em particular na perspectiva da detecção de revisitação. Tal como no tratamento da localização, o trabalho realizado sobre este tema foca-se no desenvolvimento de representações de aparência com precisão e requisitos computacionais mais adequados ao problema. A abordagem adoptada apresenta

51 pontos em comum com os trabalhos de Sunderhauf e Protzel (2011) e de (Liu e Zhang, 2012), onde a detecção de revisitação é baseada em características globais da imagem. À semelhança daqueles trabalhos, neste ponto da tese a análise por características locais será substituída por características globais. Esta mostrar-se-á especialmente adequada para uma categoria de ambientes e é justificada pelo facto de as revisitações realizadas durante o mapeamento estarem normalmente sujeitas a variações na aparência que são menos severas do que aquelas que podem ocorrer em fase de localização.

Relativamente aos dois trabalhos acima citados, esta tese inova pelo uso de uma característica global original, designada LBP-Gist, que combina a análise de texturas pelo método LBP com a codificação da estrutura global da imagem, inerente ao Gist. A característica proposta revelar-se-á mais precisa do que a característica BRIEF- Gist, avançada por Sunderhauf e Protzel (2011), e mais eficiente do que a característica Gist original, aplicada na detecção de revisitação por Liu e Zhang (2012).

No decorrer desta tese foram conduzidas experiências sobre um robô móvel baseado no sistema de motorização RD02 (Robot Electronics, 2014) e implantado no Instituto Superior de Engenharia de Lisboa. Estes ensaios foram úteis na validação de algumas das técnicas estudadas na tese, no entanto, o seu objectivo fundamental foi o de explorar a informação veiculada pelo sensor Kinect, especificamente os dados de profundidade. Verificou-se, contudo, que a dimensão de dados corrompidos que estão presentes no sinal de profundidade, resultantes do desvio de feixes infravermelhos em em superfícies brilhantes ou sob determinadas orientações, torna esta informação menos fiável do que o sinal visual, que será explorado nesta tese. Por esta razão, não foram incluídos na tese resultados respeitantes a estas experiências, optando-se por usar as bases de imagens públicas.

No documento Contribuições para a localização e mapeamento em robótica através da identificação visual de lugares (páginas 51-53)