Representações da aparência - Contribuições para a localização e mapeamento em robótica através

1.3.1 Representação por características locais

Os progressos realizados sobre a extracção de características locais, noutros domínios da visão computacional, têm sido genericamente integrados em sistemas de loca- lização. Em 2001, o autor da característica SIFT apresentou a sua utilização num sistema de localização, mas a estratégia desenvolvida era do tipo métrica (Se, Lowe e Little, 2001). Posteriormente, Kosecka e Fayin (2004) realizaram localização sobre mapas topológicos, usando conjuntos de descritores SIFT como representação da aparência. Nessa abordagem, mais tarde adoptada também em (Goedemé et al., 2007; Andreasson, Duckett e Lilienthal, 2008; Valgren e Lilienthal, 2010), a comparação entre duas imagens passa pela comparação de todos os pares de descritores retirados de uma e de outra, por forma a encontrar correspondências. O número de corres- pondências é usado como medida de semelhança entre imagens, por vezes com modificações informadas por dados geométricos (Goedemé et al., 2007).

Com a introdução do modelo BoW, este paradigma passou a dominar as repre- sentações baseadas em características locais. O primeiro trabalho reportado que faz uso deste modelo foi apresentado por Wang, Cipolla e Zha (2005). Nesse estudo, tal como noutros que se seguiram, existe uma fase inicial em que o ambiente é modelado e é construído o vocabulário visual. Nessa fase, são recolhidas imagens do ambiente onde o robô se irá movimentar e extraídas as características locais de cada uma. Estas passam de seguida pelo processo aglomeração k-means, resultando num conjunto de descritores que constitui o vocabulário. Este vocabulário é usado na quantização de descritores SIFT, permitindo a representação da aparência de forma compacta, através dos histogramas da ocorrência de palavras visuais. Adicionalmente, em (Wang, Cipolla e Zha, 2005) estes vectores são modificados para a forma tf-idf (term

Tendo em vista a aplicação do modelo BoW em ambientes de dimensão elevada, Fraundorfer, Engels e Nister (2007), exploraram uma técnica usada na pesquisa rápida de documentos de texto, baseada em ficheiros invertidos. Segundo esta técnica, para cada palavra visual é mantida uma lista das imagens onde ela ocorreu. Na fase de pesquisa, são extraídas as palavras visuais da imagem de teste e as listas são usadas para encontrar as imagens do modelo onde elas existem. Desta forma, obtém-se um conjunto reduzido de imagens que serão testadas pela comparação de histogramas ou por verificação geométrica.

A introdução de descritores alternativos ao SIFT reflectiu-se também na robótica móvel, existindo sistemas que recorreram ao descritor SURF (Valgren e Lilienthal, 2010; Cummins e Newman, 2008) e ao descritor BRIEF (Galvez-López e Tardós, 2012). Uma prática que tem vindo a ser adoptada nestas soluções é a eliminação da invariância à rotação das características. As vantagens desta abordagem, pela primeira vez identificadas por Williams e Ledwich (2004), são o menor número de carac- terísticas extraídas e a eliminação do ruído devido à estimação incorrecta da orientação. A etapa de detecção de regiões de interesse foi também estudada no contexto da robótica móvel, por Ramisa et al. (2009). Naquele trabalho, verificou-se que o detector Harris-Affine apresenta os melhores resultados num problema de localização e que a combinação de diferentes detectores, naquele caso Harris-Affine, Hessian Affine e MSER, é a estratégia que oferece maior robustez.

1.3.2 Representação por características globais

O trabalho de Ulrich e Nourbakhsh (2000) foi um marco na localização por características globais, na medida em que representou, pela primeira vez, a aparência na forma de uma estatística da imagem. Naquela investigação usaram-se carac- terísticas de cor retiradas de imagens omnidireccionais e mostrou-se que, mesmo recorrendo a características muito simples e sem aplicar uma análise geométrica, é possível usar informação visual para localizar um robô. Por forma a obter a descrição da aparência, os valores de cor foram projectados nos espaços HLS e RGB de onde se extraíram histogramas independentes para cada um dos canais. Como representação da assinatura visual foi usado o conjunto dos seis histogramas assim obtidos.

Devido à sua simplicidade e poder descritivo, a caracterização da aparência por histogramas de cor foi mais tarde aplicada em estudos de localização (Blaer e Allen,

39 2002) e em trabalhos que estendem o âmbito do problema à extracção de mapas topológicos (Werner, Sitte e Maire, 2007; Werner, Maire e Sitte, 2009).

A associação de imagens panorâmicas ou omnidireccionais a características globais, mencionada por Ulrich e Nourbakhsh (2000), foi frequentemente adoptada por outros autores. Esta opção  que pode ser explicada pelo facto de estas imagens serem mais informativas sobre os lugares, permitindo assim o uso de características com discriminatividade inferior  levou ao desenvolvimento de métodos específicos para visão omnidireccional. Em (Ishiguro et al., 2003), as imagens omnidireccionais são em primeiro lugar transformadas para o formato panorâmico e, posteriormente, é aplicada a transformada de Fourier unidimensional sobre as linhas destas imagens. Notando que a rotação do robô se manifesta em translações nas imagens panorâmicas, e que o espectro de Fourier não contém informação sobre a localização da ocorrência das frequências, os autores concluem que este espectro constitui uma representação invariante à rotação. Sobre esta propriedade, é proposto um descritor para estas imagens, a assinatura de Fourier, constituída pelos primeiros 15 coeficientes do espectro, que tipicamente contêm as amplitudes mais elevadas. A mesma estratégia é usada, numa versão mais simples, por Ranganathan e Dellaert (2005) e Gerstmayr- Hillen et al. (2011). Em (Gerstmayr-Hillen et al., 2011), para além da assinatura de Fourier, são usados histogramas de níveis de cinzento, os 4 primeiros momentos estatísticos da imagem (média, variância, assimetria e curtose) e uma medida do centro de massas da imagem. No sistema RatSlam, de Milford e Wyeth (2010), é igualmente usada a transformada de Fourier sobre as linhas de imagens panorâmicas, reservando-se os coeficientes da partes real e imaginária como descritor da imagem. Estes valores são usados posteriormente para comparar imagens através da sua correlação.

A característica Gist, tendo sido desenhada para modelar a percepção visual de espaços, constituiu uma escolha natural para o desenvolvimento de sistemas de localização. Nalguns trabalhos esta característica foi usada na sua forma original mas, ocasionalmente, foram feitas adaptações ao problema em estudo. Murillo e Kosecka (2009) introduziram o conceito de panoramas Gist, a adaptação daquela característica a imagens panorâmicas. Na solução proposta, o panorama é dividido em quatro imagens e o descritor standard é calculado para cada uma delas. Uma representação mais compacta da aparência é obtida pela quantização de cada um dos descritores, o

que resulta num descritor final composto por apenas quatro índices. A invariância à rotação é conseguida na fase de pesquisa, em que são testadas quatro translações dos índices por forma a identificar o melhor alinhamento.

Schubert et al. (2007) inspiraram-se também na característica Gist, mas substituíram os filtros de Gabor por filtros mais simples, de arestas e cantos. Na construção do descritor aplicaram uma divisão diferente da imagem e mediram a energia e curtose das respostas de cada filtro. Kai et al. (2008) combinaram o Gist com o conceito de epítome (Jojic, Frey e Kannan, 2003), com vista a obter uma característica com maior invariância à translação e escala, em imagens de perspectiva. A preocupação sub- jacente à modificação de Sunderhauf e Protzel (2011) foi a de criar uma versão do Gist de extracção mais rápida, tendo para isso substituído os filtros de Gabor pelo descritor BRIEF, que foi aplicado em cada divisão da imagem.

No documento Contribuições para a localização e mapeamento em robótica através da identificação visual de lugares (páginas 39-42)