• Nenhum resultado encontrado

1.3.1 Representação por características locais

Os progressos realizados sobre a extracção de características locais, noutros domínios da visão computacional, têm sido genericamente integrados em sistemas de loca- lização. Em 2001, o autor da característica SIFT apresentou a sua utilização num sistema de localização, mas a estratégia desenvolvida era do tipo métrica (Se, Lowe e Little, 2001). Posteriormente, Kosecka e Fayin (2004) realizaram localização sobre mapas topológicos, usando conjuntos de descritores SIFT como representação da aparência. Nessa abordagem, mais tarde adoptada também em (Goedemé et al., 2007; Andreasson, Duckett e Lilienthal, 2008; Valgren e Lilienthal, 2010), a comparação entre duas imagens passa pela comparação de todos os pares de descritores retirados de uma e de outra, por forma a encontrar correspondências. O número de corres- pondências é usado como medida de semelhança entre imagens, por vezes com modificações informadas por dados geométricos (Goedemé et al., 2007).

Com a introdução do modelo BoW, este paradigma passou a dominar as repre- sentações baseadas em características locais. O primeiro trabalho reportado que faz uso deste modelo foi apresentado por Wang, Cipolla e Zha (2005). Nesse estudo, tal como noutros que se seguiram, existe uma fase inicial em que o ambiente é modelado e é construído o vocabulário visual. Nessa fase, são recolhidas imagens do ambiente onde o robô se irá movimentar e extraídas as características locais de cada uma. Estas passam de seguida pelo processo aglomeração k-means, resultando num conjunto de descritores que constitui o vocabulário. Este vocabulário é usado na quantização de descritores SIFT, permitindo a representação da aparência de forma compacta, através dos histogramas da ocorrência de palavras visuais. Adicionalmente, em (Wang, Cipolla e Zha, 2005) estes vectores são modificados para a forma tf-idf (term

Tendo em vista a aplicação do modelo BoW em ambientes de dimensão elevada, Fraundorfer, Engels e Nister (2007), exploraram uma técnica usada na pesquisa rápida de documentos de texto, baseada em ficheiros invertidos. Segundo esta técnica, para cada palavra visual é mantida uma lista das imagens onde ela ocorreu. Na fase de pesquisa, são extraídas as palavras visuais da imagem de teste e as listas são usadas para encontrar as imagens do modelo onde elas existem. Desta forma, obtém-se um conjunto reduzido de imagens que serão testadas pela comparação de histogramas ou por verificação geométrica.

A introdução de descritores alternativos ao SIFT reflectiu-se também na robótica móvel, existindo sistemas que recorreram ao descritor SURF (Valgren e Lilienthal, 2010; Cummins e Newman, 2008) e ao descritor BRIEF (Galvez-López e Tardós, 2012). Uma prática que tem vindo a ser adoptada nestas soluções é a eliminação da invariância à rotação das características. As vantagens desta abordagem, pela primeira vez identificadas por Williams e Ledwich (2004), são o menor número de carac- terísticas extraídas e a eliminação do ruído devido à estimação incorrecta da orientação. A etapa de detecção de regiões de interesse foi também estudada no contexto da robótica móvel, por Ramisa et al. (2009). Naquele trabalho, verificou-se que o detector Harris-Affine apresenta os melhores resultados num problema de localização e que a combinação de diferentes detectores, naquele caso Harris-Affine, Hessian Affine e MSER, é a estratégia que oferece maior robustez.

1.3.2 Representação por características globais

O trabalho de Ulrich e Nourbakhsh (2000) foi um marco na localização por características globais, na medida em que representou, pela primeira vez, a aparência na forma de uma estatística da imagem. Naquela investigação usaram-se carac- terísticas de cor retiradas de imagens omnidireccionais e mostrou-se que, mesmo recorrendo a características muito simples e sem aplicar uma análise geométrica, é possível usar informação visual para localizar um robô. Por forma a obter a descrição da aparência, os valores de cor foram projectados nos espaços HLS e RGB de onde se extraíram histogramas independentes para cada um dos canais. Como representação da assinatura visual foi usado o conjunto dos seis histogramas assim obtidos.

Devido à sua simplicidade e poder descritivo, a caracterização da aparência por histogramas de cor foi mais tarde aplicada em estudos de localização (Blaer e Allen,

39 2002) e em trabalhos que estendem o âmbito do problema à extracção de mapas topológicos (Werner, Sitte e Maire, 2007; Werner, Maire e Sitte, 2009).

A associação de imagens panorâmicas ou omnidireccionais a características globais, mencionada por Ulrich e Nourbakhsh (2000), foi frequentemente adoptada por outros autores. Esta opção  que pode ser explicada pelo facto de estas imagens serem mais informativas sobre os lugares, permitindo assim o uso de características com discriminatividade inferior  levou ao desenvolvimento de métodos específicos para visão omnidireccional. Em (Ishiguro et al., 2003), as imagens omnidireccionais são em primeiro lugar transformadas para o formato panorâmico e, posteriormente, é aplicada a transformada de Fourier unidimensional sobre as linhas destas imagens. Notando que a rotação do robô se manifesta em translações nas imagens panorâmicas, e que o espectro de Fourier não contém informação sobre a localização da ocorrência das frequências, os autores concluem que este espectro constitui uma representação invariante à rotação. Sobre esta propriedade, é proposto um descritor para estas imagens, a assinatura de Fourier, constituída pelos primeiros 15 coeficientes do espectro, que tipicamente contêm as amplitudes mais elevadas. A mesma estratégia é usada, numa versão mais simples, por Ranganathan e Dellaert (2005) e Gerstmayr- Hillen et al. (2011). Em (Gerstmayr-Hillen et al., 2011), para além da assinatura de Fourier, são usados histogramas de níveis de cinzento, os 4 primeiros momentos estatísticos da imagem (média, variância, assimetria e curtose) e uma medida do centro de massas da imagem. No sistema RatSlam, de Milford e Wyeth (2010), é igualmente usada a transformada de Fourier sobre as linhas de imagens panorâmicas, reservando-se os coeficientes da partes real e imaginária como descritor da imagem. Estes valores são usados posteriormente para comparar imagens através da sua correlação.

A característica Gist, tendo sido desenhada para modelar a percepção visual de espaços, constituiu uma escolha natural para o desenvolvimento de sistemas de localização. Nalguns trabalhos esta característica foi usada na sua forma original mas, ocasionalmente, foram feitas adaptações ao problema em estudo. Murillo e Kosecka (2009) introduziram o conceito de panoramas Gist, a adaptação daquela característica a imagens panorâmicas. Na solução proposta, o panorama é dividido em quatro imagens e o descritor standard é calculado para cada uma delas. Uma representação mais compacta da aparência é obtida pela quantização de cada um dos descritores, o

que resulta num descritor final composto por apenas quatro índices. A invariância à rotação é conseguida na fase de pesquisa, em que são testadas quatro translações dos índices por forma a identificar o melhor alinhamento.

Schubert et al. (2007) inspiraram-se também na característica Gist, mas substituíram os filtros de Gabor por filtros mais simples, de arestas e cantos. Na construção do descritor aplicaram uma divisão diferente da imagem e mediram a energia e curtose das respostas de cada filtro. Kai et al. (2008) combinaram o Gist com o conceito de epítome (Jojic, Frey e Kannan, 2003), com vista a obter uma característica com maior invariância à translação e escala, em imagens de perspectiva. A preocupação sub- jacente à modificação de Sunderhauf e Protzel (2011) foi a de criar uma versão do Gist de extracção mais rápida, tendo para isso substituído os filtros de Gabor pelo descritor BRIEF, que foi aplicado em cada divisão da imagem.

Documentos relacionados