Construção de Mapas - RNAs Aplicadas à Navegação Deliberativa

4.3 RNAs Aplicadas à Navegação Deliberativa

4.3.2 Construção de Mapas

Como visto no Capítulo 3, Seções 3.3.6 e 3.3.7, os dois tipos principais de representações que robôs móveis podem aprender são chamadas métricas e topológicas. Mapas métricos são mapas quantitativos que reproduzem ca- racterísticas geométricas e espaciais do ambiente. As dificuldades desta abor-

dagem se deve ao seu custo computacional e sua vulnerabilidade a erros em medidas dos sensores que acabam afetando as informações métricas. Mapas topológicos são mais qualitativos e consistem de um grafo, onde nós representam lugares distintos em nível de percepção (marcos) e arestas indicam relações espaciais entre eles. A abordagem topológica é menos vulnerável a erros sensórios e habilita um rápido planejamento de caminho que se reduz a um simples processo de busca. Todavia, representações topológicas contam com a existência de marcos sempre reconhecíveis (FILLIAT; MEYER, 2003b). A seguir serão vistos como RNAs podem ser aplicadas ao aprendizado e uti- lização de mapas para navegação deliberativa.

Mapas Globais Geométricos

As abordagens que usam grades de ocupação para construção de mapas são as mais populares. Em (MILLáN, 2003) é mostrado um exemplo onde uma RNA direta foi treinada para criar uma grade de ocupação local, mo- delando o espaço ao redor do robô. Sucessivas grades locais geradas à medida que o robô explora o ambiente são combinadas para produzir um preciso mapa métrico global. A partir do mapa métrico global, um grafo topológico é gerado de maneira off-line, para reduzir o custo do planejamento de caminhos entre diferentes localizações do ambiente. Esta abordagem (em conjunto com os processos de localização discutidos anteriormente) foram implementados em robôs para guiar turistas em museus.

Uma alternativa, apresentada no trabalho de Arleo, Millán e Flore- ano (1999), utiliza a mesma interpretação neural de dados de sensores, mas constrói de maneira on-line um particionamento de resolução variável do am- biente. Ou seja, o ambiente é discretizado em células de tamanhos diferentes, com alta resolução somente em áreas críticas (ao redor de obstáculos). O mapa resultante combina aspectos geométricos e topológicos que são apren- didos simultaneamente.

Já o trabalho de Oliveira (2001) apresenta uma outra alternativa para RNAs aplicadas a representação em grid. O autor utiliza um mapa auto- organizável de Kohonen para criar um mapa geométrico do ambiente através dos pesos da rede. Numa primeira fase de exploração randômica do ambiente, por exemplo Figura 4.7(a), o robô ao encontrar um obstáculo, assume o comportamento de seguir parede, para realizar o contorno do mesmo (SILVA, 2001) e coletar as posições em coordenadas (x,y). Os dados coletados são passados para uma rede de Kohonen cujo treinamento é off-line. Em seguida, o mapa do ambiente é gerado a partir da plotagem dos pesos da rede em um espaço bi-dimensional como mostrado na Figura 4.7(b). Após o treinamento, o robô

(a) (b)

Figura 4.7: Rede de Kohonen como mapa geométrico do ambiente: (a) Robô simulado e seu ambiente. (b) A distribuição de pesos na rede de Kohonen que representa o mapeamento do ambiente em (a). Fonte adaptada de (OLIVEIRA, 2001)

então pode navegar no ambiente consultando o mapa construído, sem neces- sitar da informação dos sensores. Nesta abordagem observa-se uma maneira diferente de aplicação das redes de Kohonen quanto a forma de visualização, que em geral é aplicada à classificação de espaços multi-dimensionais que são visualizados conforme a disposição dos neurônios na camada de saída. Mapas Globais no Domínio de Sensores

Ao invés de uma caracterização do estado do robô na configuração do ambiente e a construção de uma representação global neste domínio, o estado do robô também pode ser dado no domínio de sensor. O domínio de sensor é definido como o conjunto S⊂ Rn_{de todos os vetores de informação sensória} possíveis s= (s1, . . . , sn)T, onde sisão as medidas de sensores (sonar, alcance, visão, etc) do robô ou características derivadas a partir destas medidas, que são obtidas na fase de exploração, enquanto o robô vaga pelo ambiente sem colidir com obstáculo. Sendo assim, esta representação global do ambiente agora consiste de todos os vetores de medida no domínio de sensor. É impor- tante observar que (para ambientes estáticos) a dimensionalidade intrínseca dos dados é igual ao número de graus de liberdade do robô. Desta forma, a representação do ambiente pode ser dada através de um “manifold” de baixa dimensão, bi ou tri-dimensional com relação ao domínio de sensor de alta dimensão.

Figura 4.8: Neurônios vencedores em uma rede de Kohonen tri-dimensional como função de localização no ambiente. Fonte adaptada de (KRöSE; EECEN, 1994).

Por exemplo, no trabalho de Kröse e Eecen (1994), uma rede de Koho- nen é utilizada para aprender uma representação no domínio de sensor do es- paço livre de obstáculos, através da parametrização do manifold. A regra de aprendizado assegura que neurônios vizinhos na rede correspondem à áreas vizinhas no domínio de sensor. Sendo assim, o robô percorre seu ambiente sem colisão em uma fase de exploração, enquanto dados dos sensores são coletados e utilizados para treinar a rede de Kohonen, a qual representa um vetor de quantização do manifold no domínio de sensor. Como ilustrado na Figura 4.8, os autores usaram uma rede de Kohonen tri-dimensional, que relaciona pontos no espaço livre e os neurônios da rede. Sendo assim, esta topologia

produzida pela rede pode ser usada na fase de planejamento subsequente. Dado que a posição do robô também é especificada no domínio de sensor e a tarefa consiste de mover-se na direção de uma configuração cujas medidas de sensores s correspondam as medidas de sensor desejadas s∗, caminhos puderam ser planejados usando as conexões da rede de Kohonen proposta.

Figura 4.9: Exemplo do caminho executado pelo robô veículo controlado a partir do domínio de sensor. Fonte adaptada de (KRöSE; EECEN, 1994).

Segundo Kröse e Eecen (1994), restrições de movimento do robô (não- holonômico) podem tornar impossível a utilização de relações de vizinhança entre neurônios. Desta forma, as conexões da rede de Kohonen são descarta- das logo que a representação no domínio de sensor é formada e novas cone- xões entre os neurônios são formados em uma segunda fase de aprendizado. Cada uma destas conexões representam a probabilidade de que o robô irá “transitar” de um neurônio para o outro para uma dada ação. O planejamento de caminho pode agora ser visto como um problema de decisão de Markov que, neste caso, foi resolvido com sucesso através de programação dinâmica. A Figura 4.9 ilustra o resultado deste tipo de planejamento sendo executado com sucesso para estacionamento de um robô móvel. O estado objetivo (no domínio de sensor) corresponde à posição base-esquerda com a frente do robô voltada para o canto base-esquerdo. Para este estado objetivo, é computada de forma iterativa uma função de custo e a navegação torna-se uma política gulosa sobre esta função de custo.

Mapas Topológicos

Segundo Kröse e van Dam (1997), abordagens de representação do ambiente no domínio de sensor podem ser consideradas como abordagens to- pológicas porque ambas constroem uma representação do ambiente a partir do aprendizado local de marcos perceptíveis. Esta representação corresponde a um grafo onde cada nó representa um marco pré-definido. Representa- ções espaciais entre marcos são codificadas por ligações entre nós vizinhos no grafo, produzindo uma estrutura isomórfica da topologia do ambiente. O tratamento de ambiguidades entre padrões sensórios similares pode ser feito por discriminação contextual ou pela adição de informação métrica.

Como visto anteriormente, mapas auto-organizáveis ou de Kohonen são uma maneira alternativa para construir mapas topológicos, outros exem- plos de abordagens são apresentadas em (KURZ, 1996;ZIMMER, 1996). Mas ao invés de usar um mapa auto-organizável com uma estrutura fixa (dimensionalidade ou número de unidades), também é possível aprender o mapa topoló- gico do ambiente por meio de um mapa auto-organizável dinâmico (MILLáN, 1997; ZIMMER, 1996). Este método adiciona uma nova unidade se a per- cepção sensória corrente é diferente o suficiente de qualquer outra unidade existente. Neste tipo de rede a topologia do ambiente se dá pelas ligações entre suas unidades. A Teoria da Ressonância Adaptativa (redes ART) pode produzir quantizações do ambiente similar a um mapa auto-organizável dinâ- mico, mas o mapa resultante não exibe relacionamentos topológicos entre as unidades.

Buscando uma maior robustez, flexibilidade e adaptabilidade, mui- tas pesquisas em navegação de robôs autônomos tem se inspirado em des- cobertas neurofisiológicas que deram origem por exemplo à teoria dos mapas cognitivos e à hipótese de que a memória espacial de mamíferos é for- mada por neurônios sensíveis à localização (place cells) presentes no hipo- campo.Métodos de aprendizado em tempo de operação são bastante utilizados nas propostas biologicamente inspiradas, tais como o trabalho de Arleo e Gerstner (2000), onde é proposto um modelo do hipocampo, que através do aprendizado Hebbiano não supervisionado, se obtém um mapa espacial do ambiente de maneira incremental e on-line.

Já a Figura 4.10 (a) apresenta o sistema de navegação proposto por Schölkopf e Mallot (1995) que consiste de uma abordagem de rede neural para aprendizado de mapa cognitivo de um labirinto hexagonal [Figura 4.10(b)], a partir de uma sequência de perspectivas e decisões de movimento. O processo de aprendizado se baseia em uma representação intermediária chamada grafo de perspectiva [Figura 4.10(c)], cujos nós correspondem às

ambiente mapa cognitivo sistema navegação percepção e ação mapa comportamento visão seqüência labirinto (a) (b) (c)

Figura 4.10: Aprendizado de mapa cognitivo de Schölkopf e Mallot (1995). (a) Ciclo percepção-ação do sistema de navegação. (b) Esquema do labirinto hexagonal com 7 lugares pi(i= 1, . . . , 7) e 12 perspectivas vj( j= 1, . . . , 12). (c) Grafo dirigido de lugares do labirinto com corredores cjcorrespondendo às perspectivas vj. Fonte adaptada de Mallot et al. (1995).

perspectivas e as arestas representam os movimentos que levam de uma perspectiva a outra. Através de um método teórico de reconstrução de grafos, o grafo de perspectiva provê uma informação completa sobre a estrutura to- pológica e direcional do labirinto. Planejamento de caminho pode ser executado diretamente no grafo de perspectiva não sendo necessária executar a reconstrução do grafo. A rede neural é implementada para aprender o grafo de perspectiva durante a exploração randômica do labirinto. O treinamento da rede neural se baseia em uma regra de aprendizado competitivo e não su-

pervisionado que traduz sequências de perspectivas temporais (ao invés de similares) em conectividade na rede. Como consequência, a rede utiliza o co- nhecimento da estrutura topológica e direcional do labirinto aprendida, para gerar suposições sobre quais as perspectivas seguintes que são mais prováveis de serem encontradas, melhorando assim o desempenho de reconhecimento das perspectivas do labirinto.

O trabalho de Hafner (2005) originalmente inspirou-se no algoritmo de mapeamento cognitivo anterior, (MALLOT et al., 1995), mas estendeu a res- trição de labirintos para ambientes abertos e reais onde movimentos arbitrá- rios são possíveis. A abordagem proposta apresenta um modelo de mapa cognitivo que cria uma representação espacial interna do ambiente. O mo- delo é inspirado por células lugar (place cells) presentes no hipocampo de ratos e reproduzindo algumas propriedades destas células quanto à forma e ao tamanho dos (place fields). As células lugar são representadas como nós de um grafo topológico e o algoritmo resulta em um mapa topológico esparso que pode facilmente ser estendido para informação métrica.

No documento Arquitetura neural cognitiva para controle inteligente de robôs móveis em labirintos dinâmicos (páginas 84-91)