• Nenhum resultado encontrado

6.6 Trabalhos Relacionados

6.6.3 Mapa Cognitivo Com Resolução Variável

Arleo, Millán e Floreano (1999) também desenvolveram um sistema de navegação em ambientes internos para robôs reais. A abordagem dos au- tores assemelha-se à navegação em labirintos pelo fato das fronteiras dos obs- táculos serem sempre paralelas aos eixos x e y e pelo fato do robô executar apenas trajetórias retas, e não usar visão. O modelo proposto pelos autores

consiste de um método de aprendizado adaptativo (incremental e on-line) de mapas cognitivos, onde a modelagem do ambiente incorpora ambas represen- tações geométrica e topológica. O mapa topológico é gerado a partir de um particionamento variável de representação geométrica, construída de forma compacta, através da utilização de uma rede neural feed forward no nível reativo, que interpreta a informação sensória. Caminhos ótimos são determi- nados pelo nível planejador da arquitetura, através do mapa topológico.

(a) (b) (c) (d)

Figura 6.14: Resultados experimentais da abordagem de Arleo, Millán e Flo- reano (1999). (a) O ambiente usado e o robô Khepera dentro dele. (b) O particionamento de resolução variável aprendido. (c) O grafo topológico cor- respondente ao mapa em (b). (d) A trajetória do robô para ir de START até GOAL. Adaptado de (ARLEO; MILLáN; FLOREANO, 1999)

Deste modo, a arquitetura modular de Arleo, Millán e Floreano (1999) resulta em um método de aprendizado de mapa geométrico e topológico de um ambiente fechado, possuindo apenas obstáculos ortogonais, como o caso da Figura 6.14(a). Em um processo cíclico, onde predominam os comporta- mentos de exploração e atualização de ambos os mapas, o robô está continua- mente explorando o ambiente, dirigido pelo conhecimento adquirido. O robô somente interrompe a exploração para incorporar obstáculos desconhecidos ao modelo e atualizar a resolução do particionamento do mapa geométrico. A arquitetura modular proposta pelos autores é composta por cinco módu- los principais. O primeiro módulo, que constitui o nível reativo, interpreta dados sensórios através de uma rede neural feed forward. Esta rede produz um grid de ocupação local, para identificar a fronteira do obstáculo e fazer o robô se alinhar a ela. O segundo módulo faz o robô seguir as arestas do obstáculo encontrado até completar seu perímetro. O terceiro módulo atu-

aliza o particionamento do mapa geométrico, incrementando sua resolução. O quarto módulo, responsável pela exploração, faz com que o robô sempre explore o ambiente para melhorar seu mapa geométrico corrente. Dado um particionamento corrente, este módulo seleciona como partição alvo uma re- gião do ambiente menos conhecida. O quinto e último módulo é responsável pelo planejamento e ação, e funciona da maneira a seguir. Após a atuali- zação da resolução de um particionamento corrente, uma memória de longo termo armazena relacionamentos espaciais entre partições, para derivar um grafo topológico utilizado no planejamento de caminho. Dada uma partição selecionada como alvo, o planejador computa o caminho ótimo, através das partições livres de obstáculos, fornecendo aos controladores de baixo nível os comandos que levam o robô até lá.

Portanto, este sistema de aprendizado de mapa métrico, por exemplo a Figura 6.14(b), deriva o mapa topológico, Figura 6.14(c) que tem como nós, os centros das partições que correspondem às porções livres de obstáculos. A Figura 6.14(d) descreve uma trajetória do robô, executada pelo controlador reativo, entre partições livres e adjacentes, que compreendem o caminho entre START e GOAL.

Similar à abordagem NeuroCog, na abordagem proposta por Arleo, Millán e Floreano (1999) o ambiente é desconhecido, porém ele deve ser orto- gonal. Os robôs utilizados pelos autores não usam visão e o conceito de mar- cos está implicitamente contido no mapa relacional (topológico), derivado a partir do particionamento de resolução variável. Neste particionamento, ape- nas os centros das partições livres de obstáculos especificam marcos, gerando um compacto mapa topológico. Assim como o mapa topológico produzido pelo sistema NeuroCog, que considera como marcos apenas bifurcações e becos sem saída em um labirinto. Outra diferença entre ambas abordagens relaciona-se com a implementação e atuação do controle reativo. Na proposta de Arleo, Millán e Floreano (1999), uma rede neural direta é utilizada no mó- dulo reativo e seu treinamento é realizado de maneira off-line. Enquanto na abordagem NeuroCog, várias redes neurais diretas são treinadas de maneira on-line e permutadas por uma rede ART1 recorrente. A atividade reativa da arquitetura de Arleo, Millán e Floreano (1999) consiste em alinhar o robô com a fronteira de um obstáculo encontrado, durante a fase de exploração, e executar a trajetória até um alvo, determinada pelo módulo de planejamento. Os autores não comentam a respeito do ambiente sofrer modificações, após a conclusão da fase de aprendizado do mapa geométrico.

6.6.4 Considerações

As abordagens apresentadas propuseram diferentes maneiras de inte- grar, em um nível arquitetural, as atividades reativas e deliberativas. Em nível de implementação, foram vistos diferentes formas de utilização de métodos geométricos e topológicos, bem como técnicas de RNAs. Em contraste com as arquiteturas avaliadas, a arquitetura NeuroCog provê um sistema de na- vegação que não necessita de informação a priori do labirinto, com relação a tamanho ou número de células de grid ou número de bifurcações ou becos sem saída.

O sistema NeuroCog se aplica a labirintos de qualquer tamanho e que possam ser modificados. Porém, a ortogonalidade das paredes do labirinto é uma condição necessário ao seu funcionamento, bem como o formato em “T” das bifurcações. A ortogonalidade proporciona simplicidade na implementa- ção do aprendizado adaptativo do mapa topológico, que delimita lugares atra- vés da detecção de bifurcações e becos sem saída. Para que o sistema Neuro- Cog possa atuar, por exemplo, em um labirinto hexagonal, como o utilizado em (MALLOT et al., 1995), apenas uma mudança no processo de detecção de bifurcações seria necessária.

A ortogonalidade também permite que o robô mova-se apenas ao longo de trajetórias retas. Para que a abordagem proposta possa ser aplicada a am- bientes abertos, esta suposição deve ser removida e com isto, o custo da cons- trução do mapa cognitivo tende a aumentar, à medida que se cresce o grau de liberdade do robô, ou seja, o número de direções que ele pode se mover.

Outro aspecto do sistema de navegação proposto nesta tese é que ele necessita da capacidade do robô de auto-localização e orientação. Posição e orientação de robôs são determinados pela técnica de integração de caminho (informação idiotética), que em um robô físico está sujeita à imprecisão. O sistema NeuroCog porém, não necessita de posição precisa em termos mé- tricos, mas apenas para diferenciar localizações. A utilização de informação idiotética, onde becos sem saída e bifurcações são encontrados, elimina o pro- blema de percepção onde lugares diferentes no ambiente são percebidos de maneira idêntica. Porém, o sistema NeuroCog necessita de uma capacidade de orientação precisa.

6.7 Conclusão

Em acréscimo às abordagens de navegação existentes na literatura, a abordagem NeuroCog apresentou soluções aos seguintes problemas relacio- nados à navegação em labirintos e baseada em mapas. Primeiro, a aborda-

gem propõe uma integração de deliberação e reação em uma arquitetura de controle híbrida, capaz de produzir um sistema de navegação flexível e adap- tativo. Este sistema combina de maneira simplificada e eficiente, um método de aprendizado de mapa topológico, com um processo de aprendizado reativo implementado através de um arranjo de RNAs. Com isto, este sistema per- mite a um robô, contando apenas com seus sensores de proximidade, resolver uma tarefa de navegação complexa.

Segundo, a abordagem proposta pode ser aplicada a labirintos dinâ- micos. Neste trabalho determinou-se como característica dinâmica, o fato do ambiente poder sofrer modificações, por exemplo, quanto a bloqueios (novos becos sem saída) ou aberturas (novas bifurcações), após o aprendizado de am- bos a representação do labirinto (pela camada deliberativa) e do mapeamento de percepção-ação (pela camada reativa).

Em terceiro, para tratar as dinâmicas de um ambiente foi implemen- tado um método de ajuste entre os comportamentos de exploração e planeja- mento, na camada deliberativa da arquitetura proposta. O dilema conhecido como exploration versus exploitation foi descrito e estendido sob dois contex- tos: i) o primeiro relacionado à camada deliberativa, que implementa ambos os comportamentos de explorar e planejar, bem como um método que ajuste a competição inerente entre os mesmos e ii) o segundo contexto está relaci- onado ao custo do controle neural reativo, que é influenciado pelo método de ajuste na camada deliberativa. O controle deliberativo do sistema Neuro- Cog foi implementado através do aprendizado e utilização de memórias de longo termo (mapa topológico ou cognitivo) e de curto termo (experiências de exploração e planejamento).

E finalmente a utilização do arranjo neural ART1-R-MLPs-RR para a implementação da camada reativa da arquitetura NeuroCog, propicia a cri- ação de um mapeamento de percepção-ação também flexível e adaptativo. Devido ao ambiente de atuação da abordagem ser do tipo labirinto, onde os marcos tratados pela porção deliberativa são considerados apenas como bifur- cações e becos sem saída, a atuação da porção reativa da arquitetura predo- mina sobre a porção deliberativa. Isto implica que o eficiente aprendizado de mapeamento, feito pelo arranjo neural, garante à arquitetura um desempenho aceitável, com relação à utilização dos recursos de memória e tempo.

Simulações e Resultados

7.1 Introdução

Neste capítulo serão apresentadas primeiramente simulações e resulta- dos referentes a arquiteturas neurais reativas propostas no Capítulo 5, as quais são aplicadas à navegação em labirintos simples. Em segundo serão vistas si- mulações referentes a arquiteturas híbridas prévias à arquitetura NeuroCog, as quais são aplicadas na sequência, a labirintos com bifurcações sem ciclos e estáticos e posteriormente a labirintos com ciclos e modificáveis, após a fase de exploração do robô. E finalmente será apresentada simulações e resultados da arquitetura híbrida NeuroCog, proposta no Capítulo 6, a qual é aplicada a labirintos que podem ser modificados durante a operação do robô, cuja fase de exploração e planejamento são tratadas de maneira dinâmica. Este capí- tulo tem por objetivo validar as arquiteturas propostas, avaliando questões de desempenho e aprendizado efetivo, através do aumento gradual da complexi- dade do labirinto e da tarefa de navegação.