Mapa Cognitivo Neural e Plausibilidade Biológica

6.6 Trabalhos Relacionados

6.6.1 Mapa Cognitivo Neural e Plausibilidade Biológica

As abordagens desenvolvidas para navegação em labirinto tais como (SCHMAJUK; THIEME, 1992) e (VOICU; SCHMAJUK, 2000), tiveram como foco

de atenção questões de plausibilidade biológica, tanto relacionado à constru- ção dos modelos, onde o mapeamento cognitivo é implementado através de uma rede neural associativa, quanto aos comportamentos resultantes. Desta forma estes autores utilizaram o mesmo protocolo realizado em experimen- tos com ratos, a fim de reproduzirem, em um agente simulado, os mesmos comportamentos apresentados por estes animais.

Voicu e Schmajuk (2002) além de demonstrarem comportamento ani- mal, tais como aprendizado latente, desvios e atalhos1, também preocuparam- se com questões de desempenho. Os autores estenderam o modelo proposto por Schmajuk e Thieme (1992), o qual era biologicamente plausível, mas lento em ambos os processos de exploração, por ser aleatório, e tomada de decisão, por imitar um processo biológico. Voicu e Schmajuk (2002) pro- puseram melhorias à abordagem, fazendo com que o modelo dispusesse de

1_{Aprendizado latente se refere a um protocolo onde animais são introduzidos em um labirinto}

primeiramente sem recompensa. Em um momento posterior, ao ser apresentada a recompensa, os animais demonstram conhecimento do arranjo espacial do labirinto o qual presume-se perma- necer latente no mapa cognitivo. O problema de desvio se refere a um protocolo no qual animais podem escolher um entre um ou mais desvios alternativos, somente se eles dispõem de um mapa cognitivo, onde podem ser integradas peças de informação aprendidas separadamente. E por fim o problema de atalho em um campo aberto, se refere a um protocolo no qual animais selecio- nam o caminho mais curto para um objetivo, atravessando regiões previamente inexploradas do ambiente.

uma representação a priori do ambiente em forma de grid. As modificações incluíram: o processo de exploração ser guiado pelo mapa cognitivo e o processo de decisão utilizar uma técnica de espalhamento de ativação, similar à proposta por Mataric (1991).

Em especial, nas abordagens apresentadas em Voicu e Schmajuk (2000) e Voicu e Schmajuk (2002), os autores não especificam como as entradas dos sensores são tratadas e como o agente simulado “percebe” seu(s) objetivo(s) correntes. A cada ciclo de controle, um sistema de motivação determina um ou mais objetivos, fazendo com que localizações (lugares) sejam ativadas. Esta ativação de objetivo(s) se propaga pela rede neural (mapa cognitivo), até que o lugar onde o agente está localizado seja também ativado. Em seguida, guiado por uma regra de gradiente ascendente, o agente se move até o objetivo, escolhendo o lugar vizinho com a ativação mais forte.

II. I. (a) Goals Neighboring places Goals Current places 3 2 1 2 1 2 1 3 2 1 p1 p2 p3 Vi j Wjh Goal1 Goal2 (b)

Figura 6.11: O sistema cognitivo de Voicu e Schmajuk (2000). (a) I. O qua- dro vazio é uma representação em grade da continuidade potencial do espaço a ser explorado. II. O mapa final é uma grade representando a continuidade corrente do espaço explorado. (b) O mapa cognitivo é implementado por uma rede neural que armazena as ligações entre um lugar e seus lugares vizinhos.

Conforme pode ser visto na Figura 6.11 (a)I, a representação do ambiente é baseada em grid e é fornecida a priori. Através desta representa- ção, estabelece-se a criação de uma rede neural hetero-associativa, [Figura 6.11(b)], que corresponde ao mapa cognitivo. Cada célula no grid equivale

a uma posição no labirinto que corresponde a uma entrada na rede, tanto na categoria de “Current places”, quanto na de “Neighboring places”. Isto caracteriza um grande consumo de memória e tempo, devido ao aumento no número de iterações do processo de espalhamento, durante o processo de tomada de decisão. Além disto, esta modalidade de representação se torna problemática à medida que o tamanho do ambiente aumenta. Lugares no labirinto tem o tamanho da pegada do agente. Dado que o agente sai de um lugar e imediatamente alcança outro lugar, constata-se a ausência de um mó- dulo reativo no sistema.

Mais especificamente em Voicu e Schmajuk (2000), os autores não comentam a respeito de ocorrerem mudanças no labirinto, após o aprendizado da rede neural hetero-associativa. Já em Voicu e Schmajuk (2002), são tratados os problemas de desvio e atalho, apenas segundo um protocolo expe- rimental realizado com ratos. Além disto, Voicu e Schmajuk (2001) e Voicu (2003), realizaram navegação planejada em ambientes abertos, a partir das abordagens desenvolvidas para navegação em labirinto de (SCHMAJUK; THI- EME, 1992) e (VOICU; SCHMAJUK, 2000).

6.6.2 Rato Artificial para Competição

Já Wyeth e Browning (1998) buscaram ir além do comportamento de ratos, porém inspirando-se biologicamente, para construir um modelo capaz de vencer competições. Os autores apresentaram uma plataforma para um robô real realizar uma tarefa de navegação complexa, que compreende a ex- ploração e a solução de um labirinto grande. Uma estrutura de grid também é utilizada como representação do labirinto. Buscando inspiração biológica, os autores fizeram uma análise de modelos cognitivos biologicamente plau- síveis, na literatura, para navegação em labirintos. A verificação foi de que estes modelos eram incompletos, segundo uma perspectiva de construtores de robôs, e ainda afirmaram que modelos cognitivos apenas são precisos e úteis, quando desenvolvidos visando um robô (real ou realisticamente simulado), junto com suas interfaces entre sensores e atuadores (reais ou realisticamente virtuais).

A arquitetura cognitiva de Wyeth e Browning (1998), apresentada na Figura 6.12(a), possui três níveis de competência e foi proposta como uma plataforma de robô para resolução de labirintos complexos, tal como o da Figura 6.12(b), utilizado em uma competição oficial. Os três níveis de com- petência compreendem um nível esquema (reativo), um nível cognitivo e um nível motivacional. Ambos os níveis cognitivo e motivacional caracterizam o nível deliberativo da arquitetura. A leitura dos sensores é fornecida aos três

Schemas Word Cognition Map Motivation Values (a) G S (b)

Figura 6.12: O modelo cognitivo de Wyeth e Browning (1998). (a) A arqui- tetura cognitiva. (b) Labirinto usado na competição “Australian micromouse” em 1996. Adaptado de (WYETH; BROWNING, 1998).

níveis. O nível reativo está limitado somente a interpretar dados dos sensores e determinar ações, sem gerar ou acessar memória. Sua função consiste em receber comandos dos níveis mais altos, tal como, “desça o corredor por três quadrados”, mantendo o robô centralizado no corredor, e observando valores cinemáticos para determinar quando o cumprimento da ação terminou.

Na arquitetura NeuroCog, a leitura dos sensores também é fornecida aos níveis reativo e deliberativo. Porém, ambos os níveis funcionam inde- pendentemente, onde os aspectos em comum são que ambos necessitam da informação do estado do ambiente (informação de parede) e da ação executada no ciclo de controle anterior. E ainda, o nível reativo da arquitetura NeuroCog gera e acessa memória, referente ao mapeamento de percepção- ação produzido pelo arranjo neural, diferente do nível reativo da arquitetura de Wyeth e Browning (1998).

Os níveis cognitivo e motivacional da arquitetura de Wyeth e Brow- ning (1998), utilizam a leitura dos sensores para produzir informação de paredes. Enquanto o nível cognitivo gerencia assuntos de representação, locali- zação e planejamento, o nível motivacional é responsável pela estratégia a ser seguida pelo robô, tal como a definição do objetivo e a velocidade a qual o robô deve executar. Este nível também é responsável por decidir quando cessar a exploração e gerar uma rápida resolução do labirinto, proporcionando ao robô o comportamento geral de ambos se mover e resolver o labirinto.

Sob este aspecto, o nível deliberativo da arquitetura NeuroCog tam- bém utiliza a leitura dos sensores para produzir informação de paredes, so-

mente nos marcos encontrados. A informação da posição do robô é utilizada exclusivamente para diferenciar estes marcos, e assim produzir uma repre- sentação topológica do labirinto. Além disto, a camada deliberativa, também decidi quando cessar a exploração e priorizar o planejamento. A caracterís- tica geral do comportamento de um robô utilizando a arquitetura NeuroCog, é a de que o robô pára, toda vez que ele necessita mudar a direção de sua trajetória, girando ao redor do próprio eixo, até encontrar o ângulo de direção da próxima ação a ser executada.

Quanto ao assunto de representação de conhecimento, a abordagem de Wyeth e Browning (1998), assim como a de Voicu e Schmajuk (2002), tira vantagens da representação em grid do ambiente, dado que o tamanho do labirinto é informado anteriormente à realização da competição. Por exemplo, o labirinto da Figura 6.12(b) é representado em um grid de 16× 16 células. A

abordagem deWYETH; BROWNINGentão descreve o mapa como um array de 16× 16 entradas, onde cada entrada possui 8 bits: 4 para representar presença

ou ausência de paredes e 4 para indicar quais das 4 paredes foram visitadas. Caminhos até o objetivo são encontrados através da utilização de um algo- ritmo baseado no cálculo do melhor tempo para a execução destes caminhos. Wyeth e Browning (1998) identificaram problemas encontrados pela sua arquitetura, na ocasião de mudanças no labirinto, após a fase de apren- dizagem do robô. Por exemplo, quando os corredores são alongados ou en- curtados, seu comportamento resulta em erro. Além disto, quando corredores são bloqueados, o robô tenta escalar o bloqueio, não considerando os dados dos sensores. Da mesma forma, quando surge uma nova abertura em um corredor, ela é ignorada pelo robô. Os autores justificam estes problemas, alegando que estes comportamentos também foram obtidos em resultados ex- perimentais com ratos, submetidos às mesmas condições.

A Figura 6.13 ilustra um exemplo de atuação da arquitetura NeuroCog no labirinto apresentado por Wyeth e Browning (1998). Em (a) a enumeração representa a configuração dos marcos encontrados e identificados pelo robô, após uma exploração completa do labirinto. A linha pontilhada em vermelho descreve a trajetória do robô, que compreende o caminho mais curto entre o lugar 0 até o lugar objetivo 11 (que foi adaptado na figura para se tornar um beco sem saída). Em (b) tem-se o grafo representando o mapa topológico aprendido. As arestas em vermelho indicam as ações que constituem o plano para partir do lugar origem S e alcançar o lugar objetivo G, pelo caminho mais curto. Neste caso, o mapa cognitivo é descrito pelo sistema NeuroCog como um array de 30× 8 entradas, que compreendem os 30 lugares do la-

birinto, onde, para cada lugar são necessárias as informações das ligações à oeste, norte, leste e sul, com seus lugares vizinhos, e os respectivos valores

29 S 0 1 2 3 28 26 25 27 24 23 22 21 18 19 20 16 17 9 11 13 12 10 4 5 7 6 8 15 14 G (a) n 24 15 14 25 13 12 10 11 27 26 28 2 3 4 5 7 6 8 9 16 17 29 18 19 20 21 22 23 1 0 w w n n e e e s (b)

Figura 6.13: Mapeamento cognitivo realizado pelo sistema NeuroCog, no labirinto apresentado por (WYETH; BROWNING, 1998). (a) Detecção de lugares no labirinto após uma exploração completa. (b) O grafo do mapa cognitivo e o planejamento de caminho de S a G.

da distância percorrida até eles. Portanto, a abordagem NeuroCog considera apenas locais que formam becos sem saída e bifurcações como principais lo- calizações a serem representadas e tratadas pelo nível deliberativo, porém ela conta sempre com a estrutura ortogonal de labirintos. Deixando a cargo do ní- vel reativo a navegação em corredores que não necessitam ser discretizados, como no caso da representação em grid. De fato, esta característica torna a abordagem NeuroCog mais adaptativa e flexível à mudanças que podem ocorrer em corredores, mesmo após o aprendizado de ambos módulos reativo e deliberativo da arquitetura.

No documento Arquitetura neural cognitiva para controle inteligente de robôs móveis em labirintos dinâmicos (páginas 144-149)