Discussão - Auto-organização e aprendizagem por demonstração na determinação de marcha robótica

direito toca o chão até o pé esquerdo tocar o chão e vice-versa. Os fragmentos de movimentação são organizados em um grafo de modo a permitir a transição entre eles.

3.5 Discussão

Como visto neste Capítulo, um CPG é usualmente modelado por equações diferenciais. Uma desvantagem do controle baseado em CPG é que muitos parâmetros precisam ser ajustados para alcançar um desejado padrão locomotor dentro de uma amplo espaço de busca. Geralmente, o esforço para obter um completo entendimento de como os parâmetros de controle modulam o sinal de saída é muito grande. A modulação pode ocorrer nas seguintes características de um sinal de saída: frequência, amplitude, defasagem entre oscilações e forma de onda (YU et al.,

2014).

Considerando as dificuldades presentes nas abordagens de CPG vistas nas seções anteri- ores, esta Tese propõe avançar em uma abordagem baseada em aprendizagem por demonstração, Controle Guiado por Dados e auto-organização para o planejamento e controle de locomoção de robôs com patas. Os dados são capturados a partir de um agente demonstrador e apresentado ao robô aprendiz, semelhante a LbD. Na abordagem em questão, os dados não precisam ser estrutu- rados em pares de estado-ação como em LbD. O agente aprendiz gera uma representação interna da movimentação dos membros através de um processo de auto-organização na qual conexões determinam a transição entre estados. Estas conexões são criadas entre estados próximos com o objetivo de gerar uma trajetória cíclica.

Os Capítulos 4 e 5 apresentam mapas auto-organizáveis de topologia variante no tempo desenvolvidos de acordo com a abordagem proposta nesta Tese. Nestes mapas, o processo de aprendizagem da movimentação dos membros inferiores pode ser aplicado em diferentes robôs na aprendizagem de diversos modos de locomoção. Neste processo não é necessário determinar um conjunto de equações e seus parâmetros para cada robô. A informação necessária para a aprendizagem da movimentação das pernas é extraída dos dados observados. O controle das articulações do robô é realizado com dados oriundos do conteúdo dos estados de uma trajetória através de uma técnica DDC. Os dados contidos nos estados devem informar direta ou indiretamente a posição angular desejada para cada articulação.

4

SOM-STG

Este Capítulo apresenta a segunda abordagem para a solução do problema de locomoção de robôs com patas, na qual Gerador de Trajetória de Estados Auto-Organizável (SOM-STG) (ARAúJO; SANTANA JR,2014) é o seu principal elemento. Uma contribuição significativa no algoritmo desta segunda abordagem está no passo de poda que foi modificado com o objetivo de manter cada nodo da rede sempre com dois vizinhos. O processo de validação desta segunda versão foi mais rigoroso e novos tipos de experimentos foram elaborados, ver Capítulo 6 para mais detalhes. Uma sugestão de como combinar controle guiado por dados e mapa auto- organizável de estrutura variante no tempo foi desenvolvida para esta segunda abordagem (Seção 6.5). Além disso, conceitualmente STRAGIC não explica como os dados para a aprendizagem são obtidos e nem como acontece o controle de cada articulação. Para melhorar o embasamento teórico desta segunda abordagem, dois conceitos fundamentais foram incorporados a abordagem: Aprendizagem por Demonstração e Controle Guiado por Dados (Capítulo 3).

4.1 Apresentação de SOM-STG

SOM-STG é baseado no Gerador de Trajetória de Estados (State Trajectory Generator -

STRAGEN) (BENANTE; ARAúJO,2007), sendo uma segunda versão de um sistema baseado

em SOM para produção de marchas robóticas (SANTANA JR; ARAUJO,2010). O processo

de aprendizagem de SOM-STG, autonomamente aprende os estados mais relevantes de uma marcha, sendo capaz de criar conexões entre estados de marchas diferentes para possibilitar uma transição suave entre marchas. Além disso, SOM-STG gera padrões locomotores rítmicos, altera a velocidade de locomoção e mantém o sincronismo dos movimentos dos membros. Algumas características importantes em CPGs também são encontradas no SOM-STG:

Um CPG produz sinais de saída oscilatórios que quando amostrados podem ser

compreendidos como uma sequência de estados. SOM-STG também gera sinais oscilatórios a partir de suas trajetórias cíclicas de estados.

4.1. APRESENTAÇÃO DE SOM-STG 48 de saída de um CPG, consequentemente a marcha e a velocidade de deslocamento do animal (IJSPEERT,2008). SOM-STG pode aumentar ou diminuir a velocidade do robô e alterar o modo de locomoção de acordo com um simples sinal de controle.

O sincronismo entre osciladores é uma importante característica para determinar

um modo de locomoção. SOM-STG decodifica um conjunto de posturas para os membros e constrói uma trajetória de estados mantendo o mesmo sincronismo entre membros existente nas amostras originais.

Algumas características inerentes de SOM-STG são:

O uso de diferentes critérios para a geração de trajetórias, levando em conta o mesmo

conjunto de posturas;

A presença de comandos para alternar entre modos de locomoção: aumentar a veloci-

dade, diminuir a velocidade, aumentar ou diminuir a velocidade com o movimento mais suave possível;

Produzir como saída: o próximo estado do robô em cada intervalo de tempo;

Um conjunto de variáveis de estado para descrever a movimentação cíclica de cada

membro;

Produção de trajetórias mesmo com amostras ruidosas;

Manipulação de dados com informações heterogêneas. Assim, a dinâmica da rede

pode ser modificada pela escolha do critério de vizinhança desejado.

SOM-STG é dividido em sub-redes, cada uma codifica os estados mais relevantes de um modo de locomoção particular. As conexões em SOM-STG são de dois tipos: conexões entre nodos de uma sub-rede e conexões entre nodos de duas sub-redes distintas. Dois nodos são vizinhos em uma sub-rede quando eles representam dois estados consecutivos de um modo de locomoção. As ligações entre sub-redes distintas conectam os dois estados mais próximos de dois diferentes modos de locomoção.

A Figura 4.1 ilustra uma instância de SOM-STG com três sub-redes. As conexões dos nodos de uma sub-rede são organizados em um círculo enfatizando o comportamento cíclico. As conexões entre sub-redes ligam dois círculos diferentes. Todos os nodos de todas sub-redes têm pelo menos uma conexão para um nodo de outra sub-rede. Portanto, a mudança entre marchas é possível em qualquer instante de tempo. A trajetória cíclica criada por SOM-STG gera uma ativação cíclica de uma sequência de nodos vizinhos. SOM-STG em cada instante de tempo determina a próxima postura do robô e recebe como entrada comandos para determinar o modo de locomoção do robô. Se não existe comando de entrada, o modo de locomoção do robô não muda, os comandos disponíveis são: “DOWN”, “UP”, “BESTDOWN”, e “BESTUP”.

Figura 4.1: Exemplo de uma rede SOM-STG mostrando as conexões entre nodos de uma sub-rede (linha cinza) e entre nodos de duas sub-redes distintas (linha tracejada). As conexões representam a relação de vizinhança entre nodos.

O comando “DOWN” altera a marcha de modo a diminuir a velocidade, enquanto o comando “UP” aumenta a velocidade. Os comandos “BESTDOWN” e “BESTUP” buscam nodos de uma sub-rede que levam a transição mais suave entre dois modos de locomoção, com o objetivo de diminuir ou aumentar a velocidade do robô.

No documento Auto-organização e aprendizagem por demonstração na determinação de marcha robótica (páginas 47-50)