Plataforma experimental - Aprendizagem por demonstração baseada em redes neurais artificiais ap

A plataforma experimental utilizada foi composta de um Notebook com sistema operacional Windows, um robô Curumim e um rádio transmissor/receptor. Foi utilizado no notebook o software SwCurumim, fornecido pela empresa Xbot. Este software foi utilizado como ferramenta de aprendizado para entender o funcionamento das funções utilizadas pelo robô, como também para o enten- dimento e estabelecimento da comunicação e troca de informações entre o notebook e o robô. Após estabelecido esse conhecimento, foram implementados os algoritmos utilizados na realização do experimento. Estes algoritmos foram implementados em C/C++ utilizando a ferramenta de desenvolvimento Visual C++ 2005 Express Edition, compatível com a plataforma do robô Curumim.

A Tabela 3.1 ilustra as funções utilizadas para implementar o algoritmo res- ponsável pela coleta e armazenamento dos dados de treinamento, como também o algoritmo de imitação.

Onde os parâmetros dist1,dis2,vel1...,etc. da função turn correspondem a distância a ser percorrida e a velocidade de cada um dos motores do robô.

Tabela 3.1. Funções - Robô Curumim

Função Parâmetros Retorno

turn dist1 dist2 dist3 vel1 vel2 vel3 1

waitStopped 0

distanceSensors sensor[ ] true

O parâmetro sensor[] da função distanceSensors corresponde a um vetor de variáveis onde os valores de distância de cada sensor são armazenados.

A m de simplicar o treinamento da rede neural, os valores de distância e velocidade de cada motor foram mantidos xos, variando apenas o sentido de rotação dos motores de acordo com a direção que se deseja que o robô siga. Esses valores foram denidos em 60mm para a distância, e 100rpm para a velocidade dos motores. Esses valores foram escolhidos visando reduzir o número de movimentos necessários para se realizar uma mudança de orientação do robô. Dessa forma, com os valores utilizados, o robô realiza uma mudança de orientação de cerca de 45 graus em relação a sua orientação original em cada movimento de curva realizado.

4 Resultados

Neste Capítulo serão apresentados os resultados obtidos no processo de im- plementação do trabalho proposto. Em uma primeira etapa foram realizadas diversas simulações e treinamentos da rede neural articial e do robô omnidi- recional no simulador EyeSim. Posteriormente foram realizadas demonstrações e treinamentos da rede neural a partir de dados coletados utilizando o robô Curumim. Nessa seção é apresentada também uma análise dos pesos sinápticos gerados e seu erro associado, como também uma comparação com os resultados práticos obtidos.

4.1 Resultados de simulação - Simulador EyeSim

A simulação utilizando o simulador EyeSim, consistiu em realizar diferentes trajetórias com o robô, onde o controle dos movimentos foi realizado através do teclado do computador. Foram coletados dados em diferentes posições e trechos percorridos pelo robô, onde esses dados foram armazenados em um arquivo de texto e depois utilizados no treinamento da rede neural.

A quantidade de dados coletados está relacionada a trajetória demonstrada. Dessa forma, uma trajetória mais simples necessita de menos dados para realizar a aprendizagem, enquanto uma trajetória mais elaborada pode precisar de mais dados para estabelecer um correto aprendizado. A Tabela 4.1 apresenta a quantidade de dados coletados para cada trajetória realizada em simulação, ilustradas na Seção 3.1.

Tabela 4.1. Coleta de dados - EyeSim Experimento Quantidade de dados

1 25

2 67

3 1470

A seguir são apresentados os resultados das trajetórias simuladas:

1) Linha reta próximo a parede - O primeiro experimento consistiu em andar reto com o robô e parar próximo a parede frontal. Este experimento apresentou resultados satisfatórios em relação ao aprendizado do robô. Pode se observar os trajetos de demonstração(a) e imitação(b) na Figura 4.1.

Figura 4.1. Resultados experimento 1 - (a)Trajetória ensinada, (b)Trajetória aprendida Para este experimento foram utilizados apenas três dados de entrada dos sensores ( frontal, traseiro e diagonal esquerdo), pois os outros sensores não so- frem alteração durante o percurso em questão. Portanto a rede neural consistiu de 3 neurônios de entrada, 3 neurônios na camada escondida, e 4 neurônios de saída.

2) Corredor - A Figura 4.2 apresenta os trajetos de demonstração(a) e imita- ção(b) realizados para este experimento. O experimento apresentou resultados satisfatórios no sentido de que o robô foi capaz de realizar (aprender) a tarefa desejada. Porém é interessante notar que a trajetória aprendida difere razoavelmente da trajetória ensinada. Isso pode acontecer por que durante a etapa de imitação, a rede neural está susceptível a novas entradas, que em alguns ca- sos diferem das entradas utilizadas no treinamento. Com isso é razoavelmente aceitável e esperado que a saída da rede treinada seja diferente da saída demonstrada em alguns pontos, desde que o resultado nal esperado, ainda seja alcançado pelo robô.

3) Contorno - Os resultados do terceiro experimento foram bem sucedidos, observou-se porém, durante as fases de coleta de dados e de treinamento da rede, que a quantidade dos dados coletados inuenciou signicativamente na resposta do robô. Alguns comportamentos inesperados foram observados quando insu- cientes dados foram coletados para treinamento (vide Fig 4.3).

Figura 4.3. Resultado inesperado após treinamento da RNA

Resultados satisfatórios foram alcançados utilizando-se cerca de mil dados para treinamento, coletados em diferentes trechos do percurso ensinado. A Figura 4.4 ilustra os percursos de demonstração e imitação realizados.

Figura 4.4. Resultados experimento 3 - (a) Trajetória ensinada (demonstração), (b) Tra- jetória aprendida (imitação).

As simulações foram importantes no sentido de permitir um primeiro aprendizado prático da aplicação da metodologia de LfD utilizando RNAs. Com essas simulações pôde-se ter uma melhor noção da capacidade da metodologia aplicada, como também vericar alguns fatores de maior relevância como a importância da quantidade de dados coletados na convergência do aprendizado pela RNA. É notável que muitos fatores como erros de odometria e dos sensores não são considerados nas simulações, tanto como possíveis desvios de trajetória devido a imperfeições do ambiente. Porém mesmo sabendo que as simulações apresentam resultados simplicados em relação ao mundo real, essa prática possibilitou um aprofundamento do aprendizado da metodologia de LfD juntamente com suas etapas de treinamento e conguração da rede neural articial.

No documento Aprendizagem por demonstração baseada em redes neurais artificiais aplicada à robótica móvel (páginas 52-59)