• Nenhum resultado encontrado

3. Exemplos de Times de Robˆos

3.3. Futebol de Robˆos

O dom´ınio de futebol de robˆos ´e um dom´ınio bastante motivador e que tem atra´ıdo grande interesse, no mundo todo, desde que foi proposto em 1995 [20]. Diferentes modalidades de competic¸˜ao foram propostas (micro-robˆos, robˆos de m´edio porte, c˜aes robˆos, simu- lador, etc), visando estimular pesquisas em diversas ´areas, tais como rob´otica, sensores, fus˜ao sensorial, controle inteligente, inteligˆencia artificial, cooperac¸˜ao entre times, entre outras (Figura 4.2).

Figura 4.2: Exemplo de competic¸ ˜oes de futebol de rob ˆos: 1. Esquerda superior: FIRA MiRoSoT, 2. Direita superior: RoboCup - Liga Legged, com c ˜aes rob ˆos, 3. Inferior: RoboCup - Liga Mid-sized.

O futebol de robˆos ´e uma tarefa bastante complicada devido a basicamente dois motivos:

1. A dinˆamica dos jogos dificulta tanto a definic¸˜ao pr´evia da organizac¸˜ao dos robˆos quanto a centralizac¸˜ao do controle do jogo.

2. As atuac¸ ˜oes do time oponente s˜ao imprevis´ıveis e, portanto, exigem um alto n´ıvel de adaptac¸˜ao em tempo real.

Nas competic¸˜oes tanto da FIRA (Federation of International Robot-Soccer Asso-

ciation) quanto da RoboCup pode-se encontrar times com controle centralizado e com

controle distribu´ıdo. Por exemplo, na Liga MiRoSoT (Micro-Robot Soccer Tournament), cada time ´e constitu´ıdo por 3 robˆos, com dimens˜oes que n˜ao excedam 7,5cm X 7,5cm X 7,5cm, sistema de vis˜ao global (uma cˆamera colocada a 2m do campo capta a ima- gem de todo o campo) e um ´unico computador central que envia comandos aos robˆos via r´adio. Normalmente, os times que jogam nesta Liga possuem controle centralizado, que definem a atuac¸˜ao de cada robˆo de acordo com a informac¸˜ao adquirida do sistema de vis˜ao computacional, previs˜ao de movimentac¸˜ao do advers´ario e t´atica de jogo adota- da. Os times s˜ao heterogˆeneos, com os robˆos assumindo os pap´eis de goleiro, atacante e defensor. No time Guaran´a, vice-campe˜ao mundial da Liga em 1998 [30], os robˆos possuiam hardware idˆenticos (Figura 4.3(a)), por´em o atacante e o defensor podiam tro- car de pap´eis caso o defensor detectasse que estava em condic¸˜oes adequadas para atacar

(dentro de um triˆangulo fict´ıcio posicionado atr´as da bola, em direc¸˜ao ao gol advers´ario, ver Figura 4.3(b)). O time podia tamb´em mudar de t´atica durante o jogo: caso estivesse perdendo por uma diferenc¸a grande de gols, o time atuava de forma mais ofensiva, com dois atacantes; da mesma forma, se estivesse ganhando, passava a usar uma “retranca”, atuando com dois defensores.

(a) Robˆo do time Guaran´a. (b) Troca de pap´eis.

Figura 4.3: Time Guaran ´a, vice-campe ˜ao mundial da FIRA MiRoSoT de 1998. a) Construc¸ ˜ao f´ısica dos rob ˆos. b) Condic¸ ˜ao de troca de pap ´eis entre atacante e defensor - quando defensor posiciona-se numa ´area defi- nida por um tri ˆangulo atr ´as da bola, na direc¸ ˜ao do gol advers ´ario, o atacante vira defensor e vice-versa.

Por outro lado, as competic¸˜oes das Ligas Mid-sized e Legged imp˜oem um con- trole distribu´ıdo aos times. Cada robˆo ´e constitu´ıdo por sensores locais, que fornecem informac¸˜oes parciais do ambiente, e por processadores embarcados que possibilitam raci- oc´ınio e tomadas de decis˜ao individuais. Os robˆos podem se comunicar de forma expl´ıcita ou n˜ao. Geralmente, os times adotam uma arquitetura h´ıbrida deliberativa/reativa em cada membro. Num futuro pr´oximo, um t´ecnico humano poder´a interagir com o time de robˆos atrav´es de comandos verbais, possibilitando mudanc¸a dinˆamica de t´atica de jogo por seu comando.

Cap´ıtulo 5

Comportamentos Adaptativos

Neste cap´ıtulo, ser˜ao considerados os dois paradigmas principais de aprendizado usados em Rob´otica M´ovel: supervisionado e por reforc¸o.

Existem v´arias definic¸ ˜oes sobre aprendizado que podem ser encontradas na lite- ratura. No contexto deste curso, adotaremos a seguinte definic¸˜ao: ”Aprendizado provoca mudanc¸as num robˆo ao longo do tempo, capacitando-o a melhorar seu desempenho pa- ra executar uma determinada tarefa”[5]. Essa melhoria de desempenho pode ocorrer de diversas formas:

 Introduzindo novos conhecimentos (fatos, comportamentos, regras) no sistema.  Generalizando conceitos de um conjunto de exemplos.

 No aumento da eficiˆencia sensorial.

 No aprimoramento de pol´ıticas de comportamentos.

 Na coordenac¸˜ao dos diversos comportamentos e/ou atuac¸˜ao conjunta de m´ultiplos

robˆos.

 Criando explicac¸˜oes de como o processo funciona.  Reutilizando experiˆencias passadas.

Adaptac¸˜ao ´e uma forma de aprendizado, na qual o agente aprende atrav´es de ajus- tes, de modo a se tornar mais afinado com o ambiente no qual atua.

Mas, por que o aprendizado de robˆos se faz necess´ario?

A Rob´otica tem alcanc¸ado grandes desenvolvimentos nos ´ultimos anos. Inicial- mente, os robˆos foram utilizados para a automac¸˜ao de processos de produc¸˜ao industrial. Com o desenvolvimento tecnol´ogico, os robˆos comec¸aram tamb´em ser utilizados para ou- tros prop´ositos tais como: brinquedos e entretenimento, medicina e cirurgia, e realizac¸˜ao de tarefas em ambientes perigosos (espaciais, subaqu´aticos).

Assim sendo, a nova gerac¸˜ao de robˆos deve trabalhar de forma robusta, interagin- do em ambientes complexos e imprevis´ıveis e realizando uma variedade de tarefas mais complexas que seus antecessores, os robˆos industriais.

A principal limitac¸˜ao na utilizac¸˜ao de robˆos m´oveis est´a em como control´a-los, ou seja, como criar programas capazes de operar estas m´aquinas complexas. Para tal, s˜ao necess´arias t´ecnicas que lhes permitam interagir de forma efetiva com o ambiente. Isto envolve o tratamento de alguns problemas, tais como a indiponibilidade de um modelo

completo do ambiente com o qual o robˆo dever´a interagir, a incerteza dos dados devi- do a erros de leitura dos sensores, a gerac¸˜ao do controle poder ser computacionalmente complexa e a necessidade de respostas em tempo real.

Bem, mas o que torna aprendizado de robˆos especial?

O aprendizado em robˆos consiste essencialmente em fazer com que o robˆo execu- te tarefas sem a necessidade de program´a-los explicitamente. A programac¸˜ao de robˆos ´e uma tarefa desafiadora, por muitas raz˜oes. Os sensores de um robˆo, como por exemplo, os sonares, tˆem comportamentos imprevis´ıveis, algumas vezes variando conforme o am- biente. Sendo assim, n˜ao basta apenas conhecer o funcionamento dos sensores, tamb´em dever´a ser fornecido um modelo do ambiente no qual o robˆo dever´a atuar. Para progra- mar um robˆo, o problema deve ser decomposto em uma sucess˜ao de tarefas at´e chegar em operac¸ ˜oes de baixo n´ıvel, tais como, andar, virar `a esquerda, etc. Por estas raz˜oes, h´a um interesse consider´avel em que os robˆos possam aprender a realizar tarefas automati- camente.

Nos ´ultimos anos, a pesquisa em IA tem procurado substituir a programac¸˜ao ex- pl´ıcita pelo processo de ensinar uma tarefa. Pesquisas nesta ´area tˆem estudado v´arias formas de implementac¸˜ao de aprendizado [25].

T´ecnicas de aprendizado de robˆos integram percepc¸˜ao, tomada de decis˜ao, execuc¸˜ao em ambientes dinˆamicos e complexos. Elas tˆem sido usadas em diversas ´areas, tais como, em controle ´otimo, aquisic¸˜ao de mapas de ambientes, reconhecimento de ob- jetos e navegac¸˜ao.

Existem v´arias t´ecnicas para realizar aprendizado. Neste cap´ıtulo s˜ao apresenta- das aquelas pertencentes ao paradigma de aprendizado supervisionado e ao paradigma de aprendizado por reforc¸o, por serem amplamente utilizadas. Um detalhamento sobre es- tas t´ecnicas de aprendizado e algumas aplicac¸˜oes em robˆos m´oveis ser´a apresentado nas sec¸˜oes que se seguem.

1. Aprendizado supervisionado

No aprendizado supervisionado, o conhecimento a respeito da execuc¸˜ao adequada da tare- fa no dom´ınio ´e representado por um conjunto dispon´ıvel de exemplos de est´ımulos/ac¸˜oes ou entradas/sa´ıdas desej´aveis.

Um ingrediente essencial do aprendizado supervisionado ´e a disponibilidade de um professor ”externo”, como indicado na Figura 5.1. Em termos conceituais, pode-se dizer que o professor ´e aquele que tem conhecimento de como uma determinada tare- fa deve ser realizada. Este conhecimento ´e representado por um conjunto de exemplos entrada/sa´ıda. A execuc¸˜ao da tarefa no dom´ınio ´e, por´em, desconhecida pelo robˆo.

Suponha agora que a entrada (estado) seja apresentada ao sistema de aprendizado do robˆo e ao professor. Com base no seu conhecimento, o professor ´e capaz de fornecer a resposta desejadada correspondente `aquela entrada. Esta resposta desejada normalmente representa a ac¸˜ao ´otima a ser aprendida pelo sistema de aprendizado. Uma adaptac¸˜ao no sistema de aprendizado ´e realizada, com base na influˆencia da diferenc¸a (erro) entre a resposta atual do sistema de aprendizado e a resposta desejada. Este ajuste ´e realizado iterativamente, com o objetivo de fazer com que o sistema imite o professor.

Ambiente Professor Vetor Estado Sistema Sistema Aprendizado



Resposta Atual Resposta Desejada + -

Figura 5.1: Aprendizado Supervisionado

O sistema ´e dito ter aprendido quando o conhecimento da execuc¸˜ao da tarefa no ambiente, disponibilizado pelo professor, tiver sido transferido ao sistema, o m´aximo poss´ıvel, isto ´e, quando uma medida sobre erro (por exemplo, valor m´edio) for minimi- zada. Quando esta condic¸˜ao ´e atingida, pode-se dispensar o professor e deixar o sistema interagir com o ambiente por si s´o.

Aprendizado Supervisionado pode ser realizado no modo est´atico off-line e no modo dinˆamico on-line. No primeiro, uma vez que o conhecimento do professor foi transferido, cessa-se o processo de adaptac¸˜ao do sistema de aprendizado. Neste caso, o sistema de aprendizado opera num modo est´atico. No modo dinˆamico, o aprendizado ´e executado em tempo real.

Exemplos deste tipo de aprendizado s˜ao a Regra Delta [41] e sua generalizac¸˜ao, conhecida como algoritmo Backpropagation(BP) [34], aplicados `a Redes Neurais Artifi- ciais (RNAs).

RNAs s˜ao baseadas na estrutura e comportamento do sistema nervoso. A estru- tura b´asica desse sistema ´e o neurˆonio, que desempenha o papel de difusor de impulsos el´etricos. A propagac¸˜ao do impulso ocorre atrav´es das sinapses (pontos de contato entre as terminac¸˜oes de neurˆonios). Este modelo foi copiado para uma estrutura computacio- nal, onde cada neurˆonio se torna um processador e a cada informac¸˜ao trocada entre esses processadores est´a associado um peso (sinapse). A Figura 5.2 apresenta um modelo com- putacional simples de neurˆonio que tem sido utilizado at´e hoje, ondexdenota as entradas, y´e a sa´ıda do neurˆonio ef ´e uma func¸˜ao de ativac¸˜ao ou transferˆencia.

Documentos relacionados