Futebol de Robˆos - Exemplos de Times de Robˆos

3. Exemplos de Times de Robˆos

3.3. Futebol de Robˆos

O dom´ınio de futebol de robôs é um dom´ınio bastante motivador e que tem atra´ıdo grande interesse, no mundo todo, desde que foi proposto em 1995 [20]. Diferentes modalidades de competição foram propostas (micro-robôs, robôs de médio porte, cães robôs, simu- lador, etc), visando estimular pesquisas em diversas áreas, tais como robótica, sensores, fusão sensorial, controle inteligente, inteligência artificial, cooperação entre times, entre outras (Figura 4.2).

Figura 4.2: Exemplo de competiç ões de futebol de rob ôs: 1. Esquerda superior: FIRA MiRoSoT, 2. Direita superior: RoboCup - Liga Legged, com c ães rob ˆos, 3. Inferior: RoboCup - Liga Mid-sized.

O futebol de robˆos ´e uma tarefa bastante complicada devido a basicamente dois motivos:

1. A dinâmica dos jogos dificulta tanto a definição prévia da organização dos robôs quanto a centralização do controle do jogo.

2. As atuaç ões do time oponente são imprevis´ıveis e, portanto, exigem um alto n´ıvel de adaptação em tempo real.

Nas competic¸˜oes tanto da FIRA (Federation of International Robot-Soccer Asso-

ciation) quanto da RoboCup pode-se encontrar times com controle centralizado e com

controle distribu´ıdo. Por exemplo, na Liga MiRoSoT (Micro-Robot Soccer Tournament), cada time é constitu´ıdo por 3 robôs, com dimensões que não excedam 7,5cm X 7,5cm X 7,5cm, sistema de visão global (uma câmera colocada a 2m do campo capta a ima- gem de todo o campo) e um único computador central que envia comandos aos robôs via rádio. Normalmente, os times que jogam nesta Liga possuem controle centralizado, que definem a atuação de cada robô de acordo com a informação adquirida do sistema de visão computacional, previsão de movimentação do adversário e tática de jogo adota- da. Os times são heterogêneos, com os robôs assumindo os papéis de goleiro, atacante e defensor. No time Guaraná, vice-campeão mundial da Liga em 1998 [30], os robôs possuiam hardware idênticos (Figura 4.3(a)), porém o atacante e o defensor podiam tro- car de papéis caso o defensor detectasse que estava em condições adequadas para atacar

(dentro de um triângulo fict´ıcio posicionado atrás da bola, em direção ao gol adversário, ver Figura 4.3(b)). O time podia também mudar de tática durante o jogo: caso estivesse perdendo por uma diferença grande de gols, o time atuava de forma mais ofensiva, com dois atacantes; da mesma forma, se estivesse ganhando, passava a usar uma “retranca”, atuando com dois defensores.

(a) Robô do time Guaraná. (b) Troca de papéis.

Figura 4.3: Time Guaran á, vice-campe ão mundial da FIRA MiRoSoT de 1998. a) Construç ão f´ısica dos rob ôs. b) Condiç ão de troca de pap éis entre atacante e defensor - quando defensor posiciona-se numa área defi- nida por um tri ângulo atr ás da bola, na direç ão do gol advers ário, o atacante vira defensor e vice-versa.

Por outro lado, as competições das Ligas Mid-sized e Legged impõem um con- trole distribu´ıdo aos times. Cada robô é constitu´ıdo por sensores locais, que fornecem informações parciais do ambiente, e por processadores embarcados que possibilitam raci- oc´ınio e tomadas de decisão individuais. Os robôs podem se comunicar de forma expl´ıcita ou não. Geralmente, os times adotam uma arquitetura h´ıbrida deliberativa/reativa em cada membro. Num futuro próximo, um técnico humano poderá interagir com o time de robôs através de comandos verbais, possibilitando mudança dinâmica de tática de jogo por seu comando.

Cap´ıtulo 5

Comportamentos Adaptativos

Neste cap´ıtulo, serão considerados os dois paradigmas principais de aprendizado usados em Robótica Móvel: supervisionado e por reforço.

Existem várias definiç ões sobre aprendizado que podem ser encontradas na lite- ratura. No contexto deste curso, adotaremos a seguinte definição: ”Aprendizado provoca mudanças num robô ao longo do tempo, capacitando-o a melhorar seu desempenho para executar uma determinada tarefa”[5]. Essa melhoria de desempenho pode ocorrer de diversas formas:

Introduzindo novos conhecimentos (fatos, comportamentos, regras) no sistema. Generalizando conceitos de um conjunto de exemplos.

No aumento da eficiˆencia sensorial.

No aprimoramento de pol´ıticas de comportamentos.

Na coordenação dos diversos comportamentos e/ou atuação conjunta de múltiplos

robˆos.

Criando explicações de como o processo funciona. Reutilizando experiências passadas.

Adaptação é uma forma de aprendizado, na qual o agente aprende através de ajus- tes, de modo a se tornar mais afinado com o ambiente no qual atua.

Mas, por que o aprendizado de robˆos se faz necess´ario?

A Robótica tem alcançado grandes desenvolvimentos nos últimos anos. Inicial- mente, os robôs foram utilizados para a automação de processos de produção industrial. Com o desenvolvimento tecnológico, os robôs começaram também ser utilizados para ou- tros propósitos tais como: brinquedos e entretenimento, medicina e cirurgia, e realização de tarefas em ambientes perigosos (espaciais, subaquáticos).

Assim sendo, a nova geração de robôs deve trabalhar de forma robusta, interagin- do em ambientes complexos e imprevis´ıveis e realizando uma variedade de tarefas mais complexas que seus antecessores, os robôs industriais.

A principal limitação na utilização de robôs móveis está em como controlá-los, ou seja, como criar programas capazes de operar estas máquinas complexas. Para tal, são necessárias técnicas que lhes permitam interagir de forma efetiva com o ambiente. Isto envolve o tratamento de alguns problemas, tais como a indiponibilidade de um modelo

completo do ambiente com o qual o robô deverá interagir, a incerteza dos dados devido a erros de leitura dos sensores, a geração do controle poder ser computacionalmente complexa e a necessidade de respostas em tempo real.

Bem, mas o que torna aprendizado de robˆos especial?

O aprendizado em robôs consiste essencialmente em fazer com que o robô execu- te tarefas sem a necessidade de programá-los explicitamente. A programação de robôs é uma tarefa desafiadora, por muitas razões. Os sensores de um robô, como por exemplo, os sonares, têm comportamentos imprevis´ıveis, algumas vezes variando conforme o ambiente. Sendo assim, não basta apenas conhecer o funcionamento dos sensores, também deverá ser fornecido um modelo do ambiente no qual o robô deverá atuar. Para progra- mar um robô, o problema deve ser decomposto em uma sucessão de tarefas até chegar em operaç ões de baixo n´ıvel, tais como, andar, virar à esquerda, etc. Por estas razões, há um interesse considerável em que os robôs possam aprender a realizar tarefas automati- camente.

Nos últimos anos, a pesquisa em IA tem procurado substituir a programação expl´ıcita pelo processo de ensinar uma tarefa. Pesquisas nesta área têm estudado várias formas de implementação de aprendizado [25].

Técnicas de aprendizado de robôs integram percepção, tomada de decisão, execução em ambientes dinâmicos e complexos. Elas têm sido usadas em diversas áreas, tais como, em controle ótimo, aquisição de mapas de ambientes, reconhecimento de ob- jetos e navegação.

Existem várias técnicas para realizar aprendizado. Neste cap´ıtulo são apresenta- das aquelas pertencentes ao paradigma de aprendizado supervisionado e ao paradigma de aprendizado por reforço, por serem amplamente utilizadas. Um detalhamento sobre estas técnicas de aprendizado e algumas aplicações em robôs móveis será apresentado nas seções que se seguem.

1. Aprendizado supervisionado

No aprendizado supervisionado, o conhecimento a respeito da execução adequada da tarefa no dom´ınio é representado por um conjunto dispon´ıvel de exemplos de est´ımulos/ações ou entradas/sa´ıdas desejáveis.

Um ingrediente essencial do aprendizado supervisionado é a disponibilidade de um professor ”externo”, como indicado na Figura 5.1. Em termos conceituais, pode-se dizer que o professor é aquele que tem conhecimento de como uma determinada tarefa deve ser realizada. Este conhecimento é representado por um conjunto de exemplos entrada/sa´ıda. A execução da tarefa no dom´ınio é, porém, desconhecida pelo robô.

Suponha agora que a entrada (estado) seja apresentada ao sistema de aprendizado do robô e ao professor. Com base no seu conhecimento, o professor é capaz de fornecer a resposta desejadada correspondente àquela entrada. Esta resposta desejada normalmente representa a ação ótima a ser aprendida pelo sistema de aprendizado. Uma adaptação no sistema de aprendizado é realizada, com base na influência da diferença (erro) entre a resposta atual do sistema de aprendizado e a resposta desejada. Este ajuste é realizado iterativamente, com o objetivo de fazer com que o sistema imite o professor.

Ambiente Professor Vetor Estado Sistema Sistema Aprendizado

Resposta Atual Resposta Desejada + -

Figura 5.1: Aprendizado Supervisionado

O sistema é dito ter aprendido quando o conhecimento da execução da tarefa no ambiente, disponibilizado pelo professor, tiver sido transferido ao sistema, o máximo poss´ıvel, isto é, quando uma medida sobre erro (por exemplo, valor médio) for minimi- zada. Quando esta condição é atingida, pode-se dispensar o professor e deixar o sistema interagir com o ambiente por si só.

Aprendizado Supervisionado pode ser realizado no modo estático off-line e no modo dinâmico on-line. No primeiro, uma vez que o conhecimento do professor foi transferido, cessa-se o processo de adaptação do sistema de aprendizado. Neste caso, o sistema de aprendizado opera num modo estático. No modo dinâmico, o aprendizado é executado em tempo real.

Exemplos deste tipo de aprendizado são a Regra Delta [41] e sua generalização, conhecida como algoritmo Backpropagation(BP) [34], aplicados à Redes Neurais Artifi- ciais (RNAs).

RNAs são baseadas na estrutura e comportamento do sistema nervoso. A estrutura básica desse sistema é o neurônio, que desempenha o papel de difusor de impulsos elétricos. A propagação do impulso ocorre através das sinapses (pontos de contato entre as terminações de neurônios). Este modelo foi copiado para uma estrutura computacional, onde cada neurônio se torna um processador e a cada informação trocada entre esses processadores está associado um peso (sinapse). A Figura 5.2 apresenta um modelo computacional simples de neurônio que tem sido utilizado até hoje, ondexdenota as entradas, yé a sa´ıda do neurônio ef é uma função de ativação ou transferência.

No documento Robôs Móveis Inteligentes: Princípios e Técnicas (páginas 40-45)