2007.2Monografia TiagoCalmondeJesus 031111890 2007 2

(1)

Desenvolvimento de um sistema de controle de robˆo

de sumˆo autˆonomo baseado em sistemas

classificadores

Feira de Santana – BA Setembro / 2008

(2)

Desenvolvimento de um sistema de controle de robˆo

de sumˆo autˆonomo baseado em sistemas

classificadores

Monografia apresentada à Coordenação do Curso de Engenharia de Computação da Uni-versidade Estadual de Feira de Santana como requisito para obtenção do t´ıtulo de Engenheiro de Computação.

Orientador:

Prof. Msc. Angelo Conrado Loula

CURSO DE ENGENHARIA DECOMPUTAC¸ ˜AO

DEPARTAMENTO DE TECNOLOGIA

UNIVERSIDADEESTADUAL DEFEIRA DESANTANA

Feira de Santana – BA Setembro / 2008

(3)

tado por Tiago Calmon de Jesus em 02 de Setembro de 2008, em Feira de Santana, Bahia:

Tiago Calmon de Jesus Engenharia de Computac¸˜ao

Universidade Estadual de Feira de Santana - UEFS Aluno

Prof. Msc. Angelo Conrado Loula Departamento de Tecnologia - UEFS

Orientador

Coordenador(a) de TCC Engenharia de Computac¸˜ao

(4)

e s˜ao sem d´uvidas os maiores exemplos de valores morais e de VIDA para mim .

(5)

Dedico meus sinceros agradecimentos:

– ao Professor Msc Angelo Conrado Loula, pela orientac¸˜ao e incentivo;

– aos meus colegas de Trabalho, em especial ao meu chefe, pelo apoio e incentivo. – aos colegas de graduação em Engenharia de Computação da UEFS.

(6)

Este trabalho propõe o desenvolvimento de um sistema de controle de robô de sumô autônomo baseado em sistemas classificadores. Um sistema classificador é uma metodologia de aprendi-zagem adaptativa de propósito geral baseada em regras do tipo SE (Condição) ENT ÃO (Ação) e capaz de operar em ambientes ruidosos. O sistema classificador consegue adaptar seu con-junto de regras através de um mecanismo de atribuição de crédito e da ação de um algoritmo genético que permite a recomposição do conjunto com a inserção de novas regras. Apresenta-mos a implementação de um simulador 2D para sumo de robô e do sistema de controle de robô de sumô.

(7)

This work proposes the development of a control system for autonomous robot sumo ba-sed on classifier systems. A classifier system is a methodology for adaptive learning, baba-sed on general purpose rules of the type IF (condition) THEN (Action) and able to operate in noisy environments. The classifier system can adapt its rule set through a mechanism of credit as-signment and using a genetic algorithm to rebuild of the rule set with the insertion of new rules. The implementation of a 2D simulator for robot sumo and the control system of the robot are presented.

(8)

1 Apresentac¸˜ao p. 10

2 Robˆos e suas categorias p. 13

3 Sumˆo de Robˆos p. 15

4 Sistemas classificadores p. 17 4.1 Subsistema de Tratamento de Mensagem . . . p. 19 4.2 Subsistema de apropriação de crédito . . . p. 20 4.3 Subsistema de descoberta de novas regras . . . p. 23

5 Algoritmos Gen´eticos p. 25

6 Simulação em Robótica p. 29 6.1 Microsoft Robotics Studio . . . p. 30 6.2 Implementação do Simulador . . . p. 31

7 Sistemas classificadores aplicados ao sumo de Robˆo p. 34

8 Experimentos e Resultados p. 39

9 Conclus˜ao p. 43

(9)

1.1 Exemplos de projetos em robótica . . . p. 10 3.1 Arena do sumô de robô. . . p. 15 3.2 Exemplos de robôs de sumô. . . p. 16 4.1 Diagrama do sistema classificador de aprendizagem de Holland. . . p. 18 4.2 Subsistemas de um sistema classificador de aprendizagem de Holland. . . p. 19 5.1 Ciclo de execução de um algoritmo Genético. . . p. 25 5.2 Cromossomo na representação binária. . . p. 26 5.3 Método da Roleta (Roullete Wheel). . . p. 27 5.4 Crossover. . . p. 28 6.1 Diagrama de uma aplicação no MRS. . . p. 31 6.2 Interface do simulador. . . p. 32 7.1 Angulo de localização da faixa.ˆ . . . p. 34 7.2 Informações sobre a localização do oponente. . . p. 35 7.3 Configuração do antecessor do classificador implementado. . . p. 35 7.4 Codificação do ângulo (código Gray). . . p. 36 8.1 Resultado do Experimento 1. . . p. 40 8.2 Comportamento do robô - Experimento 1. . . p. 41 8.3 Resultado do Experimento 2. . . p. 42 8.4 Resultado do Experimento 3. . . p. 42

(10)

4.1 Exemplos de Classificadores. . . p. 18 7.1 Codificação da distância do oponente. . . p. 37 7.2 Intensidade da aceleração. . . p. 37 7.3 direção da aceleração. . . p. 37

(11)

1 Apresentac¸˜ao

O inicio do século XXI aproximou muito o homem de um futuro no qual seres artificiais irão andar, conviver e executar tarefas com os seres humanos. O entusiasmo em torno do tema ”robótica”aumenta à medida que novos lançamentos são anunciados, a exemplo do lançamento do cãozinho Aibo no final de 1999 pela Sony, do ASIMO (um robô humanóide com movimen-tos muito realistas desenvolvido pela Honda) e de eletrodomésticos inteligentes como o robô aspirador desenvolvido pela iRobot, a Figura 1.1 ilustra alguns desses projetos

Figura 1.1: Alguns projetos na área de robótica. Na parte superior da esquerda para a direita, o AIBO(Fonte SONY), o ASIMO(Fonte HONDA) e o robô aspirador(Fonte Irobot). Na parte inferior temos os robôs músicos da TOYOTA.

(12)

comuns que passaram a ver nos robôs uma fonte de divertimento, lazer e um acessório ”inteli-gente”para realizar pequenas tarefas domésticas.

Com o crescente interesse pela área, aumentaram também os valores movimentados pelo mercado de robótica. A Japan Robot Association estima que hoje este mercado movimente algo em torno de 11 bilhões de dólares com estimativas de movimentar o dobro em 2010 e alcançar 66 bilhões em 2025 (CHERRY, 2007). Grandes empresas na área de tecnologia pos-suem projetos em robótica, como a Honda (responsável pelo ASIMO), a Mitsubishi e a Toyota, que lançaram modelos de robôs capazes de tocar instrumentos musicais como trombone e vi-olino, além de outro capaz de carregar um ser humano, atuando como uma cadeira de rodas inteligente.

Recentemente a Microsoft também entrou no mercado da robótica lançando um software denominado Robotics Studio, o qual é um ambiente para programação e simulação de robôs, compat´ıvel com vários modelos de robôs domésticos dispon´ıveis no mercado norte-americano. Uma das áreas de atuação da Microsoft é o mercado de robôs de pequeno porte e robôs domésticos, um segmento que não pára de crescer e movimentar cifras cada vez maiores.

As competições de robôs também têm crescido nos últimos anos. Estão cada vez mais organizadas e competitivas, e deixaram de ser atividades meramente lúdicas para se tornarem importantes laboratórios de novas técnicas e tecnologias em robótica. Entidades como a Ro-boCup deram seriedade e organização às competições e possibilitaram a definição de metas ambiciosas como a de até 2050 construir um time de robôs completamente autônomos para jogar futebol e capazes de ganhar de um time de humanos campeões da copa do mundo (RO-BOCUP, 2008). Dentre as diversas modalidades, o sumô de robôs e o futebol de robôs estão se consolidado como as principais categorias de competições de robôs, principalmente pelo fato de seus robôs serem autônomos, o que atrai o interesse de pesquisadores e estudantes da área de inteligência artificial, automação e controle, e mecatrônica.

De forma geral há um crescente interesse na área de competições de robôs, principalmente por se tratar de uma maneira lúdica de aplicação e aprendizagem de importantes conceitos de robótica. Os investimentos nessa área são cada vez maiores e ainda há uma escassez de pesquisas cient´ıficas aplicadas ao sumô de robôs. Dentro desse contexto, este trabalho propõe o desenvolvimento de um sistema de controle de robô para o sumô de robôs, baseado em uma técnica de sistemas inteligentes, os sistemas classificadores.

(13)

1.1 Objetivos

O objetivo principal deste projeto foi o desenvolvimento de um sistema de controle de robô para o sumô de robôs, baseado em sistemas classificadores. para tanto alguns objetivos secundários precisaram ser cumpridos:

• Propor metodologia para avaliação de software de simulação de robôs;

• Implementar um ambiente simulado, compat´ıvel com as regras oficiais do sumo de robˆo para treinamento de prot´otipos;

• Treinar o sistema de controle do robˆo em um ambiente simulado;

• Avaliar os resultados obtidos com o uso do sistema desenvolvido e a metodologia empre-gada.

1.2 Organizac¸˜ao da Monografia

Esta monografia está organizada da seguinte maneira: No cap´ıtulo 2, são apresentados conceitos sobre robótica, categorização e autonomia de robôs. No cap´ıtulo 3 são apresentados conceitos sobre sistemas classificadores, seus componentes e funcionamento. No cap´ıtulo 4 são conceituados os algoritmos genéticos e também é explicada a relação dos mesmos com sistemas classificadores. O cap´ıtulo 5 aborda o processo de simulação em robótica e discute alguns simuladores de robôs.

O cap´ıtulo 6 trata do processo de construção de um sistema classificador para controle de um robô de sumô autônomo. O cap´ıtulo 6 apresenta os resultados obtidos e discute os mesmos. O cap´ıtulo 7 apresenta uma conclusão do documento com sugestões de melhorias e futuros trabalhos. Por fim seguem-se as referências bibliográficas.

(14)

2 Robˆos e suas categorias

Robôs são agentes f´ısicos que executam tarefas através da manipulação do mundo f´ısico (RUSSELL; NORVIG, 2004). Os robôs atuam sobre o mundo f´ısico através de efetuadores ou atuadores, que de forma geral são elementos capazes de exercer forças f´ısicas sobre o ambiente, a exemplo das pernas, rodas e garras, ou mesmo auto-falantes e luzes. Outro componente im-portante na estrutura de um robô são os sensores, que dão ao mesmo a capacidade de perceber o ambiente a sua volta. Através da conversão de energias diversas em energia elétrica, os sen-sores possibilitam ao robô adquirir informações como temperatura, velocidade, pressão, sons, imagens, proximidade de outros objetos dentre outras.

Os robôs podem ser classificados em três categorias principais: manipuladores, móveis e humanóides (RUSSELL; NORVIG, 2004). Os manipuladores são robôs fisicamente fixos, providos de articulações controláveis, através das quais o robô pode posicionar seus atuadores em qualquer posição do seu espaço de trabalho. O principal exemplo dessa categoria são os braços mecânicos, principais elementos robóticos presentes na indústria. A segunda categoria de robôs são os móveis, capazes de se deslocar pelo ambiente utilizando-se de pernas, rodas ou similares. E por fim, na terceira categoria estão os robôs humanóides, um misto das duas categorias anteriores, mas cuja principal caracter´ıstica é imitarem a forma f´ısica humana.

Os robôs podem ainda ser classificados quanto a sua autonomia. Um agente autônomo pode ser definido como um sistema situado dentro de um ambiente, que pode perceber o ambiente e agir sobre o mesmo e exerce controle sobre suas próprias ações (adaptado de Franklin e Graesser (1997)). Entidades autônomas são, portanto, aquelas, que uma vez iniciadas e postas em ação no ambiente, são capazes de executar suas tarefas e tomar decisões por si só. Os sistemas não autônomos, por sua vez, são controlados externamente de forma parcial ou total, a exemplo dos automodelos e aeromodelos radio-controlados.

A abordagem mais simples no projeto de um sistema de controle para robôs autônomos é representar todos os estados poss´ıveis que um robô pode estar em um ambiente qualquer e os eventos que disparam transições de um estado para ou outro. O problema dessa abordagem é que

(15)

nem sempre é poss´ıvel conhecer de antemão todos os poss´ıveis estados, e mesmo quando isso é poss´ıvel existiria uma grande dependência do robô com seu ambiente. Caso seja necessário inserir o robô em outro ambiente, ou caso o ambiente tenha componentes variáveis no tempo, ou ainda na presença de ru´ıdo no ambiente, este modelo apresenta grande ineficiência, exigindo do projetista todo um reajuste do sistema de controle, ou até mesmo inviabilizando seu uso. A utilização de procedimentos de aprendizagem libera o projetista da responsabilidade de ter que inserir no seu projeto conhecimentos detalhados do ambiente, e dão ao robô a possibilidade de se comportar adequadamente em ambientes diferentes. É claro que a inserção de algum conhecimento pode ser desejável e pode facilitar o aprendizado.

Um sistema classificador, sendo um sistema de aprendizagem adaptativo e de propósito geral, capaz de operar em ambientes ruidosos (GEYER-SCHULZ, 1995), é uma boa opção para sistema de controle de robôs móveis. Sua capacidade de evolução permite que o robô seja colocado em ambientes distintos com pouca ou nenhuma alteração em sua programação.

(16)

3 Sumˆo de Robˆos

O sumô de robô foi inventado no Japão no final da década de 80 por Hiroshi Nozawa, Presidente da Fuji Software. A primeira exposição aconteceu em agosto de 1989, com 33 robôs e em 1990 aconteceu o primeiro torneio oficial com 147 robôs (Fujisoft, 2007). Desde então ele vem se popularizando, e atualmente as competições ocorrem em diversas partes do mundo. No Brasil o robô de sumo também vem ganhado adeptos e algumas competições já se destacam, a exemplo do Desafio da UFRGS de Robôs (REGRAS, 2007) e da Competição brasileira de Robótica (CBR, 2007) evento apoiado pela Sociedade Brasileira de Computação (SBC), pelo IEEE ( Institute of Electrical and Electronics Engineers), pela SBA (Sociedade Brasileira de Automação) e pela Robocup.

Figura 3.1:Arena do sumˆo de robˆo.

O sumô de robô assim como sua variante para humanos é uma competição entre dois in-div´ıduos cujo objetivo é empurrar o oponente para fora dos limites da arena, se mantendo dentro dela. A arena consiste de uma área circular cujo tamanho varia de acordo com as regras esta-belecidas para a competição. Essa área é pintada numa cor escura não reflexiva, e na borda

(17)

dessa área existe uma faixa branca cujas dimensões são proporcionais à área interna, e serve para indicar o limite da arena. A Figura 3.1 ilustra a arena do sumô de robô.

A competição de sumô de robô normalmente é categorizada de acordo com duas carac-ter´ısticas dos robôs: peso e autonomia. Na primeira, os robôs são agrupados com base na suas dimensões e peso; existem várias categorias como microsumô, minisumô, sumô até 2, 3 e 9 kg entre outras, cujos limites variam de acordo as regras da competição. No quesito autonomia, os robôs são classificados em radio-controlados ou autônomos, sendo estes últimos o foco deste projeto. A Figura 3.2 ilustra alguns modelos de robôs.

Figura 3.2: Exemplos de robˆos de sumˆo.

Maiores detalhes sobre o sumo de robˆos, suas regras e categorias podem ser vistas em (FUJISOFT, 2007; REGRAS, 2007; COOK, 2005; CBR, 2007)

(18)

4 Sistemas classificadores

Os sistemas classificadores (SC) ou LCS (Learning Classifier System), descritos original-mente por Holland (1976), podem ser definidos como um tipo de sistema baseado em regras com mecanismos para processamento paralelo, para avaliação da efetividade das regras existentes e geração adaptável de novas regras. Trata-se de uma metodologia para criação e atualização evolutiva de regras (classificadores) em um sistema de tomada de decisão, que codifica alter-nativas de ações espec´ıficas para as caracter´ısticas de um ambiente em determinado instante (BOOKER; GOLDBERG; HOLLAND, 1989).

Um sistema classificador funciona interagindo com um ambiente, recebendo informações deste e, dado um conjunto de regras, atua sobre o mesmo utilizando-se da regra que melhor se adapte a informação recebida. Moussi (2002) destaca como principal caracter´ıstica dos SC, sua habilidade de aprender em ambientes não estacionários e em tempo real, inclusive com a presença de ru´ıdo.

As regras, ou classificadores, que compõem um SC são do tipo SE (condição) ENT ÃO (ação), onde a condição (também chamada de antecedente) reflete uma informação coletada do ambiente pelo sistema através de sensores, e a ação (conseqüente) representa a capacidade do sistema atuar sobre o ambiente a partir de seus atuadores. No caso espec´ıfico de um robô de sumô, um sensor pode ser um foto transistor que permita detectar os limites da arena ou mesmo um mecanismo de ultra-som que indique a localização do oponente. Já os motores que acionam as rodas seriam um exemplo de atuadores.

Um classificador, na implementação original (HOLLAND, 1976), é uma cadeia de caracte-res do seguinte alfabeto ternário {0,1,#} no qual o caractere # repcaracte-resenta um coringa, ou “don’t care”na literatura em inglês, que representa uma posição na cadeia cujo valor do caractere, se é 1 ou 0, não importa. Cada classificador tem associado um valor denominado energia ou força que indica o grau de sucesso ou adaptação de um classificador.

Além dessa abordagem binária para codificação das mensagens vindas do ambiente, é poss´ıvel também representar um classificador de outras maneiras, como por exemplo, um número

(19)

Tabela 4.1: Exemplos de Classificadores.

Item Classificadores ou Regras(Condição:Ação) Energia

A 1#1#:11 8

B 110#:01 5

C 1111:11 15

D #0##:10 19

real ou qualquer outro tipo de representac¸˜ao de dados.

A Tabela 4.1 apresenta um conjunto de classificadores, cujo condicional representa o es-tado de quatro sensores de limite de arena (edge line sensor, ELS). Na parte da ac¸˜ao, cada bit representa o estado de um dos motores, 1- ligado e 0 - desligado.

A Figura 4.1 ilustra os componentes de um sistema classificador de Holland:

Figura 4.1:Diagrama do sistema classificador de aprendizagem.

O funcionamento ocorre da seguinte maneira: as informações adquiridas dos sensores, após serem codificadas e convertidas no formato do classificador, são armazenadas numa lista de mensagens (Message List), o sistema então compara as mensagens com as condições das regras conhecidas (o conjunto [N]). As regras cujas condições sejam compat´ıveis com a mensagem são selecionadas (passam a fazer parte de um conjunto [M]) e passam a disputar o direito de atuar sobre o ambiente.

Internamente, os Sistemas Classificadores dividem-se em três subsistemas distintos e inte-rativos : o Subsistema de Tratamento de Regras e Mensagens , o Subsistema de Apropriação de

(20)

Cr´edito e o Subsistema de Descoberta de Novas Regras. A Figura 4.2 ilustra os subsistemas de um sistema classificador.

Figura 4.2: Subsistemas de um sistema classificador de aprendizagem de Holland.

4.1 Subsistema de Tratamento de Mensagem

O Subsistema de Tratamento de Mensagem é responsável pela recepção e codificação das mensagens vindas do ambiente(informação dos sensores), além de selecionar as regras que mais se assemelhem a mensagem, as colocam no conjunto [M] (figura 4.1). Em um estágio seguinte, estas regras disputarão entre si o direito de atuar sobre o ambiente.

Os critérios utilizados para escolha das regras que disputarão o direito de atuar sobre o sis-tema é a semelhança do seu antecedente com a mensagem vinda do ambiente. Duas abordagens foram encontradas na literatura para determinar o grau de similaridade de um classificador com a mensagem. A primeira proposta em Booker, Goldberg e Holland (1989) utiliza-se do cálculo de uma variante da distância de Hamming através da equação

M= (l − n)

(21)

onde:

l: corresponde ao comprimento do vetor de bits; n: é o numero de 0’s e 1’s que não se combinarão.

A principal vantagem da utilização dessa abordagem, é que a mesma permite que indiv´ıduos mais espec´ıficos em classificadores muito longos tenham chance de competir com indiv´ıduos menos espec´ıficos (BOOKER; GOLDBERG; HOLLAND, 1989)

Outra abordagem bastante comum e simples é a avaliação do grau de especificidade do classificador. O grau de especificidade indica a quantidade de caracteres do tipo # presentes na regra, ou seja, quanto menos caracteres coringas uma regra possuir mais espec´ıfica ela será. A equação 4.2 exibe o cálculo da especificidade.

E= (na − nt)

na (4.2)

onde:

na: comprimento do antecedente; nt: o node # do antecedente.

No exemplo da Tabela 4.1, o classificador D possui o menor grau de especificidade e o C o maior.

4.2 Subsistema de apropriação de crédito

No subsistema de apropriação de crédito ocorre um processo de competição entre os clas-sificadores que se identificaram com a mensagem vinda do ambiente e codificada pelo sistema de tratamento de mensagens. Cada um deles faz uma oferta (ou “bid”na literatura em l´ıngua inglesa) proporcional a sua energia.

Ao ”bid”é acrescido ou diminu´ıdo um ru´ıdo gaussiano, o qual permite que regras com menor energia tenham chance de competir, possibilitando ao sistema classificador percorrer uma região maior do espaço de busca na tentativa de encontrar regras mais adequadas mesmo que suas energias sejam menores. A soma do bid com o ru´ıdo gaussiano é chamada de bid efetivo ou ebid.

(22)

O bid é dado pela equação:

Bid(t) = k0 ∗ (k1 + k2 ∗ Espow) ∗ S(t) (4.3) onde:

Bid(t): ”Bid” no instante t;

k0: coeficiente de bid 0, referente à energia do classificador (constante positiva menor que 1); k1: constante de bid 1, referente à parte não espec´ıfica do classificador (constante positiva

menor que 1);

k2: constante de bid 2, referente `a parte espec´ıfica do classificador (constante positiva menor que 1);

E: especificidade do classificador associada à proporção de s´ımbolos “#”no classificador. SPow: parâmetro de controle da influência da especificidade no valor do bid (normalmente

igual a 1);

S(t): energia do classificador no instante t. O ebid é calculado pela equação:

eBid= Bid(t) + s bid ∗ N (4.4) onde:

eBid: Bid efetivo no instante t; Bid(t): Bid no instante t;

N: modulação caracterizada por um ru´ıdo com distribuição gaussiana de média 0 e variância 1; s bid: um parâmetro espec´ıfico do sistema, utilizado durante a competição, para determinar o

n´ıvel de perturbação desejado durante a aplicação do ru´ıdo gaussiano sobre o Bid(t).

A competição se passa da seguinte maneira, cada classificador do conjunto [M], Figura 4.1, apresenta seu lance efetivo, eBid, e o classificador que apresentar o maior valor se torna o vencedor do leilão e ganha o direito de atuar sobre o ambiente.

(23)

O subsistema de apropriação de crédito também é responsável pelos ajustes que afetarão a energia dos classificadores, da´ı vem seu nome. Tais ajustes podem ser classificados em dois tipos, taxações e recompensa.

Taxações são valores descontados da energia do classificador por sua participação em algum evento. A primeira é a taxa de vida, cobrada de todos os classificadores à cada n interações, cujo objetivo é permitir que classificadores que nunca são utilizados tenham sua energia diminu´ıda e fiquem pass´ıveis de substituição por novos classificadores. A taxa de vida é calculada pela equação 4.5:

Taxa v= 1 − (1/2)1/n (4.5) onde:

n: é a meia-vida do classificador, definida em números de iterações, pelo programador.

Outra taxa cobrada dos classificadores é pela disputa do direito de atuar sobre ambiente. O objetivo é evitar que os classificadores participem constantemente do leilão sem nunca ganhá-lo. A taxa de participação é cobrada apenas dos classificadores selecionados pelo sistema de tratamento de mensagens, conjunto [M], e seu cálculo é dado pela equação 4.6:

Taxa bid= Bid tax ∗ Bidt (4.6)

onde:

Taxa bid: taxa de participação na competição;

Bid tax: constante aplicada sobre o Bid do classificador; Bidt: Bid do classificador no instante t.

A última taxa é cobrada apenas do classificador vencedor do leilão que sofre um decréscimo de energia equivalente ao bid dado pelo mesmo. Essa taxa será utilizada como recompensa para o classificador vencedor da iteração anterior, esse mecanismo será explicado adiante.

Todos os classificadores que participam do leilão têm uma parcela de sua energia diminu´ıda como preço pela disputa do direito de atuar sobre o ambiente. Após o classificador vence-dor aplicar sua ação sobre o ambiente entra em ação um mecanismo de recompensa (Reward)

(24)

que de acordo com resultado da ação do classificador sobre o ambiente, irá recompensar, com acréscimo da energia do classificador caso o resultado seja positivo, e o decréscimo da mesma para um resultado negativo.

Licpins et al. (1989) discute várias abordagens para o processo de atribuição de crédito, das quais duas se destacam. A abordagem ”est´ımulo-resposta”prevê uma atribuição de crédito (punição ou recompensa) para toda mensagem apresentada ao sistema classificador. Essa abor-dagem é interessante quando o resultado esperado do sistema depende da ação isolada de cada classificador.

A outra abordagem é conhecida como “bucket-brigade”e consiste em busca criar uma seqüência de classificadores que levem a um resultado positivo. O procedimento consiste em atribuir o lance do classificador vencedor atual ao vencedor da interação anterior e assim suces-sivamente até o final do per´ıodo desejado, sendo que o último vencedor recebe a recompensa definida pelo programador. A idéia é que a punição, ou a recompensa, seja distribu´ıda ao longo de uma cadeia de classificadores, beneficiando as cadeias que levem a resultados positivos ou punindo as cadeias que levem a resultados negativos. Essa abordagem é mais aplicável quando uma seqüência de classificadores representa o resultado esperado do sistema.

A energia de cada classificador ao final de uma iteração t é dada pela equação 4.7

S(t + 1) = (1 − Taxa v) ∗ S(t) + R(t) − Bid(t) − Taxa bid (4.7) onde:

Taxa v: taxa de vida do classificador; S(t): energia do classificador no instante t.

R(t): valor baseado na retroalimentação do sistema, punição ou recompensa (R(t) =0 caso o classificador não tenha sido vitorioso no instante t);

Bid(t): Bid do classificado no instante t (Bid(t) =0 caso o classificador n˜ao tenha sido vitorioso no instante t);

Taxa bid: taxa de participação na competição (Taxa bid =0 caso o classificador não tenha competido no instante t);

(25)

4.3 Subsistema de descoberta de novas regras

A cada n interações, sendo “n”um valor inteiro definido pelo programador, um algoritmo genético atua sobre a população de classificadores de forma a otimizá-la e criar uma nova geração mais apta às condições ambientais naquele instante. Os Algoritmos Genéticos são discutidos no Cap´ıtulo 5.

A idéia central no processo de descoberta de novas regras é gerar novos classificadores baseando-se nos classificadores mais aptos do conjunto de regra. O processo ocorre em três fa-ses: na primeira fase, os indiv´ıduos são selecionados para reprodução (o número de indiv´ıduos depende da taxa de cruzamento, definida pelo programador). No processo de escolha é inse-rido um fator aleatório para permitir indiv´ıduos menos aptos tenham alguma chance, ainda que pequena, de serem selecionados.

A segunda fase do processo é a reprodução dos classificadores selecionados na fase anterior e a aplicação do operador de mutação sobre a população. Como as implementações clássicas de sistemas classificadores trabalham com tamanho constante da população, a terceira fase é a reestruturação da população, que consiste em escolher os indiv´ıduos da população original que serão substitu´ıdos pelos novos.

Os critérios de seleção de classificadores a serem substitu´ıdos se baseiam no valor da ener-gia do classificador. Uma das abordagens poss´ıveis é selecionar um grupo de classificadores da população de forma aleatória e substituir o classificador com menor energia nesse grupo por um dos novos classificadores gerados. Outra abordagem é substituir os classificadores com me-nor energia em toda a população. O percentual de classificadores substitu´ıdos é definido pelo programador.

O subsistema de descoberta de novas regras, mais especificamente o algoritmo genético, é responsável pelo caráter adaptativo do sistema classificador e o seu ajuste de forma correta é fundamental para o bom funcionamento do sistema classificador.

(26)

5 Algoritmos Gen´eticos

Os Algoritmos Genéticos (AG), propostos por Holland (1976), pertencem a uma classe de algoritmos que se baseiam nos conceitos de seleção natural e evolução presentes na na-tureza e descritos por (DARWIN, 1859;1993), propondo soluções adaptativas para problemas em pesquisas numéricas, otimização de funções e aprendizagem de máquina. Esse ramo da computação é chamado de Computação Evolutiva (FILHO; VARGAS; ZUBEN, 2003).

Atmar (1994) define um algoritmo genético como um conjunto predeterminado e bem defi-nido de regras e processos com operações finitas destinados à busca estocástica polarizada. Vale salientar que apesar do caráter estocástico ou aleatório dos algoritmos genéticos, eles são capa-zes de explorar com eficiência a memória passada, no sentido de polarizar a busca por regiões promissoras no espaço de candidatos à solução (GOLDBERG, 1989). Os algoritmos genéticos permitem uma exploração muito mais ampla do universo de poss´ıveis soluções para um pro-blema do que os algoritmos convencionais. A Figura 5.1 ilustra o processo de funcionamento de um AG.

O ciclo de execução de um algoritmo genético ocorre da seguinte maneira. Para cada clas-sificador da população é efetuada uma medição do grau de adaptação (fitness) do indiv´ıduo ao problema em análise, no caso dos sistemas classificadores o fitness é seu próprio valor de Energia.

Um critério de parada (número de ciclos, um valor limite de fitness ou algum outro critério peculiar ao problema) é analisado para indicar o fim da execução do AG. Caso este critério ainda não tenha sido contemplado, o AG prossegue aplicando os operadores de seleção, cruzamento (crossover) e mutação sobre a população, de forma a encontrar novos indiv´ıduos e buscar novas soluções. Todo o ciclo se repete até que o critério de parada seja satisfeito.

Os elementos que compõe um algoritmo genético são explicados a seguir.

População: Conjunto de indiv´ıduos sobre o qual o algoritmo genético atua. É inicializada com valores aleatórios ou não (quando se tem algum conhecimento prévio sobre o processo

(27)

Figura 5.1:Ciclo de execução de um algoritmo Genético.

em análise, a escolha da população inicial pode acelerar o processo de busca dos melhores resultados.)

Indiv´ıduo: Cada integrante da população, especificamente nos sistemas classificadores, um individuo é um classificador.

Cromossomo: Representação de um indiv´ıduo. A figura 5.2, ilustra um cromossomo represen-tado no formato binário. É poss´ıvel também representar um cromossomo sob qualquer forma de representação de dados, como número real, entre outras. Baeck, Fogel e Micha-lewicz (2000) apresentam maiores detalhes sobre representações.

Figura 5.2: Cromossomo na representação binária.

Geração: Conjunto de indiv´ıduos resultante de cada iteração do algoritmo genético.

Função de avaliação(fitness): Medida do grau de adaptação ou de sucesso de um indiv´ıduo ao ambiente.

(28)

Seleção: Mecanismo de escolha dos indiv´ıduos para criar uma nova geração de indiv´ıduos. Um dos mecanismos utilizados é denominado ”Roulette wheel”, ou método da roleta (GOLDBERG, 1983). Este método consiste em normalizar os valores de energia dos cromossomos numa escala de 0o a 360o(número de graus numa circunferência). Posteri-ormente, é feito um sorteio de um valor nessa mesma faixa, e os indiv´ıduos que possu´ırem os valores de energia sorteados são selecionados. A Figura 5.3 ilustra este processo:

Figura 5.3:M´etodo da Roleta (Roullete Wheel).

Observe que mesmo um individuo menos adapto (menor energia) tem uma probabili-dade, ainda que pequena, de ser selecionado. Isso serve para garantir a diversidade na população, permitindo que o AG explore uma parcela maior do universo de soluções e não sofra uma convergência precoce para uma pequena região de exploração. O operador de mutação também ajuda neste processo.

Outra forma de seleção de indiv´ıduos é o elitismo, que consiste em selecionar sempre os indiv´ıduos mais aptos(maior energia). Essa abordagem é interessante quando se deseja preservar os melhores indiv´ıduos e é geralmente empregada em conjunto com outros métodos de seleção. Outras formas de Seleção podem ser encontradas em Baeck, Fogel e Michalewicz (2000).

Operadores Genéticos: Aqui os indiv´ıduos selecionados anteriormente têm a chance de per-petuar seu material genético, ou ao menos parte deste material, através da aplicação dos operadores genéticos de cruzamento e mutação.

Crossover(Cruzamento): o operador de crossover, ou cruzamento, permite que dois indiv´ıduos façam a permuta de informações genéticas. Uma das formas de realizar o cru-zamento é escolher um ponto de corte (definido pelo programador, baseado em critérios emp´ıricos) e toda informação contida a partir desse ponto num cromossomo é transferida

(29)

para o outro e vice-versa, ao final têm-se dois novos indiv´ıduos que podem substituir os menos adaptados da população inicial. A Figura 5.4 ilustra esse processo. Essa forma de crossover é chamada de n-crossover, onde o n representa um ponto de corte, a partir do qual o conteúdo cromossomos serão trocados. Maiores detalhes sobre o operador e tipos de crossover podem ser vistos em Baeck, Fogel e Michalewicz (2000).

Figura 5.4:Crossover.

Mutação: este operador, como já foi citado, ajuda a evitar que o algoritmo tenha uma convergência muito rápida para pequenas regiões , forçando o algoritmo a percorrer uma parcela maior do universo de soluções poss´ıveis para o problema. A mutação é feita, esco-lhendo, um bit aleatório em um cromossomo (na representação binária) e invertendo seu valor. A taxa de mutação é definida pelo programador baseando-se também em critérios emp´ıricos.

Critério de parada Caracterizado pela obtenção de uma solução satisfatória ou pelo término do tempo computacional pre-estabelecido (FOGEL, 1999). A escolha do critério de pa-rada está condicionada a natureza do problema a ser resolvido. No caso de otimização de funções, por exemplo, o critério de parada é normalmente a menor diferença entre o valor obtido e um valor considerado ótimo.

No caso dos sistemas classificadores o critério de parada é a obtenção de um valor m´ınimo (definido pelo programador) da diferença entre as energias médias da população de clas-sificadores entre rodadas consecutivas. A energia média da população de clasclas-sificadores é um critério que serve como parâmetro de indicação de sucesso do sistema classificador e será melhor detalhada no Cap´ıtulo 8.

Nos sistemas classificadores, o algoritmo genético é utilizado para geração de novas regras. Os cromossomos são os próprios classificadores e o fitness é a energia do classificador. O

(30)

algoritmo genético é aplicado de tempos em tempos sobre a população de classificadores e aqueles com menores valores de energia são substitu´ıdos pelos novos classificadores.

(31)

6 Simulação em Robótica

A simulação consiste na representação, através de equações matemáticas, de processos ou operações reais em computadores. A simulação é bastante utilizada em robótica com o objetivo de acelerar o processo de desenvolvimento e reduzir os custos com a prototipagem, isso porque mudanças e ajustes no âmbito da simulação são muito mais fáceis e muito menos dispendiosas para serem executados.

Um simulador na robótica faz a representação de duas coisas, primeiro do robô (forma, comportamento, sensores, movimento) e segundo do ambiente no qual esse robô está inserido. Um simulador de sumô de robôs deve modelar a arena e os robôs, com seus conjuntos de sensores e atuadores.

Foi feita uma análise de alguns simuladores com objetivo de definir um ambiente para implementação do sistema de controle. Nessa análise foram consideradas, de forma subjetiva, algumas caracter´ısticas:

1. N´ıvel de f´ısica simulada: o n´ıvel da f´ısica simulada caracteriza o grau de realismo do simulador, quanto mais próximo da realidade, maiores as chances de sucesso do protótipo no mundo real. Em contrapartida, o aumento da complexidade da f´ısica simulada, há um aumento dos requisitos de processamento, e também nas dificuldades no processo de desenvolvimento.

2. Visualização: representa a sa´ıda do simulador, a maneira como o usuário vê o processo si-mulado. Pode ser textual (onde são exibidos os resultados obtidos da sa´ıda das equações) ou possuir visualização 2D ou 3D. Quanto mais elementos na visualização mais fácil é o processo de desenvolvimento e depuração de erros.

3. Linguagens de programação utilizadas para a implementação do protótipo: É interessante que o simulador ofereça suporte a linguagens conhecidas, como C, C++, Java entre outras, facilitando o processo de aprendizagem e operação do mesmo.

(32)

4. Algumas outras caracter´ısticas como a existência de modelos para o sumô de robôs foram consideradas também.

Simuladores como o Player, o Webots, o Khepera Simulator, foram analisados, mas o des-taque ficou por conta de um ambiente voltado para a prototipagem e simulação de robôs desen-volvido pela Microsoft, o Robotics Studio, o qual possui um ambiente para implementação de robôs de sumô, sendo esse o principal motivo que inicialmente levou à sua escolha.

6.1 Microsoft Robotics Studio

O Microsoft Robotics Studio (MRS) é um ambiente que permite a criação de aplicações em robótica oferecendo suporte a plataformas de hardware de diversos fornecedores, além de permitir ao desenvolvedor a confecção de sua própria plataforma. O MRS possui, além do am-biente de design e programação, um amam-biente de simulação (Microsoft Robotics Simulation) que permite a avaliação do protótipo antes de sua implementação, poupando tempo no desen-volvimento de novas aplicações e reduzindo custos.

O Microsoft Robotics Studio possui uma arquitetura orientada à serviços. Um serviço é uma unidade de software independente que em conjunto com outras unidades representam uma aplicação (ERL, 2004). À primeira vista o conceito de serviço pode se assemelhar ao conceito de componente , pois assim como este, um serviço também é um contrato, um conjunto de ações a serem realizadas.

A principal diferença serviços e componentes é que os serviços são por natureza dis-tribu´ıdos. Assim construir uma aplicação no MRS significa desenvolver unidades menores e independentes e coordenar estas unidades de forma a ter o resultado esperado. O principal foco desse tipo de arquitetura é a simplicidade, interoperabilidade e o baixo acoplamento dos serviços, permitindo o reuso de serviços e reduzindo conseqüentemente o retrabalho.

A Figura 6.1 ilustra um digrama de uma aplicação orientada a serviços. Os blocos sensor 1, sensor 2 e sensor 3 são serviços que representam sensores (sensor de infravermelho, sensor de contato etc.). Os blocos motor são serviços que representam motores que acionam rodas. O serviço orquestrator simplesmente consome as entradas geradas pelos sensores tomando as ações correspondentes às mesmas através do acionamento ou não dos serviços motores.

As principais vantagens do MRS s˜ao:

(33)

Figura 6.1:Diagrama de uma aplicac¸˜ao no MRS.

mercado, programá-los e efetuar simulações com os mesmos.

• Suporte a diversas linguagens de programação: C# , Visual Basic, J#, Phyton e qualquer outra compat´ıvel com a CLS (Common Language Specification) do Ambiente .NET. • Uma biblioteca dos serviços comumente utilizados em aplicações robóticas, como câmeras,

sensores de toque, motores, fontes de energia, diferenciais, entre outros. • Visualização gráfica 3D e uma f´ısica simulada bastante realista.

O principal ponto negativo do MRS é a pouca disponibilidade de material para aprendiza-gem, isso ocorre pelo fato de ainda ser uma novidade no mercado. Além da documentação dis-ponibilizada pelos desenvolvedores sobre o MRS, foram encontradas apenas duas publicações, que ainda não estão dispon´ıveis no mercado nacional. Por esse motivo, alguns problemas não puderam ser solucionados em tempo hábil o que impossibilitou o término da implementação do sistema de controle no Robotics Studio.

6.2 Implementac¸˜ao do Simulador

Devido aos problemas encontrados no Robotics Studio e diante da impossibilidade de resolve-los, optou-se pela implementação de um simulador em linguagem Java. O objetivo esperado com o simulador era a obtenção de um ambiente que possibilitasse a avaliação e treinamento do sistema de controle desenvolvido

(34)

O simulador possui visualização 2D e uma f´ısica simulada bastante simples.O simulador ve-rifica colisões e toma ações baseado em equações f´ısicas da mecânica clássica. A implementação do processo de tratamento de colisão baseou-se na implementação dispon´ıvel em (COLLI-SION, 2004). Os robôs são representados por c´ırculos, as colisões são detectadas calculando a distância entre o centro das circunferências, pela equação 6.1:

d= ((x2 − x1)2+ (y2 − y1)2)1/2 (6.1) Onde: (x1,y1) representam as coordenadas da primeira circunferˆencia e (x2,y2) as coorde-nada da segunda.

Se o valor da distância for inferior ou igual a soma dos raios das circunferências considera-se que houve colisão. A figura 6.2 ilustra o simulador:

Figura 6.2:Interface do simulador.

A interface do simulador é bem simples e intuitiva, havendo um botão para iniciar a simulação, outro para interromper e outro para reiniciar o processo de simulação, além de duas caixas de seleção que permitem desabilitar a interface gráfica e a execução da simulação de forma cont´ınua (a simulação irá parar ao final da execução da rodada).

(35)

ângulo entre sua direção de movimento e a localização do oponente. O simulador também informa ao robô quando ele está sobre o limite da arena e passa também o ângulo formado entre a direção de movimento do robô e o centro da arena. Essa informação permite ao robô inferir sua localização na arena e tomar as ações apropriadas.

Apesar das simplificações, o simulador atende as necessidades de avaliação do sistema de controle implementado, principalmente em avaliar a viabilidade dos sistemas classificadores como mecanismo de controle de um robô de sumô.

(36)

7 Sistemas classificadores aplicados ao

sumo de Robˆo

O primeiro passo no processo de construção de um sistema classificador é a escolha da forma de representação da regra. Como citado no Cap´ıtulo 4,sobre sistemas classificadores, é poss´ıvel utilizar qualquer representação de dados. Nesse trabalho a representação binária se justifica pela própria natureza da informação, ou seja, a maioria dos sensores de um robô já apresenta sa´ıdas neste formato evitando assim uma conversão que poderia levar a perda de informações e ao aumento do tempo de execução do sistema de controle.

Decidida a forma de representação, o passo seguinte é a determinação das informações a serem codificadas. Isso está diretamente relacionado com o modelo de robô implementado. O modelo escolhido para ser desenvolvido possui as seguintes caracter´ısticas:

Sensores de faixas: permite ao robô detectar os limites da arena. Na simulação o robô re-cebe a informação que está sobre a faixa limite da arena e também um ângulo α entre a direção do centro da arena e a direção do movimento do robô(ver Figura 7.1). Com estas informações é poss´ıvel ao robô inferir qual parte do seu corpo esta sobre a borda. Assim o robô simulado consegue reproduzir um comportamento parecido com um robô real com sensores de faixa em cada uma de suas arestas.

Figura 7.1: Angulo de localização da faixa. α : ângulo entre o vetor V (direção deˆ deslocamento do robô) e a reta L (distância do centro do robô ao centro da arena).

(37)

Sensores de presença: na simulação considerou-se que o robô tem uma visão de 360◦ a sua volta, e o simulador passa ao robô informações sobre a distância do oponente e o ângulo formado entre sua direção de movimentação e a direção da posição do oponente(ver Fi-gura 7.2).

Figura 7.2: Informações sobre a localização do oponente. β : ângulo formado entre a distância d do oponente e direção V de deslocamento do robô

Movimentação: a movimentação do robô é alterada variando as componentes x e y da sua aceleração, chamadas de ax e ay. A aceleração é relativa ao plano de movimentação do robô. Assim variando os valores de ax e ay é poss´ıvel imprimir uma aceleração ao robô em qualquer direção.

Definidas as informações que o robô dispõe (ângulo e distância do oponente, estar ou não sobre o limite da arena e o ângulo do centro da arena) e as ações que ele pode tomar (controle da intensidade e direção da aceleração), o próximo passo foi definir a composição e a estrutura do classificador.

Figura 7.3: Configuração do antecessor do classificador implementado, 1- sensor de faixa, 2- ângulo formado entre a direção de deslocamento do robô e o centro arena, 3-presença do oponente, 4-distância do oponente e 5- ângulo da localização do oponente.

A estrutura do classificador foi definida da seguinte forma: o antecessor possui compri-mento de 11 bits, sendo 1 bit para indicar se o robô está sobre o limite da arena, 3 bits para indicar a posição do robô em relação ao centro da arena, os quais bits são setados com valor zero quando o robô não está sobre o limite da arena.

(38)

Ainda tem 1 bit para indicar a presença do oponente, 3 bits indicam a distância do oponente e mais 3 bits indicam a direção do mesmo. A Figura 7.3 ilustra a estrutura do antecedente do classificador.

O processo de codificação dos valores recebidos dos sensores em valores binários segue o seguinte esquema.

1. Se o robô está sobre a faixa o valor do primeiro bit é 1, caso contrário o valor é 0.

2. Se o robô está sobre a linha, os três bits seguintes representam o ângulo α entre o robô e o centro da arena codificado conforme a figura, valores entres 0 e 45◦ são codificados com ”000”, entre 45◦ e 90◦ como 001 e assim sucessivamente utilizando a codificação Gray (Figura 7.4), para evitar que entre faixas adjacentes exista mudança em mais de um bit. Se o 1◦bit for zero, os três bits dessa seqüência também serão

Figura 7.4:Codificação do ângulo (código Gray).

3. O quinto bit representa presença do oponente e vale 1 se o oponente está vis´ıvel e zero caso contrário.

4. O sexto, o sétimo e o oitavo bit representam o ângulo β entre a direção de movimento do robô e a posição do oponente figura, a codificação é feita da mesma forma que o ângulo do item 2.

5. O nono, o décimo e o décimo primeiro bit representam a distância do oponente norma-lizada entre 0 e 100, onde 0 representa a menor distancia, quando os robôs se tocam e 100 representa a distância máxima em que o oponente ainda aciona o bit 5. A tabela 7.1 mostra a codificação do valores.

O conseqüente do classificador é composto por seis bits, sendo que três representa a inten-sidade da aceleração distribu´ıda na faixa de 0 a 21 pixels/iteração conforme a Tabela 7.2.

(39)

Distˆancia(normalizada) Valor bin´ario 0-20 000 20-40 001 40-60 010 60-80 011 80-100 100

Tabela 7.1: Codificação da distância do oponente.

Aceleração (intensidade) Valor binário

0 000 3 001 6 010 9 011 12 100 15 101 18 110 21 111

Tabela 7.2: Intensidade da acelerac¸˜ao.

Ax Ay Valor bin´ario 0 0 000 0 -1 001 1 0 011 1 1 010 0 1 110 -1 1 111 -1 0 100

(40)

Os três bits restantes indicam a direção da aceleração, a tabela 7.3 ilustra a codificação: Na primeira vez que o sistema é executado os classificadores são inicializados aleatoria-mente com energia igual a oitenta unidades. A cada ciclo do sistema classificador, é descontada a taxa de vida de cada classificador, conforme a Equação 4.5. A meia vida foi definida em 5000 interações.

O mecanismo de recompensa/punição possui duas atuações: a primeira age no final de cada rodada, aumentando a energia do último classificador em trinta unidades (valor emp´ırico) em caso de comportamento vitorioso (conseguir retirar o oponente da arena até o final da rodada) e retirando trinta unidades em caso de derrota (ser retirado da arena pelas suas próprias ações ou pelas ações do oponente).

Durante a execução da rodada, o bid do classificador vencedor no instante t é transferido para o vencedor do instante t-1 conforme o mecanismo de atribuição de crédito bucket brigade descrito na cap´ıtulo 4, sobre sistemas classificadores.

Um outro mecanismo de recompensa age durante a rodada, incrementando a energia do classificador em uma unidade se ele aproxima-se do oponente ou se afasta das bordas da arena, e decrementando uma unidade se ele afasta-se do oponente ou se aproxima da borda.

A cada n-rodadas o algoritmo genético atua sobre a população de classificadores. Esse algoritmo emprega o elitismo com taxa de 80% de forma a preservar a maior parte da população. Os cromossomos são selecionados pelo método roulette wheel e cruzados com taxa de 70%.

A energia inicial dos novos classificadores gerados na reprodução é a média das energias dos classificadores selecionados como pais. Os indiv´ıduos gerados poderão, dependendo do seu valor inicial ( de energia, ocupar o lugar dos 20 % restante do elitismo.

Sobre a população final ainda age um operador de mutação com taxa de 5%, os classificado-res classificado-resultantes deste processo são inseridos na população no lugar dos classificadoclassificado-res originais. Sempre que a energia de uma classificador chega a um valor menor que zero, ele é subs-titu´ıdo por um novo classificador, gerado de forma aleatória e com energia igual a média da população.

(41)

8 Experimentos e Resultados

Os primeiros testes realizados tinham como objetivo apenas o ajuste dos parâmetros do sistema classificador. Para tanto, foi desenvolvido um experimento não gráfico, onde o objetivo era manter um ponto, que representava o robô, dentro dos limites de uma área quadrada de tamanho variável. Não havia interesse em avaliar o desempenho e sim, se havia convergência, ou seja, se o sistema era capaz de manter o ponto dentro dos limites da área.

Foram efetuados testes com vários tamanhos da população de classificadores, a qual era inicializada com indiv´ıduos aleatórios. Para esse experimento foi poss´ıvel verificar que o sis-tema era capaz de manter o ponto dentro da área, e continuar a repetir esse comportamento após algumas poucas rodadas permitindo concluir que havia convergência no processo e que o sistema classificador estava operando dentro do esperado.

Os experimentos seguintes foram realizados no simulador desenvolvido e o objetivo era a verificação do funcionamento do sistema implementado, a partir da análise do comportamento apresentado pelo robô (observação da distância do robô oponente, da aproximação dos limites da arena, da quantidade de vezes que o robô retirava o oponente da arena e também da quanti-dade de vezes que ele mesmo sa´ıa) e da análise da população de classificadores, especificamente da análise da energia média da população em cada rodada.

A solução esperada para o problema do sumô de robô é representada pela ativação de uma seqüência correta de classificadores, que serão recompensados com o aumento de suas respec-tivas energias e possivelmente serão selecionados para gerarem novos classificadores, elevando assim o valor da energia média da população de classificadores. Assim a energia média da população de classificadores é um bom indicativo do desempenho do sistema classificador.

Foram realizados vários experimentos com objetivos distintos: verificar o funcionamento, avaliar o impacto do tamanho da população e da freqüência de aplicação do algoritmo genético na variação da energia média, entre outros objetivos. A seguir são discutidos os principais experimentos realizados.

(42)

Experimento 1 Condições gerais do experimento: população iniciada aleatoriamente, com ta-manho de 10 e 25 classificadores, rodadas com duração de 50s e com a aplicação do algoritmo genético a cada cinco rodadas. A posição de inicio de cada robô é constante ao longo das rodadas e o oponente esta em repouso. O objetivo desse experimento é avaliar a influência do tamanho da população de classificadores no comportamento do sistema classificador. O gráfico da figura 8.1 ilustra o comportamento da energia média da população de classificadores.

Figura 8.1:Resultado do Experimento 1 - O gráfico à esquerda representa a variação da energia média de uma população de 10 classificadores. O gráfico à direita mostra a variação para uma população de 25 classificadores

´

E poss´ıvel verificar que nas rodadas iniciais há uma grande oscilação da energia média, isso é esperado pelo fato dos classificadores haverem sido inicializados de forma aleatória e a esco-lha dos mesmo para execução também não segue padrão algum. À medida que os mecanismos de recompensa e punição entram em ação, começa a ser estabelecida uma relação entre a men-sagem apresentada e a sa´ıda do sistema, tornando a sa´ıda mais coerente com objetivo proposto, e provocando o aumento da energia média da população de classificadores.

´

E poss´ıvel observar na Figura 8.1 que o per´ıodo de ajuste para uma população de 10 clas-sificadores é bem maior que para uma população de 25. Esse comportamento também foi ob-servado para tamanhos maiores de população, ou seja a medida que a população era aumentada o per´ıodo de ajuste ficava menor, só que a partir do tamanho de 25 classificadores não havia uma diferença tão grande nos per´ıodos de ajustes, como o foco desse sistema é trabalhar em-barcado, buscou-se um tamanho de população m´ınimo que apresentasse bons resultados, assim o tamanho de 25 classificadores foi escolhido como padrão.

A figura 8.2 mostra o comportamento do robô em dois momentos, a imagem à esquerda mostra a trajetória do robô durante uma das primeiras rodadas, logo após a inicialização do sistema classificador. A imagem à direita exibe a trajetória do robô em uma rodada perto do

(43)

final do treinamento. É poss´ıvel observar a evolução do sistema de um resultado aleatório e incerto para um comportamento que leva o robô a localizar o oponente, deslocar-se em sua direção e retira-lo da arena.

Figura 8.2: Comportamento do robô para uma população de 25 classificadores -Experimento 1.

Experimento 2 Condições gerais do experimento: população iniciada aleatoriamente, com ta-manho de 25 indiv´ıduos, rodadas com duração de 50s e com a aplicação do algoritmo genético a cada 5 e 10 rodadas. A posição de inicio de cada robô é constante ao longo das rodadas e o oponente estar em repouso. O objetivo desse experimento foi avaliar a influência da freqüência de aplicação do algoritmo genético no comportamento do sis-tema classificador. O gráfico da figura 8.1 ilustra o comportamento da energia média da população de classificadores.

A variação da freqüência de aplicação do algoritmo genético afetou muito pouco o com-portamento da energia média, como o objetivo do sistema é trabalhar embarcado, optou-se por utilizar a freqüência de aplicação de 10 rodadas sobre a população de classificadores, reduzindo assim a demanda por processamento.

Experimento 3 Condições gerais do experimento: população iniciada aleatoriamente, com ta-manho de 25 indiv´ıduos, rodadas com duração de 50s e com a aplicação do algoritmo genético a cada 5 rodadas. Dois robôs controlados por sistemas classificados foram postos para duelar. O objetivo desse experimento era avaliar a eficácia do sistema classificador num combate com um oponente em constante movimentação.

(44)

Figura 8.3:Resultado do Experimento 2 - O gráfico à esquerda representa a variação da energia média de uma população de classificadores com freqüência de aplicação do Algoritmo genético de 10 rodadas. O gráfico à direita mostra a variação para uma população de classificadores com freqüência de aplicação do Algoritmo genético de 5 rodadas.

O gráfico da figura 8.4 ilustra o comportamento da energia média da população de classi-ficadores.

Figura 8.4: Resultado do Experimento 3 - variação da energia média do sistema classificador frente a oponente em movimento.

Na avaliação da variação da energia média da população de classificadores é poss´ıvel ob-servar um comportamento similar aos demais experimentos, após um per´ıodo de ajuste, o valor da energia média tende ao crescimento mostrando que existe convergência.

A analise do comportamento e da trajetória seguida pelo robô controlado pelo sistema classificador mostra que após algumas rodadas( per´ıodo de ajuste) ele é capaz de localizar o oponente e deslocar-se em sua direção, confirmando a tendência de convergência do sistema classificador.

(45)

9 Conclus˜ao

Esse trabalho propôs a construção de um sistema de controle de robô de sumô baseado em sistemas classificadores, com objetivo de projetar um robô móvel capaz de explorar e adaptar-se melhor ao ambiente de sumô e as caracter´ısticas dos oponentes. Todo projeto foi implementado em ambiente simulado, por razões de custo, tempo de projeto e pelas facilidades oferecidas pela simulação conforme explicado em seção especifica.

Inicialmente desejava-se utilizar o ambiente de sumô de robôs dispon´ıvel para o Robotics Studio, ambiente de projeto e simulação de robôs com arquitetura orientada a serviço desenvol-vido pela Microsoft e compat´ıvel com a plataforma .net. Devido as dificuldades técnicas emR

operar o Robotics Studio, ocasionadas principalmente pela pouca bibliografia dispon´ıvel sobre mesmo, optou-se pela implementac¸˜ao de um simulador em linguagem Java.

Os resultados obtidos com os testes no sistema implementado ainda não permitem concluir pela eficiência do sistema classificador como mecanismo de controle de um robô de sumo, mas indicam ser poss´ıvel sua aplicação com sucesso.

Dentre os objetivos propostos nenhum deixou de ser alcançado porém ainda é necessário ainda refatorar o código do simulador, com a correção de todos as falhas para que seja poss´ıvel o ajuste e a avaliação completa do sistema de controle implementado.

Em termos de trabalhos futuros seria interessante fazer um estudo comparativo com outras metodologias de controle como sistemas fuzzy e redes neurais, além da implantação e avaliação do sistema implementado em robôs reais, uma outra possibilidade seria o desenvolvimento de uma metodologia que possibilitasse o ajustes automático dos parâmetros do sistema classifica-dor.

(46)

Referˆencias Bibliogr´aficas

CHERRY, S. Robots, incorporated. IEEE Spectrum online, IEEE, August 2007.

ROBOCUP. Robocup. In: . Robocup, 2008. Dispon´ıvel em: <http://www.robocup.org/>. Acesso em: 20 jul. 2008.

RUSSELL, S. J.; NORVIG, P. Inteligˆencia artificial. 2. ed. [S.l.]: Elsevier, 2004.

FRANKLIN, S.; GRAESSER, A. Is It an agent, or just a program?: A taxonomy for autonomous agents. [S.l.]: Springer Berlin / Heidelberg, 1997. (Lecture Notes in Computer Science, v. 1193).

GEYER-SCHULZ, A. Holland classifier systems. SIGAPL APL Quote Quad, ACM, New York, NY, USA, v. 25, n. 4, p. 43–55, 1995. ISSN 0163-6006.

REGRAS. In: . III Desafio UFRGS de Robôs, 2007. Dispon´ıvel em: <http://www6.ufrgs.br/desafio robos/? op=regras>. Acesso em: 20 jul. 2008. CBR. In: . Competição Brasileira de Robótica, 2007. Dispon´ıvel em: <http://www.cbr2007.furg.br/>. Acesso em: 20 jul. 2008.

FUJISOFT. Fsi-all japan robot-sumo tournament. In: . Fujisoft, 2007. Dispon´ıvel em: <http://www.fsi.co.jp/sumo-e/>. Acesso em: 20 jul. 2008.

COOK, D. An illustrated guide to american robot sumo. In: . [s.n.], 2005. Dispon´ıvel em: <http://www.robotroom.com/SumoRules.html />. Acesso em: 20 jul. 2008.

HOLLAND, J. Adaptation,Progress in theoretical biology. [S.l.]: Academic Press, 1976. BOOKER, L. B.; GOLDBERG, D. E.; HOLLAND, J. H. Classifier systems and genetic algorithms. Artif. Intell., v. 40, n. 1-3, p. 235–282, 1989.

MOUSSI, L. N. Aplicações de Sistemas Classificadores para Robótica Autônoma Móvel com Aprendizado. Dissertação (Mestrado) — Unicamp, Novembro 2002.

LICPINS, G. E. et al. Alternatives for classifier system credit assignment. Proce-edings of the Eleventh International Joint Conference, v. 1, 1989. Dispon´ıvel em: <http://dli.iiit.ac.in/ijcai/IJCAI-89-VOL1/PDF/121.pdf>. Acesso em: 20 jul. 2008.

DARWIN, C. The Origin of Species by Means of Natural Selection Or The Preservation of Favored Races in The Struggle for Life. [S.l.]: The Modern Library, 1859;1993.

FILHO, C. L.; VARGAS, P. A.; ZUBEN, F. J. V. Redução de perdas em redes de distribuição de energia elétrica através de sistemas classificadores. Sba: Controle & Automação Sociedade Brasileira de Automatica, scielo, v. 14, p. 298 – 308, 09 2003. ISSN 0103-1759. Dispon´ıvel em: <http://www.scielo.br/scielo.php?script=sci arttext&pid=S0103-17592003000300009&lng=es&nrm=iso>.

(47)

ATMAR, W. Notes on simulation of evolution. IEEE TRANSACTIONS ON NEURAL NETWORKS, v. 5, n. 1, p. 130–147, Janeiro 1994.

GOLDBERG, D. E. Genetic Algorithms in Search, Optimization, and Machine Learning. 1. ed. [S.l.]: Addison-Wesley Professional, 1989.

BAECK, T.; FOGEL, D.; MICHALEWICZ, Z. Evolutionary Computation 1: Basic Algorithms and Operators. 1a. ed. [S.l.]: Taylor & Francis, 2000.

GOLDBERG, D. E. Computer-aided Gas Pipeline Operation Using Genetic Algorithms and Rule Learning. Tese (Doutorado) — University of Michigan, 1983.

FOGEL, D. B. Evolutionary Computation: Toward a New Philosophy of Machine Intelligence. 2. ed. [S.l.]: Wiley-IEEE Press, 1999.

ERL, T. Service Oriented Architecture. [S.l.]: Prentice Hall, 2004. ISBN 0-13-142898-5. COLLISION. In: . NTNUJAVA Virtual Physics Laboratory, 2004. Dispon´ıvel em: <http://www.phy.ntnu.edu.tw/ntnujava/index.php?topic=4>. Acesso em: 25 jul. 2008.