Dinâmica de Jogo - Arquitetura do D-MA-Draughts

ADABA-Draughts Este capítulo se refere ao objetivo especíĄco 4 relacionado na seção 1.3.1 Desta

D- MA-Draughts Inserindo o ADABA em uma plataforma multiagente

7.1 Arquitetura do D-MA-Draughts

7.3.1 Dinâmica de Jogo

A primeira dinâmica de jogo adotada pelo D-MA-Draughts, denominada DI, é ilustrada na Figura 47. O agente IIGA inicia a partida e a conduz até que o tabuleiro tenha, no mínimo, 13 peças. Quando o tabuleiro atinge no máximo 12 peças é caracterizado um estado de tabuleiro de Ąnal de jogo. A partir deste momento, este estado será enviado para a rede Kohonen-SOM que avaliará qual agente de Ąnal de jogo é o mais apto para se tornar o EGA da partida. Desta forma, uma vez deĄnido o EGA este conduzirá a partida até o Ąnal.

Figura 47 Ű Dinâmica de jogo I do D-MA-Draughts

7.3.2 Dinâmica de Jogo II

A segunda dinâmica de jogo adotada no D-MA-Draughts, denominada DII, é ilustrada na Figura 48. Como é possível observar, a DII consiste de uma pequena alteração na DI (seção 7.3.1), ou seja, o Ćuxo da partida é o mesmo até que seja atingido um estado de tabuleiro de Ąnal de jogo e um EGA seja deĄnido. Desta forma, haverá uma interação na escolha do EGA, de modo que, a cada nova jogada a ser executada pelo D-MA-Draughts, a rede Kohonen-SOM veriĄcará dentre os agentes de Ąnal de jogo o mais apto a se tornar o EGA e prosseguir a partida. Esta alteração foi realizada a Ąm de avaliar a cooperação de todos os agentes de Ąnal de jogo, visto que, após alguns movimentos, outro EGA poderá representar melhor o perĄl do estado corrente do tabuleiro e, consequentemente, apontar a decisão mais acertada.

Figura 48 Ű Dinâmica de jogo II do D-MA-Draughts

Em Ref. [3], todas as análises experimentais foram realizadas considerando estas duas dinâmicas. Em tal trabalho foi concluído que a maior cooperação entre os agentes de Ąnal de jogo proporcionada pela DII, permitiu uma atuação mais eĄcaz nos torneios disputa- dos. De fato, a segunda dinâmica apresentou melhor resultados na maioria das disputas realizadas entre o D-MA-Draughts e seus oponentes. Além disso, a DII também se des- tacou ao ser analisado os loops de Ąnal de jogo, uma vez que nos testes realizados houve

7.4. Agentes Individuais do D-MA-Draughts 149

uma diminuição signiĄcativa deste problema. Ressalta-se que um loop ocorre quando o agente começa uma sequência repetitiva de movimentos (loop) alternando-se entre posi- ções inúteis do tabuleiro, sendo que esses movimentos não modiĄcam o estado do jogo [21]. Neste caso, o jogo tem que ser forçadamente Ąnalizado após um determinado número de jogadas repetidas.

Apesar da boa performance da DII, em Ref. [3] não é apresentado um cenário de comparação entre a duas dinâmicas do D-MA-Draughts de modo a identiĄcar em disputas entre elas qual apresenta melhor resultado. Uma análise desta natureza pode deĄnir a dinâmica superior em relação a outra, e, consequentemente, deĄnir a dinâmica que o D-MA-Draughts adotará permanentemente nas suas partidas.

7.4 Agentes Individuais do D-MA-Draughts

Cada agente do D-MA-Draughts consiste de uma rede MLP treinada por reforço atra- vés dos métodos das Diferenças Temporais TD (Ú). Ressalta-se que, na primeira versão deste jogador, o mecanismo de tomada de decisão era composto pelo algoritmo distribuído YBWC (seção 3.1.1.3). Além disso, esta versão foi a utilizada na condução dos experimentos referentes à deĄnição da dinâmica Ąnal a ser adotada em partidas, visto que, tal etapa foi cumprida logo no início do desenvolvimento deste trabalho de doutorado e as outras abordagens de distribuição do Alfa-Beta ainda estavam em período de estudo.

Sendo assim, a nova versão do D-MA-Draughts passa a contar com a arquitetura do ADABA-Draughts para cada um dos agentes, isto é, tanto para o IIGA, quanto para os agentes de Ąnal de jogo. Neste contexto, a arquitetura destes agentes pode ser visualizada no Capítulo 6. Neste contexto, as técnicas utilizadas no processo de aprendizado são as mesmas para todos os agentes do D-MA-Draughts, todavia, há algumas particularidades no treinamento do IIGA e dos agentes de Ąnal de jogo devido ao foco de cada um em uma partida. Estas particularidades são:

1. Como são inicializados os pesos da rede MLP;

2. Quais os estados de tabuleiro são utilizados no processo de treinamento.

No caso do agente IIGA, seu treinamento é conduzido a partir de um tabuleiro em estado inicial padrão de um jogo de Damas e os pesos da rede são iniciados aleatoriamente. O treinamento utiliza a técnica de self-play com clonagem, que, conforme apresentado na seção 6.3.3, realiza uma sequencia de jogos contra uma cópia do próprio jogador durante um determinado número de seções de forma a atualizar os pesos da rede neural MLP. Particularmente, o IIGA fez uso de 10 seções de 10 jogos.

Como os agentes de Ąnal de jogo tem o objetivo de atuar em fases Ąnais da partida, mais precisamente, em estados de tabuleiro com 12 peças ou menos, não é conveniente

adotar o mesmo mecanismo de inicialização dos pesos da rede neural utilizado no IIGA. Além disso, o treinamento não é realizado a partir de um único estado de tabuleiro e sim a partir dos estados de tabuleiro clusterizados no processo descrito na seção 7.2. Todos os estados contidos nos clusters contém 12 peças. Por estes motivos, os pesos iniciais das redes MLPŠs dos agentes de Ąnal de jogo correspondem aos pesos do IIGA já treinado. A justiĄcativa para este procedimento é que estes agentes não atuarão desde o início padrão de um jogo de Damas, logo a inicialização aleatória comprometeria a eĄciência do jogador, visto que este se encontraria em desvantagem em relação a um adversário que se preparou para uma partida completa. Uma seção s de treinamento de um agente de Ąnal de jogo é composta por uma quantidade q de jogos e é realizada para cada um dos modelos de tabuleiro mt presentes no cluster i em questão. Cada cluster servirá de base para a criação de um agente de Ąnal de jogo. Desta forma, pode-se deĄnir a quantidade de jogos de um processo de treinamento referente a um agente i como s ≤ q ≤ mt. Particularmente, no processo de treino de cada um dos agentes de Ąnal de jogo do D-MA-Draughs foram realizadas 3 seções compostas por 6 jogos para cada um dos 25 modelos de tabuleiros que compõem o cluster i, totalizando 450 jogos de treinamento para cada agente.

7.5 Considerações Finais

Este capítulo apresentou a arquitetura geral do SMA D-MA-Draughts. A construção deste agente foi realizada em dois momentos distintos. No primeiro momento, houve a deĄnição da melhor dinâmica de atuação em partidas. Para isso, foi utilizada a primeira versão do D-MA-Draughts implementada pela autora deste trabalho em [3]. No segundo momento, cada um dos agentes do D-MA-Draughts passou a contar com a arquitetura do monoagente ADABA-Draughts. Desta forma, agora eles utilizam como mecanismo de tomada de decisão o algoritmo ADABA proposto neste trabalho. A avaliação do desem- penho do D-MA-Draughts será apresentada na seção 8.4 do capítulo de experimentos.

151

Capítulo

8

Experimentos e Análise dos Resultados

No documento ADABA: uma nova abordagem de distribuição do Alfa-Beta - aplicação ao domínio do jogo de Damas (páginas 149-153)