• Nenhum resultado encontrado

Calibra¸c˜ ao da constante do algoritmo MCTS

Neste experimento, o objetivo ´e averiguar empiricamente como o algoritmo se com- porta para diversas configura¸c˜oes da constante de balanceamento entre explora¸c˜ao de ra- mos poucos visitados e a explora¸c˜ao de ramos promissores dentro da ´arvore de estat´ısticas. A verifica¸c˜ao foi feita para 3 tipos de jogos, (1) jogos com espa¸co de estados pequeno, (2) espa¸co de estados m´edio e (3) espa¸co de estados grande.

Foram selecionados 3 jogos para a execu¸c˜ao deste experimento. S˜ao eles Pawn Whopping, Connect Four e Breakthrough. A escolha dos jogos foi feita n˜ao somente porque seus espa¸cos de estado possuem as caracter´ısticas necess´arias para este experimento, ou seja, tˆem uma quantidade de estados pequena, m´edia e grande, mas tamb´em porque ´e

42 Tabela 4.3: Resultados das partidas de Pawn Whopping

0,4 0,6 0,8 0,9 1,0 1,1 1,2 0,4 - 44 x 56 - - - - - 0,6 56 x 44 - 57 x 43 - - - - 0,8 - 43 x 57 - - 55 x 45 - - 0,9 - - - - 50 x 50 - - 1,0 - - 45 x 55 50 x 50 - 49 x 51 60 x 40 1,1 - - - - 51 x 49 - - 1,2 - - - - 40 x 60 - -

f´acil entender suas regras. Pawn Whopping ´e jogado num tabuleiro de xadrez, inicialmente cada jogador possui 8 pe˜oes, o branco na segunda linha do tabuleiro de cima par abaixo e o preto na pen´ultima linha. Cada pe˜ao se movimenta e ataca conforme no xadrez. O objetivo ´e conseguir chegar com qualquer um dos pe˜oes ao outro extremo do tabuleiro. Este jogo possui aproximadamente 6 bilh˜oes de poss´ıveis estados e grau de ramifica¸c˜ao m´edio da ´arvore de estados 8. Connect Four ´e jogado num tabuleiro com 7 casas de largura e 6 casas de altura. Cada jogador tem uma cor de ficha, os turnos s˜ao alternados, a cada jogada ´e escolhida uma coluna e depositada uma ficha na mesma, a ficha desce at´e encostar-se `a base do tabuleiro ou na pilha de fichas daquela coluna. Vence o jogador que conseguir uma linha vertical, horizontal ou diagonal de 4 fichas. O seu espa¸co de estados possui aproximadamente 4 trilh˜oes de estados poss´ıveis, o seu grau de ramifica¸c˜ao m´aximo ´e 7, o grau de ramifica¸c˜ao m´edio ´e pr´oximo de 7. Breakthrough ´e jogado num tabuleiro de xadrez, cada jogador inicialmente possui as duas primeiras linhas do seu lado do tabuleiro completas com pe˜oes. ´E permitido mover-se uma casa `a frente ou `as diagonais dianteiras, ataca-se conforme no xadrez. Vence o jogador que conseguir chegar ao extremo oposto ao que iniciou a partida com qualquer um dos seus pe˜oes. O seu espa¸co de estados possui aproximadamente 205 trilh˜oes de estados, seu grau de ramifica¸c˜ao ´e no m´ınimo 2 e no m´aximo 44, a m´edia n˜ao foi obtida, mas pode-se afirmar que na maioria dos estados o grau de ramifica¸c˜ao ´e maior ou igual a 22.

A metodologia deste experimento consiste em comparar duas configura¸c˜oes para entender a tendˆencia de melhora do algoritmo em fun¸c˜ao dos valores selecionados, o vencedor ´e considerado o melhor, e a melhora do algoritmo ´e considerada como sendo

Figura 4.1: Evolu¸c˜ao das instˆancias de espa¸co de estados pequeno

na dire¸c˜ao do vencedor. Por exemplo, se duas vers˜oes do algoritmo est˜ao competindo numa instˆancia do experimento, com valores 1,0 e 1,1, se a vers˜ao com valor 1,1 vence, ela ´e considerada melhor que a vers˜ao 1,0, e considera-se que a melhora do algoritmo est´a em valores maiores que 1,0. Na pr´oxima instˆancia do experimento ser´a mantido o valor 1,1 contra outra vers˜ao com constante maior que 1,1, por exemplo poderia ser 1,2. Cada instˆancia do experimento consiste em uma determinada quantidade de partidas para assegurar a consistˆencia do resultado e eliminar a possibilidade do resultado ter sido um mero acaso. Para a maioria dos jogos, foram adotadas instˆancias de 100 partidas, por´em em decorrˆencia do elevado custo de tempo, as instˆancias para os jogos com espa¸co de estados grande rodaram menos partidas, pois estes jogos demandam mais tempo para escolher um movimento razoavelmente bom.

Na tabela 4.3 est˜ao apresentados os resultados das instˆancias executadas para o jogo Pawn Whopping. Nestas instˆancias foram adotados os tempos de 10 segundos de pr´e-processamento e 10 segundos para escolher um movimento. Cada instˆancia consistiu em 100 partidas executadas. Como chutes iniciais foram escolhidos os valores 1,0 e 1,1 para a constante do algoritmo MCTS. Os valores lim´ıtrofes foram 1,2 e 0,4. O valor da constante tomado como ´otimo foi 0,6.

44 Tabela 4.4: Resultados em ordem cronol´ogica de Pawn Whopping

1,0 x 1,1 1,0 x 1,2 0,9 x 1,0 0,8 x 1,0 0,6 x 0,8 0,4 x 0,6 49 x 51 60 x 40 50 x 50 55 x 45 57 x 43 44 x 56

Na Figura 4.1 est´a apresentado um gr´afico que exibe a atualiza¸c˜ao dos valores da constante a cada nova instˆancia do experimento. Na primeira instˆancia, uma vers˜ao do algoritmo est´a configurada com o valor 1,0 para a constante e a outra vers˜ao com o valor 1,1. O resultado foi 51 vit´orias para a vers˜ao 1,1 e 49 vit´orias para a vers˜ao 1,0. Como esse resultado n˜ao foi conclusivo, a vers˜ao 1,0 foi mantida e a outra vers˜ao foi atualizada para 1,2. Desta vez, o resultado foi 60 vit´orias para a vers˜ao 1,0 contra 40 vit´orias da outra vers˜ao, ent˜ao foram testados valores menores que 1,0. O algoritmo demonstrou melhora conforme o valor constante diminu´ıa, at´e que para o valor 0,4 apresentou piora em rela¸c˜ao ao valor 0,6. A Tabela 4.4 apresenta o resultado de cada instˆancia executada.

Na Tabela 4.5 est˜ao os resultados para as instˆancias do jogo Connect Four. Para estas instˆancias foram escolhidos os tempos de 10 segundos de pr´e-processamento e 10 segundos de tomada de decis˜ao. Cada instˆancia possui 100 partidas. Como chutes iniciais foram escolhidos ao acaso os valores 0.8 e 0.9 para as constantes das vers˜oes do algoritmo envolvidas no experimento.

Na Figura 4.2 ´e apresentado o curso do experimento, ou seja, como evolu´ıram as constantes a cada instˆancia. Inicialmente os valores adotados eram 0,8 e 0,9. O resultado desta instˆancia foi 50 vit´orias para cada configura¸c˜ao. Para a pr´oxima instˆancia foi escolhido aumentar a constante de 0,9 para 1,0. Terminou com 53 vit´orias para a

Tabela 4.5: Resultados das partidas de Connect Four 0,80 0,90 1,00 1,05 1,10 1,20 0,80 - 50 x 50 47 x 53 - - - 0,90 50 x 50 - - - - - 1,00 53 x 47 - - 52 x 48 58 x 41 62 x 38 1,05 - - 48 x 52 - - - 1,10 - - 41 x 58 - - - 1,20 - - 38 x 62 - - -

Figura 4.2: Evolu¸c˜ao das instˆancias de espa¸co de estados m´edio

configura¸c˜ao com 1,0. Ao final do experimento os valores limite foram 0,8 e 1,2. O valor selecionado como mais adequado para jogos com espa¸co de estados de tamanho m´edio foi 1,0. Na Tabela 4.6 est˜ao apresentados os resultados de cada instˆancia do experimento.

Os resultados das instˆancias do jogo Breakthrough est˜ao exibidos na Tabela 4.7. Como o jogo Breakthrough ´e o que tem o maior espa¸co de estados dentre os trˆes jogos escolhidos para este experimento, foi necess´ario um tempo maior para a tomada de decis˜ao. Para as instˆancias desta etapa do experimento foram adotados os tempos de 10 segundos de pr´e-processamento e 15 segundos para tomada de decis˜ao. Cada instˆancia possui 100 partidas, e como chutes iniciais foram escolhidos ao acaso os valores 0,9 e 1,0 para as constantes.

A evolu¸c˜ao dos valores das constantes ´e apresentada no gr´afico da Figura 4.3. Os valores limite da constante foram 0,9 e 1,2. Foi adotada como melhor configura¸c˜ao deste parˆametro o valor 1,1. Na tabela X.Y est˜ao apresentados os resultados de cada instˆancia do experimento.

Para diversos tipos de jogos com diferentes caracter´ısticas em seus espa¸cos de Tabela 4.6: Resultados em ordem cronol´ogica de Connect Four

0,8 x 0,9 0,8 x 1,0 1,0 x 1,2 1,0 x 1,1 1,0 x 1,05 50 x 50 47 x 53 62 x 38 58 x 41 52 x 48

46 Tabela 4.7: Resultados das partidas de Breakthrough

0,9 1,0 1,1 1,2 0,9 - 49 x 51 - - 1,0 51 x 49 - 45 x 55 - 1,1 - 55 x 45 - 52 x 48 1,2 - - 48 x 52 -

estado, diferentes calibra¸c˜oes da constante do algoritmo MCTS foram verificadas como a mais adequada. Na Tabela 4.8 est´a o resultado deste experimento para cada jogo utilizado. Verifica-se que h´a uma tendˆencia de ser mais interessante valorizar ramos promissores da ´

arvore de estat´ısticas para jogos com espa¸co de estado menores, e para espa¸cos de estados maiores valorizar mais ramos da ´arvore n˜ao visitados. Um agente de GGP ´e capaz de estimar o espa¸co de estados obtendo uma m´edia da profundidade alcan¸cada na etapa de simula¸c˜ao e visitando a ´arvore gerada na etapa de pr´e-processamento, para calcular o grau de sa´ıda m´edio dos seus n´os. Um agente de GGP poderia come¸car com um valor inicial da constante e ajustar conforme entende melhor o espa¸co de estados do jogo que est´a jogando para ter um melhor resultado na partida.

Tabela 4.8: Resultados em ordem cronol´ogica de Breakthrough 0,9 x 1,0 1,0 x 1,1 1,1 x 1,2

49 x 51 45 x 55 52 x 48

Tabela 4.9: Resultados do pr´e-processamento

Tempo de escolha Vit´orias Derrotas Valor de vantagem 10 segundos 10 13 0,77

20 segundos 19 4 4,75 30 segundos 15 8 1,87

Documentos relacionados