Calibra¸c˜ ao da constante do algoritmo MCTS

Neste experimento, o objetivo é averiguar empiricamente como o algoritmo se com- porta para diversas configura¸cões da constante de balanceamento entre explora¸cão de ramos poucos visitados e a explora¸cão de ramos promissores dentro da árvore de estat´ısticas. A verifica¸cão foi feita para 3 tipos de jogos, (1) jogos com espa¸co de estados pequeno, (2) espa¸co de estados médio e (3) espa¸co de estados grande.

Foram selecionados 3 jogos para a execu¸cão deste experimento. São eles Pawn Whopping, Connect Four e Breakthrough. A escolha dos jogos foi feita não somente porque seus espa¸cos de estado possuem as caracter´ısticas necessárias para este experimento, ou seja, têm uma quantidade de estados pequena, média e grande, mas também porque é

42 Tabela 4.3: Resultados das partidas de Pawn Whopping

0,4 0,6 0,8 0,9 1,0 1,1 1,2 0,4 - 44 x 56 - - - - - 0,6 56 x 44 - 57 x 43 - - - - 0,8 - 43 x 57 - - 55 x 45 - - 0,9 - - - - 50 x 50 - - 1,0 - - 45 x 55 50 x 50 - 49 x 51 60 x 40 1,1 - - - - 51 x 49 - - 1,2 - - - - 40 x 60 - -

fácil entender suas regras. Pawn Whopping é jogado num tabuleiro de xadrez, inicialmente cada jogador possui 8 peões, o branco na segunda linha do tabuleiro de cima par abaixo e o preto na penúltima linha. Cada peão se movimenta e ataca conforme no xadrez. O objetivo é conseguir chegar com qualquer um dos peões ao outro extremo do tabuleiro. Este jogo possui aproximadamente 6 bilhões de poss´ıveis estados e grau de ramifica¸cão médio da árvore de estados 8. Connect Four é jogado num tabuleiro com 7 casas de largura e 6 casas de altura. Cada jogador tem uma cor de ficha, os turnos são alternados, a cada jogada é escolhida uma coluna e depositada uma ficha na mesma, a ficha desce até encostar-se à base do tabuleiro ou na pilha de fichas daquela coluna. Vence o jogador que conseguir uma linha vertical, horizontal ou diagonal de 4 fichas. O seu espa¸co de estados possui aproximadamente 4 trilhões de estados poss´ıveis, o seu grau de ramifica¸cão máximo é 7, o grau de ramifica¸cão médio é próximo de 7. Breakthrough é jogado num tabuleiro de xadrez, cada jogador inicialmente possui as duas primeiras linhas do seu lado do tabuleiro completas com peões. É permitido mover-se uma casa à frente ou às diagonais dianteiras, ataca-se conforme no xadrez. Vence o jogador que conseguir chegar ao extremo oposto ao que iniciou a partida com qualquer um dos seus peões. O seu espa¸co de estados possui aproximadamente 205 trilhões de estados, seu grau de ramifica¸cão é no m´ınimo 2 e no máximo 44, a média não foi obtida, mas pode-se afirmar que na maioria dos estados o grau de ramifica¸cão é maior ou igual a 22.

A metodologia deste experimento consiste em comparar duas configura¸cões para entender a tendência de melhora do algoritmo em fun¸cão dos valores selecionados, o vencedor é considerado o melhor, e a melhora do algoritmo é considerada como sendo

Figura 4.1: Evolu¸c˜ao das instˆancias de espa¸co de estados pequeno

na dire¸cão do vencedor. Por exemplo, se duas versões do algoritmo estão competindo numa instância do experimento, com valores 1,0 e 1,1, se a versão com valor 1,1 vence, ela é considerada melhor que a versão 1,0, e considera-se que a melhora do algoritmo está em valores maiores que 1,0. Na próxima instância do experimento será mantido o valor 1,1 contra outra versão com constante maior que 1,1, por exemplo poderia ser 1,2. Cada instância do experimento consiste em uma determinada quantidade de partidas para assegurar a consistência do resultado e eliminar a possibilidade do resultado ter sido um mero acaso. Para a maioria dos jogos, foram adotadas instâncias de 100 partidas, porém em decorrência do elevado custo de tempo, as instâncias para os jogos com espa¸co de estados grande rodaram menos partidas, pois estes jogos demandam mais tempo para escolher um movimento razoavelmente bom.

Na tabela 4.3 estão apresentados os resultados das instâncias executadas para o jogo Pawn Whopping. Nestas instâncias foram adotados os tempos de 10 segundos de pré-processamento e 10 segundos para escolher um movimento. Cada instância consistiu em 100 partidas executadas. Como chutes iniciais foram escolhidos os valores 1,0 e 1,1 para a constante do algoritmo MCTS. Os valores lim´ıtrofes foram 1,2 e 0,4. O valor da constante tomado como ótimo foi 0,6.

44 Tabela 4.4: Resultados em ordem cronol´ogica de Pawn Whopping

1,0 x 1,1 1,0 x 1,2 0,9 x 1,0 0,8 x 1,0 0,6 x 0,8 0,4 x 0,6 49 x 51 60 x 40 50 x 50 55 x 45 57 x 43 44 x 56

Na Figura 4.1 está apresentado um gráfico que exibe a atualiza¸cão dos valores da constante a cada nova instância do experimento. Na primeira instância, uma versão do algoritmo está configurada com o valor 1,0 para a constante e a outra versão com o valor 1,1. O resultado foi 51 vitórias para a versão 1,1 e 49 vitórias para a versão 1,0. Como esse resultado não foi conclusivo, a versão 1,0 foi mantida e a outra versão foi atualizada para 1,2. Desta vez, o resultado foi 60 vitórias para a versão 1,0 contra 40 vitórias da outra versão, então foram testados valores menores que 1,0. O algoritmo demonstrou melhora conforme o valor constante diminu´ıa, até que para o valor 0,4 apresentou piora em rela¸cão ao valor 0,6. A Tabela 4.4 apresenta o resultado de cada instância executada.

Na Tabela 4.5 estão os resultados para as instâncias do jogo Connect Four. Para estas instâncias foram escolhidos os tempos de 10 segundos de pré-processamento e 10 segundos de tomada de decisão. Cada instância possui 100 partidas. Como chutes iniciais foram escolhidos ao acaso os valores 0.8 e 0.9 para as constantes das versões do algoritmo envolvidas no experimento.

Na Figura 4.2 é apresentado o curso do experimento, ou seja, como evolu´ıram as constantes a cada instância. Inicialmente os valores adotados eram 0,8 e 0,9. O resultado desta instância foi 50 vitórias para cada configura¸cão. Para a próxima instância foi escolhido aumentar a constante de 0,9 para 1,0. Terminou com 53 vitórias para a

Tabela 4.5: Resultados das partidas de Connect Four 0,80 0,90 1,00 1,05 1,10 1,20 0,80 - 50 x 50 47 x 53 - - - 0,90 50 x 50 - - - - - 1,00 53 x 47 - - 52 x 48 58 x 41 62 x 38 1,05 - - 48 x 52 - - - 1,10 - - 41 x 58 - - - 1,20 - - 38 x 62 - - -

Figura 4.2: Evolu¸cão das instâncias de espa¸co de estados médio

configura¸cão com 1,0. Ao final do experimento os valores limite foram 0,8 e 1,2. O valor selecionado como mais adequado para jogos com espa¸co de estados de tamanho médio foi 1,0. Na Tabela 4.6 estão apresentados os resultados de cada instância do experimento.

Os resultados das instâncias do jogo Breakthrough estão exibidos na Tabela 4.7. Como o jogo Breakthrough é o que tem o maior espa¸co de estados dentre os três jogos escolhidos para este experimento, foi necessário um tempo maior para a tomada de decisão. Para as instâncias desta etapa do experimento foram adotados os tempos de 10 segundos de pré-processamento e 15 segundos para tomada de decisão. Cada instância possui 100 partidas, e como chutes iniciais foram escolhidos ao acaso os valores 0,9 e 1,0 para as constantes.

A evolu¸cão dos valores das constantes é apresentada no gráfico da Figura 4.3. Os valores limite da constante foram 0,9 e 1,2. Foi adotada como melhor configura¸cão deste parâmetro o valor 1,1. Na tabela X.Y estão apresentados os resultados de cada instância do experimento.

Para diversos tipos de jogos com diferentes caracter´ısticas em seus espa¸cos de Tabela 4.6: Resultados em ordem cronol´ogica de Connect Four

0,8 x 0,9 0,8 x 1,0 1,0 x 1,2 1,0 x 1,1 1,0 x 1,05 50 x 50 47 x 53 62 x 38 58 x 41 52 x 48

46 Tabela 4.7: Resultados das partidas de Breakthrough

0,9 1,0 1,1 1,2 0,9 - 49 x 51 - - 1,0 51 x 49 - 45 x 55 - 1,1 - 55 x 45 - 52 x 48 1,2 - - 48 x 52 -

estado, diferentes calibra¸cões da constante do algoritmo MCTS foram verificadas como a mais adequada. Na Tabela 4.8 está o resultado deste experimento para cada jogo utilizado. Verifica-se que há uma tendência de ser mais interessante valorizar ramos promissores da ´

arvore de estat´ısticas para jogos com espa¸co de estado menores, e para espa¸cos de estados maiores valorizar mais ramos da árvore não visitados. Um agente de GGP é capaz de estimar o espa¸co de estados obtendo uma média da profundidade alcan¸cada na etapa de simula¸cão e visitando a árvore gerada na etapa de pré-processamento, para calcular o grau de sa´ıda médio dos seus nós. Um agente de GGP poderia come¸car com um valor inicial da constante e ajustar conforme entende melhor o espa¸co de estados do jogo que está jogando para ter um melhor resultado na partida.

Tabela 4.8: Resultados em ordem cronol´ogica de Breakthrough 0,9 x 1,0 1,0 x 1,1 1,1 x 1,2

49 x 51 45 x 55 52 x 48

Tabela 4.9: Resultados do pr´e-processamento

Tempo de escolha Vit´orias Derrotas Valor de vantagem 10 segundos 10 13 0,77

20 segundos 19 4 4,75 30 segundos 15 8 1,87

No documento Um player para General Game Playing baseado em busca em árvores de Monte Carlo (páginas 53-59)