TEORIA DOS
JOGOS – FINAL
Prof. Pablo A. Sampaio
INTRODUÇÃO
Nesta aula, vamos encerrar o assunto de Teoria dos Jogos
mostrando:
Jogos na forma extensiva
Visão geral de outras formas de jogos
REVISÃO
Jogo na Forma Normal
Corrida Armamentista na Guerra Fria
Solução
Estratégias Dominantes Equilíbrio de Nash
MAIS SOBRE A FORMA
NORMAL
Computacionalmente complexo
Soluções baseadas em otimização matemática http://www.gambit-project.org
Limitação:
Não captura bem o aspecto temporal
Não representa ações em sequência, jogos com ações alternadas, etc.
1. FORMA
EXTENSIVA
FORMA EXTENSIVA
Permite ações sequenciais (não simultâneas)
Pode ser convertido para a forma normal
EXEMPLO
EXEMPLO
FORMAL EXTENSIVA
Veremos a variante chamada jogo de informação
perfeita
É uma árvore
Nó intermediário: ponto de escolha da ação de um agente
Rótulo: agente
Arestas: representam ações (do nó “acima”)
Folha: saída do jogo
FORMA EXTENSIVA
Estratégia pura
Para cada possível nó de um agente, indica qual ação jogar ali
Inclusive nós que, talvez, acabem não sendo atingidos
EXEMPLOS
Todas as estratégias puras do jogo anterior, para cada
um dos jogadores
CONVERSÃO PARA A FORMA
NORMAL
Para converter:
Tratar cada estratégia pura (tupla) da forma extensiva como uma ação da forma normal
Olhar recompensas obtidas caminhando na árvore, usando as ações de todos os jogadores
EXEMPLO
EXEMPLO
2. CONCEITOS DE
SOLUÇÃO NA FORMA
CONCEITOS DE SOLUÇÃO
Os conceitos de solução da forma normal se aplicam
Ótimo Pareto
Equilíbrio de Nash
EXEMPLO
Equilíbrios de Nash do jogo anterior:
(A,G) / (C,F)
(A,H) / (C,F) (B,H) / (C,E)
EXEMPLO
EXEMPLO (ESQUISITO)
(B,H) / (C,E)
Jogador 1 ameaça jogar uma ação que é pior
NOVO CONCEITO DE
SOLUÇÃO
Sub-jogo enraizado em um nó
É a sub-árvore que parte de um nó até as folhas
Equilíbrio Sub-Jogo Perfeito
É todo perfil de estratégias que é equilíbrio de Nash em todo possível sub-jogo
É um equilíbrio de Nash
Teorema:
Sempre existe, pelo menos um equilíbrio sub-jogo perfeito!
EXEMPLO
No jogo anterior, o único equilíbrio sub-jogo perfeito é
ALGORITMO
Como encontrar um equilíbrio sub-jogo perfeito?
Pensar de baixo para cima
Backward induction: algoritmo geral, para n
jogadores
ALGORITMO
Backward-Induction(nó n, agente i)
Se n é folha, retorne o vetor de utilidades Para cada ação a do agente ina árvore, veja o próximo nó n’ e o próximo agente i’ rode Backward-Induction( n’, i’ )
Observar as utilidades retornadas
Retorne o vetor de utilidades no qual o agente i tem maior recompensa
EXEMPLO
Calcular o equilíbrio sub-jogo perfeito do jogo
anterior
CASO ESPECIAL
Em jogos de soma zero com 2 jogadores
Basta usar a recompensa de um deles (jogador 1)
Um jogador a maximiza e o outro a minimiza
Algoritmo minimax é simplificação do Backward-Induction:
O jogador 1 (max) escolhe a ação que maximiza sua recompensa
O jogador 2 (min) escolhe a ação que minimiza a recompensa
USO PRÁTICA
Tipicamente, a “inteligência” do jogador 1, para um
jogo como xadrez é feita assim:
Rodar o minimax e retornar apenas a primeira ação do agente 1 Depois, o agente 2 (um humano?) vai fazer uma ação qualquer Então, o agente 1 executa de novo o algoritmo, etc...
Problema: inviável em árvores muito grandes
Vimos uma aula (“busca competitiva”) com várias técnicas heurísticas...
3. OUTRAS
FORMAS DE
3.1 FORMA EXTENSIVA
COM INFORMAÇÃO
IMPERFEITA
Conhecimento parcial das ações tomadas anteriormente
3.1 FORMA EXTENSIVA
COM INFORMAÇÃO
IMPERFEITA
Características:
Permite ações em paralelo, ou secretas Generaliza a Forma Normal
Permite modelar jogos de cartas
Um jogador não sabe as cartas do outro
3.2 JOGOS REPETIDOS
Um mesmo jogo (chamado stage game) é repetido múltiplas
vezes
Mais comum: na forma normal
3.2 JOGOS REPETIDOS
A repetição altera a característica estratégica do jogo
3.2 JOGOS REPETIDOS
Variantes:
Repetições finitas
Repetições infinitas (possivelmente)
Recompensa final (em função das recompensas do stage
game):
Média
Soma futura descontada
Recompensas iniciais contribuem mais
JOGOS REPETIDOS
INFINITAMENTE
Estratégias geralmente descritas como algum algoritmo que
considera o histórico
Exemplo: Dilema do prisioneiro repetido
Tit-for-Tat: se adversário cooperar, coopere no jogo seguinte; se ele delatar,
delate no seguinte (apenas imita)
Vencedora de várias competições
Trigger: coopere, enquanto ele cooperar; se ele delatar, delate para sempre
Dependendo do modelo de recompensas, elas forma equilíbrio de Nash consigo mesma ou uma com a outra
JOGOS REPETIDOS
INFINITAMENTE
Aplicação: explica situações de cartel
OPEP: cartel de grandes produtores de petróleo Decide a produção mundial
Reduzir, aumenta o preço
Aumentar, reduz o preço
A cada semana/mês, cada um deles pode decidir continuar cooperando ou produzir mais
EXEMPLO: JOGO DA
PATRULHA
JOGO DA PATRULHA
Ambiente discretizado
Malha retangular, grafo,...
Agente patrulhador (r)
Ações: move para uma casa vizinha i Leva 1 turno
Agente invasor (i)
Ação: invadir uma casa vizinha i, ou esperar Invadir leva d turnos
JOGO DA PATRULHA
JOGO DA PATRULHA
Recompensas do patrulhador (posicionado na célula l)
Deslocar-se para i tem custo (recompensa negativa) Cl,i
Chegar em i tem valor v2r
valor da casa 2, para o robô de patrulha
Se chegar na casa do invasor, ganha uma recompensa adicional u
Recompensas do adversário:
Se o invasor invadir com sucesso uma casa i, ganha uma recompensa v2i
valor da casa 2, para invasor
Se o patrulhador chegar na casa que o invasor está tentando invadir, dentro do tempo d, o invasor recebe uma punição t
JOGO SIMPLIFICADO
O jogo anterior é complexo de tratar, mas cada “rodada”
pode ser resolvido como um jogo da forma normal:
3.3 JOGOS ESTOCÁSTICOS
O jogo tem um conjunto de estados, onde cada estado é
associado a um jogo (na forma normal)
Depois de jogar o jogo do estado atual, a “natureza” muda
de estado, probabilisticamente, em função:
do último jogo
e do perfil de ações jogados pelos agentes
Generaliza os Jogos Repetidos Infinitamente e os
Processos de Decisão Markov (MDP)
Casos de 1 estado, e de 1 agente, respectivamente3.4 JOGOS BAYESIANOS
Há vários jogos possíveis, com espaço de ações
semelhantes
Cada um com payoffs distintos
Existe uma probabilidade de cada um ser o jogo ativo
Diferencial: modelam incerteza
Os agentes não sabem o jogo realmente ativo, em um dado momento Vários (todos?) tipos de incerteza podem ser reduzidos a esse caso
3.4 JOGOS BAYESIANOS
Exemplo:
3.5 MAIS JOGOS
Jogos de congestão: jogadores compartilhando um
recurso
Eles decidem fazer ou não (acessar um site, ir a um lugar, etc.) Recompensas comuns a todos
Ex.: ir para certa festa
Jogos de coalizão: agentes buscam formar alianças
Podem entrar ou não Utilidade depende de quantos/quais agentes entraram Objetivo é ter uma aliança justa e estável
3.6 OUTROS ASSUNTOS
Mechanism Design
Como criar condições para que a saída do jogo tenha certas propriedades Ex.: como eleger um líder que realmente reflita as preferências dos
agentes
Aplicações: agendamento de tarefas, alocação de largura de banda, etc