SMA-16 - Teoria dos Jogos 3

(1)

TEORIA DOS

JOGOS – FINAL

Prof. Pablo A. Sampaio

(2)

INTRODUÇÃO

Nesta aula, vamos encerrar o assunto de Teoria dos Jogos

mostrando:

 Jogos na forma extensiva

 Visão geral de outras formas de jogos

(3)

REVISÃO

Jogo na Forma Normal

 Corrida Armamentista na Guerra Fria

Solução

 Estratégias Dominantes  Equilíbrio de Nash

(4)

MAIS SOBRE A FORMA

NORMAL

Computacionalmente complexo

 Soluções baseadas em otimização matemática  http://www.gambit-project.org

Limitação:

 Não captura bem o aspecto temporal

 Não representa ações em sequência, jogos com ações alternadas, etc.

(5)

1. FORMA

EXTENSIVA

(6)

FORMA EXTENSIVA

Permite ações sequenciais (não simultâneas)

Pode ser convertido para a forma normal

(7)

EXEMPLO

(8)

EXEMPLO

(9)

FORMAL EXTENSIVA

Veremos a variante chamada jogo de informação

perfeita

É uma árvore

 Nó intermediário: ponto de escolha da ação de um agente

 Rótulo: agente

 Arestas: representam ações (do nó “acima”)

 Folha: saída do jogo

(10)

FORMA EXTENSIVA

Estratégia pura

 Para cada possível nó de um agente, indica qual ação jogar ali

 Inclusive nós que, talvez, acabem não sendo atingidos

(11)

EXEMPLOS

Todas as estratégias puras do jogo anterior, para cada

um dos jogadores

(12)

CONVERSÃO PARA A FORMA

NORMAL

Para converter:

 Tratar cada estratégia pura (tupla) da forma extensiva como uma ação da forma normal

 Olhar recompensas obtidas caminhando na árvore, usando as ações de todos os jogadores

(13)

EXEMPLO

(14)

EXEMPLO

(15)

2. CONCEITOS DE

SOLUÇÃO NA FORMA

(16)

CONCEITOS DE SOLUÇÃO

Os conceitos de solução da forma normal se aplicam

 Ótimo Pareto

 Equilíbrio de Nash

(17)

EXEMPLO

Equilíbrios de Nash do jogo anterior:

 (A,G) / (C,F)

 (A,H) / (C,F)  (B,H) / (C,E)

(18)

EXEMPLO

(19)

EXEMPLO (ESQUISITO)

(B,H) / (C,E)

Jogador 1 ameaça jogar uma ação que é pior

(20)

NOVO CONCEITO DE

SOLUÇÃO

Sub-jogo enraizado em um nó

 É a sub-árvore que parte de um nó até as folhas

Equilíbrio Sub-Jogo Perfeito

 É todo perfil de estratégias que é equilíbrio de Nash em todo possível sub-jogo

 _{É um equilíbrio de Nash}

Teorema:

 Sempre existe, pelo menos um equilíbrio sub-jogo perfeito!

(21)

EXEMPLO

No jogo anterior, o único equilíbrio sub-jogo perfeito é

(22)

ALGORITMO

Como encontrar um equilíbrio sub-jogo perfeito?

 Pensar de baixo para cima

Backward induction: algoritmo geral, para n

jogadores

(23)

ALGORITMO

Backward-Induction(nó n, agente i)

 Se n é folha, retorne o vetor de utilidades  Para cada ação a do agente i

na árvore, veja o próximo nó n’ e o próximo agente i’ rode Backward-Induction( n’, i’ )

 Observar as utilidades retornadas

 Retorne o vetor de utilidades no qual o agente i tem maior recompensa

(24)

EXEMPLO

Calcular o equilíbrio sub-jogo perfeito do jogo

CASO ESPECIAL

Em jogos de soma zero com 2 jogadores

 Basta usar a recompensa de um deles (jogador 1)

 Um jogador a maximiza e o outro a minimiza

Algoritmo minimax é simplificação do Backward-Induction:

 O jogador 1 (max) escolhe a ação que maximiza sua recompensa

 O jogador 2 (min) escolhe a ação que minimiza a recompensa

(26)

(27)

USO PRÁTICA

Tipicamente, a “inteligência” do jogador 1, para um

jogo como xadrez é feita assim:

 Rodar o minimax e retornar apenas a primeira ação do agente 1  Depois, o agente 2 (um humano?) vai fazer uma ação qualquer  Então, o agente 1 executa de novo o algoritmo, etc...

Problema: inviável em árvores muito grandes

 Vimos uma aula (“busca competitiva”) com várias técnicas heurísticas...

(28)

3. OUTRAS

FORMAS DE

(29)

3.1 FORMA EXTENSIVA

COM INFORMAÇÃO

IMPERFEITA

Conhecimento parcial das ações tomadas anteriormente

(30)

3.1 FORMA EXTENSIVA

COM INFORMAÇÃO

IMPERFEITA

Características:

 Permite ações em paralelo, ou secretas  Generaliza a Forma Normal

 Permite modelar jogos de cartas

 Um jogador não sabe as cartas do outro

(31)

3.2 JOGOS REPETIDOS

Um mesmo jogo (chamado stage game) é repetido múltiplas

vezes

 Mais comum: na forma normal

(32)

3.2 JOGOS REPETIDOS

A repetição altera a característica estratégica do jogo

(33)

3.2 JOGOS REPETIDOS

Variantes:

 Repetições finitas

 Repetições infinitas (possivelmente)

Recompensa final (em função das recompensas do stage

game):

 Média

 Soma futura descontada

 Recompensas iniciais contribuem mais

(34)

JOGOS REPETIDOS

INFINITAMENTE

Estratégias geralmente descritas como algum algoritmo que

considera o histórico

Exemplo: Dilema do prisioneiro repetido

 Tit-for-Tat: se adversário cooperar, coopere no jogo seguinte; se ele delatar,

delate no seguinte (apenas imita)

 Vencedora de várias competições

 Trigger: coopere, enquanto ele cooperar; se ele delatar, delate para sempre

 Dependendo do modelo de recompensas, elas forma equilíbrio de Nash consigo mesma ou uma com a outra

(35)

JOGOS REPETIDOS

INFINITAMENTE

Aplicação: explica situações de cartel

 OPEP: cartel de grandes produtores de petróleo

 Decide a produção mundial

 Reduzir, aumenta o preço

 Aumentar, reduz o preço

 A cada semana/mês, cada um deles pode decidir continuar cooperando ou produzir mais

(36)

EXEMPLO: JOGO DA

PATRULHA

(37)

JOGO DA PATRULHA

Ambiente discretizado

 Malha retangular, grafo,...

Agente patrulhador (r)

 Ações: move para uma casa vizinha i  Leva 1 turno

Agente invasor (i)

 Ação: invadir uma casa vizinha i, ou esperar  Invadir leva d turnos

(38)

JOGO DA PATRULHA

(39)

JOGO DA PATRULHA

Recompensas do patrulhador (posicionado na célula l)

 Deslocar-se para i tem custo (recompensa negativa) Cl,i

 Chegar em i tem valor v2r

 valor da casa 2, para o robô de patrulha

 Se chegar na casa do invasor, ganha uma recompensa adicional u

Recompensas do adversário:

 Se o invasor invadir com sucesso uma casa i, ganha uma recompensa v2i

 valor da casa 2, para invasor

 Se o patrulhador chegar na casa que o invasor está tentando invadir, dentro do tempo d, o invasor recebe uma punição t

(40)

JOGO SIMPLIFICADO

O jogo anterior é complexo de tratar, mas cada “rodada”

pode ser resolvido como um jogo da forma normal:

(41)

3.3 JOGOS ESTOCÁSTICOS

O jogo tem um conjunto de estados, onde cada estado é

associado a um jogo (na forma normal)

Depois de jogar o jogo do estado atual, a “natureza” muda

de estado, probabilisticamente, em função:

 do último jogo

 e do perfil de ações jogados pelos agentes

Generaliza os Jogos Repetidos Infinitamente e os

Processos de Decisão Markov (MDP)

 Casos de 1 estado, e de 1 agente, respectivamente

(42)

3.4 JOGOS BAYESIANOS

Há vários jogos possíveis, com espaço de ações

semelhantes

 Cada um com payoffs distintos

 Existe uma probabilidade de cada um ser o jogo ativo

Diferencial: modelam incerteza

 Os agentes não sabem o jogo realmente ativo, em um dado momento  Vários (todos?) tipos de incerteza podem ser reduzidos a esse caso

(43)

3.4 JOGOS BAYESIANOS

Exemplo:

(44)

3.5 MAIS JOGOS

Jogos de congestão: jogadores compartilhando um

recurso

 Eles decidem fazer ou não (acessar um site, ir a um lugar, etc.)  Recompensas comuns a todos

 Ex.: ir para certa festa

Jogos de coalizão: agentes buscam formar alianças

 Podem entrar ou não

 Utilidade depende de quantos/quais agentes entraram  Objetivo é ter uma aliança justa e estável

(45)

3.6 OUTROS ASSUNTOS

Mechanism Design

 Como criar condições para que a saída do jogo tenha certas propriedades  Ex.: como eleger um líder que realmente reflita as preferências dos

agentes

 Aplicações: agendamento de tarefas, alocação de largura de banda, etc