• Nenhum resultado encontrado

SMA-16 - Teoria dos Jogos 3

N/A
N/A
Protected

Academic year: 2021

Share "SMA-16 - Teoria dos Jogos 3"

Copied!
48
0
0

Texto

(1)

TEORIA DOS

JOGOS – FINAL

Prof. Pablo A. Sampaio

(2)

INTRODUÇÃO

Nesta aula, vamos encerrar o assunto de Teoria dos Jogos

mostrando:

Jogos na forma extensiva

Visão geral de outras formas de jogos

(3)

REVISÃO

Jogo na Forma Normal

 Corrida Armamentista na Guerra Fria

Solução

 Estratégias Dominantes  Equilíbrio de Nash

(4)

MAIS SOBRE A FORMA

NORMAL

Computacionalmente complexo

 Soluções baseadas em otimização matemática  http://www.gambit-project.org

Limitação:

 Não captura bem o aspecto temporal

 Não representa ações em sequência, jogos com ações alternadas, etc.

(5)

1. FORMA

EXTENSIVA

(6)

FORMA EXTENSIVA

Permite ações sequenciais (não simultâneas)

Pode ser convertido para a forma normal

(7)

EXEMPLO

(8)

EXEMPLO

(9)

FORMAL EXTENSIVA

Veremos a variante chamada jogo de informação

perfeita

É uma árvore

Nó intermediário: ponto de escolha da ação de um agente

 Rótulo: agente

Arestas: representam ações (do nó “acima”)

Folha: saída do jogo

(10)

FORMA EXTENSIVA

Estratégia pura

 Para cada possível nó de um agente, indica qual ação jogar ali

 Inclusive nós que, talvez, acabem não sendo atingidos

(11)

EXEMPLOS

Todas as estratégias puras do jogo anterior, para cada

um dos jogadores

(12)

CONVERSÃO PARA A FORMA

NORMAL

Para converter:

 Tratar cada estratégia pura (tupla) da forma extensiva como uma ação da forma normal

 Olhar recompensas obtidas caminhando na árvore, usando as ações de todos os jogadores

(13)

EXEMPLO

(14)

EXEMPLO

(15)

2. CONCEITOS DE

SOLUÇÃO NA FORMA

(16)

CONCEITOS DE SOLUÇÃO

Os conceitos de solução da forma normal se aplicam

 Ótimo Pareto

 Equilíbrio de Nash

(17)

EXEMPLO

Equilíbrios de Nash do jogo anterior:

(A,G) / (C,F)

 (A,H) / (C,F)  (B,H) / (C,E)

(18)

EXEMPLO

(19)

EXEMPLO (ESQUISITO)

(B,H) / (C,E)

Jogador 1 ameaça jogar uma ação que é pior

(20)

NOVO CONCEITO DE

SOLUÇÃO

Sub-jogo enraizado em um nó

 É a sub-árvore que parte de um nó até as folhas

Equilíbrio Sub-Jogo Perfeito

É todo perfil de estratégias que é equilíbrio de Nash em todo possível sub-jogo

É um equilíbrio de Nash

Teorema:

Sempre existe, pelo menos um equilíbrio sub-jogo perfeito!

(21)

EXEMPLO

No jogo anterior, o único equilíbrio sub-jogo perfeito é

(22)

ALGORITMO

Como encontrar um equilíbrio sub-jogo perfeito?

 Pensar de baixo para cima

Backward induction: algoritmo geral, para n

jogadores

(23)

ALGORITMO

Backward-Induction(nó n, agente i)

Se n é folha, retorne o vetor de utilidadesPara cada ação a do agente i

na árvore, veja o próximo nó n’ e o próximo agente i’ rode Backward-Induction( n’, i’ )

 Observar as utilidades retornadas

Retorne o vetor de utilidades no qual o agente i tem maior recompensa

(24)

EXEMPLO

Calcular o equilíbrio sub-jogo perfeito do jogo

anterior

(25)

CASO ESPECIAL

Em jogos de soma zero com 2 jogadores

 Basta usar a recompensa de um deles (jogador 1)

 Um jogador a maximiza e o outro a minimiza

Algoritmo minimax é simplificação do Backward-Induction:

O jogador 1 (max) escolhe a ação que maximiza sua recompensa

O jogador 2 (min) escolhe a ação que minimiza a recompensa

(26)
(27)

USO PRÁTICA

Tipicamente, a “inteligência” do jogador 1, para um

jogo como xadrez é feita assim:

Rodar o minimax e retornar apenas a primeira ação do agente 1  Depois, o agente 2 (um humano?) vai fazer uma ação qualquer  Então, o agente 1 executa de novo o algoritmo, etc...

Problema: inviável em árvores muito grandes

 Vimos uma aula (“busca competitiva”) com várias técnicas heurísticas...

(28)

3. OUTRAS

FORMAS DE

(29)

3.1 FORMA EXTENSIVA

COM INFORMAÇÃO

IMPERFEITA

Conhecimento parcial das ações tomadas anteriormente

(30)

3.1 FORMA EXTENSIVA

COM INFORMAÇÃO

IMPERFEITA

Características:

 Permite ações em paralelo, ou secretas  Generaliza a Forma Normal

 Permite modelar jogos de cartas

 Um jogador não sabe as cartas do outro

(31)

3.2 JOGOS REPETIDOS

Um mesmo jogo (chamado stage game) é repetido múltiplas

vezes

 Mais comum: na forma normal

(32)

3.2 JOGOS REPETIDOS

A repetição altera a característica estratégica do jogo

(33)

3.2 JOGOS REPETIDOS

Variantes:

 Repetições finitas

 Repetições infinitas (possivelmente)

Recompensa final (em função das recompensas do stage

game):

Média

Soma futura descontada

 Recompensas iniciais contribuem mais

(34)

JOGOS REPETIDOS

INFINITAMENTE

Estratégias geralmente descritas como algum algoritmo que

considera o histórico

Exemplo: Dilema do prisioneiro repetido

Tit-for-Tat: se adversário cooperar, coopere no jogo seguinte; se ele delatar,

delate no seguinte (apenas imita)

 Vencedora de várias competições

Trigger: coopere, enquanto ele cooperar; se ele delatar, delate para sempre

 Dependendo do modelo de recompensas, elas forma equilíbrio de Nash consigo mesma ou uma com a outra

(35)

JOGOS REPETIDOS

INFINITAMENTE

Aplicação: explica situações de cartel

OPEP: cartel de grandes produtores de petróleo

 Decide a produção mundial

 Reduzir, aumenta o preço

 Aumentar, reduz o preço

 A cada semana/mês, cada um deles pode decidir continuar cooperando ou produzir mais

(36)

EXEMPLO: JOGO DA

PATRULHA

(37)

JOGO DA PATRULHA

Ambiente discretizado

 Malha retangular, grafo,...

Agente patrulhador (r)

Ações: move para uma casa vizinha i  Leva 1 turno

Agente invasor (i)

Ação: invadir uma casa vizinha i, ou esperarInvadir leva d turnos

(38)

JOGO DA PATRULHA

(39)

JOGO DA PATRULHA

Recompensas do patrulhador (posicionado na célula l)

Deslocar-se para i tem custo (recompensa negativa) Cl,i

Chegar em i tem valor v2r

 valor da casa 2, para o robô de patrulha

Se chegar na casa do invasor, ganha uma recompensa adicional u

Recompensas do adversário:

Se o invasor invadir com sucesso uma casa i, ganha uma recompensa v2i

 valor da casa 2, para invasor

 Se o patrulhador chegar na casa que o invasor está tentando invadir, dentro do tempo d, o invasor recebe uma punição t

(40)

JOGO SIMPLIFICADO

O jogo anterior é complexo de tratar, mas cada “rodada”

pode ser resolvido como um jogo da forma normal:

(41)

3.3 JOGOS ESTOCÁSTICOS

O jogo tem um conjunto de estados, onde cada estado é

associado a um jogo (na forma normal)

Depois de jogar o jogo do estado atual, a “natureza” muda

de estado, probabilisticamente, em função:

 do último jogo

 e do perfil de ações jogados pelos agentes

Generaliza os Jogos Repetidos Infinitamente e os

Processos de Decisão Markov (MDP)

 Casos de 1 estado, e de 1 agente, respectivamente

(42)

3.4 JOGOS BAYESIANOS

Há vários jogos possíveis, com espaço de ações

semelhantes

 Cada um com payoffs distintos

Existe uma probabilidade de cada um ser o jogo ativo

Diferencial: modelam incerteza

 Os agentes não sabem o jogo realmente ativo, em um dado momento  Vários (todos?) tipos de incerteza podem ser reduzidos a esse caso

(43)

3.4 JOGOS BAYESIANOS

Exemplo:

(44)

3.5 MAIS JOGOS

Jogos de congestão: jogadores compartilhando um

recurso

 Eles decidem fazer ou não (acessar um site, ir a um lugar, etc.)  Recompensas comuns a todos

 Ex.: ir para certa festa

Jogos de coalizão: agentes buscam formar alianças

 Podem entrar ou não

 Utilidade depende de quantos/quais agentes entraram  Objetivo é ter uma aliança justa e estável

(45)

3.6 OUTROS ASSUNTOS

Mechanism Design

 Como criar condições para que a saída do jogo tenha certas propriedades  Ex.: como eleger um líder que realmente reflita as preferências dos

agentes

Aplicações: agendamento de tarefas, alocação de largura de banda, etc

Comunicação, leilões, aprendizagem multiagente...

(46)
(47)

TEORIA DOS JOGOS

Os vários tipos de jogos e conceitos de solução são

ferramentas...

Para modelar formalmente situações entre vários

agentes (humanos ou não) racionais

(48)

REFERÊNCIAS

Multiagent Systems (Shoham e Leyton-Brown)

Wikipedia em inglês (en.wikipedia.org)

Referências

Documentos relacionados

[r]

Ensinar as habilidades acadêmicas e em especial matemática para o aluno autista que está inserido agora no ensino regular se tornou um grande desafio que deve ser abraçado

A deficiência de ação governamental agravou a carência habitacional no país para as famílias de baixa renda.” (Caixa Econômica Federal. Demanda Habitacional no Brasil.

Nessa situação temos claramente a relação de tecnovívio apresentado por Dubatti (2012) operando, visto que nessa experiência ambos os atores tra- çam um diálogo que não se dá

O score de Framingham que estima o risco absoluto de um indivíduo desenvolver em dez anos DAC primária, clinicamente manifesta, utiliza variáveis clínicas e laboratoriais

Depois de passada a tensão do processo seletivo e da sedenta busca por informações sobre o assunto, preciso dizer que estudar Delsarte não apenas se transformou numa

Os Jogos: Os jogos olímpicos são uma invenção grega que ainda hoje

Figura 33 - Mapas hidroquímicos da distribuição da concentração do ferro (µg.L-1) nas águas superficiais do reservatório da usina hidrelétrica de Coaracy Nunes, no