TEORIA DOS
JOGOS – PARTE 1
Prof. Pablo A. Sampaio
REVISÃO
Vimos arquiteturas de agentes
Para construir agentes para qualquer problema
Quanto aos problemas, focamos mais em agentes
cooperativos
Satisfação de restrição distribuída
Otimização distribuída Várias técnicas
A PARTIR DESTA AULA
Self-interested agents
Vou traduzir como agentes egoístas
Quer dizer que cada um tem suas próprias preferências/objetivos
Eles podem até cooperar, se houver uma coincidência eventual de interesses
Aplicações: agentes que fazem comércio, preparam viagens,
etc.
Vamos ver um modelo matemático para representar
adequadamente este tipo de agente
1. INTRODUÇÃO À
TEORIA DOS JOGOS
JOGO
Parte da ideia de agentes baseados em utilidade
Função de utilidade avalia cada estado
Quando dois ou mais agentes agem com funções de
utilidade diferentes, e as ações de um afetam o outro,
chamamos esta situação de um jogo
Uma maneira simples de representar é como uma tabela
Linhas: ações do agente 1
Coluna: ações do agente 2
Célula: par dos valores de utilidade
EXEMPLO DE JOGO
Dilema do Prisioneiro: dois cúmplices presos são
interrogados separadamente
É preciso que ambos colaborem para comprovar totalmente o crime
O que é mais racional fazer?
(https://en.wikipedia.org/wiki/Prisoner %27s_dilema)
SOBRE O JOGO ANTERIOR
Qual ação escolher...
Se você tiver uma ideia do que o seu colega vai fazer?
Se você puder se comunicar com ele antes?
Qual o comportamento esperado (do ponto de vista dos
interrogadores)?
E se esse cenário for repetido múltiplas vezes? (E infinitas?)
A Teoria dos Jogos tenta responder a essas e outras questões
Dependendo, a ação esperada pode ser Cooperate ou Defect
JOGOS E AGENTES
Entenda um jogo (da Teoria dos Jogos) como um modelo
matemático útil para modelar agentes egoístas
Um modelo é uma simplificação do mundo real (mas que preserva algumas características), criado para estudar algo algum fenômeno
Na verdade, a Teoria dos Jogos têm vários modelos de jogos
A forma de tabela, do exemplo, é um desses...
FORMA NORMAL
É o modelo de representação de jogos mais usado e que
serve de referência para outros
Muitas das outras formas de representar podem ser convertidas para esta
Para 2 jogadores, é uma representação na forma de tabela
(como o exemplo dado)
FORMA NORMAL
CASOS ESPECIAIS DA
FORMA NORMAL
Dependendo dos valores das utilidades, os jogos podem ter
características especiais, criando tipos de jogos
Veremos dois tipos especiais a seguir:
1. Dilema do Prisioneiro
2. Common-payoff game
1. DILEMA DO PRISIONEIRO
GENERALIZADO
O exemplo clássico deste tipo de jogo é o primeiro exemplo que demos O exemplo dá nome à essa classe
É qualquer jogo com a forma abaixo, onde T > R > P > S :
(https://en.wikipedia.org/wiki/Prisoner %27s_dilema)
OUTRO EXEMPLO
Problema do TCP: é melhor uma implementação
correta (C) ou defectiva (D) do TCP?
A correta tem que reduzir a velocidade em caso de conflito
A defectiva nunca reduz
Porém, se todos implementarem defectivamente, todos ficam com dificuldades de enviar pacotes
2. COMMON-PAYOFF GAME
Agentes podem fazer as mesmas ações e recebem a utilidade igual, para cada saída do jogo
Não há conflito de interesses: basta escolher a ação que é maximamente benéfica para todos
EXEMPLO
Em um lugar sem leis de trânsito, dois carros dirigem em
uma mesma via
3. ZERO-SUM GAME
Também chamado “Constant-sum game”
Em todas as situações, a soma dá uma constante
É comum estudar o caso
Especialmente relevante no caso de 2 agentes
EXEMPLO: MATCHING
PENNIES
Cada pessoa mostra uma moeda virada
Se estiverem viradas do mesmo lado, o jogador 1 ganha
1. Como como (1 agente) joga?
2. Como todos vocês jogam?
(Qual a representação matemática destas coisas?)
PERGUNTAS
2. ESTRATÉGIAS E
PERFIS
Chamamos de estratégia à forma como 1 agente define
suas ações
Estratégia pura – é uma única ação
Exemplos:
(a esposa sempre escolhe assistir LW)
Estratégia mista – é uma função que mapeia ação em
probabilidade
Agente escolhe ação aleatoriamente, segundo tais probabilidades
Exemplo:
Esposa tem 70% de chance de escolher LW Notação:
E tem 30% de chance de escolher WL Notação:
Existe alguma discussão acadêmica sobre o que significa, na
prática, uma estratégia mista
Vamos pensar em termos de um jogo que pode vir a se repetir,
mas não de forma imediata
Ex.: disputa de pênaltis
Aleatorizar evita que o adversário se aproveite de você
Ou de múltiplas ações em paralelo
(de um mesmo agente)
Ex.: fabricar peças
(sportv.globo.com )
EXEMPLO
Voltando ao Problema do TCP
Pensar em fabricantes que implementam o TCP em placas físicas (irreal?)
ALEATORIZAÇÃO NO JOGO
TCP
Exemplo de estratégia pura (1 jogador)
= jogar C
Fabricante i faz todas as suas placas com implementações corretas
Exemplo de estratégia mista (1 jogador)
= jogar C com 30% de chance / jogar D com 70% de chance
Fabricante i faz 30% de suas placas corretas e 70% com defeito
COMO TODOS VOCÊS
JOGAM?
Um pressuposto comum em jogos da Forma Normal é que
Os agentes decidem a ação em paralelo
Sem conhecimento das decisões um do outro
Assim, o “jogo de todos” é uma mera “coleção” das
estratégias independentes dos agentes...
Perfil de estratégias: é uma tupla com as estratégias de
todos os n agentes
Notação:
É o perfil (e não a estratégia) que define a recompensa /
utilidade de cada agente
COMO TODOS VOCÊS
JOGAM?
Quanto todos os agentes têm estratégias puras (i.e., onde
cada agente faz 1 ação)
Recompensa: consultar diretamente na tabela!
PERFIL DE ESTRATÉGIAS
PURAS
EXEMPLO
Perfil de estratégias
pura :
Recompensas / utilidades:
E para este outro perfil?
Guerra do Casal: que
filme assistir?
LW – Lethal Weapon
Quando todos os agentes adotam estratégias mistas (ações
com probabilidades)
Recompensa: calcular a recompensa/utilidade esperada
Média das recompensas (para todas as combinações de ações) ponderada pela probabilidade de ocorrer cada combinação de ações
é o conjunto de todas as tuplas de
ações possíveis.
A função dá a probabilidade da
tupla acontecer, dado o perfil de estratégias .
PERFIL DE ESTRATÉGIAS
MISTAS
PERFIL DE ESTRATÉGIAS
MISTAS
Todos os agentes adotam estratégias mistas (ações com
probabilidades)
Recompensa: calcular a recompensa/utilidade esperada
Média das recompensas (das possíveis combinações de ações) ponderada pela probabilidade de ocorrer cada combinação de ações
Onde:
• é a ação do agente j (na tupla )
• é a prob. do agente j executar