Microeconomia 2 – P´
os-Gradua¸c˜
ao – 2/2019
Notas de Aula 1 – Teoria dos Jogos (Parte 3)
Prof. Jos´
e Guilherme de Lara Resende
Departamento de Economia, Universidade de Bras´ılia
Jogos na Forma Extensiva
1
Defini¸
c˜
oes Iniciais
Sabemos que para descrevermos um jogo s˜ao necess´arios trˆes objetos: • Os jogadores (inclusive natureza),
• A regra do jogo,
• O resultado (payoff) do jogo.
Um jogo na forma extensiva, definido a seguir, ´e a representa¸c˜ao mais adequada para situa¸c˜oes dinˆamicas. A defini¸c˜ao abaixo mostra que para se caracterizar um jogo na forma extensiva de maneira formal, ´e necess´ario definir uma s´erie de objetos, o que leva a uma caracteriza¸c˜ao longa
Defini¸c˜ao 7.13: Jogo na Forma Extensiva. Representamos um jogo finito Γ na forma extensiva pelo conjunto:
Γ = {I, A, X, E, ι, π, I, (ui)i∈I}
onde:
1. I ´e o n´umero (finito) de jogadores (denotamos por 1 o jogador natureza, caso exista); 2. A ´e o conjunto de a¸c˜oes, que inclui todas as a¸c˜oes que podem ser tomadas em qualquer
ponto do jogo (A n˜ao necessariamente ´e finito);
3. X ´e um conjunto de n´os (ou hist´orias – cada n´o ´e uma descri¸c˜ao completa das a¸c˜oes que foram escolhidas at´e o momento presente do jogo), tal que:
(a) X cont´em um elemento denotado x0, chamado n´o inicial (ou hist´oria vazia);
(b) Cada x ∈ X \{x0} toma a forma x = (a1, a2, . . . , ak) para algum n´umero finito de
a¸c˜oes ai ∈ A, e
(c) Se (a1, a2, . . . , ak) ∈ X \{x0} para algum k > 1, ent˜ao (a1, a2, . . . , ak−1) ∈ X \{x0}.
Vamos denotar por A(x) o conjunto:
A(x) = {a ∈ A | (x, a) ∈ X}
de todas as a¸c˜oes dispon´ıveis para o jogador que deve se mover ap´os a hist´oria x ∈ X\{x0}.
4. A(x0) ⊂ A ´e um conjunto de a¸c˜oes e π ´e uma distribui¸c˜ao de probabilidade sobre A(x0)
que descreve o movimento da natureza no jogo. A natureza sempre se move primeiro e uma ´unica vez, selecionando aleatoriamente uma a¸c˜ao em A(x0) usando a probabilidade
5. E ´e um conjunto de n´os finais, definido por:
E = {x ∈ X | (x, a) 6∈ X para todo a ∈ A} (cada n´o final descreve uma partida inteira em particular do jogo).
6. ι : X \ (E ∪ {x0}) → I ´e uma fun¸c˜ao que indica o jogador que joga no n´o de decis˜ao
x ∈ X \(E ∪ {x0}). Denotamos por:
Xi = {x ∈ X \(E ∪ {x0}) | ι(x) = i }
o conjunto dos n´os de decis˜ao em que i joga.
7. I ´e uma parti¸c˜ao do conjunto de n´os de decis˜ao X\(E ∪{x0}) em conjuntos de informa¸c˜ao,
de modo que se x e x0 pertencem ao mesmo elemento da parti¸c˜ao I, ent˜ao: (a) ι(x) = ι(x0) (mesmo jogador que escolhe), e
(b) A(x) = A(x0) (mesmas a¸c˜oes dispon´ıveis).
O conjunto de informa¸c˜ao que cont´em o n´o de decis˜ao x ´e denotado por I(x). Denotamos por:
Ii = {I(x) | ι(x) = i, para algum x ∈ X \(E ∪ {x0})}
o conjunto dos conjuntos de informa¸c˜ao em que i joga.
8. ui : E → R, i = 1, 2, . . . , I ´e uma fun¸c˜ao de payoff esperado com dom´ınio no conjunto
dos n´os finais, descrevendo o payoff de cada jogador para todo partida completa poss´ıvel do jogo.
Defini¸c˜ao: Jogo Finito. Se os conjuntos de a¸c˜oes A e o conjunto de n´os X s˜ao finitos, ent˜ao dizemos que o jogo na forma extensiva Γ = {I, A, X, E, i , π, I, (ui)i∈I} (com finitos jogadores)
´ e finito.
Defini¸c˜ao: Jogo de Informa¸c˜ao Perfeita. Um jogo Γ na forma extensiva ´e de informa¸c˜ao perfeita se cada conjunto de informa¸c˜ao do jogo cont´em apenas um n´o de decis˜ao (I(x) = {x} ou #I(x) = 1, ∀ x ∈ X \(E ∪ {x0})).
Logo, em um jogo de informa¸c˜ao perfeita, cada jogador observa todas as jogadas dos outros jogadores escolhidas anteriormente.
Exemplo: Representa¸c˜ao em ´Arvore. Nos dois exemplos abaixo (e nos pr´oximos), o payoff na primeira linha ´e do jogador 1 e na segunda linha, do jogador 2.
Jogo de Informa¸c˜ao Perfeita
t 1 E @ @ @ @ @@ D t 2 2 r A A A A AA l 1 3 0 0 l A A A A A A r t 0 0 3 1 t t t t
Jogo de Informa¸c˜ao Imperfeita
t 1 E @ @ @ @ @@ D t 2 r A A A A AA l 1 3 0 0 l A A A A AA r t 0 0 3 1 t t t t
Terminologia:
• Dizemos que o n´o y sucede estritamente o n´o x se y = (x, a1, . . . , ak), para algum conjunto
{a1, . . . , ak} ∈ A.
• k = 1, dizemos que y sucede imeditamente x.
• Dizemos que y sucede fracamente x se y = x ou se y sucede estritamente x.
Dizemos que um jogo ´e de mem´oria perfeita quando nenhum jogador se esquece do que ele j´a sabia (inclusive de a¸c˜oes que j´a foram tomadas durante o desenrolar do jogo).
Defini¸c˜ao 7.18: Jogo de Mem´oria Perfeita. Um jogo Γ na forma extensiva ´e de mem´oria perfeita se para dois n´os quaisquer x e y = (x, a, a1, . . . , ak) que pertencem ao mesmo jogador,
ent˜ao todo n´o no mesmo conjunto de informa¸c˜ao de y tem a forma w = (z, a, a01, . . . , a0l), para algum n´o z no mesmo conjunto de informa¸c˜ao de x.
A defini¸c˜ao acima de mem´oria perfeita assume que se um jogador i qualquer n˜ao consegue distinguir entre dois n´os de decis˜ao seus (ou seja, que pertencem ao mesmo conjunto de in-forma¸c˜ao – na defini¸c˜ao, y e w), ent˜ao essas hist´orias y e w podem ser diferentes apenas com rela¸c˜ao a a¸c˜oes tomadas por outros jogadores, diferentes de i. Isto implica que nenhum jogador se esquece das a¸c˜oes que escolheu no passado. Portanto, se dois n´os pertencem ao mesmo conjunto de informa¸c˜ao do jogador i, ent˜ao a mesma sequˆencia de a¸c˜oes de i levou a esses n´os. O jogo ilustrado na figura abaixo n˜ao apresenta mem´oria perfeita. Nesse jogo, o jogador 1, na terceira rodada do jogo, ap´os a sua escolha na primeira rodada e ap´os a escolha do jogador 2 na segunda rodada, n˜ao se lembra de sua escolha feita na primeira rodada do jogo.
t 1 E H H H H H H H H H H H j D t 2 a @ @ @ @ @ @ R b t a A A A A A A U b t 1 A A A A A A U l r l r l r l r t @ @ @ @ @ @ R t A A A A A A U t A A A A A A U x1 x2 x3 x4 x5 x6 x7
No exemplo acima, representamos os n´os de decis˜ao dos jogadores por xi, i = 1, 2, . . . , 7.
Intuitivamente, vimos que ´e f´acil observar que o jogo n˜ao ´e de mem´oria perfeita. Vamos checar ent˜ao se ele de fato n˜ao satisfaz a defini¸c˜ao acima. Para isso, basta observar que x4 e x6, por
exemplo, s˜ao n´os de decis˜ao que pertencem ao mesmo conjunto de decis˜ao do jogador 1, e que x4 = (x1, E, a) e x6 = (x1, D, a), onde x1 ´e um n´o de decis˜ao do jogador 1. Logo, a a¸c˜ao
tomada por 1 em x1 e que leva a x4 ´e diferente da a¸c˜ao tomada por 1 em x1 que leva a x6.
Como x4 e x6 est˜ao no mesmo conjunto de informa¸c˜ao do jogador 1, isso significa que esse jogo
representa uma situa¸c˜ao em que 1 se esquece da a¸c˜ao tomada no n´o de decis˜ao x1, E ou D,
quando o jogo alcan¸ca o conjunto de informa¸c˜ao I(x4) = {x4, x5, x6, x7}, um ponto do jogo em
2
Rela¸
c˜
ao Entre Forma Normal e Forma Extensiva
2.1
Forma Estrat´
egica Associada
Defini¸c˜ao 7.14: Estrat´egias em Jogos na Forma Extensiva. Seja Γ um jogo na forma extensiva qualquer. Uma estrat´egia pura do jogador i para o jogo Γ ´e uma fun¸c˜ao si : Ii → A,
tal que si(I(x)) ∈ A(x), para todo x com ι(x) = i. Vamos denotar por Si o conjunto de
estrat´egias puras do jogador i no jogo Γ.
A estrat´egia de um jogador em um jogo na forma extensiva ´e uma regra que determina a sua escolha de a¸c˜ao em todos os conjuntos de informa¸c˜ao do jogo. Uma estrat´egia para o jogador i ´e ent˜ao um plano contingente completo (uma regra de decis˜ao completa) que especifica como o jogador i jogar´a em toda e qualquer circunstˆancia do jogo. Se o jogo Γ ´e finito, ent˜ao o conjunto de estrat´egias de cada jogador ´e finito.
Dizer que uma estrat´egia ´e um plano contingente completo para o jogo significa dizer que uma estrat´egia define a¸c˜oes para todos os conjuntos de informa¸c˜ao do jogo, mesmo que esses conjuntos de informa¸c˜ao n˜ao sejam alcan¸cados durante o jogo. Isso inclui definir a¸c˜oes para conjunto de informa¸c˜oes onde a pr´opria estrat´egia do jogador em quest˜ao torna essas a¸c˜oes irrelevantes.
Vamos denotar por s um conjunto de estrat´egias para o jogo em forma extensiva Γ finito. Dado s = s1× s2× · · · × sI e π, podemos calcular o payoff esperado de cada jogador, representado
por Eπui(s) ou apenas ui(s), para i = 1, 2, . . . , I.
Se cada jogador escolhe uma estrat´egia si ∈ Si, ent˜ao temos que foi jogada uma partida do
jogo e o resultado est´a descrito em um dos n´os finais do jogo Γ. Deste modo, (Si, ui)i∈I define
um jogo na forma estrat´egica, chamado forma estrat´egica associada a Γ.
Portanto, podemos estender todos os conceitos definidos anteriormente (dominˆancia, equil´ıbrio de Nash, etc) de jogos na forma estrat´egica para jogos na forma extensiva.
Um jogo representado na forma normal pode ser representado na forma extensiva sem ambi-guidades? O contr´ario tamb´em ´e v´alido? A forma normal ´e uma estrutura mais simples de se definir do que a forma extensiva, pois envolve uma quantidade menor de objetos matem´aticos. A raz˜ao para isso ´e que uma estrat´egia condensa uma quantidade enorme de informa¸c˜ao sobre as a¸c˜oes escolhidas que comp˜oem essa estrat´egia. Respondendo ent˜ao as duas perguntas, da forma extensiva para a forma normal sim, mas o contr´ario n˜ao ´e v´alido: a mesma forma normal pode representar mais de um jogo na forma extensiva. A figura abaixo mostra dois jogos dife-rentes que possuem a mesma representa¸c˜ao na forma normal, que se resume na representa¸c˜ao de um jogo do tipo “Cara ou Coroa” discutido acima.
Jogador 1 escolhe primeiro
t 1 Ca @ @ @ @ @@ Co t 2 Co A A A A AA Ca −1 1 1 −1 Ca A A A A A A Co t 1 −1 −1 1 t t t t
Jogador 2 escolhe primeiro
t 2 Ca @ @ @ @ @@ Co t 1 Co A A A A AA Ca −1 1 1 −1 Ca A A A A AA Co t 1 −1 −1 1 t t t t
Como todo jogo na forma extensiva possui uma ´unica representa¸c˜ao na forma estrat´egica, podemos adaptar os conceitos definidos anteriormente para jogos na forma estrat´egica (do-minˆancia, equil´ıbrio de Nash, etc) para jogos na forma extensiva, aplicando esses conceitos para a representa¸c˜ao na forma normal do jogo na forma extensiva.
von Neumann and Morgenstern (2007) (publicado originalmente em 1944) argumentam que de um modo geral, s´o ´e necess´ario conhecermos a forma normal para analisarmos um jogo. Se os jogadores s˜ao inteligentes, cada jogador pode planejar toda a sua regra de decis˜oes para o jogo antes de o jogo come¸car. Assim, ele monta a sua estrat´egia para o jogo.
Essa “suficiˆencia” da forma normal de um jogo ´e uma das ideias mais importantes da teoria de jogos. Para jogos simultˆaneos, isso ´e claro. Por´em, para jogos dinˆamicos, existe uma perda de informa¸c˜ao quando representamos o jogo na forma estrat´egica. No exemplo acima, vemos que a forma normal equivalente dos dois jogos sequenciais ´e a mesma – logo a informa¸c˜ao perdida na representa¸c˜ao do jogo na forma normal ´e apenas quem escolhe primeiro o lado da moeda. Essa perda de informa¸c˜ao ´e irrelevante para a an´alise dos dois jogos e n˜ao influencia os resultados obtidos. Por´em, essa perda de informa¸c˜ao ser´a sempre irrelevante ou existem casos em que ela ´
e relevante? Essa ´e uma quest˜ao em aberto na teoria.
2.2
Randomiza¸
c˜
ao
Existem dois modos de se definir randomiza¸c˜ao por parte dos jogadores em um jogo na forma extensiva:
1. Randomizar a estrat´egia usada. Esse modo de randomiza¸c˜ao ´e o mesmo usado em jogos estrat´egicos.
2. Randomizar em cada momento de jogar.
No primeiro modo, obtemos o conceito de estrat´egia mista visto anteriormente. No segundo modo, obtemos o conceito de estrat´egia comportamental.
Defini¸c˜ao: Estrat´egias Comportamentais. Seja Γ um jogo na forma extensiva. Uma estrat´egia comportamental bi para o jogador i especifica, para cada conjunto de informa¸c˜ao
I ∈ Ii e para cada a¸c˜ao a ∈ A(I), uma probabilidade bi(a, I) ≥ 0, onde:
X
a∈A(I)
bi(a, I) = 1 , ∀ I ∈ Ii,
onde A(I) ´e o conjunto de a¸c˜oes poss´ıveis no conjunto de informa¸c˜ao I.
Teorema de Kuhn (Kuhn, 1953). Para jogos na forma extensiva de mem´oria perfeita, estrat´egia mista e estrat´egia comportamental s˜ao modos de randomiza¸c˜ao equivalentes. Logo, para toda estrat´egia comportamental bi de i, podemos encontrar uma estrat´egia mista
mi de i que resulta na mesma distribui¸c˜ao sobre payoffs, quaisquer que sejam as estrat´egias,
mistas ou comportamentais, usadas pelos outros jogadores, e vice-versa. Isso implica que o tipo de estrat´egia considerada, mista ou comportamental, ´e irrelevante para an´alise de jogos finitos na forma extensiva de mem´oria perfeita.
2.3
Amea¸
cas N˜
ao-Cr´ıveis
V´arios tipos de jogos possuem uma dinˆamica de a¸c˜oes escolhidas em tempos diferentes. Em alguns desses jogos, represent´a-los na forma normal e da´ı encontrarmos os EN pode n˜ao ser adequado. Quando transformamos um jogo na forma extensiva para a forma normal e en-contramos os EN do jogo nessa forma, alguns equil´ıbrios podem n˜ao ser cr´ıveis, baseados em amea¸cas de um dos jogadores que n˜ao ser´a cumprida nunca. Portanto, o principal problema na resolu¸c˜ao de jogos dinˆamicos por meio de encontrar os EN da sua representa¸c˜ao na forma normal diz respeito `a credibilidade de uma estrat´egia que faz parte de um EN do jogo na forma normal.
Exemplo: Monopolista e Firma Entrante (Fig. 7.12). Considere um mercado monopo-lista. O monopolista (M ) mant´em o mercado amea¸cando firmas entrantes (E) com uma guerra de pre¸cos. Desse modo, o monop´olio mant´em seu lucro. Por´em, se alguma firma de fato entrar, a melhor estrat´egia para o monopolista ´e formar um cartel e dividir o lucro de monop´olio, j´a que a guerra de pre¸cos traria preju´ızos n˜ao somente para a firma entrante, mas tamb´em para o incumbente. Essa situa¸c˜ao estrat´egica ´e representada pelo seguinte jogo na forma extensiva.
t Entrante N˜ao Entra @ @ @ @ @ @ R Entra 0 2 t Monopolista −1 −1 1 1 Briga @ @ @ @ @ @ R Acomoda
A representa¸c˜ao na forma normal do jogo acima ´e:
Entrante/Monopolista Briga, se E entrou Acomoda, se E entrou
N˜ao entra 0,2 0,2
Entra -1,-1 1,1
Existem dois EN em estrat´egias puras para o jogo:
1. firma entrante (E) entrar, monopolista (M ) acomoda, se E entrou; e 2. firma entrante n˜ao entra, monopolista briga se E entrar.
O segundo EN ´e baseado em uma amea¸ca vazia, n˜ao-cr´ıvel : M faz uma amea¸ca, que se for levada a s´erio, n˜ao precisa ser cumprida, pois nesse caso E escolhe n˜ao entrar. Por´em, uma vez que E entra, o melhor para M ´e se acomodar. O refinamento de perfei¸c˜ao em subjogos, que ve-remos a seguir, tem como principal objetivo eliminar equil´ıbrios de Nash baseados em amea¸cas n˜ao-cr´ıveis. Vamos dividir a an´alise: primeiro estudaremos jogos de informa¸c˜ao perfeita, depois jogos de informa¸c˜ao imperfeita.
3
Jogos de Informa¸
c˜
ao Perfeita
Vamos primeiro analisar jogos de informa¸c˜ao perfeita, onde os jogadores est˜ao perfeitamente informados de todas as a¸c˜oes previamente escolhidas quando for o seu momento de jogar (I(x) = {x}, para todo n´o de decis˜ao x). Jogos como damas, xadrez, etc s˜ao jogos de in-forma¸c˜ao perfeita.
O objetivo ´e desenvolver um refinamento que elimine equil´ıbrios baseados em estrat´egias n˜ ao-cr´ıveis, como no exemplo acima, onde o ideal seria encontrarmos (1, 1) como ´unico payoff de solu¸c˜ao da intera¸c˜ao estrat´egica entre o monopolista e a firma entrante descrita no exemplo anterior. Portanto, queremos que as solu¸c˜oes do jogo ainda sejam EN, mas queremos eliminar os EN baseados em amea¸cas n˜ao-cr´ıveis. O seguinte conceito ´e fundamental para obtermos esse refinamento.
Princ´ıpio da Racionalidade Sequencial: A estrat´egia de um jogador qualquer deve espe-cificar a¸c˜oes ´otimas em cada conjunto de informa¸c˜ao do jogo desse jogador.
Esse princ´ıpio ´e implementado em um jogo finito na forma extensiva de informa¸c˜ao perfeita pelo seguinte Algoritmo de Indu¸c˜ao Reversa (backward induction algorithm, Def. 7.15):
1. Comece pelos n´os de decis˜ao finais da ´arvore (“n´os pen´ultimos”: n´os cujos sucessores s˜ao todos n´os terminais);
2. Determine a escolha ´otima dos jogadores que jogam nesses n´os (problema de maximiza¸c˜ao individual, sem intera¸c˜ao estrat´egica). Logo, para cada n´o pen´ultimo x, encontre sι(x)(x)
a a¸c˜ao que leva ao n´o final que maximiza o payoff do jogador ι (x) (no caso de mais de uma a¸c˜ao levando ao payoff m´aximo, fa¸ca esse procedimento para cada uma dessas a¸c˜oes). Denote por ux o vetor de payoffs resultante.
3. Redesenhe a ´arvore, substituindo os n´os pen´ultimos por um n´o terminal, com payoff definido pela escolha ´otima encontrada no passo 2, ux;
4. Repita passos 1., 2. e 3. para o jogo reduzido, at´e que uma a¸c˜ao tenha sido associada a cada n´o de decis˜ao (ou seja, at´e chegar ao n´o inicial do jogo).
A solu¸c˜ao de indu¸c˜ao reversa para jogos com informa¸c˜ao perfeita se resume a que todos os jogadores fa¸cam escolhas que maximizem o seu payoff sempre que for a sua vez de jogar. Na pr´atica, o jogo ´e resolvido do fim para o come¸co. No exemplo anterior, o ´unico EN que satisfaz o princ´ıpio da racionalidade sequencial, implementado por este algoritmo de indu¸c˜ao reversa, ´
e (entrar,acomodar se E entrou).
Defini¸c˜ao 7.15: Estrat´egias de Indu¸c˜ao Reversa. O conjunto de estrat´egias puras s = s1× · · · × sI ´e uma estrat´egia de indu¸c˜ao reversa para o jogo na forma extensiva Γ se ´e obtido
de acordo com o algoritmo de indu¸c˜ao reversa.
Teorema 7.4 (Kuhn). Se s ´e uma estrat´egia de indu¸c˜ao reversa do jogo finito Γ na forma extensiva de informa¸c˜ao perfeita, ent˜ao s ´e um equil´ıbrio de Nash de Γ.
Prova: Primeiro note que o algoritmo de indu¸c˜ao reversa ´e bem definido e leva a um conjunto de estrat´egias sir = (sir
1, sir2, . . . , sirI), j´a que o jogo Γ ´e finito. Temos que mostrar que sir ´e um
EN. Suponha que n˜ao. Ent˜ao existe (pelo menos) um jogador i para o qual existe s0i 6= sir i tal que: ui(s0i, s ir −i) > ui(siri , s ir −i)
Corol´ario 7.1. Todo jogo na forma extensiva finito de informa¸c˜ao perfeita tem um EN em estrat´egias puras.
Corol´ario: Unicidade de Equil´ıbrio. Se os payoffs de cada jogador s˜ao diferentes nos n´os terminais do jogo finito Γ na forma extensiva, para todos jogadores, ent˜ao existe um ´unico EN que pode ser encontrado usando o algoritmo de indu¸c˜ao reversa.
No jogo Monopolista/Entrante acima, vimos que existem dois EN em estrat´egias puras, mas apenas um EN pode ser obtido usando o algoritmo de indu¸c˜ao reversa. O algoritmo elimina exatamente o EN baseado em uma amea¸ca n˜ao-cr´ıvel, o monopolista abrir uma guerra de pre¸cos caso o entrante de fato entre. Essa amea¸ca n˜ao ´e cr´ıvel pois, uma vez que o entrante entrou no mercado, se o monopolista fizer uma guerra de pre¸cos, ele pr´oprio se prejudicar´a sem obter qualquer ganho.
4
Jogos de Informa¸
c˜
ao Imperfeita
O algoritmo de indu¸c˜ao reversa acima s´o se aplica para jogos de informa¸c˜ao perfeita. Por´em a id´eia de racionalidade sequencial pode ser usada tamb´em para jogos de informa¸c˜ao imperfeita por meio de um algoritmo similar de indu¸c˜ao reversa. A id´eia central ´e definir subjogos do jogo principal (Selten, 1965, 1975).
Defini¸c˜ao 7.16: Subjogo. Um subjogo de um jogo Γ na forma extensiva ´e um subconjunto do jogo tal que:
(i) Se inicia em um conjunto de informa¸c˜ao que cont´em apenas um ´unico n´o de decis˜ao; (ii) Cont´em todos os n´os que s˜ao sucessores desse n´o inicial; e
(iii) Se o n´o de decis˜ao y pertence ao subjogo, ent˜ao todo z ∈ I(y) tamb´em ´e n´o sucessor do n´o inicial x.
Podemos condensar a defini¸c˜ao acima na Def. 7.16 usada no livro-texto, que afirma que um n´o de decis˜ao x define um subjogo se I(x) = {x} e sempre que y for um n´o de decis˜ao que sucede x, e z um n´o que est´a contido no conjunto de informa¸c˜ao de y, ent˜ao z tamb´em sucede x. Ent˜ao se o n´o x define um subjogo, todos os jogadores sabem que est˜ao em x quando x for alcan¸cado. Cada subjogo pode ser visto como um jogo por si s´o.
Exemplo (Fig. 7.17). O jogo na forma de ´arvore abaixo possui dois subjogos.
t 1 In Out 2 2 t1 L @ @ @ @ @ @ R t 2 r A A A A A A l 1 3 0 0 l A A A A A A r t 0 0 3 1 t t t t
Defini¸c˜ao 7.17: ENPS em Estrat´egias Puras. O conjunto de estrat´egias puras s = (s1, s2, . . . , sI) do jogo na forma extensiva Γ ´e um equil´ıbrio de Nash Perfeito em Subjogos
(ENPS) se s induz um equil´ıbrio de Nash em todo subjogo de Γ.
Logo, o princ´ıpio de racionalidade sequencial ´e implementado em jogos de informa¸c˜ao imperfeita exigindo que a solu¸c˜ao do jogo seja tal que as a¸c˜oes que comp˜oem essa solu¸c˜ao definam um EN para cada subjogo do jogo.
Observe que um ENPS ´e um refinamento de EN: todo ENPS ´e um EN, j´a que o pr´oprio jogo ´
e um subjogo seu. O contr´ario n˜ao ´e v´alido: existem EN que n˜ao s˜ao perfeitos em subjogos. Teorema 7.5. Para todo jogo finito na forma extensiva de informa¸c˜ao perfeita, o conjunto de estrat´egias de indu¸c˜ao reversa ´e igual ao conjunto de ENPS em estrat´egias puras.
Logo, em jogos de informa¸c˜ao perfeita, o conjunto de ENPS coincide com o conjunto de EN obtido usando o algoritmo de indu¸c˜ao reversa visto acima. Por´em nem todo jogo de informa¸c˜ao imperfeita possui um ENPS em estrat´egias puras. Precisamos ent˜ao considerar a possibilidade de os jogadores “randomizarem”. O Teorema de Kuhn discutido acima mostra que, para jogos de mem´oria perfeita, tanto faz considerarmos estrat´egias mistas ou estrat´egias comportamen-tais. Vamos usar esse fato na demonstra¸c˜ao do Teorema de Selten (Teorema 7.6 abaixo). Defini¸c˜ao 7.19: ENPS. O conjunto de estrat´egias comportamentais b = (b1, b2, . . . , bI) ´e um
ENPS do jogo na forma extensiva finito Γ se b induz um equil´ıbrio de Nash em cada subjogo de Γ.
Dada a equivalˆencia entre estrat´egias mistas e estrat´egias comportamentais, o Teorema 7.1 garante que o conjunto de estrat´egias comportamentais b ´e um EN de um jogo se, e somente se, nenhum jogador possui uma estrat´egia pura que gere maior payoff, dadas as estrat´egias comportamentais dos outros jogadores. Essa equivalˆencia tamb´em garante que todo ENPS ´e um EN para jogos de mem´oria perfeita.
Teorema 7.6: Existˆencia de ENPS (Selten, 1965, 1975). Todo jogo finito na forma extensiva com mem´oria perfeita possui um ENPS.
A hip´otese de mem´oria perfeita ´e necess´aria. Existem exemplos de jogos que n˜ao s˜ao de mem´oria perfeita, que n˜ao possuem ENPS.
A prova do Teorema 7.6 utiliza o seguinte algoritmo geral de indu¸c˜ao reversa para jogos na forma extensiva (sejam de informa¸c˜ao completa ou n˜ao):
1. Comece pelo t´ermino da ´arvore, ache os EN para todos os subjogos finais (subjogos que n˜ao possuem nenhum subjogo estrito), encontre a estrat´egia comportamental equivalente; 2. Substitua cada subjogo pelo payoff de um de seus EN;
3. Repita os passos 1. e 2. para o jogo reduzido, continue at´e n˜ao restar nenhum subjogo; 4. Repita 1., 2. e 3. para todos os EN encontrados (no caso de algum subjogo ter mais de
um EN).
Para jogos de informa¸c˜ao perfeita, esse algoritmo ´e igual ao algoritmo anterior (Def. 7.15). Para jogos de informa¸c˜ao imperfeita, ele resulta em (pelo menos) um conjunto b de estrat´egias com-portamentais. Para completarmos a prova do Teorema 7.6, precisamos mostrar que qualquer conjunto b de estrat´egias comportamentais obtido usando o algoritmo de indu¸c˜ao reversa acima ´
e um ENPS, e que todo ENPS pode ser encontrado utilizando esse algoritmo (demonstra¸c˜ao similar a do Teorema 7.5).
5
Jogos Repetidos
Em um jogo do tipo dilema dos prisioneiros, seria poss´ıvel obter coopera¸c˜ao se repet´ıssemos o jogo diversas vezes? Com a repeti¸c˜ao, o n´umero de estrat´egias de cada jogador aumenta. Nesse caso, ´e poss´ıvel criar estrat´egias onde o jogador pune o outro, caso ele n˜ao coopere. Exemplo: Dilema dos Prisioneiros.
1↓ / 2 → Confessar N˜ao Confessar Confessar −3, −3 −1, −5 N˜ao Confessar −5, −1 −2, −2
Suponha que o jogador 1 adota a seguinte estrat´egia: na primeira intera¸c˜ao ele joga N C (cooperar). Nos per´ıodos seguintes, se o outro jogador escolheu N C (cooperar) no per´ıodo anterior, ele coopera hoje. Caso contr´ario, o jogador 1 escolhe C (n˜ao cooperar). Essa estrat´egia pode levar a algum tipo de coopera¸c˜ao? Mais especificamente, existe algum equil´ıbrio tal que os jogadores venham a adotar estrat´egias cooperativas? Para jogos repetidos finitas vezes, considerando ENPS, a resposta ´e negativa. Para jogos repetidos indefinidamente ou sem data certa para terminarem, a resposta ´e positiva.
5.1
Repeti¸
c˜
ao Finita
O teorema abaixo mostra que se o dilema dos prisioneiros ´e repetido um n´umero fixo (finito) de vezes, o ´unico equil´ıbrio de Nash perfeito em subjogos ser´a formado pelo EN do jogo em cada per´ıodo que est´a sendo jogado. Logo, n˜ao ´e poss´ıvel obter o resultado eficiente com a repeti¸c˜ao finita do jogo.
Teorema (Mas-Colell, Whinston, & Green, 1996). Seja Γ dado por sucessivos Gt = (St
i, uti)Ii=1 (ou seja, um jogo onde em cada per´ıodo t se joga um jogo simultˆaneo), t =
1, 2, . . . , T < +∞. Suponha que os jogadores observam as estrat´egias puras escolhidas em cada jogo, imediatamente ap´os a conclus˜ao do jogo, e que o payoff de cada jogador ´e dado pela soma descontada dos payoffs obtidos em todos os Gt. Se existe um ´unico EN st para cada Gt,
ent˜ao existe um ´unico ENPS para Γ, que consiste em cada jogador escolher st
i em cada jogo
Gt, independentemente do que foi feito antes.
O Teorema acima tem uma consequˆencia impl´ıcita importante, a de eliminar qualquer de-pendˆencia hist´orica nas estrat´egias. Ou seja, tudo o que ocorreu antes ´e irrelevante para decidir o que fazer hoje. Para jogos que satisfa¸cam as condi¸c˜oes da proposi¸c˜ao, um ENPS n˜ao depende da hist´oria ocorrida no jogo em nenhum momento.
Por exemplo, o Teorema garante que o dilema dos prisioneiros jogado repetidamente, por um per´ıodo determinado, continua sempre tendo a mesma solu¸c˜ao n˜ao cooperativa entre os jogadores em cada rodada do jogo. Esse resultado ´e consequˆencia da hip´otese de racionalidade sequencial. Por indu¸c˜ao reversa, na ´ultima rodada, ´e melhor n˜ao cooperar. Resolvendo de tr´as para diante, obtemos n˜ao-coopera¸c˜ao para todas as rodadas do jogo.
Intuitivamente, esse resultado ocorre pelo fato de o jogo ter uma data de t´ermino conhecida pelos jogadores. Resolvendo o jogo por indu¸c˜ao reversa, cada jogador percebe que o seu rival ir´a descumprir o acordo de coopera¸c˜ao na ´ultima vez que interagirem. Eles se adiantam a isso e n˜ao cooperam na ´ultima rodada. Sabendo disso, os jogadores tamb´em n˜ao ir˜ao cooperar na pen´ultima rodada do jogo. Usando esse argumento, obtemos que os jogadores n˜ao cooperam em nenhuma rodada do jogo. O Teorema, consequˆencia do conceito de ENPS, leva a resultados considerados pouco razo´aveis, como mostra o exemplo abaixo.
Exemplo: Jogo da Centopeia 1. Considere o seguinte jogo. s I C P 1 1 s II C P 0 3 I C P s 2 2 s II C P 1 4 . . . ...sII C s P 97 100 99 99 s s I C P II C P 98 101 (100 100)
Para este jogo, o ´unico ENPS ´e cada jogador escolher P em todo momento do jogo. Isso leva ao payoff de equil´ıbrio (1, 1), o que mostra que a no¸c˜ao de ENPS pode levar a comportamentos extremos, em que os jogadores obtˆem payoffs menores do que poderiam obter se cooperassem. Existem v´arios estudos experimentais sobre o jogo da centopeia, que procuram exatamente analisar se esse ´unico ENPS ´e de fato o resultado do jogo. Um estudo cl´assico ´e o de McKelvey and Palfrey (1992).
Exemplo: Jogo da Centopeia 2. Considere a seguinte vers˜ao do jogo da centopeia. Neste jogo, os dois participantes podem continuar o jogo ou parar. A cada vez que eles decidem continuar, o valor do montante que o jogo oferece ´e multiplicado por 10, iniciando com o valor de R$ 1. Eles podem, alternadamente, decidir continuar a aumentar o montante quatro vezes, ou seja, o montante pode ir at´e R$ 10.000. Por´em, nesta ´ultima etapa, o jogador que decide (jogador 1), pode escolher ou dividir o valor e, portanto, cada um dos jogadores recebe R$ 5.000 (uma solu¸c˜ao cooperativa), ou pode decidir ficar com os R$ 10.000 inteiros. Isso vale tamb´em para as etapas anteriores, onde neste caso o jogador que decide pode ou continuar o jogo, multiplicando por 10 o valor acumulado at´e ent˜ao, ou decidir terminar o jogo e ficar com o total do valor acumulado. Assim como na vers˜ao anterior do jogo da centopeia, nesta vers˜ao, o ´unico ENPS consiste em jogar P em todo n´o de decis˜ao, ou seja, o jogador recebe R$ 1 e o jogador 2, 0. Portanto, temos uma solu¸c˜ao em que os jogadores n˜ao cooperam nunca e, desse modo, o payoff total de equil´ıbrio do jogo ´e o menor poss´ıvel.
s I C P 1 0 s II C P 0 10 I C P s 100 0 s II C P 0 1000 s I Divide P 10.000 0 5.000 5.000
5.2
Repeti¸
c˜
ao Infinita
Se o jogo for repetido infinitamente (ou se ele n˜ao tiver uma data certa para terminar), pode-se mostrar que o resultado eficiente em cada rodada do jogo pode ser obtido como equil´ıbrio, dependendo do quanto os jogadores descontem o futuro (ou da probabilidade de o jogo terminar na rodada seguinte).
As estrat´egias que levam a esse tipo de equil´ıbrio s˜ao chamadas estrat´egias gatilho (“trigger ” ou “Nash-reversion strategies”). Um exemplo ´e a estrat´egia “olho-por-olho” (tit-for-tat ), onde a estrat´egia de hoje do jogador ´e igual `a estrat´egia usada pelo seu advers´ario ontem.
Considere novamente a seguinte estrat´egia para o i, i = 1, 2, denominada “Grim-Reaper ”: na primeira intera¸c˜ao ele joga N C (cooperar). Nos per´ıodos seguintes, se o outro jogador escolheu N C (cooperar) no per´ıodo anterior, ele coopera hoje. Caso contr´ario, o jogador i escolhe C (n˜ao cooperar) para sempre. Note que esta estrat´egia ´e extremamente punitiva: uma trai¸c˜ao e a coopera¸c˜ao nunca mais pode ser reestabelecida. Suponha que a taxa de desconto intertemporal ´
e 0 < δ < 1. Temos que o jogador 2 cooperar´a se:
∞ X t=0 −2δt≥ −1 + ∞ X t=1 −3δt ⇒ −2 1 − δ ≥ −1 + −3δ 1 − δ Logo, se δ ≥ 1 2,
ent˜ao o resultado cooperativo ((N C, N C) todo per´ıodo) ´e obtido como equil´ıbrio (´e um equil´ıbrio de Nash perfeito em subjogos).
Portanto, dependendo da taxa de desconto intertemporal e dos payoffs obtidos desviando do equil´ıbrio cooperativo e seguindo o equil´ıbrio cooperativo, podem existir equil´ıbrios em que os jogadores adotem estrat´egias que envolvam coopera¸c˜ao. Esse resultado ´e conhecido como “Folk Theorem” (Friedman, 1971; Rubinstein, 1979).
6
Equil´ıbrio Sequencial
Para certos jogos, ENPS n˜ao ´e um conceito de solu¸c˜ao adequado. O exemplo abaixo ´e um caso em que isso ocorre.
Exemplo 1. Considere o seguinte jogo na forma extensiva.
t Entrante ˜nE 0 2 E1 @ @ @ @ @ @ E2 t Monop´olio Ac A A A A A A Br −1 −1 3 0 Br A A A A A A Ac t −1 −1 2 1
A representa¸c˜ao desse jogo na forma estrat´egica ´e:
E↓ / M → Br Ac
nE (0, 2) (0, 2) E1 (−1, −1) (3, 0)
E2 (−1, −1) (2, 1)
O jogo acima possui dois EN em estrat´egias puras: (nE, Br se Entrante entra) e (E1, Ac se
Entrante entra). Esses EN s˜ao tamb´em ENPS, pois o ´unico subjogo desse jogo ´e o pr´oprio jogo. Nesse caso, o refinamento de perfei¸c˜ao em subjogos n˜ao elimina o equil´ıbrio “ruim” (nE, Br se Entrante entra), baseado em uma amea¸ca n˜ao-cr´ıvel.
Queremos eliminar o equil´ıbrio ruim, ainda usando o princ´ıpio da racionalidade sequencial. Para isso vamos introduzir um novo conceito, cren¸cas, de modo que, no exemplo acima, o jogador Monopolista possua uma cren¸ca sobre a estrat´egia que a Firma Entrante escolheu, uma vez que esta ´ultima decidiu entrar.
Exemplo 2 (Fig. 7.27). Considere o seguinte jogo.
t 1 L 0 5 M @ @ @ @ @ @ R t 2 r m A A A A A A l 4 0 −1 1 0 4 l m A A A A A A r t 0 4 −1 1 4 0 x y p(x) p(y)
O conjunto de estrat´egias (L, m se 1 jogou M ou R) ´e o ´unico ENPS (e tamb´em o ´unico EN) em estrat´egias puras desse jogo. Logo, perfei¸c˜ao em subjogos n˜ao imp˜oe nenhuma “disciplina” (ou “consistˆencia”) na parte do jogo n˜ao alcan¸cada, quando 1 escolhe L.
Vamos analisar se essa amea¸ca de jogar m por parte do jogador 2 ´e cr´ıvel, assumindo que o jogador 2 tem um sistema de cren¸cas a respeito da jogada escolhida por 1. Se 2 pode jogar (ou seja, que este conjunto de decis˜ao n˜ao-trivial ´e alcan¸cado), ele sabe que deve estar ou no n´o x ou no n´o y.
Suponha portanto que 2 tem o seguinte sistema de cren¸cas p descrito por:
• p(x) = probabilidade que 2 acha que o n´o x foi alcan¸cado (ie, que 1 jogou M ); • p(y) = probabilidade que 2 acha que o n´o y foi alcan¸cado (ie, que 1 jogou D). Nesse caso, os payoffs esperados de 2 para cada uma de suas estrat´egias dispon´ıveis s˜ao:
Eu2(l) = 4p(y) , Eu2(m) = 1 e Eu2(r) = 4p(x) .
Mesmo n˜ao assumindo nada sobre o sistema de cren¸cas de 2 (os valores de p(x) e p(y)), podemos afirmar que uma vez que 2 pode jogar, ele nunca escolher´a a estrat´egia m, j´a que a estrat´egia mista s = (1/2◦ l; 0 ◦ m;1/2◦ r) domina m estritamente:
Eu2(s) = 2 > 1 = Eu2(m) ,
qualquer que seja o sistema de cren¸cas p de 2. Ou seja, o equil´ıbrio (L, m se 1 jogou M ou R) ´
e formado por uma amea¸ca n˜ao-cr´ıvel, e satisfaz o crit´erio de perfei¸c˜ao de subjogos. Queremos ent˜ao refinar o conceito de ENPS para eliminar equil´ıbrios pouco razo´aveis como o encontrado para o jogo deste exemplo e do exemplo anterior.
Defini¸c˜ao: Sistema de Cren¸cas. Um sistema de cren¸cas para o jogo na forma extensiva Γ ´e uma especifica¸c˜ao de probabilidades p(x) ∈ [0, 1] para cada n´o de decis˜ao x do jogo Γ tal que:
X
x∈I
p(x) = 1 ,
para todo conjunto de informa¸c˜ao I de Γ.
Um sistema de cren¸cas diz qual ´e a cren¸ca de cada jogador de estar em algum n´o do conjunto de informa¸c˜ao I, condicional a estar nesse conjunto de informa¸c˜ao I. Ent˜ao um sistema de cren¸cas define probabilidades em cada conjunto de informa¸c˜ao, em todo o jogo, para todos os jogadores. Observe que, sem perda de generalidade, podemos nos restringir a definir o sistema de cren¸cas apenas para conjuntos de informa¸c˜ao n˜ao-triviais (com mais de um n´o de decis˜ao). Iremos proceder desse modo, para simplificar a nota¸c˜ao. Note que n˜ao faz sentido usar o conceito de cren¸cas para jogos na forma extensiva de informa¸c˜ao perfeita.
Considere o par (p, b) de sistema de cren¸cas e estrat´egias comportamentais. Interpretamos p como o sistema de cren¸cas dado que os jogadores escolhem as estrat´egias definidas em b. A quest˜ao fundamental ´e decidir que tipo de estrutura/hip´oteses exigiremos que o par sistema de cren¸cas/estrat´egias satisfa¸ca. Diferentes hip´oteses levam a diferentes no¸c˜oes de equil´ıbrio. A primeira hip´otese que exigiremos que seja satisfeita ´e a de racionalidade sequencial, definida abaixo para esse novo contexto em que introduzimos a no¸c˜ao de sistemas de cren¸cas.
Considere o par (p, b) de sistema de cren¸cas e estrat´egias e um conjunto de informa¸c˜ao I ⊂ Ii.
Vamos denotar por ui(b|x) o payoff do jogador i se o n´o x ∈ I ´e alcan¸cado, dado o conjunto
estivermos em um conjunto de informa¸c˜ao n˜ao-trivial. O sistema de cren¸cas p permite calcular o payoff esperado desse jogador, dado que ele est´a no conjunto de informa¸c˜ao I. Vamos ent˜ao denotar por:
vi(p, b | I) =
X
x∈I
p(x) ui(b | x)
o payoff esperado do jogador i quando o conjunto de informa¸c˜ao I ´e alcan¸cado, dado o sistema de cren¸cas p e as estrat´egias b.
Defini¸c˜ao 7.21: Racionalidade Sequencial. O par (p, b) do jogo finito Γ na forma extensiva ´
e sequencialmente racional se para todo conjunto de informa¸c˜ao I do jogador i, para todo i = 1, . . . , I, tivermos que:
vi(p , b | I) ≥ vi(p , (b0i, b−i) | I) ,
para toda estrat´egia comportamental b0i de i.
Observe que o sistema de cren¸cas permite implementar a no¸c˜ao de racionalidade sequencial em todo conjunto de informa¸c˜ao do jogo, mesmo para conjuntos de informa¸c˜ao que n˜ao tenham sido alcan¸cados pela estrat´egia (bi, b−i) considerada.
Dizemos que o conjunto de estrat´egias comportamentais b do jogo Γ na forma extensiva ´e sequencialmente racional se existir algum sistema de cren¸cas p tal que o par (p, b) seja sequen-cialmente racional. Observe que a defini¸c˜ao acima de racionalidade sequencial exige que cada jogador fa¸ca escolhas ´otimas em cada um dos seus conjuntos de informa¸c˜ao, dado o sistema de cren¸cas considerado, dadas as estrat´egias dos outros jogadores.
Exemplo 3 (Fig. 7.34). Considere o jogo de Cara e Coroa representado na forma extensiva abaixo. t 1 Ca @ @ @ @ @ @ Co t 2 Co A A A A A A Ca 1 −1 −1 1 Ca A A A A A A Co t −1 1 1 −1 x y p(x) p(y)
Suponha que ambos os jogadores 1 e 2 jogam Cara com probabilidade 1 e que o jogador 2 acha que 1 jogou Coroa com probabilidade 1 (p(x) = 0, p(y) = 1). Sabemos que as estrat´egias (Ca, Ca) n˜ao constituem um equil´ıbrio de Nash, mas o par estrat´egias/cren¸cas ((Ca, Ca), p(x) = 0) ´e sequencialmente racional, pois o jogador 1 obt´em o payoff mais alto poss´ıvel e o jogador 2, segundo suas cren¸cas, obt´em o payoff esperado mais alto:
v2(p, b | I) = p(x)u2(Ca, Ca | x) + p(y)u2(Co, Ca | y) = 1 .
O Exemplo 3 acima deixa claro que racionalidade sequencial ´e insuficiente para definirmos uma no¸c˜ao de equil´ıbrio satisfat´oria. Neste caso, encontramos estrat´egias e cren¸cas sequencialmente racionais, mas que n˜ao chegam nem a constituir um equil´ıbrio de Nash. Precisamos ent˜ao impor outras condi¸c˜oes para obter um conceito de equil´ıbrio satisfat´orio. No exemplo, fica claro que o problema ´e causado por uma inconsistˆencia entre a estrat´egia do jogador 1, que
escolhe Cara, e a cren¸ca do jogador 2, que acredita que 1 escolheu Coroa com certeza. Vamos eliminar esse tipo de inconsistˆencia usando a propriedade 1 a seguir.
Propriedade 1 (P1): Regra de Bayes. Um sistema de cren¸cas deve ser derivado das estrat´egias usando a regra de Bayes, sempre que poss´ıvel.
Logo, para todo conjunto de informa¸c˜ao que possui probabilidade positiva de ser alcan¸cado no jogo, o sistema de cren¸cas nesse conjunto de informa¸c˜ao deve ser derivado usando a regra de Bayes. No Exemplo 3 acima, a ´unica cren¸ca que satisfaz a regra de Bayes para o par de estrat´egias (Ca, Ca) ´e p(x) = 1, p(y) = 0. Portanto, a cren¸ca considerada para o jogador 2 nesse exemplo, p(x) = 0, quando o jogador 1 escolhe Cara, n˜ao satisfaz a regra de Bayes. O exemplo a seguir mostra mais claramente como utilizamos a regra de Bayes para calcular o sistema de cren¸cas.
A regra de Bayes imp˜oe um certo grau de consistˆencia no par (p, b) de cren¸cas e estrat´egias considerado. Em equil´ıbrio, os jogadores devem ter cren¸cas corretas a respeito das estrat´egias usadas no jogo, no sentido de que as cren¸cas satisfazem a regra de Bayes, sempre que poss´ıvel, dado o par de estrat´egias e cren¸cas analisado.
Exemplo 4 (Fig. 7.28). Considere o peda¸co de jogo abaixo, em que a randomiza¸c˜ao do jogador 1 no seu n´o de decis˜ao est´a explicitada ao lado de cada a¸c˜ao.
v 1 @ @ @ @ @ @ @ H H H H H H H H H H H H H H 4 15 2 15 3 15 1 15 5 15 2 r B B B B B B v r B B B B B B w r B B B B B B z
No exemplo acima, o sistema de cren¸cas pode ser derivado usando a regra de Bayes, onde para cada conjunto de informa¸c˜ao I, temos que:
p(x) = PP (x | b)
y∈IP (y | b)
,
onde P (x | b) ´e a probabilidade do n´o x ser alcan¸cado, dada a estrat´egia comportamental b. Logo, temos que:
p(v) = 3/15 9/15 = 3 9, p(w) = 1/15 9/15 = 1 9, p(z) = 5/15 9/15 = 5 9.
Dado o par (p, b), se algum conjunto de informa¸c˜ao (n˜ao-trivial) n˜ao for alcan¸c´avel pela es-trat´egia b, ent˜ao n˜ao podemos usar a regra de Bayes para encontrar o sistema de cren¸cas associado `a estrat´egia comportamental b considerada (denominador igual a zero na f´ormula acima da regra de Bayes). Nestes casos, pode ainda assim ser razo´avel impor alguma estrutura sobre o sistema de cren¸cas, como o exemplo a seguir ilustra.
Exemplo 5 (Fig. 7.31). Considere o jogo representado (de modo incompleto) na ´arvore abaixo, com trˆes jogadores, em que as estrat´egias comportamentais dos jogadores 1 e 2 consis-tem em jogar F ora com probabilidade 1.
v 1 F ora (1) 1 L @ @ @ @ @ @ @@ R v F ora (1) 2 B A A A A A A AA A p(x) 1 − p(x) A A A A A A A AA B v F ora (1) 3 3 p(y) 1 − p(y) p(z) 1 − p(z) A A A A v A A A A v A A A A v A A A A v
Exemplo 6 (Mas-Colell et al., 1996). Considere o jogo representado na ´arvore abaixo, com trˆes jogadores, onde um deles ´e a Natureza, que se move primeiro, usando as probabilidades descritas na ´arvore. Considere que o jogador 1 escolhe A com probabilidade 1. Ent˜ao a regra de Bayes nos diz que p(x) = 1/2, mas n˜ao pode ser usada para inferir o sistema de cren¸cas do jogador 2. Vamos verificar se existe algum sistema de cren¸cas que faz com que o profile de estrat´egias (A, L) seja racionalmente sequencial. Note que:
v2(A, L | p(y)) = p(y) × 5 + (1 − p(y)) × 5 = 5
v2(A, R | p(y)) = p(y) × 2 + (1 − p(y)) × 10 = 10 − 8py
Logo, se 10 − 8p(y) < 5, ou seja, se p(y) > 5/8 = 0,625, ent˜ao a racionalidade sequencial do jogador 2 ´e satisfeita. Observe que para o par de estrat´egias (A, L) e as cren¸cas p(x) = 1/2, p(y) > 0,625, a escolha da estrat´egia A do jogador 1 ´e ´otima. Conforme veremos adiante, o par de estrat´egias e cren¸cas ((A, L), (p(x) = 1/2, p(y) > 5/8)) constitui um conjunto de equil´ıbrios sequenciais fracos. v Natureza 1/2 @ @ @ @ @ @ @@ 1/2 v Jog. 1 B A A A A A A AA A 2 10 p(x) 1 − p(x) B A A A A A A AA A 2 10 v
p(y) v Jog. 2 1 − p(y)
A A A A A L 0 5 R 5 2 v A A A A A L 0 5 R 5 10
O jogo acima, para as estrat´egias de 1 e 2 representadas em parˆenteses, nunca chega a ser jogado e a regra de Bayes n˜ao fornece nenhuma restri¸c˜ao sobre o sistema de cren¸cas dos jogadores 2 e 3. Mas ´e razo´avel assumir que, se as cren¸cas desses dois jogadores s˜ao formadas de modo independente (ou seja, a cren¸ca do jogador 2 n˜ao afeta a cren¸ca do jogador 3, e vice-versa), ent˜ao p(y) = 0,5. Isso motiva a propriedade 2 abaixo.
Propriedade 2 (P2): Independˆencia: Um sistema de cren¸cas deve refletir o fato que os jogadores escolhem suas estrat´egias independentemente.
Vamos analisar mais uma propriedade que iremos impor sobre o sistema de cren¸cas. O Exemplo 7 a seguir motiva esta terceira propriedade.
Exemplo 7 (Fig 7.30). Considere o jogo representado (de modo incompleto) na ´arvore abaixo, com trˆes jogadores, em que a estrat´egia comportamental do jogador 1 consiste em jogar F ora com probabilidade 1 e do jogador 2 jogar B com probabilidade 1.
v 1 F ora (1) 1 L @ @ @ @ @ @ @@ R v 2 B (1) A A A A A A A A A A A A B (1) v p(x) 1 − p(x) 3 v v E A A A A A A D E A A A A A A D p(y) 1 − p(y)
Para as estrat´egias consideradas, a regra de Bayes n˜ao imp˜oe nenhuma restri¸c˜ao sobre as cren¸cas dos jogadores 2 e 3. A hip´otese de independˆencia do sistema de cren¸cas diz que saber a estrat´egia de 2 n˜ao provˆe nenhuma informa¸c˜ao a 3 sobre o sistema de cren¸cas de 2. Mas se 3 jogar, ele saber´a que 2 escolheu a a¸c˜ao A. Mais ainda, ele sabe que estar´a no n´o y apenas se 2 estiver no n´o x (ou seja, se 1 tivesse escolhido a a¸c˜ao L). Nesse caso, ´e razo´avel assumir que o sistema de cren¸cas de 2 e 3 ´e tal que p(x) = p(y). Esse racioc´ınio motiva a propriedade 3 abaixo.
Propriedade 3 (P3): Cren¸cas Comuns. Jogadores com a mesma informa¸c˜ao devem ter cren¸cas idˆenticas.
Essas trˆes propriedades, (P1), (P2) e (P3), constituem hip´oteses que iremos impor sobre o sistema de cren¸cas dos jogadores. As propriedades 2 e 3 se aplicam para cren¸cas que pertencem a conjuntos de informa¸c˜ao que n˜ao s˜ao alcan¸cados, dada a estrat´egia considerada (“fora do caminho de equil´ıbrio”). Isso e a defini¸c˜ao um tanto informal dessas duas propriedades tornam dif´ıcil verificar se um sistema de cren¸cas satisfaz essas duas regras. A defini¸c˜ao de consistˆencia a seguir fornece um algoritmo que, segundo o resultado que discutimos abaixo, permite verificar se as trˆes propriedades acima (e algo al´em dessas propriedades...) s˜ao satisfeitas simultaneamente.
Defini¸c˜ao 7.20: Consistˆencia. Seja Γ um jogo na forma extensiva. Dizemos que o par (p, b) ´
e consistente se existir uma sequˆencia {bn} de estrat´egias comportamentais completamente
mistas (atribui probabilidade positiva a todas a¸c˜oes em todos os conjuntos de informa¸c˜ao) que converge a b, tal que a sequˆencia de sistema de cren¸cas {pn} associada a {bn} pela regra de
Bayes, converge a p. ´
E poss´ıvel mostrar que a propriedade de consistˆencia implica a regra de Bayes e ´e mais forte do que apenas impor a regra de Bayes. Ela ´e mais forte tamb´em do que impor a regra de Bayes em cada subjogo do jogo. A propriedade de consistˆencia implica n˜ao s´o as propriedades 1, 2 e 3 acima, mas tamb´em outras propriedades, conforme Kohlberg and Reny (1997) estabelecem (ver os itens (i)-(iv) na p´agina 354 do livro-texto).
Defini¸c˜ao 7.22: Equil´ıbrio Sequencial. Um par (p, b) ´e um equil´ıbrio sequencial se satisfaz racionalidade sequencial e consistˆencia.
Equil´ıbrio sequencial ´e um equil´ıbrio com cren¸cas. Para definirmos um determinado equil´ıbrio sequencial corretamente, temos que n˜ao somente definir as estrat´egias dos jogadores de equil´ıbrio, mas tamb´em o sistema de cren¸cas que suporta essas estrat´egias como um equil´ıbrio sequencial. Portanto, um equil´ıbrio sequencial ´e composto pelas estrat´egias comportamentais dos jogadores e pelo sistema de cren¸cas que os jogadores possuem, onde esses dois objetos s˜ao relacionados pela regra de consistˆencia e pela racionalidade sequencial.
Teorema 7.7: Existˆencia de Equil´ıbrio Sequencial (Kreps & Wilson, 1982). Todo jogo finito Γ na forma extensiva de mem´oria perfeita possui pelo menos um equil´ıbrio sequencial. Se o par (p, b) ´e um equil´ıbrio sequencial, ent˜ao o conjunto de estrat´egias comportamentais b ´e um ENPS.
O Teorema de Kreps e Wilson mostra que equil´ıbrio sequencial ´e um refinamento de ENPS, que, por sua vez, ´e um refinamento de EN. Logo, equil´ıbrio sequencial ´e um refinamento de EN. A fim de verificarmos se um par (p, b) ´e um equil´ıbrio sequencial, devemos checar dois pontos: (i) (p, b) satisfaz racionalidade sequencial; e (ii) (p, b) ´e consistente.
Exemplo 8. Se usarmos o conceito de consistˆencia no Exemplo 5, para verificar se ele imp˜oe alguma restri¸c˜ao no sistema de cren¸cas, veremos que qualquer sistema de cren¸cas consistente com as estrat´egias descritas no exemplo, em que o jogador 3 n˜ao chega a participar do jogo, deve satisfazer p(y) = p(z).
Exemplo 9. Vamos analisar novamente o Exemplo 6 acima, considerando que o jogador 1 escolhe a estrat´egia A. Sabemos que a regra de Bayes n˜ao imp˜oe qualquer restri¸c˜ao sobre o sistema de cren¸cas do jogador 2. Vamos verificar se a regra de consistˆencia acima imp˜oe alguma restri¸c˜ao sobre p(y). Observe que qualquer que seja a sequˆencia {bn} de sistema de estrat´egias
comportamentais completamente mistas que considerarmos, como o conjunto de informa¸c˜ao de 2 ´e alcan¸cado pela escolha da estrat´egia B do jogador 1, todo sistema de cren¸cas associado a essa sequˆencia pela regra de Bayes ter´a pn(y) = 1/2, para todo n ∈ N. Logo, o ´unico sistema
de cren¸cas consistente para o jogador 2 ´e p(y) = 1/2. Ent˜ao racionalidade sequencial para o jogador 2 implica que ele deve escolher R:
v2(·, L | p(y) = 1/2) = 5 < 6 = 0,5 × 2 + 0,5 × 10 = v2(·, R | p(y) = 1/2)
N˜ao ´e dif´ıcil portanto perceber que ((B, R), (p(x) = 1/2, p(y) = 1/2)) ´e o (´unico) equil´ıbrio sequencial desse jogo.
Observe que no Exemplo 6, vimos que se exigirmos apenas que o sistema de cren¸cas satisfa¸ca a regra de Bayes, ((A, L), (p(x) = 1/2, p(y) > 5/8)) ´e um par de estrat´egias e cren¸cas racional-mente sequenciais e que satisfaz a regra de Bayes. Ent˜ao esse exemplo deixa claro que a regra de consistˆencia realmente imp˜oe uma restri¸c˜ao maior sobre o sistema de cren¸cas do que a regra de Bayes apenas.
Exemplo 10 (Fig. 7.29). Considere o jogo abaixo, onde em parˆenteses est˜ao representadas as estrat´egias comportamentais dos jogadores.
s 1 (1) @@ @ @ @ (0) 2 (13) @ @ @ @ @ (23) s 3 p(x) 1 − p(x) A A A A A s A A A A A s
Dada a estrat´egia do jogador 1 considerada, os jogadores 2 e 3 n˜ao jogam e, portanto, n˜ao podemos usar a regra de Bayes para derivar o sistema de cren¸cas do jogador 3. Vamos verificar se a propriedade de consistˆencia imp˜oe restri¸c˜ao sobre p(x). Considere a sequˆencia (bn) de
estrat´egias comportamentais completamente mistas, em que para o jogador 1 temos que bn 1 → 1
e 1 − bn1 → 0 e para o jogador 2, bn
2 → 1/3 e 1 − bn2 → 2/3, com 0 < bn1 < 1 e 0 < bn2 < 1, para
todo n ∈ N. Usando a regra de Bayes para derivar a sequˆencia de sistemas de cren¸cas (pn)
associada a essa sequˆencia de estrat´egias completamente mistas (bn), obtemos:
pn(x) = (1 − b n 1) × bn2 (1 − bn 1) × [bn2 + (1 − bn2)] = bn2 −→ 1 3
Logo, qualquer sistema de cren¸cas consistentes leva a p(x) = 1/3, ou seja, restringe para esse jogo um sistema de cren¸cas que est´a fora do caminho de equil´ıbrio.
Observe que podemos interpretar esse resultado do seguinte modo: 3 saber se 1 joga Esquerda ou Direita n˜ao afeta a sua cren¸ca sobre a probabilidade que 2 escolha Esquerda ou Direita (pois, no limite, 1 n˜ao joga Direita e esse caminho de jogo em que o conjunto de informa¸c˜ao de 3 ´e alcan¸cado n˜ao ocorre). Como 2 escolhe Esquerda com probabilidade 1/3 e Direita com probabilidade 2/3, ent˜ao a cren¸ca de 3 reflete apenas essa escolha de 2: p(x) = 1/3, 1 − p(x) = 2/3.
Exemplo 11: Considere o jogo e a estrat´egia comportamental descritos no Exemplo 7. Vamos verificar que a regra de consistˆencia implica p(x) = p(y). Considere a sequˆencia de estrat´egias completamente mistas (bn) que converge para a estrat´egia considerada no Exemplo 6. Ent˜ao bn
1(F ) → 1, bn1(L) → 0, bn1(R) → 0, bn2(A) → 0 e bn2(B) → 1 (e todas essas randomiza¸c˜oes s˜ao
maiores do que 0 e menores do que 1). Ent˜ao: pn(x) = b n 1(L) bn 1(L) + bn1(R) , ∀ n ∈ N J´a para o sistema de cren¸cas do jogador 3 temos que:
pn(y) = b n 1(L) × bn2(A) bn 1(L) × bn2(A) + bn1(R) × bn2(A) = b n 1(L) bn 1(L) + bn1(R) = pn(x) , ∀ n ∈ N
Logo, qualquer sistema de cren¸cas consistente com a estrat´egia considerada imp˜oe a restri¸c˜ao p(x) = p(y).
7
Outros Conceitos de Equil´ıbrios com Cren¸
cas
Existem outros conceitos de equil´ıbrio com cren¸cas, como, por exemplo:
• Equil´ıbrio Bayesiano Perfeito-Fraco (EBPf, tamb´em chamado Equil´ıbrio Sequencial Fraco): (p, b) ´e um EBPf se satisfaz racionalidade sequencial e regra de Bayes, sempre que poss´ıvel. • Equil´ıbrio Bayesiano Perfeito (EBP): (p, b) ´e um EBP se satisfaz racionalidade sequencial
e regra de Bayes, sempre que poss´ıvel, em todo subjogo do jogo principal.
Logo, diferentes requerimentos sobre o sistema de cren¸cas geram diferentes conceitos de equil´ıbrio. Proposi¸c˜ao. Todo Equil´ıbrio sequencial-fraco ´e um equil´ıbrio de Nash.
Portanto, para encontramos os equil´ıbrios sequenciais-fraco (ESf) de um jogo, determinamos os equil´ıbrios de Nash desse jogo. Da´ı verificamos se existe, para cada um dos EN encontrados, um sistema de cren¸cas que o suporte como ESf (ou seja, que satisfa¸ca a regra de Bayes, sempre que poss´ıvel, e tal que satisfa¸ca racionalidade sequencial).
Exemplo 12. Considere novamente o jogo representado no Exemplo 1. Vimos que os dois ´
unicos EN (em estrat´egias puras) desse jogo s˜ao (nE, Br se Entrante entra) e (E1, Ac se
Entrante entra). Para o segundo EN, a regra de Bayes diz que o sistema de cren¸cas do jogador M tem que ser p(E1) = 1, p(E2) = 1 − p(E1) = 0. Precisamos verificar se para ((E1, Ac se
Entrante entra),p(E1) = 1), racionalidade sequencial ´e satisfeita.
J´a para o EN dado por (nE, Br se Entrante entra), a regra de Bayes n˜ao imp˜oe nenhuma restri¸c˜ao sobre o sistema de cren¸cas. Logo, precisamos verificar apenas para quais valores de p(E1) o par (b∗, p∗) = ((nE, Br se Entrante entra),p(E1)) satisfaz racionalidade sequencial.
Note que:
vM(b∗, p∗ | I) = (−1) × p(E1) + (−1) × (1 − p(E1)) = −1
Note que se M mudar sua estrat´egia para Ac, seu payoff ser´a:
vM(Ac, Br, p∗ | I) = 3 × p(E1) + 2 × (1 − p(E1)) ,
que ´e sempre maior do que ou igual a 2. Logo, n˜ao h´a sistema de cren¸cas que suporte as estrat´egias (nE, Br se Entrante entra) como um equil´ıbrio sequencial-fraco (note que como a racionalidade sequencial ´e a propriedade que n˜ao ´e satisfeita, ent˜ao tamb´em n˜ao existe cren¸cas que suportem essas estrat´egias como um equil´ıbrio sequencial).
Um problema do conceito de equil´ıbrio sequencial fraco ´e que ele n˜ao ´e um refinamento de ENPS. Logo, podem existir equil´ıbrios sequenciais fracos que n˜ao s˜ao ENPS.
Referˆ
encias
Friedman, J. (1971). A non-cooperative equilibrium for supergames. Review of Economic Studies, 38,1 , 1-12.
Kohlberg, E., & Reny, P. (1997). Independence on relative probability spaces and consistent assessments in game trees. Journal of Economic Theory, 75 , 280-313.
Kreps, M., D, & Wilson, R. (1982). Sequential equilibrium. Econometrica, 50:4 , 863-894. Kuhn, H. (1953). Extensive games and the problem of information, in contributions to the
theory of games. In H. Kuhn & A. Tucker (Eds.), (Vol. II, p. 193-216). Princeton University Press.
Mas-Colell, A., Whinston, M., & Green, J. (1996). Microeconomic theory. Oxford University Press.
McKelvey, R., & Palfrey, T. R. (1992). An experimental study of the centipede game. Econo-metrica, 60:4 , 803-836.
Rubinstein, A. (1979). Equilibrium in supergames with the overtaking criterion. Journal of Economic Theory, 21:1 , 1-9.
Selten, R. (1965). Spieltheoretische behandlung eines oligopolmodells mit nachfragetr¨agheit. Zeitschrift f¨ur die Gesamte Staatswissenschaft , 121 , 301-324.
Selten, R. (1975). Reexamination of the perfectness concept for equilibrium points in extensive games. International Journal of Game Theory, 4 , 25-55.
von Neumann, J., & Morgenstern, O. (2007). Theory of games and economic behavior (1944: 1st ed.). Princeton University Press.