Micro2Pos NA1 JGLR JogosIII

(1)

Microeconomia 2 – P´

os-Gradua¸c˜

ao – 2/2019

Notas de Aula 1 – Teoria dos Jogos (Parte 3)

Prof. Jos´

e Guilherme de Lara Resende

Departamento de Economia, Universidade de Bras´ılia

Jogos na Forma Extensiva

1 Defini¸

c˜

oes Iniciais

Sabemos que para descrevermos um jogo são necessários três objetos: • Os jogadores (inclusive natureza),

• A regra do jogo,

• O resultado (payoff) do jogo.

Um jogo na forma extensiva, definido a seguir, é a representa¸cão mais adequada para situa¸cões dinâmicas. A defini¸cão abaixo mostra que para se caracterizar um jogo na forma extensiva de maneira formal, é necessário definir uma série de objetos, o que leva a uma caracteriza¸cão longa

Defini¸c˜ao 7.13: Jogo na Forma Extensiva. Representamos um jogo finito Γ na forma extensiva pelo conjunto:

Γ = {I, A, X, E, ι, π, I, (ui)i∈I}

onde:

1. I é o número (finito) de jogadores (denotamos por 1 o jogador natureza, caso exista); 2. A é o conjunto de a¸cões, que inclui todas as a¸cões que podem ser tomadas em qualquer

ponto do jogo (A n˜ao necessariamente ´e finito);

3. X é um conjunto de nós (ou histórias – cada nó é uma descri¸cão completa das a¸cões que foram escolhidas até o momento presente do jogo), tal que:

(a) X contém um elemento denotado x0, chamado nó inicial (ou história vazia);

(b) Cada x ∈ X \{x0} toma a forma x = (a1, a2, . . . , ak) para algum n´umero finito de

a¸c˜oes ai ∈ A, e

(c) Se (a1, a2, . . . , ak) ∈ X \{x0} para algum k > 1, ent˜ao (a1, a2, . . . , ak−1) ∈ X \{x0}.

Vamos denotar por A(x) o conjunto:

A(x) = {a ∈ A | (x, a) ∈ X}

de todas as a¸cões dispon´ıveis para o jogador que deve se mover após a história x ∈ X\{x0}.

4. A(x0) ⊂ A é um conjunto de a¸cões e π é uma distribui¸cão de probabilidade sobre A(x0)

que descreve o movimento da natureza no jogo. A natureza sempre se move primeiro e uma ´unica vez, selecionando aleatoriamente uma a¸c˜ao em A(x0) usando a probabilidade

(2)

5. E ´e um conjunto de n´os finais, definido por:

E = {x ∈ X | (x, a) 6∈ X para todo a ∈ A} (cada n´o final descreve uma partida inteira em particular do jogo).

6. ι : X \ (E ∪ {x0}) → I é uma fun¸cão que indica o jogador que joga no nó de decisão

x ∈ X \(E ∪ {x0}). Denotamos por:

Xi = {x ∈ X \(E ∪ {x0}) | ι(x) = i }

o conjunto dos n´os de decis˜ao em que i joga.

7. I é uma parti¸cão do conjunto de nós de decisão X\(E ∪{x0}) em conjuntos de informa¸cão,

de modo que se x e x0 pertencem ao mesmo elemento da parti¸c˜ao I, ent˜ao: (a) ι(x) = ι(x0) (mesmo jogador que escolhe), e

(b) A(x) = A(x0) (mesmas a¸c˜oes dispon´ıveis).

O conjunto de informa¸cão que contém o nó de decisão x é denotado por I(x). Denotamos por:

Ii = {I(x) | ι(x) = i, para algum x ∈ X \(E ∪ {x0})}

o conjunto dos conjuntos de informa¸c˜ao em que i joga.

8. ui : E → R, i = 1, 2, . . . , I ´e uma fun¸c˜ao de payoff esperado com dom´ınio no conjunto

dos n´os finais, descrevendo o payoff de cada jogador para todo partida completa poss´ıvel do jogo.

Defini¸cão: Jogo Finito. Se os conjuntos de a¸cões A e o conjunto de nós X são finitos, então dizemos que o jogo na forma extensiva Γ = {I, A, X, E, i , π, I, (ui)i∈I} (com finitos jogadores)

´ e finito.

Defini¸cão: Jogo de Informa¸cão Perfeita. Um jogo Γ na forma extensiva é de informa¸cão perfeita se cada conjunto de informa¸cão do jogo contém apenas um nó de decisão (I(x) = {x} ou #I(x) = 1, ∀ x ∈ X \(E ∪ {x0})).

Logo, em um jogo de informa¸c˜ao perfeita, cada jogador observa todas as jogadas dos outros jogadores escolhidas anteriormente.

Exemplo: Representa¸cão em Árvore. Nos dois exemplos abaixo (e nos próximos), o payoff na primeira linha é do jogador 1 e na segunda linha, do jogador 2.

Jogo de Informa¸c˜ao Perfeita

t 1 E @ @ @ @ @@ D t 2 2 r A A A A AA l 1 3 0 0 l A A A A A A r t 0 0 3 1 t t t t

Jogo de Informa¸c˜ao Imperfeita

t 1 E @ @ @ @ @@ D t ₂ r A A A A AA l 1 3 0 0 l A A A A AA r t 0 0 3 1 t t t t

(3)

Terminologia:

• Dizemos que o n´o y sucede estritamente o n´o x se y = (x, a1, . . . , ak), para algum conjunto

{a1, . . . , ak} ∈ A.

• k = 1, dizemos que y sucede imeditamente x.

• Dizemos que y sucede fracamente x se y = x ou se y sucede estritamente x.

Dizemos que um jogo é de memória perfeita quando nenhum jogador se esquece do que ele já sabia (inclusive de a¸cões que já foram tomadas durante o desenrolar do jogo).

Defini¸cão 7.18: Jogo de Memória Perfeita. Um jogo Γ na forma extensiva é de memória perfeita se para dois nós quaisquer x e y = (x, a, a1, . . . , ak) que pertencem ao mesmo jogador,

então todo nó no mesmo conjunto de informa¸cão de y tem a forma w = (z, a, a0₁, . . . , a0_l), para algum nó z no mesmo conjunto de informa¸cão de x.

A defini¸cão acima de memória perfeita assume que se um jogador i qualquer não consegue distinguir entre dois nós de decisão seus (ou seja, que pertencem ao mesmo conjunto de in-forma¸cão – na defini¸cão, y e w), então essas histórias y e w podem ser diferentes apenas com rela¸cão a a¸cões tomadas por outros jogadores, diferentes de i. Isto implica que nenhum jogador se esquece das a¸cões que escolheu no passado. Portanto, se dois nós pertencem ao mesmo conjunto de informa¸cão do jogador i, então a mesma sequência de a¸cões de i levou a esses nós. O jogo ilustrado na figura abaixo não apresenta memória perfeita. Nesse jogo, o jogador 1, na terceira rodada do jogo, após a sua escolha na primeira rodada e após a escolha do jogador 2 na segunda rodada, não se lembra de sua escolha feita na primeira rodada do jogo.

t 1 E H H H H H H H H H H H j D t 2 a @ @ @ @ @ @ R b t a A A A A A A U b t 1 A A A A A A U l r l r l r l r t @ @ @ @ @ @ R t A A A A A A U t A A A A A A U x1 x2 x3 x4 x5 x6 x7

No exemplo acima, representamos os n´os de decis˜ao dos jogadores por xi, i = 1, 2, . . . , 7.

Intuitivamente, vimos que é fácil observar que o jogo não é de memória perfeita. Vamos checar então se ele de fato não satisfaz a defini¸cão acima. Para isso, basta observar que x4 e x6, por

exemplo, são nós de decisão que pertencem ao mesmo conjunto de decisão do jogador 1, e que x4 = (x1, E, a) e x6 = (x1, D, a), onde x1 é um nó de decisão do jogador 1. Logo, a a¸cão

tomada por 1 em x1 e que leva a x4 ´e diferente da a¸c˜ao tomada por 1 em x1 que leva a x6.

Como x4 e x6 est˜ao no mesmo conjunto de informa¸c˜ao do jogador 1, isso significa que esse jogo

representa uma situa¸cão em que 1 se esquece da a¸cão tomada no nó de decisão x1, E ou D,

quando o jogo alcan¸ca o conjunto de informa¸c˜ao I(x4) = {x4, x5, x6, x7}, um ponto do jogo em

(4)

2 Rela¸

c˜

ao Entre Forma Normal e Forma Extensiva

2.1 Forma Estrat´

egica Associada

Defini¸cão 7.14: Estratégias em Jogos na Forma Extensiva. Seja Γ um jogo na forma extensiva qualquer. Uma estratégia pura do jogador i para o jogo Γ é uma fun¸cão si : Ii → A,

tal que si(I(x)) ∈ A(x), para todo x com ι(x) = i. Vamos denotar por Si o conjunto de

estrat´egias puras do jogador i no jogo Γ.

A estratégia de um jogador em um jogo na forma extensiva é uma regra que determina a sua escolha de a¸cão em todos os conjuntos de informa¸cão do jogo. Uma estratégia para o jogador i é então um plano contingente completo (uma regra de decisão completa) que especifica como o jogador i jogará em toda e qualquer circunstância do jogo. Se o jogo Γ é finito, então o conjunto de estratégias de cada jogador é finito.

Dizer que uma estratégia é um plano contingente completo para o jogo significa dizer que uma estratégia define a¸cões para todos os conjuntos de informa¸cão do jogo, mesmo que esses conjuntos de informa¸cão não sejam alcan¸cados durante o jogo. Isso inclui definir a¸cões para conjunto de informa¸cões onde a própria estratégia do jogador em questão torna essas a¸cões irrelevantes.

Vamos denotar por s um conjunto de estrat´egias para o jogo em forma extensiva Γ finito. Dado s = s1× s2× · · · × sI e π, podemos calcular o payoff esperado de cada jogador, representado

por Eπui(s) ou apenas ui(s), para i = 1, 2, . . . , I.

Se cada jogador escolhe uma estrat´egia si ∈ Si, ent˜ao temos que foi jogada uma partida do

jogo e o resultado est´a descrito em um dos n´os finais do jogo Γ. Deste modo, (Si, ui)i∈I define

um jogo na forma estrat´egica, chamado forma estrat´egica associada a Γ.

Portanto, podemos estender todos os conceitos definidos anteriormente (dominˆancia, equil´ıbrio de Nash, etc) de jogos na forma estrat´egica para jogos na forma extensiva.

Um jogo representado na forma normal pode ser representado na forma extensiva sem ambi-guidades? O contrário também é válido? A forma normal é uma estrutura mais simples de se definir do que a forma extensiva, pois envolve uma quantidade menor de objetos matemáticos. A razão para isso é que uma estratégia condensa uma quantidade enorme de informa¸cão sobre as a¸cões escolhidas que compõem essa estratégia. Respondendo então as duas perguntas, da forma extensiva para a forma normal sim, mas o contrário não é válido: a mesma forma normal pode representar mais de um jogo na forma extensiva. A figura abaixo mostra dois jogos dife-rentes que possuem a mesma representa¸cão na forma normal, que se resume na representa¸cão de um jogo do tipo “Cara ou Coroa” discutido acima.

Jogador 1 escolhe primeiro

t 1 Ca @ @ @ @ @@ Co t ₂ Co A A A A AA Ca −1 1 1 −1 Ca A A A A A A Co t 1 −1 −1 1 t t t t

Jogador 2 escolhe primeiro

t 2 Ca @ @ @ @ @@ Co t ₁ Co A A A A AA Ca −1 1 1 −1 Ca A A A A AA Co t 1 −1 −1 1 t t t t

(5)

Como todo jogo na forma extensiva possui uma única representa¸cão na forma estratégica, podemos adaptar os conceitos definidos anteriormente para jogos na forma estratégica (do-minância, equil´ıbrio de Nash, etc) para jogos na forma extensiva, aplicando esses conceitos para a representa¸cão na forma normal do jogo na forma extensiva.

von Neumann and Morgenstern (2007) (publicado originalmente em 1944) argumentam que de um modo geral, só é necessário conhecermos a forma normal para analisarmos um jogo. Se os jogadores são inteligentes, cada jogador pode planejar toda a sua regra de decisões para o jogo antes de o jogo come¸car. Assim, ele monta a sua estratégia para o jogo.

Essa “suficiência” da forma normal de um jogo é uma das ideias mais importantes da teoria de jogos. Para jogos simultâneos, isso é claro. Porém, para jogos dinâmicos, existe uma perda de informa¸cão quando representamos o jogo na forma estratégica. No exemplo acima, vemos que a forma normal equivalente dos dois jogos sequenciais é a mesma – logo a informa¸cão perdida na representa¸cão do jogo na forma normal é apenas quem escolhe primeiro o lado da moeda. Essa perda de informa¸cão é irrelevante para a análise dos dois jogos e não influencia os resultados obtidos. Porém, essa perda de informa¸cão será sempre irrelevante ou existem casos em que ela ´

e relevante? Essa ´e uma quest˜ao em aberto na teoria.

2.2 Randomiza¸

c˜

ao

Existem dois modos de se definir randomiza¸c˜ao por parte dos jogadores em um jogo na forma extensiva:

1. Randomizar a estratégia usada. Esse modo de randomiza¸cão é o mesmo usado em jogos estratégicos.

2. Randomizar em cada momento de jogar.

No primeiro modo, obtemos o conceito de estrat´egia mista visto anteriormente. No segundo modo, obtemos o conceito de estrat´egia comportamental.

Defini¸cão: Estratégias Comportamentais. Seja Γ um jogo na forma extensiva. Uma estratégia comportamental bi para o jogador i especifica, para cada conjunto de informa¸cão

I ∈ Ii e para cada a¸c˜ao a ∈ A(I), uma probabilidade bi(a, I) ≥ 0, onde:

X

a∈A(I)

bi(a, I) = 1 , ∀ I ∈ Ii,

onde A(I) é o conjunto de a¸cões poss´ıveis no conjunto de informa¸cão I.

Teorema de Kuhn (Kuhn, 1953). Para jogos na forma extensiva de memória perfeita, estratégia mista e estratégia comportamental são modos de randomiza¸cão equivalentes. Logo, para toda estratégia comportamental bi de i, podemos encontrar uma estratégia mista

mi de i que resulta na mesma distribui¸c˜ao sobre payoffs, quaisquer que sejam as estrat´egias,

mistas ou comportamentais, usadas pelos outros jogadores, e vice-versa. Isso implica que o tipo de estratégia considerada, mista ou comportamental, é irrelevante para análise de jogos finitos na forma extensiva de memória perfeita.

(6)

2.3 Amea¸

cas N˜

ao-Cr´ıveis

Vários tipos de jogos possuem uma dinâmica de a¸cões escolhidas em tempos diferentes. Em alguns desses jogos, representá-los na forma normal e da´ı encontrarmos os EN pode não ser adequado. Quando transformamos um jogo na forma extensiva para a forma normal e en-contramos os EN do jogo nessa forma, alguns equil´ıbrios podem não ser cr´ıveis, baseados em amea¸cas de um dos jogadores que não será cumprida nunca. Portanto, o principal problema na resolu¸cão de jogos dinâmicos por meio de encontrar os EN da sua representa¸cão na forma normal diz respeito à credibilidade de uma estratégia que faz parte de um EN do jogo na forma normal.

Exemplo: Monopolista e Firma Entrante (Fig. 7.12). Considere um mercado monopo-lista. O monopolista (M ) mantém o mercado amea¸cando firmas entrantes (E) com uma guerra de pre¸cos. Desse modo, o monopólio mantém seu lucro. Porém, se alguma firma de fato entrar, a melhor estratégia para o monopolista é formar um cartel e dividir o lucro de monopólio, já que a guerra de pre¸cos traria preju´ızos não somente para a firma entrante, mas também para o incumbente. Essa situa¸cão estratégica é representada pelo seguinte jogo na forma extensiva.

t Entrante N˜ao Entra @ @ @ @ @ @ R Entra 0 2 t Monopolista −1 −1 1 1 Briga @ @ @ @ @ @ R Acomoda

A representa¸c˜ao na forma normal do jogo acima ´e:

Entrante/Monopolista Briga, se E entrou Acomoda, se E entrou

N˜ao entra 0,2 0,2

Entra -1,-1 1,1

Existem dois EN em estrat´egias puras para o jogo:

1. firma entrante (E) entrar, monopolista (M ) acomoda, se E entrou; e 2. firma entrante n˜ao entra, monopolista briga se E entrar.

O segundo EN é baseado em uma amea¸ca vazia, não-cr´ıvel : M faz uma amea¸ca, que se for levada a sério, não precisa ser cumprida, pois nesse caso E escolhe não entrar. Porém, uma vez que E entra, o melhor para M é se acomodar. O refinamento de perfei¸cão em subjogos, que ve-remos a seguir, tem como principal objetivo eliminar equil´ıbrios de Nash baseados em amea¸cas não-cr´ıveis. Vamos dividir a análise: primeiro estudaremos jogos de informa¸cão perfeita, depois jogos de informa¸cão imperfeita.

(7)

3 Jogos de Informa¸

c˜

ao Perfeita

Vamos primeiro analisar jogos de informa¸cão perfeita, onde os jogadores estão perfeitamente informados de todas as a¸cões previamente escolhidas quando for o seu momento de jogar (I(x) = {x}, para todo nó de decisão x). Jogos como damas, xadrez, etc são jogos de in-forma¸cão perfeita.

O objetivo é desenvolver um refinamento que elimine equil´ıbrios baseados em estratégias n˜ ao-cr´ıveis, como no exemplo acima, onde o ideal seria encontrarmos (1, 1) como único payoff de solu¸cão da intera¸cão estratégica entre o monopolista e a firma entrante descrita no exemplo anterior. Portanto, queremos que as solu¸cões do jogo ainda sejam EN, mas queremos eliminar os EN baseados em amea¸cas não-cr´ıveis. O seguinte conceito é fundamental para obtermos esse refinamento.

Princ´ıpio da Racionalidade Sequencial: A estratégia de um jogador qualquer deve espe-cificar a¸cões ótimas em cada conjunto de informa¸cão do jogo desse jogador.

Esse princ´ıpio é implementado em um jogo finito na forma extensiva de informa¸cão perfeita pelo seguinte Algoritmo de Indu¸cão Reversa (backward induction algorithm, Def. 7.15):

1. Comece pelos nós de decisão finais da árvore (“nós penúltimos”: nós cujos sucessores são todos nós terminais);

2. Determine a escolha ótima dos jogadores que jogam nesses nós (problema de maximiza¸cão individual, sem intera¸cão estratégica). Logo, para cada nó penúltimo x, encontre sι(x)(x)

a a¸cão que leva ao nó final que maximiza o payoff do jogador ι (x) (no caso de mais de uma a¸cão levando ao payoff máximo, fa¸ca esse procedimento para cada uma dessas a¸cões). Denote por ux o vetor de payoffs resultante.

3. Redesenhe a árvore, substituindo os nós penúltimos por um nó terminal, com payoff definido pela escolha ótima encontrada no passo 2, ux;

4. Repita passos 1., 2. e 3. para o jogo reduzido, até que uma a¸cão tenha sido associada a cada nó de decisão (ou seja, até chegar ao nó inicial do jogo).

A solu¸cão de indu¸cão reversa para jogos com informa¸cão perfeita se resume a que todos os jogadores fa¸cam escolhas que maximizem o seu payoff sempre que for a sua vez de jogar. Na prática, o jogo é resolvido do fim para o come¸co. No exemplo anterior, o único EN que satisfaz o princ´ıpio da racionalidade sequencial, implementado por este algoritmo de indu¸cão reversa, ´

e (entrar,acomodar se E entrou).

Defini¸cão 7.15: Estratégias de Indu¸cão Reversa. O conjunto de estratégias puras s = s1× · · · × sI é uma estratégia de indu¸cão reversa para o jogo na forma extensiva Γ se é obtido

de acordo com o algoritmo de indu¸c˜ao reversa.

Teorema 7.4 (Kuhn). Se s é uma estratégia de indu¸cão reversa do jogo finito Γ na forma extensiva de informa¸cão perfeita, então s é um equil´ıbrio de Nash de Γ.

Prova: Primeiro note que o algoritmo de indu¸cão reversa é bem definido e leva a um conjunto de estratégias sir _{= (s}ir

1, sir2, . . . , sirI), já que o jogo Γ é finito. Temos que mostrar que sir é um

EN. Suponha que n˜ao. Ent˜ao existe (pelo menos) um jogador i para o qual existe s0_i 6= sir i tal que: ui(s0i, s ir −i) > ui(siri , s ir −i)

(8)

Corolário 7.1. Todo jogo na forma extensiva finito de informa¸cão perfeita tem um EN em estratégias puras.

Corolário: Unicidade de Equil´ıbrio. Se os payoffs de cada jogador são diferentes nos nós terminais do jogo finito Γ na forma extensiva, para todos jogadores, então existe um único EN que pode ser encontrado usando o algoritmo de indu¸cão reversa.

No jogo Monopolista/Entrante acima, vimos que existem dois EN em estratégias puras, mas apenas um EN pode ser obtido usando o algoritmo de indu¸cão reversa. O algoritmo elimina exatamente o EN baseado em uma amea¸ca não-cr´ıvel, o monopolista abrir uma guerra de pre¸cos caso o entrante de fato entre. Essa amea¸ca não é cr´ıvel pois, uma vez que o entrante entrou no mercado, se o monopolista fizer uma guerra de pre¸cos, ele próprio se prejudicará sem obter qualquer ganho.

4 Jogos de Informa¸

c˜

ao Imperfeita

O algoritmo de indu¸cão reversa acima só se aplica para jogos de informa¸cão perfeita. Porém a idéia de racionalidade sequencial pode ser usada também para jogos de informa¸cão imperfeita por meio de um algoritmo similar de indu¸cão reversa. A idéia central é definir subjogos do jogo principal (Selten, 1965, 1975).

Defini¸c˜ao 7.16: Subjogo. Um subjogo de um jogo Γ na forma extensiva ´e um subconjunto do jogo tal que:

(i) Se inicia em um conjunto de informa¸cão que contém apenas um único nó de decisão; (ii) Contém todos os nós que são sucessores desse nó inicial; e

(iii) Se o nó de decisão y pertence ao subjogo, então todo z ∈ I(y) também é nó sucessor do nó inicial x.

Podemos condensar a defini¸cão acima na Def. 7.16 usada no livro-texto, que afirma que um nó de decisão x define um subjogo se I(x) = {x} e sempre que y for um nó de decisão que sucede x, e z um nó que está contido no conjunto de informa¸cão de y, então z também sucede x. Então se o nó x define um subjogo, todos os jogadores sabem que estão em x quando x for alcan¸cado. Cada subjogo pode ser visto como um jogo por si só.

Exemplo (Fig. 7.17). O jogo na forma de ´arvore abaixo possui dois subjogos.

t 1 In Out 2 2 t1 L @ @ @ @ @ @ R t ₂ r A A A A A A l 1 3 0 0 l A A A A A A r t 0 0 3 1 t t t t

(9)

Defini¸cão 7.17: ENPS em Estratégias Puras. O conjunto de estratégias puras s = (s1, s2, . . . , sI) do jogo na forma extensiva Γ é um equil´ıbrio de Nash Perfeito em Subjogos

(ENPS) se s induz um equil´ıbrio de Nash em todo subjogo de Γ.

Logo, o princ´ıpio de racionalidade sequencial é implementado em jogos de informa¸cão imperfeita exigindo que a solu¸cão do jogo seja tal que as a¸cões que compõem essa solu¸cão definam um EN para cada subjogo do jogo.

Observe que um ENPS é um refinamento de EN: todo ENPS é um EN, já que o próprio jogo ´

e um subjogo seu. O contrário não é válido: existem EN que não são perfeitos em subjogos. Teorema 7.5. Para todo jogo finito na forma extensiva de informa¸cão perfeita, o conjunto de estratégias de indu¸cão reversa é igual ao conjunto de ENPS em estratégias puras.

Logo, em jogos de informa¸cão perfeita, o conjunto de ENPS coincide com o conjunto de EN obtido usando o algoritmo de indu¸cão reversa visto acima. Porém nem todo jogo de informa¸cão imperfeita possui um ENPS em estratégias puras. Precisamos então considerar a possibilidade de os jogadores “randomizarem”. O Teorema de Kuhn discutido acima mostra que, para jogos de memória perfeita, tanto faz considerarmos estratégias mistas ou estratégias comportamen-tais. Vamos usar esse fato na demonstra¸cão do Teorema de Selten (Teorema 7.6 abaixo). Defini¸cão 7.19: ENPS. O conjunto de estratégias comportamentais b = (b1, b2, . . . , bI) é um

ENPS do jogo na forma extensiva finito Γ se b induz um equil´ıbrio de Nash em cada subjogo de Γ.

Dada a equivalência entre estratégias mistas e estratégias comportamentais, o Teorema 7.1 garante que o conjunto de estratégias comportamentais b é um EN de um jogo se, e somente se, nenhum jogador possui uma estratégia pura que gere maior payoff, dadas as estratégias comportamentais dos outros jogadores. Essa equivalência também garante que todo ENPS é um EN para jogos de memória perfeita.

Teorema 7.6: Existˆencia de ENPS (Selten, 1965, 1975). Todo jogo finito na forma extensiva com mem´oria perfeita possui um ENPS.

A hipótese de memória perfeita é necessária. Existem exemplos de jogos que não são de memória perfeita, que não possuem ENPS.

A prova do Teorema 7.6 utiliza o seguinte algoritmo geral de indu¸cão reversa para jogos na forma extensiva (sejam de informa¸cão completa ou não):

1. Comece pelo término da árvore, ache os EN para todos os subjogos finais (subjogos que não possuem nenhum subjogo estrito), encontre a estratégia comportamental equivalente; 2. Substitua cada subjogo pelo payoff de um de seus EN;

3. Repita os passos 1. e 2. para o jogo reduzido, continue at´e n˜ao restar nenhum subjogo; 4. Repita 1., 2. e 3. para todos os EN encontrados (no caso de algum subjogo ter mais de

um EN).

Para jogos de informa¸cão perfeita, esse algoritmo é igual ao algoritmo anterior (Def. 7.15). Para jogos de informa¸cão imperfeita, ele resulta em (pelo menos) um conjunto b de estratégias com-portamentais. Para completarmos a prova do Teorema 7.6, precisamos mostrar que qualquer conjunto b de estratégias comportamentais obtido usando o algoritmo de indu¸cão reversa acima ´

e um ENPS, e que todo ENPS pode ser encontrado utilizando esse algoritmo (demonstra¸c˜ao similar a do Teorema 7.5).

(10)

5 Jogos Repetidos

Em um jogo do tipo dilema dos prisioneiros, seria poss´ıvel obter coopera¸cão se repet´ıssemos o jogo diversas vezes? Com a repeti¸cão, o número de estratégias de cada jogador aumenta. Nesse caso, é poss´ıvel criar estratégias onde o jogador pune o outro, caso ele não coopere. Exemplo: Dilema dos Prisioneiros.

1↓ / 2 → Confessar N˜ao Confessar Confessar −3, −3 −1, −5 N˜ao Confessar −5, −1 −2, −2

Suponha que o jogador 1 adota a seguinte estratégia: na primeira intera¸cão ele joga N C (cooperar). Nos per´ıodos seguintes, se o outro jogador escolheu N C (cooperar) no per´ıodo anterior, ele coopera hoje. Caso contrário, o jogador 1 escolhe C (não cooperar). Essa estratégia pode levar a algum tipo de coopera¸cão? Mais especificamente, existe algum equil´ıbrio tal que os jogadores venham a adotar estratégias cooperativas? Para jogos repetidos finitas vezes, considerando ENPS, a resposta é negativa. Para jogos repetidos indefinidamente ou sem data certa para terminarem, a resposta é positiva.

5.1 Repeti¸

c˜

ao Finita

O teorema abaixo mostra que se o dilema dos prisioneiros é repetido um número fixo (finito) de vezes, o único equil´ıbrio de Nash perfeito em subjogos será formado pelo EN do jogo em cada per´ıodo que está sendo jogado. Logo, não é poss´ıvel obter o resultado eficiente com a repeti¸cão finita do jogo.

Teorema (Mas-Colell, Whinston, & Green, 1996). Seja Γ dado por sucessivos Gt = (St

i, uti)Ii=1 (ou seja, um jogo onde em cada per´ıodo t se joga um jogo simultˆaneo), t =

1, 2, . . . , T < +∞. Suponha que os jogadores observam as estratégias puras escolhidas em cada jogo, imediatamente após a conclusão do jogo, e que o payoff de cada jogador é dado pela soma descontada dos payoffs obtidos em todos os Gt_{. Se existe um ´}_{unico EN s}t _{para cada G}t_,

ent˜ao existe um ´unico ENPS para Γ, que consiste em cada jogador escolher st

i em cada jogo

Gt, independentemente do que foi feito antes.

O Teorema acima tem uma consequência impl´ıcita importante, a de eliminar qualquer de-pendência histórica nas estratégias. Ou seja, tudo o que ocorreu antes é irrelevante para decidir o que fazer hoje. Para jogos que satisfa¸cam as condi¸cões da proposi¸cão, um ENPS não depende da história ocorrida no jogo em nenhum momento.

Por exemplo, o Teorema garante que o dilema dos prisioneiros jogado repetidamente, por um per´ıodo determinado, continua sempre tendo a mesma solu¸cão não cooperativa entre os jogadores em cada rodada do jogo. Esse resultado é consequência da hipótese de racionalidade sequencial. Por indu¸cão reversa, na última rodada, é melhor não cooperar. Resolvendo de trás para diante, obtemos não-coopera¸cão para todas as rodadas do jogo.

Intuitivamente, esse resultado ocorre pelo fato de o jogo ter uma data de término conhecida pelos jogadores. Resolvendo o jogo por indu¸cão reversa, cada jogador percebe que o seu rival irá descumprir o acordo de coopera¸cão na última vez que interagirem. Eles se adiantam a isso e não cooperam na última rodada. Sabendo disso, os jogadores também não irão cooperar na penúltima rodada do jogo. Usando esse argumento, obtemos que os jogadores não cooperam em nenhuma rodada do jogo. O Teorema, consequência do conceito de ENPS, leva a resultados considerados pouco razoáveis, como mostra o exemplo abaixo.

(11)

Exemplo: Jogo da Centopeia 1. Considere o seguinte jogo. s I _C P 1 1 s II C P 0 3 I _C P s 2 2 s II C P 1 4 . . . ...sII C s P 97 100 99 99 s s I _C P II C P 98 101 (100 100)

Para este jogo, o único ENPS é cada jogador escolher P em todo momento do jogo. Isso leva ao payoff de equil´ıbrio (1, 1), o que mostra que a no¸cão de ENPS pode levar a comportamentos extremos, em que os jogadores obtêm payoffs menores do que poderiam obter se cooperassem. Existem vários estudos experimentais sobre o jogo da centopeia, que procuram exatamente analisar se esse único ENPS é de fato o resultado do jogo. Um estudo clássico é o de McKelvey and Palfrey (1992).

Exemplo: Jogo da Centopeia 2. Considere a seguinte versão do jogo da centopeia. Neste jogo, os dois participantes podem continuar o jogo ou parar. A cada vez que eles decidem continuar, o valor do montante que o jogo oferece é multiplicado por 10, iniciando com o valor de R$ 1. Eles podem, alternadamente, decidir continuar a aumentar o montante quatro vezes, ou seja, o montante pode ir até R$ 10.000. Porém, nesta última etapa, o jogador que decide (jogador 1), pode escolher ou dividir o valor e, portanto, cada um dos jogadores recebe R$ 5.000 (uma solu¸cão cooperativa), ou pode decidir ficar com os R$ 10.000 inteiros. Isso vale também para as etapas anteriores, onde neste caso o jogador que decide pode ou continuar o jogo, multiplicando por 10 o valor acumulado até então, ou decidir terminar o jogo e ficar com o total do valor acumulado. Assim como na versão anterior do jogo da centopeia, nesta versão, o único ENPS consiste em jogar P em todo nó de decisão, ou seja, o jogador recebe R$ 1 e o jogador 2, 0. Portanto, temos uma solu¸cão em que os jogadores não cooperam nunca e, desse modo, o payoff total de equil´ıbrio do jogo é o menor poss´ıvel.

s I _C P 1 0 s II _C P 0 10 I _C P s 100 0 s II _C P 0 1000 s I _Divide P 10.000 0 5.000 5.000

(12)

5.2 Repeti¸

c˜

ao Infinita

Se o jogo for repetido infinitamente (ou se ele n˜ao tiver uma data certa para terminar), pode-se mostrar que o resultado eficiente em cada rodada do jogo pode ser obtido como equil´ıbrio, dependendo do quanto os jogadores descontem o futuro (ou da probabilidade de o jogo terminar na rodada seguinte).

As estratégias que levam a esse tipo de equil´ıbrio são chamadas estratégias gatilho (“trigger ” ou “Nash-reversion strategies”). Um exemplo é a estratégia “olho-por-olho” (tit-for-tat ), onde a estratégia de hoje do jogador é igual à estratégia usada pelo seu adversário ontem.

Considere novamente a seguinte estratégia para o i, i = 1, 2, denominada “Grim-Reaper ”: na primeira intera¸cão ele joga N C (cooperar). Nos per´ıodos seguintes, se o outro jogador escolheu N C (cooperar) no per´ıodo anterior, ele coopera hoje. Caso contrário, o jogador i escolhe C (não cooperar) para sempre. Note que esta estratégia é extremamente punitiva: uma trai¸cão e a coopera¸cão nunca mais pode ser reestabelecida. Suponha que a taxa de desconto intertemporal ´

e 0 < δ < 1. Temos que o jogador 2 cooperar´a se:

∞ X t=0 −2δt_{≥ −1 +} ∞ X t=1 −3δt _⇒ −2 1 − δ ≥ −1 + −3δ 1 − δ Logo, se δ ≥ 1 2,

então o resultado cooperativo ((N C, N C) todo per´ıodo) é obtido como equil´ıbrio (é um equil´ıbrio de Nash perfeito em subjogos).

Portanto, dependendo da taxa de desconto intertemporal e dos payoffs obtidos desviando do equil´ıbrio cooperativo e seguindo o equil´ıbrio cooperativo, podem existir equil´ıbrios em que os jogadores adotem estratégias que envolvam coopera¸cão. Esse resultado é conhecido como “Folk Theorem” (Friedman, 1971; Rubinstein, 1979).

(13)

6 Equil´ıbrio Sequencial

Para certos jogos, ENPS não é um conceito de solu¸cão adequado. O exemplo abaixo é um caso em que isso ocorre.

Exemplo 1. Considere o seguinte jogo na forma extensiva.

t Entrante ˜nE 0 2 E1 @ @ @ @ @ @ E2 t _Monop´_olio Ac A A A A A A Br −1 −1 3 0 Br A A A A A A Ac t −1 −1 2 1

A representa¸cão desse jogo na forma estratégica é:

E↓ / M → Br Ac

nE (0, 2) (0, 2) E1 (−1, −1) (3, 0)

E2 (−1, −1) (2, 1)

O jogo acima possui dois EN em estrat´egias puras: (nE, Br se Entrante entra) e (E1, Ac se

Entrante entra). Esses EN são também ENPS, pois o único subjogo desse jogo é o próprio jogo. Nesse caso, o refinamento de perfei¸cão em subjogos não elimina o equil´ıbrio “ruim” (nE, Br se Entrante entra), baseado em uma amea¸ca não-cr´ıvel.

Queremos eliminar o equil´ıbrio ruim, ainda usando o princ´ıpio da racionalidade sequencial. Para isso vamos introduzir um novo conceito, cren¸cas, de modo que, no exemplo acima, o jogador Monopolista possua uma cren¸ca sobre a estrat´egia que a Firma Entrante escolheu, uma vez que esta ´ultima decidiu entrar.

Exemplo 2 (Fig. 7.27). Considere o seguinte jogo.

t 1 L 0 5 M @ @ @ @ @ @ R t ₂ r m A A A A A A l 4 0 −1 1 0 4 l m A A A A A A r t 0 4 −1 1 4 0 x y p(x) p(y)

(14)

O conjunto de estratégias (L, m se 1 jogou M ou R) é o único ENPS (e também o único EN) em estratégias puras desse jogo. Logo, perfei¸cão em subjogos não impõe nenhuma “disciplina” (ou “consistência”) na parte do jogo não alcan¸cada, quando 1 escolhe L.

Vamos analisar se essa amea¸ca de jogar m por parte do jogador 2 é cr´ıvel, assumindo que o jogador 2 tem um sistema de cren¸cas a respeito da jogada escolhida por 1. Se 2 pode jogar (ou seja, que este conjunto de decisão não-trivial é alcan¸cado), ele sabe que deve estar ou no nó x ou no nó y.

Suponha portanto que 2 tem o seguinte sistema de cren¸cas p descrito por:

• p(x) = probabilidade que 2 acha que o nó x foi alcan¸cado (ie, que 1 jogou M ); • p(y) = probabilidade que 2 acha que o nó y foi alcan¸cado (ie, que 1 jogou D). Nesse caso, os payoffs esperados de 2 para cada uma de suas estratégias dispon´ıveis são:

Eu2(l) = 4p(y) , Eu2(m) = 1 e Eu2(r) = 4p(x) .

Mesmo não assumindo nada sobre o sistema de cren¸cas de 2 (os valores de p(x) e p(y)), podemos afirmar que uma vez que 2 pode jogar, ele nunca escolherá a estratégia m, já que a estratégia mista s = (1_/₂_{◦ l; 0 ◦ m;}1_/₂_{◦ r) domina m estritamente:}

Eu2(s) = 2 > 1 = Eu2(m) ,

qualquer que seja o sistema de cren¸cas p de 2. Ou seja, o equil´ıbrio (L, m se 1 jogou M ou R) ´

e formado por uma amea¸ca não-cr´ıvel, e satisfaz o critério de perfei¸cão de subjogos. Queremos então refinar o conceito de ENPS para eliminar equil´ıbrios pouco razoáveis como o encontrado para o jogo deste exemplo e do exemplo anterior.

Defini¸cão: Sistema de Cren¸cas. Um sistema de cren¸cas para o jogo na forma extensiva Γ é uma especifica¸cão de probabilidades p(x) ∈ [0, 1] para cada nó de decisão x do jogo Γ tal que:

X

x∈I

p(x) = 1 ,

para todo conjunto de informa¸c˜ao I de Γ.

Um sistema de cren¸cas diz qual é a cren¸ca de cada jogador de estar em algum nó do conjunto de informa¸cão I, condicional a estar nesse conjunto de informa¸cão I. Então um sistema de cren¸cas define probabilidades em cada conjunto de informa¸cão, em todo o jogo, para todos os jogadores. Observe que, sem perda de generalidade, podemos nos restringir a definir o sistema de cren¸cas apenas para conjuntos de informa¸cão não-triviais (com mais de um nó de decisão). Iremos proceder desse modo, para simplificar a nota¸cão. Note que não faz sentido usar o conceito de cren¸cas para jogos na forma extensiva de informa¸cão perfeita.

Considere o par (p, b) de sistema de cren¸cas e estratégias comportamentais. Interpretamos p como o sistema de cren¸cas dado que os jogadores escolhem as estratégias definidas em b. A questão fundamental é decidir que tipo de estrutura/hipóteses exigiremos que o par sistema de cren¸cas/estratégias satisfa¸ca. Diferentes hipóteses levam a diferentes no¸cões de equil´ıbrio. A primeira hipótese que exigiremos que seja satisfeita é a de racionalidade sequencial, definida abaixo para esse novo contexto em que introduzimos a no¸cão de sistemas de cren¸cas.

Considere o par (p, b) de sistema de cren¸cas e estrat´egias e um conjunto de informa¸c˜ao I ⊂ Ii.

Vamos denotar por ui(b|x) o payoff do jogador i se o n´o x ∈ I ´e alcan¸cado, dado o conjunto

(15)

estivermos em um conjunto de informa¸cão não-trivial. O sistema de cren¸cas p permite calcular o payoff esperado desse jogador, dado que ele está no conjunto de informa¸cão I. Vamos então denotar por:

vi(p, b | I) =

X

x∈I

p(x) ui(b | x)

o payoff esperado do jogador i quando o conjunto de informa¸cão I é alcan¸cado, dado o sistema de cren¸cas p e as estratégias b.

Defini¸c˜ao 7.21: Racionalidade Sequencial. O par (p, b) do jogo finito Γ na forma extensiva ´

e sequencialmente racional se para todo conjunto de informa¸c˜ao I do jogador i, para todo i = 1, . . . , I, tivermos que:

vi(p , b | I) ≥ vi(p , (b0i, b−i) | I) ,

para toda estrat´egia comportamental b0_i de i.

Observe que o sistema de cren¸cas permite implementar a no¸cão de racionalidade sequencial em todo conjunto de informa¸cão do jogo, mesmo para conjuntos de informa¸cão que não tenham sido alcan¸cados pela estratégia (bi, b−i) considerada.

Dizemos que o conjunto de estratégias comportamentais b do jogo Γ na forma extensiva é sequencialmente racional se existir algum sistema de cren¸cas p tal que o par (p, b) seja sequen-cialmente racional. Observe que a defini¸cão acima de racionalidade sequencial exige que cada jogador fa¸ca escolhas ótimas em cada um dos seus conjuntos de informa¸cão, dado o sistema de cren¸cas considerado, dadas as estratégias dos outros jogadores.

Exemplo 3 (Fig. 7.34). Considere o jogo de Cara e Coroa representado na forma extensiva abaixo. t 1 Ca @ @ @ @ @ @ Co t ₂ Co A A A A A A Ca 1 −1 −1 1 Ca A A A A A A Co t −1 1 1 −1 x y p(x) p(y)

Suponha que ambos os jogadores 1 e 2 jogam Cara com probabilidade 1 e que o jogador 2 acha que 1 jogou Coroa com probabilidade 1 (p(x) = 0, p(y) = 1). Sabemos que as estratégias (Ca, Ca) não constituem um equil´ıbrio de Nash, mas o par estratégias/cren¸cas ((Ca, Ca), p(x) = 0) é sequencialmente racional, pois o jogador 1 obtém o payoff mais alto poss´ıvel e o jogador 2, segundo suas cren¸cas, obtém o payoff esperado mais alto:

v2(p, b | I) = p(x)u2(Ca, Ca | x) + p(y)u2(Co, Ca | y) = 1 .

O Exemplo 3 acima deixa claro que racionalidade sequencial é insuficiente para definirmos uma no¸cão de equil´ıbrio satisfatória. Neste caso, encontramos estratégias e cren¸cas sequencialmente racionais, mas que não chegam nem a constituir um equil´ıbrio de Nash. Precisamos então impor outras condi¸cões para obter um conceito de equil´ıbrio satisfatório. No exemplo, fica claro que o problema é causado por uma inconsistência entre a estratégia do jogador 1, que

(16)

escolhe Cara, e a cren¸ca do jogador 2, que acredita que 1 escolheu Coroa com certeza. Vamos eliminar esse tipo de inconsistˆencia usando a propriedade 1 a seguir.

Propriedade 1 (P1): Regra de Bayes. Um sistema de cren¸cas deve ser derivado das estrat´egias usando a regra de Bayes, sempre que poss´ıvel.

Logo, para todo conjunto de informa¸cão que possui probabilidade positiva de ser alcan¸cado no jogo, o sistema de cren¸cas nesse conjunto de informa¸cão deve ser derivado usando a regra de Bayes. No Exemplo 3 acima, a única cren¸ca que satisfaz a regra de Bayes para o par de estratégias (Ca, Ca) é p(x) = 1, p(y) = 0. Portanto, a cren¸ca considerada para o jogador 2 nesse exemplo, p(x) = 0, quando o jogador 1 escolhe Cara, não satisfaz a regra de Bayes. O exemplo a seguir mostra mais claramente como utilizamos a regra de Bayes para calcular o sistema de cren¸cas.

A regra de Bayes impõe um certo grau de consistência no par (p, b) de cren¸cas e estratégias considerado. Em equil´ıbrio, os jogadores devem ter cren¸cas corretas a respeito das estratégias usadas no jogo, no sentido de que as cren¸cas satisfazem a regra de Bayes, sempre que poss´ıvel, dado o par de estratégias e cren¸cas analisado.

Exemplo 4 (Fig. 7.28). Considere o peda¸co de jogo abaixo, em que a randomiza¸cão do jogador 1 no seu nó de decisão está explicitada ao lado de cada a¸cão.

v 1 @ @ @ @ @ @ @ H H H H H H H H H H H H H H 4 15 2 15 3 15 1 15 5 15 2 r B B B B B B v r B B B B B B w r B B B B B B z

No exemplo acima, o sistema de cren¸cas pode ser derivado usando a regra de Bayes, onde para cada conjunto de informa¸c˜ao I, temos que:

p(x) = PP (x | b)

y∈IP (y | b)

,

onde P (x | b) é a probabilidade do nó x ser alcan¸cado, dada a estratégia comportamental b. Logo, temos que:

p(v) = 3/15 9/15 = 3 9, p(w) = 1/15 9/15 = 1 9, p(z) = 5/15 9/15 = 5 9.

Dado o par (p, b), se algum conjunto de informa¸cão (não-trivial) não for alcan¸cável pela es-tratégia b, então não podemos usar a regra de Bayes para encontrar o sistema de cren¸cas associado à estratégia comportamental b considerada (denominador igual a zero na fórmula acima da regra de Bayes). Nestes casos, pode ainda assim ser razoável impor alguma estrutura sobre o sistema de cren¸cas, como o exemplo a seguir ilustra.

(17)

Exemplo 5 (Fig. 7.31). Considere o jogo representado (de modo incompleto) na árvore abaixo, com três jogadores, em que as estratégias comportamentais dos jogadores 1 e 2 consis-tem em jogar F ora com probabilidade 1.

v 1 F ora (1) 1 L @ @ @ @ @ @ @_@ R v F ora (1) 2 B A A A A A A A_A A p(x) 1 − p(x) A A A A A A A A_A B v F ora (1) 3 3 p(y) 1 − p(y) p(z) 1 − p(z) A A A A v A A A A v A A A A v A A A A v

Exemplo 6 (Mas-Colell et al., 1996). Considere o jogo representado na árvore abaixo, com três jogadores, onde um deles é a Natureza, que se move primeiro, usando as probabilidades descritas na árvore. Considere que o jogador 1 escolhe A com probabilidade 1. Então a regra de Bayes nos diz que p(x) = 1/2, mas não pode ser usada para inferir o sistema de cren¸cas do jogador 2. Vamos verificar se existe algum sistema de cren¸cas que faz com que o profile de estratégias (A, L) seja racionalmente sequencial. Note que:

v2(A, L | p(y)) = p(y) × 5 + (1 − p(y)) × 5 = 5

v2(A, R | p(y)) = p(y) × 2 + (1 − p(y)) × 10 = 10 − 8py

Logo, se 10 − 8p(y) < 5, ou seja, se p(y) > 5/8 = 0,625, então a racionalidade sequencial do jogador 2 é satisfeita. Observe que para o par de estratégias (A, L) e as cren¸cas p(x) = 1/2, p(y) > 0,625, a escolha da estratégia A do jogador 1 é ótima. Conforme veremos adiante, o par de estratégias e cren¸cas ((A, L), (p(x) = 1/2, p(y) > 5/8)) constitui um conjunto de equil´ıbrios sequenciais fracos. v Natureza 1/2 @ @ @ @ @ @ @_@ 1/2 v _{Jog. 1} B A A A A A A A_A A 2 10 p(x) 1 − p(x) B A A A A A A A_A A 2 10 v

p(y) v Jog. 2 1 − p(y)

A A A A A L 0 5 R 5 2 v A A A A A L 0 5 R 5 10

(18)

O jogo acima, para as estratégias de 1 e 2 representadas em parênteses, nunca chega a ser jogado e a regra de Bayes não fornece nenhuma restri¸cão sobre o sistema de cren¸cas dos jogadores 2 e 3. Mas é razoável assumir que, se as cren¸cas desses dois jogadores são formadas de modo independente (ou seja, a cren¸ca do jogador 2 não afeta a cren¸ca do jogador 3, e vice-versa), então p(y) = 0,5. Isso motiva a propriedade 2 abaixo.

Propriedade 2 (P2): Independˆencia: Um sistema de cren¸cas deve refletir o fato que os jogadores escolhem suas estrat´egias independentemente.

Vamos analisar mais uma propriedade que iremos impor sobre o sistema de cren¸cas. O Exemplo 7 a seguir motiva esta terceira propriedade.

Exemplo 7 (Fig 7.30). Considere o jogo representado (de modo incompleto) na árvore abaixo, com três jogadores, em que a estratégia comportamental do jogador 1 consiste em jogar F ora com probabilidade 1 e do jogador 2 jogar B com probabilidade 1.

v 1 F ora (1) 1 L @ @ @ @ @ @ @_@ R v ₂ B (1) A A A A A A A A A A A A B (1) v p(x) 1 − p(x) 3 v v E A A A A A A D E A A A A A A D p(y) 1 − p(y)

Para as estratégias consideradas, a regra de Bayes não impõe nenhuma restri¸cão sobre as cren¸cas dos jogadores 2 e 3. A hipótese de independência do sistema de cren¸cas diz que saber a estratégia de 2 não provê nenhuma informa¸cão a 3 sobre o sistema de cren¸cas de 2. Mas se 3 jogar, ele saberá que 2 escolheu a a¸cão A. Mais ainda, ele sabe que estará no nó y apenas se 2 estiver no nó x (ou seja, se 1 tivesse escolhido a a¸cão L). Nesse caso, é razoável assumir que o sistema de cren¸cas de 2 e 3 é tal que p(x) = p(y). Esse racioc´ınio motiva a propriedade 3 abaixo.

Propriedade 3 (P3): Cren¸cas Comuns. Jogadores com a mesma informa¸c˜ao devem ter cren¸cas idˆenticas.

Essas três propriedades, (P1), (P2) e (P3), constituem hipóteses que iremos impor sobre o sistema de cren¸cas dos jogadores. As propriedades 2 e 3 se aplicam para cren¸cas que pertencem a conjuntos de informa¸cão que não são alcan¸cados, dada a estratégia considerada (“fora do caminho de equil´ıbrio”). Isso e a defini¸cão um tanto informal dessas duas propriedades tornam dif´ıcil verificar se um sistema de cren¸cas satisfaz essas duas regras. A defini¸cão de consistência a seguir fornece um algoritmo que, segundo o resultado que discutimos abaixo, permite verificar se as três propriedades acima (e algo além dessas propriedades...) são satisfeitas simultaneamente.

(19)

Defini¸c˜ao 7.20: Consistˆencia. Seja Γ um jogo na forma extensiva. Dizemos que o par (p, b) ´

e consistente se existir uma sequˆencia {bn_{} de estrat´egias comportamentais completamente}

mistas (atribui probabilidade positiva a todas a¸cões em todos os conjuntos de informa¸cão) que converge a b, tal que a sequência de sistema de cren¸cas {pn} associada a {bn_{} pela regra de}

Bayes, converge a p. ´

E poss´ıvel mostrar que a propriedade de consistência implica a regra de Bayes e é mais forte do que apenas impor a regra de Bayes. Ela é mais forte também do que impor a regra de Bayes em cada subjogo do jogo. A propriedade de consistência implica não só as propriedades 1, 2 e 3 acima, mas também outras propriedades, conforme Kohlberg and Reny (1997) estabelecem (ver os itens (i)-(iv) na página 354 do livro-texto).

Defini¸cão 7.22: Equil´ıbrio Sequencial. Um par (p, b) é um equil´ıbrio sequencial se satisfaz racionalidade sequencial e consistência.

Equil´ıbrio sequencial é um equil´ıbrio com cren¸cas. Para definirmos um determinado equil´ıbrio sequencial corretamente, temos que não somente definir as estratégias dos jogadores de equil´ıbrio, mas também o sistema de cren¸cas que suporta essas estratégias como um equil´ıbrio sequencial. Portanto, um equil´ıbrio sequencial é composto pelas estratégias comportamentais dos jogadores e pelo sistema de cren¸cas que os jogadores possuem, onde esses dois objetos são relacionados pela regra de consistência e pela racionalidade sequencial.

Teorema 7.7: Existência de Equil´ıbrio Sequencial (Kreps & Wilson, 1982). Todo jogo finito Γ na forma extensiva de memória perfeita possui pelo menos um equil´ıbrio sequencial. Se o par (p, b) é um equil´ıbrio sequencial, então o conjunto de estratégias comportamentais b é um ENPS.

O Teorema de Kreps e Wilson mostra que equil´ıbrio sequencial é um refinamento de ENPS, que, por sua vez, é um refinamento de EN. Logo, equil´ıbrio sequencial é um refinamento de EN. A fim de verificarmos se um par (p, b) é um equil´ıbrio sequencial, devemos checar dois pontos: (i) (p, b) satisfaz racionalidade sequencial; e (ii) (p, b) é consistente.

Exemplo 8. Se usarmos o conceito de consistência no Exemplo 5, para verificar se ele impõe alguma restri¸cão no sistema de cren¸cas, veremos que qualquer sistema de cren¸cas consistente com as estratégias descritas no exemplo, em que o jogador 3 não chega a participar do jogo, deve satisfazer p(y) = p(z).

Exemplo 9. Vamos analisar novamente o Exemplo 6 acima, considerando que o jogador 1 escolhe a estratégia A. Sabemos que a regra de Bayes não impõe qualquer restri¸cão sobre o sistema de cren¸cas do jogador 2. Vamos verificar se a regra de consistência acima impõe alguma restri¸cão sobre p(y). Observe que qualquer que seja a sequência {bn_{} de sistema de estratégias}

comportamentais completamente mistas que considerarmos, como o conjunto de informa¸cão de 2 é alcan¸cado pela escolha da estratégia B do jogador 1, todo sistema de cren¸cas associado a essa sequência pela regra de Bayes terá pn_{(y) = 1/2, para todo n ∈ N. Logo, o único sistema}

de cren¸cas consistente para o jogador 2 ´e p(y) = 1/2. Ent˜ao racionalidade sequencial para o jogador 2 implica que ele deve escolher R:

v2(·, L | p(y) = 1/2) = 5 < 6 = 0,5 × 2 + 0,5 × 10 = v2(·, R | p(y) = 1/2)

Não é dif´ıcil portanto perceber que ((B, R), (p(x) = 1/2, p(y) = 1/2)) é o (único) equil´ıbrio sequencial desse jogo.

(20)

Observe que no Exemplo 6, vimos que se exigirmos apenas que o sistema de cren¸cas satisfa¸ca a regra de Bayes, ((A, L), (p(x) = 1/2, p(y) > 5/8)) é um par de estratégias e cren¸cas racional-mente sequenciais e que satisfaz a regra de Bayes. Então esse exemplo deixa claro que a regra de consistência realmente impõe uma restri¸cão maior sobre o sistema de cren¸cas do que a regra de Bayes apenas.

Exemplo 10 (Fig. 7.29). Considere o jogo abaixo, onde em parênteses estão representadas as estratégias comportamentais dos jogadores.

s 1 (1) @@ @ @ @ (0) 2 (1₃) @ @ @ @ @ (2₃) s 3 p(x) 1 − p(x) A A A A A s A A A A A s

Dada a estratégia do jogador 1 considerada, os jogadores 2 e 3 não jogam e, portanto, não podemos usar a regra de Bayes para derivar o sistema de cren¸cas do jogador 3. Vamos verificar se a propriedade de consistência impõe restri¸cão sobre p(x). Considere a sequência (bn_{) de}

estrat´egias comportamentais completamente mistas, em que para o jogador 1 temos que bn 1 → 1

e 1 − bn₁ → 0 e para o jogador 2, bn

2 → 1/3 e 1 − bn2 → 2/3, com 0 < bn1 < 1 e 0 < bn2 < 1, para

todo n ∈ N. Usando a regra de Bayes para derivar a sequˆencia de sistemas de cren¸cas (pn₎

associada a essa sequˆencia de estrat´egias completamente mistas (bn_{), obtemos:}

pn(x) = (1 − b n 1) × bn2 (1 − bn 1) × [bn2 + (1 − bn2)] = bn₂ −→ 1 3

Logo, qualquer sistema de cren¸cas consistentes leva a p(x) = 1/3, ou seja, restringe para esse jogo um sistema de cren¸cas que est´a fora do caminho de equil´ıbrio.

Observe que podemos interpretar esse resultado do seguinte modo: 3 saber se 1 joga Esquerda ou Direita não afeta a sua cren¸ca sobre a probabilidade que 2 escolha Esquerda ou Direita (pois, no limite, 1 não joga Direita e esse caminho de jogo em que o conjunto de informa¸cão de 3 é alcan¸cado não ocorre). Como 2 escolhe Esquerda com probabilidade 1/3 e Direita com probabilidade 2/3, então a cren¸ca de 3 reflete apenas essa escolha de 2: p(x) = 1/3, 1 − p(x) = 2/3.

Exemplo 11: Considere o jogo e a estratégia comportamental descritos no Exemplo 7. Vamos verificar que a regra de consistência implica p(x) = p(y). Considere a sequência de estratégias completamente mistas (bn) que converge para a estratégia considerada no Exemplo 6. Então bn

1(F ) → 1, bn1(L) → 0, bn1(R) → 0, bn2(A) → 0 e bn2(B) → 1 (e todas essas randomiza¸c˜oes s˜ao

maiores do que 0 e menores do que 1). Ent˜ao: pn(x) = b n 1(L) bn 1(L) + bn1(R) , _{∀ n ∈ N} J´a para o sistema de cren¸cas do jogador 3 temos que:

pn(y) = b n 1(L) × bn2(A) bn 1(L) × bn2(A) + bn1(R) × bn2(A) = b n 1(L) bn 1(L) + bn1(R) = pn(x) , _{∀ n ∈ N}

Logo, qualquer sistema de cren¸cas consistente com a estratégia considerada impõe a restri¸cão p(x) = p(y).

(21)

7 Outros Conceitos de Equil´ıbrios com Cren¸

cas

Existem outros conceitos de equil´ıbrio com cren¸cas, como, por exemplo:

• Equil´ıbrio Bayesiano Perfeito-Fraco (EBPf, também chamado Equil´ıbrio Sequencial Fraco): (p, b) é um EBPf se satisfaz racionalidade sequencial e regra de Bayes, sempre que poss´ıvel. • Equil´ıbrio Bayesiano Perfeito (EBP): (p, b) é um EBP se satisfaz racionalidade sequencial

e regra de Bayes, sempre que poss´ıvel, em todo subjogo do jogo principal.

Logo, diferentes requerimentos sobre o sistema de cren¸cas geram diferentes conceitos de equil´ıbrio. Proposi¸c˜ao. Todo Equil´ıbrio sequencial-fraco ´e um equil´ıbrio de Nash.

Portanto, para encontramos os equil´ıbrios sequenciais-fraco (ESf) de um jogo, determinamos os equil´ıbrios de Nash desse jogo. Da´ı verificamos se existe, para cada um dos EN encontrados, um sistema de cren¸cas que o suporte como ESf (ou seja, que satisfa¸ca a regra de Bayes, sempre que poss´ıvel, e tal que satisfa¸ca racionalidade sequencial).

Exemplo 12. Considere novamente o jogo representado no Exemplo 1. Vimos que os dois ´

unicos EN (em estrat´egias puras) desse jogo s˜ao (nE, Br se Entrante entra) e (E1, Ac se

Entrante entra). Para o segundo EN, a regra de Bayes diz que o sistema de cren¸cas do jogador M tem que ser p(E1) = 1, p(E2) = 1 − p(E1) = 0. Precisamos verificar se para ((E1, Ac se

Entrante entra),p(E1) = 1), racionalidade sequencial ´e satisfeita.

Já para o EN dado por (nE, Br se Entrante entra), a regra de Bayes não impõe nenhuma restri¸cão sobre o sistema de cren¸cas. Logo, precisamos verificar apenas para quais valores de p(E1) o par (b∗, p∗) = ((nE, Br se Entrante entra),p(E1)) satisfaz racionalidade sequencial.

Note que:

vM(b∗, p∗ | I) = (−1) × p(E1) + (−1) × (1 − p(E1)) = −1

Note que se M mudar sua estrat´egia para Ac, seu payoff ser´a:

vM(Ac, Br, p∗ | I) = 3 × p(E1) + 2 × (1 − p(E1)) ,

que é sempre maior do que ou igual a 2. Logo, não há sistema de cren¸cas que suporte as estratégias (nE, Br se Entrante entra) como um equil´ıbrio sequencial-fraco (note que como a racionalidade sequencial é a propriedade que não é satisfeita, então também não existe cren¸cas que suportem essas estratégias como um equil´ıbrio sequencial).

Um problema do conceito de equil´ıbrio sequencial fraco é que ele não é um refinamento de ENPS. Logo, podem existir equil´ıbrios sequenciais fracos que não são ENPS.

(22)

Referˆ

encias

Friedman, J. (1971). A non-cooperative equilibrium for supergames. Review of Economic Studies, 38,1 , 1-12.

Kohlberg, E., & Reny, P. (1997). Independence on relative probability spaces and consistent assessments in game trees. Journal of Economic Theory, 75 , 280-313.

Kreps, M., D, & Wilson, R. (1982). Sequential equilibrium. Econometrica, 50:4 , 863-894. Kuhn, H. (1953). Extensive games and the problem of information, in contributions to the

theory of games. In H. Kuhn & A. Tucker (Eds.), (Vol. II, p. 193-216). Princeton University Press.

Mas-Colell, A., Whinston, M., & Green, J. (1996). Microeconomic theory. Oxford University Press.

McKelvey, R., & Palfrey, T. R. (1992). An experimental study of the centipede game. Econo-metrica, 60:4 , 803-836.

Rubinstein, A. (1979). Equilibrium in supergames with the overtaking criterion. Journal of Economic Theory, 21:1 , 1-9.

Selten, R. (1965). Spieltheoretische behandlung eines oligopolmodells mit nachfragetr¨agheit. Zeitschrift f¨ur die Gesamte Staatswissenschaft , 121 , 301-324.

Selten, R. (1975). Reexamination of the perfectness concept for equilibrium points in extensive games. International Journal of Game Theory, 4 , 25-55.

von Neumann, J., & Morgenstern, O. (2007). Theory of games and economic behavior (1944: 1st _{ed.). Princeton University Press.}