• Nenhum resultado encontrado

Equil´ıbrio de Nash em estrat´egias mistas

2.4 Solu¸c˜oes de um jogo em estrat´egias mistas

2.4.2 Equil´ıbrio de Nash em estrat´egias mistas

Defini¸c˜ao 2.10 (Equil´ıbrio de Nash) Dizemos que um per- fil de estrat´egias mistas

p∗= (p

1, p∗2, . . . , p∗n)∈ ∆ = ∆m1× ∆m2× · · · × ∆mn

´e um equil´ıbrio de Nash se

ui(p∗i, p∗−i)≥ ui(p, p∗−i)

para todo p ∈ ∆mi, isto ´e, nenhum jogador sente motiva¸c˜ao

de trocar a sua estrat´egia mista se os demais jogadores n˜ao o fizerem.

Exemplo 2.10

(a) No dilema do prisioneiro (Exemplo 2.1), o perfil de estrat´egias mistas

p∗= (p

1, p∗2) = (1, 0; 1, 0)

´e um equil´ıbrio de Nash, pois

u1(p1, p∗2) = u1(p11, p12; 1, 0) = 5· p11− 10 ≤

− 5 = u1(1, 0; 1, 0) = u1(p∗1, p∗2)

para todo p1= (p11, p12)∈ ∆2 e

u2(p∗1, p2) = u2(1, 0; p21, p22) = 5· p21− 10 ≤

− 5 = u2(1, 0; 1, 0) = u2(p∗1, p∗2)

para todo p2 = (p21, p22) ∈ ∆2. Observe que este equil´ıbrio

corresponde ao equil´ıbrio em estrat´egias puras s∗= (confessar, confessar).

Mostraremos mais adiante que este ´e o ´unico equil´ıbrio de Nash em estrat´egias mistas do jogo.

(b) Na batalha dos sexos (Exemplo 2.2), os equil´ıbrios de Nash em estrat´egias mistas s˜ao

Os dois primeiros perfis de estrat´egias mistas correspondem `as estrat´egias puras (futebol, futebol) e (cinema, cinema), respec- tivamente. Mostraremos mais adiante que estes s˜ao os ´unicos equil´ıbrios de Nash em estrat´egias mistas do jogo.

(c) No Exemplo 2.3, o ´unico equil´ıbrio de Nash em estrat´egia mista ´e o ponto

(0, 1, 0, 0; 0, 1, 0, 0)

que corresponde ao equil´ıbrio de Nash (s12, s22) em estrat´egias

puras.

(d) No jogo de comparar moedas do Exemplo 2.6, o ´unico equil´ıbrio de Nash em estrat´egias mistas ´e o ponto

(1/2, 1/2; 1/2, 1/2).

Como no caso de estrat´egias puras, podemos caracterizar equil´ı- brios de Nash em estrat´egias mistas atrav´es das fun¸c˜oes de melhor resposta. Considere um jogo com espa¸co de estrat´egias mistas ∆ = ∆m1× · · ·× ∆mi× · · ·× ∆mn. No que se segue, usaremos as seguintes

nota¸c˜oes:

∆(Si) = ∆mi e ∆(S−i) = ∆m1× · · · × ∆mi−1× ∆mi+1× · · · ∆mn.

Defini¸c˜ao 2.11 (Func¸˜oes de melhor resposta em estra- t´egias mistas) A fun¸c˜ao de melhor resposta do jogador gi´e a

aplica¸c˜ao

MRi: ∆(S−i)→ 2∆(Si)

definida por MRi(p−i) = argmaxpi∈∆(Si)ui(pi, p−i), isto ´e,

MRi(p−i)

=

{p∗

i ∈ ∆(Si)| ∀pi∈ ∆(Si), ui(pi∗, p−i)≥ ui(pi, p−i)},

com p−i ∈ ∆(S−i). A fun¸c˜ao de melhor resposta do jogo ´e a

aplica¸c˜ao

definida por

MR(p) = (MR1(p−1), MR2(p−2), . . . , MRn(p−n)),

com p∈ ∆.

Note que, como ∆(Si) ´e um conjunto compacto n˜ao-vazio e a

fun¸c˜ao pi→ ui(pi, p−i) ´e cont´ınua, podemos usar o teorema de Wei-

erstrass para garantir que MRi(p−i) = argmaxpi∈∆(Si)ui(pi, p−i) ´e

um conjunto n˜ao-vazio para todo p−i∈ ∆(S−i).

A pr´oxima proposi¸c˜ao ´e uma conseq¨uˆencia direta das defini¸c˜oes de equil´ıbrio de Nash e fun¸c˜oes de melhor resposta em estrat´egias mistas.

Proposi¸c˜ao 2.4 p∗= (p

1, . . . , p∗i, . . . , p∗n)∈ ∆ ´e um equil´ıbrio

de Nash em estrat´egias mistas se, e somente se, p∗

i ∈ MRi(p∗−i)

para todo i = 1, . . . , n, isto ´e, p∗∈ MR(p).

Exemplo 2.11 Suponha que, na batalha dos sexos (Exemplo 2.2), a mulher escolha a estrat´egia mista p2= (1/2, 1/2). Qual ´e a melhor

resposta do homem a esta estrat´egia da mulher? Para responder a esta pergunta, observe inicialmente que

uHomem(p1, p2) = uHomem(p11, p12; p21, p22)

= p11· p21· uHomem(futebol, futebol) +

p11· p22· uHomem(futebol, cinema) +

p12· p21· uHomem(cinema, futebol) +

p12· p22· uHomem(cinema, cinema)

= 10· p11· p21+ 5· p12· p22

e, portanto, uHomem(p11, p12; 1/2, 1/2) = 5· p11+ (5/2)· p12. Desta

maneira,

Segue-se que a melhor resposta do homem `a estrat´egia mista p2 =

(1/2, 1/2) da mulher ´e obtida resolvendo-se o seguinte problema de otimiza¸c˜ao:

maximizar 5· p11+ (5/2)· p12

sujeito a p11+ p12= 1,

p11≥ 0,

p12≥ 0,

cuja solu¸c˜ao ´e (p∗

11, p∗12) = (1, 0). Sendo assim, MRHomem(1/2, 1/2) =

{(1, 0)}.

No caso de jogos com apenas dois jogadores, cada um com apenas duas estrat´egias puras, ´e poss´ıvel escrever as estrat´egias mistas de uma maneira mais simplificada:

∆2={(p, 1 − p) ∈ R2 | 0 ≤ p ≤ 1},

isto ´e, cada elemento de ∆2pode ser identificado com um n´umero real

no intervalo [0, 1]. Com isto, as fun¸c˜oes de melhor resposta podem ser reescritas de forma a depender de apenas de um n´umero real. Por exemplo, se o homem escolhe uma estrat´egia mista (p, 1− p) ∈ ∆2,

qual ´e a melhor resposta da mulher a esta estrat´egia do homem? Escrevendo as estrat´egias mistas da mulher na forma (q, 1− q) ∈ ∆2,

vemos que uMulher(p, 1− p; q, 1 − q) = 15 pq + 10 − 10 q − 10 p = 5 (3 p− 2) q + 10 (1 − p). Sendo assim, MRMulher(p) = argmax(q,1−q)∈∆2(5 (3 p− 2) q + 10 (1 − p)) = argmaxq∈[0,1](5 (3 p− 2) q + 10 (1 − p)),

onde, por simplicidade, estamos escrevendo MRMulher(p) no lugar

de MRMulher(p, 1− p). Assim, dada a escolha de p ∈ [0, 1] do homem,

a mulher quer encontrar os valores de q∈ [0, 1] que maximizam o valor de sua utilidade uMulher= 5 (3 p− 2) q + 10 (1 − p). Se p ∈ [0, 2/3),

escolher q = 0. Se p = 2/3, ent˜ao 3 p− 2 = 0 e, portanto, a utilidade uMulher = 10 (1− p) da mulher n˜ao depender´a de q. Neste caso, a

mulher poder´a escolher qualquer valor de q em [0, 1]. Se p∈ (2/3, 1], ent˜ao 3 p− 2 > 0 e, para maximizar a sua utilidade, a mulher dever´a escolher q = 1. Mostramos ent˜ao que

MRMulher(p) = ⎧ ⎨ ⎩ {0}, se p∈ [0, 2/3), [0, 1], se p = 2/3, {1}, se p∈ (2/3, 1].

Esta fun¸c˜ao de melhor resposta pode ser representada graficamente, como mostra a Figura 2.3.

1 p(Homem) 0 1 q 2/3 (Cinema) (Cinema) (Futebol) (Mulher) (Futebol)

Figura 2.3: Representa¸c˜ao gr´afica da fun¸c˜ao de melhor resposta da mulher no jogo da batalha dos sexos.

Do mesmo modo, se a mulher escolhe uma estrat´egia mista (q, 1−q) ∈ ∆2, ent˜ao uHomem(p, 1− p; q, 1 − q) = 15 pq + 5 − 5 q − 5 p = 5 (3 q− 1) p + 5 (1 − q), de modo que MRHomem(q) = argmax(p,1−p)∈∆2(5 (3 q− 1) p + 5 (1 − q)) = argmaxp∈[0,1](5 (3 q− 1) p + 5 (1 − q)).

Assim, dada a escolha de q ∈ [0, 1] da mulher, o homem quer en- contrar os valores de p ∈ [0, 1] que maximizam o valor de sua utili- dade uHomem= 5 (3 q− 1) p + 5 (1 − q). Se q ∈ [0, 1/3), ent˜ao 3 q −

1 < 0 e, para maximizar a sua utilidade, o homem dever´a esco- lher p = 0. Se q = 1/3, ent˜ao 3 q− 1 = 0 e, portanto, a utilidade uHomem = 5 (1− q) do homem n˜ao depender´a de p. Neste caso, o

homem poder´a escolher qualquer valor de p em [0, 1]. Se q∈ (1/3, 1], ent˜ao 3 q− 1 > 0 e, para maximizar a sua utilidade, o homem dever´a escolher p = 1. Mostramos ent˜ao que

MRHomem(q) = ⎧ ⎨ ⎩ {0}, se q∈ [0, 1/3), [0, 1], se q = 1/3, {1}, se q∈ (1/3, 1].

Esta fun¸c˜ao de melhor resposta pode ser representada graficamente, como mostra a Figura 2.4.

1 q (Mulher) 0 1 p 1/3 (Cinema) (Cinema) (Futebol) (Homem) (Futebol)

Figura 2.4: Representa¸c˜ao gr´afica da fun¸c˜ao de melhor resposta do homem no jogo da batalha dos sexos.

Agora, pela Proposi¸c˜ao 2.4, segue-se que um perfil de estrat´egias mistas (p∗, 1− p; q, 1− q) ´e um equil´ıbrio de Nash se, e somente se,

q∗∈ MR

Mulher(p∗) e p∗ ∈ MRHomem(q∗). Desta maneira, os valores

de p∗ e qque geram equil´ıbrios de Nash correspondem aos pontos

resposta da mulher e do homem, quando representadas em um mesmo sistema de eixos, como ilustra a Figura 2.5.

1 p(Homem) 0 1 q 2/3 1/3 (Cinema) (Cinema) (Futebol) (Mulher) (Futebol)

Figura 2.5: Calculando os equil´ıbrios de Nash usando as representa- ¸c˜oes gr´aficas das duas fun¸c˜oes de melhor resposta.

Vemos, portanto, que a batalha dos sexos possui apenas 3 equil´ıbrios de Nash em estrat´egias mistas:

(0, 1; 0, 1), (2/3, 1/3; 1/3, 2/3) e (1, 0; 1, 0),

que correspondem, respectivamente, aos trˆes ´unicos pontos de inter- se¸c˜ao (p∗, q) = (0, 0), (p, q) = (2/3, 1/3) e (p, q) = (1, 1) das

duas representa¸c˜oes gr´aficas.

Exemplo 2.12 ([31], p´agina 17) (O jogo da inspec¸˜ao) O che- fe de uma empresa de computa¸c˜ao desconfia que seu operador de computadores est´a usando o tempo de servi¸co para “bater papo” na internet. Se o operador trabalha corretamente, ele gasta g em esfor¸co e produz um lucro bruto de v unidades para a empresa. O chefe, por sua vez, pode fiscalizar ou n˜ao o trabalho do operador. Fiscalizar custa h unidades para a empresa. Se o operador for pego “batendo papo” na internet, ele perde o seu sal´ario de w unidades (o chefe n˜ao pode condicionar o valor do sal´ario w ao valor do lucro bruto v). Para limitar o n´umero de casos a considerar, vamos assumir

que g > h > 0 e que w > g. Os dois jogadores escolhem suas estrat´egias simultaneamente (em particular, ao decidir se vai fiscalizar ou n˜ao, o chefe n˜ao sabe se o empregado decidiu trabalhar ou decidiu “bater papo” na internet). Neste contexto, o jogo da inspe¸c˜ao tem a matriz de payoffs indicada abaixo.

empregado n˜ao trabalhar trabalhar ch ef e fiscalizar (−h, 0) (v− w − h, w − g) n˜ao fiscalizar (−w, w) (v− w, w − g) Observe que este jogo n˜ao possui equil´ıbrio de Nash em estrat´egias puras e, como ele deve se repetir em cada dia ´util de trabalho, n˜ao ´e sensato escolher sempre a mesma estrat´egia pura para todos os dias. A solu¸c˜ao, neste caso, ´e escolher entre as estrat´egias puras a cada dia seguindo uma distribui¸c˜ao de probabilidades, isto ´e, atrav´es de es- trat´egias mistas. Como as fun¸c˜oes de melhor resposta do empregado e do chefe s˜ao dadas, respectivamente, por

MREmpregado(p) = argmaxq∈[0,1]((−wp + g) q + w − g) = ⎧ ⎨ ⎩ {1}, se p∈ [0, g/w), [0, 1], se p = g/w, {0}, se p∈ (g/w, 1], MRChefe (q) = argmaxp∈[0,1]((+wq− h) p + v (1 − q) − w) = ⎧ ⎨ ⎩ {0}, se q∈ [0, h/w), [0, 1], se q = h/w, {1}, se q∈ (h/w, 1],

segue-se que o (´unico) equil´ıbrio de Nash em estrat´egias mistas ´e obtido tomando-se p∗ = g/w e q= h/w. Se, por exemplo, v = 5,

w = 4, g = 3 e h = 2, ent˜ao (p∗, 1

− p∗; q, 1

− q∗) = (3/4, 1/4; 1/2, 1/2).

Isto significa que o chefe deve escolher sua estrat´egia de acordo com um gerador de n´umeros aleat´orios com distribui¸c˜ao de probabili- dade (3/4, 1/4) e o operador deve escolher sua estrat´egia de acordo

com um gerador de n´umeros aleat´orios com distribui¸c˜ao de probabili- dade (1/2, 1/2). Isto pode ser feito, por exemplo, com as duas “rodas da fortuna” da Figura 2.6. Fiscalizar Não fiscalizar Trabalhar Não trabalhar chefe empregado

Figura 2.6: Distribui¸c˜oes de probabilidade que constituem um equil´ı- brio de Nash para o jogo do Exemplo 2.12.

A partir deste resultado, podemos calcular o valor ´otimo de contrato do empregado, isto ´e, o valor de w que maximiza o payoff esperado do chefe: uChefe(w) = (+wq∗− h) p∗+ v (1− q∗)− w) = v  1−wh  − w. Se, por exemplo, √vh > g, ent˜ao este valor ´otimo ´e dado por w∗ =

vh (note que u′

Chefe(w∗) = 0 e u′′Chefe(w)≤ 0 para w > 0).

Jogos deste tipo tˆem sido usados para se estudar temas como controle de armas ([03, 10, 83]), preven¸c˜ao de crimes ([04]) e incentivos no trabalho ([53]).

Como vimos no jogo de comparar moedas no Exemplo 2.6, existem jogos que n˜ao possuem equil´ıbrios de Nash em estrat´egias puras e, at´e agora, todos os jogos apresentados em nossos exemplos possuem pelo menos um equil´ıbrio de Nash em estrat´egias mistas. Uma pergunta natural ´e se a existˆencia de equil´ıbrios de Nash em estrat´egias mistas ´e um resultado geral ou n˜ao. A resposta ´e sim! No pr´oximo cap´ıtulo apresentaremos e demonstraremos o teorema de equil´ıbrio de Nash,

que garante a existˆencia de equil´ıbrios em estrat´egias mistas para jogos finitos.

2.4.3

Rela¸c˜oes entre dominˆancia e equil´ıbrio de

Nash

As Proposi¸c˜oes 2.2 e 2.3 para estrat´egias puras continuam v´alidas para estrat´egias mistas: (1) o processo de dominˆancia estrita ite- rada em estrat´egias mistas n˜ao pode eliminar um equil´ıbrio de Nash e (2) se o processo de dominˆancia estrita iterada em estrat´egias mistas deixa apenas um ´unico perfil de estrat´egias, ent˜ao este perfil ´e um equil´ıbrio de Nash do jogo. N˜ao apresentaremos as demonstra¸c˜oes destes resultados aqui. O leitor interessado poder´a encontr´a-las nas referˆencias [15, 26].

2.4.4

Como interpretar estrat´egias mistas?

Existe muita controv´ersia sobre as interpreta¸c˜oes e usos de es- trat´egias mistas ([02, 12, 17, 57, 74, 77, 81, 73, 92, 93]). Aumann, por exemplo, em [02], afirma que

“Mixed strategy equilibria have always been intuitively problematic because they are not ‘strict’: a player will not lose if he abandons the randomization and uses instead any arbitrary one of the pure strategy components of the randomization.”

(veja as Equa¸c˜oes 4.1 na p´agina 81) e, segundo Rardner e Roshen- tal ([76]),

“One of the reasons why game-theoretic ideas have not found more widespread application is that randomization, which plays a major role in game theory, seems to have limited appeal in many practical situations.”

Ainda, segundo Rubinstein ([81]),

“The reason for the criticism is that the naive interpreta- tion of a mixed strategy as an action which is conditional on the outcome of a lottery executed by the player before

the game, goes against our intuition. We are reluctant to believe that our decisions are made at random. We prefer to be able to point to a reason for each action we take. Outside of Las Vegas we do not spin roulettes.”

De fato, testes experimentais recentes mostraram que jogadores n˜ao seguem a estrat´egia mista prevista pela teoria, mesmo quando o jogo possui um ´unico equil´ıbrio de Nash em estrat´egias mistas ([57]).

Existem tamb´em certas an´alises feitas com estrat´egias mistas que produzem resultados n˜ao-intuitivos. Considere, por exemplo, a se- guinte situa¸c˜ao. Um contribuinte C deve decidir se vai ou n˜ao sonegar imposto, sabendo que existe um fiscal F que pode ou n˜ao fiscaliz´a-lo. Na matriz de payoffs abaixo, vamos assumir que valem as seguintes desigualdades

(1) c21> c11: o contribuinte C prefere n˜ao sonegar se souber que

o fiscal F ir´a fiscalizar,

(2) c12> c22: o contribuinte C prefere sonegar se souber que o fis-

cal F n˜ao ir´a fiscalizar,

(3) f11> f12: o fiscal F prefere fiscalizar se souber que o contribuin-

te C ir´a sonegar e

(4) f22> f21: o fiscal F prefere n˜ao fiscalizar se souber que o contri-

buinte C n˜ao ir´a sonegar.

Vocˆe pode pensar que os cij s˜ao n´umeros negativos que representam

o quanto ser´a debitado de C pelo pagamento de imposto e que os fij

s˜ao n´umeros positivos que representam bˆonus salariais de F . F fiscalizar n˜ao fiscalizar C sonegar (c11, f11) (c12, f12) n˜ao sonegar (c21, f21) (c22, f22) .

Usando a t´ecnica descrita no Exemplo 2.11, vemos que o ´unico equi- l´ıbrio de Nash do jogo ´e dado por (p∗

C, 1− p∗C; p∗F, 1− p∗F), onde (p∗C, p∗F) =  f22− f21 f22− f21− f12+ f11 , c22− c12 c22− c12− c21+ c11  .

Aqui, p∗

Crepresenta a probabilidade com que C decide sonegar e p∗F

representa a probabilidade com que F decide fiscalizar. Dois resulta- dos n˜ao-intuitivos advˆem destas express˜oes para p∗

C e p∗F:

(a) Se a receita federal decide aumentar a multa de sonega¸c˜ao, isto ´e, se ela resolve diminuir o valor de c11, ent˜ao a freq¨uˆencia p∗C de

sonega¸c˜oes n˜ao muda e a freq¨uˆencia de fiscaliza¸c˜oes p∗

F diminui.

(b) Se a receita federal decide aumentar o bˆonus salarial para os fis- cais que identificam contribuintes sonegadores, isto ´e, se ela resol- ver aumentar o valor de f11, ent˜ao a freq¨uˆencia de fiscaliza¸c˜oes p∗F

n˜ao muda e a freq¨uˆencia de sonega¸c˜oes p∗

C diminui.

Isto acontece porque altera¸c˜oes introduzidas nos payoffs de um jo- gador afeta apenas a express˜ao para o perfil de estrat´egias mistas do equil´ıbrio de Nash do outro jogador (Proposi¸c˜ao da Irrelevˆancia do Payoff [43]).

Existem, contudo, interpreta¸c˜oes que s˜ao mais robustas. Uma de- las ´e imaginar o jogo como uma intera¸c˜ao entre n popula¸c˜oes nume- rosas: cada partida ocorre depois que n jogadores s˜ao selecionados de maneira aleat´oria nestas popula¸c˜oes. As probabilidades piji no

perfil de estrat´egias mistas pi do jogador gi s˜ao interpretadas como

as freq¨uˆencias dos jogadores que escolheram a estrat´egia pura siji na

i-´esima popula¸c˜ao. Outra interpreta¸c˜ao ´e devida a Harsanyi. Apre- sentamos aqui o abstract de seu artigo [39]:

“Equilibrium points in mixed strategies seem to be unsta- ble, because any player can deviate without penalty from his equilibrium strategy even if he expects all other players to stick to theirs. This paper proposes a model under which most mixed-strategy equilibrium points have full stability. It is argued that for any game Γ the players’ uncertainty about the other players’ exact payoffs can be modeled as a disturbed game Γ∗, i.e., as a game with small

random fluctuations in the payoffs. Any equilibrium point inGamma, whether it is in pure or in mixed strategies, can ‘almost always’ be obtained as a limit of a pure-strategy equilibrium point in the corresponding disturbed game Γ∗ when all disturbances go to zero. Accordingly, mixed-

players may make no deliberate effort to use their pure strategies with the probability weights prescribed by their mixed equilibrium strategies – because the random fluctu- ations in their payoffs willmake them use their pure stra- tegies approximately with the prescribed probabilities.”

N˜ao nos aprofundaremos neste tema polˆemico. O leitor interessado pode consultar as referˆencias citadas no in´ıcio desta subse¸c˜ao e, em especial, [81] e a Se¸c˜ao 3.2 de [74].

Documentos relacionados