O Dilema do Prisioneiro - Fundamentos Para Desenvolvimento do Jogo Proposto Sob a Ótica da Teor

Equação 18 – Valor presente das recompensas de n etapas trazidas a etapa atual

2.3 Fundamentos Para Desenvolvimento do Jogo Proposto Sob a Ótica da Teoria

2.3.4 O Dilema do Prisioneiro

O jogo O Dilema do Prisioneiro é o processo de interação estratégica que melhor modela a questão de cooperação sem coerção externa (ANSCOMBE; AUMANN, 1963).

O enunciado do Dilema do Prisioneiro é descrito no parágrafo a seguir.

Supondo que dois suspeitos foram presos pela polícia com algumas evidências circunstanciais mas nada muito definitivo, já que só foram vistos rondando de forma suspeita o local do roubo na noite do crime. A polícia então isola cada suspeito em uma sala, os quais no momento da captura já não puderam se comunicar, e faz a cada um deles a seguinte proposta: Se ele confessar o roubo e o parceiro dele não confessar, ele será libertado em razão de sua cooperação com a polícia, enquanto seu parceiro (que não confessou) irá amargar quatro anos na penitenciária estadual. Se, ao contrário, ele não confessar, mas seu parceiro o fizer, será ele a enfrentar os quatro anos na penitenciária estadual, enquanto seu parceiro será libertado. Caso ambos confessem, a cooperação individual de um deles perde o valor como denúncia do comparsa e ambos enfrentam uma pena de dois anos na prisão estadual. Finalmente, embora a polícia não os informe a esse respeito, eles sabem que se nenhum dos dois confessar, ambos serão soltos após um ano de detenção, por vadiagem (TUCKER, 1950).

Dadas as características desse processo de interação estratégica, será que algum dos dois ladrões confessará? Ao se representar a interação na Forma Estratégica é possível

determinar o resultado mais provável do jogo. O Quadro 2 apresenta as possibilidades dessa interação. Suspeito 2 Confessa (Coopera) Não Confessa (Não Coopera) Suspeito 1 Confessa (Coopera) (-2, -2) (0, -4) Não Confessa (Não Coopera) (-4, 0) (-1, -1) (não revelado) Quadro 2 – Representação do Dilema do Prisioneiro na forma estratégica.

As recompensas são representadas pelo tempo que os suspeitos podem passar na prisão, tendo sinal negativo para enfatizar o fato de que o tempo na prisão é algo que os ladrões querem minimizar. Aplicando-se o conceito de Equilíbrio de Nash para determinar o resultado mais provável da interação é possível se concluir que a melhor resposta que qualquer um dos dois suspeitos pode adotar para a estratégia {Não Confessa} é {Confessa}, porém essa estratégia gera dois equilíbrios, que são instáveis uma vez que se um deles escolhesse não confessar o resultado seria incerto pois se os dois tomarem a mesma decisão de não cooperar (considerando somente suas recompensas e não as possíveis respostas do outro), chegar-se-ia num resultado que não era o previsto. Por outro lado, a melhor resposta à estratégia {Confessa} é, também, {Confessa}, pois se um agente escolher confessar, não restará ao outro uma alternativa de recompensa que seja satisfatória. Logo, os dois suspeitos agindo racionalmente confessarão o roubo.

Esse resultado obtido no Dilema do Prisioneiro é decorrente da condição de que os prisioneiros não podem se comunicar e não possuem a informação da recompensa das estratégias {Não Confessa, Não Confessa}. Se possuíssem a informação e se pudessem se comunicar estabelecendo compromissos que pudessem ser garantidos, nenhum dos dois confessaria. A possibilidade se de estabelecer compromissos garantidos consegue mudar o resultado do jogo, e fornece o critério para distinção entre jogos não cooperativos e jogos cooperativos.

O Dilema do Prisioneiro é destacadamente um exemplo de que o fato de cada jogador buscar o melhor para si leva a uma situação que não é a melhor para todos, consideradas as particularidades do processo de interação estratégica. Pode-se provar que em um jogo Finito, em que o jogo-base é do tipo Dilema do Prisioneiro, não é racional que os jogadores adotarão

estratégias cooperativas, dado que uma repetição finita não leva a um melhor resultado para os agentes. Isto acontece porque nenhum dos agentes possuem motivos racionais para cooperar na última situação de interação já que os mesmos na situação do Dilema do Prisioneiro possuem melhores recompensas com as estratégias {Não Coopera, Não Coopera}, que é o equilíbrio perfeito em Sub-Jogos de Jogos Repetidos Finitos.

A partir do questionamento de como incentivar a cooperação na ausência de instrumentos coercitivos quando os jogadores estão envolvidos em uma situação do tipo Dilema do Prisioneiro, pode-se representar um jogo na forma estratégica que reproduza a mesma relação de recompensas do Dilema do Prisioneiro para se iniciar a análise. Os valores das recompensas em si, não são importantes, e sim apenas a relação entre eles, que expressa a relação de preferência de cada jogador por cada combinação de estratégias. O Quadro 3 apresenta as modificações e os elementos do jogo que, agora, é de informação perfeita.

Suspeito 2 Confessa (Coopera) Não Confessa (Não Coopera) Suspeito 1 Confessa (Coopera) (1, 1) (-1, 2) Não Confessa (Não Coopera) (2, -1) (0, 0)

Quadro 3 – Representação do jogo-base do Dilema do Prisioneiro em forma estratégica com recompensas modificadas. Para se analisar um Jogo Repetido a tabela a seguir representa o jogo-base de um Jogo Repetido duas vezes, nas quais as recompensas de cada estratégia se somam.

Resultados da Primeira

Repetição Resultados da Segunda Repetição

Suspeito 2 Suspeito 1 Suspeito 2 Suspeito 1 Confessa

(Coopera) Não Confessa (Não Coopera) Confessa (Coopera) Confessa (Coopera) Confessa (Coopera) (2 , 2) = (1, 1) + (1, 1) (0 , 3) = (1, 1) + (-1, 2) Não Confessa (Não Coopera) (3 , 0) = (1, 1) + (2, -1) (1 , 1) = (1, 1) + (0, 0) Não Confessa (Não Coopera) Confessa (Coopera) (0 , 3) = (-1, 2) + (1, 1) (-2 , 4) = (-1, 2) + (-1, 2) Não Confessa (Não Coopera) (1 , 1) = (-1, 2) + (2, -1) (-1 , 2) = (-1, 2) + (0, 0) Não Confessa (Não Coopera) Confessa (Coopera) Confessa (Coopera) = (2, -1) + (1, 1) (3 , 0) = (2, -1) + (-1, 2) (1 , 1) Não Confessa (Não Coopera) (4 , -2) = (2, -1) + (2, -1) (2 , -1) = (2, -1) + (0, 0) Não Confessa (Não Coopera) Confessa (Coopera) = (0, 0) + (1, 1) (1 , 1) = (0, 0) + (-1, 2) (-1 , 2) Não Confessa (Não Coopera) (2 , -1) = (0, 0) + (2, -1) (0 , 0) = (0, 0) + (0, 0) Quadro 4 – Representação do jogo do Dilema do Prisioneiro em forma estratégica repetido duas vezes.

Na primeira etapa os jogadores decidem simultaneamente o que fazer e, portanto, decidam sem conhecer as decisões uns dos outros; Na segunda etapa os jogadores tomam conhecimento de qual foi o resultado na primeira etapa e, com base nesse conhecimento,

decidirão o que fazer na segunda etapa. Ou seja, o resultado da primeira etapa irá compor a história do jogo.

É em função dessa história que os jogadores (em qualquer Jogo Repetido) vão orientar suas escolhas na etapa seguinte. Dessa forma, é possível estabelecer que as estratégias dos jogadores, em Jogos Repetidos (sejam Finitos ou Infinitos), especificam, dada a história do jogo até ali, que ação tomar em cada etapa do jogo (ANSCOMBE; AUMANN, 1963). Não importa se o jogo em questão se trata de um jogo Finito ou Infinito: de uma forma ou de outra, ambos têm histórias que serão consideradas por seus jogadores no momento de definir suas estratégias.

No entanto, um modelo mais adequado para analisar o surgimento de cooperação espontânea é o de jogos infinitamente repetidos e dado o modelo em que há ganhos de não cooperação, isto é, o do Dilema do Prisioneiro, o qual sintetiza exatamente o problema de se induzir a cooperação quando os jogadores obtêm ganhos imediatos se não cooperarem, ou seja, em que há ganhos imediatos expressivos caso se adote um comportamento não cooperativo.

Na interação existente entre o empreendedor e o investidor de estágio inicial (Early

Stage) é possível observar situações que podem gerar ganhos substanciais de curto prazo caso

alguma das partes envolvidas resolva descumpri-los em alguma medida. Esse descumprimento não precisa ser total.

O comportamento não cooperativo pode assumir diversas formas. Essa possibilidade de descumprimento de acordos e contratos ocorre porque, em um Dilema do Prisioneiro, os jogadores se veem presos a um Equilíbrio de Nash que representa uma situação ineficiente do ponto de vista do ótimo de Pareto, exatamente porque a não cooperação por parte de um agente, enquanto o(s) outro(s) coopera(m), gera recompensas que superam as recompensas do comportamento cooperativo. No caso em que todos se comportem de forma não cooperativa, o resultado para todos é o pior possível: os contratos são quebrados, oportunidades lucrativas são perdidas e os custos de disputas judiciais são em geral elevados (SPINA, 2010).

O termo para designar todos os custos envolvidos na tentativa de negociar acordos que sejam aceitáveis para os envolvidos são chamados pelos economistas de custos de transação (COASE, 1937). O aumento dos custos de transação reduz o volume de transações que são feitas na economia, reduzindo com isso a oferta de bens e serviços e o bem-estar social (SCHUMPETER, 2006). Nas situações descritas como Dilemas do Prisioneiro, trapacear produz vantagens superiores à honestidade, o que representa uma situação bastante desfavorável, em princípio, à cooperação entre os jogadores. O que doravante será

apresentado é que, mesmo nesse tipo de interação estratégica, há uma possibilidade de se desenvolver a cooperação em determinadas circunstâncias.

Haverá um instrumento para antecipar quando e como a cooperação pode se desenvolver na interação entre empreendedores e investidores de Estágio Inicial (Early Stage) mostrando como seria o surgimento espontâneo da cooperação em dilemas dos prisioneiros, ou seja, situações em que a cooperação não pode ser obtida por meio da coação dos jogadores.

Apesar de se desejar que a estratégia cooperativa seja estritamente dominante, é cabível analisar primeiramente as limitações dos instrumentos de coerção externos. Para os instrumentos de coerção externos à interação estratégica entre os agentes, o Dilema do Prisioneiro e os problemas de cooperação que ele gera podem ser resolvidos alterando-se as recompensas dos jogadores. A possibilidade de punição, portanto, reduziria os ganhos resultantes da adoção de comportamento não cooperativo.

Para ilustrar suponha-se que alguma instituição pública estabeleceu uma multa sobre o comportamento não cooperativo dos jogadores, no valor de x. O Quadro 5 e representa o Dilema do Prisioneiro na forma estratégica, com punição ao comportamento não cooperativo.

Suspeito 2 Confessa (Coopera) Não Confessa (Não Coopera) Suspeito 1 Confessa (Coopera) (1, 1) ( -1, (2 – x) ) Não Confessa (Não Coopera) ( (2 – x) , -1 ) ( (0 – x) , (0 – x) ) Quadro 5 - Representação do jogo do Dilema do Prisioneiro com coerção externa.

Uma das limitações da coerção externa é a determinação de qual deve ser o valor da multa x que a instituição pública deve estabelecer para alterar o comportamento dos jogadores. Ou seja, para que a estratégia não cooperativa nunca seja adotada, o valor de x deve ser tal que a estratégia cooperativa se torne estritamente dominante em relação à estratégia não cooperativa.

Algebricamente, tem-se que, simultaneamente para os dois jogadores, basta que x > 1 para que a estratégia não cooperativa se torne estritamente dominada pela estratégia cooperativa. O valor “1” representa a recompensa da cooperação mútua. Se x = 2, agir de forma cooperativa é estritamente dominante em relação a agir de forma não cooperativa. Em

princípio, o problema da não cooperação foi resolvido. Todavia, um valor adequado para a pena dos jogadores que adotarem um comportamento não cooperativo é essencial para qualquer sistema de coerção externa. O problema é que nem sempre uma autoridade externa ao jogo possui informações suficientes para identificar o valor correto da punição a ser aplicada, e uma punição com valor insuficiente é inócua, uma vez que os jogadores acham que "vale a pena" sofrer a punição diante dos ganhos líquidos que, ainda assim, podem obter.

Há uma dificuldade adicional quando se considera que as recompensas na indústria de capital empreendedor são baseadas em expectativas e percepções de risco que variam de agente para agente. Uma outra dificuldade para imposição de uma coação externa que obrigue os jogadores a se comportarem cooperativamente é o custo. Estabelecer uma instituição que identifique e puna comportamentos não cooperativos tem um custo o qual cresce com o aumento do número de jogadores que podem adotar comportamentos não cooperativos. Se o número de agentes que adota comportamento não cooperativo for muito grande, a possibilidade de que o custo das instituições necessárias para coagir os jogadores a adotarem comportamentos cooperativos se torne simplesmente proibitivo é grande. Ou seja, o custo de instituições que vigiassem e punissem todos, ou quase todos os indivíduos, se eles decidissem trapacear, tornaria essa vigilância e punição impraticáveis (EINSTEIN, 1954).

Uma vez descritas as limitações da indução de cooperação através de coerção externa, é oportuno se abordar a questão: Como se pode obter a cooperação espontaneamente? Como conseguir que os jogadores decidam espontaneamente cooperar em uma situação semelhante à proposta no Dilema do Prisioneiro? Quais são as condições para o surgimento espontâneo da cooperação no dilema dos prisioneiros?

Segundo a Teoria dos Jogos, isto é possível em situações em que a repetição do jogo seja infinita, isto é de fim indefinido. Essa é a única possibilidade, uma vez que em um jogo Finito, a solução por indução reversa (ver Anexo C) exclui a possibilidade de que a cooperação possa emergir espontaneamente da interação entre os jogadores. As interações podem ser finitas, porém no momento pode não haver um horizonte claro de quando isso deverá acontecer. Reiterando, o termo mais adequado deve ser Final Indeterminado, ao invés de Infinito.

Para explanar o surgimento da cooperação de forma espontânea será analisado um jogo no qual os jogadores repetem indeterminadamente um jogo-base com as características de um dilema dos prisioneiros. É importante que se tenha em vista que a cooperação do agente racional se dá um função da relação de preferência ordenada pelas recompensas percebidas de cada agente. Como o fator tempo é um dos elementos que influencia o valor das

recompensas em Jogos Repetidos, através do fator de desconto, cabe iniciar a discussão do papel do fator de desconto em um jogo infinitamente repetido enunciando algebricamente as variáveis envolvidas. A Equação 13 apresenta a relação entre fator e taxa de desconto.

Equação 13 – Relação entre o fator de desconto e a taxa de desconto onde

é o fator de desconto

i é a taxa de desconto (formato decimal)

Se os jogadores aplicarem uma taxa de desconto (i) sobre valores futuros, de tal forma que i > 0, diz-se que os jogadores possuem preferências intertemporais, ou seja, preferem receber suas recompensas na presente etapa a recebê-las em uma etapa posterior.

O fator de desconto pode incorporar a incerteza dos jogadores quanto ao término do processo de interação estratégica. A incerteza é quantificada pela probabilidade de cada repetição ser a última do jogo. As Equações 14, 15 e 16 mostram algebricamente o conceito.

δ δ

Equação 14 – Relação entre o fator de desconto e a probabilidade de término do jogo

Equação 15 – Equação 13 modificada

Equação 16 – Relação entre o fator de desconto com a probabilidade de término do jogo e a taxa de desconto onde

p é o fator de desconto com a probabilidade de término incorporada

p é a probabilidade de término

i é a taxa de desconto (formato decimal)

Supondo que um jogador qualquer obtém, de uma dada estratégia em um jogo infinitamente repetido, uma sucessão infinita de recompensas com valores idênticos a “a”, o valor de todas recompensas das n etapas é a somatória destas trazidas a etapa atual. A Equação 17 apresenta algebricamente o conceito.

S = a + a * p1 + a * p2 + ... + a * pn, para p< 1 Equação 17 – Soma das recompensas de n etapas trazidas a etapa atual

Como a soma apresentada na equação 17 é uma progressão geométrica decrescente de termo a constante e razão p, a soma pode ser expressa conforme se apresenta na Equação 18.

Equação 18 – Valor presente das recompensas de n etapas trazidas a etapa atual onde

S é o valor presente das recompensas de n etapas trazidas a etapa atual p é o fator de desconto com a probabilidade de término incorporada a é o valor das recompensas das n etapas

n é o numero de etapas do Jogo Repetido Infinito

Vista a equação que expressa as recompensas, a próxima etapa da análise é a definição de Estratégia Gatilho. Uma Estratégia Gatilho é uma estratégia que determina, para o jogador que a adota, seguir um curso de ação enquanto uma determinada condição é satisfeita e, caso essa condição em qualquer momento deixe de ser satisfeita, seguir um outro curso de ação pelo resto do jogo (ANSCOMBE; AUMANN, 1963).

Uma particularidade de Estratégia Gatilho é a Estratégia Severa. Na Estratégia Severa, o jogador que a adota coopera desde que o outro jogador coopere; se o outro jogador deixa de cooperar em algum momento, o jogador que adotou a Estratégia Severa não mais coopera pelo restante do jogo. O estado E1, em que o jogador que adotou a Estratégia Severa decide cooperar (representado simbolicamente por C) e o estado E2, em que o jogador decide não cooperar (representado simbolicamente por NC) podem ser vistos graficamente na Figura 6.

Figura 6 - Representação da Estratégia Severa

A Figura 6 representa uma particularidade da Estratégia Gatilho que é a conhecida como Estratégia Olho por Olho. Essa estratégia também possui dois estados. O estado E1, em que o agente que adotou a Estratégia Severa decide cooperar (C), e o estado E2, em que o agente decide seguir o que o outro agente decidiu. A Figura 7 mostra essa situação de interação. ... Agente 2 Agente 1 Agente 2 Agente 1 E1: C C E1: C C NC NC E₂: NC C E₂: NC

Figura 7 – Representação da Estratégia Olho-por-olho em jogos infinitamente repetidos.

Ao considerar a estratégia Olho por Olho, o agente coopera na primeira rodada do jogo e, a partir daí, faz exatamente o que o outro agente tiver feito na rodada anterior. Desse modo, se o outro agente cooperou na rodada anterior, a estratégia Olho por Olho determina cooperação na rodada atual. Já se o agente não cooperou na rodada anterior, a estratégia Olho por Olho determina que não se coopere na rodada atual.

Pode ser observado que o estado inicial El que prevalece no início do jogo, é caracterizado pela decisão de cooperar (C). Desse estado passa-se ao estado E2 que é caracterizado pela decisão de não cooperar (NC) caso o outro agente tenha jogado não cooperar (NC). Porém, é possível retornar ao estado inicial El desde que o outro agente coopere (C).

Com essa estratégia Olho por Olho, à medida em que o jogador que a adota

ameace com uma retaliação interminável caso o outro jogador se desvie do comportamento cooperativo, pode-se produzir a cooperação como um resultado

... Agente 2 Agente 1 Agente 2 Agente 1 E1: C C E₁: C C NC NC E₂: NC C E₁: C

sustentável em um Jogo Repetido em que o jogo-base é do tipo Dilema do Prisioneiro

(SELTEN, 1965; grifo nosso).

Assim, reforçando o que já se discutiu, as estratégias dos jogadores especificam, dada a história do jogo até ali, que ação se deve tomar em cada etapa do jogo. A Estratégia

Severa, caso fosse aplicada ao dilema dos prisioneiros, poderia estimular a cooperação entre

os dois jogadores. Assim, se o jogador 1 adotar a Estratégia Severa, cabe ao jogador 2 decidir qual é a melhor resposta. O Quadro 6 mostra as interações possíveis para a representação na forma estratégica do Dilema do Prisioneiro para jogos infinitamente repetidos conforme a Figura 8. Suspeito 2 (jogador 2) Confessa (Coopera) Não Confessa (Não Coopera) Suspeito 1 (jogador 1) Confessa (Coopera) ( δ , δ ) (-1, a) Não Confessa

(Não Coopera) (a, -1) (0, 0)

Quadro 6 – Representação do jogo-base do Jogo Sequencial infinitamente repetido do dilema dos prisioneiros.

Ao analisar as duas alternativas do jogador 2 (C e NC), tem-se que a primeira alternativa do jogador 2 é não cooperar logo na primeira oportunidade, aproveitando-se do fato de que, adotando a Estratégia Severa, o jogador 1 irá necessariamente cooperar no primeiro período. A recompensa do jogador 2 é de a no primeiro período e zero a partir daí, isso porque o primeiro resultado do jogo, no caso de o jogador 2 decidir não cooperar, será a para esse mesmo jogador (e -1 para o jogador 1). A partir daí, como o jogador 1 não mais irá cooperar (Estratégia Severa), a melhor resposta para o jogador 2 é também não cooperar, e assim sua recompensa será 0 daí em diante.

Uma alternativa para o jogador 2 seria adotar a Estratégia Severa. Nesse caso, ambos os jogadores irão cooperar, o que determinará para o jogador 2 o valor presente das suas recompensas como sendo

δ . Se este valor for maior do que o valor presente resultante de o jogador 2 não cooperar (a), o jogador 2 não possui vantagem em se desviar do comportamento cooperativo. Para que isso seja verdade é necessário que

δ , ou seja, se o fator de desconto ( p) não tender a zero, dadas as recompensas do jogo, é mais vantajoso

para o jogador 2 também adotar a Estratégia Severa, e assim adotar uma estratégia cooperativa com o jogador 1, do que agir de forma oportunista, explorando a cooperação do jogador 1 na primeira etapa. Logo, se o fator de desconto não for realmente muito baixo, é mais vantajoso para os agentes adotarem uma estratégia cooperativa do que tentarem trapacear, agindo de forma oportunista.

Por semelhança, a argumentação apresentada para a hipótese de o jogador 2 não cooperar na primeira etapa vale também para o caso de o jogador 2 deixar de cooperar em qualquer outra etapa, pois , se o jogador 2 coopera até a etapa t-1 do Jogo Repetido, não cooperando na etapa t, há duas fases no jogo infinitamente repetido originalmente.

A primeira fase é a que vai da primeira etapa até a etapa t-1, que é caracterizada pelos dois jogadores cooperando em todas as jogadas, e outra fase que se inicia na etapa t, quando o jogador 2 decide não cooperar. Para analisar se é vantajoso ou não para o jogador 2 não cooperar na etapa t, o que é realmente relevante é a segunda fase do jogo, que começa em t. O jogo da segunda fase, que se inicia na etapa t, tem as mesmas características do jogo iniciado na etapa zero, uma vez que possui as mesmas recompensas e possibilidades de estratégia.

Portanto, se não é vantajoso para o jogador 2 não cooperar na primeira etapa, não o será também em nenhuma outra. Em jogos infinitamente repetidos, um subjogo começado em uma dada etapa do jogo (t) é o Jogo Repetido, o qual é jogado da etapa t em diante, ou seja, cada subjogo que se inicia em uma determinada etapa é idêntico ao jogo original (SELTEN, 1965).

Cabe analisar as recompensas da interação sobre a possibilidade de um fator de desconto ( p) muito baixo. Isso poderia ser provocado por uma probabilidade muito pequena de o jogo continuar por mais uma etapa ou por uma taxa de desconto (preferência temporal) muito elevada, significando que os agentes valorizam muito pouco uma recompensa futura comparada com uma recompensa atual (jogadores muito impacientes).

2.3.5 2.3. 5 O Raciocínio Geral Adotado Para o Desenvolvimento do Jogo

Analisando-se todas as discussões feitas ao longo deste texto, apresenta-se o raciocínio

No documento O relacionamento entre empreendedores e investidores na indústria de private equity e venture capital sob enfoque da teoria dos jogos: a proposta de um jogo (o jogo do empreendedor) (páginas 48-61)