• Nenhum resultado encontrado

4 TEORIA DOS JOGOS

4.11 Dilema do Prisioneiro

Originalmente apresentado por A. W. Tucker tornou-se um dos problemas clássicos da teoria dos jogos. Em sua forma iterada tem sido um eficaz modelo do comportamento social, biológico e político por quase 40 anos.

O atrativo deste jogo é a simplicidade de sua apresentação, sua aplicabilidade universal para idealizar interações entre vários indivíduos e o visível e incoercível dilema em sua essência, onde a escolha “racional” como interesse próprio tem um baixo retorno e a cooperação “irracional” um alto retorno (ANGELINE, 2001).

O Dilema do Prisioneiro (DP) (LUCE & RAIFFA, 1957, RAPOPORT, 1966) é definido como um jogo de duas pessoas soma não zero, não cooperativo.

A forma geral do DP é mostrado na figura 4.6 (RAPOPORT, 1966).

As letras C (cooperate) e D (Defect) podem ser entendidas como as ações de cooperar e não cooperar.

Figura 4.6 Matriz de ganhos do dilema do prisioneiro

Como definido tradicionalmente, os valores dos payoffs individuais no DP estão sujeitos às seguintes restrições:

Uma designação típica para estes payoffs que satisfazem estas restrições é mostrado na figura 4.7 (AXELROD, 1984). 1, 1 2, 3 3, 2 4, 4 γ γ γ γ γ γ γ γ C D C D Jogador I Jogador II 3 1 4 2 γ > γ > γ > γ 1 3 2 2γ > γ + γ (4.3) (4.4)

Figura 4.7 Exemplo de payoffs para o dilema do prisioneiro padrão

A restrição da equação (4.3) cria a condição de que a estratégia “D” seja uma estratégia estritamente dominante na teoria do jogo em relação à estratégia “C”, para ambos os jogadores (LUCE & RAIFFA, 1957).

Para qualquer estratégia que seja empregada por um dos jogadores, o outro sempre conseguirá melhor resultado se não cooperar do que cooperando (DAVIS, 1973).

Este impulso “racional” dos jogadores fazem-nos jogar no resultado (D,D), a não cooperação mútua. Porém, o resultado (C,C), cooperação mútua fornece um payoff maior para ambos os jogadores. Esta é a essência do dilema, existe uma jogada “irracional” que melhora os payoffs dos jogadores (ANGELINE, 2001).

O propósito da restrição da equação (4.4) é indistinto. Se há a possibilidade de uma conluio tácito, os jogadores poderiam optar por (C,C) ou alternar entre (C,D) e (D,C), assumindo que o jogo é repetido (RAPOPORT, 1966).

Na caracterização padrão do jogo, a escolha da estratégia “C” está associada ao desejo dos jogadores em “cooperar” a favor de um maior ganho mútuo. Enquanto a escolha da estratégia “D” está associada com o desejo de “não cooperar” ou ir contra à coletividade na esperança de obter uma maior ganho individual (LUCE & RAIFFA, 1957, AXELROD, 1984, HOFSTADTER, 1985).

Esta interpretação instigou a dar nomes a cada um dos quatro valores de payoff de acordo com os significados observados: γ1 é a recompensa pela mútua cooperação, γ3 é a tentação para não cooperar, γ2 é o ganho do “trouxa” e γ4 é a punição pela não cooperação mútua.

4.11.1 Dilema do Prisioneiro Iterado

Um jogo único do Dilema do Prisioneiro não é tão atraente já que indivíduos “racionais” sempre escolherão (D,D). 3,3 0,5 5,0 1,1 C D Jogador II Jogador I C D

De um modo geral, o Dilema do Prisioneiro Iterado (DPI) é preferido, onde dois jogadores jogam várias iterações consecutivas usando a matriz de ganhos para acumular os ganhos totais. O jogador com maior acúmulo de pontos é o vencedor.

Através de várias investigações (AXELROD, 1980a; 1980b), a estratégia chamada TIT FOR TAT (TFT) foi identificada como a melhor em um torneio contra outras estratégias. TFT sempre coopera na primeira jogada e depois simplesmente repete o último movimento de seu oponente.

Robert Axelrod estava interessado em responder uma questão simples: quando uma pessoa poderá cooperar, e quando ela seria egoísta, em uma interação progressiva com outra pessoa.

A estratégia TFT foi submetida para o torneio organizado pelo professor Axelrod pelo professor Anatol Rapoport, da Universidade de Toronto, Canadá. Era a estratégia mais simples das 14 estratégias submetidas, e foi a melhor entre todas (AXELROD, 1990).

Conforme AXELROD (1990), o sucesso da estratégia TFT se deve à combinação de gentileza, retaliação, perdão e clareza. A gentileza a previne de problemas desnecessários. A retaliação desencoraja o outro lado a explorá-la. O perdão ajuda ao retorno da mútua colaboração e a clareza facilita que a mesma seja reconhecida pelo seu adversário.

Axelrod executou vários experimentos para estudar o comportamento de certas estratégias no paradigma do DPI. Verificou AXELROD (1987), que o desempenho de um dado jogador utilizando a estratégia TFT contra outras oito estratégias investigadas em trabalhos anteriores (AXELROD, 1980a, 1980b) foi bom, indicando sua robustez .

Axelrod usou estas oito estratégias como uma medida de fitness nos experimentos para desenvolver o comportamento dos jogadores no DPI (AXELROD 1987) usando um algoritmo genético (HOLLAND, 1975, GOLDBERG, 1989), onde cada membro da população foi representado por uma tabela com 70 entradas. Cada membro da população fez 151 jogadas contra as oito estratégias já estudadas, com o escore final dos jogadores computados através da média ponderada após oito partidas. Foram conduzidas 40 iterações para cada uma das 50 gerações e selecionados os jogadores melhor adaptados. As estratégias mais bem desenvolvidas mostraram muitas similaridades com o TFT.

Em um segundo experimento, Axelrod alterou o cálculo da fitness para as novas estratégias, de tal modo que a fitness dos jogadores fosse seu escore médio durante o jogo,

contra todos os outros membros da população (AXELROD, 1987). Observou-se que em todas as 10 rodadas, as populações iniciais tendiam a expandir-se da cooperação inicial no sentido da não cooperação mútua. Depois de 10 ou 20 gerações, a cooperação mútua começou a aparecer na população, conduzindo à escores maiores e substituindo aquelas estratégias que continuamente não cooperavam.

Seguindo AXELROD (1987), FOGEL (1991) conduziu experimentos similares utilizando um programa evolucionário (PE) (FOGEL, OWENS & WALSH, 1966, FOGEL, 1992) com os jogadores representados como máquinas de estado finito. Uma máquina de estados finitos contém um número de estados, transições entre os estados, e uma saída associada com cada transição. A entrada proveniente do ambiente, seleciona uma transição de estado atual da máquina para um novo estado e o valor de saída associado é retornado.

Algumas versões tem características particulares, incluindo uma variante com apenas um lado da matriz de ganhos do DP na qual uma característica de decisão fuzzy tem sido adicionada no sentido de modelar gradualmente as estratégias de cooperação e não cooperação por consumidores em um jogo de fatia de mercado (BORGES, 1996).

Documentos relacionados