Braz. J. of Develop., Curitiba, v. 6, n. 7, p. 50828-50836, jul. 2020. ISSN 2525-8761
Introdução aos jogos de soma zero com dois jogadores
Introduction to two-player zero sum games
DOI:10.34117/bjdv6n7-648
Recebimento dos originais: 03/06/2020 Aceitação para publicação: 24/07/2020
Maurício Gomes Prates
Graduando em Engenharia Aeronáutica na Universidade Federal de Uberlândia Instituição: Universidade Federal de Uberlândia - Faculdade de Engenharia Mecânica Endereço: Rodovia BR 050, km 78, Bloco 1D – 1º andar, Faculdade de Engenharia Mecânica -
Universidade Federal de Uberlândia, Uberlândia – MG. E-mail: [email protected]
Rafael Antônio Rossato
Doutor em Matemática pela Universidade de São Paulo
Instituição: Universidade Federal de Uberlândia - Faculdade de Matemática
Endereço: Av. João Naves de Ávila - 2121 - Bairro Santa Mônica, Campus Santa Mônica - Bloco 1F - Sala 1F151, Faculdade de Matemática - Universidade Federal de Uberlândia
E-mail: [email protected] RESUMO
Neste trabalho fazemos um estudo introdutório do jogo de matriz de duas pessoas com soma zero. Focamos principalmente no caso particular de um jogo em que cada jogador possui dois movimentos possíveis. Para esse caso é possível determinar explicitamente uma estratégia ótima para cada jogador. Esse artigo foi apresentado na “XIX Semana da Matemática e IX Semana da Estatística” realizada na Universidade Federal de Uberlândia.
Palavras-chave: Jogo de matriz com soma zero, álgebra matricial, probabilidade. ABSTRACT
In this work we do an introductory study of the Two-Person Zero-Sum Matrix Games. We focus mainly on the particular case of a game in which each player has two possible moves. For this case it is possible make explicit an optimal strategy for each player. This article was presented at the “XIX Semana da Matemática e IX Semana da Estatística” held at the Federal University of Uberlândia. Keywords: Matrix game with zero sum, matrix algebra, probability.
1 INTRODUÇÃO
Consideramos um jogo com dois participantes denominados jogador 𝐿 e jogador 𝐶. Cada jogador tem uma roda estacionária com um ponteiro móvel fixado em seu centro, como mostram as Figuras 1 e 2.
Braz. J. of Develop., Curitiba, v. 6, n. 7, p. 50828-50836, jul. 2020. ISSN 2525-8761 Figura 1: Roda das linhas do jogador 𝐿
Figura 2: Roda das colunas do jogador 𝐶
Vamos denominar a roda do jogador 𝐿 como roda das linhas e a roda do jogador 𝐶 como roda das colunas. A roda das linhas é dividida em três setores, numerados 1, 2 e 3 enquanto que a roda das colunas é dividida em quatro setores, numerados 1, 2, 3 e 4. As frações de área ocupadas pelos diversos setores estão indicadas nas respectivas figuras. Para jogar, cada jogador gira o ponteiro de sua roda, pondo-o em movimento até parar aleatoriamente.
Tabela 1: Pagamentos ao jogador 𝐿
O número do setor no qual cada roda para é denominado o movimento do jogador. Assim, o jogador 𝐿 tem três movimentos possíveis enquanto o jogador 𝐶 tem quatro movimentos possíveis. Dependendo do movimento feito pelos jogadores, o jogador 𝐶 faz um pagamento em dinheiro ao jogador 𝐿 de acordo com a Tabela 1. Valores negativos significam que o jogador 𝐶 receberá do jogador 𝐿.
O jogo descrito acima é um exemplo de jogo de matriz de duas pessoas com soma zero. O termo “soma zero” significa que a cada vez que é jogado, o ganho positivo de um jogador é igual ao ganho negativo (perda) do outro jogador. Ou seja, a soma dos dois ganhos é zero.
Nesse jogo, os movimentos dos jogadores são lançados a sorte uma vez que são determinados aleatoriamente. Entretanto, se cada jogador puder decidir se ele quer ou não jogar, então cada um
L/C 1 2 3 4
1 $3 $5 -$2 -$1
2 -$2 $4 -$3 -$4
Braz. J. of Develop., Curitiba, v. 6, n. 7, p. 50828-50836, jul. 2020. ISSN 2525-8761
quererá saber quanto pode esperar ganhar ou perder a longo termo, caso decida jogar. Outra situação possível é se cada jogador tiver algum controle sobre seus movimentos. Por exemplo, se puder escolher a probabilidade de ocorrer cada movimento (para isso, basta alterar o tamanho dos setores de sua roda circular), então é interessante pensar se existe alguma forma de distribuir as possibilidades de movimentos de modo mais favorável. Cada escolha de possibilidades de movimentos de cada jogador é chamada de estratégia.
Neste trabalho discutimos a existência de uma melhor estratégia possível para cada jogador, chamada estratégia ótima. Na Seção 2 formalizamos a definição de jogo de matriz de duas pessoas com soma zero, e enunciamos no Teorema 1 o resultado da existência de estratégia ótima. Na Seção 3 abordamos os casos de jogo com Ponto de Sela. Na Seção 4 fazemos um estudo mais detalhado do jogo de matriz de duas pessoas com soma zero no caso particular em que cada jogador possui apenas dois movimentos. Para esses estudos precisamos de uma abordagem matricial (ver [1] e [2]), e algumas noções de probabilidade (ver [3]).
2 JOGOS DE MATRIZ DE DUAS PESSOAS COM SOMA ZERO
Em um jogo de matriz de duas pessoas (jogador 𝐿 e jogador 𝐶) com soma zero arbitrário, seja 𝑚 o número de movimentos possíveis do jogador 𝐿 e 𝑛 o número de movimentos possíveis do jogador 𝐶. Numa rodada desse jogo, cada jogador faz um de seus movimentos possíveis e, então, é feita uma compensação do jogador 𝐶 para o jogador 𝐿, dependendo dos movimentos. Sendo 𝑖 = 1,2, . . . , 𝑚 e 𝑗 = 1,2, . . . , 𝑛, definimos 𝑎𝑖𝑗 como a compensação do jogador 𝐶 para o jogador 𝐿, quando o jogador 𝐿 faz o movimento 𝑖 e o jogador 𝐶 faz o movimento 𝑗. As 𝑚𝑛 compensações podem ser arranjadas no formato de uma matriz 𝑚 × 𝑛
𝐴 = ( 𝑎11 𝑎12 ⋯ 𝑎1𝑛 𝑎21 𝑎22 ⋯ 𝑎2𝑛 ⋮ ⋮ ⋱ ⋮ 𝑎𝑚1 𝑎𝑚2 ⋯ 𝑎𝑚𝑛 ) (1)
chamada matriz de compensação ou matriz de pagamento do jogo. Cada jogador deve fazer seus movimentos de forma aleatória, onde cada movimento tem uma probabilidade de ser executado. Assim definimos 𝑝𝑖, como a probabilidade de que o jogador 𝐿 faça omovimento 𝑖, e 𝑞𝑗,
a probabilidade de que o jogador 𝐶 faça o movimento 𝑗. Obviamente devemos ter 𝑝1+ 𝑝2+ ⋯ + 𝑝𝑚 = 1 e 𝑞1+ 𝑞2+ ⋯ + 𝑞𝑚 = 1.
Braz. J. of Develop., Curitiba, v. 6, n. 7, p. 50828-50836, jul. 2020. ISSN 2525-8761
Com estas probabilidades, consideremos os vetores
𝐩 = [𝑝1 𝑝2 ⋯ 𝑝𝑚] e 𝐪 = [𝑞1 𝑞2 ⋯ 𝑞𝑛]𝑇. (2)
Denominamos que o vetor linha 𝐩 é a estratégia do jogador 𝐿 e o vetor coluna 𝐪, a estratégia do jogador 𝐶.
Num lance qualquer do jogo, se o jogador 𝐿 fizer o movimento 𝑖 e o jogador 𝐶 o movimento 𝑗, a compensação ao jogador 𝐿 é 𝑎𝑖𝑗 ∈ 𝐴. Multiplicando cada possível compensação pela correspondente probabilidade e somando sobre todas as compensações possíveis, obtemos a expressão 𝐸(𝒑, 𝒒) chamada compensação esperada para o jogador 𝐿:
𝐸(𝒑, 𝒒) = 𝑎11𝑝1𝑞1+ 𝑎12𝑝1𝑞2+ ⋯ + 𝑎1𝑛𝑝1𝑞𝑛+ 𝑎21𝑝2𝑞1+ ⋯ + 𝑎𝑚𝑛𝑝𝑚𝑞𝑛 = 𝒑𝐴𝒒. (3)
Segue que −𝐸(𝒑, 𝐪) é a compensação esperada para o jogador 𝐶.
Até este ponto, consideramos a situação em que cada jogador tem uma estratégia fixa. Pensemos agora na situação em que ambos os jogadores podem mudar suas estratégias alterando a área dos setores de suas respectivas rodas. Isso muda qualitativamente a natureza do problema, tornando o jogo mais complexo, e nos colocando firmemente na verdadeira teoria de jogos. Suporemos que nenhum dos dois jogadores conhece a estratégia que o outro irá escolher. Também assumimos que cada jogador vá fazer a melhor escolha possível de estratégia e que o outro jogador sabe disso. A existência de uma melhor estratégia possível para cada jogador, e portanto a possibilidade de sua escolha, é garantida pelo Teorema 9.5.1 de [4], chamado Teorema Fundamental dos Jogos de Duas Pessoas com Soma Zero, que enunciamos abaixo.
Teorema 1: Existem estratégias 𝒑∗ e 𝒒∗ tais que
𝐸(𝐩∗, 𝒒) ≥ 𝐸(𝒑∗, 𝒒∗) ≥ 𝐸(𝒑, 𝒒∗), (4)
onde 𝒑 e 𝒒 são estratégias arbitrárias.
Notemos que as estratégias 𝒑∗ e 𝒒∗ desse teorema são as melhores estratégias para os jogadores 𝐿 e 𝐶, respectivamente. De fato, se escrevemos 𝑣 = 𝐸(𝒑∗, 𝒒∗), a primeira desigualdade de (4) implica que 𝐸(𝒑∗, 𝒒) ≥ 𝑣, qualquer que seja a estratégia 𝒒. Ou seja, se o jogador 𝐿 adotar a
estratégia 𝒑∗, a compensação esperada para o jogador 𝐿 nunca será menor do que 𝑣, independente de qual estratégica o jogador 𝐶 escolher. Além disso, não é possível para o jogador 𝐿 alcançar uma compensação esperada maior do que 𝑣, pois se existisse alguma estratégia 𝒑∗∗ que o jogador 𝐿 possa
Braz. J. of Develop., Curitiba, v. 6, n. 7, p. 50828-50836, jul. 2020. ISSN 2525-8761
escolher de tal modo que 𝐸(𝒑∗∗, 𝒒) > 𝑣 para qualquer 𝒒, teríamos, em particular, 𝐸(𝒑∗∗, 𝒒∗) > 𝑣,
contradizendo a segunda desigualdade de (4).
Consequentemente o que jogador 𝐿 pode fazer é impedir que a sua compensação esperada seja menor que o valor 𝑣. De maneira análoga, o melhor que o jogador 𝐶 pode fazer é garantir que a sua compensação esperada tenha pelo menos o valor 𝑣, o que pode ser alcançado com a estratégia 𝒒∗.
Definimos assim
Definição 1: Se 𝐩∗ e 𝒒∗ satisfazem (4) quaisquer que sejam 𝒑 e 𝒒, então dizemos que • 𝒑∗ é uma estratégia ótima para o jogador 𝐿;
• 𝒒∗ é uma estratégia ótima para o jogador 𝐶;
• a compensação esperada 𝑣 = 𝐸(𝒑∗, 𝒒∗) é chamado o valor do jogo.
Observemos que as estratégias ótimas não são necessariamente únicas. No entanto, o valor do jogo 𝑣 apresentado no item (iii) da Definição 1 está bem definido, uma vez que vale o seguinte teorema.
Teorema 2: Se 𝒑∗,𝒒∗ e 𝒑∗∗,𝒒∗∗ são dois pares de estratégias ótimas, então 𝐸(𝒑∗, 𝒒∗) = 𝐸(𝒑∗∗, 𝒒∗∗).
Demonstração: Para demonstrar esse teorema, basta aplicar as desigualdades da expressão (4) diversas vezes:
𝐸(𝒑∗∗, 𝒒∗∗) ≥ 𝐸(𝒑∗, 𝒒∗∗) ≥ 𝐸(𝒑∗∗, 𝒒∗) ≥ 𝐸(𝒑∗∗, 𝒒∗) ≥ 𝐸(𝒑∗∗, 𝒒∗∗) ≥ 𝐸(𝒑∗∗, 𝒒∗∗).
Desta forma, todos os termos da escrita acima são iguais, mostrando que 𝐸(𝒑∗∗, 𝒒∗∗) = 𝐸(𝒑∗, 𝒒∗).
Para encontrar estratégias ótimas, devemos encontrar vetores 𝒑∗ e 𝒒∗ que satisfaçam a
equação (4). No caso geral, isso é feito utilizando técnicas de Programação Linear (ver demonstração do Teorema 9.5.1 de [4]). A seguir discutimos dois casos especiais nos quais as estratégias ótimas podem ser encontradas utilizando técnicas mais elementares, a saber quando a matriz de compensação possui um Ponto de Sela, e quando cada jogador tem somente dois movimentos possíveis.
3 PONTO DE SELA Definimos
Definição 2: Uma entrada 𝑎𝑟𝑠 de uma matriz de compensação 𝐴 é denominada ponto de sela se
Braz. J. of Develop., Curitiba, v. 6, n. 7, p. 50828-50836, jul. 2020. ISSN 2525-8761
• 𝑎𝑟𝑠 for a menor entrada em sua linha e
• 𝑎𝑟𝑠 for a maior entrada em sua coluna.
Dizemos que um jogo cuja matriz de compensação tem um ponto de sela é estritamente determinado.
É fácil verificar que no caso de um jogo cuja matriz compensação tenha um ponto de sela, digamos 𝑎𝑟𝑠, uma estratégia ótima para o jogador 𝐶 é fazer sempre o 𝑠-ésimo movimento e uma
estratégia ótima para o jogador 𝐿 é fazer sempre o 𝑟-ésimo movimento. De fato, basta verificar que
𝐸(𝐩∗, 𝒒∗) = 𝑎
𝑟𝑠, (5)
𝐸(𝐩∗, 𝒒∗) ≥ 𝑎
𝑟𝑠, para qualquer estratégia 𝒒, (6)
𝐸(𝐩∗, 𝒒∗) ≤ 𝑎𝑟𝑠, para qualquer estratégia 𝒑. (7)
Por exemplo, supondo que num jogo, o jogador 𝐿 tenha 3 movimentos, o jogador 𝐶 tenha 4 movimentos e que a matriz de compensação seja
𝐴 = (
10 −30 −20 5
0 25 −5 10
20 −5 −15 −20
).
É fácil ver que 𝑎23= −5 é um ponto de sela para a matriz 𝐴. Portanto a estratégia ótima para o jogador 𝐿 é sempre fazer o movimento 2, enquanto que para jogador 𝐶 é sempre o movimento 3.
4 JOGOS DE MATRIZES 𝟐 × 𝟐
Um outro caso em que podemos encontrar estratégias ótimas por meios elementares ocorre quando cada jogador tem somente dois movimentos possíveis. Nesse caso, a matriz de compensação é dada por 𝐴 = (𝑎𝑎11 𝑎12
21 𝑎22). Desta forma as estratégias ótimas são dadas pela versão do Teorema 2
para matrizes 2 × 2 apresentado a seguir. Notemos que para este caso mais simples, é possível determinar explicitamente quais as estratégias ótimas para os jogadores.
Teorema 3: Num jogo 2 × 2 que não seja estritamente determinado,
𝒑∗ = [𝑎 𝑎22−𝑎21 11+𝑎22−𝑎12−𝑎21 𝑎11−𝑎12 𝑎11+𝑎22−𝑎12−𝑎21] e 𝒒 ∗ = [ 𝑎22−𝑎12 𝑎11+𝑎22−𝑎12−𝑎21 𝑎11−𝑎21 𝑎11+𝑎22−𝑎12−𝑎21 ]
Braz. J. of Develop., Curitiba, v. 6, n. 7, p. 50828-50836, jul. 2020. ISSN 2525-8761
são estratégias ótimas para os jogadores 𝐿 e 𝐶, respectivamente. O valor do jogo é 𝑣 =
𝑎11𝑎22−𝑎12𝑎21
𝑎11+𝑎22−𝑎12−𝑎21.
Demonstração: Observemos que
𝐸(𝐩, 𝐪) = 𝑎11𝑝1𝑞1+ 𝑎12𝑝1𝑞2+ 𝑎21𝑝2𝑞1+ 𝑎22𝑝2𝑞2,
com 𝑝2 = 1 − 𝑝1 e 𝑞2 = 1 − 𝑞1. Substituindo na equação anterior e evidenciando 𝑞1 e 𝑝1, obtemos
𝐸(𝐩, 𝐪) = [(𝑎11+ 𝑎22− 𝑎12− 𝑎21) 𝑝1− (𝑎22− 𝑎21)]𝑞1+ (𝑎12− 𝑎22)𝑝1 + 𝑎22. (8)
Assim, se tomarmos
𝑝1∗ = 𝑎22−𝑎21
𝑎11+𝑎22−𝑎12−𝑎21, (9)
o coeficiente do termo 𝑞1 na expressão (8) se torna nulo, e neste caso
𝐸(𝐩∗, 𝐪) = 𝑎11𝑎22−𝑎12𝑎21
𝑎11+𝑎22−𝑎12−𝑎21. (10)
Observmos que a equação (10) é independente de 𝐪, isto é, se o jogador 𝐿 escolher a estratégia definida por (9), o jogador 𝐶 não conseguirá modificar a compensação esperada por uma variação de sua estratégia, indicando que a escolha dada em (9) é uma estratégia ótima para o jogador 𝐿.
De modo análogo, verificamos que a escolha
𝑞1∗ = 𝑎22−𝑎12
𝑎11+𝑎22−𝑎12−𝑎21 (11)
determina uma estratégia ótima para o jogador 𝐶.
Notemos que por (11), temos
𝐸(𝐩, 𝐪∗) = 𝑎11𝑎22−𝑎12𝑎21
𝑎11+𝑎22−𝑎12−𝑎21, (12)
Braz. J. of Develop., Curitiba, v. 6, n. 7, p. 50828-50836, jul. 2020. ISSN 2525-8761
𝐸(𝒑, 𝒒∗) = 𝐸(𝒑∗, 𝒒∗) = 𝐸(𝒑∗, 𝒒), (13)
sejam quais forem as estratégias 𝒑 e 𝒒. Essa conclusão é uma particularidade do caso em que a matriz de compensação é 𝟐 × 𝟐, uma vez que a expressão (13) representa uma condição mais forte que a tese do Teorema 1 na forma mais geral.
A expressção (13) nos diz que cada um dos jogadores, escolhendo sua estratégia ótima, pode forçar o valor do jogo a ser a compensação esperada, independente de qual estratégia for escolhida pelo outro jogador. No entanto, isso não é válido nos jogos em que cada jogador tenha mais de dois movimentos.
Ainda é possível demonstrar que as entradas nos vetores 𝒑∗ e 𝒒∗ são números estritamente entre 0 e 1.
5 EXEMPLO DE JOGO UMA MATRIZ 𝟐 × 𝟐
Consideremos dois defensivos agrícolas para uma certa família de insetos, com duas variantes, que causam prejuizos em plantações de milho. Suponhamos desconhecida a proporção na qual as duas variantes ocorrem na população do inseto. A eficácia do defensivo 1 é de 75% a variante 1 e de 80% contra a variante 2. A eficácia do defensivo 2 é de 70% contra a variante 1 e de 95% contra a variante 2. O objetivo é investigar qual a melhor maneira de aplicar os defensivos em uma plantação a ser adotada por um determinado produtor agrícola.
Podemos considerar a situação como um jogo de duas pessoas no qual o jogador 𝐿 (o produtor) deseja fazer a maior compensação (a fração da plantação reistente ao inseto) possível e o jogador 𝐶 (o inseto) deseja fazer a menor compensação possível. A matriz de compensação para este caso é
𝐴 = [0,90 0,75 0,65 0,95],
onde cada linha representa a vacina e cada coluna o sorotipo do vírus.Essa matriz não possui pontos de sela, de modo que as estratégias ótimas são dadas pelo Teorema 3, obtendo 𝒑∗= [2
3 1 3] e 𝒒 ∗= [4 9 5 9] 𝑇
. Além disso, o valor do jogo é 𝑣 = 0,8166 …
Assim a estratégia ótima para o produtor é aplicar em 2
3 da plantação o defensivo 1 e 1 3 da
plantação com o defensivo 2. Isso vai garantir cerca de 81,7% da plantação resistirá a um ataque dos insetos, independente da distribuição das duas variantes de insetos.
Braz. J. of Develop., Curitiba, v. 6, n. 7, p. 50828-50836, jul. 2020. ISSN 2525-8761
Observe que a existência de 4
9 da variante 1 e de 5
9 da variante 2 do inseto resultará nos mesmos
81,7% da plantação resistente, independente da maneira como o produtor agrícola aplique os defensivos.
REFERÊNCIAS [1] Boldrini , José Luiz, Álgebra Linear, Harbra, 1986.
[2] Anton, Howard; Rorres, Chris, Álgebra Linear com Aplicacoes, Bookman, 2012. [3] Morettin, Pedro Alberto; Bussab, Wilton de Oliveira. Estatística básica, Saraiva, 2004.
[4] Thie, Paul R.; Keough, Gerard E., An Introduction to Linear Programming and Game Theory, New York: J. Wiley , 2008.