Jogos diferenciais estoc´ asticos:

(1)

Universidade Federal da Para´ıba

Centro de Ciˆ encias Exatas e da Natureza Programa de P´ os–Gradua¸ c˜ ao em Matem´ atica

Mestrado em Matem´ atica

Jogos diferenciais estoc´ asticos:

controle e parada ´ otimos

Alan Teixeira Nic´ acio de Messias

Jo˜ ao Pessoa – PB

Agosto de 2018

(2)

Universidade Federal da Para´ıba Centro de Ciˆ encias Exatas e da Natureza Programa de P´ os–Gradua¸ c˜ ao em Matem´ atica

Mestrado em Matem´ atica

Jogos diferenciais estoc´ asticos:

controle e parada ´ otimos

por

Alan Teixeira Nic´ acio de Messias

sob a orienta¸c˜ao do

Prof. Dr. Alberto Masayoshi Faria Ohashi

Jo˜ ao Pessoa – PB

Agosto de 2018

(3)

(4)

(5)

Voltei-me, e vi debaixo do sol que n˜ ao ´ e dos ligeiros a carreira, nem dos fortes a batalha, nem tampouco dos s´ abios o p˜ ao, nem tam- pouco dos prudentes as ri- quezas, nem tampouco dos entendidos o favor, mas que o tempo e a oportunidade ocorrem a todos.

Eclesiastes 9:11

(6)

Agradecimentos

Agrade¸co em primeiro lugar a meu Deus, pela finaliza¸cão bem sucedida de mais uma etapa de minha vida. Agrade¸co muito a meu orientador, pois me orientou não apenas nessa disserta¸cão mas na vida profissional e carreira acadêmica; agrade¸co também pelas conversas, nos fins das reunões, sobre economia brasileira, situa¸cão fiscal do estado brasileiro e a nova crise financeira mundial em curso (suspeito que estes temas tenham me feito parecer meio paranóico não só à meu orientador mas ao departamento em geral).

E como menssagem a todos aqueles que querem ser pesquisadores, que querem manter a chama do desejo pela pesquisa acesa eu digo: sempre mantenham em suas mentes perguntas as quais vocˆes queiram realmente obter a resposta.

(7)

Resumo

Neste trabalho analisamos um jogo diferencial estocástico de soma-zero nõ Mar- koviano, através da teoria dos martingales. Há dois jogadores, chamados controller e stopper, que controlam o jogo através de controles estocásticos, chamadas estratégias e tempos de parada respectivamente. Nosso objetivo é provar: que para cada instante de tempo o jogo tem um valor e que o jogo tem um ponto de cela. Este trabalho é baseado no artigo de Ioannis Karatzas e Ingrid-Mona Zamfirescu [1].

Palavras-chave: ponto de cela, processo de valor do jogo, martingales.

(8)

Abstract

In this work, we analyze a zero-sum non-Markovian stochastic differential game via martingale methods. The stochastic game consists of two players, namely the controller and stopper which keep track the game via stochastic controls summarized by strategies and stopping times respectively. Our main goal is to prove the game has a value and it admits a saddle point. Our work is based on Karatzas & Ingrid-Mona Zamfirescu’s paper [1].

Keywords: saddle point, game’s value process, martingales.

(9)

Conte´ udo

Introdu¸c˜ao 1

1 O que estudamos 3

1.1 Jogo Diferencial Estocástico . . . 3 1.2 O Problema de Otimiza¸cão e a fun¸cão Hamiltoniana . . . 5 1.3 Exemplo de aplica¸cão . . . 6

2 O jogo 8

2.1 O modelo (o “tabuleiro”, as “pe¸cas” e as “regras”) . . . 8 2.2 Como funciona o jogo (como jogar) . . . 10 2.3 Dividir e conquistar . . . 11

3 O valor do jogo 16

3.1 Vamos jogar . . . 16

4 Encontrando os pontos de cela 27

4.1 Caracteriza¸c˜ao . . . 27 4.2 Otimizando o controle . . . 32 4.3 O “equil´ıbrio” do jogo . . . 34

A Resultados Usados 40

Referˆencias Bibliogr´aficas 45

(10)

Nota¸ c˜ oes

A seguir, listamos algumas nota¸c˜oes utilizadas neste trabalho.

•Dadot∈Rpara cadaω ∈Ω,lim inf

s↓t J(s, τ) = lim inf

s∈Q,s≥tJ(s, τ). AquiJ(s, τ) ´e como na equa¸c˜ao 2.11.

• a∨b=max{a, b};

• a∧b=min{a, b};

• X =↓_n X_n q.c. significa X ≤X_n q.c. e lim

n→∞X_n=X q.c.;

• SejaD um espa¸co qualquer, B(D) ´e a sigma-´algebra de Borel de D.

(11)

Introdu¸ c˜ ao

A pesquisa moderna em teoria dos jogos come¸ca com o artigo de Von Newman de 1928 sobre solu¸cões de jogos de soma zero [17]. O trabalho de Newman com jogos de soma zero culminaria no livro Theory of Games and Economic Behavior [18], escrito em 1944 em parceria com o economista Oskar Morgenstern. Até o fim dos anos 40 os avan¸cos na teoria haviam focado apenas em jogos de soma zero com dois jogadores, mas em 1950 John Forbes Nash demonstrou em sua tese de doutorado [19] que qualquer jogo, não necessariamente de soma zero, com uma quantidade finita qualquer de jogadores e com uma matriz de payoffs tem um equil´ıbrio de Nash. Porém, até esse momento os jogos estudados tinham um número finito de estratégias para cada jogador, além de que todo o ambiente era discreto: estratégias,payoffs, o funcionamento do jogo, etc.

As pesquisas em jogos diferenciais têm in´ıcio com o trabalho de Rufus Isaacs enquanto trabalhava para RAND Corporation. Esses primeiros estudos apareceram em memorandos da RAND em 1951 [6]. Os primeiros problemas estudados foram problemas do tipo “perseguidor-evasor”, o interesse na época era a aplica¸cão no desen- volvimento de sistemas e métodos de defesa de m´ısseis. Também nesse momento a pesquisa em teoria do controle ótimo estocático estava surgindo com os trabalhos Lev Pontryagin [8] e Richard Bellman [9]

Nos anos 60 come¸cam as pesquisas em teoria dos jogos diferenciais estocásticos sendo um dos primeiros trabalhos feito por Yu-Chi Ho em 1966 [7]. O trabalho analisa estratégias e manobras de evasão de aeronaves e técnicas de guiamento de m´ısseis. A aplicabilidade dos jogos diferenciais estocásticos e da análise de controle ótimo estocás- tico alcan¸cou diversas áreas de pesquisa sendo a área deQuantitative Finance uma das que recebeu mais contribui¸cões. Um dos primeiros problemas resolvidos utilizando-se destas teorias foi o problema de otimiza¸cão de portifóleo de Merton em 1969 [20].

Neste trabalho fazemos uma profunda e detalhada análise do artigo [1]. Neste o au- tor constroi um jogo diferencial estocástico de soma zero não-Markoviano, repesentado por seu estado (X_t)_0≤t≤T, a partir de uma equa¸cão diferencial estocástica utilisando-se do teorema de Girsanov A.7 no apêndice. Neste jogo há dois jogadores, “controller”

(12)

estratégias e regras de parada. Da´ı seguimos para dois problemas formulados sobre o processo de valor do jogoV(t), cujas as solu¸cões são os objetivos do artigo.

Os problemas s˜ao provar que V(t) existe para todo t e que o jogo tem um ponto de cela.

O texto est´a organizado da seguinte maneira:

• Cap´ıtulo 1: ´E apresentado o tipo de problema tratado na teoria dos jogos diferenciais estoc´asticos;

• Cap´ıtulo 2: ´E apresentado o modelo de jogo sobre o qual desenvolvemos este trabalho;

• Cap´ıtulo 3: ´E feita a an´alise do processo de valor do jogo;

• Cap´ıtulo 4: ´E construido um ponto de cela para o jogo;

• Apˆendice (Resultados Usados): Uma lista de resultados utilizados ao longo do trabalho.

Como pré-requisitos para este trabalho recomendamos que o leitor esteja familiari- zado com a teoria das probabilidades e que conhe¸ca um pouco da teoria dos martingales e Cálculo de Itô; como referências indicamos [4], [22] e [5].

(13)

Cap´ıtulo 1

O que estudamos

Na teoria dos jogos diferenciais não existem defini¸cões e resultados gerais para todos os modelos de jogos. Há, no máximo, alguns conceitos em comum aos modelos. Por isto, neste cap´ıtulo não temos a inten¸cão de trazer uma introdu¸cão resumida da teoria, nem apresentar resultados de conteúdos preliminares, mas apenas fornercer ao leitor uma pequena visão do que é feito na teoria: análise de modelos de jogos. Devido a isto não escolhemos para o t´ıtulo do cap´ıtulo termos usuais como “Preliminares”.

Vamos descrever o modelo de jogo apresentado nos cap´ıtulos 3 e 5 de [2], escolhemos este modelo por ser simples e por apresentar v´arios dos conceitos em comum com outros modelos de jogos. Para o leitor interessado em conhecer outros tipos de jogos diferenciais recomendamos [3].

1.1 Jogo Diferencial Estoc´ astico

Considere um movimento Browniano m−dimensional W = (W_t)0≤t≤T, sobre um espa¸co de medida (Ω,F,P), equipado com a filtragemF= (F_t)t≤t≤T gerada pelo movimento Browniano. Tome A um espa¸co métrico compacto e A sua σ-álgebra de Borel, chamaremos A o conjunto de a¸cões do jogador.

Considere b : [0, T]×Ω×Rⁿ ×A → Rⁿ e σ : [0, T]×Ω×Rⁿ×A → Rⁿ ×R^m sastifazendo as seguintes propriedades:

1. b eσ sãoP ×B(R^m)× A−mensuráveis, onde P é a σ-álgebra dos subconjuntos de [0, T]×Ω F-progressivamente mensuráveis,

2. ∃ C > 0 tal que

||(b, σ)(t, ω, x, α)−(b, σ)(t, ω, x⁰, α)|| ≤ C||x−x⁰||,

(14)

1. O que estudamos

3. Para cada x ∈ Rⁿ e α ∈ A, E[RT

0 ||b(t, x, α)||²ds] < ∞ e E[RT

0 ||σ(t, x, α)||²ds]<∞.

O processoσ ´e chamado volatilidade e b“drift”, nas rela¸c˜oes acima consideramosσ um vetor.

As estrat´egias admiss´ıveis s˜ao processos da formaα= (α)0≤t≤T que tomam valores em A e satisfazem:

1. α´e P-mensur´avel, 2. E[RT

0 ||b(t,0, αt)||²dt+||σ(t,0, αt)||²dt]<∞.

O conjunto de estratégias admiss´ıveis será denotado porA. Chamaremos de estado do jogo com apenas um jogador ao processo de Itô X = (X_t)0≤t≤T, com X_t ∈ Rⁿ, satisfazendo

( dXt=b(t, Xt, αt)dt+σ(t, Xt, αt)dWt,

X₀ =x₀ ∈R^d. (1.1)

Esta equa¸cão diferencial estocástica é chamada dinâmica do estado do jogo. Por A.1 no apêndice, para cada estratégia admiss´ıvelαexiste um único processoX= (Xt)0≤t≤T

que satisfaz (1.1).

Suponha agora que há k jogadores. Os processos da forma α = (α¹, ...,α^k), onde αⁱ é uma estratégia admiss´ıvel para o jogador i, são chamados perfis de estratégias admiss´ıveis. Neste caso consideramos A = A¹ ×...×A^k e A = A¹ ×...× A^k. Dado o perfil de estratégia α= (α¹, ...,α^k), quando escrevemos (α⁻ⁱ,βⁱ) estamos indicando o mesmo perfil de estratégia mas com a i-ésima estratégia admiss´ıvel trocada pela estratégia admiss´ıvel βⁱ. Analogamente para a k-upla de a¸cões (α¹_t, ..., α^k_t).

Para cada jogador itemos um movimento Browniano Wⁱ = (W_tⁱ)0≤t≤∞ com W_tⁱ ∈ R^mⁱ, um drift bⁱ : [0, T]×R^m ×Aⁱ →R^mⁱ e uma volatilidade σⁱ : [0, T]×R^m×Aⁱ → R^m²ⁱ, m = m₁ +...+m_k. Além disso o estado do jogo é dada pelo processo de Itô X = (X¹, ...,X^k), com X0 ∈ R^m, e X0 = (x¹₀, ..., x^k₀), tal que dX_tⁱ = bⁱ(t, Xt, αⁱ_t)ds+ σⁱ(t, X_t, αⁱ_t)dW_tⁱ é a dinâmica do estado do jogo para o jogador i.

Utilizando a nota¸c˜ao de matrizes podemos escrever

X_t=





 X_t¹

... X_t^k







,W_t=





 W_t¹

... W_t^k







, b(t, x, α) =







b¹(t, x, α) ... b^k(t, x, α)





 e

σ(t, x, α) =







σ¹(t, x, α) 0 . . . 0 0 σ²(t, x, α) . . . 0

. .. . .. . .. . ..

0 0 . . . σ^k(t, x, α)







(15)

1. O que estudamos

sendo a ´ultima matriz uma matriz de blocos. Da´ı,

dXt=b(t, Xt, α)dt+σ(t, Xt, α)dWt.

1.2 O Problema de Otimiza¸ c˜ ao e a fun¸ c˜ ao Hamil- toniana

Sejamg : Ω×Rⁿ→Rlimitada eF_T×B(Rⁿ)−mensurável ef : [0, T]×Ω×Rⁿ×A→ Ruma fun¸cão que satisfaz as mesmas condi¸cões dodrift b. Chamaremosg(X_T) de custo terminal ef de custo corrente.

Para cada α ∈ A, definimos o custo funcional para um jogo de um ´unico jogador como sendo

J(α) =E Z T

0

f(t, X_t, α_t)dt+g(X_T)

. (1.2)

O objetivo do jogador é minimizar J. Em um jogo com um único jogador, o problema de minimizar J é um problema de controle ótimo estocástico. No caso de k jogadores temos para cada jogador i = 1, ..., k um custo terminal gⁱ(XT), um custo correntefⁱ e um custo funcional Jⁱ(α) =E

hRT

0 fⁱ(t, ω, X_t, α_t)dt+gⁱ(X_T)i .

Defini¸cão 1.1. Um jogo com dois jogadores é dito ser de soma zero seJ¹(α) = −J²(α) para todo perfil de estratégia α ∈ A. Neste caso escrevemos J := J¹ como o custo funcional do jogo.

Defini¸cão 1.2. Um perfil de estratégia α^∗ = (α^∗,1, ...,α^∗,n) é dito ser um equil´ıbrio de Nash para o jogo se para todoi e para todo αⁱ ∈Aⁱ Jⁱ(α^∗)≤Jⁱ(α^∗,−i,αⁱ).

Ou seja, um perfil de estratégia é um equil´ıbrio de Nash se nenhum jogador se beneficia mudando de estratégia individualmente.

Defini¸cão 1.3. Dados a volatilidade σ e o drift b do estado (X_t)0≤t≤T de um jogo, podemos definir um tipo de fun¸cão, chamada fun¸cão Hamiltoniana, da seguinte maneira H: [0, T]×Ω×Rⁿ×Rⁿ×R^n×m×A→R dada porH(t, ω, x, y, z, α) = σ(t, ω, x, α)• z+hb(t, ω, x, α), yi+f(t, ω, α).

Onde f é o custo corrente, σ e z são matrizes n ×m, a opera¸cão • é dado por tr[σ(t, ω, x, α)^>·z] e a opera¸cão em h,i é o produto interno euclidiano de Rⁿ.

No caso particular em que apenas odrift depende das a¸c˜oes do jogador a Hamilto- niana ´e dada por H(t, ω, x, y, α) =b(t, ω, x, α)y+f(t, ω, x, α)

(16)

1. O que estudamos

Defini¸c˜ao 1.4. Dado o custo funcionalJ de um jogo de dois jogadores de soma zero, definimos o valor superior e o valor inferior do jogo como sendo respectivamnete.

V = inf

α∈A¹

sup

β∈A²

J(α,β) V = sup

β∈A² α∈infA¹

J(α,β).

1.3 Exemplo de aplica¸ c˜ ao

Quantitative Finance é uma área de conhecimento onde podemos encontrar uma grande quantidade de problemas cujas solu¸cões provem da teoria de controle estocás- tico e da teoria dos jogos. São vários os tipos de problemas: minimiza¸cão de riscos, maximiza¸cão de utilidades, precifica¸cão, constru¸cão de hedge, etc. Apresentaremos, de modo resumido e sem solu¸cão, um problema clássico.

O problema de portif´olio de Mertron (Exemplo 3.2 do cap´ıtulo 2 de [10])

Este foi um dos primeiros problemas de finan¸cas solucionado com o emprego de controle estoc´astico. Ele foi apresentado e solucionado em 1969 pelo economista Robert C.

Merton. O problema trata da otimiza¸c˜ao de investimentos emassets.

stock: qualquer posse com valor com a qual o propiet´ario espera obter algum bene- f´ıcio, por exemplo a¸c˜oes de empresas.

Suponha que em um mercado há n + 1 assets sendo negociadas no intervalo de tempo [0, T], as assets 1, ..., n são chamadas stocks, o pre¸co do i-ésimo stock é dado pela equa¸cão diferencial estocástica seguinte:

( dPi(t) = Pi(t){bi(t)dt+hσi(t), W(t)i},

P_i(t) = P_i(0) >0. t∈[0, T]

Ondeb_i : Ω×[0, T]→R,b_i(t)>0, é chamada taxa de aprecia¸cão eσ_i : Ω×[0, T]→ R^mé a volatilidade dostock eW : Ω×[0, T]→R^m é um movimento browniano. Todos estes processos estão definidos em um espa¸co de probabilidade (Ω,F,(F_s)0≤s≤T) e são adaptados a (F_s)0≤s≤T. A presen¸ca do movimento browniano simboliza a aleatoriedade dos pre¸cos dessasassets e por isso elas são consideradas arriscadas.

A 0-ésimaasset é chamadabond, ela é a única que não traz risco e seu pre¸co é dada pela seguinte equa¸cão diferencial estocástica:

( dP₀(t) = r(t)P₀(t)dt,

P0(0) = x0 >0 q.c. t∈[0, T].

A cada instantet∈[0, T] um investidor tem uma riquezaX(t) distribuida nasassets e, para cada i, uma quantidade Ni(t) da asset i. Assim X(t) =

n

X

i=0

Ni(t)Pi(t) e sua

(17)

1. O que estudamos

riqueza investida na asset i é dada por u_i(t) =N_i(t)P_i(t). O portifólio do investidor é o processo vetorial u(t) = (u₀(t), ..., u_n(t)). Suponha que existe uma taxa de retirada, c(t), de recursos desses investimentos para consumo.

Temos ent˜ao o seguinte problema, o investidor deve escolher um portif´olio u(t) e uma taxa de retirada c(t) de modo que X(t)>0 e que

J(u, c) = E Z T

0

exp^−γtφ(c(t))dt+ exp^−γTh(X(T))

.

seja máxima. Aquiφ(c(t)) é a utilidade instatânea pelo consumo c(t) e exp^−γTh(x, T)

´e a utilidade descontada.

(18)

Cap´ıtulo 2 O jogo

2.1 O modelo (o “tabuleiro”, as “pe¸ cas” e as “re- gras”)

Considere Ω = (C[0, T],Rⁿ), o espa¸co das fun¸cões cont´ınuas de [0, T] em Rⁿ e a medida de probabilidade de Wiener P. Tome então sobre o espa¸co (Ω,P) o movimento browniano padrão W = (W_t)0≤t≤T dado por W(t, ω) = ω(t) e a filtragem (F_t^W)0≤t≤T gerada pelo movimento browniano. Escrevemos F = (F_t)0≤t≤T para a filtragem P−aumentada de (F_t^W)0≤t≤T e ||ω||^∗_t:= sup

0≤s≤t

|ω(s)|, ω ∈ Ω,0≤ t ≤ T. A.2 no apêndice garante queWainda é movimento browniano sobreF. Aqui,P é aσ−álgebra de [0, T]×Ω dos subconjuntos previz´ıveis.

S será o conjunto de aplica¸cões mensuráveis da forma τ : Ω → [0, T] tais que {τ ≤ t} ∈ F_t,0 ≤t ≤T, chamadas regras de parada. Perceba que se t ∈ [0, T] então t ∈ S. Dadas duas regras de parada ν, τ tais que ν ≤ τ q.c. denotamos por S_ν,τ o conjunto de regras de parada ρtais que ν ≤ρ≤τ q.c.

A volatilidade será uma aplica¸cão σ : [0, T]×Ω → M(Rⁿ,Rⁿ), onde M(Rⁿ,Rⁿ) é o espa¸co das matrizes n ×n, P−mensurável e tal que para todo (t, ω) ∈ [0, T]×Ω σ(t, ω) seja não-singular. Além disso vamos exigir o seguinte:

• ∃C > 0 tal que

|σ_i,j(t, ω)−σ_i,j(t, ω)| ≤ C||ω−ω⁰||^∗_t,

∀t ∈[0, T]; ∀ω, ω⁰ ∈Ω

• ∀(t, ω)∈[0, T]×Ω,||(σ)⁻¹(t, ω)|| ≤ C.

Aqui (σ)⁻¹(t, ω) é a inversa de (σ)(t, ω) (aqui tomamos a matriz como um vetor e a norma euclideana). Sob estas hipóteses e por A.3 no apêndice existe uma única

(19)

2. O jogo

solu¸cão, X= (X_t)0≤t≤T, para a seguinte equa¸cão diferencial estocástica, ( dX_t=σ(t, X)dW_t,

X₀ =x₀ ∈Rⁿ

; 0≤t≤T. (2.1)

Além disso, a filtragem P−aumentada natural gerada porX coincide com F. O conjunto de estratégias admiss´ıveis, as quais chamaremos apenas de estratégias,

é A e as estratégias são processos do tipo α : [0, T]×Ω → A. Onde A é um espa¸co métrico separável e união enumerável de subconjuntos não vazios compactos sobre o qual está definida aσ−álgebraA de Borel.

Assumimos que o drift b : [0, T]×Ω×A → Rⁿ ´e P × A−mensur´avel e satisfaz o seguinte:

• ∃K >0 tal que ∀(t, ω, α)∈[0, T]×Ω×A,||b(t, ω, x, α)|| ≤ K(1 +||ω||^∗_t);

• Para cada α∈A, (t, ω)→b(t, ω, α) ´e previz´ıvel.

Pelas hip´oteses assumidas e por A.4 no apˆendice concluimos que, para cadaα∈A, o processo exponencial

Λ^α_t = exp Z t

0

hσ⁻¹(s, X)b(s, X, α_t), dW_si −1 2

Z t 0

||σ⁻¹(s, X)b(s, X, α_s)||²ds

; 0≤t≤T.

(2.2)

´e um martingale. Al´em disso podemos definir uma medida de probabilidade P^α como:

P^α(B) := E[Λ^α_T ·1_B], B ∈ F_T. Portanto, pelo teorema de Girsanov (A.7 no apˆendice),

W_t^α =W_t+ Z t

0

σ⁻¹(s, X)b(s, X, α_s) ; 0≤t≤T. (2.3)

´e um movimento Browniano na medidaP^α adaptado `a F. Portanto, por (2.1) e (2.3) chegamos a

X_t =x₀+ Z t

0

b(s, X, α_s)ds+ Z t

0

σ⁻¹(s, X)dW_s^α 0≤t≤T. (2.4) Este será o nosso processo de estado do jogo. Note que as estratégias não interferem na volatilidade.

(20)

2. O jogo

2.2 Como funciona o jogo (como jogar)

Vamos exigir que o custo corrente f : [0, T]×Ω×A → R satisfa¸ca as mesmas propriedades do drift b exceto que |f(t, ω, α)|≤ K. O custo terminal ser´a dado por g :Rⁿ →R limitada e cont´ınua.

O jogo funciona da seguinte maneira: o jogador “controller” escolhe uma estrat´egia admiss´ıvelα e da´ı o jogador “stopper” escolhe uma regra de parada τ, ent˜ao o stopper recebe docontroller uma quantia Y^α(τ)≡Y^α(0, τ), onde

Y^α(t, τ) :=g(X_τ) + Z τ

t

f(s, X, α_s)ds; τ ∈ S_t,T. (2.5) Obs.: quando escrevemos t estamos nos referindo à uma regra de parada, a qual não é necessariamente determin´ıstica. Por outro lado, quando escrevemos t estamos nos referindo à um ponto do intervalo [0, T].

Defini¸c˜ao 2.1. O valor superior e o valor inferior do jogo s˜ao, respectivamente:

V := inf

α∈A

sup

τ∈S E^α[Y^α(τ)]. (2.6)

V := sup

τ∈S

α∈infAE^α[Y^α(τ)]. (2.7) Perceba que, por g, f serem limitadas os valores são finitos. Podemos checar facilmente, usando redu¸cão ao absurdo por exemplo, que V ≥V. Se V =V então dizemos que o jogo tem um valor o qual denotamos porV =V =V.

O objetivo do controller ´e minimizar E^α[Y^α(τ)] enquanto que o stopper quer ma- ximizar. Podemos pensar as regras de parada como sendo um tipo de estrat´egia, definirmos J¹(α, τ) = J(α, τ) = E^α[Y^α(τ)], J²(α, τ) = −J(α, τ) e definirmos J¹ e J² como sendo os custos funcionais do controller e do stopper respectivamente. Dessa forma temos um jogo com dois jogadores e de soma zero semelhante ao apresentado no cap´ıtulo 1.

Defini¸c˜ao 2.2. Um par (α^∗, τ⁰) ´e dito ser ponto de cela seE^α

∗[Y^α^∗(τ)]≤E^α

∗[Y^α^∗(τ⁰)]≤ E^α[Y^α(τ⁰)] ∀ (α, τ)∈A× S.

Note que os pontos de cela funcionam como equil´ıbrios de Nash, pois se (α^∗, τ⁰) ´e ponto de cela ent˜ao J¹(α^∗, τ⁰) = E^α

∗[Y^α^∗(τ⁰)]≤E^α[Y^α(τ⁰)] = J¹(α, τ⁰) e J²(α^∗, τ⁰) = E^α

∗[Y^α^∗(τ⁰)]≤E^α

∗[Y^α^∗(τ)] =J²(α^∗, τ)

Lema 2.1. Se existe um ponto de cela ent˜ao o jogo tem um valor.

(21)

2. O jogo

Demonstra¸c˜ao. Seja (α^∗, τ⁰) ponto de cela, se por absurdo tiv´essemos inf

α∈A

sup

τ∈SE^α[Y^α(τ)]>

sup

τ∈S

α∈infAE^α[Y^α(τ)], ent˜ao para alguma β ∈ A inf

α∈A

sup

τ∈S E^α[Y^α(τ)] > E^β[Y^β(τ⁰)]. Da´ı, para algumτ ∈ S E^α[Y^α(τ)]>E^α[Y^α(τ⁰)], uma contradi¸c˜ao.

No último cap´ıtulo mostraremos que, com algumas poucas hipóteses a mais sobre o drift e o custo funcional, o jogo tem um ponto de cela. Por A.5 no apêndice temos E^α[Y^α(t, τ)|F_t] = E[Y^α(t, τ)Λ^α(t)|F_t]

E[Λ^α(t)|F_t] . Ou seja, podemos escrever cada esperan¸ca condicional sobre uma ´unica medida de probabilidade (P), portanto faz sentido definirmos o seguinte.

Defini¸c˜ao 2.3. O processo de valor inferior e o processo de valor superior s˜ao definidos, respectivimente, por:

V(t) = ess sup

τ∈St,T

ess inf

α∈A E^α[Y^α(t, τ)|F_t]. (2.8) V(t) = ess inf

α∈A

ess sup

τ∈St,T

E^α[Y^α(t, τ)|F_t]. (2.9) ComoF₀^W ={∅,Ω}e como a diferen¸ca entreF₀^W eF₀ s˜ao subconjuntos de Ω de medida de Wiener nula ent˜ao, quase certamente, E^α[Y^α(0, τ)|F0] = E^α[Y^α(0, τ)|F₀^W] = E^α[Y^α(0, τ)]. Portanto, quase certamente,V(0) = V eV(0) =V(0).

Comog(X_t) éF_t-mensurável entãog(X_t) =E^α[g(X_t)|F_t] q.c. para toda a estraté- gia α∈A. Temos também queg(X_t) =g(X_t) +Rt

t f(s, X,α_s)ds para toda estrat´egia α, logog(X_t) = E^α[g(X_t)+Rt

t f(s, X,α_s)ds|F_t] =E^α[Y^α|F_t] q.c. para toda estrat´egia α ∈ A. Portanto g(Xt) = ess inf

α∈A E^α[Y^α(t,t)|F_t] q.c. e tamb´em g(Xt) ≤ V(t) q.c..

Al´em disso, podemos facilmente verificar que V(t)≤V(t) q.c..

2.3 Dividir e conquistar

Como os pontos de cela são pontos de otimiza¸cão de um processo que envolve a escolha de estratégias e tempos de parada, utilisaremos como metodologia para encon- trarmos um ponto de cela algo semelhante aquilo que na heur´ıstica é chamada divide and conquer. Vamos come¸car a tratar o problema a partir de duas perspectivas di- ferentes: controle ótimo estocástico e tempo de parada ótimo. Ao fim do trabalho o leitor verá que o problema original será resumido a um problema de controle ótimo.

Defini¸c˜ao 2.4. Definimos um intervalo estoc´astico como sendo

(22)

2. O jogo

Lembre que sobre o espa¸co [0, T]×Ω estamos considerando aσ-álgebra dos conjuntos P−mensuráveis. Estamos também considerando como medida de probabilidade neste espa¸co a medida produto L×P, onde Lé a medida de probabilidade de Lebesgue do intervalo [0, T].

Dada uma regra de parada t ∈ S definimos para cada τ ∈ S_t,T o custo m´ınimo condicional esperado como sendo

J(t, τ) = ess inf

α∈A E^α[Y^α(t, τ)|F_t]. (2.11) Note que V(t) = ess sup

τ∈St,T

J(t, τ).

A Proposi¸cão a seguir é um resultado clássico, por isso não vamos prová-la aqui.

Por´em, logo a seguir o enunciado faremos uma pequena considera¸c˜ao sobre ela. O leitor interessado pode encontrar a prova original, em [14].

Proposi¸c˜ao 2.2. Para cada α∈Ao processo Ψ(t, τ) := J(t, τ) +

Z t 0

f(s, X, α_s)ds. (2.12)

´e umP^α−submartingale

Dadot∈[0, T] sejaA[t,T]a restri¸cão deAao intervalo [t, T] (estratégias admiss´ıveis restritas ao intervalo [t, T]). A aplica¸cão da proposi¸cão acima depende de que para cadat ∈[0, T] a fam´ılia {E^α[Y^α(t, τ)|F_t],α∈A[t,T]} tenha a seguinte propriedade:

Defini¸c˜ao 2.5. Uma fam´ılia (X_i)i∈I tem a propriedade lattice se para todo par de

´ındicesi, j ∈I existe um ´ındice k ∈I tal que X_k ≤X_i∧X_j q.c.

Vamos ent˜ao provar a propriedade lattice.

Proposi¸c˜ao 2.3. Para cada t ∈ [0, T] a fam´ılia {E^α[Y^α(t, τ)|F_t],α ∈ A^[t,T]} tem a propriedadelattice.

Demonstra¸c˜ao. Sejamα,β ∈A[t,T]. Tome ent˜aoB ={ω; E^α[Y^α(t, τ)|F_t]≤E^β[Y^β(t, τ)|F_t]}.

Defina

γ(s, ω) =

( α(s, ω) se ω ∈B, β(s, ω) se ω ∈B^c.

Temos E^γ[Y^γ(t, τ)|F_t]≤E^α[Y^α(t, τ)|F_t]∧E^β[Y^β(t, τ)|F_t].

Para cada estrat´egia α∈ A definimos a recompensa m´axima condicional esperada como sendo

Z^α(t) := ess sup

τ∈St,T

E^α[Y^α(t, τ)|F_t], t∈ S. (2.13)

(23)

2. O jogo

que pode ser obtida pelo jogador stopper det em diante.

Bem como o custo acumulado

Q^α(t) :=Z(t) + Z t

0

f(s, ω, α_s)ds. (2.14)

Perceba que V(t) = ess inf

α∈A

Z^α(t) e que Z^α(t) ≥ Y^α(t,t) = g(Xt). Vamos agora proceder para mostrar queV(t) se comporta como um limite.

Defini¸cão 2.6. Dada α ∈ A, como os processos g(X_s)_s, Z(s)_s são adaptados então para cadat ∈ S e >0 definimos a seguinte regra de parada

τ_t^α() := inf{s∈[t, T] :g(X_s)≥Z^α(s)−}, τ_t^α :=τ_t^α(0).

Note que para cada t ∈ S e ω ∈ Ω, T pertence ao conjunto {s ∈ [t, T] : g(X_s) ≥ Z^α(s)−}, >0. Além disso, [0, T] é limitado então estas regras de parada estão bem definidas.

Defini¸c˜ao 2.7. Dado um processo adaptado e cont´ınuo a direita (Z_t)t≥0 que satisfaz Z_t≥0 para todot ≥0 e E[sup_tZ_t]<∞. Seja U_t= ess sup

τ∈S_[t,∞)E[Z_τ|F_t]. O envelope Snell deZ = (Zt)t≥0 ´e a modifica¸c˜ao cont´ınua a direita de U = (Ut)t≥0.

Precisaremos também dos dois seguintes resultados clássicos que podem ser encon- trados em [15] no apêndice D.

Proposi¸cão 2.4. Para cada α ∈ A o processo (Q^α(s))0≤s≤T é P^α−supermartingale, càdlàg e o menor supermartingale que majoraY^α(·), ou seja, é envelope Snell deY^α(·).

Proposi¸cão 2.5. Para quaisquer regras de parada t, ν, θ com t ≤ ν ≤ θ ≤ τ_t^α temos E^α[Q^α(θ)|F_ν] = Q^α(ν) q.c.; em partircular Q^α(· ∧τ₀^α) é P^α−martingale. Além disso Z^α(t) =E^α[Y^α(t, τ_t^α)|F_t] q.c.

Um lema que também nos será muito útil é o seguinte:

Lema 2.6. Suponha que t, θ s˜ao regras de parada tais que 0 ≤ t ≤ θ ≤ T. Dadas α,β∈A

i ) Se α= β em quase todo ponto de [[t, θ]] então para qualquer variável aleatória Ξ limitada e F_θ-mensurável,

E^α[Ξ|F_t] =E^β[Ξ|F_t] q.c.

(24)

2. O jogo

ii ) DadoB ∈ F_t, seα=βem quase todo ponto de{(r, ω);t(ω)≤r≤θ(ω), ω ∈B}, ent˜ao a equa¸c˜ao de (i) vale emB.

Demonstra¸c˜ao. i) A partir de (2.2) definimos Λ^α(t, θ) := Λ^α(θ)

Λ^α(t). Sabemos que Q definida por dQ = Λ^α_TdPé uma medida de probabilidade equivalente a P. Além disso Qt definida por dQt = Λ^α_t dPé a restri¸cão deQ a Ft.

SejaA ∈ F_t, Z

A

E^α[Λ^α(t, θ)|F_t]dQ= Z

A

E^α Λ^α_θ

Λ^α_t |F_t

dQ= Z

A

E^α Λ^α_θ

Λ^α_t |F_t

dQ_t =

= Z

A

Λ^α_θ

Λ^α_t dQt = Z

A

Λ^α_θ

Λ^α_t Λ^α_tdP= Z

A

Λ^α_θdP= Z

A

1dQθ = Z

A

1dQ.

Logo, pela defini¸c˜ao de esperan¸ca condicional E^α[Λ^α(t, θ)|F_t] = 1 q.c. Por A.5 no apˆendice temos:

E^α[Ξ|F_t] = E[Λ^α(θ)Ξ|F_t]

E[Λ^α(θ)|F_t] = Λ^α(t)E[Λ^α(t, θ)Ξ|F_t]

Λ^α(t)E[Λ^α(t, θ)|F_t] =E[Λ^α(t, θ)Ξ|F_t] =

=E[Λ^β(t, θ)Ξ|F_t] = Λ^β(t)E[Λ^β(t, θ)Ξ|F_t]

Λ^β(t)E[Λ^β(t, θ)|F_t] = E[Λ^β(θ)Ξ|F_t]

E[Λ^β(θ)|F_t] =E^β[Ξ|F_t].

A terceira igualdade acima é verdadeira por queα=βem quase todo ponto sobre [[t, θ]]. Da´ı concluimos também que set =θ entãoE^α[Ξ] = E^β[Ξ].

ii) Prova-se de maneira semelhante.

Fixemos ν ∈A e denotemos por V_[0,θ] o conjunto de estratégias α tais que ν =α em [[0, θ]]. Observe que por (2.5) e (2.13) Z^α(θ) independe dos valores queαtoma em [[0, θ]]. Logo, dada uma estratégia qualquerα∈Apodemos construir uma estratégiaβ tal queZ^β(θ) = Z^α(θ) q.c., basta tomarγ ∈ V_[0,θ]qualquer e fazerβ =γ_[[0,θ]]+α_[[θ,T_]].

Por isso a seguinte igualdade ´e verdadeira:

V(θ) = ess inf

α∈A Z^α(θ) = ess inf

α∈V_[0,θ]Z^α(θ). (2.15)

Lema 2.7. Para cada θ ∈ S, dadas α,β ∈ V_[0,θ] existe γ ∈ V_[0,θ] tal que Z^γ(θ) = Z^α(θ)∧Z^β(θ).

Demonstra¸c˜ao. Considere o evento A = {Z^α(θ) ≤ Z^β(θ)} ∈ F_θ e defina a estrat´egia α⁰ e a regra de parada τ_θ⁰ como seguem

α⁰ =

( ν(s, ω), se 0≤s≤θ(ω)

α(s, ω)·1A+β(s, ω)·1A^c, se θ(ω)≤s≤T.

(25)

2. O jogo

τ_θ⁰ =τ_θ^α·1_A+τ_θ^β·1_A^c. Temos quase certamente o seguinte:

Z^α⁰(θ) =E^α

0[Y^α⁰(θ, τ_θ^α⁰)|Fθ] =E^α[Y^α(θ, τ_θ^α⁰)|Fθ]·1A+E^β[Y^β(θ, τ_θ^α⁰)|Fθ]·1A^c ≤

≤Z^α(θ)·1_A+Z^β(θ)·1_A^c =E^α[Y^α(θ, τ_θ^α)|F_θ]·1_A+E^β[Y^β(θ, τ_θ^β)|F_θ]·1_A^c =

=E^α

0[Y^α⁰(θ, τ_θ^α)|F_θ]·1_A+E^α

0[Y^α⁰(θ, τ_θ^β)|F_θ]·1_A^c =E^α

0[Y^α⁰(θ, τ_θ⁰)|F_θ]≤Z^α⁰(θ).

(2.16) Pela Proposi¸cão 2.5 a primeira igualdade de (2.16) é verdadeira. A primeira desigualdade de (2.16) segue de (2.13) seguida da aplica¸cão de da Proposi¸cão 2.5. Pelo Lema 2.6 a quarta igualdade de (2.16) é verdadeira e a quinta igualdade segue da defini¸cão de τ_θ⁰. Como Z^α(θ)· 1_A +Z^β(θ) ·1_A^c = Z^α(θ)∧ Z^β(θ) q.c. o resultado

segue.

Note que acabamos de provar que para cada θ ∈ S a fam´ılia {Z^α(θ),α ∈ V[0,θ]} tem a propriedade lattice. Por isso o seguinte Lema ´e verdadeiro.

Lema 2.8. Para cada θ∈ S existe uma sequˆencia decrescente (Z^αⁿ(θ))n∈N tal que

V(θ) = ↓_n Z^αⁿ(θ) q.c. (2.17)

A prova deste lema é análoga à prova de A.6 no apêndice, apenas com uma pequena adapta¸cão. A demonstra¸cão é bastante simples mas utiliza um outro teorema não apresentado aqui. Para não adicionarmos ao trabalho resultados não essênciais não vamos prová-lo.

(26)

Cap´ıtulo 3

O valor do jogo

Como a existência de pontos de cela se caracterizam pela iguadade V(0) = V(0) então nossos dois objetivos estão relacionados aos processos de valor do jogo. Portanto parece sensato come¸carmos o trabalho a partir deles. Neste cap´ıtulo faremos uma ampla análise desses processos, estudaremos suas propriedades e construiremos outras ferramentas e resultados a partir delas os quais nos ajudarão a caracterizar e a encontrar os pontos de cela. O dois primeiros resultados são os principais do cap´ıtulo.

A grande quantidade de resultados apresentados a seguir pode ser um pouco can- sativa de se analisar, mas isso n˜ao deve desanimar o leitor quanto ao estudo do jogo.

Pois lembre-se que estamos aprendendo como o jogo funciona e, como em todo o jogo com n´ıvel de complexidade considerável, ter paciência é essencial para aprender a jogar bem.

3.1 Vamos jogar

Nesta se¸c˜ao vamos alcan¸car um dos nossos objetivos: para todoθ∈ S V(θ) =V(θ).

Como visto no cap´ıtulo anterior, para cadaθ∈ S existe uma sequência (Z^αⁿ(θ))n∈N, com (αⁿ)n∈NemV_[0,θ], tal queV(θ) =↓_n Z^αⁿ(θ) q.c. Dadaθ ∈ Sconsidere a sequência de regras de parada (τ_θ^αⁿ)n∈N (como antes, estão bem definidas) dadas por

τ_θ^αⁿ := inf{s ∈[θ, T];g(X_s) =Z^αⁿ(s)}.

Como Z^α^m(s) ≥Z^αⁿ(s) q.c., se n ≥ m, então por defini¸cãoτ_θ^α^m ≥τ_θ^αⁿ q.c., da´ı a sequência de regras de parada acima definida é decrescente. Logo, está bem definida q.c. a seguinte regra de parada emS_[θ,T_]:

τ_θ^∗ := ↓_n τ_θ^αⁿ. (3.1)

(27)

3. O valor do jogo

Como θ ≤ τ_θ^∗ q.c. ent˜ao, para todo n, τ_θ^αⁿ ≤ inf{s ∈ [τ_θ^∗, T];g(X_s) = Z^αⁿ(s)}

q.c.. Se, por absurdo, τ_θ^αⁿ < inf{s ∈ [τ_θ^∗, T];g(X_s) = Z^αⁿ(s)} em algum B ∈ Ω de medida de Wiener não nula então para cada ω ∈ B existiria r ∈ [τ_θ^∗(ω), T] tal que τ_θ^∗(ω) ≤ τ_θ^αⁿ(ω) < r < inf{s ∈ [τ_θ^∗(ω), T];g(Xs) = Z^αⁿ(s)} com g(Xr) = Z^αⁿ(r), contradi¸cão. Logo τ_θ^αⁿ = inf{s∈[τ_θ^∗, T];g(X_s) = Z^αⁿ(s)} q.c.

Assim, os valores das estratégias admiss´ıveis αⁿ sobre o intervalo [[0, τ_θ^∗]] são irre- levantes para o cálculo de τ_θ^αⁿ. Então, fixado ν ∈A, do mesmo modo que para V_[0,θ], existe uma sequência (α^k)k∈N em V_[0,τ^∗

θ] de estrat´egias admiss´ıveis que coincidem com ν no intervalo [[0, τ_θ^∗]] para a qual (3.1) vale.

Teorema 3.1. Para todo θ ∈ S V(θ) = V(θ) q.c. De um modo mais geral, para todo t∈ S e θ∈ S_t,T temos

ess inf

α∈A ess sup

τ∈S_θ,T E^α[Y^α(t, τ)|F_t] = ess sup

τ∈S_θ,T

ess inf

α∈A E^α[Y^α(t, τ)|F_t] q.c. (3.2) Demonstra¸cão. Já sabemos queV(θ)≥V(θ) q.c., vamos então mostrar a desigualdade inversa. Fixemos ν ∈A e tomemos uma sequência (αⁿ)∈ V_0,τ^∗

θ tal que (3.1) vale.

Pela Proposi¸c˜ao 2.5

Z^αⁿ(θ) = E^α

n[Y^αⁿ(θ, τ_θ^αⁿ)|F_θ] q.c.

da´ı,

V(θ)≤E^α

n[Y^α(θ, τ_θ^αⁿ)|F_θ] =E[Λ^αⁿ(θ, τ_θ^αⁿ)Y^αⁿ(θ, τ_θ^αⁿ)|F_θ] =

=E

"

Λ^ν(θ, τ_θ^∗)Λ^αⁿ(τ_θ^∗, τ_θ^αⁿ){Y^ν(θ, τ_θ^∗) +g(X

ταⁿ_θ

θ

)−g(X_τ^∗

θ) + Z ταⁿ

θ

τ_θ^∗

f(s, X, αⁿ_s)}|F_θ

#

q.c.

(3.3) A primeira igualdade de (3.3) segue da demonstra¸c˜ao do Lema 2.6. Para a segunda igualdade note o seguinte

Λ^ν(θ, τ_θ^∗)Λ^αⁿ(τ_θ^∗, τ_θ^αⁿ^θ) = exp

Z τ_θ^∗ θ

hσ⁻¹(s, X, ν_s)b(s, X, ν_s), dW_si −1 2

Z τ_θ^∗ θ

||σ⁻¹(s, X, ν_s)b(s, X, ν_s)||²ds

·

·exp

"

Z ταⁿ

θ

τ_θ^∗

hσ⁻¹(s, X, αⁿ_s)b(s, X, αⁿ_s), dW_si −1 2

Z ταⁿ

θ

τ_θ^∗

||σ⁻¹(s, X, αⁿ_s)b(s, X, αⁿ_s)||²ds

#

q.c.

(3.4) Como αⁿ coincide com ν no intervalo [[θ, τ_θ^∗]] ent˜ao o processo (ν_s)_s no primeiro

(28)

3. O valor do jogo

processo exponencial de (3.4) pode ser substituido por (αⁿ_s)_s. Ficamos ent˜ao com Λ^ν(θ, τ_θ^∗)Λ^αⁿ(τ_θ^∗, τ_θ^αⁿ) =

= exp

"

Z ταⁿ

θ

hσ⁻¹(s, X, ν_s)b(s, X, αⁿ_s), dW_si −1 2

Z ταⁿ_θ θ

||σ⁻¹(s, X, ν_s)b(s, X, αⁿ_s)||²ds

#

=

= Λ^αⁿ(θ, τ_θ^αⁿ) q.c.

Como σ⁻¹ ´e limitada, pelo teorema da convergˆencia limitada podemos tomar o limite quandon → ∞em (3.3) e ficamos com

V(θ)≤E[Λ^ν(θ, τ_θ^∗)Y^ν(θ, τ_θ^∗)|F_t] =E^ν[Y^ν(θ, τ_θ^∗)|F_t] q.c. (3.5) Perceba que ν ∈ A foi tomado arbitrariamente, logo podemos tomar o ´ınfimo na

´

ultima igualdade de (3.5) e obtermos:

V(θ)≤ess inf

ν∈A E^ν[Y^ν(θ, τ_θ^∗)|F_t]≤ess sup

τ∈S_[θ,T]

ess inf

ν∈A E^ν[Y^ν(θ, τ)|F_t] =V(θ) q.c.

Portanto V(θ) =V(θ) q.c.. Vamos agora provar (3.2).

ess inf

α∈A

ess sup

τ∈S_θ,T E^α

Y^α(θ, τ) + Z θ

t

f(s, X, α_s)ds|F_t

≤

≤ess sup

τ∈S_θ,T E^α

n

Y^αⁿ(θ, τ) + Z θ

t

f(s, X, αⁿ_s)ds|Ft

≤

≤E^α

n[ess sup

τ∈S_θ,T E^α

n

Y^αⁿ(θ, τ)|F_θ +

Z θ t

f(s, X, α_s)|F_t] =

=E^α

n E^α

n

Y^αⁿ(θ, τ_θ^αⁿ)|F_θ +

Z θ t

f(s, X, αⁿ_s)|F_t

=

=E^α

n

Y^αⁿ(θ, τ_θ^αⁿ) + Z θ

t

f(s, X, αⁿ_s)|F_t

=E^α

n[Y^αⁿ(t, τ_θ^αⁿ)|F_t] q.c.

(3.6)

A segunda desigualdade de (3.6) segue do seguinte, ess sup

τ∈S_θ,T E^α

n

Y^αⁿ(θ, τ)|F_t

= ess sup

τ∈S_[θ,T] E^α

n E^α

n

Y^αⁿ(θ, τ)|F_θ

|F_t

≤

≤E^α

n

"

ess sup

τ∈S_θ,T E^α

n

Y^αⁿ(θ, τ)|F_θ

|F_t

#

q.c.

J´a a primeira igualdade de (3.6) segue da Proposi¸c˜ao 2.5 lembrando de (2.13). Note que E^α

n[Y^αⁿ(t, τ_θ^αⁿ)|F_t] = E^ν[Y^ν(t, τ_θ^αⁿ)|F_t] q.c., por causa da Proposi¸c˜ao 2.6, e da´ı,

(29)

3. O valor do jogo

tomando o limite quando n→ ∞ em (3.6) temos:

ess inf

α∈A

ess sup

τ∈S_θ,T E^α

Y^α(θ, τ) + Z θ

t

f(s, X, α_s)ds|F_t

≤E^ν[Y^ν(t, τ_θ^∗)|F_t] q.c.

Como ν ´e arbrit´ario podemos tomar o ´ınfimo essencial sobre ν ∈ A e depois o supremo essencial sobreτ ∈ S_θ,T obtendo:

ess inf

α∈A

ess sup

τ∈S_θ,T E^α

Y^α(θ, τ) + Z θ

t

f(s, X, α_s)ds|F_t

≤ess sup

τ∈S_θ,T

ess inf

ν∈A E^ν[Y^ν(t, τ)|F_t] q.c.

A partir de agora escreveremos V(·) = V(·) = V(·) para o processo de valor do jogo.

Proposi¸c˜ao 3.2. O processo V(·) ´e cont´ınuo a direita

Demonstra¸cão. Como o processo (Z^α(s))0≤s≤T é limitado e já provamos que a fam´ılia {E^α[Y^α(t, τ)|F_t],α ∈ A[t,T]} tem a propriedade de lattice, então não é necessária a hipótese de que para todo s Z^α(s) ≥ 0 q.c. para podermos usar A.8 no apêndice, o qual nos garante a existência de uma modifica¸cão càdlàg de (Z^α(s))_0≤s≤T. Temos então que, para cada t ∈ [0, T] lim inf

s↓t V(s) ≤ lim inf

s↓t Z^α(s) = Z^α(t) q.c. Tomando o

´ınfimo sobreA obtemos lim inf

s↓t V(s)≤V(t) q.c..

Sabemos que o processo descrito em (2.12) é umP^α−submartingale, então, por A.9 no apêndice, existe e é finito q.c. o limite lim

s↓t Ψ(s, τ). A finitude vem do fato de o pr´oprio J(s, τ) ser limitado para todo s, como Rs

0 f(r, X, α_r)dr ´e cont´ınuo em s ent˜ao o limite lim

s↓t J(s, τ) tamb´em existe e ´e finito q.c.

Ent˜ao podemos definir:

J(t+, τ) = lim

s↓t J(s, τ) sobre {t < τ} , J(t+, τ) =g(X(τ)) sobre{t=τ}.

Para qualquer t∈[0, T] e τ ∈ St,T, pela defini¸c˜ao de J em (2.11) temos lim inf

s↓t V(s)≥lim inf

s↓t J(s, s∨τ) = lim inf

s↓t J(s, τ){t<τ}+J(s, s){t=τ} =

= lim

s↓t J(s, τ) + lim inf

s↓t g(X(s)) =J(t+, τ) +g(X(t)) =J(t+, τ) +J(t, t) q.c.

(3.7)

A penúltima igualdade em (3.7) é verdadeira q.c. porque g(·), X_s são cont´ınuos.

(30)

3. O valor do jogo

Da´ı, sobre{t < τ}, obtemos lim inf

s↓t V(s)≥lim

s↓t J(s, τ) = E^α

lims↓t J(s, τ)|F_t+

=

=E^α

lims↓t J(s, τ) + Z s

t

f(r, X, α_r)dr|F_t

=

= lim

s↓t E^α

J(s, τ) + Z s

t

f(r, X, α_r)dr|F_r

≥J(t, τ) q.c.

(3.8)

A primeira igualdade em (3.8) ´e verdadeira por que o processo lim

s↓t J(t, τ) é adaptado aF_t+. A segunda igualdade em (3.8) é verdadeira por que a filtragem F é cont´ınua a direita (ver A.10 no apêndice) e para a terceira igualdade de (3.8) usamos o teorema da convergência dominada. A última desigualdade de (3.8) segue do fato de que o processo Ψ(t, τ) = J(t, τ) +Rt

0 h(s, X, α_s)ds ´e um P^α−submartingale, pois isto tem como consequˆencia

E^α

J(s, τ) + Z s

t

f(r, X, α_r)dr|F_r

≥J(t, τ) q.c.

Portanto, tomando o supremo essencial sobreS_t,T obtemos a desigualdade lim inf

s↓t V(s)≥

V(t). Segue ent˜ao o resultado.

Vamos definir agora mais uma classe de regras de parada.

Defini¸cão 3.1. Para cada t ∈ S e 0< < 1, de maneira análoga as outras regras de parada definidas anteriormente, estão bem definidas

%_t() := inf{s∈[t, T];g(X(s))≥V(s)−} ; %_t :=%_t(0) (3.9) Como V(·) ≥ g(X(·)) q.c. ent˜ao, para cada α ∈ A, s˜ao verdadeiras quase certamente as seguintes desigualdades:

%_t∨τ_t^α()≤τ_t^α , %_t()≤τ_t^α∧%_t. (3.10) Para cadaα∈A vamos definir o seguinte processo:

R^α(t) :=V(t) + Z t

0

f(s, X, α_s)ds; t∈ S (3.11) Perceba que R^α(t) ≥ g(X(t)) +Rt

0 f(s, X, α_s)ds = Y^α(t) q.c.. R^α(t) ´e o custo cumulativo do controller em usar a estrat´egia α no intervalor [[0,t]] mais o valor do jogo emt.