Universidade Federal da Para´ıba
Centro de Ciˆ encias Exatas e da Natureza Programa de P´ os–Gradua¸ c˜ ao em Matem´ atica
Mestrado em Matem´ atica
Jogos diferenciais estoc´ asticos:
controle e parada ´ otimos
Alan Teixeira Nic´ acio de Messias
Jo˜ ao Pessoa – PB
Agosto de 2018
Universidade Federal da Para´ıba Centro de Ciˆ encias Exatas e da Natureza Programa de P´ os–Gradua¸ c˜ ao em Matem´ atica
Mestrado em Matem´ atica
Jogos diferenciais estoc´ asticos:
controle e parada ´ otimos
por
Alan Teixeira Nic´ acio de Messias
sob a orienta¸c˜ao do
Prof. Dr. Alberto Masayoshi Faria Ohashi
Jo˜ ao Pessoa – PB
Agosto de 2018
Voltei-me, e vi debaixo do sol que n˜ ao ´ e dos ligeiros a carreira, nem dos fortes a batalha, nem tampouco dos s´ abios o p˜ ao, nem tam- pouco dos prudentes as ri- quezas, nem tampouco dos entendidos o favor, mas que o tempo e a oportunidade ocorrem a todos.
Eclesiastes 9:11
Agradecimentos
Agrade¸co em primeiro lugar a meu Deus, pela finaliza¸c˜ao bem sucedida de mais uma etapa de minha vida. Agrade¸co muito a meu orientador, pois me orientou n˜ao apenas nessa disserta¸c˜ao mas na vida profissional e carreira acadˆemica; agrade¸co tamb´em pelas conversas, nos fins das reun˜oes, sobre economia brasileira, situa¸c˜ao fiscal do estado brasileiro e a nova crise financeira mundial em curso (suspeito que estes temas tenham me feito parecer meio paran´oico n˜ao s´o `a meu orientador mas ao departamento em geral).
E como menssagem a todos aqueles que querem ser pesquisadores, que querem manter a chama do desejo pela pesquisa acesa eu digo: sempre mantenham em suas mentes perguntas as quais vocˆes queiram realmente obter a resposta.
Resumo
Neste trabalho analisamos um jogo diferencial estoc´astico de soma-zero n˜o Mar- koviano, atrav´es da teoria dos martingales. H´a dois jogadores, chamados controller e stopper, que controlam o jogo atrav´es de controles estoc´asticos, chamadas estrat´egias e tempos de parada respectivamente. Nosso objetivo ´e provar: que para cada instante de tempo o jogo tem um valor e que o jogo tem um ponto de cela. Este trabalho ´e baseado no artigo de Ioannis Karatzas e Ingrid-Mona Zamfirescu [1].
Palavras-chave: ponto de cela, processo de valor do jogo, martingales.
Abstract
In this work, we analyze a zero-sum non-Markovian stochastic differential game via martingale methods. The stochastic game consists of two players, namely the controller and stopper which keep track the game via stochastic controls summarized by strategies and stopping times respectively. Our main goal is to prove the game has a value and it admits a saddle point. Our work is based on Karatzas & Ingrid-Mona Zamfirescu’s paper [1].
Keywords: saddle point, game’s value process, martingales.
Conte´ udo
Introdu¸c˜ao 1
1 O que estudamos 3
1.1 Jogo Diferencial Estoc´astico . . . 3 1.2 O Problema de Otimiza¸c˜ao e a fun¸c˜ao Hamiltoniana . . . 5 1.3 Exemplo de aplica¸c˜ao . . . 6
2 O jogo 8
2.1 O modelo (o “tabuleiro”, as “pe¸cas” e as “regras”) . . . 8 2.2 Como funciona o jogo (como jogar) . . . 10 2.3 Dividir e conquistar . . . 11
3 O valor do jogo 16
3.1 Vamos jogar . . . 16
4 Encontrando os pontos de cela 27
4.1 Caracteriza¸c˜ao . . . 27 4.2 Otimizando o controle . . . 32 4.3 O “equil´ıbrio” do jogo . . . 34
A Resultados Usados 40
Referˆencias Bibliogr´aficas 45
Nota¸ c˜ oes
A seguir, listamos algumas nota¸c˜oes utilizadas neste trabalho.
•Dadot∈Rpara cadaω ∈Ω,lim inf
s↓t J(s, τ) = lim inf
s∈Q,s≥tJ(s, τ). AquiJ(s, τ) ´e como na equa¸c˜ao 2.11.
• a∨b=max{a, b};
• a∧b=min{a, b};
• X =↓n Xn q.c. significa X ≤Xn q.c. e lim
n→∞Xn=X q.c.;
• SejaD um espa¸co qualquer, B(D) ´e a sigma-´algebra de Borel de D.
Introdu¸ c˜ ao
A pesquisa moderna em teoria dos jogos come¸ca com o artigo de Von Newman de 1928 sobre solu¸c˜oes de jogos de soma zero [17]. O trabalho de Newman com jogos de soma zero culminaria no livro Theory of Games and Economic Behavior [18], escrito em 1944 em parceria com o economista Oskar Morgenstern. At´e o fim dos anos 40 os avan¸cos na teoria haviam focado apenas em jogos de soma zero com dois jogadores, mas em 1950 John Forbes Nash demonstrou em sua tese de doutorado [19] que qualquer jogo, n˜ao necessariamente de soma zero, com uma quantidade finita qualquer de jogadores e com uma matriz de payoffs tem um equil´ıbrio de Nash. Por´em, at´e esse momento os jogos estudados tinham um n´umero finito de estrat´egias para cada jogador, al´em de que todo o ambiente era discreto: estrat´egias,payoffs, o funcionamento do jogo, etc.
As pesquisas em jogos diferenciais tˆem in´ıcio com o trabalho de Rufus Isaacs en- quanto trabalhava para RAND Corporation. Esses primeiros estudos apareceram em memorandos da RAND em 1951 [6]. Os primeiros problemas estudados foram pro- blemas do tipo “perseguidor-evasor”, o interesse na ´epoca era a aplica¸c˜ao no desen- volvimento de sistemas e m´etodos de defesa de m´ısseis. Tamb´em nesse momento a pesquisa em teoria do controle ´otimo estoc´atico estava surgindo com os trabalhos Lev Pontryagin [8] e Richard Bellman [9]
Nos anos 60 come¸cam as pesquisas em teoria dos jogos diferenciais estoc´asticos sendo um dos primeiros trabalhos feito por Yu-Chi Ho em 1966 [7]. O trabalho analisa estrat´egias e manobras de evas˜ao de aeronaves e t´ecnicas de guiamento de m´ısseis. A aplicabilidade dos jogos diferenciais estoc´asticos e da an´alise de controle ´otimo estoc´as- tico alcan¸cou diversas ´areas de pesquisa sendo a ´area deQuantitative Finance uma das que recebeu mais contribui¸c˜oes. Um dos primeiros problemas resolvidos utilizando-se destas teorias foi o problema de otimiza¸c˜ao de portif´oleo de Merton em 1969 [20].
Neste trabalho fazemos uma profunda e detalhada an´alise do artigo [1]. Neste o au- tor constroi um jogo diferencial estoc´astico de soma zero n˜ao-Markoviano, repesentado por seu estado (Xt)0≤t≤T, a partir de uma equa¸c˜ao diferencial estoc´astica utilisando-se do teorema de Girsanov A.7 no apˆendice. Neste jogo h´a dois jogadores, “controller”
estrat´egias e regras de parada. Da´ı seguimos para dois problemas formulados sobre o processo de valor do jogoV(t), cujas as solu¸c˜oes s˜ao os objetivos do artigo.
Os problemas s˜ao provar que V(t) existe para todo t e que o jogo tem um ponto de cela.
O texto est´a organizado da seguinte maneira:
• Cap´ıtulo 1: ´E apresentado o tipo de problema tratado na teoria dos jogos dife- renciais estoc´asticos;
• Cap´ıtulo 2: ´E apresentado o modelo de jogo sobre o qual desenvolvemos este trabalho;
• Cap´ıtulo 3: ´E feita a an´alise do processo de valor do jogo;
• Cap´ıtulo 4: ´E construido um ponto de cela para o jogo;
• Apˆendice (Resultados Usados): Uma lista de resultados utilizados ao longo do trabalho.
Como pr´e-requisitos para este trabalho recomendamos que o leitor esteja familiari- zado com a teoria das probabilidades e que conhe¸ca um pouco da teoria dos martingales e C´alculo de Itˆo; como referˆencias indicamos [4], [22] e [5].
Cap´ıtulo 1
O que estudamos
Na teoria dos jogos diferenciais n˜ao existem defini¸c˜oes e resultados gerais para todos os modelos de jogos. H´a, no m´aximo, alguns conceitos em comum aos modelos. Por isto, neste cap´ıtulo n˜ao temos a inten¸c˜ao de trazer uma introdu¸c˜ao resumida da teoria, nem apresentar resultados de conte´udos preliminares, mas apenas fornercer ao leitor uma pequena vis˜ao do que ´e feito na teoria: an´alise de modelos de jogos. Devido a isto n˜ao escolhemos para o t´ıtulo do cap´ıtulo termos usuais como “Preliminares”.
Vamos descrever o modelo de jogo apresentado nos cap´ıtulos 3 e 5 de [2], escolhemos este modelo por ser simples e por apresentar v´arios dos conceitos em comum com outros modelos de jogos. Para o leitor interessado em conhecer outros tipos de jogos diferenciais recomendamos [3].
1.1 Jogo Diferencial Estoc´ astico
Considere um movimento Browniano m−dimensional W = (Wt)0≤t≤T, sobre um espa¸co de medida (Ω,F,P), equipado com a filtragemF= (Ft)t≤t≤T gerada pelo movi- mento Browniano. Tome A um espa¸co m´etrico compacto e A sua σ-´algebra de Borel, chamaremos A o conjunto de a¸c˜oes do jogador.
Considere b : [0, T]×Ω×Rn ×A → Rn e σ : [0, T]×Ω×Rn×A → Rn ×Rm sastifazendo as seguintes propriedades:
1. b eσ s˜aoP ×B(Rm)× A−mensur´aveis, onde P ´e a σ-´algebra dos subconjuntos de [0, T]×Ω F-progressivamente mensur´aveis,
2. ∃ C > 0 tal que
||(b, σ)(t, ω, x, α)−(b, σ)(t, ω, x0, α)|| ≤ C||x−x0||,
1. O que estudamos
3. Para cada x ∈ Rn e α ∈ A, E[RT
0 ||b(t, x, α)||2ds] < ∞ e E[RT
0 ||σ(t, x, α)||2ds]<∞.
O processoσ ´e chamado volatilidade e b“drift”, nas rela¸c˜oes acima consideramosσ um vetor.
As estrat´egias admiss´ıveis s˜ao processos da formaα= (α)0≤t≤T que tomam valores em A e satisfazem:
1. α´e P-mensur´avel, 2. E[RT
0 ||b(t,0, αt)||2dt+||σ(t,0, αt)||2dt]<∞.
O conjunto de estrat´egias admiss´ıveis ser´a denotado porA. Chamaremos de estado do jogo com apenas um jogador ao processo de Itˆo X = (Xt)0≤t≤T, com Xt ∈ Rn, satisfazendo
( dXt=b(t, Xt, αt)dt+σ(t, Xt, αt)dWt,
X0 =x0 ∈Rd. (1.1)
Esta equa¸c˜ao diferencial estoc´astica ´e chamada dinˆamica do estado do jogo. Por A.1 no apˆendice, para cada estrat´egia admiss´ıvelαexiste um ´unico processoX= (Xt)0≤t≤T
que satisfaz (1.1).
Suponha agora que h´a k jogadores. Os processos da forma α = (α1, ...,αk), onde αi ´e uma estrat´egia admiss´ıvel para o jogador i, s˜ao chamados perfis de estrat´egias admiss´ıveis. Neste caso consideramos A = A1 ×...×Ak e A = A1 ×...× Ak. Dado o perfil de estrat´egia α= (α1, ...,αk), quando escrevemos (α−i,βi) estamos indicando o mesmo perfil de estrat´egia mas com a i-´esima estrat´egia admiss´ıvel trocada pela estrat´egia admiss´ıvel βi. Analogamente para a k-upla de a¸c˜oes (α1t, ..., αkt).
Para cada jogador itemos um movimento Browniano Wi = (Wti)0≤t≤∞ com Wti ∈ Rmi, um drift bi : [0, T]×Rm ×Ai →Rmi e uma volatilidade σi : [0, T]×Rm×Ai → Rm2i, m = m1 +...+mk. Al´em disso o estado do jogo ´e dada pelo processo de Itˆo X = (X1, ...,Xk), com X0 ∈ Rm, e X0 = (x10, ..., xk0), tal que dXti = bi(t, Xt, αit)ds+ σi(t, Xt, αit)dWti ´e a dinˆamica do estado do jogo para o jogador i.
Utilizando a nota¸c˜ao de matrizes podemos escrever
Xt=
Xt1
... Xtk
,Wt=
Wt1
... Wtk
, b(t, x, α) =
b1(t, x, α) ... bk(t, x, α)
e
σ(t, x, α) =
σ1(t, x, α) 0 . . . 0 0 σ2(t, x, α) . . . 0
. .. . .. . .. . ..
0 0 . . . σk(t, x, α)
1. O que estudamos
sendo a ´ultima matriz uma matriz de blocos. Da´ı,
dXt=b(t, Xt, α)dt+σ(t, Xt, α)dWt.
1.2 O Problema de Otimiza¸ c˜ ao e a fun¸ c˜ ao Hamil- toniana
Sejamg : Ω×Rn→Rlimitada eFT×B(Rn)−mensur´avel ef : [0, T]×Ω×Rn×A→ Ruma fun¸c˜ao que satisfaz as mesmas condi¸c˜oes dodrift b. Chamaremosg(XT) de custo terminal ef de custo corrente.
Para cada α ∈ A, definimos o custo funcional para um jogo de um ´unico jogador como sendo
J(α) =E Z T
0
f(t, Xt, αt)dt+g(XT)
. (1.2)
O objetivo do jogador ´e minimizar J. Em um jogo com um ´unico jogador, o pro- blema de minimizar J ´e um problema de controle ´otimo estoc´astico. No caso de k jogadores temos para cada jogador i = 1, ..., k um custo terminal gi(XT), um custo correntefi e um custo funcional Ji(α) =E
hRT
0 fi(t, ω, Xt, αt)dt+gi(XT)i .
Defini¸c˜ao 1.1. Um jogo com dois jogadores ´e dito ser de soma zero seJ1(α) = −J2(α) para todo perfil de estrat´egia α ∈ A. Neste caso escrevemos J := J1 como o custo funcional do jogo.
Defini¸c˜ao 1.2. Um perfil de estrat´egia α∗ = (α∗,1, ...,α∗,n) ´e dito ser um equil´ıbrio de Nash para o jogo se para todoi e para todo αi ∈Ai Ji(α∗)≤Ji(α∗,−i,αi).
Ou seja, um perfil de estrat´egia ´e um equil´ıbrio de Nash se nenhum jogador se beneficia mudando de estrat´egia individualmente.
Defini¸c˜ao 1.3. Dados a volatilidade σ e o drift b do estado (Xt)0≤t≤T de um jogo, podemos definir um tipo de fun¸c˜ao, chamada fun¸c˜ao Hamiltoniana, da seguinte maneira H: [0, T]×Ω×Rn×Rn×Rn×m×A→R dada porH(t, ω, x, y, z, α) = σ(t, ω, x, α)• z+hb(t, ω, x, α), yi+f(t, ω, α).
Onde f ´e o custo corrente, σ e z s˜ao matrizes n ×m, a opera¸c˜ao • ´e dado por tr[σ(t, ω, x, α)>·z] e a opera¸c˜ao em h,i ´e o produto interno euclidiano de Rn.
No caso particular em que apenas odrift depende das a¸c˜oes do jogador a Hamilto- niana ´e dada por H(t, ω, x, y, α) =b(t, ω, x, α)y+f(t, ω, x, α)
1. O que estudamos
Defini¸c˜ao 1.4. Dado o custo funcionalJ de um jogo de dois jogadores de soma zero, definimos o valor superior e o valor inferior do jogo como sendo respectivamnete.
V = inf
α∈A1
sup
β∈A2
J(α,β) V = sup
β∈A2 α∈infA1
J(α,β).
1.3 Exemplo de aplica¸ c˜ ao
Quantitative Finance ´e uma ´area de conhecimento onde podemos encontrar uma grande quantidade de problemas cujas solu¸c˜oes provem da teoria de controle estoc´as- tico e da teoria dos jogos. S˜ao v´arios os tipos de problemas: minimiza¸c˜ao de riscos, maximiza¸c˜ao de utilidades, precifica¸c˜ao, constru¸c˜ao de hedge, etc. Apresentaremos, de modo resumido e sem solu¸c˜ao, um problema cl´assico.
O problema de portif´olio de Mertron (Exemplo 3.2 do cap´ıtulo 2 de [10])
Este foi um dos primeiros problemas de finan¸cas solucionado com o emprego de controle estoc´astico. Ele foi apresentado e solucionado em 1969 pelo economista Robert C.
Merton. O problema trata da otimiza¸c˜ao de investimentos emassets.
stock: qualquer posse com valor com a qual o propiet´ario espera obter algum bene- f´ıcio, por exemplo a¸c˜oes de empresas.
Suponha que em um mercado h´a n + 1 assets sendo negociadas no intervalo de tempo [0, T], as assets 1, ..., n s˜ao chamadas stocks, o pre¸co do i-´esimo stock ´e dado pela equa¸c˜ao diferencial estoc´astica seguinte:
( dPi(t) = Pi(t){bi(t)dt+hσi(t), W(t)i},
Pi(t) = Pi(0) >0. t∈[0, T]
Ondebi : Ω×[0, T]→R,bi(t)>0, ´e chamada taxa de aprecia¸c˜ao eσi : Ω×[0, T]→ Rm´e a volatilidade dostock eW : Ω×[0, T]→Rm ´e um movimento browniano. Todos estes processos est˜ao definidos em um espa¸co de probabilidade (Ω,F,(Fs)0≤s≤T) e s˜ao adaptados a (Fs)0≤s≤T. A presen¸ca do movimento browniano simboliza a aleatoriedade dos pre¸cos dessasassets e por isso elas s˜ao consideradas arriscadas.
A 0-´esimaasset ´e chamadabond, ela ´e a ´unica que n˜ao traz risco e seu pre¸co ´e dada pela seguinte equa¸c˜ao diferencial estoc´astica:
( dP0(t) = r(t)P0(t)dt,
P0(0) = x0 >0 q.c. t∈[0, T].
A cada instantet∈[0, T] um investidor tem uma riquezaX(t) distribuida nasassets e, para cada i, uma quantidade Ni(t) da asset i. Assim X(t) =
n
X
i=0
Ni(t)Pi(t) e sua
1. O que estudamos
riqueza investida na asset i ´e dada por ui(t) =Ni(t)Pi(t). O portif´olio do investidor ´e o processo vetorial u(t) = (u0(t), ..., un(t)). Suponha que existe uma taxa de retirada, c(t), de recursos desses investimentos para consumo.
Temos ent˜ao o seguinte problema, o investidor deve escolher um portif´olio u(t) e uma taxa de retirada c(t) de modo que X(t)>0 e que
J(u, c) = E Z T
0
exp−γtφ(c(t))dt+ exp−γTh(X(T))
.
seja m´axima. Aquiφ(c(t)) ´e a utilidade instatˆanea pelo consumo c(t) e exp−γTh(x, T)
´e a utilidade descontada.
Cap´ıtulo 2 O jogo
2.1 O modelo (o “tabuleiro”, as “pe¸ cas” e as “re- gras”)
Considere Ω = (C[0, T],Rn), o espa¸co das fun¸c˜oes cont´ınuas de [0, T] em Rn e a medida de probabilidade de Wiener P. Tome ent˜ao sobre o espa¸co (Ω,P) o mo- vimento browniano padr˜ao W = (Wt)0≤t≤T dado por W(t, ω) = ω(t) e a filtragem (FtW)0≤t≤T gerada pelo movimento browniano. Escrevemos F = (Ft)0≤t≤T para a fil- tragem P−aumentada de (FtW)0≤t≤T e ||ω||∗t:= sup
0≤s≤t
|ω(s)|, ω ∈ Ω,0≤ t ≤ T. A.2 no apˆendice garante queWainda ´e movimento browniano sobreF. Aqui,P ´e aσ−´algebra de [0, T]×Ω dos subconjuntos previz´ıveis.
S ser´a o conjunto de aplica¸c˜oes mensur´aveis da forma τ : Ω → [0, T] tais que {τ ≤ t} ∈ Ft,0 ≤t ≤T, chamadas regras de parada. Perceba que se t ∈ [0, T] ent˜ao t ∈ S. Dadas duas regras de parada ν, τ tais que ν ≤ τ q.c. denotamos por Sν,τ o conjunto de regras de parada ρtais que ν ≤ρ≤τ q.c.
A volatilidade ser´a uma aplica¸c˜ao σ : [0, T]×Ω → M(Rn,Rn), onde M(Rn,Rn) ´e o espa¸co das matrizes n ×n, P−mensur´avel e tal que para todo (t, ω) ∈ [0, T]×Ω σ(t, ω) seja n˜ao-singular. Al´em disso vamos exigir o seguinte:
• ∃C > 0 tal que
|σi,j(t, ω)−σi,j(t, ω)| ≤ C||ω−ω0||∗t,
∀t ∈[0, T]; ∀ω, ω0 ∈Ω
• ∀(t, ω)∈[0, T]×Ω,||(σ)−1(t, ω)|| ≤ C.
Aqui (σ)−1(t, ω) ´e a inversa de (σ)(t, ω) (aqui tomamos a matriz como um vetor e a norma euclideana). Sob estas hip´oteses e por A.3 no apˆendice existe uma ´unica
2. O jogo
solu¸c˜ao, X= (Xt)0≤t≤T, para a seguinte equa¸c˜ao diferencial estoc´astica, ( dXt=σ(t, X)dWt,
X0 =x0 ∈Rn
; 0≤t≤T. (2.1)
Al´em disso, a filtragem P−aumentada natural gerada porX coincide com F. O conjunto de estrat´egias admiss´ıveis, as quais chamaremos apenas de estrat´egias,
´e A e as estrat´egias s˜ao processos do tipo α : [0, T]×Ω → A. Onde A ´e um espa¸co m´etrico separ´avel e uni˜ao enumer´avel de subconjuntos n˜ao vazios compactos sobre o qual est´a definida aσ−´algebraA de Borel.
Assumimos que o drift b : [0, T]×Ω×A → Rn ´e P × A−mensur´avel e satisfaz o seguinte:
• ∃K >0 tal que ∀(t, ω, α)∈[0, T]×Ω×A,||b(t, ω, x, α)|| ≤ K(1 +||ω||∗t);
• Para cada α∈A, (t, ω)→b(t, ω, α) ´e previz´ıvel.
Pelas hip´oteses assumidas e por A.4 no apˆendice concluimos que, para cadaα∈A, o processo exponencial
Λαt = exp Z t
0
hσ−1(s, X)b(s, X, αt), dWsi −1 2
Z t 0
||σ−1(s, X)b(s, X, αs)||2ds
; 0≤t≤T.
(2.2)
´e um martingale. Al´em disso podemos definir uma medida de probabilidade Pα como:
Pα(B) := E[ΛαT ·1B], B ∈ FT. Portanto, pelo teorema de Girsanov (A.7 no apˆendice),
Wtα =Wt+ Z t
0
σ−1(s, X)b(s, X, αs) ; 0≤t≤T. (2.3)
´e um movimento Browniano na medidaPα adaptado `a F. Portanto, por (2.1) e (2.3) chegamos a
Xt =x0+ Z t
0
b(s, X, αs)ds+ Z t
0
σ−1(s, X)dWsα 0≤t≤T. (2.4) Este ser´a o nosso processo de estado do jogo. Note que as estrat´egias n˜ao interferem na volatilidade.
2. O jogo
2.2 Como funciona o jogo (como jogar)
Vamos exigir que o custo corrente f : [0, T]×Ω×A → R satisfa¸ca as mesmas propriedades do drift b exceto que |f(t, ω, α)|≤ K. O custo terminal ser´a dado por g :Rn →R limitada e cont´ınua.
O jogo funciona da seguinte maneira: o jogador “controller” escolhe uma estrat´egia admiss´ıvelα e da´ı o jogador “stopper” escolhe uma regra de parada τ, ent˜ao o stopper recebe docontroller uma quantia Yα(τ)≡Yα(0, τ), onde
Yα(t, τ) :=g(Xτ) + Z τ
t
f(s, X, αs)ds; τ ∈ St,T. (2.5) Obs.: quando escrevemos t estamos nos referindo `a uma regra de parada, a qual n˜ao ´e necessariamente determin´ıstica. Por outro lado, quando escrevemos t estamos nos referindo `a um ponto do intervalo [0, T].
Defini¸c˜ao 2.1. O valor superior e o valor inferior do jogo s˜ao, respectivamente:
V := inf
α∈A
sup
τ∈S Eα[Yα(τ)]. (2.6)
V := sup
τ∈S
α∈infAEα[Yα(τ)]. (2.7) Perceba que, por g, f serem limitadas os valores s˜ao finitos. Podemos checar facil- mente, usando redu¸c˜ao ao absurdo por exemplo, que V ≥V. Se V =V ent˜ao dizemos que o jogo tem um valor o qual denotamos porV =V =V.
O objetivo do controller ´e minimizar Eα[Yα(τ)] enquanto que o stopper quer ma- ximizar. Podemos pensar as regras de parada como sendo um tipo de estrat´egia, definirmos J1(α, τ) = J(α, τ) = Eα[Yα(τ)], J2(α, τ) = −J(α, τ) e definirmos J1 e J2 como sendo os custos funcionais do controller e do stopper respectivamente. Dessa forma temos um jogo com dois jogadores e de soma zero semelhante ao apresentado no cap´ıtulo 1.
Defini¸c˜ao 2.2. Um par (α∗, τ0) ´e dito ser ponto de cela seEα
∗[Yα∗(τ)]≤Eα
∗[Yα∗(τ0)]≤ Eα[Yα(τ0)] ∀ (α, τ)∈A× S.
Note que os pontos de cela funcionam como equil´ıbrios de Nash, pois se (α∗, τ0) ´e ponto de cela ent˜ao J1(α∗, τ0) = Eα
∗[Yα∗(τ0)]≤Eα[Yα(τ0)] = J1(α, τ0) e J2(α∗, τ0) = Eα
∗[Yα∗(τ0)]≤Eα
∗[Yα∗(τ)] =J2(α∗, τ)
Lema 2.1. Se existe um ponto de cela ent˜ao o jogo tem um valor.
2. O jogo
Demonstra¸c˜ao. Seja (α∗, τ0) ponto de cela, se por absurdo tiv´essemos inf
α∈A
sup
τ∈SEα[Yα(τ)]>
sup
τ∈S
α∈infAEα[Yα(τ)], ent˜ao para alguma β ∈ A inf
α∈A
sup
τ∈S Eα[Yα(τ)] > Eβ[Yβ(τ0)]. Da´ı, para algumτ ∈ S Eα[Yα(τ)]>Eα[Yα(τ0)], uma contradi¸c˜ao.
No ´ultimo cap´ıtulo mostraremos que, com algumas poucas hip´oteses a mais so- bre o drift e o custo funcional, o jogo tem um ponto de cela. Por A.5 no apˆendice temos Eα[Yα(t, τ)|Ft] = E[Yα(t, τ)Λα(t)|Ft]
E[Λα(t)|Ft] . Ou seja, podemos escrever cada espe- ran¸ca condicional sobre uma ´unica medida de probabilidade (P), portanto faz sentido definirmos o seguinte.
Defini¸c˜ao 2.3. O processo de valor inferior e o processo de valor superior s˜ao definidos, respectivimente, por:
V(t) = ess sup
τ∈St,T
ess inf
α∈A Eα[Yα(t, τ)|Ft]. (2.8) V(t) = ess inf
α∈A
ess sup
τ∈St,T
Eα[Yα(t, τ)|Ft]. (2.9) ComoF0W ={∅,Ω}e como a diferen¸ca entreF0W eF0 s˜ao subconjuntos de Ω de me- dida de Wiener nula ent˜ao, quase certamente, Eα[Yα(0, τ)|F0] = Eα[Yα(0, τ)|F0W] = Eα[Yα(0, τ)]. Portanto, quase certamente,V(0) = V eV(0) =V(0).
Comog(Xt) ´eFt-mensur´avel ent˜aog(Xt) =Eα[g(Xt)|Ft] q.c. para toda a estrat´e- gia α∈A. Temos tamb´em queg(Xt) =g(Xt) +Rt
t f(s, X,αs)ds para toda estrat´egia α, logog(Xt) = Eα[g(Xt)+Rt
t f(s, X,αs)ds|Ft] =Eα[Yα|Ft] q.c. para toda estrat´egia α ∈ A. Portanto g(Xt) = ess inf
α∈A Eα[Yα(t,t)|Ft] q.c. e tamb´em g(Xt) ≤ V(t) q.c..
Al´em disso, podemos facilmente verificar que V(t)≤V(t) q.c..
2.3 Dividir e conquistar
Como os pontos de cela s˜ao pontos de otimiza¸c˜ao de um processo que envolve a escolha de estrat´egias e tempos de parada, utilisaremos como metodologia para encon- trarmos um ponto de cela algo semelhante aquilo que na heur´ıstica ´e chamada divide and conquer. Vamos come¸car a tratar o problema a partir de duas perspectivas di- ferentes: controle ´otimo estoc´astico e tempo de parada ´otimo. Ao fim do trabalho o leitor ver´a que o problema original ser´a resumido a um problema de controle ´otimo.
Defini¸c˜ao 2.4. Definimos um intervalo estoc´astico como sendo
2. O jogo
Lembre que sobre o espa¸co [0, T]×Ω estamos considerando aσ-´algebra dos conjuntos P−mensur´aveis. Estamos tamb´em considerando como medida de probabilidade neste espa¸co a medida produto L×P, onde L´e a medida de probabilidade de Lebesgue do intervalo [0, T].
Dada uma regra de parada t ∈ S definimos para cada τ ∈ St,T o custo m´ınimo condicional esperado como sendo
J(t, τ) = ess inf
α∈A Eα[Yα(t, τ)|Ft]. (2.11) Note que V(t) = ess sup
τ∈St,T
J(t, τ).
A Proposi¸c˜ao a seguir ´e um resultado cl´assico, por isso n˜ao vamos prov´a-la aqui.
Por´em, logo a seguir o enunciado faremos uma pequena considera¸c˜ao sobre ela. O leitor interessado pode encontrar a prova original, em [14].
Proposi¸c˜ao 2.2. Para cada α∈Ao processo Ψ(t, τ) := J(t, τ) +
Z t 0
f(s, X, αs)ds. (2.12)
´e umPα−submartingale
Dadot∈[0, T] sejaA[t,T]a restri¸c˜ao deAao intervalo [t, T] (estrat´egias admiss´ıveis restritas ao intervalo [t, T]). A aplica¸c˜ao da proposi¸c˜ao acima depende de que para cadat ∈[0, T] a fam´ılia {Eα[Yα(t, τ)|Ft],α∈A[t,T]} tenha a seguinte propriedade:
Defini¸c˜ao 2.5. Uma fam´ılia (Xi)i∈I tem a propriedade lattice se para todo par de
´ındicesi, j ∈I existe um ´ındice k ∈I tal que Xk ≤Xi∧Xj q.c.
Vamos ent˜ao provar a propriedade lattice.
Proposi¸c˜ao 2.3. Para cada t ∈ [0, T] a fam´ılia {Eα[Yα(t, τ)|Ft],α ∈ A[t,T]} tem a propriedadelattice.
Demonstra¸c˜ao. Sejamα,β ∈A[t,T]. Tome ent˜aoB ={ω; Eα[Yα(t, τ)|Ft]≤Eβ[Yβ(t, τ)|Ft]}.
Defina
γ(s, ω) =
( α(s, ω) se ω ∈B, β(s, ω) se ω ∈Bc.
Temos Eγ[Yγ(t, τ)|Ft]≤Eα[Yα(t, τ)|Ft]∧Eβ[Yβ(t, τ)|Ft].
Para cada estrat´egia α∈ A definimos a recompensa m´axima condicional esperada como sendo
Zα(t) := ess sup
τ∈St,T
Eα[Yα(t, τ)|Ft], t∈ S. (2.13)
2. O jogo
que pode ser obtida pelo jogador stopper det em diante.
Bem como o custo acumulado
Qα(t) :=Z(t) + Z t
0
f(s, ω, αs)ds. (2.14)
Perceba que V(t) = ess inf
α∈A
Zα(t) e que Zα(t) ≥ Yα(t,t) = g(Xt). Vamos agora proceder para mostrar queV(t) se comporta como um limite.
Defini¸c˜ao 2.6. Dada α ∈ A, como os processos g(Xs)s, Z(s)s s˜ao adaptados ent˜ao para cadat ∈ S e >0 definimos a seguinte regra de parada
τtα() := inf{s∈[t, T] :g(Xs)≥Zα(s)−}, τtα :=τtα(0).
Note que para cada t ∈ S e ω ∈ Ω, T pertence ao conjunto {s ∈ [t, T] : g(Xs) ≥ Zα(s)−}, >0. Al´em disso, [0, T] ´e limitado ent˜ao estas regras de parada est˜ao bem definidas.
Defini¸c˜ao 2.7. Dado um processo adaptado e cont´ınuo a direita (Zt)t≥0 que satisfaz Zt≥0 para todot ≥0 e E[suptZt]<∞. Seja Ut= ess sup
τ∈S[t,∞)E[Zτ|Ft]. O envelope Snell deZ = (Zt)t≥0 ´e a modifica¸c˜ao cont´ınua a direita de U = (Ut)t≥0.
Precisaremos tamb´em dos dois seguintes resultados cl´assicos que podem ser encon- trados em [15] no apˆendice D.
Proposi¸c˜ao 2.4. Para cada α ∈ A o processo (Qα(s))0≤s≤T ´e Pα−supermartingale, c`adl`ag e o menor supermartingale que majoraYα(·), ou seja, ´e envelope Snell deYα(·).
Proposi¸c˜ao 2.5. Para quaisquer regras de parada t, ν, θ com t ≤ ν ≤ θ ≤ τtα temos Eα[Qα(θ)|Fν] = Qα(ν) q.c.; em partircular Qα(· ∧τ0α) ´e Pα−martingale. Al´em disso Zα(t) =Eα[Yα(t, τtα)|Ft] q.c.
Um lema que tamb´em nos ser´a muito ´util ´e o seguinte:
Lema 2.6. Suponha que t, θ s˜ao regras de parada tais que 0 ≤ t ≤ θ ≤ T. Dadas α,β∈A
i ) Se α= β em quase todo ponto de [[t, θ]] ent˜ao para qualquer vari´avel aleat´oria Ξ limitada e Fθ-mensur´avel,
Eα[Ξ|Ft] =Eβ[Ξ|Ft] q.c.
2. O jogo
ii ) DadoB ∈ Ft, seα=βem quase todo ponto de{(r, ω);t(ω)≤r≤θ(ω), ω ∈B}, ent˜ao a equa¸c˜ao de (i) vale emB.
Demonstra¸c˜ao. i) A partir de (2.2) definimos Λα(t, θ) := Λα(θ)
Λα(t). Sabemos que Q definida por dQ = ΛαTdP´e uma medida de probabilidade equivalente a P. Al´em disso Qt definida por dQt = Λαt dP´e a restri¸c˜ao deQ a Ft.
SejaA ∈ Ft, Z
A
Eα[Λα(t, θ)|Ft]dQ= Z
A
Eα Λαθ
Λαt |Ft
dQ= Z
A
Eα Λαθ
Λαt |Ft
dQt =
= Z
A
Λαθ
Λαt dQt = Z
A
Λαθ
Λαt ΛαtdP= Z
A
ΛαθdP= Z
A
1dQθ = Z
A
1dQ.
Logo, pela defini¸c˜ao de esperan¸ca condicional Eα[Λα(t, θ)|Ft] = 1 q.c. Por A.5 no apˆendice temos:
Eα[Ξ|Ft] = E[Λα(θ)Ξ|Ft]
E[Λα(θ)|Ft] = Λα(t)E[Λα(t, θ)Ξ|Ft]
Λα(t)E[Λα(t, θ)|Ft] =E[Λα(t, θ)Ξ|Ft] =
=E[Λβ(t, θ)Ξ|Ft] = Λβ(t)E[Λβ(t, θ)Ξ|Ft]
Λβ(t)E[Λβ(t, θ)|Ft] = E[Λβ(θ)Ξ|Ft]
E[Λβ(θ)|Ft] =Eβ[Ξ|Ft].
A terceira igualdade acima ´e verdadeira por queα=βem quase todo ponto sobre [[t, θ]]. Da´ı concluimos tamb´em que set =θ ent˜aoEα[Ξ] = Eβ[Ξ].
ii) Prova-se de maneira semelhante.
Fixemos ν ∈A e denotemos por V[0,θ] o conjunto de estrat´egias α tais que ν =α em [[0, θ]]. Observe que por (2.5) e (2.13) Zα(θ) independe dos valores queαtoma em [[0, θ]]. Logo, dada uma estrat´egia qualquerα∈Apodemos construir uma estrat´egiaβ tal queZβ(θ) = Zα(θ) q.c., basta tomarγ ∈ V[0,θ]qualquer e fazerβ =γ[[0,θ]]+α[[θ,T]].
Por isso a seguinte igualdade ´e verdadeira:
V(θ) = ess inf
α∈A Zα(θ) = ess inf
α∈V[0,θ]Zα(θ). (2.15)
Lema 2.7. Para cada θ ∈ S, dadas α,β ∈ V[0,θ] existe γ ∈ V[0,θ] tal que Zγ(θ) = Zα(θ)∧Zβ(θ).
Demonstra¸c˜ao. Considere o evento A = {Zα(θ) ≤ Zβ(θ)} ∈ Fθ e defina a estrat´egia α0 e a regra de parada τθ0 como seguem
α0 =
( ν(s, ω), se 0≤s≤θ(ω)
α(s, ω)·1A+β(s, ω)·1Ac, se θ(ω)≤s≤T.
2. O jogo
τθ0 =τθα·1A+τθβ·1Ac. Temos quase certamente o seguinte:
Zα0(θ) =Eα
0[Yα0(θ, τθα0)|Fθ] =Eα[Yα(θ, τθα0)|Fθ]·1A+Eβ[Yβ(θ, τθα0)|Fθ]·1Ac ≤
≤Zα(θ)·1A+Zβ(θ)·1Ac =Eα[Yα(θ, τθα)|Fθ]·1A+Eβ[Yβ(θ, τθβ)|Fθ]·1Ac =
=Eα
0[Yα0(θ, τθα)|Fθ]·1A+Eα
0[Yα0(θ, τθβ)|Fθ]·1Ac =Eα
0[Yα0(θ, τθ0)|Fθ]≤Zα0(θ).
(2.16) Pela Proposi¸c˜ao 2.5 a primeira igualdade de (2.16) ´e verdadeira. A primeira de- sigualdade de (2.16) segue de (2.13) seguida da aplica¸c˜ao de da Proposi¸c˜ao 2.5. Pelo Lema 2.6 a quarta igualdade de (2.16) ´e verdadeira e a quinta igualdade segue da defini¸c˜ao de τθ0. Como Zα(θ)· 1A +Zβ(θ) ·1Ac = Zα(θ)∧ Zβ(θ) q.c. o resultado
segue.
Note que acabamos de provar que para cada θ ∈ S a fam´ılia {Zα(θ),α ∈ V[0,θ]} tem a propriedade lattice. Por isso o seguinte Lema ´e verdadeiro.
Lema 2.8. Para cada θ∈ S existe uma sequˆencia decrescente (Zαn(θ))n∈N tal que
V(θ) = ↓n Zαn(θ) q.c. (2.17)
A prova deste lema ´e an´aloga `a prova de A.6 no apˆendice, apenas com uma pequena adapta¸c˜ao. A demonstra¸c˜ao ´e bastante simples mas utiliza um outro teorema n˜ao apresentado aqui. Para n˜ao adicionarmos ao trabalho resultados n˜ao essˆenciais n˜ao vamos prov´a-lo.
Cap´ıtulo 3
O valor do jogo
Como a existˆencia de pontos de cela se caracterizam pela iguadade V(0) = V(0) ent˜ao nossos dois objetivos est˜ao relacionados aos processos de valor do jogo. Portanto parece sensato come¸carmos o trabalho a partir deles. Neste cap´ıtulo faremos uma ampla an´alise desses processos, estudaremos suas propriedades e construiremos outras ferramentas e resultados a partir delas os quais nos ajudar˜ao a caracterizar e a encontrar os pontos de cela. O dois primeiros resultados s˜ao os principais do cap´ıtulo.
A grande quantidade de resultados apresentados a seguir pode ser um pouco can- sativa de se analisar, mas isso n˜ao deve desanimar o leitor quanto ao estudo do jogo.
Pois lembre-se que estamos aprendendo como o jogo funciona e, como em todo o jogo com n´ıvel de complexidade consider´avel, ter paciˆencia ´e essencial para aprender a jogar bem.
3.1 Vamos jogar
Nesta se¸c˜ao vamos alcan¸car um dos nossos objetivos: para todoθ∈ S V(θ) =V(θ).
Como visto no cap´ıtulo anterior, para cadaθ∈ S existe uma sequˆencia (Zαn(θ))n∈N, com (αn)n∈NemV[0,θ], tal queV(θ) =↓n Zαn(θ) q.c. Dadaθ ∈ Sconsidere a sequˆencia de regras de parada (τθαn)n∈N (como antes, est˜ao bem definidas) dadas por
τθαn := inf{s ∈[θ, T];g(Xs) =Zαn(s)}.
Como Zαm(s) ≥Zαn(s) q.c., se n ≥ m, ent˜ao por defini¸c˜aoτθαm ≥τθαn q.c., da´ı a sequˆencia de regras de parada acima definida ´e decrescente. Logo, est´a bem definida q.c. a seguinte regra de parada emS[θ,T]:
τθ∗ := ↓n τθαn. (3.1)
3. O valor do jogo
Como θ ≤ τθ∗ q.c. ent˜ao, para todo n, τθαn ≤ inf{s ∈ [τθ∗, T];g(Xs) = Zαn(s)}
q.c.. Se, por absurdo, τθαn < inf{s ∈ [τθ∗, T];g(Xs) = Zαn(s)} em algum B ∈ Ω de medida de Wiener n˜ao nula ent˜ao para cada ω ∈ B existiria r ∈ [τθ∗(ω), T] tal que τθ∗(ω) ≤ τθαn(ω) < r < inf{s ∈ [τθ∗(ω), T];g(Xs) = Zαn(s)} com g(Xr) = Zαn(r), contradi¸c˜ao. Logo τθαn = inf{s∈[τθ∗, T];g(Xs) = Zαn(s)} q.c.
Assim, os valores das estrat´egias admiss´ıveis αn sobre o intervalo [[0, τθ∗]] s˜ao irre- levantes para o c´alculo de τθαn. Ent˜ao, fixado ν ∈A, do mesmo modo que para V[0,θ], existe uma sequˆencia (αk)k∈N em V[0,τ∗
θ] de estrat´egias admiss´ıveis que coincidem com ν no intervalo [[0, τθ∗]] para a qual (3.1) vale.
Teorema 3.1. Para todo θ ∈ S V(θ) = V(θ) q.c. De um modo mais geral, para todo t∈ S e θ∈ St,T temos
ess inf
α∈A ess sup
τ∈Sθ,T Eα[Yα(t, τ)|Ft] = ess sup
τ∈Sθ,T
ess inf
α∈A Eα[Yα(t, τ)|Ft] q.c. (3.2) Demonstra¸c˜ao. J´a sabemos queV(θ)≥V(θ) q.c., vamos ent˜ao mostrar a desigualdade inversa. Fixemos ν ∈A e tomemos uma sequˆencia (αn)∈ V0,τ∗
θ tal que (3.1) vale.
Pela Proposi¸c˜ao 2.5
Zαn(θ) = Eα
n[Yαn(θ, τθαn)|Fθ] q.c.
da´ı,
V(θ)≤Eα
n[Yα(θ, τθαn)|Fθ] =E[Λαn(θ, τθαn)Yαn(θ, τθαn)|Fθ] =
=E
"
Λν(θ, τθ∗)Λαn(τθ∗, τθαn){Yν(θ, τθ∗) +g(X
ταnθ
θ
)−g(Xτ∗
θ) + Z ταn
θ
τθ∗
f(s, X, αns)}|Fθ
#
q.c.
(3.3) A primeira igualdade de (3.3) segue da demonstra¸c˜ao do Lema 2.6. Para a segunda igualdade note o seguinte
Λν(θ, τθ∗)Λαn(τθ∗, τθαnθ) = exp
Z τθ∗ θ
hσ−1(s, X, νs)b(s, X, νs), dWsi −1 2
Z τθ∗ θ
||σ−1(s, X, νs)b(s, X, νs)||2ds
·
·exp
"
Z ταn
θ
τθ∗
hσ−1(s, X, αns)b(s, X, αns), dWsi −1 2
Z ταn
θ
τθ∗
||σ−1(s, X, αns)b(s, X, αns)||2ds
#
q.c.
(3.4) Como αn coincide com ν no intervalo [[θ, τθ∗]] ent˜ao o processo (νs)s no primeiro
3. O valor do jogo
processo exponencial de (3.4) pode ser substituido por (αns)s. Ficamos ent˜ao com Λν(θ, τθ∗)Λαn(τθ∗, τθαn) =
= exp
"
Z ταn
θ
θ
hσ−1(s, X, νs)b(s, X, αns), dWsi −1 2
Z ταnθ θ
||σ−1(s, X, νs)b(s, X, αns)||2ds
#
=
= Λαn(θ, τθαn) q.c.
Como σ−1 ´e limitada, pelo teorema da convergˆencia limitada podemos tomar o limite quandon → ∞em (3.3) e ficamos com
V(θ)≤E[Λν(θ, τθ∗)Yν(θ, τθ∗)|Ft] =Eν[Yν(θ, τθ∗)|Ft] q.c. (3.5) Perceba que ν ∈ A foi tomado arbitrariamente, logo podemos tomar o ´ınfimo na
´
ultima igualdade de (3.5) e obtermos:
V(θ)≤ess inf
ν∈A Eν[Yν(θ, τθ∗)|Ft]≤ess sup
τ∈S[θ,T]
ess inf
ν∈A Eν[Yν(θ, τ)|Ft] =V(θ) q.c.
Portanto V(θ) =V(θ) q.c.. Vamos agora provar (3.2).
ess inf
α∈A
ess sup
τ∈Sθ,T Eα
Yα(θ, τ) + Z θ
t
f(s, X, αs)ds|Ft
≤
≤ess sup
τ∈Sθ,T Eα
n
Yαn(θ, τ) + Z θ
t
f(s, X, αns)ds|Ft
≤
≤Eα
n[ess sup
τ∈Sθ,T Eα
n
Yαn(θ, τ)|Fθ +
Z θ t
f(s, X, αs)|Ft] =
=Eα
n Eα
n
Yαn(θ, τθαn)|Fθ +
Z θ t
f(s, X, αns)|Ft
=
=Eα
n
Yαn(θ, τθαn) + Z θ
t
f(s, X, αns)|Ft
=Eα
n[Yαn(t, τθαn)|Ft] q.c.
(3.6)
A segunda desigualdade de (3.6) segue do seguinte, ess sup
τ∈Sθ,T Eα
n
Yαn(θ, τ)|Ft
= ess sup
τ∈S[θ,T] Eα
n Eα
n
Yαn(θ, τ)|Fθ
|Ft
≤
≤Eα
n
"
ess sup
τ∈Sθ,T Eα
n
Yαn(θ, τ)|Fθ
|Ft
#
q.c.
J´a a primeira igualdade de (3.6) segue da Proposi¸c˜ao 2.5 lembrando de (2.13). Note que Eα
n[Yαn(t, τθαn)|Ft] = Eν[Yν(t, τθαn)|Ft] q.c., por causa da Proposi¸c˜ao 2.6, e da´ı,
3. O valor do jogo
tomando o limite quando n→ ∞ em (3.6) temos:
ess inf
α∈A
ess sup
τ∈Sθ,T Eα
Yα(θ, τ) + Z θ
t
f(s, X, αs)ds|Ft
≤Eν[Yν(t, τθ∗)|Ft] q.c.
Como ν ´e arbrit´ario podemos tomar o ´ınfimo essencial sobre ν ∈ A e depois o supremo essencial sobreτ ∈ Sθ,T obtendo:
ess inf
α∈A
ess sup
τ∈Sθ,T Eα
Yα(θ, τ) + Z θ
t
f(s, X, αs)ds|Ft
≤ess sup
τ∈Sθ,T
ess inf
ν∈A Eν[Yν(t, τ)|Ft] q.c.
A partir de agora escreveremos V(·) = V(·) = V(·) para o processo de valor do jogo.
Proposi¸c˜ao 3.2. O processo V(·) ´e cont´ınuo a direita
Demonstra¸c˜ao. Como o processo (Zα(s))0≤s≤T ´e limitado e j´a provamos que a fam´ılia {Eα[Yα(t, τ)|Ft],α ∈ A[t,T]} tem a propriedade de lattice, ent˜ao n˜ao ´e necess´aria a hip´otese de que para todo s Zα(s) ≥ 0 q.c. para podermos usar A.8 no apˆendice, o qual nos garante a existˆencia de uma modifica¸c˜ao c`adl`ag de (Zα(s))0≤s≤T. Temos ent˜ao que, para cada t ∈ [0, T] lim inf
s↓t V(s) ≤ lim inf
s↓t Zα(s) = Zα(t) q.c. Tomando o
´ınfimo sobreA obtemos lim inf
s↓t V(s)≤V(t) q.c..
Sabemos que o processo descrito em (2.12) ´e umPα−submartingale, ent˜ao, por A.9 no apˆendice, existe e ´e finito q.c. o limite lim
s↓t Ψ(s, τ). A finitude vem do fato de o pr´oprio J(s, τ) ser limitado para todo s, como Rs
0 f(r, X, αr)dr ´e cont´ınuo em s ent˜ao o limite lim
s↓t J(s, τ) tamb´em existe e ´e finito q.c.
Ent˜ao podemos definir:
J(t+, τ) = lim
s↓t J(s, τ) sobre {t < τ} , J(t+, τ) =g(X(τ)) sobre{t=τ}.
Para qualquer t∈[0, T] e τ ∈ St,T, pela defini¸c˜ao de J em (2.11) temos lim inf
s↓t V(s)≥lim inf
s↓t J(s, s∨τ) = lim inf
s↓t J(s, τ){t<τ}+J(s, s){t=τ} =
= lim
s↓t J(s, τ) + lim inf
s↓t g(X(s)) =J(t+, τ) +g(X(t)) =J(t+, τ) +J(t, t) q.c.
(3.7)
A pen´ultima igualdade em (3.7) ´e verdadeira q.c. porque g(·), Xs s˜ao cont´ınuos.
3. O valor do jogo
Da´ı, sobre{t < τ}, obtemos lim inf
s↓t V(s)≥lim
s↓t J(s, τ) = Eα
lims↓t J(s, τ)|Ft+
=
=Eα
lims↓t J(s, τ) + Z s
t
f(r, X, αr)dr|Ft
=
= lim
s↓t Eα
J(s, τ) + Z s
t
f(r, X, αr)dr|Fr
≥J(t, τ) q.c.
(3.8)
A primeira igualdade em (3.8) ´e verdadeira por que o processo lim
s↓t J(t, τ) ´e adaptado aFt+. A segunda igualdade em (3.8) ´e verdadeira por que a filtragem F ´e cont´ınua a direita (ver A.10 no apˆendice) e para a terceira igualdade de (3.8) usamos o teorema da convergˆencia dominada. A ´ultima desigualdade de (3.8) segue do fato de que o processo Ψ(t, τ) = J(t, τ) +Rt
0 h(s, X, αs)ds ´e um Pα−submartingale, pois isto tem como consequˆencia
Eα
J(s, τ) + Z s
t
f(r, X, αr)dr|Fr
≥J(t, τ) q.c.
Portanto, tomando o supremo essencial sobreSt,T obtemos a desigualdade lim inf
s↓t V(s)≥
V(t). Segue ent˜ao o resultado.
Vamos definir agora mais uma classe de regras de parada.
Defini¸c˜ao 3.1. Para cada t ∈ S e 0< < 1, de maneira an´aloga as outras regras de parada definidas anteriormente, est˜ao bem definidas
%t() := inf{s∈[t, T];g(X(s))≥V(s)−} ; %t :=%t(0) (3.9) Como V(·) ≥ g(X(·)) q.c. ent˜ao, para cada α ∈ A, s˜ao verdadeiras quase certa- mente as seguintes desigualdades:
%t∨τtα()≤τtα , %t()≤τtα∧%t. (3.10) Para cadaα∈A vamos definir o seguinte processo:
Rα(t) :=V(t) + Z t
0
f(s, X, αs)ds; t∈ S (3.11) Perceba que Rα(t) ≥ g(X(t)) +Rt
0 f(s, X, αs)ds = Yα(t) q.c.. Rα(t) ´e o custo cumulativo do controller em usar a estrat´egia α no intervalor [[0,t]] mais o valor do jogo emt.