MAC 5796. Aula 6
Walter Mascarenhas06/04/2011
Resumo
1 Onde estamos e para onde vamos
2 Variáveis aleatórias
3 Valor Esperado
4 Variância
Onde estamos
Derivamos as seguintes fórmulas para o preço no passo n:
P(pn= v × tick) = ( n n+v 2 ) pn+v2 q n−v 2 𝔼(pn) = n (p − q) tick σ (pn) = 2 √ npq tick.
DeMoivre e Laplace provaram que, para a, b moderados e n enorme, P ( a ≤ pn− n (p − q) tick 2√npq tick < b ) ≈√1 2π ∫ b a e−s2/2ds.
Definindo σ e µ através das equações tick = √σ n, p = 1 2+ µ 2σ√n e q = 1 2− µ 2σ√n obtemos P ( a ≤pn− µ σ < b ) ≈√1 2π ∫ b a e−s2/2ds.
2√npq n (p − q)
n
Para onde vamos
Processos descritos pela equação diferencial estocástica dXt= µ(Xt) dt + σ (Xt) dBt.
Calcularemos o valor esperado ao encerarmos o trade segundo um stopping time τ. Para isso usaremos, entre outras coisas, a fórmula de Dynkin: 𝔼(e−ρτf (Xτ)) = f (X0) + 𝔼 (∫ τ 0 e−ρs((𝒜− ρ) f ) (Xs) ds ) .
𝔼(e−ρτf (Xτ)) = f (X0) + 𝔼 (∫ τ 0 e−ρs((𝒜− ρ) f ) (Xs) ds ) .
Dado um espaço de probabilidade (Ω, 𝒜, P), dizemos que uma função f : Ω 7→ [−∞, ∞] é uma variável aleatória se, para todo intervalo I = (a, b), o conjunto
{ x tal que f (x) ∈ I } pertence a 𝒜.
É comum dizer que a f acima é uma função mensurável.
Funções não mensuráveis existem mas são equisitíssimas. Por isso, em uma primeira aproximação, você pode assumir que toda função f : Ω 7→ [−∞, ∞] é uma variável aleatória. (E eu chamarei sua atenção quando a distinção for relevante.)
Altura
Peso
R
R
Qualquer combinação não muito maluca de variáveis aleatórias resulta em uma variável aleatória:
A soma ou o produto de um número finito de variáveis aleatórias é um variável aleatória
A composta de variáveis aleatórias é uma variável aleatória. Por exemplo se f é uma variável aleatória então
sin(arctan(√f2+ π))
também é uma variável aleatória.
Se a seqüência { fn, n ∈ N} de variáveis aleatórias é tal que
limn→∞fn(ω) existe para todo ω ∈ Ω então
Exemplo Ω = [0, 1], com a σ -álgebra usual (de Borel).
fn(ω) = ωn fn(ω) →
{
0 se ω < 1, 1 se ω = 1. lim fn é mensurável mas descontínua.
Se f é uma variável aleatória em (Ω, 𝒜, P) então para todo conjunto mensurável C ⊂ [−∞, +∞] o conjunto
f−1(C ) = { ω ∈ Ω com f (ω) ∈ A }
pertence a 𝒜. Logo, podemos usar a expressão ℒf(C ) = P(f−1(C )
)
para definir uma medida de probabilidade em [−∞, +∞]. Esta medida é chamada de lei ou distribuição de f .
C Ω f−1(C ) f P(f−1(C )) =√1 2πσ ∫ Ce(s−µ) 2 /2σ2ds
No modelo de Black & Scholes, Ω é o espaço dos caminhos dos preços e, para cada t > 0, a variável aleatória ln ωt tem distribuição
normal com média igual ao drift µ e desvio padrão igual a volatilidade σ .
As variáveis aleatórias mais simples definidas em (Ω, 𝒜, P) são as funções indicadoras. Para cada A ∈ 𝒜, a função indicadora de A é
1{A}(ω) = {
1 se ω ∈ A 0 se ω ∕∈ A
Uma combinação finita de funções indicadoras é chamada de função simples: f = n
∑
k=1 ak1{Ak} .O valor esperado de uma variável aleatória simples f = ∑nk=0ak1{Ak}, é definido como
𝔼(f ) =
n
∑
k=1
P(Ak) ak. (1)
O valor esperado é importante pois:
Ele dá uma informação resumida sobre a f . (É UM número que diz muito sobre a variável aleatória).
Dada uma seqüência { Xn, n ∈ N} de variáveis aleatórias com
a mesma distribuição temos que P ( lim n→∞ 1 n n
∑
k=1 Xk(ω) = 𝔼(X1) ) = 1. Ou seja, a média converge para o valor esperado com probabilidade 1.Dizemos que f é discreta se f = ∑∞
k=0ak1{Ak}. Neste caso, se
f ≥ 0, definimos a integral de f como
𝔼(f ) =
∞
∑
k=1
P(Ak) ak. (2)
É preciso tomar cuidado com f ´s que mudam de sinal pois a soma em (??) pode levar a algo do tipo −∞ + +∞. Por exemplo, Ω = N, P(n) = 2−n e f (n) = (−2)n. Neste caso a soma (??) não está definida, pois há infinitas parcelas iguais a 1 e infinitas parcelas iguais a −1.
Para lidar com problema do cancelamento definimos
f+= max { f , 0 } e f−= − min { f , 0 }.
Note que
f+ e f−≥ 0 e f = f+− f−.
Quando f é discreta, dizemos que f é integrável se 𝔼(f+) < ∞ e
𝔼(f−) < ∞, onde 𝔼(f+) e 𝔼(f−) são as somas definidas anteriormente. Neste caso definimos
𝔼(f ) = 𝔼(f+) − 𝔼(f−).
A integral (de Lebesgue) de uma variável aleatória não negativa f : Ω → [0, ∞] é definida como o limite das somas
In(f ) = nP(f ≥ n) + n2n−1
∑
k=1 (2−nk ) P(k2−n≤ f < (k + 1)2−n) . 𝔼(f ) = limn→∞In(f ) . (3)Quando f muda de sinal dizemos que ela é integrável se 𝔼(f+) < ∞
e 𝔼(f−) < ∞, com 𝔼(f+) e 𝔼(f−) definidas por (??). Neste caso também definimos
1/4 1/2 3/4 1 5/4 3/2 7/4 2 -6
A variável aleatória f é integrável se e só se ∣f ∣ = f+− f− é
integrável. Denotamos por ℒ1(Ω, 𝒜, P) o espaço das variáveis
A integral é um operador linear, ie., se f e g são integráveis e a ∈ R então h = af + g é integravel e
𝔼(h) = 𝔼(af + g ) = a𝔼(f ) + 𝔼(g ).
Note que a situação é mais delicada para o produto. Considere Ω = N e P(n) = 2−n. A função f (n) = 2n/2 é integravel: 𝔼(f ) = ∞
∑
n=1 2−n2n/2= ∞∑
n=1 ( 1 √ 2 )n = 1/ √ 2 1 −√1 2 < ∞. Porém 𝔼(f2) = ∞∑
n=1 2−n(2n/2)2= ∞∑
n=1 1 = ∞.Teorema da convergência monótona: se { fn, n ∈ N} é uma
seqüência crescente de variáveis aleatórias não negativas então f (ω) = limn→∞fn(ω) é uma variável aleatória não negativa e
𝔼(f ) = limn→∞𝔼(fn).
ℒ2(Ω, 𝒜, P) é a família de variáveis aleatórias f em (Ω, 𝒜, P) tais
que 𝔼(f2) < ∞.
Se f ∈ ℒ2(Ω, 𝒜, P) então f é integrável pois
𝔼(∣f ∣) = 𝔼(∣f ∣; ∣f ∣ ≤ 1) + 𝔼(∣f ∣; ∣f ∣ > 1) ≤ 1 + 𝔼(f2) < ∞. Para f ∈ ℒ2(Ω, 𝒜, P) podemos definir
variancia(f) = 𝔼 ( (f − 𝔼(f))2 ) e o desvio padrão de f : σ (f ) =√variancia (f).
Desvio pequeno Desvio grande
Variância = dispersão da variável aleatória ao redor da média. Desigualdade de Chebyshev:
P(∣f − 𝔼(f )∣ ≥ ε) ≤σ (f )
2
Desigualdade de Schwarz: se f , g ∈ ℒ2(Ω, 𝒜, P) então
𝔼(∣fg ∣) ≤ √
𝔼(f2)𝔼(g2).
Demonstração da desigualdade de Schwarz. Primeiro passo: esquentando os motores.
f = 1{A} e g = 1{B} .
Neste caso
𝔼(∣fg ∣) = 𝔼(1{A} 1{B }) = 𝔼(1{A ∩ B }) = P(A ∩ B ) . 𝔼(f2) = 𝔼(1{A}) ≥ P(A ∩ B). 𝔼(g2) = 𝔼(1{A}) ≥ P(A ∩ B). Logo 𝔼(∣fg ∣) ≤ √ P(A ∩ B)2≤ √ 𝔼(f2)𝔼(g2).
Segundo passo: f = n
∑
j =1 aj1{Aj} e g = m∑
k=1 bk1{Bk} . Neste caso ∣fg ∣ = n∑
j =1 m∑
k=0 ∣ajbk∣ 1{Aj} 1{Bk} = n∑
j =1 m∑
k=1 ∣ajbk∣ 1{Aj∩ Bk}Logo, como P(A ∩ B) ≤√P(A)√P(B),
𝔼(∣fg ∣) = n
∑
j =0 m∑
k=0 ∣ajbk∣ P(Aj∩ Bk) ≤ n∑
j =1 m∑
k=1 ( ∣aj∣ √ P(Aj) ) ( ∣bk∣ √ P(Bk) ) .Pela desigualdade de Cauchy (para números) 𝔼(∣fg ∣) ≤ v u u ⎷ ( n
∑
j =1 a2 jP(Aj) ) ( m∑
k=1 b2 kP(Bk) ) = √ 𝔼(f2)𝔼(g2).Logo, a desigualdade vale quando f e g são funções simples. Usamos agora o Teorema da Classe Monótona:
Versão simplificada do teorema da classe monótona1.
Considere duas famílias 𝒞 ⊂ ℳ de variáveis aleatórias não negativas Se
𝒞 contém todas as funções da forma f = ∑nk=1ak1{Ak} com
ak ∈ [0, ∞) e Ak ∈ 𝒜.
Se { fn, n ∈ N} é uma seqüência de elementos de 𝒞 e
fn↑ f ∈ ℳ então f ∈ 𝒞.
então 𝒞 = ℳ.
1
veja Probability with Martingales, de David Williams, para a versão completa.
Terceiro passo: f =
n
∑
j =1
aj1{Aj} com aj ≥ 0 e g ≥ 0 com 𝔼(g2) < ∞.
Classes: ℳ ={ g ≥ 0 com 𝔼(g2) < ∞ } e 𝒞f = { g ∈ ℳ tal que 𝔼(∣fg ∣) = 𝔼(fg ) ≤ √ 𝔼(f2)𝔼(g2) } . Segundo passo ⇒ 𝒞f contém as g ’s simples.
Convergência monótona: Se gn∈ 𝒞f ↑ g ∈ ℳ então
fgn↑ fg ⇒ 𝔼(fg) = lim 𝔼(fgn) ≤
√
𝔼(f2) lim 𝔼(gn2) =
√
𝔼(f2)𝔼(g2).
Quarto passo: f ≥ 0 com 𝔼(f2) < ∞ e g ≥ 0 com 𝔼(g2) < ∞. Classes: ℳ ={ g ≥ 0 com 𝔼(g2) < ∞ } e 𝒞f = { g ∈ ℳ tal que 𝔼(∣fg ∣) = 𝔼(fg ) ≤ √ 𝔼(f2)𝔼(g2) } . Terceiro passo ⇒ 𝒞f contém as g ’s simples.
Convergência monótona: Se gn∈ 𝒞f ↑ g ∈ ℳ então
fgn↑ fg ⇒ 𝔼(fg) = lim 𝔼(fgn) ≤
√
𝔼(f2) lim 𝔼(gn2) =
√
𝔼(f2)𝔼(g2).
Logo, g ∈ ℳ e classe monótona ⇒ 𝒞f = ℳ.
Resumo 𝔼(∣fg ∣) ≤ √ 𝔼(f2)𝔼(g2) se f , g ≥ 0 e 𝔼(f2), 𝔼(g2) < ∞. Caso geral: 𝔼(∣fg ∣) = 𝔼(∣f ∣ ∣g ∣) ≤ √ 𝔼 ( ∣f ∣2)𝔼 ( ∣g ∣2)= √ 𝔼(f2)𝔼(g2). E se 𝔼(f2) ou 𝔼(g2) = ∞?
Duas variáveis aleatórias f e g são independentes se para todo intervalo I = [a, b] e J = [c, d ] os eventos f−1(I ) e g−1(J) são independentes.
Informalmente, f e g são independentes se o valor de uma não fornece informação sobre o valor da outra. Por exemplo se Ω é o baralho, com cartas de igual probabilidade, então f e g a seguir são independentes:
f (♦∗) = 1, f (♥∗) = 2, f (♣∗) = 3, f (♠∗) = 4.
g (∗A) = 1, g (∗n) = n, g (∗J) = 11, g (∗Q) = 12, g (∗K ) = 13.
Teorema: se f , g ∈ ℒ2(Ω, 𝒜, P) são independentes então 𝔼(fg ) = 𝔼(f )𝔼(g ).
Caso simples: f = n
∑
j =1 aj1{Aj} e g = m∑
k=1 bk1{Bk} . fg = n∑
j =1 m∑
k=1 ajbk1{A} 1{B} = n∑
j =1 m∑
k=1 ajbk1{A ∩ B} . 𝔼(fg ) = n∑
j =1 m∑
k=1 ajbkP(Aj∩ Bk)Independência ⇒ P(Aj∩ Bk) = P(Aj) P(Bk) e
𝔼(fg ) = n
∑
j =1 m∑
k=1 ajbkP(Aj) P(Bk) = 𝔼(f )𝔼(g ).Caso semi simples:
f = simples ≥ 0 e g ∈ ℒ2(Ω, 𝒫, A)
Considere a classes ℳ ={ g ∈ ℒ2(Ω, 𝒫, A) e independente de f } e 𝒢 = { g ∈ ℳ tal que 𝔼(fg ) = 𝔼(f )𝔼(g ) }.
𝒢 contém as funções simples (Caso simples). Se { gn, n ∈ N} ∈ 𝒢 e gn↑ g ∈ ℳ então fgn↑ fg e
𝔼(fgn) = 𝔼(f )𝔼(gn) ↑ 𝔼(f )𝔼(g ) pelo Teorema da convergência
monótona. Logo g ∈ 𝒢.
Pelo teorema da classe monótona, 𝒢 = ℳ. Ou seja, para toda g ∈ ℒ2(Ω, 𝒫, A) independente de f temos que 𝔼(fg ) = 𝔼(f )𝔼(g ).
Caso não negativo:
f ∈ ℒ2(Ω, 𝒫, A) ≥ 0 e g ∈ ℒ2(Ω, 𝒫, A) ≥ 0
Considere a classes
ℳ ={ g ∈ ℒ2(Ω, 𝒜, P) , g ≥ 0 e independente de f } e
𝒢 = { g ∈ ℳ tal que 𝔼(fg) = 𝔼(f )𝔼(g) }.
𝒢 contém as funções simples ≥ 0 (Caso semi simples). Se { gn, n ∈ N} ∈ 𝒢 e gn↑ g ∈ ℳ então fgn↑ fg e
𝔼(fgn) = 𝔼(f )𝔼(gn) ↑ 𝔼(f )𝔼(g ) pelo Teorema da convergência
monótona. Logo g ∈ 𝒢.
Pelo teorema da classe monótona, 𝒢 = ℳ. Ou seja, para todas f , g ∈ ℒ2(Ω, 𝒫, A), f,g ≥ 0 e independentes temos que
𝔼(fg ) = 𝔼(f )𝔼(g ).
Caso geral f = f+− f−, f+, f−∈ ℒ2(Ω, 𝒜, P) , g = g+− g−, g+, g−∈ ℒ2(Ω, 𝒜, P) , 𝔼(fg ) = 𝔼(f+g+− f+g−− f−g++ f−g−) = 𝔼(f+g+) − 𝔼(f+g−) − 𝔼(f−g+) + 𝔼(f−g−) = 𝔼(f+)𝔼(g+) − 𝔼(f+)𝔼(g−) − 𝔼(f−)𝔼(g+) + 𝔼(f−)𝔼(g−) =(𝔼(f+) − 𝔼(f−)) (𝔼(g+) − 𝔼(g−)) = 𝔼(f )𝔼(g).
A covariância entre duas variáveis aleatórias f e g em ℒ2(Ω, 𝒜, P) é definida como
cor (f , g ) = 𝔼((f − 𝔼(f )) (g − 𝔼(g ))).
A covariância é uma medida de independência: Se f e g são independentes então f − 𝔼(f ) e g − 𝔼(g ) também são independentes e
cor (f , g ) = 𝔼((f − 𝔼(f )) (g − 𝔼(g ))) = 𝔼(f − 𝔼(f ))𝔼(g − 𝔼(g )) = 0. Em geral variáveis dependentes podem ter correlação 0, ou seja a correlação nula é apenas um indicativo de independência. Porém, para variáveis com distribuição normal ausência de correlação é equivalente a independência.