Conteúdo
1. Preliminares 3
1.1. Conceitos básicos de teoria das probabilidades . . . 3
1.1.1. Variáveis aleatórias . . . 3
1.1.2. Vetores aleatórios . . . 10
1.1.3. Independência e dependência . . . 15
1.2. Processos estocásticos . . . 18
1.3. Movimento browniano . . . 26
1.3.1. Propriedades da definição . . . 26
1.3.2. Processos derivados do movimento browniano . . . 32
1.3.3. Simulações de caminhos amostrais brownianos . . . 35
1.4. Esperança condicional . . . 45
1.4.1. Esperança condicional sob a condição discreta . . . 45
1.4.2. Sobreσ-álgebras . . . 50
1.4.3. A esperança condicional geral . . . 54
1.4.4. Regras para o cálculo da esperança condicional . . . 57
1.4.5. A propriedade da projeção de esperanças condicionais . . . 60
1.5. Martingais . . . 63
1.5.1. Propriedades definidoras . . . 63
1.5.2. Exemplos . . . 66
1.5.3. A interpretação de um martingal como um jogo não viciado . . . 69
2. A integral estocástica 71 2.1. As integrais de Riemann e de Riemann-Stieltjes . . . 71
2.1.1. A integral de Riemann ordinária . . . 72
2.1.2. A integral de Riemann-Stieltjes . . . 75
2.2. A integral de Ito . . . 79
2.2.1. Um exemplo motivador . . . 79
2.2.2. A integral estocástica de Ito para processos simples . . . 82
2.2.3. A integral estocástica geral de Ito . . . 88
2.3. O lema de Ito . . . 92
2.3.1. A regra da cadeia clássica para a diferenciação . . . 92
2.3.2. Uma versão simples do lema de Ito . . . 94
2.3.3. Versões estendidas do lema de Ito . . . 96
3.1. Equações diferenciais determinísticas . . . 107
3.2. As equações diferenciais estocásticas de Ito . . . 110
3.2.1. O que é uma equação diferencial estocástica? . . . 110
3.2.2. Resolvendo EDEs usando o lema de Ito . . . 113
3.2.3. Resolvendo equações diferenciais estocásticas de Ito através do cálculo de Stratonovich . . . 119
3.3. A equação diferencial linear geral . . . 123
3.3.1. Equações lineares com ruído aditivo . . . 123
3.3.2. Equações homogêneas com ruído multiplicativo . . . 126
3.3.3. O caso geral . . . 127
3.3.4. As funções de esperança e variância da solução . . . 128
3.4. Solução numérica . . . 129
3.4.1. A aproximação de Euler . . . 130
3.4.2. A aproximação de Milstein . . . 133
4. Aplicações do cálculo estocástico em finanças 137 4.1. A fórmula de Black-Scholes do apreçamento de opções . . . 137
4.1.1. Uma breve excursão através das finanças . . . 137
4.1.2. O que é uma opção? . . . 139
4.1.3. Uma formulação matemática do problema de apreçamento de opções . . . . 141
4.1.4. A fórmula de Black e Scholes . . . 143
4.2. Uma técnica útil: a mudança de medida . . . 145
4.2.1. O que é a mudança da medida subjacente . . . 145
4.2.2. Uma interpretação da fórmula de Black-Scholes pela mudança de medida . 148 A. Apêndice 153 A.1. Modos de convergência . . . 153
A.2. Desigualdades . . . 155
A.3. Não diferenciabilidade e variação ilimitada dos caminhos amostrais brownianos . . 156
A.4. Demonstração da existência da integral estocástica geral de Ito . . . 157
A.5. O teorema de Radon-Nikodym . . . 160
A.6. Prova da existência e unicidade da esperança condicional . . . 160
CAPÍTULO1
P RELIMINARES
Neste capítulo iremos coletar alguns fatos básicos necessários para definirmos as integrais estocás- ticas. Em uma primeira leitura, a maioria das partes deste capítulo podem ser deixadas de lado, contanto que você possua algum conhecimento básico de teoria das probabilidades e processos estocásticos. Você poderá então começar pelo capítulo 2 que trata do cálculo estocástico de Ito e revisar alguns fatos deste capítulo, se necessário.
Na seção 1.1 iremos revisar noções elementares de teoria das probabilidades tais comovar- iáveis aleatórias, vetores aleatórios,distribuições,funções de distribuição,densidade,esperança,mo- mento,variânciaecovariância. Esta pequena revisão não pode ser um substitutivo de um curso inteiro de probabilidade, e portanto recomenda-se que você consulte suas anotações do curso ou um texto padrão. A seção 1.2 trata dosprocessos estocásticos. Um processo estocástico é um mod- elo natural para a descrição de processos da vida real, objetos e sistemas no espaço e no tempo.
Um processo estocástico particular desempenha um papel central no presente livro: movimento browniano. Ele será introduzido na seção 1.3 onde discutiremos algumas de suas propriedades ele- mentares, em particular a não-diferenciabilidade e a variação ilimitada de seus caminhos amostrais.
Essas propriedades indicam que os caminhos amostrais brownianos são bastante irregulares, e por- tanto um novo cálculo estocástico tem de ser introduzido para as integrais referentes a movimentos brownianos.
Na seção 1.4 nós iremos brevemente revisar asesperanças condicionais. Sua definição precisa baseia-se em uma teoria matemática profunda, e portanto somente daremos alguma intuição a respeito desse conceito. A mesma observação se aplica à seção 1.5, onde introduziremos uma classe importante de processos estocásticos: osmartingais. Estes incluem o movimento browniano e as integrais indefinidas de Ito como exemplos particulares.
1.1. Conceitos básicos de teoria das probabilidades
1.1.1. Variáveis aleatórias
O resultado de um experimento ou jogo é aleatório. Um simples exemplo é o do lançamento de uma moeda: os possíveis resultados “cara” ou “coroa” não são previsíveis no sentido de apare- cerem segundo um mecanismo aleatório que é determinado pelas propriedades físicas de uma moeda. Existem os resultados aleatórios das atividades dos corretores (que representam na reali- dade tendências econômicas, interesses políticos, bem como os próprios instintos) que se refletem nos preços das ações e nas taxas de câmbio. Outro jogo é denominado de “competição” e pode
ser visualizado onde os produtos se encontram à venda: o preço de 1 kg de bananas, digamos, é o resultado, por um lado, de um jogo entre os donos das lojas, e de outro entre os donos de lojas e os consumidores.
O tratamento científico de um experimento requer a atribuição de um número a cada resul- tado aleatório. Ao lançarmos uma moeda, podemos escrever “1” para nos referirmos a “cara” e
“0” para “coroa.” Assim, obteremos umavariável aleatória X =X(ω)∈ {0,1}, ondeωpertence aoespaço de resultadosΩ ={cara,coroa}. O valor do preço de uma ação já é um número aletório, como também o é o preço de uma banana em uma quitanda. Tais númerosX(ω)nos fornecem uma informação a respeito de um experimento, mesmo que não saibamos quem participa do jogo ou quem o impulsiona.
Os matemáticos fazem uma clara distinção entre realidade e modelo matemático: eles definem um espaço abstratoΩcoletando todos os possíveis resultadosωde um experimento subjacente.
Trata-se de um espaço abstrato, i.e., na realidade não importando o que esses objetosωsão. Em linguagem matemática, avariável aleatória X =X(ω)nada mais é do que uma função real definida sobreΩ.
O passo seguinte do processo de abstração da realidade é a descrição probabilística da variável aleatóriaX:
Quais os valores mais prováveis de X(ω), onde eles estão concentrados, e qual seuspread?
Para abordarmos esses problemas, primeiro coletamos os subconjuntos “bons” deΩ, os as- sim denominadoseventosde uma classeF, digamos. Em textos avançados,F é denominado de σ-álgebra. Veja mais adiante na página 50 uma definição precisa desse conceito. Tal classe suposta- mente contém todos os eventos interessantes. O que seriaF para o lançamento de uma moeda?
Certamente{ω:X(ω) =0}={cara}e{ω:X(ω) =1} ={coroa}devem pertencer aF, mas a união, diferença e intersecção de quaisquer eventos em F também devem pertencer aF. O mesmo se dá com os conjuntosΩ ={cara,coroa}e seu complemento, o conjunto vazio;. Trata-se de um exemplo trivial, mas que mostra comoF deveria ser: seA∈ F, então seu complemento Ac também pertence; e seA,B∈ F, então também estarão emF A∩B,A∪B,A∪Bc,B∪Ac, e assim por diante.
Se consideramos o preço de uma açãoX, não somente os eventos{ω:X(ω) =c}deveriam pertencer aF, como também
{ω:a<X(ω)≤b}, {ω:b<X(ω)}, {ω:X(ω)≤a},
bem como muito mais eventos que podem ser relevantes para tal situação. Como no caso do lançamento de uma moeda, gostaríamos que as operações elementares tais como∩,∪,caplicadas a eventos deF não nos levassem para fora da classeF. Este é o significado intuitivo de uma σ-álgebraF.
Probabilidade, Distribuição e Funções de distribuição
Perguntamos agora, onde entram asprobabilidades? Ao lançarmos uma moeda, ocorrerá “cara” ou
“coroa”. As probabilidades medem a verossimilhança de tais eventos ocorrerem. Se a moeda é não viciada, iremos atribuir a probabilidade 0.5 a ambos os eventos, i.e.,P({ω:X(ω) =0}) =P({ω: X(ω) =1}) =0.5. Esta definição matemática é baseada em evidência empírica: ao lançarmos uma moeda não viciada um grande número de vezes, esperamos que em aproximadamente 50% das
1.1. Conceitos básicos de teoria das probabilidades
vezes seja obtida “cara” e nas restantes 50% seja obtida “coroa.” Em teoria das probabilidades, alei dos grandes númerosfornece a justificativa teórica de tais observações empíricas.
Este exemplo elementar expressa o que é umamedida de probabilidadesobre uma classeF de eventos: para cada eventoA∈ F ela associa um valorP(A)∈[0,1]. Tal número é a fração esperada de ocorrências do eventoAem uma séria longa de experimentos em queAeAcsão observadas.
Algumas propriedades elementares de medida de probabilidade podem ser facilmente suma- rizadas:
Para eventosA,B∈ F
P(A∪B) =P(A) +P(B)−P(A∩B), e, seAeBsão disjuntos,
P(A∪B) =P(A) +P(B).
Além disto,
P(Ac) =1−P(A), P(Ω) =1 e P(;) =0.
A relação entre as variáveis aleatórias e probabilidade pode ser caracterizada por certas quantidades numéricas. No que se segue, consideraremos algumas delas.
A coleção de probabilidades
FX(x) =P(X≤x) =P({ω:X(ω)≤x}), x∈R= (−∞,∞), é afunção distribuição FX deX.
A dada função fornece a probabilidade para queX pertença ao intervalo[a,b]. De fato, P({ω:a<X(ω)≤b}) =FX(b)−FX(a), a<b.
Além disto, podemos também obter a probabilidade de que X seja igual a um determinado número:
P(X=x) =
=P({ω:X(ω) =x}) =P({ω:X≤x})−P({ω:X<x})
=P({ω:X(ω)≤x})−lim
h↓0P(({ω:X(ω)≤x−h})
=FX(x)−lim
h↓0FX(x−h).
Com essas probabilidades, podemos aproximar a probabilidade de um evento{ω:X(ω)∈B} para subconjuntos bastante complexosBdeR.
A coleção de probabilidades
PX(B) =P(X∈B) =P({ω:X(ω)∈B}) para subconjuntos convenientesB⊂Ré adistribuiçãodeX.
Os subconjuntos “convenientes” deRsão os assim chamadosconjuntos borelianos. Eles po- dem ser obtidos através de um número enumerável de operações envolvendo∩,∪ouc atuando sobre intervalos; veja a página 52 para uma definição mais precisa.
A distribuiçãoPX e a função de distribuiçãoFX são noções equivalentes, no sentido de que ambas podem ser utilizadas no cálculo da probabilidade do evento{X∈B}.
A função de distribuição é contínua ou dá saltos. Primeiramente consideramos o caso especial em que a função distribuiçãoFX é uma função de saltos puros:
FX(x) = X
k:xk≤x
pk x∈R (1.1)
onde
0≤pk≤1 para todoke P∞
k=1pk=1.
A função distribuição dada pela equação (1.1) e pela distribuição correspondente são denominadasdiscretas; uma variável aleatória possuindo uma função distribuição dada pela equação (1.1) é umavariável aleatória discreta.
Uma variável aleatória discreta pode assumir somente um número finito ou infinito enu- merável de valoresx1,x2... onde pk=P(X=xk). Em particular, a função distrbuiçãoFX possui um salto para cima de tamanho pkem x=xk. Por exemplo, a variável aleatóriaX referente ao lançamento de uma moeda é discreta: ela assume tão somente os valores 0 ou 1. O preço de venda de um produto qualquer em um supermercado é uma variável aleatória discreta: ela pode assumir, digamos, os valores 0.01,0.02,....
Exemplo 1.1.1. (Duas distribuições discretas importantes)
Dentre as distribuições discretas importantes podemos citar a distribuição binomial B i n(n,p) tendo como parâmetrosn∈N={0,1,2,...}ep∈(0,1).
P(X=k) = n
k
pk(1−p)n−k, k=0,1...n, e adistribuição de Poisson P oi(λ)com parâmetroλ >0:
P(X=x) =e−λλk
k!, k=0,1,2,....
Veja a figura 1.1 para uma ilustração.
Em contraste com as distribuições discretas e variáveis aleatórias, a função distribuição de umavariável aleatória contínuanão pode dar saltos, e portantoP(X =x) =0 para todox, ou, de forma equivalente
h→0limFX(x+h) =FX(x) para todox, (1.2) i.e., uma tal variável aleatória pode assumir qualquer valor com probabilidade 0. Uma variável aleatória contínua ganha seu nome a partir da propriedade da continuidade dada pela equação (1.2) da função de distribuiçãoFX.
1.1. Conceitos básicos de teoria das probabilidades
Fig. 1.1 — Esquerda:as probabilidadesP(X=x),k=0,1,2,...da função de distribuição de Poisson com parâmetroλ=10. Direita: a função de distribuição correspondente.
Fig. 1.2 — Esquerda: a densidade de probabilidade da distribuição normal padrão (média 0, variância 1). Direita: a função de distribuição correspondente.
Fig. 1.3 — Esquerda: a densidade dos log-retornosXt=lnYt−lnYt−1dos preços diários de fechamentoYtdo índice S& P. O S& P é um dos índices industriais básicos. Direita: a função de distribuição correspondente. Uma comparação com a 1.1 indica que a última distribuição certamente não é normal.
A maioria das distribuições de interesse possuem umadensidade fX: FX(x) =
Z x
−∞
fX(y)d y, x∈R, onde
fX(x)≥0 para todox∈Re Z∞
−∞
fX(y)d y=1.
Exemplo 1.1.2. (As distribuições normal e uniforme)
Uma distribuição importante contínua é a distribuição gaussiana normal N(µ,σ2), tendo como parâmetrosµ∈R,σ2>0. Tem como densidade a expressão dada por
fX(x) = 1 p2πσexp
(
−(x−µ)2 2σ2
)
, x∈R. (1.3)
Se X éN(0,1)(normal padrão) denotaremos porϕ sua densidade e porΦsua função dis- tribuiçãoFX. Para uma ilustração da densidade da normal padrão, veja a figura 1.2.
A distribuiçãouniforme U(a,b)tem por densidade a seguinte expressão:
fX(x) = ( 1
b−a se x∈(a,b), 0 em caso contrário.
O valor de uma taxa de câmbio ou preço de uma ação pode, pelo menos teoricamente, assumir qualquer valor real positivo. É claro que existem limitações técnicas: um computador ou calcu- ladora de bolso não é capaz de armazenar o valor de uma taxa de câmbio com infinitos dígitos, por exemplop
2; qualquer número figurando na memória de um computador foi arredondado.
Portanto, qualquer variável aleatória tendo algum interesse prático é na realidade discreta... No entanto, é conveniente pensarmos uma tal variável como sendo contínua. Existem várias razões de natureza teórica. Por exemplo, a distribuição normal aparece como uma distribuição limite através do teorema do limite central; (veja a página 36). Muitas funções de uma amostra são por- tanto aproximadamente normais, e portanto suas distribuições limite são contínuas. Mas existem também razões de ordem prática: em geral é menos enfadonho trabalhar com uma distribuição contínua amplamente estudada (tal como a normal, exponencial, gama, uniforme, e assim por diante), porque podemos utilizar o conhecimento padrão sobre sua densidade, bem como utilizar pacotes de programas computacionais padrão sobre sua densidade, momentos, quantis, e assim por diante. Podemos também obter expressões explicitamente dadas dessas quantidades.
Esperança, Variância e Momentos
Algumas características interessantes das variáveis aleatóriasXsão a suaesperança EX, avariância var(X)e seusmomentos E(Xl).
1.1. Conceitos básicos de teoria das probabilidades
Aesperançaouvalor médiode uma variável aleatóriaX tendo densidade fX é dada por
µX =EX= Z ∞
−∞
x fX(x)d x.
AvariânciadeXé definida por σX2 =var(X) =
Z∞
−∞
(x−µX)2fX(x)d x. Ol-ésimomomentodeXparal∈Né definido como
E(Xl) = Z∞
−∞
xlfX(x)d x.
Para uma dada função realg, aesperançade g(X)é dada pela expressão E g(X) =
Z∞
−∞
g(x)fX(x)d x.
Aesperançaouvalor médiode uma variável aleatória discretaX tendo como proba- bilidades associadaspk=P(X =xk)é dada por
µX=EX = X∞ k=1
xkpk. AvariânciadeXé definida por
σX2 =var(X) = X∞ k=1
(xk−µX)2pk. Ol-ésimomomentodeXparal∈Né definido como
E(Xl) = X∞ k=1
xklpk
Para uma dada função realg, aesperançade g(X)é dada pela expressão E g(X) =
X∞ k=1
g(xk)pk.
Podemos considerar a esperançaµX como o “centro de gravidade” da variável aleatóriaX, i.e., os varloresaleatórios X(ω)encontram-se concentrados em torno do valornão-aleatórioµX. A esperança é considerada com freqüência como um substituto do tamanho da variável aleatória.
Por exemplo, é uma maneira simples de previsão dos valores futuros de uma série temporal.
Ospreadou dispersão dos valores aleatóriosX(ω)ao redor da esperançaµX é descrita por meio de uma variância:
σX2 =var(X) =E(X−µX)2
=E(X2−2µXX+µ2X) =E(X2)−2µ2X+µ2X
=E(X2)−µ2X e odesvio padrãoσX.
Recorde-se da densidade normal dada pela equação (1.3). O parâmetroµé a esperançaµX e parâmetro σ 2 é a variânciaσX2 da variável aleatóriaX com densidade dada por (1.3). É um fato bem conhecido (e facilmente verificável por meio de um computador) que para uma variável aleatória normal (N(µ,σ2))X,
P(µ−1.96σ≤X≤µ+1.96σ) = Φ(µ+1.96σ)−Φ(µ−1.96σ) =0.95. (1.4) Assim, existe 95% de chance de que a variável aleatória X assuma valores no intervalo [µ− 1.96,µ+1.96]. Analogamente á equação (1.4), podemos formular uma regra heurística1denomi-
1não é nada mais do que isto:
podemos construir contraexemplos.
nada 2σsegundo a qual para uma variável aleatória bem comportadaX, a probabilidade P(µX−2σX ≤X≤µX+2σX)
é próxima de 1. Esta regra também justificada peladesigualdade de Chebyshev:
P(|X−µX|>x)≤x−2σX2, x>0,
o que fornece um limite correto para a probabilidade de que o desvio absoluto da variável aleatória X de sua esperança exceda o patamar dado porx.
1.1.2. Vetores aleatórios
No que se segue, faremos uso freqüente das estruturas aleatórias finita e infinitamente dimension- ais. Iniciamos com os vetores aleatórios finitamente dimensionais como um primeiro passo para a definição dos processos estocásticos.
X= (X1...Xn)é umvetor aleatório n-dimensional se os seus componentesX1...Xn são variáveis aleatórias unidimensionais a valores reais.
Se interpretarmos t =1...ncomo instantes equidistantes no tempo, Xt pode ser considerado como o resultado de um experimento no tempo t. Uma talsérie temporal, por exemplo, pode consistir dos preços das ações da BMW Xt em n dias sucessivos. É claro que t é um “tempo matemático”, e portanto, não é nada mais do que um índice de uma variável de contagem. Por exemplo, um vetor aleatório pode descrever as condições meteorológicas em São Paulo em um dado instante:X1pode ser a temperatura,X2a pressão atmosférica, eX3a velocidade do vento.
Analogamente às variáveis aleatórias unidimensionais, podemos introduzir a função de dis- tribuição, a esperança, os momentos e a matriz de covariância do vetor aleatório para descrever sua distribuição e sua estrutura de dependência. Este último aspecto é uma novidade; a dependên- cia não faz sentido quando se fala de apenas uma variável aleatória.
1.1. Conceitos básicos de teoria das probabilidades
Probabilidade, Distribuição e Função de distribuição
Lance uma moeda duas vezes. Podemos considerar quatro pares (Cara, Cara), (Coroa, Coroa), (Cara, Coroa) e (Coroa, Cara) como resultados do experimento. Esses quatro pares constituem o espaço amostralΩ. Como foi visto anteriormente, atribuiremos 1 para “Cara” e 0 para “Coroa.”
Obteremos desta maneira duas variáveis aleatórias X1 eX2. X = (X1,X2) é um vetor aletório bidimensional. Observe que
X(C a ra,C a ra) = (1,1),X(C o r oa,C o r oa) = (0,0),
X(C a ra,C o r oa) = (1,0),X(C o r oa,C a ra) = (0,1).
Se a moeda for não viciada, poderemos atribuir uma probabilidade de 0.25 para cada um dos quatro resultados, i.e.
P({ω:X(ω) = (k,l)}) =0.25 k,l ∈ {0,1}.
Como foi visto anteriormente, podemos considerar uma coleção de subconjuntosF deΩe definir uma medida de probabilidade para o mesmo, i.e., poderemos atribuir um númeroP(A)∈[0,1]
para cadaA∈ F.
Fig. 1.4 —
A coleção de probabilidades
FX(x) =P(X1≤x1...Xn≤xn) (1.5)
=F({ω:X1(ω)≤x1...Xn(ω)≤xn}) x= (x1...xn)∈Rn,
é afunção distribuição FX deX.
Por exemplo, seX for bidimensional,
P(X∈(a,b) =FX(b1,b2) +FX(a1,a2)−FX(a1,b2)−FX(b1,a2).
Esta fórmula é claramente correta; veja a figura 1.4. Como no caso das variáveis aleatórias unidi- mensionais, essas probabilidades constituem uma aproximaçãoP(X ∈B)para conjuntosB bas- tante gerais.
A coleção de probabilidades
FX(B) =P(X∈B) =P({ω:X(ω)∈B}).
para subconjuntos convenientes deB⊂Rnconstituem adistribuiçãodeX.
Os subconjuntos “convenientes” deRn são os conjuntos deBorel, os quais são obtidos por meio de um conjunto enumerável de operações∩,∪ecatuando em intervalos doRn(veja a página 52 para a uma definição precisa. Por exemplo, conjuntos formados por um único elemento, esferas e retângulos são conjuntos borelianos. Em um sentido matemático, a distribuição e a função distribuição de um vetor aleatórioX são noções equivalentes. TantoFX quantoPX podem ser usados para calcular a probabilidade de um evento{X∈B}.
Observe que a distribuição deX= (X1...Xn)contém toda a informação sobre a distribuição dos componentesXi, dos pares(Xi,Xj), das triplas (Xi,Xj,Xk), e assim por diante. Isto pode facilmente ser visto a partir da equação (1.5): você poderá obter a função de distribuição de(X1,X2) fazendox3=...=xn=∞, e assim por diante.
Analogamente às variáveis aleatórias, podemos introduzir vetores contínuos e discretos, bem como suas distribuições. Para nossos propósitos, os vetores aleatórios contínuos possuindo uma densidade serão relevantes, e portanto iremos restringir nossa atenção tão-somente a eles.
Se a distribuição de um vetor aleatório X possui densidade fX, poderemos representá-lo por meio de uma função de distribuiçãoFXdeXcomo
FX(x1...xn) =P(X ∈B) = Z x1
−∞
...Zxn
−∞
fX(y1...yn)d y1...d yn, (x1...xn)∈Rn,
onde a densidade é a função satisfazendo
fX(x)≥0 para todox∈Rn
e Z x1
−∞
...
Z xn
−∞
fX(y1...yn)d y1...d yn=1.
Se um vetor Xpossui densidade fX, todos seus componentes Xi, os vetores de pares (Xi,Xj), triplas(Xi,Xj,Xk), e assim por diante, possuirão densidades. Elas serão chamadas dedensidades marginais.
1.1. Conceitos básicos de teoria das probabilidades
Exemplo 1.1.3. (Densidades marginais: o caso em quen=3) Consideramos o caso em quen=3.
As densidades marginais podem ser obtidas da seguinte maneira:
fX1(x1) = Z∞
−∞
Z∞
−∞
fX(x)d x2d x3, fX1,X2(x1,x2) = Z∞
−∞
fX(x)d x3.
fX2(x2)é obtido integrando-se fX(x)com respeito a x1 ex3, fX1,X3 pela integração de fX(x) com respeito ax2, e assim por diante.
Um dos casos é particularmente simples: se a densidade de fX(x)pode ser escrita como um produto de funções não-negativasgi:
fX(x) =g1(x1)...gn(xn), x∈Rn. Neste caso,R∞
−∞gi(xi)d xi=1, parai=1...n, i.e., as funçõesgi(xi)são densidades probabilísticas unidimensionais. Portanto, tem-se necessariamente que
fXi(xi) =gi(xi),fXi,Xj(xi,xj) =gi(xi)gj(xj), e assim por diante.
Verifique isto!
Exemplo 1.1.4. (Vetor gaussiano aleatório)
Umvetor normal aleatórioougaussianopossui distribuição normal. Adistribuição n-dimensional normaloudistribuição gaussianapode ser fornecida através de sua densidade:
fX(x) = 1
(2π)1/2(d e tΣ)1/2exp
−1
2(x−µ)Σ−1(x−µ)0
, x∈Rn, (1.6) com parâmetrosµ∈ Rn eΣ. (Aqui, e no que se segue,y0 denota a transposta do vetory. A quantidade Σ é uma matriz n×n simétrica definida positiva, Σ−1 é a sua inversa e detΣseu determinante. Veja a figura 1.5 para uma ilustração no caso em quen=2.
Esperança, Variância e Covariância
A esperança de um vetor aleatório tem uma função parecida com o valor médio de uma variável aleatória. Os valoresX(ω)estão concentrados em torno dela.
Aesperançaouvalor médiode um vetor aleatórioXé dado por µX=EX= (EX1...EXn).
Amatriz de covariânciadeXé definida por
ΣX= (cov(Xi,Xj):i,j=1...n), onde cov(Xi,Xj) =E[(Xi−µXi)(Xj−µXj)]
=E(Xi,Xj)−µXiµXj, é acovariânciaentreXieXj. Observe que cov(Xi,Xi) =σX2
i. Exemplo 1.1.5. (Continuação do exemplo 1.1.4)
Lembre-se da equação (1.6) que expressa a densidade de um vetor multivariado aleatório gaussiano X. O parâmetroµé a esperançaµXdeXeΣé a sua matriz de covariânciaΣX. Assim, a densidade de um vetor gaussiano (e portanto, sua distribuição) fica completamente determinada através de sua esperança e matriz de covariância. Em particular, seµ=0 eΣé a matriz identidadeIn, tem-se que detIn =1 eΣ−1 = In. A densidade de fX é pois simplesmente o produto de ndensidades normais padrão:
fX(x1...xn) =ϕ(xi)...ϕ(xn).
Podemos então escreverN(µ,Σ)para a distribuição do vetor gaussianon-dimensionalXtendo esperançaµe matriz de covariânciaΣ. Tal vetor possui uma propriedade elegante pela qual ele continua gaussiano por transformações lineares (lembre-se de queµ0eA0 denotam as transpostas deµeA, respectivamente):
Suponha queX= (X1...Xn)possua uma distribuição normalN(µ,Σ)eAseja uma matrizm×n. EntãoAX0tem uma distribuição da formaN(Aµ0,AΣA0).
É conveniente padronizar as covariâncias dividindo as variáveis aleatórias correspondentes pelos seus desvios padrão. A quantidade resultante será:
corr(X1,X2) =cov(X1,X2) σX1σX2
=E[(X1−µX1)(X2−µX2)]
σX1σX2
é acorrelaçãoentreX1eX2. Como resultado desta padronização, a correlação entre duas variáveis aleatórias encontra-se sempre entre−1 e 1. Verifique este fato mediante a aplicação da desigualdade de Cauchy-Schwarz; veja a página 155.
1.1. Conceitos básicos de teoria das probabilidades
Fig. 1.5 — Densidade da densidade bi-dimensional normal padrão (µ=0eΣ =I2é a matriz identidade)
1.1.3. Independência e dependência
Jogue uma moeda não viciada duas vezes e suponha que os números aleatóriosX1(ω),X2(ω)∈ {0,1}sejam os resultados correspondentes do primeiro e segundo experimentos. É fácil verificar que
P(X1=k,X2=l) =P(X1=k)·P(X2=l), k,l∈ {0,1}.
Esta propriedade é denominadaindependênciadas variáveis aleatóriasX1eX2. Falando intuitiva- mente, a independência significa que o primeiro experimento não tem influência no segundo, e vice-versa. Por exemplo, o conhecimento deX1não permite a previsão do valor deX2, e vice-versa.
Logo abaixo, relembramos as definições essenciais e propriedades de eventos independentes e variáveis aleatórias independentes.
Dois eventosA1eA2sãoindependentesse
P(A1∩A2) =P(A1)·P(A2).
Duas variáveis aleatóriasX1eX2sãoindependentesse
P(X1∈B1,X2∈B2) =P(X1∈B1)P(X2∈B2)
De forma alternativa, podemos definir a independência através das funções de distribuição e den- sidades. As variáveis aleatóriasX1eX2são independentes se e somente se
FX1,X2(x1,x2) =FX1(x1)FX2(x2), x1,x2∈R. Suponha queX1,X2)possua densidade fX
1,X2 com densidades marginais fX
1 e fX
2 (veja a página 12). Então as variáveis aleatóriasX1eX2são independentes se e somente se
fX1,X2(x1,x2) =fX1(x1)fX2(x2), x1,x2∈R.
A definição de independência pode ser estendida para um número finito e arbitrário de even- tos e vetores aleatórios. Observe que a independência dos componentes dos vetores aleatórios
implica a independência de cada par de seus componentes, mas a recíproca em geral não é ver- dadeira.
Os eventosA1...Ansãoindependentesse, para toda escolha de índices 1≤i1<...<
ik≤ne inteiros 1≤k≤n,
P(Ai1∩...∩Ai
k) =P(Ai1)...P(Ai
k).
As variáveis aleatóriasX1...Xn sãoindependentesse, para toda escolha de índices 1≤i1<...<ik≤n, inteiros 1≤k≤ne subconjuntos apropriadosB1...BndeR,
P(Xi
1∈Bi
1...Xik∈Bi
k) =P(Xi
1∈Bi
1)...P(Xi
k∈Bi
k) Isto significa que os eventos{X1∈B1}...{Xn∈Bn}são independentes.
As variáveis aleatórias X1...Xn são independentes se e somente se suas funções de distribuição conjunta podem ser escritas como
FX
1...Xn(x1...xn) =FX
1(x1)...FX
n(xn), (x1...xn)∈Rn.
Se o vetor aleatórioX= (X1...Xn)possuir densidadefX, entãoX1...Xnserão independentes se e somente se
fX1...X
n(x1...xn) =fX1(x1)...fX
n(xn), (x1...xn)∈Rn. (1.7) Exemplo 1.1.6. (Continuação do exemplo 1.1.2)
Relembre-se da densidade de um vetor gaussiano n-dimensional dada na equação (1.6). Pode- se verificar facilmente da forma desta densidade que seus componentes são independentes se e somente se a matriz de covariânciaΣé diagonal. Isto tem o seguinte significado: corr(Xi,Xj) = cov(Xi,Xj) = 0, para i 6= j. Assim, podemos escrever a densidade de X na forma dada pela equação (1.7). Assim,no caso gaussianoanão correlação e independência são noções equivalentes.
Esta asserção é falsa no caso de vetores não-gaussianos aleatórios; veja o exemplo 1.1.7.
Uma conseqüência importante da independência das variáveis aleatórias é a seguinte propriedade:
Se as variáveis aleatóriasX1...Xn são independentes, então para quaisquer funções reais g1...gn, tem-se
E[g1(X1)...gn(Xn)] =E g1(X1)...E gn(Xn), contanto que as esperanças sejam bem definidas.
Em particular, pode-se concluir que as variáveis aleatórias independentesX1eX2sãonão correla- cionadas, i.e., corr(X1,X2) =cov(X1,X2) =0. A recíproca em geral não é verdadeira.
1.1. Conceitos básicos de teoria das probabilidades
Exemplo 1.1.7. (Variáveis aleatórias não correlacionadas não são necessariamente independentes.) SejaX uma variável aleatória normal padrão. Uma vez queX é simétrica (i.e., tantoX quanto
−X possuem a mesma distribuição), o mesmo acontece comX3, e portanto tantoX quantoX3 possuem esperança zero. Assim,
cov(X,X2) =E(X3)−E(X)E(X2) =0,
masXeX2são claramente dependentes: uma vez que{X∈[−1,1]}={X2∈[0,1]}, obtemos P(X ∈ {−1,1},X2∈[0,1]) =P(X∈[−1,1])
>P(X∈[−1,1])P(X2∈[0,1]) =[P(X ∈[−1,1])]2. Exemplo 1.1.8. (Autocorrelações de uma série temporal)
Para uma dada série temporalX0,X1,X2,..., a autocorrelação em umlagh é definida pela série corr(X0,Xh),h =0,1,.... Uma asserção que pode ser encontrada com freqüência na literatura é a de que as séries temporais financeiras (derivadas dos índices de bolsa, preços de ações, taxas de câmbio, e assim por diante) quase que não são autocorrelacionadas. Tal asserção é apoiada pelas amostras de autocorrelações dos retornos logaritmosXt do índice S&P; veja a figura 1.6.
Em contraste com esta observação, as autocorrelações estimadas dos valores absolutos|Xt|são distintos de zero para grandeslagsde tamanhoh. Tal fato indica que existe uma dependência nesta série temporal.
Fig. 1.6 — As autocorrelações estimadas do índice S&P (à esquerda) e de seus valores absolutos (à direita); veja o exemplo 1.1.8; confronte com os comentários da figura 1.3.
No que se segue, iremos lidar com certa freqüência com coleções infinitas (Xt,t ∈ T) de variáveis aleatóriasXt, i.e.,T é um conjunto infinito de índices. Nesta configuração, podemos também introduzir a independência.
A coleção de variáveis aleatórias(Xt,t ∈ T) éindependentese para toda escolha de índices distintos t1...tn ∈T comn ≥1, as variáveis aleatóriasXt1...Xt
n são
independentes.
A mesma coleção será ditaindependenteeidenticamente distribuída— isto abreviado paraiid— se for independente e todas as variáveis aleatóriasXt tiverem a mesma distribuição.
Notas e comentários
Nesta seção iremos revisar alguns fatos de teoria das probabilidades elementar que podem ser en- contrados em qualquer livro tratando deste tópico; veja por exemplo o livro de Pitman (1993) para considerações de nível elementar e Gut (1995) para um curso intermediário. Cumpre observar que muitos textos de estatística em geral começam com uma introdução à teoria das probabilidades;
veja, por exemplo, o livro de Mandenhall, Wackerly e Scheaffer (1990).
1.2. Processos estocásticos
Suporemos que a taxa de câmbio R$/US$ em qualquer instantetentre 09:00h e 10:00h é aleatória.
Portanto, podemos interpretá-la como uma realizaçãoXt(ω)de uma variável aleatóriaXt. Assim, observamosXt(ω)parat’s satisfazendo 9≤t≤10. A fim de podermos fazer uma conjectura no horário de 10:00h de quanto a taxa de câmbio deverá valer às 11:00h, i.e., para estimarX11(ω), é razoável examinar sua evolução inteira de Xt(ω) no período entre 09:00h e 10:00h. Esta é também uma demanda dos dispositivos de tecnologia de alto padrão que fornecem informação quase que contínua a respeito do processo considerado. Um modelo matemático para descrever tais fenômenos é denominado deprocesso estocástico.
Umprocesso estocástico X é uma coleção de variáveis aleatórias (Xt,t∈T) = (Xt(ω),t∈T,ω∈Ω), definido em algum espaçoΩ.
Para as nossas finalidades, T é muitas vezes um intervalo, por exemplo,T = [a,b], [a,b) ou [a,∞), paraa<b. Então chamaremosX de processo detempo contínuocontrastando com os processos detempo discreto. Neste último caso,T é um conjunto finito ou infinito enumerável.
Pelas razões óbvias, o índicetda variável aleatóriaXté freqüentemente denominada comotempo, e nós iremos seguir esta convenção.
Umprocesso estocástico X é uma função de duas variáveis.
Para um instantetfixado, ele é uma variável aleatória:
Xt=Xt(ω), ω∈Ω
Para um resultado aleatório fixoω∈Ω, ele é uma função do tempo.
Xt=Xt(ω), t∈T.
Esta função é denominada derealização,trajetóriaoucaminho amostraldo processo X.
Esses dois aspectos de um processo estocástico são ilustrados na figura 1.7.
Exemplo 1.2.1. Asérie temporal
Xt, t=0,±1,±2...
1.2. Processos estocásticos
Fig. 1.7 — 5 caminhos amostrais de um processo estocástico(Xt,t∈[0,1]). Topo: todo caminho corresponde a umω∈Ωdistinto. Meio e fundo:
os valores das linhas verticais parat=0.1...0.9visualizam as variáveis aleatóriasX0.1...X0.9; elas ocorrem como projeções de caminhos amostrais nas linhas verticais.
Fig. 1.8 — Os valores diários(scaled)do índice S&P em um período de 7 422 dias. O gráfico sugere que consideremos a série temporal do S&P como um caminho amostral de um processo de tempo contínuo. Se existem muitos valores em uma série temporal de tal forma que os instantes de tempo t∈Tsejam “densos” em um dado intervalo, então poder-se-á interpretar esse processo de tempo discreto como um processo de tempo contínuo. Os caminhos amostrais de um processo de tempo contínuo ocorrendo na realidade são sempre informados em instantes discretos do tempo. Dependendo da situação, dever-se-á decidir qual modelo (de tempo discreto ou contínuo) é mais apropriado.
é um processo de tempo discreto comT =Z={0,±1,±2,...}. As séries temporais constituem uma classe importante de processos estocásticos. Elas são modelos relevantes em muitas apli- cações, onde se possa estar interessado na evolução de um processo real. Tais séries representam, por exemplo, a temperatura diária do corpo de um paciente em um hospital, os retornos diários de preços, ou então o número mensal de passageiros do tráfego aéreo em um determinado país.
O modelo teórico de séries temporais mais popular são os processos ARMA (AutoRegressive Moving Average). Eles são definidos por meio de algumas equações de diferença nas quais uma seqüência iid (veja a página 17), o assim chamadoruídoestá envolvido. Por exemplo, uma média móvel de ordemq≥1 pode ser definida como
Xt=Zt+θ1Zt−1+...+θqZt−q, t∈Z, e o processo auto-regressivo de ordem 1 é dado por meio da seguinte equação:
Xt=φXt−1+Zt, t∈Z.
Neste caso, os parâmetrosθ1...θq eφsão reais dados. Os modelos de séries temporais podem ser entendidos como discretizações de equações diferenciais estocásticas. Iremos examinar este fato para os processos autoregressivos na página 116.
A figura 1.9 mostra dois exemplos:
Verificamos que os conceitos de variável aleatóriaX e o de processo estocástico(Xt,t∈T)não são muito diferentes. Ambos possuem realizações aleatórias, mas a realizaçãoX(ω)de uma variável aleatória é um número, ao passo que a realizaçãoXt(ω),t∈T de um processo estocástico é uma função definida emT. Portanto, estaremos inteiramente corretos se considerarmos um processo estocástico como um “elemento randômico” assumindo como valores funções. Além disto, pode- mos interpretar uma variável aleatória e um vetor aleatório como um processo estocástico especial possuindo um conjunto finito de índicesT.
1.2. Processos estocásticos
Fig. 1.9 — Duas séries temporaisXt,t=1...100.Esquerda: 100 log-retornos sucessivos do índice S&P; veja a figura 1.3. Direita: Um caminho amostral simulado do processo autoregressivoXt=0.5Xt−1+Zt, onde osZtsão variáveis aleatórias iidN(0,1); veja o exemplo 1.2.1.
Distribuição
Em analogia ás variáveis aleatórias e vetores aleatórios, desejamos introduzir características não- aleatórias de um processo estocástico, tais como sua distribuição, esperança, e assim por diante.
Além disto, gostaríamos de descrever sua estrutura de dependência. Há uma tarefa muito mais complexa do que a descrição de um vetor aleatório. De fato, um processo estocástico não-trivial X = (Xt, t ∈T)com um conjunto de índicesT infinito é um objeto de dimensão infinita; ele pode ser entendido como uma coleção infinita de variáveis aleatóriasXt, t∈T. Uma vez que os valores deX são funções deT, adistribuição de X deveria ser definida para subconjuntos de um certo “espaço de funções”, i.e.,
P(X∈A), A∈ F, (1.8)
ondeF é uma coleção de subconjuntos apropriados para o espaço de funções. Esta abordagem é possível, mas requer matemática avançada, e portanto iremos procurar meios mais simples.
A observação chave é a de que um processo estocástico pode ser interpretado como uma coleção de vetores aleatórios.
Asdistribuições de dimensão finita (disfi)de um processo estocásticoX são as dis- tribuições dos vetores de dimensão finita.
(Xt1...Xt
n), t1...tn∈T,
para todas as escolhas possíveis dos instantest1...tn∈T e para todon≥1.
Podemos também imaginar os disfi’s de forma muito mais fácil do que uma distribuição (1.8) de processos estocásticos. Pode-se demonstrar que os disfi’s determinam a distribuição deX. Nesse sentido, nós nos referiremos à coleção de disfi’s como adistribuição de processos estocásticos.
Os processo estocásticos podem ser classificados de acordo com critérios distintos. Um deles é o tipo de disfi.
Exemplo 1.2.2. (Processos gaussianos)
Recorde-se pela equação (1.6) da definição de densidade gaussiana n-dimensional. Um processo estocástico é ditogaussianose todos os seus disfi’s são gaussianos multivariados. Nos aprendemos no exemplo 1.1.5 que os parâmetrosµeΣde um vetor gaussiano são a sua esperança e sua matriz
de covariância, respectivamente. Portanto, a distribuição de um processo estocástico gaussiano fica determinada somente pela coleção das esperanças e matrizes de covariância dos disfi’s.
Um processo gaussiano simples emT = [0,1]consiste de uma variável aleatória iidN(0,1). Neste caso, os disfi’s podem ser caracterizados pelas funções de distribuição
P(Xt
1≤x1...Xt
n≤xn) =P(Xt
1≤x1)...P(Xt
n≤xn)
=Φ(x1)...Φ(xn) 0≤t1...≤tn≤1, (x1...xn)∈Rn.
Os caminhos amostrais deste processo são bastante irregulares. Veja a figura 1.10 para uma ilus- tração.
Fig. 1.10 — Um caminho amostral de um processo gaussianoXt,t∈[0,1]onde osXt’s são iidN(0,1); veja o exemplo 1.2.2. A função esperança é µX(t) =0e as linhas sombreadas indicam as curvas±2σX(t) =±2; veja o exemplo 1.2.3.
Esperança e função de covariância
Para um vetor aleatórioX= (X1...Xn)nós definimos a esperançaµX= (EX1...EXn)bem como a matriz de covariânciaΣX= (cov(Xi,Xj),i,j=1...n). Um processo estocásticoX= (Xt,t∈T) pode ser considerado como uma coleção de vetores aleatórios (Xt
1...Xtn), para t1...tn ∈ T e n≥1. Para cada um deles, podemos determinar a esperança e a matriz de covariância. De forma alternativa, podemos considerar essas quantidades como funções det∈T.
Afunção esperançadeX é dada por
µX(t) =µXt=EXt, t∈T Afunção de covariânciadeX é dada por
cX(t,s) =cov(Xt,Xs) =E[(Xt−µX(t))(Xs−µX(s))], t,s∈T. Afunção de variânciaé dada por
σX2(t) =cX(t,t) =var(Xt), t∈T.
Nós aprendemos do exemplo 1.2.2 que processos gaussianos ficam determinados tão-somen- te pelas suas funções de esperança e covariãncia. Tal fato não é correto para um processo não gaussiano.
1.2. Processos estocásticos
No que tange um vetor aleatório, a função esperançaµX(t)é uma quantidade determinística em torno da qual os caminhos amostrais deX encontram-se concentrados. A função de covariân- ciacX(t,s)é uma medida de dependência no processoX. A função de variânciaσX2(t)pode ser considerada como uma medida despreaddos caminhos amostrais deX ao redor deµX(t). Con- trastando com o caso unidimensional, uma asserção como “95% de todos os caminhos amostrais se encontram entre os gráficos deµX(t)−2σX(t)eµX(t) +2σX(t)” é muito difícil de ser demon- strada (mesmo para processos gaussianos), e em geral não é correta. Nós iremos por vezes consid- erar gráficos computacionais com caminhos de certos processos estocásticos e também indicar as curvasµX(t)eµX(t)±2σX(t),t∈T. Esta última deve ser interpretada para cadatfixo, i.e., para cada variável aleatória individualXt. Somente em algum sentido heurístico, elas podem fornecer limites para os caminhos do processoX. Veja a figura 1.10 para uma ilustração.
Exemplo 1.2.3. (Continuação do exemplo 1.2.2)
Considere o processo gaussiano(Xt,t∈[0,1])de variáveis aleatóriasXtdo tipo iidN(0,1). Suas funções de esperança e covariância são dadas por meio das seguintes expressões:
µX(t) =0 e cX(t,s) =
(1 se t=s 0 se t6=s.
Estrutura de dependência
Já introduzimos os processos gaussianos por meio da especificação de sua disfi como uma gaus- siana multivariada. Outra maneira de classificar os processos estocásticos consiste em impor uma estrutura de dependência especial.
O processoX= (Xt,t∈T),T ⊂Ré ditoestritamente estacionáriose os disfi’s são invariantes mediante translações do índicet:
(Xt1...Xt
n)= (Xd t1+h...Xt
n+h) (1.9)
para todas as possíveis escolhas dos índicest1...tn ∈T, n≥1 eh tal que todos os índices t1+ h...tn+h ∈T. O símbolo=d denota a igualdade entre distribuições. Para os vetores aleatórios em (1.9) isto significa que as funções de distribuição são idênticas.
Exemplo 1.2.4. (Processos gaussianos estacionários)
Considere um processoX = (Xt,t∈T)comT = [0,∞)ouT =Z. Um exemplo trivial de um processo estritamente estacionário é uma seqüência de variáveis aleatórias iidXt,t∈Z. Uma vez que um processo gaussianoX é determinado pelas funções de esperança e covariância, a condição (1.9) se reduz a
µX(t+h) =µX(t) e cX(t,s) =cX(t+h,s+h)
para todoss,t∈T tais ques+h,t+h ∈T. Mas isto significa queµX(t) =µX(0)para todost, ao passo quecX(t,s) =ecX(|t−s|), para uma determinada funçãoecX de uma variável real. Por- tanto, para um processo gaussiano, a estacionariedade estrita significa que a função de esperança é constante e a função de covariância somente depende da distância|t−s|. Mais geralmente, se um processoX (possivelmente não gaussiano) possui as duas propriedades mencionadas, ele será denominadoestacionário(emsentido mais amplo) ou processoestacionário de segunda ordem.
Se descrevermos um processo real por meio de um processo estocástico estacionário (estrito ou em sentido amplo), então iremos acreditar que as propriedades características desse processo não
variam com o passar do tempo. Esta restrição é relativamente forte sobre o processo subjacente.
A estrutura de dependência descrita pelo disfi ou pela função de covariância é invariante por translações do tempo. Esta restrição no processo subjacente é relativamente forte. No entanto, trata-se de uma hipótese padrão em muitos campos relacionados com probabilidades, tais como estatística e análise de séries temporais.
A estacionariedade pode também ser imposta sobre os incrementos de um processo. Neste caso, o próprio processo não é necessariamente estacionário.
SejaX = (Xt,t∈T)um processo estocástico eT ⊂Rum intervalo. Dizemos que X possuiincrementos estacionáriosse
Xt−Xs =d Xt+h−Xs+h para todot,s∈T eh, comt+h,s+h∈T X é dito possuir incrementos independentes se para cada escolha de ti ∈ T com t1<...<tnen≥1,
Xt2−Xt1...Xt
n−Xtn−1 são variáveis aleatórias independentes.
Um dos exemplos mais proeminentes de processos com incrementos independentes e esta- cionários é o processo homogêneo de Poisson. Homogeneidade é aqui um outro refraseamento da estacionariedade dos incrementos.
Exemplo 1.2.5. (Processos de Poisson homogêneos)
Um processo estocástico(Xt,t ∈[0,∞)é denominado deprocesso de Poisson homogêneoou sim- plesmente umprocesso de Poisson com taxa de intensidadeλ >0 se as seguintes condições estiverem satisfeitas:
• Ele começa em zero:X0=0;
• Possui incrementos estacionários independentes;
• Para todot>0,Xt possui uma distribuição de PoissonP oi(λt).1
1 Veja o exemplo 1.1.1 para a definição de distribuição de Poisson.
A figura 1.11 mostra diversos caminhos amostrais de Poisson.
Observe que, pela estacionariedade dos incrementos, Xt−Xs com t > s possui a mesma dis- tribuição queXt−s−X0=Xt−s, i.e., uma distribuição de PoissonP oi(λ(t−s)).
Uma definição alternativa do processo de Poisson é dada por meio da seguinte equação:
Xt=#{n:Tn≤t}, t>0, (1.10) onde #Adenota o número de elementos de qualquer conjunto A, Tn = Y1+...+Yn e(Yi) é uma seqüência de variáveis aleatórias exponenciais iidE x p(λ)possuindo função de distribuição comum
P(Y1≤x) =1−e−λx, x≥0.
Esta definição mostra bem que tipo de caminhos amostrais um processo de Poisson possui. Trata- se de uma função que apresenta saltos puros: ela é constante sobre [Tn,Tn+1)possuindo saltos para cima de tamanho igual a 1 em instantes randômicosTn.
1.2. Processos estocásticos
Fig. 1.11 — Caminhos amostrais de um processo homogêneo de Poisson(Xt,t∈[0,∞))com intensidadeλ=1; veja o exemplo 1.2.5. A linha reta sólida representa a função esperançaµX(t) =t.
O papel desempenhado por um processo de Poisson e suas modificações e ramificações é com- parável ao papel desempenhado pelo movimento browniano. O processo de Poisson é um pro- cesso de contagem; veja (1.10). Possui uma vasta gama de aplicações nos mais diversos campos.
Para mencionar alguns deles, considereXt como um modelo para o número de
• chamadas telefônicas controladas por um operador;
• clientes à espera de serviços em uma fila;
• reivindicações oriundas de uma carteira de seguros para um dado intervalo de tempo[0,t].
Notas e comentários
As introduções à teoria dos processos estocásticos são baseadas em fatos não elementares de teoria da medida e análise funcional. Dentre os textos padrão, podemos mencionar Ash e Gardner (1975), Gikhman e Skorokhod (1975), Karlin e Taylor (1975, 1981), bem como vários outros.
Uma introdução divertida á teoria de processos estocásticos aplicados é o livro de Resnick (1992).
Grimett e Stirzaker (1994) é uma introdução “sem sobrecarregar o leitor, mas com bastante teoria da medida.”
1.3. Movimento browniano
1.3.1. Propriedades da definição
O movimento browniano desempenha um papel central em teoria das probabilidades, na teoria dos processo estocásticos, em física, finanças, e também neste livro. Iniciaremos com a definição deste importante processo. Depois continuaremos mencionando algumas de suas propriedades mais elementares.
Um processo estocásticoB= (Bt,t∈[0,∞))é chamado demovimento browniano (padrão)ou umprocesso de Wienerse as seguintes condições estiverem verificadas:
• ele começa no zero:B0=0;
• possui incrementos independentes e estacionários; veja a página 24 para a definição;
• para todot>0,Btpossui uma distribuição normalN(0,t);
• possui caminhos amostrais contínuos: “sem saltos.”
Veja a figura 1.12 para a visualização dos caminhos amostrais brownianos.
O movimento browniano deve seu nome ao biólogo Robert Brown cujas pesquisas foram realizadas por volta de 1820. No início do século 20, Luis Bachelier (1990), Albert Einstein (1905) e Norbert Wiener (1923) começaram a desenvolver uma teoria matemática do movimento brow- niano. A construção de Bachelier (1900) apresentava alguns erros, mas ele conseguiu capturar muitas das propriedades essenciais do processo. Wiener (1923) foi o primeiro a colocar o movi- mento browniano em firme embasamento matemático.
1.3. Movimento browniano
Funções de distribuição, esperança e de covariância
Os disfi’s do movimento browniano são gaussianos multivariados, e portanto B é um processo gaussiano. Verifique esta asserção observando que o movimento browniano possui incrementos
Fig. 1.12 — Caminhos amostrais do movimento browniano no intervalo[0,1].
gaussianos e utilizando as fórmulas para as transformações lineares de um vetor aleatório gaus- siano: veja a página 14.
As variáveis aleatóriasBt−Bs eBt−s possuem uma distribuiçãoN(0,t−s), para s<t.