1.3. Movimento browniano

(1)

Conteúdo

1. Preliminares 3

1.1. Conceitos básicos de teoria das probabilidades . . . 3

1.1.1. Variáveis aleatórias . . . 3

1.1.2. Vetores aleatórios . . . 10

1.1.3. Independência e dependência . . . 15

1.2. Processos estocásticos . . . 18

1.3. Movimento browniano . . . 26

1.3.1. Propriedades da definição . . . 26

1.3.2. Processos derivados do movimento browniano . . . 32

1.3.3. Simulações de caminhos amostrais brownianos . . . 35

1.4. Esperança condicional . . . 45

1.4.1. Esperança condicional sob a condição discreta . . . 45

1.4.2. Sobreσ-álgebras . . . 50

1.4.3. A esperança condicional geral . . . 54

1.4.4. Regras para o cálculo da esperança condicional . . . 57

1.4.5. A propriedade da projeção de esperanças condicionais . . . 60

1.5. Martingais . . . 63

1.5.1. Propriedades definidoras . . . 63

1.5.2. Exemplos . . . 66

1.5.3. A interpretação de um martingal como um jogo não viciado . . . 69

2. A integral estocástica 71 2.1. As integrais de Riemann e de Riemann-Stieltjes . . . 71

2.1.1. A integral de Riemann ordinária . . . 72

2.1.2. A integral de Riemann-Stieltjes . . . 75

2.2. A integral de Ito . . . 79

2.2.1. Um exemplo motivador . . . 79

2.2.2. A integral estocástica de Ito para processos simples . . . 82

2.2.3. A integral estocástica geral de Ito . . . 88

2.3. O lema de Ito . . . 92

2.3.1. A regra da cadeia clássica para a diferenciação . . . 92

2.3.2. Uma versão simples do lema de Ito . . . 94

2.3.3. Versões estendidas do lema de Ito . . . 96

(2)

3.1. Equações diferenciais determinísticas . . . 107

3.2. As equações diferenciais estocásticas de Ito . . . 110

3.2.1. O que é uma equação diferencial estocástica? . . . 110

3.2.2. Resolvendo EDEs usando o lema de Ito . . . 113

3.2.3. Resolvendo equações diferenciais estocásticas de Ito através do cálculo de Stratonovich . . . 119

3.3. A equação diferencial linear geral . . . 123

3.3.1. Equações lineares com ruído aditivo . . . 123

3.3.2. Equações homogêneas com ruído multiplicativo . . . 126

3.3.3. O caso geral . . . 127

3.3.4. As funções de esperança e variância da solução . . . 128

3.4. Solução numérica . . . 129

3.4.1. A aproximação de Euler . . . 130

3.4.2. A aproximação de Milstein . . . 133

4. Aplicações do cálculo estocástico em finanças 137 4.1. A fórmula de Black-Scholes do apreçamento de opções . . . 137

4.1.1. Uma breve excursão através das finanças . . . 137

4.1.2. O que é uma opção? . . . 139

4.1.3. Uma formulação matemática do problema de apreçamento de opções . . . . 141

4.1.4. A fórmula de Black e Scholes . . . 143

4.2. Uma técnica útil: a mudança de medida . . . 145

4.2.1. O que é a mudança da medida subjacente . . . 145

4.2.2. Uma interpretação da fórmula de Black-Scholes pela mudança de medida . 148 A. Apêndice 153 A.1. Modos de convergência . . . 153

A.2. Desigualdades . . . 155

A.3. Não diferenciabilidade e variação ilimitada dos caminhos amostrais brownianos . . 156

A.4. Demonstração da existência da integral estocástica geral de Ito . . . 157

A.5. O teorema de Radon-Nikodym . . . 160

A.6. Prova da existência e unicidade da esperança condicional . . . 160

(3)

CAPÍTULO1

P RELIMINARES

Neste capítulo iremos coletar alguns fatos básicos necessários para definirmos as integrais estocás- ticas. Em uma primeira leitura, a maioria das partes deste capítulo podem ser deixadas de lado, contanto que você possua algum conhecimento básico de teoria das probabilidades e processos estocásticos. Você poderá então começar pelo capítulo 2 que trata do cálculo estocástico de Ito e revisar alguns fatos deste capítulo, se necessário.

Na seção 1.1 iremos revisar noções elementares de teoria das probabilidades tais comovar- iáveis aleatórias, vetores aleatórios,distribuições,funções de distribuição,densidade,esperança,mo- mento,variânciaecovariância. Esta pequena revisão não pode ser um substitutivo de um curso inteiro de probabilidade, e portanto recomenda-se que você consulte suas anotações do curso ou um texto padrão. A seção 1.2 trata dosprocessos estocásticos. Um processo estocástico é um modelo natural para a descrição de processos da vida real, objetos e sistemas no espaço e no tempo.

Um processo estocástico particular desempenha um papel central no presente livro: movimento browniano. Ele será introduzido na seção 1.3 onde discutiremos algumas de suas propriedades elementares, em particular a não-diferenciabilidade e a variação ilimitada de seus caminhos amostrais.

Essas propriedades indicam que os caminhos amostrais brownianos são bastante irregulares, e portanto um novo cálculo estocástico tem de ser introduzido para as integrais referentes a movimentos brownianos.

Na seção 1.4 nós iremos brevemente revisar asesperanças condicionais. Sua definição precisa baseia-se em uma teoria matemática profunda, e portanto somente daremos alguma intuição a respeito desse conceito. A mesma observação se aplica à seção 1.5, onde introduziremos uma classe importante de processos estocásticos: osmartingais. Estes incluem o movimento browniano e as integrais indefinidas de Ito como exemplos particulares.

1.1. Conceitos básicos de teoria das probabilidades

1.1.1. Variáveis aleatórias

O resultado de um experimento ou jogo é aleatório. Um simples exemplo é o do lançamento de uma moeda: os possíveis resultados “cara” ou “coroa” não são previsíveis no sentido de apare- cerem segundo um mecanismo aleatório que é determinado pelas propriedades físicas de uma moeda. Existem os resultados aleatórios das atividades dos corretores (que representam na realidade tendências econômicas, interesses políticos, bem como os próprios instintos) que se refletem nos preços das ações e nas taxas de câmbio. Outro jogo é denominado de “competição” e pode

(4)

ser visualizado onde os produtos se encontram à venda: o preço de 1 kg de bananas, digamos, é o resultado, por um lado, de um jogo entre os donos das lojas, e de outro entre os donos de lojas e os consumidores.

O tratamento científico de um experimento requer a atribuição de um número a cada resultado aleatório. Ao lançarmos uma moeda, podemos escrever “1” para nos referirmos a “cara” e

“0” para “coroa.” Assim, obteremos umavariável aleatória X =X(ω)∈ {0,1}, ondeωpertence aoespaço de resultadosΩ ={cara,coroa}. O valor do preço de uma ação já é um número aletório, como também o é o preço de uma banana em uma quitanda. Tais númerosX(ω)nos fornecem uma informação a respeito de um experimento, mesmo que não saibamos quem participa do jogo ou quem o impulsiona.

Os matemáticos fazem uma clara distinção entre realidade e modelo matemático: eles definem um espaço abstratoΩcoletando todos os possíveis resultadosωde um experimento subjacente.

Trata-se de um espaço abstrato, i.e., na realidade não importando o que esses objetosωsão. Em linguagem matemática, avariável aleatória X =X(ω)nada mais é do que uma função real definida sobreΩ.

O passo seguinte do processo de abstração da realidade é a descrição probabilística da variável aleatóriaX:

Quais os valores mais prováveis de X(ω), onde eles estão concentrados, e qual seuspread?

Para abordarmos esses problemas, primeiro coletamos os subconjuntos “bons” deΩ, os assim denominadoseventosde uma classeF, digamos. Em textos avançados,F é denominado de σ-álgebra. Veja mais adiante na página 50 uma definição precisa desse conceito. Tal classe suposta- mente contém todos os eventos interessantes. O que seriaF para o lançamento de uma moeda?

Certamente{ω:X(ω) =0}={cara}e{ω:X(ω) =1} ={coroa}devem pertencer aF, mas a união, diferença e intersecção de quaisquer eventos em F também devem pertencer aF. O mesmo se dá com os conjuntosΩ ={cara,coroa}e seu complemento, o conjunto vazio;. Trata-se de um exemplo trivial, mas que mostra comoF deveria ser: seA∈ F, então seu complemento A^c também pertence; e seA,B∈ F, então também estarão emF A∩B,A∪B,A∪B^c,B∪A^c, e assim por diante.

Se consideramos o preço de uma açãoX, não somente os eventos{ω:X(ω) =c}deveriam pertencer aF, como também

{ω:a<X(ω)≤b}, {ω:b<X(ω)}, {ω:X(ω)≤a},

bem como muito mais eventos que podem ser relevantes para tal situação. Como no caso do lançamento de uma moeda, gostaríamos que as operações elementares tais como∩,∪,^caplicadas a eventos deF não nos levassem para fora da classeF. Este é o significado intuitivo de uma σ-álgebraF.

Probabilidade, Distribuição e Funções de distribuição

Perguntamos agora, onde entram asprobabilidades? Ao lançarmos uma moeda, ocorrerá “cara” ou

“coroa”. As probabilidades medem a verossimilhança de tais eventos ocorrerem. Se a moeda é não viciada, iremos atribuir a probabilidade 0.5 a ambos os eventos, i.e.,P({ω:X(ω) =0}) =P({ω: X(ω) =1}) =0.5. Esta definição matemática é baseada em evidência empírica: ao lançarmos uma moeda não viciada um grande número de vezes, esperamos que em aproximadamente 50% das

(5)

1.1. Conceitos básicos de teoria das probabilidades

vezes seja obtida “cara” e nas restantes 50% seja obtida “coroa.” Em teoria das probabilidades, alei dos grandes númerosfornece a justificativa teórica de tais observações empíricas.

Este exemplo elementar expressa o que é umamedida de probabilidadesobre uma classeF de eventos: para cada eventoA∈ F ela associa um valorP(A)∈[0,1]. Tal número é a fração esperada de ocorrências do eventoAem uma séria longa de experimentos em queAeA^csão observadas.

Algumas propriedades elementares de medida de probabilidade podem ser facilmente suma- rizadas:

Para eventosA,B∈ F

P(A∪B) =P(A) +P(B)−P(A∩B), e, seAeBsão disjuntos,

P(A∪B) =P(A) +P(B).

Além disto,

P(A^c) =1−P(A), P(Ω) =1 e P(;) =0.

A relação entre as variáveis aleatórias e probabilidade pode ser caracterizada por certas quantidades numéricas. No que se segue, consideraremos algumas delas.

A coleção de probabilidades

F_X(x) =P(X≤x) =P({ω:X(ω)≤x}), x∈R= (−∞,∞), é afunção distribuição F_X deX.

A dada função fornece a probabilidade para queX pertença ao intervalo[a,b]. De fato, P({ω:a<X(ω)≤b}) =F_X(b)−F_X(a), a<b.

Além disto, podemos também obter a probabilidade de que X seja igual a um determinado número:

P(X=x) =

=P({ω:X(ω) =x}) =P({ω:X≤x})−P({ω:X<x})

=P({ω:X(ω)≤x})−lim

h↓0P(({ω:X(ω)≤x−h})

=F_X(x)−lim

h↓0F_X(x−h).

Com essas probabilidades, podemos aproximar a probabilidade de um evento{ω:X(ω)∈B} para subconjuntos bastante complexosBdeR.

P_X(B) =P(X∈B) =P({ω:X(ω)∈B}) para subconjuntos convenientesB⊂Ré adistribuiçãodeX.

(6)

Os subconjuntos “convenientes” deRsão os assim chamadosconjuntos borelianos. Eles podem ser obtidos através de um número enumerável de operações envolvendo∩,∪ou^c atuando sobre intervalos; veja a página 52 para uma definição mais precisa.

A distribuiçãoP_X e a função de distribuiçãoF_X são noções equivalentes, no sentido de que ambas podem ser utilizadas no cálculo da probabilidade do evento{X∈B}.

A função de distribuição é contínua ou dá saltos. Primeiramente consideramos o caso especial em que a função distribuiçãoF_X é uma função de saltos puros:

F_X(x) = X

k:x_k≤x

p_k x∈R (1.1)

onde

0≤p_k≤1 para todoke P_∞

k=1p_k=1.

A função distribuição dada pela equação (1.1) e pela distribuição correspondente são denominadasdiscretas; uma variável aleatória possuindo uma função distribuição dada pela equação (1.1) é umavariável aleatória discreta.

Uma variável aleatória discreta pode assumir somente um número finito ou infinito enu- merável de valoresx₁,x₂... onde p_k=P(X=x_k). Em particular, a função distrbuiçãoF_X possui um salto para cima de tamanho p_kem x=x_k. Por exemplo, a variável aleatóriaX referente ao lançamento de uma moeda é discreta: ela assume tão somente os valores 0 ou 1. O preço de venda de um produto qualquer em um supermercado é uma variável aleatória discreta: ela pode assumir, digamos, os valores 0.01,0.02,....

Exemplo 1.1.1. (Duas distribuições discretas importantes)

Dentre as distribuições discretas importantes podemos citar a distribuição binomial B i n(n,p) tendo como parâmetrosn∈N={0,1,2,...}ep∈(0,1).

P(X=k) = n

k

p^k(1−p)^n−k, k=0,1...n, e adistribuição de Poisson P oi(λ)com parâmetroλ >0:

P(X=x) =e^−λλ^k

k!, k=0,1,2,....

Veja a figura 1.1 para uma ilustração.

Em contraste com as distribuições discretas e variáveis aleatórias, a função distribuição de umavariável aleatória contínuanão pode dar saltos, e portantoP(X =x) =0 para todox, ou, de forma equivalente

h→0limF_X(x+h) =F_X(x) para todox, (1.2) i.e., uma tal variável aleatória pode assumir qualquer valor com probabilidade 0. Uma variável aleatória contínua ganha seu nome a partir da propriedade da continuidade dada pela equação (1.2) da função de distribuiçãoF_X.

(7)

Fig. 1.1 — Esquerda:as probabilidadesP(X=x),k=0,1,2,...da função de distribuição de Poisson com parâmetroλ=10. Direita: a função de distribuição correspondente.

Fig. 1.2 — Esquerda: a densidade de probabilidade da distribuição normal padrão (média 0, variância 1). Direita: a função de distribuição correspondente.

Fig. 1.3 — Esquerda: a densidade dos log-retornosX_t=lnY_t−lnY_t−1dos preços diários de fechamentoY_tdo índice S& P. O S& P é um dos índices industriais básicos. Direita: a função de distribuição correspondente. Uma comparação com a 1.1 indica que a última distribuição certamente não é normal.

(8)

A maioria das distribuições de interesse possuem umadensidade f_X: F_X(x) =

Z x

−∞

f_X(y)d y, x∈R, onde

f_X(x)≥0 para todox∈Re Z_∞

−∞

f_X(y)d y=1.

Exemplo 1.1.2. (As distribuições normal e uniforme)

Uma distribuição importante contínua é a distribuição gaussiana normal N(µ,σ²), tendo como parâmetrosµ∈R,σ²>0. Tem como densidade a expressão dada por

f_X(x) = 1 p2πσexp

(

−(x−µ)² 2σ²

)

, x∈R. (1.3)

Se X éN(0,1)(normal padrão) denotaremos porϕ sua densidade e porΦsua função dis- tribuiçãoF_X. Para uma ilustração da densidade da normal padrão, veja a figura 1.2.

A distribuiçãouniforme U(a,b)tem por densidade a seguinte expressão:

f_X(x) = ( ₁

b−a se x∈(a,b), 0 em caso contrário.

O valor de uma taxa de câmbio ou preço de uma ação pode, pelo menos teoricamente, assumir qualquer valor real positivo. É claro que existem limitações técnicas: um computador ou calcu- ladora de bolso não é capaz de armazenar o valor de uma taxa de câmbio com infinitos dígitos, por exemplop

2; qualquer número figurando na memória de um computador foi arredondado.

Portanto, qualquer variável aleatória tendo algum interesse prático é na realidade discreta... No entanto, é conveniente pensarmos uma tal variável como sendo contínua. Existem várias razões de natureza teórica. Por exemplo, a distribuição normal aparece como uma distribuição limite através do teorema do limite central; (veja a página 36). Muitas funções de uma amostra são portanto aproximadamente normais, e portanto suas distribuições limite são contínuas. Mas existem também razões de ordem prática: em geral é menos enfadonho trabalhar com uma distribuição contínua amplamente estudada (tal como a normal, exponencial, gama, uniforme, e assim por diante), porque podemos utilizar o conhecimento padrão sobre sua densidade, bem como utilizar pacotes de programas computacionais padrão sobre sua densidade, momentos, quantis, e assim por diante. Podemos também obter expressões explicitamente dadas dessas quantidades.

Esperança, Variância e Momentos

Algumas características interessantes das variáveis aleatóriasXsão a suaesperança EX, avariância var(X)e seusmomentos E(X^l).

(9)

Aesperançaouvalor médiode uma variável aleatóriaX tendo densidade f_X é dada por

µ_X =EX= Z ∞

−∞

x f_X(x)d x.

AvariânciadeXé definida por σ_X² =var(X) =

Z∞

−∞

(x−µ_X)²f_X(x)d x. Ol-ésimomomentodeXparal∈Né definido como

E(X^l) = Z_∞

−∞

x^lf_X(x)d x.

Para uma dada função realg, aesperançade g(X)é dada pela expressão E g(X) =

Z_∞

−∞

g(x)f_X(x)d x.

Aesperançaouvalor médiode uma variável aleatória discretaX tendo como probabilidades associadasp_k=P(X =x_k)é dada por

µ_X=EX = X∞ k=1

x_kp_k. AvariânciadeXé definida por

σ_X² =var(X) = X∞ k=1

(x_k−µ_X)²p_k. Ol-ésimomomentodeXparal∈Né definido como

E(X^l) = X∞ k=1

x_k^lp_k

Para uma dada função realg, aesperançade g(X)é dada pela expressão E g(X) =

X∞ k=1

g(x_k)p_k.

Podemos considerar a esperançaµ_X como o “centro de gravidade” da variável aleatóriaX, i.e., os varloresaleatórios X(ω)encontram-se concentrados em torno do valornão-aleatórioµ_X. A esperança é considerada com freqüência como um substituto do tamanho da variável aleatória.

Por exemplo, é uma maneira simples de previsão dos valores futuros de uma série temporal.

Ospreadou dispersão dos valores aleatóriosX(ω)ao redor da esperançaµ_X é descrita por meio de uma variância:

(10)

σ_X² =var(X) =E(X−µ_X)²

=E(X²−2µ_XX+µ²_X) =E(X²)−2µ²_X+µ²_X

=E(X²)−µ²_X e odesvio padrãoσ_X.

Recorde-se da densidade normal dada pela equação (1.3). O parâmetroµé a esperançaµ_X e parâmetro σ 2 é a variânciaσ_X² da variável aleatóriaX com densidade dada por (1.3). É um fato bem conhecido (e facilmente verificável por meio de um computador) que para uma variável aleatória normal (N(µ,σ²))X,

P(µ−1.96σ≤X≤µ+1.96σ) = Φ(µ+1.96σ)−Φ(µ−1.96σ) =0.95. (1.4) Assim, existe 95% de chance de que a variável aleatória X assuma valores no intervalo [µ− 1.96,µ+1.96]. Analogamente á equação (1.4), podemos formular uma regra heurística¹denomi-

1não é nada mais do que isto:

podemos construir contraexemplos.

nada 2σsegundo a qual para uma variável aleatória bem comportadaX, a probabilidade P(µ_X−2σ_X ≤X≤µ_X+2σ_X)

é próxima de 1. Esta regra também justificada peladesigualdade de Chebyshev:

P(|X−µ_X|>x)≤x⁻²σ_X², x>0,

o que fornece um limite correto para a probabilidade de que o desvio absoluto da variável aleatória X de sua esperança exceda o patamar dado porx.

1.1.2. Vetores aleatórios

No que se segue, faremos uso freqüente das estruturas aleatórias finita e infinitamente dimensionais. Iniciamos com os vetores aleatórios finitamente dimensionais como um primeiro passo para a definição dos processos estocásticos.

X= (X₁...X_n)é umvetor aleatório n-dimensional se os seus componentesX₁...X_n são variáveis aleatórias unidimensionais a valores reais.

Se interpretarmos t =1...ncomo instantes equidistantes no tempo, X_t pode ser considerado como o resultado de um experimento no tempo t. Uma talsérie temporal, por exemplo, pode consistir dos preços das ações da BMW X_t em n dias sucessivos. É claro que t é um “tempo matemático”, e portanto, não é nada mais do que um índice de uma variável de contagem. Por exemplo, um vetor aleatório pode descrever as condições meteorológicas em São Paulo em um dado instante:X₁pode ser a temperatura,X₂a pressão atmosférica, eX₃a velocidade do vento.

Analogamente às variáveis aleatórias unidimensionais, podemos introduzir a função de dis- tribuição, a esperança, os momentos e a matriz de covariância do vetor aleatório para descrever sua distribuição e sua estrutura de dependência. Este último aspecto é uma novidade; a dependên- cia não faz sentido quando se fala de apenas uma variável aleatória.

(11)

Probabilidade, Distribuição e Função de distribuição

Lance uma moeda duas vezes. Podemos considerar quatro pares (Cara, Cara), (Coroa, Coroa), (Cara, Coroa) e (Coroa, Cara) como resultados do experimento. Esses quatro pares constituem o espaço amostralΩ. Como foi visto anteriormente, atribuiremos 1 para “Cara” e 0 para “Coroa.”

Obteremos desta maneira duas variáveis aleatórias X₁ eX₂. X = (X₁,X₂) é um vetor aletório bidimensional. Observe que

X(C a ra,C a ra) = (1,1),X(C o r oa,C o r oa) = (0,0),

X(C a ra,C o r oa) = (1,0),X(C o r oa,C a ra) = (0,1).

Se a moeda for não viciada, poderemos atribuir uma probabilidade de 0.25 para cada um dos quatro resultados, i.e.

P({ω:X(ω) = (k,l)}) =0.25 k,l ∈ {0,1}.

Como foi visto anteriormente, podemos considerar uma coleção de subconjuntosF deΩe definir uma medida de probabilidade para o mesmo, i.e., poderemos atribuir um númeroP(A)∈[0,1]

para cadaA∈ F.

Fig. 1.4 —

F_X(x) =P(X₁≤x₁...X_n≤x_n) (1.5)

=F({ω:X₁(ω)≤x₁...X_n(ω)≤x_n}) x= (x₁...x_n)∈Rⁿ,

é afunção distribuição F_X deX.

(12)

Por exemplo, seX for bidimensional,

P(X∈(a,b) =F_X(b₁,b₂) +F_X(a₁,a₂)−F_X(a₁,b₂)−F_X(b₁,a₂).

Esta fórmula é claramente correta; veja a figura 1.4. Como no caso das variáveis aleatórias unidimensionais, essas probabilidades constituem uma aproximaçãoP(X ∈B)para conjuntosB bastante gerais.

F_X(B) =P(X∈B) =P({ω:X(ω)∈B}).

para subconjuntos convenientes deB⊂Rⁿconstituem adistribuiçãodeX.

Os subconjuntos “convenientes” deRⁿ são os conjuntos deBorel, os quais são obtidos por meio de um conjunto enumerável de operações∩,∪e^catuando em intervalos doRⁿ(veja a página 52 para a uma definição precisa. Por exemplo, conjuntos formados por um único elemento, esferas e retângulos são conjuntos borelianos. Em um sentido matemático, a distribuição e a função distribuição de um vetor aleatórioX são noções equivalentes. TantoF_X quantoP_X podem ser usados para calcular a probabilidade de um evento{X∈B}.

Observe que a distribuição deX= (X₁...X_n)contém toda a informação sobre a distribuição dos componentesX_i, dos pares(X_i,X_j), das triplas (X_i,X_j,X_k), e assim por diante. Isto pode facilmente ser visto a partir da equação (1.5): você poderá obter a função de distribuição de(X₁,X₂) fazendox₃=...=x_n=∞, e assim por diante.

Analogamente às variáveis aleatórias, podemos introduzir vetores contínuos e discretos, bem como suas distribuições. Para nossos propósitos, os vetores aleatórios contínuos possuindo uma densidade serão relevantes, e portanto iremos restringir nossa atenção tão-somente a eles.

Se a distribuição de um vetor aleatório X possui densidade f_X, poderemos representá-lo por meio de uma função de distribuiçãoF_XdeXcomo

F_X(x₁...x_n) =P(X ∈B) = Z x₁

−∞

...Zx_n

−∞

f_X(y₁...y_n)d y₁...d y_n, (x₁...x_n)∈Rⁿ,

onde a densidade é a função satisfazendo

f_X(x)≥0 para todox∈Rⁿ

e Z x₁

−∞

...

Z x_n

−∞

f_X(y₁...y_n)d y₁...d y_n=1.

Se um vetor Xpossui densidade f_X, todos seus componentes X_i, os vetores de pares (X_i,X_j), triplas(X_i,X_j,X_k), e assim por diante, possuirão densidades. Elas serão chamadas dedensidades marginais.

(13)

Exemplo 1.1.3. (Densidades marginais: o caso em quen=3) Consideramos o caso em quen=3.

As densidades marginais podem ser obtidas da seguinte maneira:

f_X₁(x₁) = Z∞

−∞

Z∞

−∞

f_X(x)d x₂d x₃, f_X₁_,X₂(x₁,x₂) = Z∞

−∞

f_X(x)d x₃.

f_X₂(x₂)é obtido integrando-se f_X(x)com respeito a x₁ ex₃, f_X₁_,X₃ pela integração de f_X(x) com respeito ax₂, e assim por diante.

Um dos casos é particularmente simples: se a densidade de f_X(x)pode ser escrita como um produto de funções não-negativasg_i:

f_X(x) =g₁(x₁)...g_n(x_n), x∈Rⁿ. Neste caso,R∞

−∞g_i(x_i)d x_i=1, parai=1...n, i.e., as funçõesg_i(x_i)são densidades probabilísticas unidimensionais. Portanto, tem-se necessariamente que

f_X_i(x_i) =g_i(x_i),f_X_i_,X_j(x_i,x_j) =g_i(x_i)g_j(x_j), e assim por diante.

Verifique isto!

Exemplo 1.1.4. (Vetor gaussiano aleatório)

Umvetor normal aleatórioougaussianopossui distribuição normal. Adistribuição n-dimensional normaloudistribuição gaussianapode ser fornecida através de sua densidade:

f_X(x) = 1

(2π)¹^/²(d e tΣ)¹^/²exp

−1

2(x−µ)Σ⁻¹(x−µ)⁰

, x∈Rⁿ, (1.6) com parâmetrosµ∈ Rⁿ eΣ. (Aqui, e no que se segue,y⁰ denota a transposta do vetory. A quantidade Σ é uma matriz n×n simétrica definida positiva, Σ⁻¹ é a sua inversa e detΣseu determinante. Veja a figura 1.5 para uma ilustração no caso em quen=2.

Esperança, Variância e Covariância

A esperança de um vetor aleatório tem uma função parecida com o valor médio de uma variável aleatória. Os valoresX(ω)estão concentrados em torno dela.

(14)

Aesperançaouvalor médiode um vetor aleatórioXé dado por µ_X=EX= (EX₁...EX_n).

Amatriz de covariânciadeXé definida por

Σ_X= (cov(X_i,X_j):i,j=1...n), onde cov(X_i,X_j) =E[(X_i−µ_X_i)(X_j−µ_X_j)]

=E(X_i,X_j)−µ_X_iµ_X_j, é acovariânciaentreX_ieX_j. Observe que cov(X_i,X_i) =σ_X²

i. Exemplo 1.1.5. (Continuação do exemplo 1.1.4)

Lembre-se da equação (1.6) que expressa a densidade de um vetor multivariado aleatório gaussiano X. O parâmetroµé a esperançaµ_XdeXeΣé a sua matriz de covariânciaΣ_X. Assim, a densidade de um vetor gaussiano (e portanto, sua distribuição) fica completamente determinada através de sua esperança e matriz de covariância. Em particular, seµ=0 eΣé a matriz identidadeI_n, tem-se que detI_n =1 eΣ⁻¹ = I_n. A densidade de f_X é pois simplesmente o produto de ndensidades normais padrão:

f_X(x₁...x_n) =ϕ(x_i)...ϕ(x_n).

Podemos então escreverN(µ,Σ)para a distribuição do vetor gaussianon-dimensionalXtendo esperançaµe matriz de covariânciaΣ. Tal vetor possui uma propriedade elegante pela qual ele continua gaussiano por transformações lineares (lembre-se de queµ⁰eA⁰ denotam as transpostas deµeA, respectivamente):

Suponha queX= (X₁...X_n)possua uma distribuição normalN(µ,Σ)eAseja uma matrizm×n. EntãoAX⁰tem uma distribuição da formaN(A_µ0,AΣA⁰).

É conveniente padronizar as covariâncias dividindo as variáveis aleatórias correspondentes pelos seus desvios padrão. A quantidade resultante será:

corr(X₁,X₂) =cov(X₁,X₂) σ_X₁σX₂

=E[(X₁−µ_X₁)(X₂−µ_X₂)]

σ_X₁σ_X₂

é acorrelaçãoentreX₁eX₂. Como resultado desta padronização, a correlação entre duas variáveis aleatórias encontra-se sempre entre−1 e 1. Verifique este fato mediante a aplicação da desigualdade de Cauchy-Schwarz; veja a página 155.

(15)

Fig. 1.5 — Densidade da densidade bi-dimensional normal padrão (µ=0eΣ =I₂é a matriz identidade)

1.1.3. Independência e dependência

Jogue uma moeda não viciada duas vezes e suponha que os números aleatóriosX₁(ω),X₂(ω)∈ {0,1}sejam os resultados correspondentes do primeiro e segundo experimentos. É fácil verificar que

P(X₁=k,X₂=l) =P(X₁=k)·P(X₂=l), k,l∈ {0,1}.

Esta propriedade é denominadaindependênciadas variáveis aleatóriasX₁eX₂. Falando intuitiva- mente, a independência significa que o primeiro experimento não tem influência no segundo, e vice-versa. Por exemplo, o conhecimento deX₁não permite a previsão do valor deX₂, e vice-versa.

Logo abaixo, relembramos as definições essenciais e propriedades de eventos independentes e variáveis aleatórias independentes.

Dois eventosA₁eA₂sãoindependentesse

P(A₁∩A₂) =P(A₁)·P(A₂).

Duas variáveis aleatóriasX₁eX₂sãoindependentesse

P(X₁∈B₁,X₂∈B₂) =P(X₁∈B₁)P(X₂∈B₂)

De forma alternativa, podemos definir a independência através das funções de distribuição e densidades. As variáveis aleatóriasX₁eX₂são independentes se e somente se

F_X₁_,X₂(x₁,x₂) =F_X₁(x₁)F_X₂(x₂), x₁,x₂∈R. Suponha queX₁,X₂)possua densidade f_X

1,X₂ com densidades marginais f_X

1 e f_X

2 (veja a página 12). Então as variáveis aleatóriasX₁eX₂são independentes se e somente se

f_X₁_,X₂(x₁,x₂) =f_X₁(x₁)f_X₂(x₂), x₁,x₂∈R.

A definição de independência pode ser estendida para um número finito e arbitrário de eventos e vetores aleatórios. Observe que a independência dos componentes dos vetores aleatórios

(16)

implica a independência de cada par de seus componentes, mas a recíproca em geral não é verdadeira.

Os eventosA₁...A_nsãoindependentesse, para toda escolha de índices 1≤i₁<...<

i_k≤ne inteiros 1≤k≤n,

P(A_i₁∩...∩A_i

k) =P(A_i₁)...P(A_i

k).

As variáveis aleatóriasX₁...X_n sãoindependentesse, para toda escolha de índices 1≤i₁<...<i_k≤n, inteiros 1≤k≤ne subconjuntos apropriadosB₁...B_ndeR,

P(X_i

1∈B_i

1...X_i_k∈B_i

k) =P(X_i

1∈B_i

1)...P(X_i

k∈B_i

k) Isto significa que os eventos{X₁∈B₁}...{X_n∈B_n}são independentes.

As variáveis aleatórias X₁...X_n são independentes se e somente se suas funções de distribuição conjunta podem ser escritas como

F_X

1...X_n(x₁...x_n) =F_X

1(x₁)...F_X

n(x_n), (x₁...x_n)∈Rⁿ.

Se o vetor aleatórioX= (X₁...X_n)possuir densidadef_X, entãoX₁...X_nserão independentes se e somente se

f_X₁_...X

n(x₁...x_n) =f_X₁(x₁)...f_X

n(x_n), (x₁...x_n)∈Rⁿ. (1.7) Exemplo 1.1.6. (Continuação do exemplo 1.1.2)

Relembre-se da densidade de um vetor gaussiano n-dimensional dada na equação (1.6). Pode- se verificar facilmente da forma desta densidade que seus componentes são independentes se e somente se a matriz de covariânciaΣé diagonal. Isto tem o seguinte significado: corr(X_i,X_j) = cov(X_i,X_j) = 0, para i 6= j. Assim, podemos escrever a densidade de X na forma dada pela equação (1.7). Assim,no caso gaussianoanão correlação e independência são noções equivalentes.

Esta asserção é falsa no caso de vetores não-gaussianos aleatórios; veja o exemplo 1.1.7.

Uma conseqüência importante da independência das variáveis aleatórias é a seguinte propriedade:

Se as variáveis aleatóriasX₁...X_n são independentes, então para quaisquer funções reais g₁...g_n, tem-se

E[g₁(X₁)...g_n(X_n)] =E g₁(X₁)...E g_n(X_n), contanto que as esperanças sejam bem definidas.

Em particular, pode-se concluir que as variáveis aleatórias independentesX₁eX₂sãonão correlacionadas, i.e., corr(X₁,X₂) =cov(X₁,X₂) =0. A recíproca em geral não é verdadeira.

(17)

Exemplo 1.1.7. (Variáveis aleatórias não correlacionadas não são necessariamente independentes.) SejaX uma variável aleatória normal padrão. Uma vez queX é simétrica (i.e., tantoX quanto

−X possuem a mesma distribuição), o mesmo acontece comX³, e portanto tantoX quantoX³ possuem esperança zero. Assim,

cov(X,X²) =E(X³)−E(X)E(X²) =0,

masXeX²são claramente dependentes: uma vez que{X∈[−1,1]}={X²∈[0,1]}, obtemos P(X ∈ {−1,1},X²∈[0,1]) =P(X∈[−1,1])

>P(X∈[−1,1])P(X²∈[0,1]) =[P(X ∈[−1,1])]². Exemplo 1.1.8. (Autocorrelações de uma série temporal)

Para uma dada série temporalX₀,X₁,X₂,..., a autocorrelação em umlagh é definida pela série corr(X₀,X_h),h =0,1,.... Uma asserção que pode ser encontrada com freqüência na literatura é a de que as séries temporais financeiras (derivadas dos índices de bolsa, preços de ações, taxas de câmbio, e assim por diante) quase que não são autocorrelacionadas. Tal asserção é apoiada pelas amostras de autocorrelações dos retornos logaritmosX_t do índice S&P; veja a figura 1.6.

Em contraste com esta observação, as autocorrelações estimadas dos valores absolutos|X_t|são distintos de zero para grandeslagsde tamanhoh. Tal fato indica que existe uma dependência nesta série temporal.

Fig. 1.6 — As autocorrelações estimadas do índice S&P (à esquerda) e de seus valores absolutos (à direita); veja o exemplo 1.1.8; confronte com os comentários da figura 1.3.

No que se segue, iremos lidar com certa freqüência com coleções infinitas (X_t,t ∈ T) de variáveis aleatóriasX_t, i.e.,T é um conjunto infinito de índices. Nesta configuração, podemos também introduzir a independência.

A coleção de variáveis aleatórias(X_t,t ∈ T) éindependentese para toda escolha de índices distintos t₁...t_n ∈T comn ≥1, as variáveis aleatóriasX_t₁...X_t

n são

independentes.

A mesma coleção será ditaindependenteeidenticamente distribuída— isto abreviado paraiid— se for independente e todas as variáveis aleatóriasX_t tiverem a mesma distribuição.

(18)

Notas e comentários

Nesta seção iremos revisar alguns fatos de teoria das probabilidades elementar que podem ser en- contrados em qualquer livro tratando deste tópico; veja por exemplo o livro de Pitman (1993) para considerações de nível elementar e Gut (1995) para um curso intermediário. Cumpre observar que muitos textos de estatística em geral começam com uma introdução à teoria das probabilidades;

veja, por exemplo, o livro de Mandenhall, Wackerly e Scheaffer (1990).

1.2. Processos estocásticos

Suporemos que a taxa de câmbio R$/US$ em qualquer instantetentre 09:00h e 10:00h é aleatória.

Portanto, podemos interpretá-la como uma realizaçãoX_t(ω)de uma variável aleatóriaX_t. Assim, observamosX_t(ω)parat’s satisfazendo 9≤t≤10. A fim de podermos fazer uma conjectura no horário de 10:00h de quanto a taxa de câmbio deverá valer às 11:00h, i.e., para estimarX₁₁(ω), é razoável examinar sua evolução inteira de X_t(ω) no período entre 09:00h e 10:00h. Esta é também uma demanda dos dispositivos de tecnologia de alto padrão que fornecem informação quase que contínua a respeito do processo considerado. Um modelo matemático para descrever tais fenômenos é denominado deprocesso estocástico.

Umprocesso estocástico X é uma coleção de variáveis aleatórias (X_t,t∈T) = (X_t(ω),t∈T,ω∈Ω), definido em algum espaçoΩ.

Para as nossas finalidades, T é muitas vezes um intervalo, por exemplo,T = [a,b], [a,b) ou [a,∞), paraa<b. Então chamaremosX de processo detempo contínuocontrastando com os processos detempo discreto. Neste último caso,T é um conjunto finito ou infinito enumerável.

Pelas razões óbvias, o índicetda variável aleatóriaX_té freqüentemente denominada comotempo, e nós iremos seguir esta convenção.

Umprocesso estocástico X é uma função de duas variáveis.

Para um instantetfixado, ele é uma variável aleatória:

X_t=X_t(ω), ω∈Ω

Para um resultado aleatório fixoω∈Ω, ele é uma função do tempo.

X_t=X_t(ω), t∈T.

Esta função é denominada derealização,trajetóriaoucaminho amostraldo processo X.

Esses dois aspectos de um processo estocástico são ilustrados na figura 1.7.

Exemplo 1.2.1. Asérie temporal

X_t, t=0,±1,±2...

(19)

1.2. Processos estocásticos

Fig. 1.7 — 5 caminhos amostrais de um processo estocástico(X_t,t∈[0,1]). Topo: todo caminho corresponde a umω∈Ωdistinto. Meio e fundo:

os valores das linhas verticais parat=0.1...0.9visualizam as variáveis aleatóriasX_0.1...X_0.9; elas ocorrem como projeções de caminhos amostrais nas linhas verticais.

(20)

Fig. 1.8 — Os valores diários(scaled)do índice S&P em um período de 7 422 dias. O gráfico sugere que consideremos a série temporal do S&P como um caminho amostral de um processo de tempo contínuo. Se existem muitos valores em uma série temporal de tal forma que os instantes de tempo t∈Tsejam “densos” em um dado intervalo, então poder-se-á interpretar esse processo de tempo discreto como um processo de tempo contínuo. Os caminhos amostrais de um processo de tempo contínuo ocorrendo na realidade são sempre informados em instantes discretos do tempo. Dependendo da situação, dever-se-á decidir qual modelo (de tempo discreto ou contínuo) é mais apropriado.

é um processo de tempo discreto comT =Z={0,±1,±2,...}. As séries temporais constituem uma classe importante de processos estocásticos. Elas são modelos relevantes em muitas apli- cações, onde se possa estar interessado na evolução de um processo real. Tais séries representam, por exemplo, a temperatura diária do corpo de um paciente em um hospital, os retornos diários de preços, ou então o número mensal de passageiros do tráfego aéreo em um determinado país.

O modelo teórico de séries temporais mais popular são os processos ARMA (AutoRegressive Moving Average). Eles são definidos por meio de algumas equações de diferença nas quais uma seqüência iid (veja a página 17), o assim chamadoruídoestá envolvido. Por exemplo, uma média móvel de ordemq≥1 pode ser definida como

X_t=Z_t+θ₁Z_t−1+...+θ_qZ_t−q, t∈Z, e o processo auto-regressivo de ordem 1 é dado por meio da seguinte equação:

X_t=φX_t−1+Z_t, t∈Z.

Neste caso, os parâmetrosθ₁...θ_q eφsão reais dados. Os modelos de séries temporais podem ser entendidos como discretizações de equações diferenciais estocásticas. Iremos examinar este fato para os processos autoregressivos na página 116.

A figura 1.9 mostra dois exemplos:

Verificamos que os conceitos de variável aleatóriaX e o de processo estocástico(X_t,t∈T)não são muito diferentes. Ambos possuem realizações aleatórias, mas a realizaçãoX(ω)de uma variável aleatória é um número, ao passo que a realizaçãoX_t(ω),t∈T de um processo estocástico é uma função definida emT. Portanto, estaremos inteiramente corretos se considerarmos um processo estocástico como um “elemento randômico” assumindo como valores funções. Além disto, podemos interpretar uma variável aleatória e um vetor aleatório como um processo estocástico especial possuindo um conjunto finito de índicesT.

(21)

Fig. 1.9 — Duas séries temporaisX_t,t=1...100.Esquerda: 100 log-retornos sucessivos do índice S&P; veja a figura 1.3. Direita: Um caminho amostral simulado do processo autoregressivoX_t=0.5X_t−1+Z_t, onde osZ_tsão variáveis aleatórias iidN(0,1); veja o exemplo 1.2.1.

Distribuição

Em analogia ás variáveis aleatórias e vetores aleatórios, desejamos introduzir características não- aleatórias de um processo estocástico, tais como sua distribuição, esperança, e assim por diante.

Além disto, gostaríamos de descrever sua estrutura de dependência. Há uma tarefa muito mais complexa do que a descrição de um vetor aleatório. De fato, um processo estocástico não-trivial X = (X_t, t ∈T)com um conjunto de índicesT infinito é um objeto de dimensão infinita; ele pode ser entendido como uma coleção infinita de variáveis aleatóriasX_t, t∈T. Uma vez que os valores deX são funções deT, adistribuição de X deveria ser definida para subconjuntos de um certo “espaço de funções”, i.e.,

P(X∈A), A∈ F, (1.8)

ondeF é uma coleção de subconjuntos apropriados para o espaço de funções. Esta abordagem é possível, mas requer matemática avançada, e portanto iremos procurar meios mais simples.

A observação chave é a de que um processo estocástico pode ser interpretado como uma coleção de vetores aleatórios.

Asdistribuições de dimensão finita (disfi)de um processo estocásticoX são as dis- tribuições dos vetores de dimensão finita.

(X_t₁...X_t

n), t₁...t_n∈T,

para todas as escolhas possíveis dos instantest₁...t_n∈T e para todon≥1.

Podemos também imaginar os disfi’s de forma muito mais fácil do que uma distribuição (1.8) de processos estocásticos. Pode-se demonstrar que os disfi’s determinam a distribuição deX. Nesse sentido, nós nos referiremos à coleção de disfi’s como adistribuição de processos estocásticos.

Os processo estocásticos podem ser classificados de acordo com critérios distintos. Um deles é o tipo de disfi.

Exemplo 1.2.2. (Processos gaussianos)

Recorde-se pela equação (1.6) da definição de densidade gaussiana n-dimensional. Um processo estocástico é ditogaussianose todos os seus disfi’s são gaussianos multivariados. Nos aprendemos no exemplo 1.1.5 que os parâmetrosµeΣde um vetor gaussiano são a sua esperança e sua matriz

(22)

de covariância, respectivamente. Portanto, a distribuição de um processo estocástico gaussiano fica determinada somente pela coleção das esperanças e matrizes de covariância dos disfi’s.

Um processo gaussiano simples emT = [0,1]consiste de uma variável aleatória iidN(0,1). Neste caso, os disfi’s podem ser caracterizados pelas funções de distribuição

P(X_t

1≤x₁...X_t

n≤x_n) =P(X_t

1≤x₁)...P(X_t

n≤x_n)

=Φ(x₁)...Φ(x_n) 0≤t₁...≤t_n≤1, (x₁...x_n)∈Rⁿ.

Os caminhos amostrais deste processo são bastante irregulares. Veja a figura 1.10 para uma ilus- tração.

Fig. 1.10 — Um caminho amostral de um processo gaussianoX_t,t∈[0,1]onde osX_t’s são iidN(0,1); veja o exemplo 1.2.2. A função esperança é µ_X(t) =0e as linhas sombreadas indicam as curvas±2σ_X(t) =±2; veja o exemplo 1.2.3.

Esperança e função de covariância

Para um vetor aleatórioX= (X₁...X_n)nós definimos a esperançaµ_X= (EX₁...EX_n)bem como a matriz de covariânciaΣ_X= (cov(X_i,X_j),i,j=1...n). Um processo estocásticoX= (X_t,t∈T) pode ser considerado como uma coleção de vetores aleatórios (X_t

1...X_t_n), para t₁...t_n ∈ T e n≥1. Para cada um deles, podemos determinar a esperança e a matriz de covariância. De forma alternativa, podemos considerar essas quantidades como funções det∈T.

Afunção esperançadeX é dada por

µ_X(t) =µ_X_t=EX_t, t∈T Afunção de covariânciadeX é dada por

c_X(t,s) =cov(X_t,X_s) =E[(X_t−µ_X(t))(X_s−µ_X(s))], t,s∈T. Afunção de variânciaé dada por

σ_X²(t) =c_X(t,t) =var(X_t), t∈T.

Nós aprendemos do exemplo 1.2.2 que processos gaussianos ficam determinados tão-somente pelas suas funções de esperança e covariãncia. Tal fato não é correto para um processo não gaussiano.

(23)

No que tange um vetor aleatório, a função esperançaµ_X(t)é uma quantidade determinística em torno da qual os caminhos amostrais deX encontram-se concentrados. A função de covariân- ciac_X(t,s)é uma medida de dependência no processoX. A função de variânciaσ_X²(t)pode ser considerada como uma medida despreaddos caminhos amostrais deX ao redor deµ_X(t). Con- trastando com o caso unidimensional, uma asserção como “95% de todos os caminhos amostrais se encontram entre os gráficos deµ_X(t)−2σ_X(t)eµ_X(t) +2σ_X(t)” é muito difícil de ser demon- strada (mesmo para processos gaussianos), e em geral não é correta. Nós iremos por vezes considerar gráficos computacionais com caminhos de certos processos estocásticos e também indicar as curvasµ_X(t)eµ_X(t)±2σ_X(t),t∈T. Esta última deve ser interpretada para cadatfixo, i.e., para cada variável aleatória individualX_t. Somente em algum sentido heurístico, elas podem fornecer limites para os caminhos do processoX. Veja a figura 1.10 para uma ilustração.

Exemplo 1.2.3. (Continuação do exemplo 1.2.2)

Considere o processo gaussiano(X_t,t∈[0,1])de variáveis aleatóriasX_tdo tipo iidN(0,1). Suas funções de esperança e covariância são dadas por meio das seguintes expressões:

µ_X(t) =0 e c_X(t,s) =

(1 se t=s 0 se t6=s.

Estrutura de dependência

Já introduzimos os processos gaussianos por meio da especificação de sua disfi como uma gaussiana multivariada. Outra maneira de classificar os processos estocásticos consiste em impor uma estrutura de dependência especial.

O processoX= (X_t,t∈T),T ⊂Ré ditoestritamente estacionáriose os disfi’s são invariantes mediante translações do índicet:

(X_t₁...X_t

n)= (X^d _t₁_+h...X_t

n+h) (1.9)

para todas as possíveis escolhas dos índicest₁...t_n ∈T, n≥1 eh tal que todos os índices t₁+ h...t_n+h ∈T. O símbolo=^d denota a igualdade entre distribuições. Para os vetores aleatórios em (1.9) isto significa que as funções de distribuição são idênticas.

Exemplo 1.2.4. (Processos gaussianos estacionários)

Considere um processoX = (X_t,t∈T)comT = [0,∞)ouT =Z. Um exemplo trivial de um processo estritamente estacionário é uma seqüência de variáveis aleatórias iidX_t,t∈Z. Uma vez que um processo gaussianoX é determinado pelas funções de esperança e covariância, a condição (1.9) se reduz a

µ_X(t+h) =µ_X(t) e c_X(t,s) =c_X(t+h,s+h)

para todoss,t∈T tais ques+h,t+h ∈T. Mas isto significa queµ_X(t) =µ_X(0)para todost, ao passo quec_X(t,s) =ec_X(|t−s|), para uma determinada funçãoec_X de uma variável real. Por- tanto, para um processo gaussiano, a estacionariedade estrita significa que a função de esperança é constante e a função de covariância somente depende da distância|t−s|. Mais geralmente, se um processoX (possivelmente não gaussiano) possui as duas propriedades mencionadas, ele será denominadoestacionário(emsentido mais amplo) ou processoestacionário de segunda ordem.

Se descrevermos um processo real por meio de um processo estocástico estacionário (estrito ou em sentido amplo), então iremos acreditar que as propriedades características desse processo não

(24)

variam com o passar do tempo. Esta restrição é relativamente forte sobre o processo subjacente.

A estrutura de dependência descrita pelo disfi ou pela função de covariância é invariante por translações do tempo. Esta restrição no processo subjacente é relativamente forte. No entanto, trata-se de uma hipótese padrão em muitos campos relacionados com probabilidades, tais como estatística e análise de séries temporais.

A estacionariedade pode também ser imposta sobre os incrementos de um processo. Neste caso, o próprio processo não é necessariamente estacionário.

SejaX = (X_t,t∈T)um processo estocástico eT ⊂Rum intervalo. Dizemos que X possuiincrementos estacionáriosse

X_t−X_s =^d X_t+h−X_s+h para todot,s∈T eh, comt+h,s+h∈T X é dito possuir incrementos independentes se para cada escolha de t_i ∈ T com t₁<...<t_nen≥1,

X_t₂−X_t₁...X_t

n−X_t_n−1 são variáveis aleatórias independentes.

Um dos exemplos mais proeminentes de processos com incrementos independentes e esta- cionários é o processo homogêneo de Poisson. Homogeneidade é aqui um outro refraseamento da estacionariedade dos incrementos.

Exemplo 1.2.5. (Processos de Poisson homogêneos)

Um processo estocástico(X_t,t ∈[0,∞)é denominado deprocesso de Poisson homogêneoou simplesmente umprocesso de Poisson com taxa de intensidadeλ >0 se as seguintes condições estiverem satisfeitas:

• Ele começa em zero:X₀=0;

• Possui incrementos estacionários independentes;

• Para todot>0,X_t possui uma distribuição de PoissonP oi(λt).¹

1 Veja o exemplo 1.1.1 para a definição de distribuição de Poisson.

A figura 1.11 mostra diversos caminhos amostrais de Poisson.

Observe que, pela estacionariedade dos incrementos, X_t−X_s com t > s possui a mesma dis- tribuição queX_t−s−X₀=X_t−s, i.e., uma distribuição de PoissonP oi(λ(t−s)).

Uma definição alternativa do processo de Poisson é dada por meio da seguinte equação:

X_t=#{n:T_n≤t}, t>0, (1.10) onde #Adenota o número de elementos de qualquer conjunto A, T_n = Y₁+...+Y_n e(Y_i) é uma seqüência de variáveis aleatórias exponenciais iidE x p(λ)possuindo função de distribuição comum

P(Y₁≤x) =1−e^−λx, x≥0.

Esta definição mostra bem que tipo de caminhos amostrais um processo de Poisson possui. Trata- se de uma função que apresenta saltos puros: ela é constante sobre [T_n,T_n+1)possuindo saltos para cima de tamanho igual a 1 em instantes randômicosT_n.

(25)

Fig. 1.11 — Caminhos amostrais de um processo homogêneo de Poisson(X_t,t∈[0,∞))com intensidadeλ=1; veja o exemplo 1.2.5. A linha reta sólida representa a função esperançaµ_X(t) =t.

(26)

O papel desempenhado por um processo de Poisson e suas modificações e ramificações é com- parável ao papel desempenhado pelo movimento browniano. O processo de Poisson é um processo de contagem; veja (1.10). Possui uma vasta gama de aplicações nos mais diversos campos.

Para mencionar alguns deles, considereX_t como um modelo para o número de

• chamadas telefônicas controladas por um operador;

• clientes à espera de serviços em uma fila;

• reivindicações oriundas de uma carteira de seguros para um dado intervalo de tempo[0,t].

Notas e comentários

As introduções à teoria dos processos estocásticos são baseadas em fatos não elementares de teoria da medida e análise funcional. Dentre os textos padrão, podemos mencionar Ash e Gardner (1975), Gikhman e Skorokhod (1975), Karlin e Taylor (1975, 1981), bem como vários outros.

Uma introdução divertida á teoria de processos estocásticos aplicados é o livro de Resnick (1992).

Grimett e Stirzaker (1994) é uma introdução “sem sobrecarregar o leitor, mas com bastante teoria da medida.”

1.3. Movimento browniano

1.3.1. Propriedades da definição

O movimento browniano desempenha um papel central em teoria das probabilidades, na teoria dos processo estocásticos, em física, finanças, e também neste livro. Iniciaremos com a definição deste importante processo. Depois continuaremos mencionando algumas de suas propriedades mais elementares.

Um processo estocásticoB= (B_t,t∈[0,∞))é chamado demovimento browniano (padrão)ou umprocesso de Wienerse as seguintes condições estiverem verificadas:

• ele começa no zero:B₀=0;

• possui incrementos independentes e estacionários; veja a página 24 para a definição;

• para todot>0,B_tpossui uma distribuição normalN(0,t);

• possui caminhos amostrais contínuos: “sem saltos.”

Veja a figura 1.12 para a visualização dos caminhos amostrais brownianos.

O movimento browniano deve seu nome ao biólogo Robert Brown cujas pesquisas foram realizadas por volta de 1820. No início do século 20, Luis Bachelier (1990), Albert Einstein (1905) e Norbert Wiener (1923) começaram a desenvolver uma teoria matemática do movimento browniano. A construção de Bachelier (1900) apresentava alguns erros, mas ele conseguiu capturar muitas das propriedades essenciais do processo. Wiener (1923) foi o primeiro a colocar o movimento browniano em firme embasamento matemático.

(27)

1.3. Movimento browniano

Funções de distribuição, esperança e de covariância

Os disfi’s do movimento browniano são gaussianos multivariados, e portanto B é um processo gaussiano. Verifique esta asserção observando que o movimento browniano possui incrementos

Fig. 1.12 — Caminhos amostrais do movimento browniano no intervalo[0,1].

gaussianos e utilizando as fórmulas para as transformações lineares de um vetor aleatório gaussiano: veja a página 14.

As variáveis aleatóriasB_t−B_s eB_t−s possuem uma distribuiçãoN(0,t−s), para s<t.