T´opicos em Probabilidade Avan¸cada

(1)

T´ opicos em Probabilidade Avan¸ cada

Organizado por Pedro A. Morettin Departamento de Estat´ıstica Instituto de Matem´aatica e Estat´ıstica

Universidade de S˜ao Paulo

S˜ao Paulo, janeiro de 2020

(2)

(3)

Conte´ udo

Pr´ologo . . . 1

1 Preliminares 3 1.1 Medidas . . . 3

1.2 Espa¸cos de Probabilidades . . . 6

1.3 Vari´aveis Aleat´orias . . . 9

1.4 Vetores Aleat´orios . . . 13

1.5 Processos Estoc´asticos . . . 14

1.6 Integrais . . . 17

1.7 Esperan¸cas . . . 20

1.8 Convergˆencia . . . 24

2 Independˆencia 31 2.1 Fatos B´asicos . . . 31

2.2 Leis Zero-Um . . . 35

2.2.1 Lema de Borel-Cantelli . . . 35

2.2.2 Lei Zero-Um de Kolmogorov . . . 36

2.2.3 Lei Zero-Um de Hewitt-Savage . . . 37

2.3 Leis dos Grandes N´umeros . . . 39

2.4 S´eries Aleat´orias . . . 44

3 Esperan¸ca Condicional 51 3.1 Defini¸c˜oes e Fatos B´asicos . . . 51

3.2 Propriedades da Esperan¸ca Condicional . . . 55

3.3 Probabilidade Condicional Regular . . . 59

4 Martingales 63 4.1 Tempos de Parada . . . 63

4.1.1 Propriedades dos tempos de parada . . . 64 iii

(4)

4.2 Integrabilidade Uniforme . . . 66

4.3 Martingales . . . 68

4.4 Convergˆencia de Martingales . . . 74

4.5 Aplica¸c˜oes dos Martingales . . . 77

4.5.1 Igualdade de Wald . . . 77

4.5.2 Aplica¸c˜oes a Vari´aveis Independentes . . . 79

4.5.3 Diversas Aplica¸c˜oes . . . 81

5 Processos Estoc´asticos com Tempo Cont´ınuo 85 5.1 Separabilidade e Mensurabilidade . . . 85

5.2 Martingales com Parˆametro Cont´ınuo . . . 90

5.3 Processos com Incrementos Independentes . . . 95

6 Convergˆencia Fraca 101 6.1 Introdu¸c˜ao . . . 101

6.2 Convergˆencia Fraca para V.A’s e P.E’s . . . 106

6.3 Convergˆencia fraca sobreC[0,1] eR^∞ . . . 109

6.4 Teoremas de Helly e Prokhorov . . . 110

7 Fun¸c˜oes Caracter´ısticas 115 7.1 Introdu¸c˜ao . . . 115

7.2 Fun¸c˜oes Caracter´ısticas e Distribui¸c˜oes Normais . . . 117

7.3 O Teorema da Continuidade . . . 119

7.4 Fun¸c˜oes Caracter´ısticas sobreR . . . 121

8 Teoremas Limites Centrais 129 8.1 Os Teoremas de Lindeberg e Feller . . . 130

8.2 Distribui¸c˜oes Infinitamente Divis´ıveis . . . 136

8.3 Distribui¸c˜oes Est´aveis . . . 142

9 O Princ´ıpio da Invariˆancia 149 9.1 Introdu¸c˜ao . . . 149

9.2 Processo de Wiener . . . 157

9.3 Aplica¸c˜oes do Teorema de Donsker . . . 164

10 Cadeias de Markov 171 10.1 A Propriedade de Markov . . . 171

10.2 Cadeias de Markov . . . 174

10.3 Propriedade Forte de Markov . . . 178

10.4 Classifica¸c˜ao de Estados . . . 181

10.5 Recorrˆencia . . . 183

10.6 Limites dePⁿ e o Teorema da Renova¸c˜ao . . . 186

10.7 Recorrˆencia Positiva . . . 190

(5)

Conte´udo v

10.8 Medidas Estacion´arias . . . 191

10.9 ´Algebras Caudais . . . 194

11 Teoria Erg´odica 201 11.1 Transforma¸c˜oes Invariantes . . . 201

11.2 Recorrˆencia . . . 205

11.3 Teoremas Erg´odicos . . . 209

11.4 Rec´ıprocas dos Teoremas Erg´odicos . . . 220

Bibliografia 223

(6)

Pr´ ologo

Partes destas notas foram organizadas ao longo dos anos em que ministrei a disciplina Probabilidade Avan¸cada, para alunos de doutorado do Programa de Pós Gradua¸cão em Estat´ıstica do IME-USP. Outros tópicos foram acrescentados para seminários realizados com o Grupo de Séries Temporais do mesmo Instituto.

Foram consultados livremente livros e artigos citados nas Referˆencias, bem como minhas notas de aulas dos trˆes cursos “Advanced Probability”, ministrados pelo Prof. P.W. Millar, no Departamento de Estat´ıstica, da Universidade da California, Berkeley.

Não creio que essas notas transformem-se em um livro, pelos motivos expostos acima, e mesmo porque, como disse Mário de Andrade, “Contei meus anos e descobri que terei menos tempo para viver daqui para a frente do que já vivi até agora. Tenho mais passado do que futuro”.

Pedro A. Morettin janeiro de 2020

(7)

(8)

Preliminares

Neste cap´ıtulo introduzimos espa¸cos de probabilidades e vari´aveis aleat´orias.

Para melhor entendimento dos conceitos e propriedades apresentados, introduzimos no¸cões básicas sobre medidas e integrais. As referências básicas para esse cap´ıtulo são Breiman (1969), Billingsley (1986), Chung (2001) e Gut (2013).

1.1 Medidas

Seja Ω um conjunto fixado e{A_n, n≥1}uma sequˆencia de subconjuntos de Ω.

Dizemos que esta sequˆencia ´e crescente se An ⊂ An+1, para todo n ≥ 1 e que ela

´

e decrescente se A_n+1 ⊂A_n, para todon≥1. Dizemos que A_n ↑ A se a sequˆencia

´

e crescente e A = ∪_nA_n. Analogamente, A_n ↓ A se a sequência é decrescente e A = ∩_nAn. Definimos o limnsupAn como o conjunto de todos os elementos de Ω que pertencem a um número infinito de conjuntos A_n, e o lim_ninfA_n como o conjunto dos elementos de Ω que pertencem a todos os conjuntos A_n com exce¸cão de um número finito deles. Obviamente, limninfAn⊂limnsupAn e vale a seguinte proposi¸cão.

Proposi¸c˜ao 1.1 (a) lim_nsupA_n=∩^∞_m=1∪^∞_n=mA_n. (b) lim_ninfA_n=∪^∞_m=1∩^∞_n=mA_n.

9c) (limnsupA^c_n)^c= limninfAn. Denotemos por∅ o conjunto vazio.

Defini¸cão 1.1. Uma classeF de subconjuntos de Ω é umaálgebrase:

(i) Ω pertence a F;

(ii) seA∈ F, ent˜ao A^c∈ F; (iii) se A, B∈ F, ent˜ao A∪B ∈ F.

(9)

4 CAPÍTULO 1. PRELIMINARES Como consequência temos: (a) ∅∈ F; (b) uma álgebra é fechada sob reuniões finitas; (c) uma álgebra é fechada sob interseçcões finitas; (d) uma álgebra é fechada sob todas as opera¸cões finitas com conjuntos.

Exemplo 1.1. S˜ao exemplos de ´algebras:

(i) Dado qualquer Ω, seja F = 2^Ω o conjunto de todos os subconjuntos de Ω.

(ii) Seja Ω =Re F a classe de todas as reuni˜oes finitas disjuntas de intervalos da forma (a, b] ou (−∞, a] ou (b,+∞), mais∅e R.

(iii) Seja Ω =R^pe defina um intervalop-dimensional por (a, b] =Qp

i=1(a_i, b_i], a_i<

b_i, a_i, b_i∈R. DefinaF como no item (ii).

Defini¸cão 1.2. Uma classeF de sub-conjuntos de Ω é umaσ-álgebrase:

(i) Ω pertence a F;

(ii) seA∈ F, ent˜ao A^c∈ F;

(iii) se A_n∈ F, n≥1, ent˜ao ∪^∞_n=1A_n∈ F.

Como consequência da defini¸cão temos: (a) ∅ ∈ F; (b)uma σ-álgebra é uma

´

algebra fechada sob reuniões enumeráveis; (c) (iii) e (i) implicam que se A_n ∈ F, n = 1, . . . , p, então ∪^p_n=1An ∈ F.; (d) reunião em (iii) pode ser substitu´ıda por interseçcão; (e) umaσ-álgebra é fechada sob todas as opera¸cões enumeráveis de conjuntos.

Exemplo 1.2. S˜ao exemplos deσ-´algebras:

(i) Para qualquer Ω dado, F_∅={∅,Ω}é uma σ-álgebra; é a menorσ-álgebra de subconjuntos de Ω, chamadaσ-álgebra trivial;

(ii) F = 2^Ω é uma σ-álgebra; é a maior σ-álgebra de subconjuntos de Ω. Para qualquerσ-álgebraF sobre Ω, teremosF_∅ ⊂ F ⊂2^Ω.

(iii) A menor σ-álgebra contendo uma classeAde subconjuntos de Ω é chamada a σ-álgebra gerada por A, e a denotamos por F =F[A]; veja o Problema 24.

(iv) SejaR^pe consideremos aσ-´algebra gerada pelos intervalosp-dimensionais (a, b]

definidos acima. Esta σ-álgebra é chamada σ-álgebra de Borel e é denotada por B^p. Esta também é a σ-álgebra gerada pela classe dos conjuntos abertos de R^p;B¹, ou simplesmenteB, é aσ-álgebra de Borel de R.

Morettin - mar¸co/2018

(10)

A interseçcão de uma cole¸cão enumerável de σ-álgebras {F_j} é uma σ-álgebra, chamada aσ-álgebra maximalcontida em todas elas. É denotada por∩_jF_jouV

jF_j. Isso pode ser generalizado para uma fam´ılia arbitrária {F_α, α∈ A}, onde A é um conjunto de ´ındices. Contudo,∪_jF_j não precisa ser uma σ-álgebra. Se F_j ⊂ F_j+1, para todo j, existe uma σ-álgebra minimal contendo todas elas, denotada W

jF_j. Veja o Problema 23.

Para as defini¸c˜oes de outros sistemas de conjuntos, veja o Problema 26.

Para introduzir o conceito de medida consideremos um exemplo. Seja Ω ar- bitrário e F = 2^Ω. Sejanuma fun¸cão definida emF com valores em [0,∞], ou seja, uma fun¸cão de conjunto, tal quen(A) seja o número de elementos de A ∈ F, se A for finito en(A) =∞ seA for infinito. Então ntem as propriedades:

(i) n(∅) = 0;

(ii) Se A, B∈ F, A∩B =∅, ent˜ao n(A∪B) =n(A) +n(B);

(iii) Se Ai ∈ F, i≥1, dois a dois disjuntos, ent˜ao n(∪^∞_i=1Ai) =P∞

i=1n(Ai).

A fun¸c˜aon´e uma medida sobreF. Precisamente, temos a

Defini¸cão 1.3. SejaFuma álgebra de subconjuntos de Ω. Uma fun¸cão de conjuntos µ:F →[0,∞] é umamedidasobre F se:

(i) µ(∅) = 0;

(ii) Se A, B∈ F, comA e B disjuntos, ent˜aoµ(A∪B) =µ(A) +µ(B);

(iii) Se A_n, n ≥ 1 são subconjuntos de F, dois a dois disjuntos e a reunião deles pertence aF, então µ(∪^∞_n=1An) =P∞

n=1µ(An).

Exemplo 1.3. Seja Ω =Re F a classe de todas as reuni˜oes finitas e disjuntas de intervalos do tipo (a, b] (ou (−∞, a] ou (b,+∞)) mais∅eR. Definaµ:F →[0,∞]

tal que:

(a) µ{(a, b]}=b−a;

(b) µ(∅) = 0;

(c) µ(I) =∞, seI for um intervalo n˜ao limitado;

(d) SejaA∈ F; ent˜ao, A=∪ⁿ_r=1Ir, onde osIr s˜ao dois a dois disjuntos e do tipo acima descrito. Coloqueµ(A) =P_n

r=1µ(I_r).

(11)

6 CAPÍTULO 1. PRELIMINARES Então, µé uma medida sobreF. Veja o Problema 4.

Consideremos, agora, uma medida sobre uma σ-´algebra.

Defini¸cão 1.4. Por umespa¸co mensurávelentendemos o par (Ω,F), consistindo de um conjunto Ω e de umaσ-álgebraF de subconjuntos de Ω. Um subconjuntoA de Ω é chamado mensurável com respeito a F seA∈ F.

Defini¸cão 1.5. Por uma medidaµsobre um espa¸co mensurável (Ω,F) entendemos uma fun¸cão de conjunto não negativa definida sobre todos os conjuntos de F e satisfazendo:

(a) µ(∅) = 0;

(b) µ(∪^∞_i=1Ei) = P∞

i=1µ(Ei), para toda sequˆencia Ei de conjuntos mensur´aveis e disjuntos.

Umespa¸co de medidas (Ω,F, µ) é um espa¸co mensurável (Ω,F) munido de uma medida µ definida sobre F. Uma medida µ é finita se µ(Ω) < ∞ e é σ-finita se existir uma sequência de conjuntos An de F com Ω = ∪_nAn e µ(An) < ∞, para todo n≥1. Sempre podemos tomar a sequênciaA_n como constitu´ıda de conjuntos disjuntos.

Exemplo 1.4. A medida de Lébesgue sobre [0,1] é uma medida finita, enquanto que a medida de Lébesgue sobreRéσ-finita (basta tomarAn= (n, n+1], n= 0,±1, . . .).

Seja Ω um conjunto não enumerável eF = 2^Ω. Seja µdefinida por µ{x}= 1,para todo x∈Ω. Então,µnão é σ-finita.

1.2 Espa¸ cos de Probabilidades

Nesta se¸c˜ao estudamos um caso particular de medida.

Defini¸cão 1.6. Dado o espa¸co mensurável (Ω,F), umaprobabilidade P sobre este espa¸co é uma medida tal que P(Ω) = 1. A tripla (Ω,F, P) é chamado um espa¸co de probabilidadese Ω é oespa¸co amostral.

Logo, devemos ter:

(i) P(A)≥0, para todo A∈ F;

(ii) P(∪_iAi) =P

iP(Ai),se Ai ∈ F, dois a dois disjuntos;

(iii) P(∪_iA_i)≤P

iP(A_i),se A_i ∈ F.

(12)

O seguinte resultado dá uma condi¸cão necessária e suficiente para que uma fun¸cão de conjunto seja uma medida de probabilidade.

Teorema 1.1. Seja P uma fun¸cão de conjunto não negativa, finitamente aditiva sobre (Ω,F), comP(Ω) = 1. Então P é uma medida de probabilidade se e somente se a seguinte condi¸cão de continuidade valer:

An∈ F, An↓∅ ⇒ P(An)→0. (1.1) Prova: (a) Suponha que P seja uma medida de probabilidade, isto é, é enumera- velmente aditiva. Então temos que

A_n= [(A_n−A_n+1)∪(A_n+1−A_n+2)∪ · · ·]∪[∩^∞_n=1A_n].

Se os A_nsão disjuntos, o último termo é vazio. Logo, P(An) =

∞

X

k=n

P(Ak−Ak+1).

Como a s´erie P∞

k=1P(Ak−Ak+1) ´e convergente, temos que limn→∞P(An) = 0, logo (1.1) ´e verdadeira.

(b) Suponha, agora, que (1.1) seja verdadeira e sejamAn, n≥1, dois a dois disjuntos.

Ent˜ao, ∪^∞_k=n+1A_k ↓ ∅ e por (1.1) limn→∞P(∪^∞_k=n+1A_k) = 0. Aditividade finita implica

P(∪^∞_k=1A_k) =P(∪ⁿ_k=1A_k) +P(∪^∞_k=n+1A_k) =

n

X

k=1

P(A_k) +P(∪^∞_k=n+1A_k), e fazendon→ ∞, obtemos

P(∪^∞_k=1A_k) = lim

n→∞

n

X

k=1

P(A_k) + lim

n→∞P(∪^∞_k=n+1A_k) =

∞

X

k=1

P(A_k).

Corolário 1.1. Se En ↑ E, então limnP(En) = P(E) e se En ↓ E, então limnP(En) =P(E).

Exemplo 1.5. (a) Seja Ω = {ω₁, ω₂, . . .}, F = 2^Ω e P definida por P({ω_i}) = p_i, p_i ≥0, P

ip_i= 1. Ent˜ao, (Ω,F, P) ´e um espa¸co de probabilidadesdiscreto.

(b) Seja Ω = R, F = B e f ≥ 0 uma fun¸c˜ao tal que R∞

−∞f(x)dx = 1. Para cada A ∈ F, define P(A) =R

Af(x)dx. Ent˜ao, (Ω,F, P) ´e um espa¸co de probabilidades cont´ınuo.

(13)

8 CAP´ITULO 1. PRELIMINARES Defini¸c˜ao 1.7. Seja (Ω,F, P) um espa¸co de probabilidades. Um conjunto Λ∈ F

´

e chamado um conjunto nulo se P(Λ) = 0. Uma propriedade que vale para todo ω∈Ω exceto paraω em um conjunto nulo é dita valerquase certamente(q.c),quase em toda parte (q.t.p) ou com probabilidade 1 (c.p. 1). O espa¸co de probabilidades (Ω,F, P) é chamadocompleto se, sempre queA⊂B, comB∈ F tal queP(B) = 0, então A∈ F.

Teorema 1.2 Se (Ω,F, P) for um espa¸co de probabilidades qualquer, ent˜ao existe um espa¸co de probabilidades (Ω,F, P), tal que F ⊂ F , P(A) =P(A),se A ∈ F e (Ω,F, P)´e completo.

Prova: Considere F ={A∪N :A ∈ F, N ⊂∆,∆ = conjunto nulo}. Mostre que F é uma σ-álgebra. Para cada B =A∪N ∈ F defina P(B) =P(A). Mostre que esta defini¸cão não depende da escolha de A∈ F.

Exemplo 1.6. Seja Ω = [0,1],F = classe dos conjuntos de Borel sobre [0,1], P = medida de Borel. Esta tripla determina um espa¸co de probabilidades n˜ao completo.

Completando este espa¸co obtemos a medida de L´ebesgue e conjuntos mensur´aveis de Borel.

Teorema 1.3. SejaF₀ uma ´algebra eF aσ-´algebra gerada porF₀. SejamP1 e P2

duas probabilidades definidas sobre F, tais queP₁(A) =P₂(A), para todo A∈ F₀. Ent˜ao,P1(A) =P2(A), para todo A∈ F.

Prova: Seja C a classe de conjuntos para os quais P₁(A) = P₂(A). Ent˜ao, C

⊃ F₀, por hipótese. Sejam En conjuntos de F e suponha que En ↑ E. Então, P₁(E) = lim_nP₁(E_n) = lim_nP₂(E_n) = P₂(E). Ou seja, se E_n ∈ C, com E_n ↑ E, segue-se que E ∈ C. De modo análogo, se E_n ↓E, E_n ∈ C, então E ∈ C. Logo C é uma classe monotônica e portanto C ⊃ F (veja o Problema 27).

Teorema 1.4. SejaF₀ uma álgebra. SejaP uma fun¸cão de conjuntos não negativa sobeF₀, finitamente aditiva, comP(Ω) = 1. Suponha que, seAn∈ F₀, comAn↓ ∅, então lim_nP(A_n) = 0. Seja F a σ-álgebra gerada por F₀. Então, existe uma probabilidade P⁰ sobre (Ω,F), tal queP⁰(A) =P(A), seA∈ F₀.

Esta é uma versão do Teorema da Extensão de Carathéodory. Veja Loève (1963) para detalhes. Uma consequência desse resultado é a seguinte. SejaF₀ a álgebra so- breRconsistindo de reuniões finitas de intervalos disjuntos, semiabertos à esquerda.

Seja F uma fun¸cão crescente, F(x) ≥0, F(∞) = 1, F(−∞) = 0. Defina P como no Problema 4. Então, existe uma medida de probabilidadeP⁰ sobreB, aσ-álgebra de Borel sobre R, que coincide com P sobre F₀. Tal medida é denotada por dF ou F(dx). Esse argumento pode ser estendido para o Rⁿ.

(14)

1.3 Vari´ aveis Aleat´ orias

Iniciamos com a seguinte defini¸c˜ao.

Defini¸cão 1.8. Seja (Ω,F, P) um espa¸co de probabilidades. Umavariável aleatória (v.a) X sobre esse espa¸co é uma fun¸cão definida em Ω com valores em R tal que X⁻¹(B)∈ F, seB ∈ B.

Em outras palavras, X é uma fun¸cão mensurável com respeito a F. Aqui, R= R∪ {−∞,∞}. Contudo, vamos supor queX seja real e com valores finitos, ou seja, X é uma fun¸cão mensurável de Ω emR.

Lema 1.1. Para qualquer fun¸cão X : Ω → R, não necessariamente uma v.a, a fun¸cão inversaX⁻¹ tem as propriedades:

(i) X⁻¹(A^c) = [X⁻¹(A)]^c; (ii) X⁻¹(∪_αAα) =∪_αX⁻¹(Aα);

(iii) X⁻¹(∩_αAα) =∩_αX⁻¹(Aα),

ondeα pertence a um conjunto arbitr´ario de ´ındices.

Prova: Imediata.

Teorema 1.5. X ´e uma v.a se e somente se {ω:X(ω)≤x} ∈ F, para todo x∈R.

Prova: (a) Suponha que X seja uma v.a; então, {ω : X(ω) ≤ x} ∈ F, pois {ω : X(ω) ≤ x} = X⁻¹((−∞, x]) e esse último conjunto pertence a B, e pela defini¸cão de v.a, para qualquer conjunto de Borel B,X⁻¹(B)∈ F.

(b) Suponha, agora, que {ω:X(ω)≤x} ∈ F, isto é, para todo x,X⁻¹((−∞, x])∈ F. Seja C a cole¸cão dos conjuntos B tais que X⁻¹(B) ∈ F. Então, C contém conjuntos da forma (−∞, a], por hipótese. C é uma σ-álgebra, pois se B ∈ C, então X⁻¹(B^c) = (X⁻¹(B))^c ∈ F, e se B_j ∈ C, para todo j, então X⁻¹(∪_jB_j) =

∪_jX⁻¹(Bj) ∈ F, usando o Lema 1.1. Segue-se que C contem conjuntos da forma (−∞, a], que geram B, logoC ⊃ B ( poisBé a menorσ-álgebra contendo conjuntos da forma (−∞, a]). Isso significa que X⁻¹(B)∈ F, para cadaB ∈ B, logoXé uma

v.a.

Exemplo 1.7. Seja o e.p (Ω,F, P) e Λ∈ F. DefinaI_Λ como segue:

IΛ(ω) =

1, seω∈Λ, 0, seω /∈Λ.

Então, IΛ é uma v.a, chamada a fun¸cão indicadora de Λ. Se c1, . . . , cm são números reais e se X: Ω ← Ré definida por

(15)

10 CAP´ITULO 1. PRELIMINARES

X(ω) =

m

X

i=1

ciIΛi(ω), Λi ∈ F, ent˜ao dizemos queX ´e uma v.a simples.

Exemplo 1.8. Seja Ω = [0,1], F =B∩[0,1] eP qualquer medida de probabilidade.

Nesse caso, uma v.a sobre (Ω,F, P) é, por defini¸cão, uma fun¸cão de Borel (uma fun¸cão f definida em Ω é uma fun¸cão de Borel se f⁻¹(B)∈ B, para todoB ∈ B).

O resultado seguinte ´e um teorema bem conhecido na Teoria da Medida.

Teorema 1.6. SejaX uma v.a. Então, X é um limite de v.a’s simples. Se X≥0, então X é o limite de uma sequência crescente de v.a’s simples.

Defini¸cão 1.9. Se X é uma v.a, então F {X} é a menor σ-álgebra sobre Ω com respeito à qual X é mensurável.

Proposi¸c˜ao 1.2. F {X}={Λ : Λ =X⁻¹(B), B∈ B}.

Prova: Basta usar o Lema 1.1.

Lema 1.2. Se X é uma v.a e f é uma fun¸cão mensurável de Borel sobre (R,B), então f(X)é uma v.a.

Prova: Basta encarar f(X) como a aplica¸c˜ao composta f ◦X : ω → f(X(ω)).

Veja o problema 7.

Teorema 1.7. Uma v.a Y é F {X}-mensurável se, e somente se, Y for da forma Y =g(X), sendog uma fun¸cão de Borel.

Prova: (a) Suponha que Y =g(X). Queremos provar que Y⁻¹(B)∈ F {X}, para todo B∈ B. Mas isso ´e verdade pelo Lema 1.2.

(b) Suponha, agora, que Y sejaF {X}-mensur´avel. ´E suficiente provar o resultado paraY ≥0, limitada.

(i) Primeiramente, o resultado é verdadeiro se Y = I_A, A ∈ F {X}. De fato, se A∈ F {X}, então A=X⁻¹(B), para algumB ∈ B, pela Proposi¸cão 1.2. Assim, se tomarmosg=IB, teremos

Y(u) =IA(u) =I_X⁻¹_(B)(u) =IB(X(u)), ou seja, Y =g(X).

(ii) A seguir, o resultado ´e verdadeiro se Y for da forma Y = Pm

i=1c_iI_A_i, onde Ai ∈ F {X}. Ent˜ao Ai = X⁻¹(Bi), Bi ∈ B. Se definirmos g = Pm

i=1ciIBi, ent˜ao teremosY =g(X).

(16)

(iii) Finalmente, o caso geral. Existe uma sequência de fun¸cões simples Y_n, que tende aY, quando n→ ∞. Por (ii),Y_n=g_n(X), para alguma fun¸cão de Borelg_n. Logo, Y = limn→∞gn(X). Comogn(X)→Y, segue-se quegn converge na imagem de X. Definag como segue:

g(u) =

limn→∞gn(u), se o limite existir, 0, caso contr´ario.

Segue-se queg ´e uma fun¸c˜ao de Borel e Y =g(X).

Passemos, agora, a estudar os conceitos de distribui¸cão e fun¸cão de distribui¸cão de uma v.a.

Defini¸cão 1.10. SejaX uma v.a sobre (Ω,F, P). A distribui¸cão deX é a medida de probabilidadePX definida sobre (R,B) de tal sorte que, seB ∈ B, entãoPX(B) = P{ω: X(ω)∈B},ouP_X(B) =P{X⁻¹(B)}=P{X ∈B}.

Observa¸cão 1. Devemos verificar quePX assim definida é um probabilidade. Cla- ramente, P_X(B) ≥ 0. Se B_n são conjuntos disjuntos em B, então X⁻¹(B_n) são disjuntos, pelo Lema 1.1 e

PX(∪_nBn) =P{X⁻¹(∪_nBn)}=P{∪_nX⁻¹(Bn)}=X

n

P{X⁻¹(Bn)}=X

n

PX(Bn).

Finalmente, X⁻¹(R) = Ω, logoPX(R) =P(Ω) = 1.

O espa¸co de probabilidades (R,B, P_X) ´e chamado o espa¸co de probabilidade in- duzidopela v.a X.

Observa¸cão 2. A v.a X determina univocamente sua distribui¸cão PX, mas duas v.a’s distintas podem ter a mesma distribui¸cão. Por exemplo, considere Ω = [0,1], F = B, e P =m a medida de Lébesgue. Considere as v.a’s X e Y definidas sobre esse e.p por meio de

X(ω) =ω, Y(ω) = 1−ω.

Então, X e Y têm a mesma distribui¸cão, que é a medidam (use o fato quem é invariante por transla¸cões).

Defini¸cão 1.11. A fun¸cão de distribui¸cão FX de uma v.a X é a fun¸cão definida por

FX(x) =P{ω:X(ω)≤x}=PX{(−∞, x]}, para todo realx, (1.2) e que escreveremos, simplesmente,P{X ≤x}.

(17)

12 CAPÍTULO 1. PRELIMINARES As seguintes propriedades de F_X são válidas.

Teorema 1.8. SejaF_X a fun¸cão de distribui¸cão (f.d) da v.aX. Então:

(i) F_X ´e n˜ao decrescente;

(ii) limx→−∞F_X(x) = 0, limx→∞F_X(x) = 1;

(iii) FX ´e cont´ınua `a direita.

Prova: Veja o Problema 8.

Observa¸cão 3. A fun¸cãoFX pode ser definida porFX(x) ={ω:X(ω)< x}. Nesse caso,FX é cont´ınua à esquerda. Veja o Problema 19.

Teorema 1.9. SejamXeY duas v.a’s. Ent˜aoPX =PY se, e somente se,FX =FY. Prova: (a) Suponha P_X = P_Y; ent˜ao, P_X(B) = P_Y(B), para todo B ∈ B. Em particular, P{ω :X(ω) ∈ B} =P{ω : Y(ω) ∈B}, seB = (−∞, x], logo FX(x) = F_Y(x).

(b) Considere a classe Γ de todos os conjuntos B, tais que PX(B) = PY(B). Essa classe contem conjuntos da forma B = (−∞, b], porque F_X(x) =F_Y(x),para todo realx. Logo, Γ contem conjuntos da forma (a, b], do que segue que Γ contem reuni˜oes finitas de intervalos fechados `a direita, disjuntos. Logo, PX e PY coincidem numa

´

algebra que geraB, portanto P_X e P_Y coincidem sobreB, pelo Teorema 1.3.

Uma defini¸c˜ao equivalente de f.d ´e dada a seguir.

Defini¸cão 1.12. Umafun¸cão de distribui¸cãoé qualquer fun¸cãoF não decrescente, cont´ınua à direita, tal que limx→−∞F(x) = 0 e limx→∞F(x) = 1.

Um problema que se coloca ´e o seguinte:

Suponha que seja dada uma f.d F. Existe um e.p (Ω,F, P) e uma v.a sobre esse espa¸co, tendo F como sua f.d?

A resposta é afirmativa e uma constru¸cão é a seguinte. Construa (Ω,F, P) como:

Ω =R, F =B, P =dF.

A partir de qualquer f.d F, obtemos uma medidam sobre (R,B) como segue:

m{(a, b]}=F(b)−F(a).

Se (a, b] e (c, d] s˜ao disjuntos,

(18)

m{(a, b]∪(c, d]}=m{(a, b]}+m{(c, d]}=F(b)−F(a) +F(d)−F(c).

Temos, portanto, m definida como uma fun¸cão de conjunto aditiva na álgebra das reuniões finitas de conjuntos disjuntos da forma (a, b]. Além disso, m(R) = F(+∞)−F(−∞) = 1.Estendemos essa medida para obterdF. Defina a v.aX por X(ω) =ω Então, a f.d de X éF. De fato,

P{ω:X(ω)≤x}=P{ω:ω ≤x}=F(x)−F(−∞) =F(x).

1.4 Vetores Aleat´ orios

Nessa se¸c˜ao iremos generalizar os conceitos da se¸c˜ao anterior para o caso de termos mais de uma v.a.

Defini¸c˜ao 1.13. ConsidereX1, . . . , Xnv.a’s sobre (Ω,F, P). Ent˜aoX= (X1, X2, . . . , Xn)

´

e um vetor aleat´orio.

Observe que X: Ω→Rⁿ.

Proposi¸cão 1.3. SeBⁿé aσ-álgebra de conjuntos de Borel doRⁿ, entãoX⁻¹(B)∈ F, para todoB ∈ Bⁿ.

Prova: Suponha X= (X1, X2). Considere a classeC de conjuntosB para os quais X⁻¹(B)∈ F. Esta classe contem retˆangulos. De fato,

X⁻¹(A×B) = {ω :X₁(ω)∈A, X₂(ω)∈B}=

={ω:X₁(ω)∈A} ∩ {ω:X₂(ω)∈B}=M∩N.

Logo, X⁻¹(A×B) = M ∩ N, tal que M ∈ F, N ∈ F, do que segue que X⁻¹(A×B) ∈ F. Além disso, essa classe C é uma σ-álgebra, e como a classe dos conjuntos de Borel deB²é a menorσ-álgebra contendo todos os retângulos,C ⊃ B².

Defini¸cão 1.14. Seja X = (X₁, X₂, . . . , X_n). Então, F {X₁, . . . , X_n} é a menor σ-álgebra com respeito à qual todas as v.a’sX_i, i= 1, . . . , n, são mensuráveis.

Teorema 1.10. Uma v.a Y é F {X₁, . . . , Xn}-mensurável se, e somente se, Y = g(X1, . . . , Xn), ondeg é uma fun¸cão de Borel de Rⁿ em R.

Prova: Como no Teorema 1.7, observando que, por exemplo, seX eY s˜ao v.a’s ef

´

e uma fun¸cão de Borel mensurável de duas variáveis, entãof(X, Y) é uma v.a.

Defini¸cão 1.15. Adistribui¸cãode Xé a probabilidade sobre (Rⁿ,Bⁿ) definida por

(19)

PX(B) =P{ω: (X1(ω), . . . , Xn(ω)∈B}, B ∈ Bⁿ. De agora em diante vamos supor X= (X₁, X₂).

Defini¸cão 1.16. A fun¸cão de distribui¸cãode Xé a fun¸cão F_X(x, y) =P{ω:X₁(ω)≤x, X₂(ω)≤y}.

Como antes, podemos provar os seguintes resultados.

Teorema 1.11. SeXeY são dois vetores aleatórios, então P_X=P_Y se, e somente se, F_X =F_Y.

Teorema 1.12. A f.d. F_X de Xtem as seguintes propriedades:

(i) F_X(x, y)é monótona em cada variável;

(ii) F_X(x, y)é cont´ınua à direita em cada variável;

(iii) limx→−∞FX(x, y) = limy→−∞FX(x, y) = 0;

(iv) limx→∞, y→∞F_X(x, y) = 1;

(v) P{ω : a < X₁ ≤ b, c < X₂ ≤d} ≥0, se P ´e uma probabilidade e F(b, d)− F(a, d)−F(b, c) +F(a, c)≥0.

Como no caso de uma v.a, podemos definir uma f.d bidimensional como sendo qualquer fun¸c˜ao F(x, y) satisfazendo (i)-(v) do Teorema 1.12.

1.5 Processos Estoc´ asticos

Nesta se¸cão discutiremos um conceito mais geral do que variável aletória ou vetor aleatório, pois teremos uma fun¸cão, que além de ser indexada por um elemento de Ω, também será indexada por um elemento pertencente a um conjunto T, que usualmente será um conjunto de instantes de tempo, mas não necessariamente. Antes de definir o que seja um processo estocástico (ou fun¸cão aleatória), alguns conceitos são necessários.

Defini¸cão 1.17. Seja T um conjunto arbitrário. Para cada t ∈ T, seja Ω_t um conjunto. Então,Q

t∈T Ωt´e o conjunto de todas as fun¸c˜oesω:T → ∪t∈TΩt, tal que ω(t)∈Ωt.

Exemplo 1.9. (a) Se T ={1,2, . . . , n}, ent˜ao Q

Ω_t= Ω₁×Ω₂× · · · ×Ω_n.

(20)

(b) Se T = {1,2, . . .}, Ω_t=R, para cada t∈T, ent˜ao Q

Ω_té o conjunto de todas as sequências de números reais.

(c) Se T = (a, b], Ω_t=R, ent˜ao Q

Ω_t ´e o conjunto de todas as fun¸c˜oes de (a, b] em R.

Se Ωt= Ω, para todot, ent˜ao iremos escrever Q

t∈T Ωt= Ω^T.

Defini¸cão 1.18. (σ-álgebra produto) Seja T um conjunto de ´ındices; para cada t∈T, seja (Ω_t,F_t) um espa¸co mesurável. Um retângulo A é qualquer conjunto da forma A=Q

t∈T A_t, ondeA_t= Ω_t, para todot, exceto por um n´umero finito deles.

Aσ-álgebra produtoé a menorσ-álgebra sobreQ

t∈T Ωtque cont´em esses retˆangulos.

Usaremos a nota¸c˜aoN

t∈TF_tpara denotar essa σ-álgebra produto. Se Ω_t=Re F_t=B, para todot∈T, então chamamos o espa¸co resultante deσ-álgebra de Borel sobre R^T e a denotamos por B^T.

Defini¸cão 1.19. Seja (Ω,F, P) um e.p e T um subconjunto de R. Um processo estocástico é uma cole¸cão de v.a’s X = {X_t, t ∈ T} definidas sobre (Ω,F, P).

Dizemos que T ´e o conjunto param´etrico do processo.

Note queX : Ω→R^T.Alguns casos especiais s˜ao:

(a) X={X₁, . . . , X_n}. Aqui,X ={X_k, 1≤k≤n}, T ={1,2, . . . , n}.

(b) X={X₁, X₂, . . .}, T ={1,2, . . .}. Xé um processo estocástico com parâmetro discreto.

(c) T = [a, b], X = {X_t, t ∈ T} é um processo estocástico com parâmetro cont´ınuo.

Dado o processo estocástico (p.e) X : Ω → R^T, a questão que surge é: X é mensurável? A resposta é dada pelo

Teorema 1.13. SejaB ∈ B^T. Então, X⁻¹(B)∈ F. Prova: Similar à da Proposi¸cão 1.2.

Defini¸cão 1.20. Defina uma probabilidade PX sobre (R^T,B^T) por PX(B) = P{X⁻¹(B)}. P_X é a distribui¸cão deX.

Teorema 1.14. Seja P^∗ uma probabilidade sobre (R^T,B^T). Então, existe um processo estocástico X = {X_t, t ∈ T} tal que P^∗ é a distribui¸cão de X e esse processo está definido sobre (R^T,B^T, P^∗).

Prova: Se ω ∈ R^T, defina Xt(ω) = ω(t). Lembremos que ω ∈ R^T significa que ω:T →R, isto ´e, ω(t)∈R.

(21)

16 CAPÍTULO 1. PRELIMINARES Como um exemplo, seja T ={1,2, . . .}; aqui R^T =R×R× · · ·é o conjunto de todas as sequências de números reais, isto é, ω ∈ R^T se ω = {x₁, x₂, . . .}. Então, Xn(ω) =xn.

Contudo, usualmente a situa¸cão do Teorema 1.14 não aparece. A situa¸cão co- mum é a seguinte. Seja dado um conjunto de ´ındices T ⊂ R; para cada conjunto finito t1, . . . , tn de T, é dada uma probabilidade Pt1,...,tn sobre (Rⁿ,Bⁿ). Pede- se para construir um processo estocástico {X_t, t ∈ T}, tal que a distribui¸cão de (X_t₁, X_t₂, . . . , X_t_n) sejaP_t₁_,...,t_n.

Por exemplo, frequentemente temos a seguinte situa¸cão: X1, X2, . . . são v.a’s, com f.d comumF. A questão, então, é: existe um e.p (Ω,F, P), tal que um processo estocástico{X_n, n≥1} esteja definido sobre o mesmo?

Defini¸cão 1.21. Dado um processo estocásticoX={X_t, t∈T}, as probabilidades {P_t₁,···,t_n}são chamadas asdistribui¸cões finito-dimensionaisdo processo estocástico X.

Portanto, podemos refrasear o nosso problema da seguinte forma: seja dada uma cole¸cão de probabilidades, que são supostas serem as distribui¸cões finito-dimensionais de algum processo estocástico. Podemos construir um processo estocástico com essas distribui¸cões? A resposta é afirmativa, desde que essas probabilidades sejam “consistentes”. Eis um exemplo do que entendemos por consistência. Se P{X₁ ∈ A, X2 ∈ B, X3 ∈ R} = P1,2,3(A×B ×R), então o primeiro membro dessa igualdade é igual aP{X₁ ∈A, X2∈B}=P1,2(A×B).

[C] Condi¸cão de Consistência. Seja T dado, e para t₁, . . . , t_n ∈ T, seja {P_t₁_,···,t_n} uma probabilidade. Se T₁ ={t₁, . . . , t_n}, escrevemos P_T₁ =P_t₁,···,tn . Sejam T₁, T₂ dois subconjuntos finitos de T. Suponha T1 ⊂ T2. Então, PT1 é definida sobre (R^T¹,B^T¹) e P_T₂ é definida em (R^T²,B^T²). Consistência significa que a restri¸cão de P_T₂ a (R^T¹,B^T¹) é P_T₁.

O Teorema de Consistˆencia de Kolmogorov ou Teorema de Extens˜ao de Kolmogo- rov-Daniell, pode ser enunciado como segue.

Teorema 1.15. SejaT um conjunto de ´ındices. Suponha que para cada subconjunto T₁ de T tenhamos uma probabilidade P_T₁ sobre (R^T¹,B^T¹). Suponha que essas probabilidades satisfa¸cam [C]. Ent˜ao, existe uma ´unica probabilidadeP sobre (R^T,B^T), tal queP restrita a(R^T¹,B^T¹)seja PT1.

Para uma prova veja Durrett (2010).

Corolário 1.1. Sejam X = {X_t, t ∈ T} e Y = {Y_t, t ∈ T} dois processos es- tocásticos tendo as mesmas distribui¸cões finito-dimensionais. Então, X e Y têm a mesma distribui¸cão. Ou seja, as distribui¸cões finito-dimensionais determinam um processo.

(22)

Uma formula¸c˜ao alternativa do Teorema 1.15 pode ser dada em termos de f.d’s.

Para cadaT₁ ={t₁, . . . , t_n} contido em T seja dada uma f.d F_t₁_,...,t_n. Então, existe um processo estocástico X ={X_t, t∈ T} tal que {X_t₁, . . . , Xtn} tenha f.d Ft1,...,tn, desde que essa seja consistente. Consistência, agora, significa:

xnlim→∞F_t₁_,...,t_n(x₁, . . . , x_n) =F_t₁_,...,t_n−1(x₁, . . . , xn−1).

Teorema 1.16. Seja {X_t₁, . . . , Xtn} um processo estocástico e Y uma v.a F {X}- mensurável. Suponha que T seja não enumerável. Então, existe uma sequência {t_n, n≥1} de T, tal queY sejaF {X_t₁, X_t₂, . . .}-mensurável.

Prova: (i) Suponha Y = I_A, A ∈ F {X}. Considere a classe A de conjuntos A tais que I_A seja determinada por um número enumerável de coordenadas. Então, A é uma σ-álgebra que contem retângulos (porque esses são determinados por um número finito de coordenadas). Então,A ⊃ F {X}.

(ii) O resultado ´e v´alido seY =Pm

i=1ciIAi, Ai ∈ F {X}.

(iii) Logo, é valido para todo Y que seja F {X}-mensurável, pois cada tal Y é um limite de fun¸cões simples.

Teorema 1.17. Seja{X_t₁, . . . , Xtn} um processo estocástico e T não enumerável.

A classe de fun¸cõesY que são F {X}-mensuráveis é a menor classeΓ tal que:

(i) Set1, . . . , tn pertencem aT e segé uma fun¸cão de Boreln-dimensional, então g(X_t₁, . . . , X_t_n)∈Γ;

(ii) Se Y₁, Y₂,· · · ∈Γe se Y = limn→∞Y_n, ent˜aoY ∈Γ.

Prova: Veja o Problema 10.

1.6 Integrais

Nesta se¸cão iremos desenvolver as ideias básicas sobre integra¸cão, limitando-nos ao caso de um espa¸co de probabilidades (Ω,F, P). A no¸cão de integral estende as no¸cões de comprimento, área e volume e os trabalhos mais importantes remontam a Borel, 1898 e Lebesgue, 1902. A extensão a σ-álgebras sobre espa¸cos abstratos foi feita por Fréchet, em 1915. A integral é definida, sucessivamente, para uma v.a simples, v.a positiva e v.a arbitrária.

Dado um conjunto mensurável A, uma variável aleatória simples X :A → R é uma combina¸cão linear finita de indicadores de subconjuntos mensuráveisA1, . . . , Ak

de A, isto ´e,

(23)

X=

k

X

i=1

c_iI_A_i, c_i ∈R.

Evidentemente, X admite mais de uma representa¸cão como aquela acima, mas podemos associar aX umarepresenta¸cão canônica,

X=

p

X

j=1

ajIBj, (1.3)

tal que:

(i) os Bj s˜ao dois a dois disjuntos, Bj =X⁻¹(aj);

(ii) osa_j s˜ao todos distintos;

(iii) A=∪^p_j=1Bj (e portanto algum dos aj pode ser nulo).

Se X for uma fun¸cão simples positiva (portanto a_j ≥ 0, para todo j), com representa¸cão canônica (1.3), definimos a integral de X como sendo

Z

A

X = Z

A

XdP = Z

A

X(ω)dP(ω) =

p

X

j=1

a_jP(B_j). (1.4) A partir de agora usaremos a nota¸c˜ao R

AX paraR

AX(ω)dP(ω).

Se X e Y s˜ao duas v.a’s simples positivas, ent˜ao:

(a) se X≤Y, segue-se R

X≤R Y; (b) sea, b >0, temos R

(aX+bY) =aR

X+bR Y.

Definamos, agora, a integral de uma v.a positiva. Se A for um conjunto mensur´avel, indicamos porS+(A) o conjunto das fun¸c˜oes simples positivasX:A→R+.

SejaY :A→R+ uma v.a positiva. Ent˜ao a integral de Y ´e definida por Z

A

Y = Z

A

Y(ω)dP(ω) = sup{

Z

A

X: X∈S₊(A), X ≤Y}. (1.5) Os seguintes fatos s˜ao v´alidos:

(a) Se Y e Z s˜ao duas v.a’s positivas, seY =Z q.c. ent˜ao R

AY =R

AZ; (b) seY :A→R+, ent˜ao Y = 0 q.c implicaR

AY = 0;

(c) seY :A→R+, tal queR

AY <∞, ent˜ao Y ´e finita q.c;

(24)

(d) seY, Z :A→R+, v.a’s, eY ≤Z, ent˜aoR

AY ≤R

AZ.

Os dois teoremas a seguir s˜ao fundamentais. Para provas, veja Barttle (2001).

Teorema 1.18. [Lema de Fatou]SejaY_k :A→R+ uma sequˆencia de v.a’s, tal que limk→∞Y_k=Y q.c. Ent˜ao,

Z

A

Y ≤lim inf

k∈N

Z

A

Yk≤ ∞. (1.6)

Teorema 1.19. [da convergência monótona]Seja Y_k :A → R+ uma sequência de v.a’s, tal quelimk→∞Y_k =Y q.c , comY_k≤Y, para todok∈N. Então,

Z

A

Y = lim

k→∞

Z

A

Yk≤ ∞. (1.7)

Consequˆencias importantes sesses teoremas s˜ao:

(e) Y, Z: A→ R+ ⇒ R

(Y +Z) =R Y +R

Z;

(f) dada uma sequˆencia de v.a’sYk:A → R+, temos que Z

A

∞

X

k=1

Y_k=

∞

X

k=1

Z

A

Y_k.

(g) SejaY :A → R+ uma v.a e sejam (A_k)k∈N subconjuntos mensuráveis deA, dois a dois disjuntos e cuja reunião é A. Então,

Z

A

Y =

∞

X

k=1

Z

Ak

Y.

Defini¸cão 1.22. SendoAum conjunto mensurável eY :A→R+uma v.a, dizemos queY é integrávelseR

AY <∞.

Consideremos, agora, uma v.a Y :A → R. Como essa fun¸c˜ao pode ser escrita como a diferen¸ca entre sua parte positiva, Y+, e sua parte negativa, Y−, ou seja, Y =Y+−Y−, definamos

Z Y =

Z Y₊−

Z

Y−, (1.8)

(25)

20 CAP´ITULO 1. PRELIMINARES desde que tenhamosR

Y₊ <∞eR

Y− <∞. Neste caso dizemos queY ´e integr´avel.

Os seguintes fatos podem ser facilmente provados.

(a) Se Y, Z :A →Rsão integráveis, então R

(aY +bZ) =aR

Y +bR

Z, com ae bconstantes;

(b) seW for uma v.a com |W| ≤Y q.c, então W é integrável;

(c) seY eZ são v.a’s, integráveis e Y ≥Z q.c., então R Y ≥R

Z;

(d) seY :A→R for uma v.a integrável, então |Y|é integrável e|R

AY| ≤R

A|Y|.

A rec´ıproca tamb´em vale.

O teorema seguinte ´e importante em muitas aplica¸c˜oes.

Teorema 1.20. [da convergência dominada] SejaYk : A → Ruma sequência de v.a’s, tal queY_k → Y q.c, e|Y_k| ≤Z q.c, comZ integrável. Então

k→∞lim Z

A

Y_k= Z

A

Y. (1.9)

1.7 Esperan¸ cas

O conceito de esperan¸ca matemática (ou valor esperado, ou simplesmente esperan¸ca) de uma v.aXé equivalente ao conceito de integral de uma fun¸cão mensurável sobre um e.p com repeito à uma medida de probabilidade.

Defini¸c˜ao 1.23. Seja (Ω,F, P) um e.p eX uma v.a sobre esse espa¸co. Aesperan¸ca de X, quando existe, ´e definida por

E(X) = Z

Ω

X(ω)dP(ω). (1.10)

Para cada Λ∈ F, definimos Z

Λ

X(ω)dP(ω) =E(XI_Λ). (1.11)

Como uma integral, a esperan¸ca de uma v.a tem as propriedades familiares de uma integral, como as que seguem.

(a) E(aX +bY) = aE(X) +bE(Y), desde que o lado direito tenha sentido (ou seja, n˜ao pode ser∞ − ∞ou −∞+∞);

(26)

(b) seX≥0, ent˜ao E(lim inf_nX_n)≤lim inf_nE(X_n) (lema de Fatou);

(c) se Xn ≥ 0 e se Xn ↑ X q.c então limnE(Xn) = E(X), desde que +∞ seja permitido como um valor de cada lado (teorema da convergência monótona);

(d) seX_n→X, em probabilidade ou q.c e|X_n| ≤Y, para todon, comE(Y)<∞, ent˜ao lim_nE(X_n) =E(X) (teorema da convergˆencia dominada).

Teorema 1.19. A seguinte desigualdade ´e v´alida:

∞

X

n=1

P{|X| ≥n} ≤E(|X|)≤1 +

∞

X

n=1

P{|X| ≥n}, (1.12) de modo queE(|X|)<∞ se, e somente se, a s´erie em (1.15) convergir.

Prova: Se {Λ_n, n≥1} s˜ao conjuntos disjuntos, ent˜ao temos Z

∪nΛn

XdP =X

n

Z

Λn

XdP.

Se tomarmos Λ_n={n≤ |X|< n+ 1}, ent˜ao E(|X|) =

∞

X

n=0

Z

Λn

|X|dP.

Tamb´em, temos que, se a≤ X ≤ b sobre Λ, ent˜ao aP(Λ) ≤R

ΛXdP ≤bP(Λ) (teorema do valor m´edio), de modo que, para cada conjunto Λ_n,

∞

X

n=0

nP(Λ_n)≤E(|X|)≤(n+ 1)P(Λ_n) = 1 +

∞

X

n=0

nP(Λ_n). (1.13) Resta provar que

∞

X

n=0

nP(Λ_n) =

∞

X

n=0

P{|X| ≥n}, (1.14) onde as somas podem ser finitas ou infinitas.

Agora, as somas parciais do lado esquerdo de (1.17) podem ser rearranjadas (m´etodo de Abel) de modo que, paraN ≥1,

N

X

n=0

nP(Λn) =

N

X

n=0

n{P{|X| ≥n} −P{|X| ≥n+ 1}}

=

N

X

n=1

{n−(n−1)}P{|X| ≥n} −N P{|X| ≥N+ 1}(1.15)

(27)

=

N

X

n=1

P{|X| ≥n} −N P{|X| ≥N + 1}.

Novamente, usando o teorema do valor m´edio, N·P{|X| ≥N + 1} ≤

Z

{|X|≥N+1}

|X|dP. (1.16) Se a s´erie P∞

n=0P(|X| ≥ n) < ∞, ent˜ao o lado direito de (1.19) tende a zero, quando N → ∞ (s´erie de termos positivos e decrescentes). Quando N → ∞, obtemos (1.17) de (1.18). Por outro lado, seP∞

n=0nP(Λn)<∞, ent˜aoE(|X|)<∞, por (1.16) e o lado direito de (1.19) tende a zero, quando N → ∞, logo a mesma conclus˜ao segue.

Existe uma rela¸c˜ao b´asica entre a integral abstrata com respeito a P, sobre conjuntos de F, de um lado, e a integral de Lebesgue-Stieltjes com respeito a PX, sobre conjuntos deB, induzida pela v.aX, de outro lado.

Teorema 1.20. Seja X sobre (Ω,F, P), induzindo o e.p (R,B, P_X) e seja f uma fun¸cão mensurável de Borel. Então, temos

Z

Ω

f(X(ω))dP(ω) = Z

R

f(y)dPX(y), (1.17)

desde cada integral exista.

Prova. (a) SejaB ∈ B e tome f =I_B. Ent˜ao, o lado esquerdo de (1.20) fica Z

Ω

I_B(X(ω))dP(ω) =P(X ∈B),

e, o lado direito, PX(B). Há, então, igualdade, pela defini¸cão dePX. (b) Em seguida, (1.20) vale paraf simples, ou seja, da forma f =P

jbjIBj.

(c) Sef ≥0, existe umna sequˆencia{f_m, m≥1}de fun¸c˜oes simples, tal quefm↑f. Para cada fm temos R

Ωfm(X(ω))dP(ω) = R

Rfm(y)dPX(y). Quando m → ∞ e usando o teorema da convergência monótona, obtemos que (1.20) é válida.

(d) No caso geral, tomef =f₊−f−.

Vejamos, agora, algumas desigualdades importantes.

Proposi¸cão 1.4. (desigualdade de Chebyshev)Seϕé uma fun¸cão par, estritamente crescente e positiva sobre (0,∞), e X é uma v.a com E{ϕ(X)} <∞, então, para cadaλ >0, temos

P{|X| ≥λ} ≤ E{ϕ(X)}

ϕ(λ) . (1.18)

(28)

Prova. Imediata, usando o teorema do valor m´edio.

Exemplos especiais s˜ao:

(a) Seϕ(λ) =λ², a desigualdade fica

P{|X| ≥λ} ≤ E(X²) λ² . (b) Seϕ(λ) =|λ|^p, 0< p <∞, ent˜ao

P{|X| ≥λ} ≤ E(|X|^p)

|λ|^p .

Para p >0, dizemos que X ∈L^p =L^p(Ω,F, P) se, e somente se, E(|X|^p)<∞.

Defina a normaL^p de X como sendo

||X||_p = Z

|X|^pdP 1/p

= [E(|X|^p]^1/p.

Proposi¸cão 1.5. (desigualdade de Hölder)Se X ∈L^p e Y ∈L^q, com p >0, q >0 e _p¹+¹_q = 1, então

||X·Y||₁≤ ||X||_p· ||Y||_q, (1.19) ou, de modo equivalente,

E(|X·Y|)≤[E(|X|^p)]^1/p·[E(|Y|^q)]^1/q. (1.20) Prova. Veja o Problema 13.

Se Y = 1 em (1.23), obtemosE(|X|) ≤[E(|X|^p)]^1/p. Se p= 2 em (1.23) temos a desigualdade de Cauchy-Schwarz.

Proposi¸c˜ao 1.6. (desigualdade de Minkowski)Se X e Y est˜ao emL^p, temos

||X+Y||_p≤ ||X||_p+||Y||_p, (1.21) ou seja,

[E(|X+Y|^p]^1/p≤[E(|X|^p)]^1/p+ [E(|Y|^p)]^1/p. (1.22) Prova. Veja o Problema 14.

Proposi¸cão 1.7. (desigualdade de Jensen)Sejaϕuma fun¸cão mensurável convexa e suponha queE(X) e E{ϕ(X)} existam. Então,

(29)

E{ϕ(X)} ≥ϕ{E(X)}. (1.23)

Igualdade ocorre se, e somente se,ϕfor linear.

Prova. Dado ξ, existe uma reta passando porϕ(ξ), que est´a totalmente abaixo da curvaϕ. Tal reta ´e dada por

y−ϕ(ξ) =λ(x−ξ),

para algumλ. Ent˜ao,ϕ(x)≥λ(x−ξ) +ϕ(ξ), para todo par (x, y). Segue-se que E[ϕ(X)]≥λE(X−ξ) +ϕ(ξ).

Escolhaξ =E(X) e o resultado esperado ´e obtido. O caso linear ´e trivial.

Se ϕ(x) = x², obtemos E(X²) ≥ [E(X)]². Se ϕ(x) = |x|^p, temos E(|X|^p) ≥ [E(|X|)]^p, parap≥1.

1.8 Convergˆ encia

Nesta se¸cão apresentamos os conceitos dos diversos modos de convergência de sequências de v.a’s, que são idênticos aos conceitos correspondentes sobre sequências de fun¸cões mensuráveis em um espa¸co de medida.

Consideremos um e.p (Ω,F, P) e {X_n} uma sequˆencia de v.a’s definidas sobre esse espa¸co.

Defini¸c˜ao 1.24. Dizemos que X_nconverge para X quase certamente, se existe um conjunto nuloN tal que limn→∞Xn(ω) =X(ω), sempre que ω∈(Ω−N).

Dizemos, tamb´em, que Xn converge para X com probabilidade um e usamos a nota¸c˜ao X_n^q.c.→ X, ou X_n → X q.c.

Teorema 1.21. A sequˆencia {X_n}converge para X q.c. se, e somente se, tivermos

n→∞lim P{|X_n−X| ≤ε, para todon≥m}= 1, (1.24) ou

n→∞lim P{∩^∞_n=m(|X_n−X| ≤ε)}= 1. (1.25) A rela¸c˜ao (1.27) ´e equivalente a

m→∞lim P{|X_n−X|> ε, para algumn≥m}= 0, (1.26) ou

(30)

m→∞lim P{∪^∞_n=m(|X_n−X|> ε)}= 0. (1.27) Prova. (a) Suponha queXn

q.c.→ X e seja Ω0= Ω−N,N o conjunto nulo envolvido.

Param≥1, sejaA_mo evento em (1.28), ou seja,A_m =∩^∞_n=m(|X_n−X| ≤ε). Então, {A_m} é uma sequência crescente. Para cadaω0, a convergência de {X_n(ω0)} para X(ω0) implica que, dado ε > 0, existe um m(ω0, ε) tal que se n≥ m(ω0, ε), então

|X_n(ω₀)−X(ω₀)| ≤ε.

Logo, cada tal ω0 pertence a algum Am, e portanto Ω0 ⊂ ∪^∞_m=1Am. Logo, P(Ω0) ≤ P(∪^∞_m=1Am) = limnP(Am), pois a sequˆencia ´e crescente. Portanto, lim_nP(A_m) = 1.

(b) Suponha que X_n n˜ao convirja para X sobre um conjunto Λ, com P(Λ) > 0.

Considere a v.a Z definida por Z(ω) = lim_nsup|X_n(ω)−X(ω)|, que pode n˜ao ser finita. Observe que

{Z >0}=∪^∞_n=1{Z > 1

n}. (1.28)

Para cadaω₀ ∈Λ, temos queZ(ω₀)>0 e, portanto, Λ⊂ {Z >0}. Segue-se que, para algumn, um membro da reunião do lado direito de (1.31) deve ter probabilidade estritamente positiva, e portanto, para algum ε > 0, o conjunto {Z > ε} tem probabilidade estritamente positiva. Pela defini¸cão de Z, este último conjunto está contido no conjunto A^c_m, para todo m, logo P(A^c_m) ≥P(Z > ε), e portanto (1.29) não pode ser verdadeira.

Na se¸cão 1.1 definimos o limnsupAn como o conjunto de todos os elementos de Ω que pertencem a um número infinito de conjuntos A_n, e o lim_ninfA_n como o conjunto dos elementos de Ω que pertencem a todos os conjuntos A_n com exce¸cão de um número finito deles. Veja a Proposi¸cão 1.1.

Tamb´em dizemos que o evento lim_nsupA_n ocorre se, e somente se, os eventos A_n ocorreminfinitas vezes (infinitely often) e escrevemos

P(lim

n supA_n) =P(A_ni.v ).

Proposi¸c˜ao 1.7. Para cadaA_n∈ F, temos que:

P(lim sup

n

An) = lim

m→∞P(∪^∞_n=mAn), (1.29) P(lim inf

n A_n) = lim

m→∞P(∩^∞_n=mA_n). (1.30) Prova: Chamemos Fm =∪^∞_n=mAn, para todom ≥1.Ent˜ao, Fm decresce, quando m cresce. Pela monotonicidade de P,

(31)

P(∩^∞_m=1Fm) = lim

m→∞P(Fm).

Teorema 1.22. X_nconverge paraXq.c se, e somente se, para todoε >0, tivermos P{|X_n−X|> εi.v}= 0.

Prova: SejaAm =∩^∞_n=m{|X_n−X| ≤ε}. Segue-se que

{|X_n−X|> εi.v}=∩^∞_m=1∪^∞_n=m{|X_n−X|> ε}=∩^∞_m=1A^c_m.

De acordo com o Teorema 1.21,X_n→ X q.c, se e somente se, para todoε >0, tivermos P(A^c_m)→ 0, quandom→ ∞. Como a sequência A^c_m é decrescente, isso é equivalente a P{|X_n−X|> εi.v}= 0.

Um conceito mais fraco do que convergência q.c é o de convergência em probabilidade.

Defini¸c˜ao 1.25. Dizemos que a sequˆencia{X_n}converge para X em probabilidade se, e somente se, para todoε >0, tivermos limn→∞P{|X_n−X|> ε}= 0.

Usaremos a nota¸c˜ao X_n →^P X. Note que P{|X_n −X| > ε} significa P{ω :

|X_n(ω)−X(ω)|> ε}.

Teorema 1.23. Se Xn convergir para X q.c., ent˜ao Xn converge para X em probabilidade.

Prova: Se X_n ^q.c→ X, ent˜ao P{∪^∞_n=m(|X_n−X|> ε} →0, quando m → ∞. Mas isso implicaP{|X_n−X|> ε} →0, quando n→ ∞, logoXn P

→X.

A rec´ıproca do teorema n˜ao vale. O que se verifica ´e o seguinte resultado.

Teorema 1.24. Se Xn

→P X, existe uma sequência {n_k} de inteiros, crescente para +∞, tal que X_n_k →^q.c X. Ou seja, convergência em probabilidade implica em convergência quase certa ao longo de uma subsequência.

Prova: Como Xn P

→ X se, e somente se Xn−X →^P 0, podemos supor X = 0.

Ent˜ao, por hip´otese, para todo k > 0, P{|X_n| > 1/2^k} → 0, quando n → ∞.

Segue-se que, para cadak >0, existe umn_k tal que P{|X_n_k|>1/2^k} ≤X

k

1 2^k <∞.

Tendo escolhido tal sequˆencia{n_k}, sejaE_k={|X_n_k|>1/2^k}. Ent˜ao,P{E_ki.v}= 0, logo pelo Teorema 1.22, X_n_k →^q.c0. .