• Nenhum resultado encontrado

Aspectos matematicos do Filtro de Kalman discreto

N/A
N/A
Protected

Academic year: 2021

Share "Aspectos matematicos do Filtro de Kalman discreto"

Copied!
61
0
0

Texto

(1)

Universidade Estadual de Campinas

Instituto de Matemática, Estatística e Computação Cientíca

Departamento de Matemática

Aspectos Matemáticos do Filtro de

Kalman Discreto

por

Dimas José Gonçalves *

Mestrado em Matemática - Campinas SP

Orientador: Prof. Dr. Raymundo Luiz de Alencar

(2)
(3)
(4)
(5)

Agradecimentos

Primeiramente, gostaria de agradecer a pós graduação do IMECC pela estrutura educacional que me foi oferecida e agradecer os professores Sérgio Antonio Tozoni, Elói Medina Galego e Mário Infante pelas correções sugeridas na minha dissertação de mestrado.

Dentre vários amigos que tenho, agradeço Bibiana e Fábio pelas ajudas em vários momentos de que precisei. São grandes amigos que convivem comigo desde a faculdade.

Apenas esse agradecimento seria pouco para demonstrar a gratidão que sinto pelo meu orien-tador Raymundo e pela sua esposa Cléo. Obrigado por me receberem em sua residência com carinho, pela amizade e pela ajuda nos momentos difíceis.

Na vida nós conhecemos vários tipos de pessoas. Essa família que eu conheci é composta por pessoas especiais. Coloco a família Mustafa nesses agradecimentos de forma alegre, pois é com alegria que eu gosto de lembrar deles. O meu muito obrigado pelo o que vocês foram, são e serão para mim.

Por mais palavras que eu procure, pois mais gestos que eu tente mostrar, por mais... Nada disso vai conseguir demonstrar o quão importante essa pessoa é para mim. Talvez uma frase simples expresse o que essa pessoa signica: eu te amo Tatiana. Muito obrigado pelo amor, pela força, compreensão e alegria que você passa.

O que eu tenho para dizer da minha família , com certeza não caberia em um livro, mas vou tentar caracterizar o que cada um signica: meu pai, símbolo de força e garra; minha mãe, símbolo de amor e carinho; meus írmãos, símbolo de amizade e união. Se hoje tenho saúde, educação, alegria, amor e crença em Deus, é porque vocês me proporcionaram tudo isso. Muito obrigado pelo o que eu sou.

Por m, dedico essa tese de mestrado ao meu írmão Josmar, que representa para mim a alegria e a "vontade de viver ".

(6)

Resumo

Neste trabalho, agrupamos um mínimo de conteúdo matemático para desenvolver uma prova do Teorema do Filtro de Kalman (discreto).

A teoria de integração de Lebesgue e alguns elementos ( Teorema da Projeção) da teoria dos espaços de Hilbert são as principais ferramentas matemáticas incluídas, além de um estudo das principais propriedades da esperança condicional.

(7)

Abstract

In this work we set a minimum of mathematical background to develop a proof of the (discrete) Kalman Filter Theorem.

The Lebesgue integration theory and some elements (the projection theorem) of the Hilbert space theory are the main mathematical tools included, besides a study of the main properties of the conditional expectation.

(8)

Sumário

Plano Geral da Dissertação 2

Introdução 3

1 Preliminares 5

1.1 Espaços de Hilbert . . . 5

1.2 Equações Normais . . . 8

1.3 Noções de Medida e Integração . . . 11

2 Noções de Probabilidade e Estatística 17 2.1 Probabilidade e Função de Distribuição Acumulada . . . 17

2.2 Distribuição de um vetor aleatório . . . 21

2.3 Esperança, Variância e Covariância . . . 25

2.4 Esperança Condicional . . . 32

3 Estimadores e o Teorema de Kalman 38 3.1 Estimativa pelos mínimos quadrados . . . 38

3.2 Estimador de mínima variância . . . 41

3.3 Estimador linear de mínima variância . . . 43

3.4 Teorema de Kalman . . . 49 A Algumas Aplicações Práticas do Filtro de Kalman 52

(9)

Plano Geral da Dissertação

Estudar ferramentas e conceitos matemáticos para estabelecer uma forma simplicada do Teorema de Kalman Discreto ( solução do problema de estimação recursiva para um sistema discreto).

A ferramenta básica utilizada na demonstração do Teorema de Kalman é o conceito de esperança condicional para estabelecer estimativas de mínima variância. Com este propósito foram estudadas propriedades gerais dos espaços de Hilbert, destacando em particular o Teo-rema da Projeção, que é essencial para estabelecer certos tipos de aproximações (estimativa pelos mínimos quadrados). Na teoria de integração de Lebesgue, destacamos os principais teo-remas de convergência, bem como o teorema de Radon-Nikodým, além do espaço de Hilbert das funções de quadrado integrável.

Finalmente, foi dada uma atenção especial ao estudo da esperança condicional de uma variável aleatória com relação a um vetor aleatório, onde as principais propriedades da esperança condicional foram estudadas.

(10)

Introdução

Entre os temas considerados para esta dissertação, optamos por Filtro de Kalman, um tema muito estudado pelas seguintes razões: a grande importância do ltro de Kalman por suas aplicações em Engenharia; a necessidade do estudo de ferramentas matemáticas sosticadas para a compreensão teórica do ltro de Kalman e a possibilidade de envolvimento com conceitos e ferramentas matemáticas que não são, em geral, desenvolvidas em disciplinas de um Mestrado em Matemática.

No Capítulo 1, incluímos pré-requisitos de caráter mais geral, como espaços de Hilbert ( Teorema da Projeção ), equações normais ( matriz de Gram ) e elementos da Teoria da Medida e Integração.

No Capítulo 2, desenvolvemos pré-requisitos mais especícos de Probabilidade e Estatística, como por exemplo: variáveis e vetores aleatórios, esperança matemática, variância, covariância e , por m, esperança condicional de um vetor aleatório baseado em outro vetor aleatório.

No Capítulo 3, utilizando principalmente a esperança condicional, estabelecemos as esti-mativas de mínima variância, ferramenta básica para a demonstração do Teorema de Kalman, também incluído no terceiro e último capítulo.

Salientamos que muitos dos tópicos abordados na dissertação poderiam ser de maneira natural, ampliados e/ou desenvolvidos com maior profundidade; no entanto, procuramos nos limitar ao mínimo necessário, tendo em vista nosso objetivo.

Achamos que o teorema de Kalman ( ltragem ) é uma belíssima aplicação da teoria de integração de Lebesgue e da teoria dos espaços de Hilbert na solução de um problema importante da matemática aplicada.

(11)

quando o orientador desta dissertação, ministrou a disciplina Princípios de Análise Funcional Aplicada - FM210 para o programa de mestrado do Instituto Tecnológico de Aeronáutica (ITA). Nossos agradecimentos à pós-graduação do ITA pela aprovação da disciplina e aos alunos Alex, Antônio, Cleverson, Cleyton e Mônica pelo interesse demonstrado.

(12)

Capítulo 1

Preliminares

O objetivo desse capítulo é passar para o leitor noções básicas de Espaços de Hilbert, Medida e Integração que serão utilizadas ao longo do trabalho. Na seção 1.1 e 1.2, chamamos a atenção do leitor para o Teorema da Projeção e para as equações normais, que serão resultados essenciais para o desenvolvimento do Capítulo 3. Em relação a seção 1.3, destacamos o Teorema de Radon-Nikodyn, que será utilizado na demonstração da existência da esperança condicional ( página 32 ), e destacamos também o Teorema de Fubini, que será útil para deduzir alguns resultados do Capítulo 2.

1.1 Espaços de Hilbert

Denição 1.1. Seja V um K-espaço vetorial, onde K=R ou K=C. Uma norma sobre V é uma aplicação k k : V → R que satisfaz as propriedades:

a) k v k≥ 0, ∀v ∈ V. b) k v k= 0 ⇐⇒ v = 0.

c) k λ.v k= |λ|. k v k, ∀λ ∈ K, ∀v ∈ V. d) k u + v k≤k u k + k v k, ∀u, v ∈ V.

Nesse caso, dizemos que o par (V, k k) é um espaço normado.

Denição 1.2. Seja V um K-espaço vetorial, onde K=R ou K=C. Um produto interno sobre V é uma função < , >: V × V → K que satisfaz as seguintes propriedades:

(13)

a) < u + v, w >=< u, w > + < v, w >, ∀u, v, w ∈ V. b) < λ.u, v >= λ. < u, v >, ∀λ ∈ K, ∀u, v ∈ V. c) < u, v >= < v, u >, ∀u, v ∈ V.

d) < u, u > > 0, se u 6= 0.

Um espaço vetorial V munido de um produto interno <, > é denominado um espaço pré-hilbertiano e indicado por (V, <, >). A função que associa cada v ∈ V ao número√< v, v > é uma norma sobre V , chamada norma induzida pelo produto interno <, >.

Propriedades: Seja V um espaço vetorial com produto interno < , >.

a) Regra do paralelogramo: k u + v k2 + k u − v k2= 2(k u k2 + k v k2), ∀u, v ∈ V.

b) Desigualdade de Cauchy-Schwarz: | < u, v > | ≤k u k . k v k, ∀u, v ∈ V . c) Desigualdade triangular: k u + v k≤k u k + k v k, ∀u, v ∈ V.

Denição 1.3. Seja (xn)n∈N uma sequência em um espaço normado V. Dizemos que

(xn)n∈N converge em V, se existe v ∈ V que satisfaz:

∀ > 0, ∃N () ∈ N tal que n ≥ N() ⇒k xn− v k<  .

Nesse caso, dizemos que (xn)n∈N converge para v e denotamos xn→ v ou lim

n→∞xn= v.

Continuidade do produto interno: Sejam (xn)n∈N e (yn)n∈N sequências em um espaço

pré-hilbertiano. Se xn → x e yn→ y, então < xn, yn> → < x, y >.

Denição 1.4. Dizemos que dois vetores x, y de um espaço pré-hilbertiano V são ortogonais, se < x, y >= 0. Nesse caso, escrevemos x⊥y. Sejam x ∈ V e A ⊆ V . Dizemos que x é ortogonal a A, se x⊥a , ∀a ∈ A. Nesse caso, escrevemos x⊥A. Denotamos por A⊥ o conjunto

A⊥ = {x ∈ V : x⊥A}.

Observação: Decorre da continuidade do produto interno o seguinte fato: seja (xn)n∈N uma

sequência em um espaço pré-hilbertiano V e y ∈ V . Se xn⊥y , ∀n ∈ N e xn → x, então x⊥y.

Assim, se A é um subconjunto de um espaço pré-hilbertiano, então A⊥ é um subespaço vetorial

fechado em V .

Teorema de Pitágoras: Sejam x, y vetores de um espaço pré-hilbertiano V. Se x⊥y, então k x + y k2=k x k2 + k y k2 .

(14)

Observe que a recíproca do teorema de Pitágoras é verdadeira se V é espaço vetorial sobre o corpo R.

Exemplo: Dena em C o produto interno canônico, ou seja, < x, y >= x.¯y , ∀x, y ∈ C . Se x = 1 e y = i, então x não é ortogonal a y, mas

k x + y k2=k x k2 + k y k2 .

Portanto, sobre o corpo C a recíproca do teorema de Pitágoras não é verdadeira.

Denição 1.5. Seja (xn)n∈N uma sequência em um espaço normado. Dizemos que (xn)n∈N é

sequência de Cauchy, se satisfaz:

∀ > 0, ∃N () ∈ N tal que m, n ≥ N() ⇒k xn− xm k< .

Denição 1.6. Seja A um subconjunto de um espaço normado V . Se toda sequência de Cauchy de elementos de A convergir para um elemento de A, então dizemos que A é completo. Se V é um espaço pré-hilbertiano completo, dizemos que V é um espaço de Hilbert.

Propriedades: Seja A um subconjunto de um espaço normado V .

a) Se V é um espaço completo, então A é completo se e somente se A é fechado. b) Se V tem dimensão nita, então V é completo.

A seguir enunciamos o teorema da projeção, que será um resultado fundamental no desenvolvi-mento desta dissertação.

Teorema da Projeção: Seja W um subespaço vetorial fechado de um espaço de Hilbert V . Se v ∈ V , então existe um único w ∈ W que satisfaz as condições equivalentes:

1)k v − w k≤k v − u k , ∀u ∈ W . 2)(v − w)⊥W .

(15)

Propriedades: Seja H um espaço de Hilbert e W ⊆ H um subespaço fechado.

a) Para cada x ∈ H, existe um único x0 ∈ (x + W ) de norma mínima. Além disso, x0 ∈ W⊥.

b) V = W ⊕ W⊥ e W = (W).

Denição 1.7. Sejam W um subespaço de um espaço de Hilbert V e v ∈ V . Se existir w ∈ W tal que (v − w)⊥W , dizemos que w é a projeção ortogonal de v sobre W . Denotaremos essa projeção por projW(v) = w.

Proposição 1.8. Sejam U e V subespaços fechados de um espaço de Hilbert H, tais que U +V é fechado. Se W é o subespaço que satisfaz W ⊥U e W ⊕ U = U + V , então

projU +V(h) = projU(h) + projW(h) , ∀h ∈ H .

A demonstrações dos resultados apresentados nessa seção, encontram-se na referência [5].

1.2 Equações Normais

A seguir, introduzimos a matriz de Gram e algumas de suas propriedades que serão utilizadas no texto. Para a facilidade do leitor, provaremos algumas das propriedades.

Denição 1.9. Sejam v1, ..., vn elementos de um espaço pré-hilbertiano. A matriz de ordem n

(< vi, vj >)i,j =         < v1, v1 > < v1, v2 > · · · < v1, vn> < v2, v1 > < v2, v2 > · · · < v2, vn> ... ... ... ... < vn, v1 > < vn, v2 > · · · < vn, vn >         é chamada matriz de Gram de v1, ..., vn. Denotamos essa matriz por G(v1, ..., vn).

Proposição 1.10. Sejam v1, ..., vn elementos de um espaço pré-hilbertiano. Então

det G(v1, ..., vn) = 0 se, e somente se, {v1, ..., vn} é um conjunto linearmente dependente.

Prova: Se det G(v1, ..., vn) = 0, então as linhas da matriz de Gram formam um conjunto

linearmente dependente. Assim, existem escalares não todos nulos α1, ..., αn tais que n

X

i=1

(16)

Disso, segue que n X j=1 ¯ αj. n X i=1 αi < vi, vj > ! = 0 . Ou seja, k n X i=1 αi.vi k2= 0. Assim, n X i=1

αi.vi = 0 e o conjunto {v1, ..., vn} é linearmente

depen-dente.

Agora, assuma que {v1, ..., vn} é linearmente dependente. Podemos supor sem perda de

generalidade que v1 é combinação linear de v2, ..., vn.Assim, temos que a primeira linha da

matriz G(v1, ..., vn) é combinação linear das linhas restantes. Logo, det G(v1, ..., vn) = 0 . 

Proposição 1.11. Sejam v1, ..., vn elementos de um espaço de Hilbert H. Denote por V o

subespaço gerado por v1, ..., vn. Se h ∈ H, então projV(h) = n

X

i=1

αi.vi, onde α1, ..., αn são

escalares que satisfazem as equações

G(v1, ..., vn)t.         α1 α2 ... αn         =         < h, v1 > < h, v2 > ... < h, vn >         . (∗)

Prova: Sejam α1, ..., αn escalares tais que

projV(h) = n

X

i=1

αi.vi .

Do Teorema da Projeção seguem as equivalências:

projV(h) = n X i=1 αi.vi ⇐⇒ h − n X i=1 αi.vi ! ⊥V ⇐⇒ h − n X i=1 αi.vi ! ⊥vj , ∀j ∈ {1, ..., n} ⇐⇒ ⇐⇒ n X i=1 αi. < vi, vj >=< h, vj > , ∀j ∈ {1, ..., n} ⇐⇒ ⇐⇒ G(v1, ..., vn)t.         α1 α2 ... αn         =         < h, v1 > < h, v2 > ... < h, vn >         . 

(17)

Teorema 1.12. Seja {v1, ..., vn} um conjunto linearmente independente em um espaço de

Hilbert H. Fixados escalares a1, ..., an, o conjunto

T = {x ∈ H : < x, vi >= ai , ∀i ∈ {1, ..., n}}

possui um único elemento v de norma mínima. Além disso, v =

n X i=1 αi.vi , onde         α1 α2 ... αn         = (Gt)−1.         a1 a2 ... an         e G = G(v1, ..., vn) é a matriz de Gram.

Prova: Denote por V o subespaço gerado por v1, ..., vn. Primeiro demonstraremos que existe

um único v ∈ V pertencente a T . Pela Proposição 1.10, temos que G é invertível. Assim, existem únicos escalares α1, ..., αn tais que

Gt.         α1 α2 ... αn         =         a1 a2 ... an         . Logo, v = n X i=1

αi.vi é o único elemento pertencente a V ∩ T . Provemos que v + V⊥ = T. De

fato, se u ∈ V⊥, então

< v + u, vi >=< v, vi >= ai , ∀i ∈ {1, ..., n} .

Logo, v + V⊥ ⊆ T. Reciprocamente, seja x ∈ T . Como H é espaço de Hilbert, temos que

H = V ⊕ V⊥ e portanto existem w ∈ V e u ∈ V⊥ tais que w + u = x. Da expressão ai =< x, vi >=< w, vi > , ∀i ∈ {1, ..., n}

segue que w ∈ T ∩ V . Logo, w = v e T ⊆ (v + V⊥

).

Uma vez que v + V⊥ = T, temos por propriedades ( ítem (a) da página 8) que o elemento de

norma mínima de T pertence a (V⊥

)⊥. Como (V⊥)⊥ = V, o elemento de norma mínima de T é v. 

(18)

1.3 Noções de Medida e Integração

Êste parágrafo, com noções da teoria de Integração se faz necessário não somente porque os principais conceitos que serão objetos de estudo (esperança, esperança condicional, variância e outros) dependem da integral de Lebesgue mas também para estabelecer a notação utilizada. Denição 1.13. Uma família Λ de subconjuntos de um conjunto Ω é uma σ-álgebra, se satisfaz: a) ∅ , Ω ∈ Λ .

b) Se B ∈ Λ, então o complementar Bc = Ω − B pertence a Λ.

c) Se (Bn)n∈N é uma sequência em Λ, então ∞ [ n=1 Bn ! ∈ Λ . Nesse caso, se B ∈ Λ, então dizemos que B é Λ-mensurável.

Seja Λ 6= ∅ uma família de subconjuntos de Ω e A um subconjunto qualquer de Ω. Observe que a interseção de todas as σ-álgebras que contém A é a menor σ-álgebra de subconjuntos de Ωque contém A. Essa menor σ-álgebra é chamada σ-álgebra gerada por A.

Diante desse fato, seja Ω o conjunto dos números reais R. A "álgebra de Borel " é a σ-álgebra β(R) gerada por todos intervalos abertos (a, b) de R. Nesse caso, se B ∈ β(R), dizemos que B é um conjunto de Borel. Em geral, temos a seguinte denição:

Denição 1.14. A menor σ-álgebra de subconjuntos de Rn que contém todos os conjuntos

abertos é chamada σ-álgebra de Borel. Ela será denotada por β(Rn) e qualquer conjunto em

β(Rn) será chamado conjunto de Borel.

Denição 1.15. Seja Λ uma σ-álgebra de subconjuntos de Ω. Uma função µ : Λ → R ,onde R = R ∪ {−∞, +∞}, é uma medida se satisfaz:

a)µ(∅) = 0 .

b) µ(B) ≥ 0 , ∀B ∈ Λ .

c) µ é aditiva contável: se (Bn)n∈N é uma sequência disjunta (Bn∩ Bm = ∅ se n 6= m), então

µ ∞ [ n=1 Bn ! = ∞ X n=1 µ(Bn) .

(19)

Nesse caso, dizemos que (Ω, Λ, µ) é um espaço de medida.

Dizemos ainda, µ é uma medida σ-nita, se existe uma sequência (Bn)n∈N em Λ tal que

µ(Bn) 6= +∞ , ∀n ∈ N e Ω = ∞

[

n=1

Bn .

Um exemplo de medida que será utilizada no decorrer da dissertação é a medida de Lebesgue λ : β(R) → R que possui a seguinte propriedade:

λ((a, b)) = b − a para todo intervalo aberto (a, b) de R.

As propriedades abaixo serão utilizadas no texto, suas demonstrações podem ser encontradas na página 21 da referência [1].

Propriedades: Seja (Ω, Λ, µ) um espaço de medida.

1) Se A, B ∈ Λ e A ⊆ B, então µ(A) ≤ µ(B). Além disso, se µ(A) 6= +∞, então µ(B − A) = µ(B) − µ(A) .

2) Se (Bn)n∈N é uma sequência crescente em Λ (Bn ⊆ Bn+1 , ∀n ∈ N), então

lim n→∞µ(Bn) = µ ∞ [ n=1 Bn ! .

3) Se (Bn)n∈N é uma sequência decrescente em Λ (Bn⊇ Bn+1 , ∀n ∈ N) e µ(B1) 6= +∞, então

lim n→∞µ(Bn) = µ ∞ \ n=1 Bn ! .

Denição 1.16. Seja Λ uma σ-álgebra de um conjunto Ω. Dizemos que uma função X : Ω → R é Λ-mensurável (ou simplesmente, mensurável) se

[X ≤ x] = {t ∈ Ω : X(t) ≤ x}

pertence a Λ para todo x ∈ R. Se X é mensurável, onde Ω = R e Λ = β(Rn), então dizemos

que X é Borel-mensurável.

Sejam X e Y funções mensuráveis e c ∈ R. Não é difícil ver que as funções c.X, X + Y, X.Y, |X|

(20)

são mensuráveis.

Seja f : Ω → R uma função simples, ou seja, Img(f) = {f(t) : t ∈ Ω} é um conjunto nito. Denote Img(f) = {a1, ..., an} . Para cada i ∈ {1, ..., n} dena Bi = f−1(ai). Dizemos que

n

X

i=1

ai.χBi

é a representação padrão de f.

Lembremos que a função característica do conjunto A , χA : Ω → R , é denida por

χA(x) = 1 se x ∈ A

χA(x) = 0 se x /∈ A

Deixamos a cargo do leitor a vericação do seguinte fato: se X é mensurável, então existe uma sequência de funções simples (Xn)n∈N mensuráveis tais que |Xn| ≤ |Xn+1| ≤ |X| , ∀n ∈ N

e lim

n→∞Xn = X.

Denição 1.17. Sejam (Ω, Λ, µ) um espaço de medida e f uma função mensurável não negativa (f (t) ≥ 0 , ∀t ∈ Ω). Se f é simples, então a integral de f com relação a µ é o número

Z Ω f dµ = n X i=1 ai.µ(Bi) , onde f = n X i=1 ai.χBi é a representação padrão de f.

Se X é uma função mensurável não negativa, denimos a integral de X com respeito a µ por Z Ω Xdµ = sup{ Z Ω f dµ : 0 ≤ f ≤ X e f ∈ M S} , onde MS é o conjunto das funções Λ-mensuráveis simples.

Teorema da convergência monótona: Seja (Xn)n∈N uma sequência crescente de funções

(Xn(t) ≤ Xn+1(t) , ∀t ∈ Ω , ∀n ∈ N ) Λ-mensuráveis não negativas. Se (Xn)n∈N converge para

X, então Z Ω Xdµ = lim n→∞ Z Ω Xndµ .

(21)

Observação: No decorrer da dissertação, usaremos apenas a convergência "pontual "de funções, isto é, (Xn)n∈N converge para X se

lim

n→∞Xn(t) = X(t) , ∀t ∈ Ω .

Dada uma função mensurável f não negativa, observe que a igualdade Rf dµ = +∞ pode em certos casos aparecer. Assim, para denir a integral de uma função mensurável X qualquer, é necessário fazer algumas considerações: sejam X+e Xas funções mensuráveis denidas por

X+(t) =máx{X(t), 0} , ∀t ∈ Ω.

X−(t) =máx{−X(t), 0} , ∀t ∈ Ω.

Denição 1.18. Sejam (Ω, Λ, µ) um espaço de medida e X uma função mensurável. Dizemos que X é integrável se Z Ω X+dµ 6= +∞ e Z Ω X−dµ 6= +∞. Nesse caso, denimos a integral de X com respeito a µ por

Z Ω Xdµ = Z Ω X+dµ  − Z Ω X−dµ  . Propriedades: Sejam X e Y funções integráveis e α um escalar real. 1) X + Y é integrável e Z Ω X + Y dµ = Z Ω Xdµ + Z Ω Y dµ. 2) α.X é integrável e Z Ω α.Xdµ = α. Z Ω Xdµ. Essas propriedades decorrem facilmente da denição de integral.

Se X é uma função integrável e B ∈ Λ, então X.χB é integrável e assim denimos

Z B Xdµ = Z Ω X.χB dµ .

Fixado um espaço de medida (Ω, Λ, µ), dizemos que uma certa proposição vale µ-quase sempre, se existe um subconjunto N ∈ Λ com µ(N) = 0 tal que a proposição vale sobre o

(22)

complemento Nc. Por exemplo, dizemos que uma sequência de funções (X

n)n∈N Λ-mensuráveis

converge µ -quase sempre para X, se existe conjunto N ∈ Λ de medida nula tal que X(t) = lim

n→∞Xn(t) , ∀t ∈ N c .

Por comodidade, o termo µ-quase sempre será denotado por µ-q.s.

Teorema da convergência dominada de Lebesgue: Seja (Xn)n∈N uma sequência de

funções mensuráveis que converge µ-q.s para uma função X. Se existe uma função integrável Y tal que |Xn| ≤ Y para todo n ∈ N, então X é integrável e

Z Ω Xdµ = lim n→∞ Z Ω Xndµ .

A demonstração deste teorema pode ser encontrada em [1] na página 44.

Denição 1.19. Seja p um número real tal que 1 ≤ p < +∞ . Dizemos que duas funções Λ-mensuráveis f e g são µ-equivalentes, se f = g µ−q.s. A classe de equivalência determinada por uma função f é indicada por [f] e consiste do conjunto de todas as funções mensuráveis µ-equivalentes a f. O espaço de todas as classes [f] tal que |f|p é integrável é denotado por

Lp = Lp(Ω, Λ, µ). Denimos a norma k kp sobre Lp por

k[f ]kp = Z Ω |f |p 1p .

É conveniente tratar os elementos de Lp como funções. Assim, devemos nos referir a classe [f]

como sendo o "elemento f de Lp ".

Desigualdade de Hölder: Sejam f ∈ Lp e g ∈ Lq . Se

1 p +

1

q = 1, então f.g ∈ L1 e k f.g k1 ≤ k f kp . k g kq .

A demonstração deste teorema pode ser encontrada em [1] na página 56.

Denição 1.20. Sejam µ e ν medidas sobre uma σ-álgebra Λ. Se todo B ∈ Λ, que satisfaz µ(B) = 0, implicar em ν(B) = 0, então dizemos que ν é absolutamente contínua em relação a µ. Nesse caso denotamos ν  µ.

(23)

Propriedades importantes utilizadas no texto, dependem do teorema:

Teorema de Radon-Nikodym: Sejam µ e ν medidas σ-nitas. Se ν  µ , então existe uma função mensurável f não negativa tal que

ν(B) = Z

B

f dµ , ∀B ∈ Λ .

A função f é chamada uma derivada de Radon-Nikodym de ν em relação a µ e é denotada por dν

dµ. Se f e g são duas derivadas de Radon-Nikodym de ν em relação a µ, então f = g µ−q.s. A demonstração deste teorema pode ser encontrada em [1] na página 85.

Teorema 1.21. (Medida Produto) Sejam (Ω1, Λ1, µ1), ..., (Ωn, Λn, µn) espaços de medidas

σ-nitas. Se Λ é a σ-álgebra gerada por todos conjuntos da forma A1 × ... × An com Ai ∈ Λi,

então existe uma única medida µ denida sobre Λ tal que

µ(A1× ... × An) = µ1(A1).µ2(A2). ... .µn(An) , ∀Aj ∈ Λj .

Denotamos µ = µ1× ... × µn e dizemos que µ é uma medida produto.

A demonstração deste teorema pode ser encontrada em [3] na página 106.

Uma consequência importante deste teorema é a coincidência da medida de Lebesgue λn

sobre β(Rn) com o completamento da medida produto λ × ... × λ sobre β(Rn), onde λ é a

medida de Lebesgue sobre β(R).

Teorema de Fubini : Sejam (Ω1, Λ1, µ1) e (Ω2, Λ2, µ2) espaços de medida σ-nitos. Se

f : Ω1× Ω2 → R é uma função integrável com respeito a medida produto µ1 × µ2, então

Z Ω1×Ω2 f d(µ1× µ2) = Z Ω1 Z Ω2 f (x, y)dµ2(y)  dµ1(x) = Z Ω2 Z Ω1 f (x, y)dµ1(x)  dµ2(y)

Aqui R1f (x, y)dµ1(x) é denida para µ2-quase todo y e R2f (x, y)dµ2(y) é denida para

µ1-quase todo x.

(24)

Capítulo 2

Noções de Probabilidade e Estatística

O objetivo deste capítulo é introduzir algumas noções básicas da Teoria de Probabilidade e Estatística que permitam conceituar com precisão Esperança Condicional. Dentre os con-ceitos citados neste capítulo, chamamos a atenção do leitor para o conceito de "Esperança Condicional " (seção 2.4) que será uma ferramenta básica para o Capítulo 3, onde será estu-dado estimador de mínima variância.

2.1 Probabilidade e Função de Distribuição Acumulada

Seja (Ω, Λ, P ) um espaço de medida, neste capítulo, o conjunto Ω será chamado de "espaço amostral ". Os elementos da σ- álgebra Λ serão denominados "eventos aleatórios " e uma função X : Ω → R Λ-mensurável será chamada de " variável aleatória ".

Denição 2.1. Seja (Ω, Λ, P ) um espaço de medida. Se P (Ω) = 1, então dizemos que P é uma probabilidade sobre Λ. Nesse caso, dizemos que (Ω, Λ, P ) é um espaço de probabilidade.

Um exemplo simples de espaço de probabilidade (Ω, Λ, P ) pode ser: Ω = (0, 1) intervalo aberto de R.

Λ = β(0, 1) = {B ∩ (0, 1) : B ∈ β(R)} σ-álgebra de Borel em (0, 1). P = medida de Lebesgue restrita a Λ .

(25)

Denição 2.2. Sejam (Ω, Λ, P ) um espaço de probabilidade e B ∈ Λ um evento aleatório. Se A ∈ Λ e P (B) 6= 0 , então dizemos que o número

P (A|B) = P (A ∩ B) P (B) .

é a probabilidade condicional de A dado B. Se P (B) = 0, denimos P (A|B) = 0. Observe que a função P : Λ → R denida por

P (A) = P (A|B) , ∀A ∈ Λ

é uma probabilidade se P (B) 6= 0. Consequentemente, as propriedades de probabilidade são mantidas, por exemplo:

P (Ac|B) = 1 − P (A|B) .

Observação: Quando não mencionarmos o espaço de probabilidade, estaremos considerando um espaço (Ω, Λ, P ), onde P é uma medida de Probabilidade.

Denição 2.3. Seja (Ω, Λ, P ) um espaço de probabilidade. Dizemos que T ⊆ Λ é uma família de eventos independentes, se

P (A1 ∩ ... ∩ An) = P (A1). ... .P (An) , ∀A1, ..., An∈ T , ∀n ∈ N.

Proposição 2.4. Seja (Ω, Λ, P ) um espaço de probabilidade. 1) Se A e B são eventos independentes de Λ e P (B) 6= 0, então

P (A) = P (A|B) .

2) Se A1, ..., An são eventos independentes, então B1, ..., Bn são eventos independentes, onde

Bi = Ai ou Bi = Aci para todo i ∈ {1, ..., n}.

Prova: 1) Das igualdades P (A ∩ B) = P (B).P (A|B) e P (A ∩ B) = P (B).P (A) , segue que P (A) = P (A|B).

2)Provemos que A1, ..., An−1, Acn são eventos independentes: se i1, ..., ik ∈ {1, ..., n − 1}, então

por hipótese

(26)

Agora, como Ai1 ∩ ... ∩ Aik ∩ An e Ai1 ∩ ... ∩ Aik ∩ A

c

n são eventos disjuntos, cuja união é

Ai1 ∩ ... ∩ Aik, temos que P (Ai1∩ ... ∩ Aik ∩ A c n) + P (Ai1 ∩ ... ∩ Aik ∩ An) = P (Ai1 ∩ ... ∩ Aik) . Assim, P (Ai1 ∩ ... ∩ Aik ∩ A c n) = P (Ai1 ∩ ... ∩ Aik) − P (Ai1 ∩ ... ∩ Aik ∩ An) = = P (Ai1). ... .P (Aik).(1 − P (An)) = P (Ai1). ... .P (Aik).P (A c n) .

Ou seja, A1, ..., An−1, Acn são eventos independentes. Aplicando sucessivamente esse resultado,

teremos a demonstração do ítem 2). 

Denição 2.5. A função de distribuição acumulada de uma variável aleatória X, representada por FX, é denida por

FX(x) = P ([X ≤ x]), ∀x ∈ R .

Lembremos que [X ≤ x] = {t ∈ Ω : X(t) ≤ x} .

Proposição 2.6. Se X é uma variável aleatória, então a função de distribuição acumulada FX

satisfaz as seguintes propriedades: a) FX é não-decrescente.

b) Se (xn)n∈N é uma sequência crescente em R, tal que lim

n→∞xn= +∞, então limn→∞FX(xn) = 1 .

c) Se (xn)n∈Né uma sequência decrescente em R, tal que lim

n→∞xn= −∞, então limn→∞FX(xn) = 0.

d) FX é contínua à direita .

e) Dado x ∈ R, considere o evento aleatório [X = x] = {t ∈ Ω : X(t) = x}. Se P ([X = x]) = 0, então FX é contínua em x.

Prova: a) Se x, y ∈ R e x ≤ y, então [X ≤ x] ⊆ [X ≤ y]. Segue de propriedades ( (1) na página 12), que FX(x) ≤ FX(y). Assim, FX é não decrescente.

b) Como a sequência de eventos ([X ≤ xn])n∈N é crescente, com relação a inclusão, temos por

propriedades ( (2) da página 12) lim n→∞FX(xn) = P ∞ [ n=1 [X ≤ xn] ! .

(27)

Como ∞ [ n=1 [X ≤ xn] = Ω, temos que lim n→∞FX(xn) = P (Ω) = 1 .

c) A sequência de eventos ([X ≤ xn])n∈Né decrescente com relação a inclusão e ∞

\

n=1

[X ≤ xn] = φ.

Logo, por propriedades ( (3) da página 12 ) segue que lim n→∞FX(xn) = P ∞ \ n=1 [X ≤ xn] ! = P (φ) = 0 . d) Dado x ∈ R, seja (xn)n∈N uma sequência decrescente em R, tal que lim

n→∞xn= x. Como ∞

\

n=1

[X ≤ xn] = [X ≤ x] ,

temos que lim

n→∞FX(xn) = P ([X ≤ x]) = FX(x). Logo, FX é contínua à direita.

e) Seja (xn)n∈N uma sequência crescente em R, tal que lim

n→∞xn = x e xn 6= x, ∀n ∈ N. Por

propriedades ( (3) da página 12 ), temos que lim

n→∞FX(xn) = P ([X < x]) ,

onde [X < x] = {t ∈ ω : X(t) < x}. Como [X ≤ x] = [X < x] ∪ [X = x] temos que FX(x) = P ([X < x]) + P ([X = x]) = lim

n→∞FX(xn) .

Assim FX é contínua à esquerda de x. Pelo ítem d), FX é contínua em x. 

No caso da σ-álgebra de Borel, a proposição anterior admite uma forma de recíproca: Proposição 2.7. Sejam Λ = β(Ω) a σ-álgebra de Borel sobre o intervalo aberto Ω = (0, 1) de R e P a medida de Lebesgue restrita a Λ. Se F : R → R é uma função que satisfaz as propriedades a) , b) , c) e d) da proposição anterior, então existe uma variável aleatória X : Ω → R tal que

F = FX .

Prova: Dena X : Ω → R por

X(t) = inf {x ∈ R : F (x) ≥ t}, ∀t ∈ Ω . Uma vez que X é não-decrescente, ela é variável aleatória.

Dado t ∈ Ω, dena X(t) = y. Pela denição de X, tome uma sequência decrescente (xn)n∈N

(28)

F (xn) ≥ t, ∀n ∈ N e lim

n→∞xn = y .

Como F é contínua à direita, temos que lim

n→∞F (xn) = F (y). Logo, F (y) ≥ t. Ou seja, provamos

que F (X(t)) ≥ t, ∀t ∈ Ω. Assim, como F é não-decrescente, segue que [X ≤ x] = {t ∈ Ω : F (x) ≥ t} = (0, F (x)], ∀x ∈ R. Pela denição de P segue

FX(x) = P ([X ≤ x]) = F (x), ∀x ∈ R . 

2.2 Distribuição de um vetor aleatório

Denição 2.8. Se X1, X2, ..., Xn são variáveis aleatórias denidas sobre um mesmo espaço de

probabilidade (Ω, Λ, P ), então dizemos que a função X : Ω → Rn dada por X = (X

1, X2, ..., Xn)

é um vetor aleatório.

A próxima proposição, mostra que a denição de vetor aleatório é coerente com a denição de variável aleatória (denição 1.16).

Proposição 2.9. Uma função X : Ω → Rn é vetor aleatório se, e somente se, o conjunto

[X ∈ D] = {t ∈ Ω : X(t) ∈ D} é evento aleatório, para todo D ∈ β(Rn).

Prova: Dado x ∈ R, temos que D = (−∞, x] × R × R × ... × R pertence a álgebra de Borel β(Rn)e [X ∈ D] = [X1 ≤ x]. Assim, se [X ∈ B] é evento aleatório para todo B ∈ β(Rn), então

[X1 ≤ x] é evento aleatório, ∀x ∈ R .Logo, X1 é variável aleatória. De modo análogo, prova-se

que X2, X3, ..., Xn são variáveis aleatórias.

Reciprocamente, suponha que X seja vetor aleatório. É fácil ver que o conjunto Γ = {D : D ⊂ Rn e [X ∈ D] ∈ Λ}

é uma σ -álgebra. Uma vez que X é vetor aleatório, temos que

(29)

Como β(Rn)também é gerado pelo conjunto

{(−∞, a1] × ... × (−∞, an] : a1, ..., an ∈ R} ,

temos que β(Rn) ⊂ Γ. Assim, pela denição de Γ segue o resultado. 

Denição 2.10. A distribuição de um vetor aleatório X : Ω → Rn é a probabilidade P X

denida sobre β(Rn) dada por

PX(B) = P ([X ∈ B]) , B ∈ β(Rn) .

Da proposição anterior, segue que PX está bem denida. Além disso, como P é uma

probabi-lidade, temos que PX também é uma probabilidade.

Novos vetores aleatórios podem ser considerados, a partir de um vetor aleatório X dado, conforme proposição abaixo.

Proposição 2.11. Seja X : Ω → Rn um vetor aleatório. Se g : Rn

→ Rm é uma função que

satisfaz

g−1(D) ∈ β(Rn), ∀D ∈ β(Rm) , então g ◦ X é vetor aleatório e sua distribuição é dada por

Pg◦X = PX ◦ g−1 .

Prova: Se D ∈ β(Rm), então [g ◦ X ∈ D] = X−1(g−1(D)) . Assim, da proposição anterior,

temos que g ◦ X é vetor aleatório. Agora, a distribuição Pg◦X satisfaz :

Pg◦X(D) = P (X−1(g−1(D))) = P ([X ∈ g−1(D)]) = PX(g−1(D)), ∀D ∈ β(Rm) .

Logo, Pg◦X = PX ◦ g−1 . 

Denição 2.12. As variáveis aleatórias X1, X2, ..., Xn são independentes, se satisfazem

P (X1 ∈ B1, X2 ∈ B2, ..., Xn ∈ Bn) = n Y i=1 P (Xi ∈ Bi), ∀B1, ..., Bn ∈ β(R) , onde (X1 ∈ B1, X2 ∈ B2, ..., Xn∈ Bn) = n \ i=1 [Xi ∈ Bi] .

(30)

Propriedades: Sejam X1, X2, ..., Xn variáveis aleatórias independentes.

1) Se B1, ..., Bn ∈ β(R), então [X1 ∈ B1], ..., [Xn∈ Bn]são eventos aleatórios independentes.

2) Se g1, ..., gn são funções Borel-mensuráveis, então g1◦ X1, ..., gn◦ Xn são variáveis aleatórias

independentes.

3) Se X = (X1, ..., Xn) é um vetor aleatório com distribuição PX, então

PX(B1× B2× ... × Bn) = n Y i=1 PXi(Bi), ∀B1, ..., Bn ∈ β(R) , onde PXi é a distribuição de Xi.

Essas propriedades são consequências direta da denição 2.12 . Por isso omitiremos as suas demonstrações. Observe que a propriedade (3) signica que X1, ..., Xn são independentes se, e

somente se, PX é a medida produto PX1 × PX2 × ... × PXn.

Denição 2.13. Sejam (Ω, Λ, P ) um espaço de probabilidade e X = (X1, ..., Xn) um vetor

aleatório. Se existe uma função positiva f : Rn→ R Borel-mensurável tal que

PX(B) =

Z

B

f dλn , ∀B ∈ β(Rn) , então dizemos que f é a densidade de X.

Observe que o Teorema de Radon-Nikodym garante: X possui densidade se, e somente se, PX  λn.

Proposição 2.14. Seja X = (Y, Z) um vetor aleatório. Se PX  λ2, então PY  λe PZ  λ.

Prova: Sejam f a densidade de X e g : R → R a função dada por g(y) =

Z

R

f (y, z)dλ(z) . Pelo Teorema de Fubini, temos que g está bem denida e PY(B) = PX(B × R) = Z B×R f dλ2 = Z f (y, z)χB(y)dλ2 = Z Z f (y, z)χB(y)dλ(z)  dλ(y) = = Z g(y)χB(y)dλ(y) = Z B gdλ , ∀B ∈ β(R) .

(31)

Ou seja, Y possui densidade g e portanto PY  λ. De modo análogo, prova-se que a função h : R → R dada por h(z) = Z R f (y, z)dλ(y) , ∀z ∈ R é a função densidade de Z. 

Com alguma restrição, a proposição anterior admite uma recíproca:

Proposição 2.15. Seja X = (Y, Z) um vetor aletório. Suponha que Y e Z são independentes. Se PY  λ e PZ  λ, então PX  λ2.

Prova: Sejam g e h as densidades de Y e Z respectivamente. Dena a função Borel-mensurável f : R2 → R por

f (y, z) = g(y).h(z) , ∀(y, z) ∈ R2 e a medida µ : β(R2 ) → R por µ(C) = Z C f dλ2 , ∀C ∈ β(R2) . Pelo Teorema de Fubini temos

µ(A × B) = Z A gdλ  . Z B hdλ  = PY(A).PZ(B) , ∀A, B ∈ β(R) .

Ou seja, µ é a medida produto PY × PZ. Como Y e Z são variáveis aleatórias independentes,

temos que PX é a medida produto PY × PZ. Pela unicidade da medida produto, temos que

PX = µ. Portanto, f é a densidade de X. 

Proposição 2.16. Seja X = (Y, Z) um vetor aleatório com densidade f. Se existem funções Borel-mensuráveis g e h não negativas, tais que f(y, z) = g(y).h(z) λ − q.s. e

Z

gdλ = Z

hdλ = 1 ,

então Y e Z são independentes. Além disso, g e h são as densidades de Y e Z respectivamente. Prova: Dado y ∈ R, temos

Z R f (y, z)dλ(z) = Z R g(y).h(z)dλ(z) = g(y) Z R h dλ = g(y) .

(32)

Assim, pela demonstração da Proposição 2.14, temos que g é a densidade de Y . De modo análogo, prova-se que h é a densidade de Z.

Dados A, B ∈ β(R), temos que P (Y ∈ A, Z ∈ B) = PX(A × B) = Z A×B f dλ2 = Z A gdλ  . Z B hdλ  = PY(A).PZ(B) .

Assim, Y e Z são variáveis aleatórias independentes. 

2.3 Esperança, Variância e Covariância

Denição 2.17. Seja X uma variável aleatória integrável (X ∈ L1(Ω, Λ, P )). A esperança

( média ou valor esperado ) de X, denotada por E(X), é o número E(X) =

Z

XdP .

Propriedades: Sejam X e Y variáveis aleatórias integráveis e α ∈ R. 1)E(α.X) = α.E(X) .

2)E(X + Y ) = E(X) + E(Y ) . 3)Se X ≤ Y , então E(X) ≤ E(Y ) .

As demonstrações dessas propriedades são simples, basta usar as propriedades de integral. Teorema 2.18. Sejam g : Rn → R uma função Borel-mensurável e X : Ω → Rn um vetor

aleatório. Se g ◦ X ∈ L1(Ω, Λ, P ), então g ∈ L1(Rn, β(Rn), PX). Além disso,

E(g ◦ X) = Z

Rn

gdPX .

Prova: Seja ϕ uma função Borel-mensurável simples, tal que 0 ≤ ϕ ≤ g+ .

Como g+◦ X = (g ◦ X)+, temos que

(33)

Se

n

X

i=1

ai.χAi é a representação padrão de ϕ, então

ϕ ◦ X =

n

X

i=1

ai.χBi ,

onde Bi = [X ∈ Ai]para todo i ∈ {1, ..., n}. Portanto

Z Ω ϕ ◦ XdP = n X i=1 ai.P (Bi) = n X i=1 ai.PX(Ai) = Z Rn ϕdPX .

Logo, segue de (*) que

0 ≤ Z Rn g+dPX ≤ Z Ω (g ◦ X)+dP < +∞ . De modo análogo, mostra-se que

Z

Rn

g−dPX < +∞ .

Portanto, g ∈ L1(Rn, β(Rn), PX). Agora, suponha que g é função simples com representação

padrão

n

X

i=1

di.χDi .

Uma vez que g ◦ X =

n X i=1 di.χCi, onde Ci = [X ∈ Di], temos E(g ◦ X) = n X i=1 di.P (Ci) = n X i=1 di.PX(Di) = Z Rn gdPX .

Ou seja, o teorema é válido para g simples. Agora, se g é uma função qualquer, seja (gn)n∈N

uma sequência de funções Borel-mensuráveis simples tais que lim

n→∞gn = g e |gn| ≤ |g|, ∀n ∈ N.

Temos que (gn◦ X)n∈N é uma sequência de variáveis aleatórias que satisfaz

lim

n→∞gn◦ X = g ◦ X e |gn◦ X| ≤ |g ◦ X| , ∀n ∈ N.

Pelo Teorema da convergência dominada de Lebesgue lim n→∞ Z Rn gndPX = Z Rn gdPX

(34)

e lim n→∞ Z Ω (gn◦ X)dP = Z Ω g ◦ XdP . Como o teorema é válido para funções simples, segue que

Z Ω (gn◦ X)dP = Z Rn gndPX, ∀n ∈ N e portanto E(g ◦ X) = Z Ω g ◦ XdP = Z Rn gdPX .  Proposição 2.19. Se X ∈ L1(Ω, Λ, P ), então E(X) = Z R t dPX(t)

Prova: Basta aplicar o teorema anterior a função g : R → R denida por g(t) = t , ∀t ∈ R . 

Antes de denir a variância de uma variável aleatória X ∈ L2(Ω, Λ, P ), será necessário

garantir a existência da esperança E(X). Para isso precisamos da seguinte proposição :

Proposição 2.20. Seja X uma variável aleatória. Se X ∈ Lp(Ω, Λ, P ) e 1 ≤ q ≤ p, então

X ∈ Lq(Ω, Λ, P ).

Prova: Como P é uma probabilidade, temos que a função constante que assume o valor "1 "é integrável. Assim, 1 + |X|p é integrável. Da desigualdade

|X(t)|q < 1 + |X(t)|p , ∀t ∈ Ω

segue que X ∈ Lq(Ω, Λ, P ). 

Denição 2.21. Seja X ∈ L2(Ω, Λ, P ) uma variável aleatória. A variância de X, denotada

por var(X), é a esperança

var(X) = E([X − E(X)]2) . Dizemos ainda que σ(X) = (var(X))1

2 é o desvio padrão de X. Se Y ∈ L2(Ω, Λ, P ) é uma

variável aleatória, então denimos a covariância de X e Y por Cov(X, Y ) = E([X − E(X)].[Y − E(Y )]) .

(35)

A desigualdade de Hölder garante que (X − E(X)).(Y − E(Y )) é integrável. Deste modo, a covariância está bem denida.

Propriedades: Sejam X, Y ∈ L2(Ω, Λ, P ) variáveis aleatórias e α ∈ R um número Real.

1) var(X) = Cov(X, X) .

2) var(X) = E(X2) − (E(X))2 .

3) var(α.X) = α2.var(X) .

4) Cov(X, Y ) = E(X.Y ) − E(X).E(Y ) .

5) var(X + Y ) = var(X) + 2Cov(X, Y ) + var(Y ) . 6) |Cov(X, Y )| ≤ σ(X).σ(Y ) .

Prova: Essas propriedades são fáceis de serem demonstradas. Provaremos apenas àquela mencionada no ítem (6): |Cov(X, Y )| = Z Ω [X − E(X)].[Y − E(Y )]dP ≤ Z Ω |X − E(X)|.|Y − E(Y )|dP . Da desigualdade de Hölder segue:

|Cov(X, Y )| ≤ Z Ω |X − E(X)|2dP 12 . Z Ω |Y − E(Y )|2dP 12 = σ(X).σ(Y ) . 

Denição 2.22. Sejam X e Y variáveis aleatórias pertencentes a L2(Ω, Λ, P ). Se Cov(X, Y ) = 0,

dizemos que X e Y são não correlacionadas.

Observe que, perante as propriedades anteriores, as condições abaixo são equivalentes: 1) X e Y são não correlacionadas.

2) E(X.Y ) = E(X).E(Y ) .

3) var(X + Y ) = var(X) + var(Y ) .

Proposição 2.23. Se X, Y ∈ L2(Ω, Λ, P ) são variáveis aleatórias independentes, então X e Y

são não correlacionadas. Prova: Seja g : R2

→ R a função Borel-mensurável dada por g(x, y) = x.y .

(36)

Temos que E(X).E(Y ) = Z Ω XdP  Z Ω Y dP  . Pela Proposição 2.19 e Teorema de Fubini segue

E(X).E(Y ) = Z R x dPX(x)  . Z R y dPY(y)  = Z R2 gdµ ,

onde µ é a medida produto PX × PY. Denotando por Z o vetor aleatório (X, Y ), temos que

PZ = µ, pois X e Y são independentes. Portanto, do Teorema 2.18 segue:

E(X).E(Y ) = Z R2 gdPZ = Z Ω g ◦ ZdP = Z Ω X.Y dP = E(X.Y ) . Logo, X e Y são não correlacionadas. 

Denição 2.24. Sejam X1, X2, ..., Xn variáveis aleatórias pertencentes a L1(Ω, Λ, P ). A

es-perança do vetor aleatório X = (X1, X2, ..., Xn), denotada por E(X), é o vetor do Rn denido

por

E(X) = (E(X1), E(X2), ..., E(Xn)) .

No que segue, usaremos a notação matricial para X e E(X) :

X =         X1 X2 ... Xn         e E(X) =         E(X1) E(X2) ... E(Xn)         .

Caso contrário, cará claro no contexto quando não estamos usando notação matricial. Por comodidade, dizemos que X é um n-vetor aleatório se Xi ∈ L2(Ω, Λ, P ). Observe que estamos

diferenciando o termo vetor aleatório de n-vetor aleatório.

Denição 2.25. Sejam X e Y n-vetor e m-vetor aleatórios respectivamente. A covariância de X e Y , denotada por Cov(X, Y ), é a matriz denida por

(37)

Observe que o produto acima é o produto de matrizes e que Cov(X, Y ) é uma matriz pertencente a Mn×m(R). Se X =         X1 X2 ... Xn         e Y =         Y1 Y2 ... Ym         então a entrada (i,j) da matriz Cov(X, Y ) é dada por Cov(Xi, Yj) .

Nesse sentido, podemos estender a denição de não correlacionados para vetores aleatórios. Dizemos que X e Y são não correlacionados se a matriz Cov(X, Y ) é nula.

Propriedades: Sejam X e Y n-vetor e m-vetor aleatórios respectivamente. 1) Se A ∈ Mk×n(R), então E(A.X) = A.E(X).

2) Se A ∈ Mk×n(R) e B ∈ Ml×m(R), então Cov(A.X, B.Y ) = A.Cov(X, Y ).Bt.

3) Cov(X, Y ) = E(X.Yt) − E(X).E(Yt).

4) Se E(X) = 0 ou E(Y ) = 0, então Cov(X, Y ) = E(X.Yt).

Prova:

1) Se A = (ai,j)i,j, então

E n X j=1 ai,j.Xj ! = n X j=1

ai,jE(Xj) , ∀i ∈ {1, ..., k}.

Logo, E(A.X) = A.E(X).

2) Cov(A.X, B.Y ) = E([A.X−E(A.X)].[B.Y −E(B.Y )]t) = E(A[X −E(X)].[Y −E(Y )]tBt) =

= A.E([X − E(X)].[Y − E(Y )]t)Bt= A.Cov(X, Y ).Bt .

3) Cov(X, Y ) = E([X −E(X)].[Y −E(Y )]t) = E(X.Yt−X.E(Y )t−E(X).Yt+E(X).E(Y )t) =

= E(X.Yt) − E(X).E(Y )t− E(X).E(Yt) + E(X).E(Y )t = E(X.Yt) − E(X).E(Yt) . 4) Consequência direta da anterior. 

(38)

Seja H = L2(Ω, Λ, P ) × ... × L2(Ω, Λ, P ) o espaço vetorial formado por todos n-vetores

aleatórios. Dena em H o produto interno < , >: H × H → R dado por:

< X, Y >= n X i=1 E(Xi.Yi) , onde X =      X1 ... Xn      e Y =      Y1 ... Yn     

. Uma vez que L2(Ω, Λ, P ) é espaço de Hilbert com o

produto interno ( | ) denido por (f|g) = E(f.g), temos que H é espaço de Hilbert com o produto interno acima. Algumas das propriedades do espaço H que serão utilizadas no próximo capítulo, são as seguintes:

Propriedades: Sejam X =      X1 ... Xn      e Y =      Y1 ... Yn      elementos de H. 1) < X, Y >= E(Xt.Y ) . 2) < X, Y >= tr E(X.Yt), onde tr : M

n(R) → R é a função traço (soma dos elementos da

diagonal da matriz). 3) kXk2 =

n

X

i=1

kXik22, onde k k2 é a norma induzida pelo produto interno ( | ) em L2(Ω, Λ, P ).

4) ||X||2 = tr G, onde G = G(X

1, ..., Xn)é a matriz de Gram relativa ao produto interno ( | ).

Entre as propriedades citadas, chamamos a atenção para a propriedade (3). Ela será de grande importância na seção de Estimador de mínima variança.

kXk2 =< X, X >= n X i=1 E(Xi2) = n X i=1 (Xi|Xi) = n X i=1 kXik22 .

(39)

2.4 Esperança Condicional

Sejam Λ e β σ-álgebras de um espaço amostral Ω. Se β ⊆ Λ, então dizemos que β é sub-σ-álgebra de Λ.

Proposição 2.26. Sejam (Ω, Λ, µ) um espaço de medida e β uma sub-σ-álgebra de Λ. Denote por ν a medida µ restrita a β. Se X é função β-mensurável não negativa, então

Z Ω Xdν = Z Ω Xdµ .

Prova: Se ϕ é função β-mensurável simples, não negativa e com representação padrão

n X i=1 ai.χAi, então Z Ω ϕdν = n X i=1 ai.ν(Ai) = n X i=1 ai.µ(Ai) = Z Ω ϕdµ ,

ou seja, o resultado é válido para funções simples. Agora, seja (ϕn)n∈N uma sequência crescente

de funções β-mensuráveis simples e não negativas tais que : lim

n→∞ϕn= X .

Pelo Teorema da Convergência Monótona, temos Z Ω Xdν = lim n→∞ Z Ω ϕndν = lim n→∞ Z Ω ϕndµ = Z Ω Xdµ . 

Denição 2.27. Sejam X ∈ L1(Ω, Λ, P ), onde P é uma probabilidade, e β uma sub-σ-álgebra

de Λ. A esperança condicional de X em relação a β é uma função Y : Ω → R , β-mensurável que satisfaz Z B Y dP = Z B XdP , ∀B ∈ β . Nesse caso, denotamos Y = E(X|β).

Observações: (a) Se Y e Z são as esperanças condicionais de X em relação a β , então Y = Z P-q.s.

(b) E(X|β) sempre existe, de fato: dena as medidas µ+ e µsobre a σ-ágebra β por

µ+(B) = Z

B

(40)

µ−(B) = Z

B

X−dP , ∀B ∈ β .

Denote porPba probabilidade P restrita a β. Pela denição de µ+, temos que µ+  bP. Assim, pelo teorema de Radon-Nikodym, existe uma função β-mensurável f não negativa tal que

µ+(B) = Z

B

f d bP , ∀B ∈ β . Pela proposição anterior, temos que:

µ+(B) = Z

B

f dP , ∀B ∈ β .

De maneira análoga, prova-se que existe uma função β-mensurável g tal que µ−(B) =

Z

B

gdP , ∀B ∈ β . Portanto, a esperança condicional de X é a função β-mensurável

E(X|β) = f − g . 

A seguir listamos as principais propriedades da esperança condicional. Propriedades: Sejam X, Y ∈ L1(Ω, Λ, P ) e β uma sub-σ-álgebra de Λ.

1) Se a, b ∈ R, então E(a.X + b.Y |β) = a.E(X|β) + b.E(Y |β). 2) Se X é β-mensurável, então E(X|β) = X .

3) Se X ≥ 0, então E(X|β) ≥ 0 P-q.s.

4) Se X ≤ Y , então E(X|β) ≤ E(Y |β) P-q.s.

5) Se γ é sub-σ-álgebra de β, então E(X|γ) = E(E(X|β)|γ) P-q.s. Prova: 1) Temos que:

Z B a.E(X|β) + b.E(Y |β)dP = a Z B E(X|β)dP + b Z B E(Y |β)dP = = a Z B XdP + b Z B Y dP = Z B aX + bY dP , ∀B ∈ β .

(41)

Logo, segue o resultado. 2) A vericação é imediata.

3) Dena o conjunto β-mensurável N = {t ∈ Ω : E(X|β)(t) < 0}. Como −E(X|β).χN ≥ 0,

temos que Z N E(X|β)dP ≤ 0 . Mas, Z N E(X|β)dP = Z N XdP e Z N XdP ≥ 0 . Logo, Z N E(X|β)dP = 0 .

Assim, de −E(X|β).χN ≥ 0, temos que −E(X|β).χN = 0 P-q.s. Logo, P (N) = 0. ou seja,

E(X|β) ≥ 0 a menos do conjunto de medida nula N.

4) Se X ≤ Y , então 0 ≤ (Y − X). Assim, pela propriedade (3) temos

E(Y − X|β) ≥ 0 P-q.s . Como E(Y − X|β) = E(Y |β) − E(X|β), segue o resultado. 5) Para todo B ∈ γ vale:

Z B E(E(X|β)|γ)dP = Z B E(X|β)dP = Z B XdP . Logo, E(E(X|β)|γ) = E(X|γ) P-q.s. 

Proposição 2.28. Sejam X, Y ∈ L2(Ω, Λ, P )e β uma sub-σ-álgebra de Λ. Se Y é β-mensurável,

então E(X.Y |β) = Y.E(X|β).

Prova: Seja ϕ uma função β-mensurável simples com representação padrão

m X i=1 ai.χBi . Para todo B ∈ β temos Z B ϕ.E(X|β)dP = m X i=1 ai. Z B E(X|β).χBidP = m X i=1 ai. Z B∩Bi E(X|β)dP =

(42)

= m X i=1 ai. Z B∩Bi XdP = m X i=1 ai. Z B X.χBidP = Z B ϕ.XdP . Portanto, E(ϕ.X|β) = ϕ.E(X|β).

Como Y é mensurável, existe uma sequência de funções (ϕn)n∈N β-mensuráveis simples que

satisfazem:

a) |ϕn(x)| ≤ |Y (x)| , ∀n ∈ N e ∀x ∈ Ω .

b) lim

n→∞ϕn= Y .

Pelo Teorema da Convergência Dominada de Lebesgue temos lim n→∞ Z B ϕnXdP = Z B Y.XdP , ∀B ∈ β. Por outro lado,

lim n→∞ Z B ϕnXdP = lim n→∞ Z B E(ϕnX|β)dP = lim n→∞ Z B ϕn.E(X|β)dP , ∀B ∈ β.

Assim, pelo Teorema da Convergência Dominada de Lebesgue temos

lim n→∞ Z B ϕnXdP = Z B Y.E(X|β)dP, ∀B ∈ β . Logo Z B Y.E(X|β)dP = Z B Y.XdP, ∀B ∈ β. 

Observação: seja Ω um conjunto não vazio e Y : Ω → Rn uma função qualquer. É fácil

ver que a família β(Y ), dada por β(Y ) = {Y−1

(B) : B ∈ β(Rn)} , dene uma σ-álgebra de

subconjuntos de Ω. Por outro lado, também é fácil ver que se Λ é uma σ-álgebra de subconjuntos de Ω tal que Y é Λ-mensurável, então β(Y ) ⊆ Λ, ou seja, β(Y ) é a menor σ-álgebra sobre Ω que torna Y mensurável.

Denição 2.29. Seja X ∈ L1(Ω, Λ, P ) uma variável aleatória. A esperança condicional de X,

dado um vetor aleatório Y : Ω → Rn, é a variável aleatória E(X|β(Y )).

(43)

Teorema 2.30. Seja X ∈ L1(Ω, Λ, P ) uma variável aleatória. Se Y : Ω → Rn é um vetor

aleatório, então existe uma função Borel-mensurável g : Rn→ R tal que:

E(X|Y ) = g ◦ Y P − q.s

Observação: omitiremos a demonstração deste teorema, mas ela é uma consequência direta do seguinte resultado sobre mensurabilidade: Sejam Ω, W conjuntos não vazios, (W, Σ) um espaço mensurável e Y : Ω → W uma aplicação. Então, uma função X : Ω → R é β(Y )-mensurável se, e somente se, X = g ◦ Y para alguma função g Σ -mensurável sobre W . (para os detalhes veja [3] na página 98)

Proposição 2.31. Sejam X ∈ L2(Ω, Λ, P ) e Y : Ω → Rn uma variável e um vetor aleatórios

respectivamente. Se g : Rn → R é uma função Borel-mensurável tal que g ◦ Y ∈ L

2(Ω, Λ, P ),

então

(X − E(X|Y )) ⊥ (E(X|Y ) − g ◦ Y ) . Antes de demonstrar a proposição, enunciaremos um resultado:

Desigualdade Condicional de Jensen: seja f ∈ L1(Ω, Λ, P ) uma variável aleatória cuja

imagem está contida em um conjunto aberto e convexo C. Seja h : C → R uma função convexa:

h(t.x + (1 − t).y) ≤ t.h(x) + (1 − t).h(y), ∀x, y ∈ C e 0 ≤ t ≤ 1 . Se h ◦ f é integrável e β é sub-σ-álgebra de Λ, então

E(h ◦ f |β) ≥ h(E(f |β)) .

A demonstração desse resultado pode ser encontrada em [3] na página 274.

Prova: Pois bem, a função h : R → R denida por h(t) = t2 é convexa e h ◦ X = X2 é

integrável. Logo, pela desigualdade de Jensen temos E(X2|Y ) ≥ [E(X|Y )]2

Ou seja, E(X|Y ) ∈ L2. Da denição de esperança condicional e da Proposição 2.28, seguem as

igualdades: (1) Z Ω X.E(X|Y )dP = Z Ω E(X.E(X|Y )|Y )dP = Z Ω E(X|Y ).E(X|Y )dP

(44)

(2) Z Ω X.g ◦ Y dP = Z Ω E(X.g ◦ Y |Y )dP = Z Ω g ◦ Y.E(X|Y )dP . Agora, das propriedades de produto interno e das expressões (1) e (2) temos

< X − E(X|Y ) , E(X|Y ) − g ◦ Y >= Z Ω X.E(X|Y )dP − Z Ω X.g ◦ Y dP + − Z Ω E(X|Y )2dP + Z Ω E(X|Y ).g ◦ Y dP = 0 . Portanto (X − E(X|Y )) ⊥ (E(X|Y ) − g ◦ Y ) . 

(45)

Capítulo 3

Estimadores e o Teorema de Kalman

Nesse capítulo trataremos do tema "Estimador ". Com o conceito de Esperança Condicional, descrito na seção 2.4, obtemos a relação que caracteriza o Estimador de mínima variância ( Teorema 3.6 ).

Com relação a importância da seção 3.3, a partir dela obteremos ferramentas necessárias para que o Teorema de Kalman, por m, seja demonstrado.

3.1 Estimativa pelos mínimos quadrados

Sejam (x1, y1) , (x2, y2) , ... , (xn, yn)pontos do R2. Estamos interessados em determinar uma

linha reta que "melhor se adapta " aos dados acima, segundo um critério pré estabelecido. Devemos procurar uma função f : R → R da forma f(x) = a + bx. Dada uma função f desta forma, obtemos os pontos

(x1, f (x1)) , ... , (xn, f (xn)) .

Obviamente, não temos necessariamente as igualdades f (xi) = yi , ∀i ∈ {1, ..., n} .

Agora, para cada i, temos um erro ei denido por ei = yi− f (xi). O critério que será utilizado

para determinar a "melhor reta " é dado por: minimizar a soma dos erros ao quadrado

n

X

i=1

(46)

, isto é, encontrar uma função f que minimiza a soma

n

X

i=1

(yi− f (xi))2 .

Pois bem, sejam

Y =         y1 y2 ... yn         , M =         1 x1 1 x2 ... ... 1 xn         e Z =   a b  

matrizes e < , > o produto interno Euclidiano no Rn. Uma vez que

kY − M.Zk2 =< Y − M.Z, Y − M.Z >= n

X

i=1

(yi− f (xi))2 ,

temos que determinar Z que minimiza

kY − M.Zk2 .

Como Rn é um espaço de Hilbert e W = {M.K : K ∈ M

2×1(R)} é um subespaço vetorial

fechado de Rn, temos pelo Teorema da Projeção, que o vetor Y − M.Z de norma mínima, é o

vetor que satisfaz

(Y − M.Z) ⊥ W .

Diante dessa condição, podemos caracterizar a matriz Z desejada conforme abaixo (Y − M.Z)⊥W ⇐⇒ < Y − M.Z , M.K >= 0 , ∀K ∈ M2×1(R) ⇐⇒

⇐⇒ 0 = (M.K)t.(Y − M.Z) = Kt.(Mt.Y − Mt.M.Z) , ∀K ∈ M

2×1(R) ⇐⇒

⇐⇒ Mt.Y − Mt.M.Z = 0 . Assim, a matriz Z desejada é a solução do sistema:

(Mt.M ).Z = Mt.Y .

Denotando por Mi a i-ésima coluna de M, temos que (Mt.M )é a matriz de Gram G(M1, M2)

com relação ao produto interno < , > em Rn. Como {M

1, M2} é um conjunto linearmente

(47)

Z = (Mt.M )−1.Mt.Y . A linha f(x) = a + b.x que minimiza

n

X

i=1

(yi− f (xi))2

é chamada aproximação linear pelos mínimos quadrados.

Teorema 3.1. ( Estimativa pelos mínimos quadrados ): Sejam y ∈ Mm×1(R) um vetor e

W ∈ Mm×n(R) uma matriz, cujas colunas formam um conjunto linearmente independente e

n ≤ m. Então existe um único vetor xb tal que

ky − W.bxk ≤ ky − W.xk , ∀x ∈ Mn×1(R)

Além disso, bx = (W

t.W )−1.Wt.y.

Prova: O subconjunto H = {W.x : x ∈ Mn×1(R)} é um subespaço vetorial fechado de Rm,

pois tem dimensão nita. Como Rm é espaço de Hilbert, temos pelo Teorema da Projeção, que

existe um único Z ∈ H que minimiza ky − Zk. Denotando Z = W.bx, o Teorema da Projeção garante que

(y − W.x) ⊥ H .b Portanto, para todo x ∈ Mn×1(R), temos

0 = < y − W.bx, W.x > = (W.x)t.(y − W.x) = xb t.(Wt.y − Wt.W.x) .b Logo,

Wt.y − Wt.W.bx = 0 .

Denotando por Wi a i-ésima coluna da matriz W , temos que Wt.W é a matriz de Gram

G(W1, ..., Wn). Como {W1, ..., Wn} é um conjunto linearmente independente, temos pela

Proposição 1.10 que Wt.W é invertível. Logo, de Wt.y = Wt.W.

b

x , segue que

b

x = (Wt.W )−1.Wt.y . 

Observe que a aproximação linear pelos mínimos quadrados é um caso particular desse teorema.

(48)

3.2 Estimador de mínima variância

Nessa seção (Ω, Λ, P ) é um espaço de probabilidade, Y : Ω → Rn um vetor aleatório e

X : Ω → R uma variável aleatória.

Denição 3.2. Um estimador Xb de X, baseado em Y , é uma variável aleatória da forma

b

X = g ◦ Y para alguma função g : Rn

→ R Borel-mensurável. Se y = Y (t) é uma "medida " de Y , então dizemos que bx = g(y) é uma estimativa de X baseado em y, isto é, x = bb X(t) .

Claramente o estimadorXb depende da escolha da função g. No entanto, estaremos interessa-dos em "estimadores especiais" no decorrer da dissertação. Pois bem, suponha X ∈ L2(Ω, Λ, P )

e seja k k2 a norma sobre L2 induzida pelo produto interno ( | ) denido na página 31, ou seja,

k X k2= (E(X2)) 1 2 = Z Ω |X|2dP 12 .

Denição 3.3. Um estimador Xb de X, baseado em Y , é chamado estimador de mínima variância se X ∈ Lb 2 e

k bX − X k2 ≤k h ◦ Y − X k2

para toda função h Borel-mensurável que satisfaz h ◦ Y ∈ L2.

Nesse caso, se y = Y (t) é uma medida de Y , então dizemos que bx = bX(t) é uma estimativa de mínima variância de X baseado em y.

Teorema 3.4. Se M(Y ) é o conjunto de todas funções h ◦ Y tal que h é Borel-mensurável e h ◦ Y ∈ L2, então M(Y ) é um subespaço fechado de L2.

Prova: A demonstração que M(Y ) é subespaço de L2 é imediata. Provemos que M(Y ) é

fechado: seja (gn)n∈N uma sequência de funções Borel-mensuráveis tal que gn◦ Y ∈ M (Y )para

todo n ∈ N e gn◦ Y → Z na norma de L2. Da Proposição 2.31 e Teorema de Pitágoras, temos

(49)

k Z −gn◦Y k22= k Z −E(Z|Y )+E(Z|Y )−gn◦Y k22= k Z −E(Z|Y ) k 2 2 + k E(Z|Y )−gn◦Y k22⇒ ⇒k Z − E(Z|Y ) k2 2 + lim n→∞ k E(Z|Y ) − gn◦ Y k 2 2= 0 ⇒ ⇒k Z − E(Z|Y ) k2 2= 0 ⇒ Z = E(Z|Y ) .

Pelo Teorema 2.30 existe g Borel-mensurável tal que Z = g ◦ Y . Portanto, M(Y ) é fechado.  Corolário 3.5. O estimador de mínima variância Xb de X é a projeção ortogonal de X sobre o subespaço M(Y ). Além disso, temos que (X − X)⊥M (Y )b .

Prova: Como L2 é espaço de Hilbert e M(Y ) é um subespaço fechado de L2, temos pelo

Teorema da Projeção , que o estimador Xb satisfaz ( bX − X)⊥M (Y ) .

Ou seja, Xb é a projeção ortogonal de X sobre M(Y ). 

Teorema 3.6. A variável aleatória E(X|Y ) é o estimador de mínima variância de X baseado em Y .

Prova: Seja g : Rn → R uma função Borel-mensurável tal que g ◦ Y ∈ M(Y ). Então pelo

Teorema de Pitágoras e Proposição 2.31 temos que k X − g ◦ Y k2

2 = k X − E(X|Y ) + E(X|Y ) − g ◦ Y k 2 2 =

= k X − E(X|Y ) k22 + k E(X|Y ) − g ◦ Y k22 ≥ k X − E(X|Y ) k2 2 .

Logo E(X|Y ) é o estimador de mínima variância. 

Denição 3.7. Um estimador Xb de X ,baseado em Y , é chamado não-tendencioso se E( bX) = E(X) .

Observação: Se E(X|Y ) = Xb , então Xb é um estimador não tendencioso de X, de fato, pela denição de esperança condicional, em particular temos para o conjunto Ω

(50)

E(X) = E(E( bX|Y )) = Z Ω E( bX|Y )dP = Z Ω b XdP = E( bX) .

Observamos que em geral, a condição E(X|Y ) = Xb aparece como a denição de estimador não tendencioso. Um exemplo de estimador não tendencioso é o de mínima variância. De fato,

E(E(X|Y )) = Z Ω E(X|Y )dP = Z Ω XdP = E(X) .

3.3 Estimador linear de mínima variância

Para facilitar a compreensão da demonstração do teorema de Kalman no próximo parágrafo, parte de sua demonstração foi antecipada para alguns dos teoremas deste parágrafo.

Sejam X , Y n-vetor e m-vetor aleatórios respectivamente indicados por

X =      X1 ... Xn      e Y =      Y1 ... Ym      .

Como foi visto na página 31, o espaço H = L2(Ω, Λ, P ) × ... × L2(Ω, Λ, P ) possui uma norma

k kinduzida pela norma k k2 de L2(Ω, Λ, P ), a saber,

k X k= n X i=1 k Xi k22 !12 = n X i=1 E(Xi2) !12 .

Denição 3.8. O estimador linear de mínima variância de X, baseado em Y , é o vetor aleatório X = ( bb X1, ..., bXn) ∈ H que satisfaz:

a) X = K.Yb , onde K ∈ Mn×m(R) é uma matriz constante (estimador linear).

b) kX − X kb é mínimo com respeito ao ítem a), ou seja,

(51)

O próximo teorema estabelece uma forma explícita para a matriz K.

Teorema 3.9. Se E(Y.Yt) é invertível, então o estimador linear de mínima variância

b X de X, baseado em Y, é dado por

b

X = E(X.Yt).E(Y.Yt)−1.Y .

Além disso, se X e Y possuem esperanças nulas, então a matriz covariância do erroX − Xb é dada por

E([ bX − X].[ bX − X]t) = E(X.Xt) − E(X.Yt).E(Y.Yt)−1.E(Y.Xt) . Prova: Sejam K ∈ Mn×m(R) e Kit = h ki1 ki2 . . . kim i a linha i da matriz K. Se b X =      b X1 ... b Xn      = K.Y ,

então Xbi = Kit.Y , isto é, Xbi pertence ao subespaço gerado V = [Y1, ..., Ym]. Assim, da

igualdade kK.Y − Xk2 = m X i=1 kKt i.Y − Xik22 ,

segue queXbi = projV(Xi) . Da Proposição 1.11, temos queXbi = Kit.Y, onde

G(Y1, ..., Ym).Ki =         < Xi, Y1 > < Xi, Y2 > ... < Xi, Ym >         =         E(Xi.Y1) E(Xi.Y2) ... E(Xi.Ym)         .

Como a matriz de Gram é dada por G(Y1, ..., Ym) = E(Y.Yt), temos que E(Y.Yt).Kt= E(Y.Xt)

e portanto

b

X = E(X.Yt).E(Y.Yt)−1.Y . Por substituição direta, obtemos a expressão

(52)

Por outro lado, se E(X) e E(Y ) são nulos, então

Cov( bX − X, bX − X) = E([ bX − X].[ bX − X]t) e portanto segue o resultado. 

Observação: a hipótese E(Y.Yt)ser invertível do teorema anterior poderia ser evitada, mas

nêsse caso deveria-se introduzir o conceito de pseudo-inverso de uma matriz. Corolário 3.10. Suponha que

Y = W.X + ε ,

onde Y e ε são m-vetores aleatórios, X é n-vetor aleatório e W ∈ Mm×n(R) é uma matriz

constante. Sejam F e D matrizes denidas por E(X.Xt) = F

E(ε.εt) = D

Se E(ε.Xt) = 0 e (W.F.Wt+ D)é invertível, então o estimador linear de mínima variância

b X de X, baseado em Y , é dado por

b

X = F.Wt.(W.F.Wt+ D)−1.Y .

Se X e Y possuem esperanças nulas, então a covariância do erro X − Xb é dada por E([ bX − X].[ bX − X]t) = F − F.Wt.(W.F.Wt+ D)−1.W.F .

Prova: Computando E(Y.Yt) = W.F.Wt + D e E(X.Yt) = F.Wt, temos pelo teorema

anterior

b

X = F.Wt.(W.F.Wt+ D)−1.Y e

E([ bX − X].[ bX − X]t) = F − F.Wt.(W.F.Wt+ D)−1.W.F . Como visto antes, se X e Y possuem esperanças nulas, então

(53)

Teorema 3.11. Sejam Y e X m-vetor e n-vetor aleatórios respectivamente. Suponha que E(Y.Yt) é invertível e denote por Xb o estimador linear de mínima variância de X baseado em Y .

a) Se T ∈ Mp×n(R) é uma matriz constante, então T. bX é o estimador linear de mínima

variância de T.X baseado em Y .

b) Se P ∈ Mn(R) é uma matriz positiva denida, então o estimador bX é o estimador linear Z

que minimiza

E([Z − X]t.P.[Z − X])

Prova: a) Do Teorema 3.9, temos que o estimador linearT.Xd de T.X é dado por

d

T.X = E(T.X.Yt).E(Y.Yt)−1 = T.E(X.Yt).E(Y.Yt)−1 = T. bX

b) Como P é uma matriz positiva denida, existe A ∈ Mn(R) tal que At.A = P. Da igualdade

E([Z − X]t.P.[Z − X]) = E([A.Z − A.X]t.[A.Z − A.X]) = kA.Z − A.Xk2

e do ítem a), temos que Xb é o estimador linear Z que minimiza a expressão acima. 

Teorema 3.12. Sejam Y =      Y1 ... Yn     

um n-vetor aleatório e V o subespaço gerado por Y1, ..., Yn.

Dado um subespaço fechado U de L2(Ω, Λ, P ), dena ˜Y =

     ˜ Y1 ... ˜ Yn      , de modo que ˜ Yi = Yi − projU(Yi) , ∀i ∈ {1, ..., n} .

Suponha que U + V é fechado. Se X é variável aleatória, então a sua projeção sobre U + V é

b

X = projU(X) + E(X. ˜Yt).E( ˜Y . ˜Yt)−1. ˜Y .

Prova: Vamos assumir que A = { ˜Y1, ..., ˜Yn} é um conjunto linearmente independente , pois

usaremos o fato que E( ˜Y . ˜Yt)−1existe. Caso contrário, escolhemos um subconjunto { ˜Y

i1, ..., ˜Yik}

(54)

˜ Y =      ˜ Yi1 ... ˜ Yik     

Suponhamos então que { ˜Y1, ..., ˜Yn}seja um conjunto linearmente independente. Pois bem, seja

T o subespaço gerado pelas coordenadas de ˜Y . Observando que projT(X)é o estimador linear

de mínima variância de X baseado em ˜Y , em consequência do Teorema 3.9 temos a igualdade: projT(X) = E(X. ˜Yt).E( ˜Y . ˜Yt)−1. ˜Y .

Uma vez que T ⊥U e T ⊕ U = V + U, temos pela Proposição 1.8 a igualdade ˜

X = projU(X) + projT(X) = projU(X) + E(X. ˜Yt).E( ˜Y . ˜Yt)−1. ˜Y . 

Observação: o teorema anterior será aplicado com as seguintes hipóteses. Suponhamos que num primeiro passo, obtemos X0 um estimador linear de mínima variância de X = (X

1, ..., Xn)

baseado no vetor u = (u1, ..., uk). Num segundo passo, dado o vetor Y = (Y1, ..., Ym),

procu-ramos um estimador X00 de X baseado no vetor

(u1, ..., uk, Y1, ..., Ym) .

Nesse sentido, dizemos que X00 é um estimador baseado nos dados "antigos (u) e novos (Y) " .

Sejam Y =      Y1 ... Ym     

, V o subespaço gerado por Y1, ..., Ym e U o subespaço gerado por u1, ..., uk.

Como o estimador X00 =      X100 ... Xn00      é tal que X00

i é a projeção de Xi sobre U + V , temos pelo

último teorema:

Xi00 = Xi0+ E(Xi. ˜Yt).E( ˜Y . ˜Yt)−1. ˜Y ,

onde a i-ésima coordenada de ˜Y é ˜Yi = Yi− projU(Yi). Ou seja,

Referências

Documentos relacionados

APRENDIZAGEM ATIVA NA EDUCAÇÃO INFANTIL: TRANSFORMANDO A SALA DE AULA EM UM ESPAÇO DE CRIATIVIDADE Eloá Fernanda de Freitas1* Elizabeth Ramalho Soares Bastos2** Resumo: Este artigo

Através das observações realizadas em campo, buscamos enfatizar de forma simples a perspectiva dos conselhos escolares como peça essencial para o desenvolvimento do trabalho

O Mapeamento dos Processos é fundamental para implementação da Lean Construction, porque sem ele é difícil identificar as atividades de fluxo e as atividades

Embora o momento ideal para obtenção de sementes de alta qualidade, seja logo após a maturidade fisiológica, a alta umidade da semente e da própria planta, associada ao

Assim, o presente trabalho surgiu com o objetivo de analisar e refletir sobre como o uso de novas tecnologias, em especial o data show, no ensino de Geografia nos dias atuais

À Deus pelo dom da vida, pela fé e perseverança para vencer os obstáculos. A minha mãe, pela orientação, dedicação e incentivo nessa fase do curso de pós-graduação e

Traçar um perfil das mulheres trabalhadoras não trata apenas de definir características dessas mulheres, mas também de compará-las aos homens trabalhadores, para