Propriedades geométricas de espaços de probabilidade

(1)

UNIVERSIDADE ESTADUAL DE

CAMPINAS

Instituto de Matemática, Estatística e

Computação Científica

JESUS MANUEL CORREA LORA

Propriedades Geométricas de Espaços de

Probabilidade

Campinas

2019

(2)

Jesus Manuel Correa Lora

Propriedades Geométricas de Espaços de Probabilidade

Dissertação apresentada ao Instituto de Mate-mática, Estatística e Computação Científica da Universidade Estadual de Campinas como parte dos requisitos exigidos para a obtenção do título de Mestre em Matemática.

Orientador: Christian da Silva Rodrigues

Este exemplar corresponde à versão

final da Dissertação defendida pelo

aluno Jesus Manuel Correa Lora e

ori-entada pelo Prof. Dr. Christian da

Silva Rodrigues.

Campinas

2019

(3)

Ficha catalográfica

Universidade Estadual de Campinas

Biblioteca do Instituto de Matemática, Estatística e Computação Científica Ana Regina Machado - CRB 8/5467

Correa Lora, Jesus Manuel,

C817p CorPropriedades geométricas de espaços de probabilidade / Jesus Manuel Correa Lora. – Campinas, SP : [s.n.], 2019.

CorOrientador: Christian da Silva Rodrigues.

CorDissertação (mestrado) – Universidade Estadual de Campinas, Instituto de Matemática, Estatística e Computação Científica.

Cor1. Wasserstein, Distância de. 2. Probabilidades. 3. Transporte ótimo. I. Rodrigues, Christian da Silva, 1978-. II. Universidade Estadual de Campinas. Instituto de Matemática, Estatística e Computação Científica. III. Título.

Informações para Biblioteca Digital

Título em outro idioma: Geometric properties of probability space Palavras-chave em inglês:

Wasserstein distance Probabilities

Optimal transportation

Área de concentração: Matemática Titulação: Mestre em Matemática Banca examinadora:

Christian da Silva Rodrigues [Orientador] Lino Anderson da Silva Grama

Paulo Henrique Pereira da Costa Data de defesa: 30-08-2019

Programa de Pós-Graduação: Matemática

Identificação e informações acadêmicas do(a) aluno(a) - ORCID do autor: https://orcid.org/0000-0002-5428-1042 - Currículo Lattes do autor: http://lattes.cnpq.br/8791574002749423

(4)

Dissertação de Mestrado defendida em 30 de agosto de 2019 e aprovada

pela banca examinadora composta pelos Profs. Drs.

Prof(a). Dr(a). CHRISTIAN DA SILVA RODRIGUES

Prof(a). Dr(a). LINO ANDERSON DA SILVA GRAMA

Prof(a). Dr(a). PAULO HENRIQUE PEREIRA DA COSTA

A Ata da Defesa, assinada pelos membros da Comissão Examinadora, consta no SIGA/Sistema de Fluxo de Dissertação/Tese e na Secretaria de Pós-Graduação do Instituto de Matemática, Estatística e Computação Científica.

(5)

A Deus porque ele tem sido meu guia e aos meus pais, Jaime e Martha.

(6)

Agradecimentos

Agradeço a Deus pela vida, por mais esta conquista e permitir-me chegar a concluir o Mestrado em Matemática, toda honra e glória é para Deus.

Agradeço a minha família por acreditarem em mim, em especial aos meus pais Jaime Vargas e Martha Correa , aos meus irmãos e à minha namorada Dayana Viloria, dos quais recebo um imenso apoio e carinho apesar da distância.

Agradeço ao Professor Dr. Christian da Silva Rodrigues, pela orientação neste trabalho, pelo conhecimento compartilhado, pela paciência e pela compreensão.

Agradeço a todos os professores que tive na vida, em especial ao Professor Dr. Hugo Aduen por tudo o que me ensinou e pelo exemplo e inspiração que é para mim.// Agradeço a todos os meus colegas por viverem bons e maus momentos a meu lado.

Agradeço aos professores membros da Banca Examinadora Lino Anderson Da Silva Grama e Paulo Henrique Pereira Da Costa por terem aceitado o convite para avaliar este trabalho. Por fim, agradeço ao FAEPEX/FUNCAMP processo n 2018/18, pelo apoio financeiro que permitiu concluir esse trabalho, bem como o mestrado como um todo.

(7)

Resumo

O objetivo deste trabalho é estabelecer diversas propriedades geométricas sobre os espaços de medidas Borelianas de probabilidade munidos com a distância de Wasserstein. Para este fim, enfocaremos em investigar como se pode formalizarse uma geometria sobre esses espaços de probabilidade e que relação há entre as propriedades geométricas destes espaços de probabilidade e a dos espaços métricos onde estão definidos?

Com a ajuda das soluções dos problemas de Otimização de Transporte de Kantorovich e Otimização de Transporte de Monge, estudaremos as propriedades geométricas dos espaços de Wasserstein definidos no espaço métrico intrínseco, o qual permite abordar o estudo da relação entre algumas propriedades geométricas de um Variedade Riemanniana (caso particular do espaço métrico intrínseco) e seu correspondente espaço de probabilidade com a distância de Wasserstein.

Palavras-chave: Espaços de probabilidade, distância de Wasserstein, Problema de

(8)

Abstract

The goal of this work is to establish several geometric properties about the spaces of Borel probability measures equipped with the Wasserstein distance. For this purposes we focus on investigating how we can formalize a geometry about these probability space and what is the relationship between the geometric properties of these ones and of the metric spaces where they are defined.

Using the solutions of the Kantorovich Transport Optimization Problem and Monge Transport Optimization Problem, we study the geometric properties of the Wassserstein spaces defined in intrinsic metric space, which allows us to approach the study of relationship between some geometric properties of a Riemannian manifolds (particular case of space of intrinsic metrics) and its corresponding probability space with Wasserstein distance.

Keywords:Space probability, Wasserstein distance, Kantorovich Transport Optimization

(9)

Lista de símbolos

1A Função indicadora de A.

Rn Espaço n-dimensional real, R = R1. R+ Espaço dos números reais não-negativos.

d(x, A) Distância do ponto x ao conjunto A.

P(X) Medidas Borelianas de probabilidade sobre X.

Supp(µ) Suporte da medida µ.

µ ⊗ ν Medida produto de µ e ν.

ADM (µ, ν) Planos do transporte de µ a ν.

ADM (P, Q) Planos do transporte com marginais em P e Q.

µk * µ Convergência fraca das medidas de probabilidade. q.t.p A menos de um conjunto de medida nula.

dp Distância de Prokhorov.

Wp Distância de Wasserstein de ordem p.

∇f Gradiente da função f

supp f Suporte da função f

C(X) Funções contínuas em X

Cb(X) Funções reais contínuas e limitadas em X.

k · k∞ Norma em Cb(X)

Lp(µ) _{Funções f : X → R integráveis tais que}

Z

X

|f |pdµ < ∞ a ∧ b Mínimo dos números reais a e b.

(10)

Sumário

1 INTRODUÇÃO . . . 11

2 PRELIMINARES . . . 14

2.1 Espaço métrico intrínseco . . . 14

2.2 Espaços de Alexandrov e cone tangente . . . 16

3 TOPOLOGIA FRACA . . . 20

3.1 Propriedades da topologia fraca no espaço das medidas Borelianas de probabilidade . . . 20

3.2 Teorema de Prokhorov. . . 27

4 TRANSPORTE ÓTIMO . . . 33

4.1 Problema de Otimização de Transporte de Kantorovich . . . 33

4.2 Caracterização dos planos de transporte ótimo . . . 36

4.3 Problema de Otimização de Transporte de Monge em uma varie-dade Riemanniana . . . 43

5 ESPAÇOS DE WASSERSTEIN . . . 48

5.1 Metrização do espaços de probabilidade . . . 48

5.2 Geometria dos espaços de 2-Wasserstein . . . 56

6 GEOMETRIA DOS ESPAÇOS DE PROBABILIDADE DE UMA VA-RIEDADE RIEMANNIANA . . . 62

6.1 O espaço de Wasserstein como um espaço de Alexandrov . . . 62

(11)

11

1 Introdução

O início dos estudos em Teoria de Probabilidade remete ao século XVII, principalmente com as contribuições de Pierre de Fermat e Blaise Pascal, sendo estes inspirados pelos jogos de azar franceses. Em 1933, Andrey Nikolaevich Kolmogorov publicou o livro "Foundations

of the Theory of Probability", trazendo os axiomas que hoje são adotados em Teoria de

Probabilidade [7]. Nesta formulação moderna, dados um espaço X e uma σ-álgebra F em X, definimos PF(X), o espaço das medidas de probabilidade em X sobre F , como o conjunto das medidas µ em F que são não-negativas e tais que µ(X) = 1.

Neste trabalho, consideraremos B(X), a σ-álgebra de Borel em um espaço X, ou seja, a menor σ-álgebra que contém a topologia estabelecida em X e trabalharemos com P(X), o espaço das medidas borelianas de probabilidade em X, explorando algumas características relacionadas. Para isso, a Teoria de Transporte Ótimo será uma das ferramentas. O Problema de Transporte Ótimo aparece em diversas áreas tais como Geometria Diferencial, Análise Funcional, Física, Programação Linear e Teoria das Probabilidades. O problema foi proposto pelo matemático francês Gaspard Monge em 1781 e surgiu ao pensar como otimizar o custo de transportar um volume de terra de um ponto para outro, como ilustrado na Figura 1, tendo em conta que para cada unidade de terra a ser transportada existe uma posição final com determinado custo de transporte.

Figura 1 – Problema Do Transporte De Massa

A formulação em linguagem matemática do Problema do Transporte Ótimo de Monge consiste, em que dados X, Y espaços polonêses (espaços métricos, completos e separáveis), P(X) e P(Y ) os conjuntos das medidas Borelianas de probabilidade em X e Y , respecti-vamente, µ ∈ P(X) e ν ∈ P(Y ), e uma função Borel mensurável c : X × Y → R ∪ {+∞}

(12)

Capítulo 1. Introdução 12

(chamada função custo), minimizar a função

T −→

Z

X

c(x, T (x)) d µ(x)

sobre o conjunto de todas as funções de transporte T de µ a ν, ou seja, o conjunto das funções T : X −→ Y tais que T∗µ = ν, onde

T∗µ(E) = µ(T−1(E)) ∀E ∈ B(Y )

Uma das principais desvantagens deste problema é que, independentemente da escolha da função custo c, o problema pode se tornar insolúvel, já que não necessariamente admite a existência de T , por exemplo, se µ é delta de Dirac e ν não é.

Em no seculo XIX a Academia de Paris ofereceu um prêmio pela solução do problema de Monge. No ano 1887 o Matemático Paul Émile Appell recebeu tal prêmio, escrevendo um belo trabalho sobre o assunto [13]. Porém, apenas em 1979 foi estabelecido por Sudakov um resultado mais geral da existência da solução do Problema de Monge.

Em 1942 o economista, matemático e engenheiro soviético Leonid Vitálievich Kantorovich, ganhador de um Nobel por trabalhos relacionados à economia, escreveu um artigo no qual apresenta o Problema do Transporte Ótimo de uma forma nova, resumida e mais acessível. A formulação do Problema do Transporte ótimo do Kantorovich consiste em, dadas duas medidas de probabilidade µ e ν em X e Y , respectivamente, e uma função Borel mensurável

c : X × Y → R ∪ {+∞}, encontrar o mínimo da função

C : ADM (µ, ν) −→ R ∪ {+∞} (1.1)

π 7−→

Z

X×Y

c(x, y)d π,

onde ADM (µ, ν) é o conjunto de todos os planos de transporte π ∈ P(X × Y ) de µ e ν, i.e. o conjunto das medidas borelianas de probabilidade em X × Y tal que

π(A × Y ) = µ(A) ∀A ∈ B(X), π(X × B) = ν(B) ∀B ∈ B(Y ).

Kantorovich, que trabalhava para com o Governo da União Soviética durante a Segunda Guerra Mundial, escreveu em seu artigo o seguinte problema prático:

Problema Considerando uma rede ferroviária que conecta m locais de produção A1, . . . , Am

que produzem, respectivamente, a1, . . . , amcarregamentos de determinado bem de consumo

a n locais de consumo B1, . . . , Bn que possuem demanda de b1, . . . , bn carregamentos, com

a condição de que m X i=1 ai = n X k=1 bk.

Dado o custo ri,k para mover um carregamento de Ai para Bk, queremos encontrar um

(13)

Capítulo 1. Introdução 13

minimiza o custo total de transporte. Podemos notar que a condição é equivalente a atribuir distribuições de probabilidade para a produção e a demanda dos carregamentos. Considerando um espaço métrico (X, d), a distância de Wasserstein de ordem p, é dada por Wp(µ, ν) = inf π∈ADM (µ,ν) Z X×X d(x, y)pdπ(x, y) !1/p (1.2) induz a topologia fraca em P(X), e é um caso particular do problema do transporte Kantorovich com função custo c(x, y) = d(x, y)p. Nesta dissertação, estudaremos a estrutura geométrica de P(X) a partir de propriedades induzidas pela distância de Wasserstein. Para este estudo, iniciaremos o Capítulo 1 com alguns resultados geométricos essenciais e, em seguida, no Capítulo 2, demonstraremos que a topologia fraca é metrizável por meio da distancia de Prokhorov e através do Teorema de Prokhorov que estabelece uma caracterização dos subconjuntos compactos de P(X) na topologia fraca. Já no Capítulo 3, apresentaremos uma solução de Problema de Transporte Ótimo de Kantorovich e uma caracterização desta solução por meio do Teorema Fundamental de Transporte Ótimo, já com isto mostraremos que em uma variedade Riemanniana existe uma única solução do Problema de Kantorovich e que esta foi induzida por uma solução do Problema de Otimização de Transporte de Monge. O Capítulo 4 fazendo uso da solução dos problemas de Kantorovich e Monge estudaremos os resultados dos espaços de Wasserstein de ordem

p ≥ 1 e à metrização da convergência fraca em P(X) por meio da distância de Wasserstein

de ordem p, isto é, estabeleceremos que µk converge fracamente a µ se, e somente se, Wp(µk, µ) → 0, de modo que, através da metrização deste espaço por meio da distância

de Wasserstein de ordem 2, é possível estudar algumas das propriedades geométricas dos espaços de probabilidade. Por fim, no Capítulo 5, estudaremos os espaços das medidas Borelianas de Probabilidade sobre uma variedade Riemanniana com distância de Was-serstein de ordem dois como espaços de Alexandrov, com o fim de apresentar algumas propriedades geométricas são estabelecidas apenas em uma variedade Riemanniana M .

(14)

14

2 Preliminares

Neste capítulo, apresentaremos algumas propriedades das curvas nos espaços de métrica intrínseca, que serão utilizados com frequência, a fim de simplificar o processo de estudo e compreensão ao longo do trabalho. Depois abordaremos o conceitos dos espaços de Alexandrov e cone tangente, e sua relação no estudo das Variedades Riemannianas. Alguns resultados não serão demonstrados; neste casos, será indicada, ao longo do texto, a referência onde a demonstração pode ser encontrada.

2.1 Espaço métrico intrínseco

Nesta seção, apresentaremos os espaços métricos intrínsecos e alguns resultados destes no estudo da geometria das curvas.

Definição 2.1.1. Seja (X, d) um espaço métrico, I ⊂ R um intervalo não-vazio. Se

γ : I −→ X é uma curva (isto é uma função contínua), definimos o comprimento L(γ) ∈ [0, ∞] de γ por

L(γ) := sup J ∈N

X

d(γ(tj−1), γ(tj)),

onde o supremo é sobre toda partição do intervalo I. Dizemos que γ é retificável se

L(γ) < ∞. Para todo [a, b] ⊂ I, definiremos L(γ, a, b) := L(γ|[a,b]).

Definição 2.1.2 (distância intrínseca, espaço intrínseco). Seja (X, d) um espaço

métrico. A métrica intrínseca associada de d é a função dL: X × X → [0, ∞) definida por dL(x, y) := inf{L(γ) : γ : I → X retificável de x a y}.

(X, d) é chamado espaço métrico intrínseco (ou espaço intrínseco) se dL= d.

A métrica dL é finita se, e somente se, todo par de pontos em X pode ser unido por uma

curva retificável. Note que sempre dL≥ d e (dL)L= d.

Exemplo 2.1.3. Seja (M, g) uma variedade Riemanniana conexa com distância induzida

por g. Definida por

dM(x, y) := inf{L(γ) : γ : I → X uma curva classe C1 por partes de x a y}

Então (dM)L= dM, isto é (M, dM) é um espaço intrínseco.

Exemplo 2.1.4. Suponhamos que X = Rn, d(x, y) = |x − y| para x, y ∈ X, e X0 = {x ∈ X : d(x, y) = r} ⊂ X equipado com a métrica d0 induzida por d. Seja d0_L a métrica intrínseca associada a d0. Nós temos que d0 = |x − y| e d0_L = r cos−1(hx, yi/r2) > d0(x, y) para todo x, y ∈ X0,x 6= y.

(15)

Capítulo 2. Preliminares 15

Definição 2.1.5. Seja (X, d) um espaço métrico.Uma curva γ : I −→ X é dita uma curva

natural se L(γ, t, ˜t) = ˜t − t para todo t, ˜t ∈ I.

Teorema 2.1.6. Seja (X, d) um espaço métrico. Se γ : [a, b] −→ X for uma curva

retificável, então existe uma função contínua não-decrescente ϕ : [a, b] −→ [0, L(γ)] e uma curva natural ˜γ : [0, L(γ)] −→ X tal que γ = ˜γ ◦ ϕ.

Demonstração. Ver [3] Teorema 2.5.9.

Corolário 2.1.7. Seja (X, d) um espaço métrico, seja γ : [a, b] −→ X uma curva retificável

e c > 0. Então existe uma parametrização γ1 : [0, L(γ)/c] −→ [0, L(γ)] de γ tal que

L(γ1, t, t0) = c(t0− t) para t, t0 ∈ [0, L(γ)/c].

Demonstração. Seja φ : [0, L(γ)/c] −→ [0, L(γ)] dada por φ(t) = ct. Pelo Teorema 2.1.6

γ tem uma parametrização natural ˜γ : [0, L(γ)] −→ X. Consideremos a parametrização γ1 := ˜γ ◦ φ1 de γ. Então, L(γ1, t, t0) = L(˜γ, ct, ct0) = c(t0− t).

Definição 2.1.8. Uma curva γ : [a, b] −→ X é chamada caminho minimizante se L(γ) ≤

L(γ1) para toda curva γ1 que conecta γ(a) e γ(b).

Observação 2.1.9. Se (X, d) é um espaço intrínseco, então uma curva γ : [a, b] −→ X é

um caminho minimizante se, somente se, L(γ) = d(γ(a), γ(b)).

Note que em um espaço intrínseco (X, d), se γ : [a.b] → X é um caminho minimizante, então existe uma única reparametrização γ1 : [0, 1] → X de γ tal que

d(γ(s), γ(t)) = |s − t|d(γ(a), γ(b)) ∀t, s ∈ [0, 1].

Teorema 2.1.10. Seja (X, d) um espaço métrico compacto e sejam x, y ∈ X pontos que

podem ser conectados por alguma curva retificável. Então existe um caminho minimizante entre x e y.

Demonstração. Ver [3] Teorema 2.5.19.

Definição 2.1.11. Um espaço intrínseco (X, d) é chamado espaço estritamente intrínseco

se para todo x, y ∈ X tal que d(x, y) < ∞, existe um caminho minimizante γ que conecta

x e y. Em outras palavras, existe uma curva γ : [a, b] −→ X tal que γ(a) = x, γ(b) = y e L(γ) = d(x, y).

Teorema 2.1.12. Seja (X, d) um espaço intrínseco completo localmente compacto. Então

(X, d) é um espaço estritamente intrínseco.

(16)

Definição 2.1.13. Seja (X, d) um espaço métrico. Uma curva γ : I −→ X é chamada

geodésica se, para todo t ∈ I, existe um intervalo J ⊂ I que é uma vizinhança de t tal que

γ|J é um caminho minimizante.

Dizemos que uma curva γ : I −→ X é uma geodésica minimizante se sua restrição a qualquer intervalo [a, b] ⊂ I é um caminho minimizante.

2.2 Espaços de Alexandrov e cone tangente

Nesta seção, descreveremos os espaços de Alexandrov e cone tangente. Estas estruturas tem um papel importante devido sua interpretação geométrica de maneira mais geral de alguns conceitos de variedades Riemannianas.

Definição 2.2.1. Sejam x, y, z três pontos distintos de um espaço métrico (X, d). O

ângulo de comparação xyz, denotado por ˜_{]xyz ou ˜}_{](x, y, z), é definido por} ˜

]xyz := arccosd(x, y)

2_{+ d(y, z)}2_{− d(x, z)}2 2d(x, y)d(y, z) .

Figura 2 – Ângulo de comparação

Note que, a função angulo e comparação é continua pois a métrica d é uma função continua.

Definição 2.2.2. Seja (X, d) um espaço métrico. Sejam α : [0, ∞) −→ X e β : [0, ∞) −→

X dois caminhos em um espaço intrínseco X com ponto inicial p = α(0) = β(0). Definimos

o ângulo entre α e β, ](α, β), como

](α, β) := lim_s,t→0](α(s), p, β(t))˜ (2.1)

se o limite existe.

Definição 2.2.3. Um espaço métrico (X, d) é um espaço de curvatura não-negativa (resp.

não-positiva) se ele pode ser coberto por vizinhanças tais que, para qualquer par de caminhos minimizantes α e β (e partindo do mesmo ponto p ∈ X) contidos na mesma vizinhança, a correspondente função ângulo θ(x, y) := ˜_{]α(x)pβ(y) é não crescente (resp.} não-decrescente) em cada variável x e y (com o outro permanecendo fixo).

(17)

Figura 3 – Comparação de triângulos

Os espaços de Alexandrov com curvatura não-negativa (resp. não-positiva) são espaços intrínsecos localmente compactos com uma curvatura não-negativa (resp. não-positiva). Dado um espaço métrico (X, d). Para todo 4abc (triangulo de caminhos minimizantes) em X, podemos construir um triangulo 4abc no plano euclidiano tal que

|ab| = |ab|, |bc| = |bc|, |ac| = |ac| O triangulo 4abc é chamado triangulo de comparação para 4abc.

Teorema 2.2.4. Um espaço métrico (X, d) tem curvatura não-negativa (resp. não-positiva)

se, e somente se, se para todo ponto existe uma vizinhança tal que:

para todo triângulo 4abc contido nesta vizinhanças e todo d ∈ [ac], temos que |db| ≤ |db| (resp. |db| ≥ |db|), onde d é um ponto do caminho minimizante [ac] de um triângulo de comparação 4abc.

Demonstração. Ver [3] Teorema 4.3.5

Lema 2.2.5. Seja (X, d) um espaço métrico com curvatura não-negativa, então para cada

caminho minimizante, a soma de ângulos adjacentes é igual a π, isto é se q0 é um ponto

extremo dos caminhos minimizante [p0r0] e [q0s0], então ]poq0so+ ]s0q0s0 = π.

Demonstração. Ver [3] Lema 4.3.7

Um resultado importante que permite estudar por meio dos ângulos os espaços de Alexan-drov é o seguente:

Teorema 2.2.6. Um espaço intrínseco localmente compacto X é um espaço de curvatura

não-negativa se, e somente se, para cada ponto x ∈ X há uma vizinhança U tal que, para toda coleção de quatro pontos distintos a, b, c, d ∈ U , a seguinte condição é satisfeita:

˜

]bac + ˜]cad + ˜]dab ≤ 2π. (2.2)

(18)

Demonstração. Suponhamos que (2.2) é verdade. Sejam a, b, c ∈ X e 4abc um triangulo de comparação para 4abc.

Como ˜_{]adc = π, então pela quadruple condição para (d; abc), temos que ˜}_{]bdc + ˜}_{]bda ≤ π.} Logo. pelo Lema de Alexandrov [3, Lem. 4.3.3], segue que [db] ≥ [db]. Em consequência, pelo Teorema 2.2.4 X tem curvatura não-negativa

Reciprocamente, suponhamos que X tem curvatura não-negativa. Consideremos a qua-drupla (a; b, c, d) e um ponto (ak)k∈N uma sequência que converge a a contida no caminho

minimizante [a, b]. Então, pela Definição 2.2.3, a desigualdade triangular para ângulos e o

Lema 2.2.5, obtemos que

˜

]bakc + ˜]cakd + ˜]dakb ≤ ]bakc + ]cakd + ]dakb

≤ (]bakc + ]caka) + (]aakd + ]dakb) = 2π.

Assim, pela continuidade de ângulos de comparação, temos que ˜

]bac + ˜]cad + ˜]dab ≤ 2π.

As variedades Riemannianas que tem curvatura seccional não-negativa e curvatura seccional não-positiva desempenham um papel importante na geometria Riemanniana, e é uma das motivações principais para o estudo dos espaços de Alexandrov, devido à caracterização apresentada no seguinte teorema:

Teorema 2.2.7. Uma variedade Riemanniana tem curvatura de Alexandrov não-positiva

(resp. negativa) se, e somente, se sua curvatura seccional é nao-positiva (resp. não-negativa).

Demonstração. Ver [14] Teorema 1A.6

Definição 2.2.8. Dizemos que uma curva γ (com ponto inicial p) tem uma direção em p

se o ângulo ](γ, γ) existe. Duas curvas α, β possuem a mesma direção em p se o ângulo ](α, β) existe e é igual a 0.

Note que a propriedade descrita na Definição 2.2.8 é uma relação de equivalência e para cada curva geodésica α o ângulo ](α, α) existe e é igual a zero.

Definição 2.2.9. O cone Con(X) sobre um espaço topológico X é o quociente de =

X × [0, ∞) e X × {0}, isto é

Con(X) := X × [0, ∞)/X × {0}.

(19)

Definição 2.2.10. Seja (X, d) um espaço métrico completo localmente compacto, p ∈ X.

Condiremos o espaço Σ0_p(X) das classes de equivalência das geodésicas minimizantes que tem ponto inicial p, com relação de equivalência correspondente à Definição 2.2.8. A distância em Σ0_p(X) é o ângulo entre as geodésicas minimizantes correspondentes à classes de equivalência. No caso de um espaço de curvatura não-positiva ou não-negativa, os ângulos entre os caminhos geodésicos existem, de modo que o espaço de direções é bem definido em cada ponto. O espaço das direções em p denotado por Σp(X) é o completamento

do espaço Σ0_p(X).

O cone tangente em um ponto p denotado por Kp(X) é o cone sobre o espaço de direção

Σp(X). Para todo ω ∈ Σp(X) exceto sua origem 0 é representada por um par (ξ, r), onde ξ ∈ Σp(X) e r = |0ω|. O cone Kp(X) é chamado cono tangente em p.

Exemplo 2.2.11. Seja X = Rne p ∈ Rn fixo. Como toda geodésica em X é um segmento de reta, então duas curvas geodésicas minimizantes α e β possuem a mesma direção em p se, e somente, se existe λ ∈ R tal que α = λβ, logo Σ0p(X) = RP

n

e como RPn é completo, segue-se que Σp(X) = RPn. Assim

(20)

20

3 Topologia fraca

O presente capítulo baseia-se na definição da topologia fraca do conjunto de medidas Borelianas de probabilidade sobre um espaço metrizável. Primeiramente, estudaremos algumas propriedades de convergência nesta topologia, a fim de mostrar que a topologia fraca do conjunto de medidas Borelianas de probabilidade em um espaço métrico separável é metrizável. Em seguida, mostraremos o Teorema de Prokhorov, o qual nos permite estabelecer em que condições um conjunto é compacto na topologia fraca.

3.1 Propriedades da topologia fraca no espaço das medidas

Bore-lianas de probabilidade

Dado (X, d) um espaço métrico e P(X) o conjunto das medidas Borelianas de probabilidade em X, a topologia fraca em P(X) é a mais fraca das topologias em P(X) tal que para todo f ∈ Cb(X), a função Jf : P(X) −→ R (3.1) µ 7−→ Z X f dµ

é contínua. Dois importantes conceitos em topologia fraca são a convergência fraca e suporte de medida:

Definição 3.1.1. Dizemos que (µk)k∈N converge fracamente a µ (denotado por µk* µ)

se (µk)k∈N converge a µ na topologia fraca.

Para µ ∈ P(X), denotaremos o suporte de µ, que é o menor conjunto fechado onde µ está concentrada, por Supp(µ).

Outro conceito importante que será utilizado neste trabalho é push-forward de uma medida

µ por uma função boreliana mensurável, que definimos como a seguir.

Sejam X e Y dois espaços métricos e seja T : X → Y uma função Borel mensurável. Para cada medida Boreliana de probabilidade µ em X, denotaremos a push-forward de µ por T como a medida T∗µ ∈ P(Y ) dada por

T∗µ(E) = µ(T−1(E)) ∀E ∈ B(Y ). A push-forward é caracterizada pelo fato de que

Z Y f d T∗µ = Z X f ◦ T dµ

(21)

Capítulo 3. Topologia fraca 21

para toda função Borel mensurável f : Y → R ∪ {±∞}, onde a identidade acima deve ser entendida no sentido de que uma das integrais existe (possivelmente atingindo o valor ±∞) se, e só se, a outra existe e, neste caso, os valores são iguais.

Dadas duas medidas de probabilidade µ e ν em X e Y , respectivamente, dizemos que

T : X → Y (Borel mensurável) é uma função de transporte de µ a ν se ν = T∗µ.

Com essas definições, podemos descrever convergência fraca no sentido da Definição 3.1.1 sobre outras perspectivas (ver [15], [16]).

Teorema 3.1.2 (Pormanteau). Seja (X, d) um espaço métrico. Sejam (µk)k∈N ⊂ P(X) e µ ∈ P(X). Então as seguintes afirmações são equivalentes:

1) µk * µ. 2) Z X f dµk −→ Z X f dµ ∀f ∈ Cb(X) 3) lim sup k→∞

µk(C) ≤ µ(C) para todo C ⊂ X fechado . 4) lim inf

k→∞ µk(A) ≥ µ(A) para todo A ⊂ X aberto .

5) µk(B) → µ(B) para todo B ∈ B(X) tal que µ(∂B) = 0.

Demonstração. 1) ⇔ 2) definição.

2) ⇒ 3) Seja C 6= ∅ fechado. Para cada m ∈ N consideremos

Cm = {x : d(x, C) < 1/m} e fm(x) := d(x, Cc m) d(x, Cc m) + d(x, C) .

Então C_mc é fechado e fm ∈ Cb(X). Como 1C ≤ fm ≤1Cm obtemos que µk(C) = Z X1C dµk ≤ Z X fmdµk, Z X fmdµ ≤ Z X1Cm dµ = µ(Cm).

Logo pela convergência fraca de µk

lim sup k→∞ µk(C) ≤ lim sup k→∞ Z X fmdµk= Z X fmdµ ≤ µ(Cm).

Assim, dado que C1 ⊃ C2 ⊃ . . . e C = ∩∞m=1Cm, temos que

lim sup

k→∞

µk(C) ≤ lim_m→∞µ(Cm) = µ(C).

3) ⇒ 4) Seja A aberto, de modo que X \ A é fechado. Logo, por hipótese, lim inf

(22)

Capítulo 3. Topologia fraca 22 4) ⇒ 5) Seja B ∈ B(X), então lim sup k→∞ µk(B) ≤ lim sup k→∞ µk(B) = 1 − lim inf k→∞ µk(X \ B) ≤ 1 − µ(X \ B) = µ(B) = µ(B) + µ(∂B) = µ(B). lim inf →∞ µk(B) ≥ lim inf_k→∞ µk(B ◦ ) ≥ µ(B◦) = µ(B \ ∂B) = µ(B) − µ(∂B) = µ(B). Assim µk(B) −→ µ(B).

5) ⇒ 2) Seja f ∈ Cb(X), existem a, b ∈ R tais que f (X) ⊂ (a, b). Definamos ν := f∗µ ∈ P(R), então ν(R \ (a, b)) = 0. Como ν é finita, existe pelo menos uma coleção enumerável de α ∈ R tal que ν({α}) > 0. Daqui, para ε > 0 existem t0, . . . , tm ∈ R tal que

1. a = t0 < · · · < tm = b,

2. tj− tj−1 < ε para j = 0, . . . , m,

3. ν({tj}) = 0 para j = 0, . . . , m, isto é µ(f−1({tj})) para j = 0, . . . , m.

Agora para cada j = 0, . . . , m consideremos

Aj := f−1([tj−1, tj)).

Então Aj ∈ B(X) e X = m

[

j=1

Aj. Além disso pelo por la continuidade de f

Aj ⊂ f−1([tj−1, tj]) (como f−1([tj−1, tj]) é fechado que contem Aj) A◦_j ⊃ f−1((tj−1, tj)) (como (f−1((tj−1, tj])) é aberto contido em Aj).

Assim

µ(∂Aj) = µ(Aj\ A◦j) ≤ µ({x ∈ X : f (x) = tj−1 ou f (x) = tj})

(23)

Logo por hipótese µk(Aj) → µ(Aj) para j = 0, . . . , m. Seja g :=

m

X

j=1

tm_j−11Aj.

Então g(x) ≤ f (x) ≤ g(x) + ε para todo x ∈ X, em consequência

Z X f dµk− Z X f dµ = Z X (f − g)dµk+ Z X gdµk− Z X (f − g)dµ − Z X gdµ ≤ Z X (f − g)dµk + Z X gdµk− Z x gdµ + Z x (f − g)dµ ≤ εµk(X) + m X j=1 tm_j−1(µk(Aj) − µ(Aj)) + εµ(X) = 2ε + m X j=1 tm_j−1(µk(Aj) − µ(Aj))

Daqui, lim sup

k→∞ Z X f dµk− Z x f dµ ≤ 2ε. Segue que Z X f dµk→ Z X f dµ.

Exemplo 3.1.3. Sejam x ∈ X e (xk)k∈N uma sequência em X, tais que xk→ x. Como

Z X f dδxk = f (xk) −→ f (x) = Z X f dδx

para todo f ∈ Cb(X), então δxk * δx.

Podemos estabelecer uma métrica no espaço das medidas Borelianas de probabilidade, chamada distância de Prokhorov, que permite uma caracterização diferenciada da compa-cidade com respeito a topologia fraca, dada no Teorema de Prokhorov, que será abordado na próxima seção. A métrica de Prokhorov pode ser definida da seguinte forma:

Definição 3.1.4 (Métrica de Prokhorov). Dados µ, ν ∈ P(X), definimos

dP(µ, ν) := inf{α > 0 : µ(A) ≤ ν(Aα) + α e ν(A) ≤ µ(Aα) + α∀A ∈ B(X)} (3.2)

onde

Aα := {x : d(x, A) < α} se A 6= ∅, ∅α := ∅ ∀α > 0.

A função dP é chamada distância de Prokhorov induzida por d.

Ainda, podemos estabelecer uma equivalência entre convergência fraca e convergência com respeito a métrica de Prokhorov [15].

Teorema 3.1.5. Seja (X, d) um espaço métrico.

a) dP é uma métrica em P(X).

(24)

Demonstração. a)Como

{α > 0 : µ(A) ≤ ν(Aα) + α e ν(A) ≤ µ(Aα) + α ∀A ∈ B(X)} 6= ∅

para cada µ, ν ∈ P(X) temos que dP está bem definida.

i) Claramente dP(µ, ν) ≥ 0 e dP(µ, ν) = dP(ν, µ) para todo µ, ν ∈ P(X).

ii) dP(µ, ν) = 0 ⇔ ν = µ. Como para cada α > 0 e todo B ∈ B(X) temos que B ⊂ Bα,

então µ(B) ≤ µ(Aα) + α, assim dP(µ, µ) ≤ α para todo α > 0, logo dP(µ, µ) = 0.

Consequentemente, se dP(µ, ν) = 0 existe uma sequência α não-crescente que

con-verge a zero tal que para cada B ∈ B(X) temos

µ(B) ≤ ν(Bαk) + αk, ν(B) ≤ µ(Bαk) + αk.

Em consequência, para todo C ⊂ X fechado

µ(C) ≤ lim sup k→∞ (ν(Cαk) + αk) = ν(C), e ν(C) ≤ lim sup k→∞ (µ(Cαk) + αk) = µ(C).

Logo µ(C) = ν(C) para todo fechado C. Assim µ = ν (interior regular).

iii) Desigualdade Triangular. Sejam µ, ν, η ∈ P(X). Seja ε > 0, pela aproximação ao ínfimo existe α > 0 tal que

1) α − ε/2 < dP(µ, η).

2) µ(A) ≤ η(Aα) + α e η(A) ≤ µ(Aα) + α para todo A ∈ B(X).

e β > 0 tal que

1) β − ε/2 < dP(η, ν).

2) η(A) ≤ ν(Aβ) + β e ν(A) ≤ η(Aβ) + β para todo A ∈ B(X).

Então para todo A ∈ B(X)

µ(A) ≤ η(Aα) + α ≤ ν((Aα)β) + α + β η(A) ≤ ν(Aβ) + β ≤ η((Aβ)α) + α + β.

Vejamos que (Aα)β ⊂ Aα+β para cada A ∈ B(X). Com efeito,

(25)

Assim d(x, a) ≤ d(x, y) + d(y, a) < α + β, i.e. x ∈ Aα+β.

Desta forma (Aα)β ⊂ Aα+β e, do mesmo modo, temos que (Aβ)α ⊂ Aα+β. Em

consequência, segue que para cada A ∈ B(X)

µ(A) ≤ ν(Aα+β) + α + β

η(A) ≤ η(Aα+β) + α + β.

Logo,

dP(µ, ν) − ε ≤ α + β − ε < dP(µ, η) + dP(η, ν)

A partir do acima, concluímos que dP(µ, ν) ≤ dP(µ, η) + dP(η, ν).

b) Suponha que dP(µk, µ) → 0 quando k → ∞. Então existe uma sequência não-crescente

(αk)k∈N que converge a zero tal que para cada k ∈ N e todo B ∈ B(X) temos µk(B) ≤ µ(Bαk) + αk, µ(B) ≤ µk(Bαk) + αk

Assim para cada C ⊂ X fechado lim sup k→∞ µk(C) ≤ lim sup k→∞ (µ(Cαk) + αk) = lim sup k→∞ µ(Cαk) = µ(C). Portanto µk * µ.

Note que, com o Teorema 3.1.5, provamos apenas que a convergência com respeito a métrica de Prokhorov implica convergência fraca. Agora, queremos provar que a recíproca é verdadeira quando (X, d) é separável. Para isso, precisamos do seguinte lema:

Lema 3.1.6. Seja (X, d) um espaço métrico separável e µ uma medida Boreliana finita

em X. Então para todo δ > 0 existe uma coleção enumerável de bolas abertas (ou fechadas) B1, B2, . . . tal que 1. X = ∞ [ i=1 Bi.

2. O raio de Bi é menor que δ para todo i. 3. µ(∂Bi) = 0 para todo i.

Demostração. Seja D um conjunto enumerável denso em X e x ∈ D. Consideremos

S(x, r) := {y ∈ X : d(x, y) = r}, então a fronteira da bola aberta (ou fechada) de raio r

(26)

é uma coleção de conjuntos disjuntos e, portanto, tem no máximo uma quantidade enumerável de conjuntos de medida positiva com respeito a µ. Como S é não enumerável, existe r ∈ (0, δ) tal que µ(S(x, r)) = 0.

Assim, para todo x ∈ D, existe r ∈ (0, δ) tal que µ(∂B(x, r)) = 0. Como D é denso em X, estas bolas cobrem X, e como D é enumerável, temos uma coleção enumerável de bolas abertas (ou fechadas) B1, B2, . . . que satisfaz 1), 2) e 3).

Teorema 3.1.7. Seja (X, d) um espaço métrico separável. Para (µk)k∈N ⊂ P(X) e µ ∈

P(X) temos que, se µk * µ, então dP(µk, µ) → 0.

Demostração. Seja ε > 0. Pelo Lema 3.1.6 existe uma coleção enumerável de bolas abertas B1, B2, . . . de raio menor a ε/8 tais que X =

∞ [ j=1 Bj e µ(∂Bj) = 0 para todo j. Como µ( k [ j=1

Bj) → µ(X) quando k → ∞, existe n0 tal que

µ( n0 [ j=1 Bj) − µ(X) ≤ ε/4. Logo, dado que µ(X) = 1, temos que

µ( n0 [ j=1 Bj) > 1 − ε/4. Definamos A :=    [ j∈J Bj : J ⊂ {1, . . . n0}    ,

para todo A ∈ A, ∂A ⊂ ∂B1∪ · · · ∪ ∂Bn0 , assim

µ(A) ≤ µ(B1) + · · · + µ(Bn0) = 0.

Como µk * µ, temos pelo Teorema 3.1.2 que µk(A) → µ(A) para todo A ∈ A. Em

consequência, existe N ∈ N tal que

|µk(A) − µ(A)| < ε/4 para todo k ≥ N e todo A ∈ A

em particular, para n [ j=1J Bj ∈ A, obtemos µk( n0 [ j=1 Bj) ≥ µ( n0 [ j=1 Bj) − ε/4 ≥ 1 − ε/2 para todo k ≥ N.

Seja B ∈ B dado. Consideremos o conjunto

D :=[{Bj : j ∈ {1, . . . n0} tales que Bj ∩ B 6= ∅} ∈ A.

(27)

i. D ⊂ Bε/4, porque o raio de cada Bj é menor que ε/4.

ii. B =   n0 [ j=1 (B ∩ Bj)  ∪  B ∩ (X \ n0 [ j=1 Bj)  ⊂ D ∪ (X \ n0 [ j=1 Bj).

iii. |µk(D) − µ(D)| < ε/4 para todo k ≥ N .

Consequentemente, para todo B ∈ B e cada k ≥ N

µ(B) ≤ µ(D) + µ  X \ n0 [ j=1 Bj   = µ(D) + 1 − µ   n0 [ j=1 Bj   ≤ µ(D) + ε/4 ≤ µk(D) + ε/2 ≤ µk(Bε/4) + ε/2 ≤ µk(Bε) + ε. µk(B) ≤ µk(D) + µk  X \ n0 [ j=1 Bj   = µk(D) + 1 − µk   n0 [ j=1 Bj   ≤ µk(D) + ε/2 ≤ µ(D) + 3ε/4 ≤ µ(Bε/4) + 3ε/4 ≤ µ(Bε) + ε.

Assim, dP(µk, µ) ≤ ε para todo k ≥ N , isto é, dP(µk, µ) → 0 quando k → ∞.

Corolário 3.1.8. Seja (X, d) um espaço métrico separável. Então a distância de Prokhorov

induz a topologia fraca sobre P(X).

Demonstração. Consequência imediata dos teoremas 3.1.5 e 3.1.7.

3.2 Teorema de Prokhorov

Nesta seção, estudaremos uma relação entre convergência de medidas Borelianas na topologia fraca e a compacidade relativa de P(X). O Teorema de Prokhorov relaciona os conjuntos de certas medidas, denominadas tight, à compacidade relativa (e assim à convergência fraca) no espaço das medidas Borelianas de probabilidade. Recebe este

(28)

nome em homenagem ao matemático russo Yuri Prokhorov, que considerava medidas de probabilidade em espaços métricos separáveis completos.

Antes de chegar ao Teorema de Prokhorov, são necessários alguns resultados e definições.

Definição 3.2.1. Um conjunto Kε ⊂ P(X) é chamado tight se para cada ε > 0 existe um

conjunto compacto Kε ⊂ X tal que

µ(X \ Kε) ≤ ε ∀µ ∈ Kε. (3.3)

Teorema 3.2.2. Se (X, d) é um espaço métrico compacto, então P(X) é um espaço

métrico compacto.

Demonstração. Como X é compacto, então C(X) = Cb(X) é Banach com a norma

k f k∞:= sup

x∈X

|f (x)|. Logo, pelo Teorema de Banach-Alaoglu

B0 = {g ∈ C(X)0 :k g kC(X)0≤ 1}

é compacto na topologia fraca∗ de C(X). Consideremos

Φ := {ϕ ∈ C(X)0 :k ϕ k≤ 1, ϕ(1) = 1, ϕ(f ) ≥ 0 ∀f ∈ C(X)} ⊂ B. Para µ ∈ P(X) definamos ϕµ(f ) := Z X f d µ, f ∈ C(X). Seja T : P(X) −→ Φ µ 7−→ ϕµ.

Pelo Teorema de Representação de Riesz, temos que T é uma função contínua e bijetora. Agora, dado que

Φ = {ϕ ∈ B0 : ϕ(1X) = 1} ∩

\

f ∈Cb(X),f ≥0

{ϕ ∈ B0 : ϕ(f ) ≥ 0}

e a função ϕ → ϕ(f ) é contínua na topologia fraca-∗ para todo f ∈ C(X), então Φ é um subconjunto fechado de B0. Assim, Φ é compacto.

Como P(X) e Φ são homeomorfos, concluímos que P(X) é compacto.

Uma consequência imediata do Teorema 3.2.2 é que todo subconjunto de P(X) é relativa-mente compacto.

A fim de estudar a compacidade relativa de subconjunto de P(X) quando X não é compacto, nós fazemos uso do Teorema 3.2.2, considerando uma compactação de X. Para isso consideramos o seguinte lema:

(29)

Lema 3.2.3. Se (X, d) um espaço métrico separável, então existe um espaço métrico

compacto (Y, δ) e uma função T : X → Y tal que T é um homeomorfismo de X em T (X).

Demostração. Seja Y = {(ξk)k∈N : ξk∈ [0, 1] para todo n ∈ N} e

δ(ξ, ω) =

∞

X

k=1

2−k|ξk− ωk|, ∀ξ, ω ∈ Y,

então (Y, δ) é um espaço métrico compacto.

Seja D = {a1, a2, . . . } denso em X e consideremos αk(x) = min{d(x, ak), 1} com n ∈ N.

Então a função

T : X −→ Y x 7−→ (αk)n∈N

é contínua. Agora vamos mostrar que T é injetora. Para isso, provaremos primeiro que para todo C ⊂ X fechado e x /_{∈ C, existe ε > 0 e n ∈ N tal que}

αk(x) ≤ ε

3, αk(y) ≥ 2ε

3 ∀y ∈ C. (3.4)

Tomemos ε :=min{d(x, C), 1} ∈ (0, 1]. Pela densidade de D em X, existe k ∈ N tal que

d(ak, x) < ε/3. Logo, αk(x) ≤ ε/3 e, para y ∈ C,

αk(y) = min{d(y, ak), 1}

≥ min{(d(y, x) − d(x, ak)), 1}

≥ min{(d(x, C) − ε/3), 1} ≥ min{2ε/3, 1} = 2ε/3.

Logo, se x 6= y, existe n ∈ N tal que αk(x) 6= αk(y). Assim, T é injetivo.

Como T : X → T (X) é uma função contínua bijetora, para concluir a demostração do lema só resta mostrar que se (xn)n∈N é uma sequência em X e x ∈ X, então

T (xn) → T (x) =⇒ xn → x.

Suponha xn9 x, de modo que exista uma subsequência tal que x /∈ {xn1, xn2, . . .}. Logo

por (3.4) existe k tal que

αk(x) ≤ ε

3, αk(xnl) ≥

2ε

3 ∀l ∈ N.

Assim, αk0(xnl) 9 αk0(x), e então T (xnl) 9 T (x) l → ∞, o qual é um absurdo.

Teorema 3.2.4 (Teorema de Prokhorov). Seja (X, d) um espaço polonês (isto, é um

espaço métrico completo e separável). Um conjunto K ⊂ P(X) é relativamente compacto se, e somente se, K é tight.

(30)

Demonstração. Suponhamos que K ⊂ P(X) seja relativamente compacto. Seja (Ui)i∈N

uma sequência de abertos em X que cobrem X. Afirmamos que para todo ε > 0 existe k ≥ 1 tal que

µ k [ i=1 Ui ! > 1 − ε ∀µ ∈ K.

Vamos provar essa afirmação por contradição. Suponha que para todo k ≥ 1 existe µk ∈ K

tal que µk k [ i=1 Ui ! ≤ 1 − ε.

Como K é compacto, existe µ ∈ K e uma subsequência (µkl)l∈N de (µk)k∈N que converge

fracamente a µ em P(X). Dado que

n

[

1=1

Ui é aberto para todo n ≥ 1, pelo Teorema 3.1.2

obtemos que µ n [ 1=1 Ui ! ≤ lim inf l→∞ µkl n [ 1=1 Ui ! ≤ lim inf l→∞ µkl n [ 1=1 Uk ! ≤ 1 − ε. Como ∞ [ i=1 Ui = X, temos que µ n [ i=1 Ui !

→ µ(X) = 1. Logo 1 − ε ≥ 1, o que é uma contradição.

Agora, continuando a prova, seja ε > 0 e tome D = {a1, a2, . . .} denso em X. Para m ≥ 1, as bolas abertas B(ai, 1/m) com i = 1, 2, . . . cobrem X. Assim, pela afirmação, existe k(m) tal que µ   k(m) [ i=1 Ui  > 1 − 2 −m ε ∀µ ∈ K. Definamos A := ∞ \ m=1 k(m) [ i=1 B(ai, 1/m).

Então, A é fechado e para cada δ > 0. Escolhemos m > 1/δ tal que B ⊂

m

[

i=1

B(ai, δ). Logo,

(31)

Além disso para todo µ ∈ K

µ (X \ A) = µ   ∞ [ m=1  X \ k(m) \ i=1 B(ai, 2−mε)     ≤ ∞ X m=1 µ  X \ k(m) \ i=1 B(ai, 2−mε)   = ∞ X m=1  1 − µ   k(m) \ i=1 B(ai, 2−mε)     ≤ ∞ X m=1 2−mε = ε. Por conseguinte, K é tight.

Reciprocamente, suponhamos que K é tight. Primeiro, mostremos que K é tight. Para

ε > 0 dado, por hipótese, existe A ⊂ X compacto tal que λ (X \ A) ≤ ε para todo λ ∈ K.

Dado que para cada µ ∈ K existe uma sequência (µk)k∈N em K que converge fracamente a µ, então

µ(X \ A) = lim sup n→∞

µn(X \ A) ≤ ε.

Seja (µk)k∈Numa sequência em K, vamos a provar que existe uma subsequência convergente.

Pelo Lema 3.2.3 existe um espaço métrico (Y, δ) compacto e uma função T : X → Y tal que T é um homeomorfismo de X em T (X); para k ∈ N definamos νk := T∗µk.

Como νk ∈ P(Y ) e P(Y ) é compacto, existe ν ∈ P(Y ) e uma subsequência (νnk)k∈N tal

que νnk converge fracamente em P(Y ) a ν.

Queremos converter ν de volta a uma medida de probabilidade em X. Seja Y0 = T (X); já que K é tight, para cada m ∈ N existe Am ⊂ X compacto tal que µ(X \ Am) ≤ 1/m para

todo µ ∈ K. Então, T (Am) é compacto em Y e, por conseguinte, fechado em Y , assim ν(Y \ T (Am)) ≤ lim inf

l→∞ νkl(Y \ T (Am)) = lim inf l→∞ µkl(X \ T −1 (T (Am))) ≤ lim inf l→∞ µkl(X \ Am) ≤ 1/m. Consideremos E := ∞ [ m=1

T (Am), então E ∈ B(Y ) e ν(Y \ E) ≤ ν(Y \ T (Am)) para todo m ∈ N. Logo ν(E) = 1 (já que ν(Y \ E) = 0).

Definamos

(32)

então µ ∈ P(X). Mostremos que µkl converge fracamente em P(X) a µ. Como para cada F ⊂ X fechado T (F ) é fechado em Y0, existe BF ⊂ Y fechado tal que BF ∩ Y0 = T (F ), logo C = T−1(BF). Assim obtemos

lim l→∞µkl(F ) = liml→∞νkl(BF) = ν(BF) = ν(BF ∩ E) + ν(BF ∩ Ec) = ν(BF ∩ E) = ν(T (F ) ∩ E) = µ(F )

e, em consequência, µkl converge fracamente em P(X) a µ. Portanto K é relativamente

(33)

33

4 Transporte Ótimo

Neste capítulo, apresentaremos uma definição formal do problema de Transporte Ótimo de Kantorovich e, utilizando as propriedades da convergência fraca das medidas Borelianas de probabilidade apresentadas no capítulo anterior, mostraremos uma solução deste problema. Além disso, exibiremos o Teorema Fundamental de Transporte Ótimo, o qual estabelece as condição necessárias para que um plano do transporte π seja solução do problema de Kantorovich.

4.1 Problema de Otimização de Transporte de Kantorovich

Consideremos X, Y espaços polonêses, P(X) e P(Y ) os conjuntos das medidas Borelianas de probabilidade em X e Y , respectivamente, e µ ∈ P(X) e ν ∈ P(Y ). Um plano de transporte de µ a ν é a medida boreliana de probabilidade sobre X × Y , π ∈ P(X × Y ), tal que

π(A × Y ) = µ(A) ∀A ∈ B(X), π(X × B) = ν(B) ∀B ∈ B(Y ).

Equivalentemente, π ∈ P(X × Y ) é um plano de transporte se, e somente se, P_∗Xπ = µ, P_∗Yπ = ν, sendo PX, PY as projeções canônicas de X × Y sobre X e Y respectivamente. Denominamos o conjunto de todos os planos de transporte de µ a ν por ADM (µ, ν). O problema de otimização de transporte de Kantorovich consiste em, dadas µ ∈ P(X) e ν ∈ P(Y ) e uma função Borel mensurável c : X × Y → R ∪ {+∞} (chamada função custo), minimizar inf π∈ADM (µ,ν) Z X×Y c(x, y)d π. (4.1)

Uma medida π ∈ ADM (µ, ν) é chamado plano de transporte ótimo se é um mínimo de (4.1).

Algumas das principais vantagens no estudo do problema de transporte de Kantorovich são:

1. ADM (µ, ν) 6= ∅ (contém µ ⊗ ν).

2. O conjunto ADM (µ, ν) é compacto com respeito à topologia fraca em P(X × Y ), e

π −→

Z

c d π é linear.

3. Os planos de transporte incluem funções de transporte, já que se T∗µ = ν, então

(34)

Capítulo 4. Transporte Ótimo 34

A prova das propriedades 1 e 2 é imediata. Mostraremos 3. Seja T uma função de transporte de µ para ν, então, para cada A ∈ B(X) e B ∈ B(Y ) temos

(Id, T )∗µ(A × Y ) = µ((Id, T )−1(A × X)) = µ(A),

(Id, T )∗µ(X × B) = µ((Id, T )−1(X × B)) = µ(T−1(B)) = T∗µ(B) = ν(B).

Assim, (Id, T )∗ ∈ ADM (µ, ν). Da prova também podemos concluir que, se (Id, T )∗ ∈

ADM (µ, ν), então Tµ= ν.

Agora, queremos mostrar que existe um plano de transporte π de µ a ν que minimiza o problema de Transporte de Kantorovich. Para isso, são necessários alguns resultados auxiliares:

Lema 4.1.1. Sejam X e Y espaços polonêses. Seja P ⊂ P(X) e Q ⊂ P(Y ) subconjuntos

tight de P(X) e P(Y ), respetivamente. Então o conjunto ADM (P, Q) de todos os planos de transporte cujas marginais estão em P e Q respectivamente, é tight em P(X × Y ).

Demonstração. Seja ε > 0. Por hipótese, existem Kε ⊂ X e Lε ⊂ Y tal que

µ(X \ Kε) ≤ ε

2 ∀µ ∈ P e ν(Y \ Lε) ≤

ε

2 ∀ν ∈ Q. (4.2)

Para cada π0 ∈ ADM (P, Q), por definição, existem µ0 ∈ P(X) e ν0 ∈ P(Y ) tal que

π0 ∈ ADM (µ0, ν0). Logo, por (4.2), para cada π0 ∈ ADM (P, Q)

π0(X × Y \ Kε× Lε) = π0((X \ Kε) × Y ∪ X × (Y \ Lε))

= π0((X \ Kε) × Y ) + π0(X × (Y \ Lε))

= µ0((X \ Kε) + ν0(Y \ Lε) ≤ ε.

Desta forma, dado que Kε× Lε é compacto em X × Y , temos que ADM (P, Q) é tight.

Lema 4.1.2. Sejam X, Y espaços polonêses e c : X × Y → R ∪ {+∞} uma função

semicontínua inferiormente. Seja h : X × Y → R ∪ {−∞} semicontínua superior tal que c ≥ h. Seja (πk)n∈Numa sequência em P(X ×Y ), que converge fracamente a π ∈ P(X ×Y ), de modo que h ∈ L1(πk) ∩ L1(π), e Z X×Y h d πk → Z X×Y h d π Então Z X×Y c d π ≤ lim inf k→∞ Z X×Y c d πk Em particular, se c é não-negativa, então F : π →

Z

c d π é semicontínua inferior em

(35)

Demonstração. Como c − h ≥ 0, substituindo c − h por c, podemos assumir que c é

uma função não-negativa semicontínua inferiormente. Como {c > t} := c−1((t, +∞)) são abertos para todo t ∈ [0, ∞], então pelo Teorema 3.1.2,

π({c > t}) ≤ lim inf

k→∞ πk({c > t}) ∀t ∈ [0, ∞]. (4.3)

Agora, dado que

Z X×Y c(x, y)dπ = Z ∞ 0 π({c > t})dt, Z X×Y c(x, y)dπk = Z ∞ 0 πk({c > t})dt.

Pelo Lema de Fatou e (4.3) temos que

Z X×Y c(x, y)dπ = Z ∞ 0 π({c > t})dt ≤ Z ∞ 0 lim inf k→∞ πk({c > t})dt ≤ lim inf k→∞ Z ∞ 0 πk({c > t})dt = lim inf k→∞ Z X×Y c(x, y)dπk.

Teorema 4.1.3. Sejam (X, µ) e (Y, ν) dois espaços de probabilidade polonêses; sejam

a : X → R ∪ {−∞} e b : Y → R ∪ {−∞} duas funções semicontínuas superiormente tais que a ∈ L1(µ), b ∈ L1_{(ν). Seja c : X × Y → R ∪ {∞} uma função custo semicontínua}

inferiormente tal que c(x, y) ≥ a(x) + b(y) para cada x, y. Então, existe um plano de transporte π de µ a ν que minimiza o problema do transporte de Kantorovich.

Demonstração. Como {µ} e {ν} são compactos, então pelo Teorema de Prokhorov {µ}

e {ν} são tight em P(X) e P(Y ) respectivamente. Logo, pelo Lema 4.1.1 ADM (µ, ν)

é tight em P(X × Y ). Assim, pelo Teorema de Prokhorov, o conjunto ADM (µ, ν) é relativamente compacto, mas como ele é fechado, temos que ADM (µ, ν) é compacto (já que por o Corolário 3.1.8 a topologia fraca em P(X × Y ) é metrizável).

Seja (πk)n∈Numa sequência de medidas de probabilidade em ADM (µ, ν), tal que

Z

X×Y c d πk

converge a (4.1) no conjunto ADM (µ, ν). Logo, pela compacidade de ADM (µ, ν), existe uma subsequência (πkl)l∈N que converge a π ∈ ADM (µ, ν).

Definamos

h : X × Y −→ R ∪ {∞}

(x, y) 7−→ a(x) + b(y). Então, dado que

Z X×Y h(x, y) d πkl(x, y) = Z X×Y a(x) dπkl(x, y) + Z X×Y b(y) dπkl(x, y) = Z X a(x) dµ(x) + Z Y b(y) dν(y)

(36)

Capítulo 4. Transporte Ótimo 36 e Z X×Y h(x, y) d π(x, y) = Z X×Y a(x) dπ(x, y) + Z X×Y b(y) dπ(x, y) = Z X a(x) dµ(x) + Z Y b(y) dν(y) temos que c ≥ h, h ∈ L1(πkl) ∩ L 1_{(π) e} Z X×Y h(x, y) d πkl(x, y) = Z X×Y h(x, y) d π(x, y).

Logo, pelo Lema 4.1.2

Z X×Y c(x, y) dπ(x, y) ≤ lim inf l→∞ Z X×Y c(x, y) dπkl(x, y).

Assim, π é um mínimo da função4.1 no conjunto ADM (µ, ν).

4.2 Caracterização dos planos de transporte ótimo

Nesta seção, estudaremos as condições para que um plano de transporte seja um plano de transporte ótimo baseados no artigo [6]. A ideia geral é encontrar conceitos que cumpram papeis de derivadas quando lidamos com funções que a principio não sabemos se são diferenciáveis.

Para isso primeiramente consideremos o seguinte exemplo:

Exemplo 4.2.1. Considere X um consórcio de padarias e Y uma franquia de Cafeterias,

com filiais X = {x1, · · · , xn} e Y = {y1, · · · , ym}. Deve-se transportar determinada

quantidade de pães das padarias em X, cuja proporção fabricada de pães por cada filial é associada a uma medida de probabilidade, para Y , cuja demanda de pães por cafeteria também está associada a uma medida de probabilidade. Cada filial xi produz

uma determinada quantidade de refrigerantes e cada filial yj precisa de uma determinada

quantidade do produto de X.

Considere uma função custo c : X × Y −→ R, onde c(xi, yj) significa o custo de transporte por unidade de xi para yj. O objetivo é minimizar o custo de transportar os pães de X às

cafeterias Y . Escolha um plano de transporte π, sendo π(xi, yj) a quantidade de pães que

devemos levar da padaria xi para a cafeteria yj.

Como existem reclamações de que o custo do transporte inicial é muito alto, então a tentativa é escolher outro plano com o intuito de reduzir o custo. Para tal propósito escolha uma empresa x1 e envie a unidade da produção que era destinada a y1 para y2, assim a ganancia é de c(x1, y1) − c(x1, y2). A quantidade excessiva de pães de y2 é enviado para y3 e a quantidade excessiva de pães pães de y3 é enviado para y4 e assim sucessivamente.

(37)

Figura 4 – Transporte de pães

Com esta alteração da ruta de envio temos um novo plano de transporte, que é melhor que o antigo se, e somente se,

n X i=1 c(xi, yi+1) ≤ n X i=1 c(xi, yi)

onde yn+1 = y1, se m = n. Então se encontrarmos ciclos (xi, yi) em seu plano de transporte que cumpre a desigualdade estrita acima, certamente este plano não é ótimo. Reciproca-mente, se não encontrar um outro plano que cumpre a desigualdade estrita acima então seu plano não pode ser melhorado, em outras palavras, o plano inicial se torna ótimo. Esse fato motiva a seguinte definição.

Definição 4.2.2 (Monotonicidade cíclica). Sejam X e Y dois conjuntos arbitrários,

c : X ×Y → (−∞, +∞] uma função custo. Um conjunto Λ ⊂ X ×Y é dito monotonamente

c-cíclico se, para todo N ∈ N e qualquer família (x1, y1), . . . , (xN, yN) de pontos em Λ,

temos N X i=1 c(xi, yi) ≤ N X i=1 c(xi, yσ(i)) ∀σ ∈ SN (4.4)

onde SN é o conjunto das permutações sobre {1, . . . , N }.

Definição 4.2.3 (c-concavidade). Sejam X e Y dois conjuntos arbitrários, c : X × Y →

(−∞, +∞] uma função custo. Uma função ϕ : Y → R ∪ {+∞} é dita c-côncava se não é identicamente +∞ e se existe φ : Y → R ∪ {±∞} tal que

ϕ(x) := inf

y∈Y(c(x, y) − φ(y)) ∀x ∈ X. (4.5)

A c+-transformada de ϕ é uma função ϕc: Y → R ∪ {−∞} dada por

ϕc+(y) := inf

(38)

Exemplo 4.2.4. Seja (X, d) um espaço métrico e considere c(x, y) = d(x, y) Então uma

função ϕ é c-convexa se, e somente se, ϕé uma função Lipschitziana com a constante igual a 1. De fato, suponha que ϕ seja uma função c-concava, então existe uma função φ que cumpre a condição 4.5, assim usando a desigualdade triangular, obtemos para quaisquer

x, z ∈ X

ϕ(x) := inf

y∈Y(d(x, y) − φ(y)) ≤ d(x, z) + infy∈Y(d(z, y) − φ(y)) = d(x, z) + ϕ(z)

Logo ϕ(x) − ϕ(z) ≤ d(x, y), e portanto ϕ é Lipschitziana. Reciprocamente, suponhamos que ϕ é Lipschitziana, então ϕ(x) ≤ ϕ(y) + d(x, y) para todo x, y ∈ X, logo fixando x obtemos que ϕ(x) ≤ d(x, y) + ϕ(y) para todo y ∈ X. Assim

ϕ(x) ≤ inf

y∈X(d(x, y) + ϕ(y))

e como ϕ(x) = d(x, y) + ϕ(y) se x = y, então

ϕ(x) = inf

y∈X(d(x, y) − φ(y))

onde φ = −ϕ. Portanto ϕ é c-concava.

Definição 4.2.5 (c-superdiferencial). Seja ϕ : X → R ∪ {−∞} uma função c−côncava.

O c-superdiferencial de ϕ é o conjunto monotonamente c-cíclico definido por

∂c+ϕ := {(x, y) ∈ X × Y : ϕ(x) + ϕc+(y) = c(x, y)}. (4.7) O c-superdiferencial de ϕ em x, ∂c+ϕ(x), é o conjunto dos y ∈ Y tal que (x, y) ∈ ∂c+ϕ.

Observação 4.2.6. y ∈ ∂c+ϕ(x) se, e somente se, ϕ(x) = c(x, y) − ϕc+(y)

ϕ(z) ≤ c(z, y) − ϕc+(y) ∀z ∈ X ou equivalente a

ϕ(x) − c(x, y) ≥ ϕ(z) − c(z, y) ∀z ∈ X. (4.8) Uma consequência direta da definição é que o c-superdiferencial de uma função c-côncava é sempre é um conjunto monotonamente c-cíclico. De fato se N ∈ N e ((xi, yi))1≤N ⊂ ∂c

+ ϕ, então N X i=1 c(xi, yi) = N X i=1 (ϕ(xi) + ϕc + (yi)) = N X i=1 (ϕ(xi) + ϕc + (yσ(i))) ≤ N X i=1 c(xi, yσ(i)) para todo σ ∈ SN.

Uma das coisas mais importantes a saber é que, sob que suposições em c, cada conjunto monotonamente c-cíclico pode ser obtido como o c-superdiferencial de uma função c-côncava. Este resultado é parte do seguinte teorema:

(39)

Teorema 4.2.7 (Teorema Fundamental do Transporte Ótimo). Seja c : X ×Y → R

contínua e limitada por baixo e sejam µ ∈ P(X), ν ∈ P(Y ) tal que c(x, y) ≤ a(x) + b(y)

para algum a ∈ L1(µ), b ∈ L1(ν). Seja π ∈ ADM (µ, ν). Então, são equivalentes

i) π é ótimo.

ii) Supp(π) é monotonamente c-cíclico.

iii) Existe uma função c−côncava ϕ tal que {ϕ, 0} ∈ L1(µ) e Supp(π) ⊂ ∂c+_ϕ.

Demostração. Note que, para todo ˜π ∈ ADM (µ, ν), temos

Z X×Y c(x, y) d˜π ≤ Z X×Y (a(x) + b(y)) d˜π = Z X a(x) dµ + Z Y b(x) dν.

Como c é limitado por baixo, temos que c ∈ L1(˜π) para qualquer plano de transporte ˜π

de µ a ν.

i) ⇒ ii) Por contradição: assumamos que Supp(π) não é monotonamente c-cíclico. Então,

existe {(xi, yi)}1≤i≤N ⊂ Supp(π) e alguma permutação σ ∈ SN tal que N X i=1 c(x1, yi) > N X i=1 c(xi, yσ(i)).

Pela continuidade de c, para cada i existem vizinhanças Ui e Vi de xi e yi, respectivamente,

tal que

1) U1, . . . , UN são disjuntos dois a dois. 2) V1, . . . , VN são disjuntos dois a dois.

3)

N

X

i=1

(c(xi, yσ(i)) − c(x1, yi)) < 0 ∀(xi, yi) ∈ Ui × Vi, 1 ≤ i ≤ N.

Vamos construir um plano de transporte ˜π = π + η tal que π não é mínimo e η é uma

medida com sinal tal que

a) η−≤ γ (˜π é não-negativa).

b) Os marginais de η se anulam (˜π ∈ ADM (µ, ν)).

c)

Z

(40)

Capítulo 4. Transporte Ótimo 40 Definamos Ω := N Y i=1 Ui × Vi e λ := N O i=1 1 mi

π|_Ui×Vi onde mi := π(Ui× Vi).

Então, λ ∈ P(Ω). Sejam PUi _{e P}Vi _{as projeções canônicas de Ω em U}

i e Vi, respectivamente. Consideremos η := m N X i=1 (PUi_{, P}Vσ(i)₎ ∗λ − (PUi, PVi)∗λ (4.9) onde m = 1

N 1≤i≤Nmin mi. Vejamos que (4.9) satisfaz a), b) e c).

a) Pela disjunção gerada de 1) e 2) para cada i obtemos que ˜

π|_Ui×Vi = π|_Ui×Vi + η|_Ui×Vi = mi(PUi, PVi)∗λ − m(PUi, PVi)∗λ = (mi− m)(PUi, PVi)∗λ ≥ 0. Assim, ˜ π = π + η = πR+ N X i=1 (π + η)|_Ui×Vi ≥ 0, onde R = X × Y \ N [ i=1 Ui× Vi ! . b) é imediato. c) Como Z X×Y c(x, y) dη(x, y) = m Z Ω "_N X i=1 (c(xi, yσ(i)) − c(x1, yi)) # dλ(x1, y1, . . . , xN, yN) < 0, então Z X×Y c(x, y) d˜π(x, y) = Z X×Y c(x, y) dπ(x, y) + Z X×Y c(x, y) dη(x, y) ≤ Z X×Y c(x, y) dπ(x, y).

Logo, π não é ótimo.

ii) ⇒ iii) Provaremos que se Λ ⊂ X × Y é monótono c-ciclicamente, então existe uma função c−côncava ϕ tal que {ϕ, 0} ∈ L1(µ) e Λ ⊂ ∂c+_ϕ.

Fixe (x, y) ∈ Λ e dado que queremos ϕ c−concava tal que Λ ⊂ ∂c+_{ϕ, para qualquer}

(xi, yi) ∈ Λ, i = 1, . . . , N , temos ϕ(x) ≤ c(x, y1) − ϕc+(y1) = c(x, y1) − c(x1, y1) + ϕ(x1) ≤ (c(x, y1) − c(x1, y1)) + c(x1, y2) − ϕc+(y2) = (c(x, y1) − c(x1, y1)) + (c(x1, y2) − c(x2, y2)) + ϕ(x2) ≤ . . . ≤ (c(x, y1) − c(x1, y1)) + (c(x1, y2) − c(x2, y2)) + · · · + (c(xN, y) − c(x, y)) + ϕ(x).