• Nenhum resultado encontrado

Cadeias de Markov e aplicações

N/A
N/A
Protected

Academic year: 2021

Share "Cadeias de Markov e aplicações"

Copied!
91
0
0

Texto

(1)

Larissa Miguez da Silva

Cadeias de Markov e Aplicações

Volta Redonda, RJ

2017

(2)
(3)

Larissa Miguez da Silva

Cadeias de Markov e Aplicações

Trabalho de Conclusão de Curso submetido ao Curso de Matemática da Universidade Federal Fluminense como requisito parcial para a obtenção do título de Bacharel em Matemática.

Universidade Federal Fluminense Instituto de Ciências Exatas

Curso de Matemática

Orientador: Adriano de Oliveira Caminha

Coorientador: Alan Prata de Paula

Volta Redonda, RJ

2017

(4)
(5)

Ficha Catalográfica elaborada pela Biblioteca do Aterrado de Volta Redonda da UFF

S586 Miguez, Larissa

Cadeias de Markov e aplicações / Larissa Miguez da Silva. – 2017. 71 f.

Orientador: Adriano de Oliveira Caminha Coorientador: Alan Prata de Paula

Trabalho de Conclusão de Curso (Graduação em Matemática com ênfase em Matemática Computacional). – Universidade Federal Fluminense, Instituto de Ciências Exatas, Departamento de Matemática, Volta Redonda, 2017.

1. Cadeia de Markov. 2. Método Monte Carlo. 3. Probabilidade. I. Universidade Federal Fluminense. Instituto de Ciências Exatas. Departamento de Matemática. II. Caminha, Adriano de Oliveira, orientador. III. Paula, Alan Prata de coorientador. IV.Título.

(6)

Larissa Miguez da Silva

Cadeias de Markov e Aplicações

Trabalho de Conclusão de Curso submetido ao Curso de Matemática da Universidade Federal Fluminense como requisito parcial para a obtenção do título de Bacharel em Matemática.

Trabalho aprovado. Volta Redonda, RJ, 11 de julho de 2017:

Prof. Dr. Adriano de Oliveira Caminha – UFF

Orientador

Prof. Dr. Alan Prata de Paula – UFRJ

Coorientador

Prof. Dr. Carlos Henrique Pereira do Nascimento – UFF

Prof. Dra. Vera Lucia Prudencia dos Santos Caminha –

UFF

Volta Redonda, RJ

2017

(7)

À minha família e todos aqueles que de alguma forma estiveram e estão próximos de mim, fazendo esta vida valer cada vez mais a pena.

(8)
(9)

Agradecimentos

Agradeço, primeiramente, à Deus, por sempre permanecer ao meu lado, sendo o meu refúgio nos momentos de dificuldade e o meu condutor até o fim da minha caminhada na graduação.

Sou muito grata aos meus grandes orientadores Adriano de Oliveira Caminha e Alan Prata de Paula, pela orientação e envolvimento com este trabalho. Obrigada por abdicarem dos finais de semana, de algumas noites e principalmente obrigada por acreditarem em mim e sempre se preocuparem com o meu futuro. Adriano, obrigada por acreditar em mim desde o primeiro instante da graduação, por estar me apoiando e incentivando durante todos estes anos e por ter me apresentado a bela área da computação. E Alan, obrigada por ter chegado na hora certa, pela confiança em meu trabalho, pela paciência, pelos valiosos ensinamentos matemáticos e pelos vários conselhos que levarei comigo para sempre.

À Universidade Federal Fluminense-UFF por ter me dado a oportunidade de realizar este curso e a direção e administração, que realizam seu trabalho incansavelmente para que nós, alunos, possamos contar com um ensino de extrema qualidade.

Gostaria de agradecer aos meus professores da UFF pelo conhecimento transmitido, por se tornarem família, por ensinarem muito além dos conteúdos programáticos, se preocupando sempre com o futuro de seus alunos. Em especial à professora Vera Caminha, que mesmo com toda rígidez, "tá fácil?", foi capaz de despertar em mim uma paixão por estruturas de dados com suas aulas. Vera, você é um grande exemplo de mulher, sua paixão pelo que faz é admirável, obrigada por estar comigo desde o início e me mostrar com sua simplicidade e sabedoria, que tudo é possível, só depende de nós. Sou muito grata também à professora e coordenadora Rosemary e a professora Marina Ribeiro, lindas por fora e por dentro, sempre de portas abertas para conversas e conselhos, incentivando e acreditando que eu seria capaz de concluir o curso. Ao professor Honório, esbanjando sempre alegria, contribuindo com o aprendizado dentro e fora das salas de aula.

Agradeço também aos meus familiares, minha avó Estela, minha madrinha Aline, minha querida avó e madrinha Maria Júlia, em memória. Aos meus primos e primas, tios e tias, em especial aos tios Regina, Renato e Lúcia, agradeço todos os dias a Deus pela família que tenho. Ludimila, minha irmã de coração, a qual eu me esforço para ser um bom exemplo e retribuir todo carinho e amor. Destaco aqui o agradecimento especial aos pais maravilhosos Alexandre e Kátia por serem meus pilares e exemplos. Obrigada pelas mãos entrelaçadas às minhas, doando-me confiança e amor incondicional. Tenho orgulho de ser filha de vocês, sem vocês eu nada seria.

(10)

toda a caminhada. Aos amigos de infância, que estiveram comigo desde o jardim de infância até o presente momento, e mesmo seguindo caminhos diferentes nunca deixaram de me acompanhar e apoiar. Em especial, gostaria de agradecer ao melhor trio Ádina, Bianca e Larissa, que compartilharam momentos felizes e tristes na graduação, obrigada por me ouvirem nos momentos de desespero e angústia, por dividir comigo cada momento, biscoito e músicas nos intervalos, por serem minhas confidentes e por amarem junto comigo o strogonoff da tia. Vocês foram essenciais para que eu nunca perdesse o foco e sem vocês eu não teria chegado até aqui. Michel, meu grande amor, amigo e namorado, esteve comigo em todos estes anos, me faltam palavras para agradecer o seu apoio e o carinho, obrigada por tudo.

Por fim, gostaria de agradecer aos queridos professores participantes da banca examinadora, Vera Caminha e Carlos Henrique, que participaram deste momento tão especial e ansiado.

(11)

"Não é sobre chegar no topo do mundo e saber que venceu É sobre escalar e sentir que o caminho te fortaleceu É sobre ser abrigo e também ter morada em outros corações E assim ter amigos contigo em todas as situações." (Trem Bala - Ana Vilela)

(12)
(13)

Resumo

Este trabalho tem como principal objetivo resolver alguns problemas científicos via simula-ções, com ênfase aos problemas de decodificar um texto criptografado, escolher um vértice uniformemente ao acaso em um grafo com estrutura global desconhecida (como o grafo da internet, por exemplo) e o problema de retirar uma amostra de coloração para um grafo com distribuição uniforme dentre todas as colorações próprias. Com a finalidade de fornecer a fundamentação matemática necessária, apresenta-se a teoria clássica de Cadeias de Markov, suas propriedades básicas e teoria assintótica, destacando-se a convergência para a distribuição estacionária. Em sequência, foram realizadas simulações pelo método de Monte Carlo via Cadeias de Markov. Finalmente, foi discutido o tempo de convergência do algoritmo de Metropolis, conhecido como tempo de mistura.

Palavras-chave: Cadeias de Markov, Monte Carlo, tempo de mistura, decodificação, coloração.

(14)
(15)

Abstract

This work has as main goal to solve some scientific problems through simulations. Here we emphasize the problems of decoding an encrypted text, choose a vertex uniformly at random in a graph with unknown global structure (such as the internet graph, for example) and the problem of sample a coloring of a graph uniformly at random. In order to provide the necessary mathematical foundation, we present the theory of Markov chains, its basic properties and asymptotic theory, highlighting the convergence for the stationary distribution. Simulations were performed using the Markov Chains Monte Carlo method. Finally, the convergence time of the above algorithm, known as the mixing time, was discussed.

(16)
(17)

Lista de ilustrações

Figura 1 – Grafo com vértices A, B, C e D . . . 13

Figura 2 – Grafo com uma coloração qualquer . . . 14

Figura 3 – Grafo com uma coloração própria . . . 14

Figura 4 – Grafo G para o passeio aleatório . . . 15

Figura 5 – Grafo para a Cadeia P em 3.6 . . . 20

Figura 6 – Um grafo . . . 30

Figura 7 – Configuração possível para uma malha 8x8 . . . 31

Figura 8 – Um algoritmo de hill climb onde pode-se ficar preso no máximo local . 37 Figura 9 – Passeios aleatórios em {0, 1, 2, 3, 4}. Os passeios ficam juntos após o encontro. . . 42

Figura 10 – Duas colorações com apenas o vértice v0 diferente . . . 47

Figura 11 – Definindo as arestas do grafo a ser colorido . . . 49

Figura 12 – Grafo original antes da coloração . . . 50

(18)
(19)

Sumário

1 INTRODUÇÃO . . . . 1

2 TEORIA BÁSICA DE PROBABILIDADE . . . . 3

2.1 Probabilidade Condicional . . . 4

2.1.1 Regra do Produto. . . 4

2.1.2 Lei da probabilidade total e teorema de Bayes . . . 5

2.2 Eventos Independentes . . . 5

2.3 Variáveis Aleatórias . . . 6

2.3.1 Variáveis Aleatórias . . . 6

2.3.2 Probabilidade Induzida . . . 7

2.3.3 Variáveis Aleatórias Discretas. . . 8

2.3.4 Principais distribuições discretas . . . 8

2.3.5 Variáveis Aleatórias Continuas . . . 8

2.4 Esperança Matemática . . . 9

2.4.1 Esperança . . . 9

2.4.2 Variância . . . 10

2.4.3 Desigualdade de Markov e Chebyshev . . . 11

2.4.4 Lei dos Grandes Números. . . 11

2.5 Grafos . . . 12

3 CADEIAS DE MARKOV . . . 15

3.1 Introdução . . . 15

3.2 Cadeias de Markov irredutíveis e aperiódicas . . . 19

3.3 Distribuição Estacionária . . . 21

3.4 Cadeias reversíveis . . . 29

4 CADEIAS DE MARKOV DE MONTE CARLO . . . 31

4.1 Introdução . . . 31

4.2 Cadeia de Metropolis . . . 35

5 DISTÂNCIA DE VARIAÇÃO TOTAL E TEMPO DE MISTURA . . 39

5.1 Introdução . . . 39

5.2 Distância de variação total . . . 39

5.3 Tempo de mistura . . . 40

5.4 Acomplamento de Cadeias de Markov. . . 42

(20)

6 APLICAÇÕES . . . 45

6.1 Coloração em Grafo . . . 45

6.1.1 Introdução . . . 45

6.1.2 Cadeia de Metropolis para Colorações em Grafos e seu Tempo de Mistura . 45 6.1.3 Implementação . . . 48

6.2 Decodificação . . . 51

7 CONSIDERAÇÕES FINAIS . . . 53

REFERÊNCIAS . . . 55

APÊNDICES

57

APÊNDICE A – DEMONSTRAÇÕES DO CAPÍTULO 3 . . . 59

APÊNDICE B – DEMONSTRAÇÕES DO CAPÍTULO 5 . . . 61

ANEXOS

63

ANEXO A – CÓDIGO FONTE JAVA DA IMPLEMENTAÇÃO DO PROBLEMA DA Q-COLORAÇÃO . . . 65

(21)

1

1 Introdução

Este trabalho trata sobre um certo tipo de processo aleatório cuja a propriedade característica é que ele não conserva nenhuma lembrança de onde foi no passado. Isso significa que é necessário saber apenas o presente para definir o futuro. Esse processo é chamado de Cadeia de Markov, sendo ele uma das principais áreas da probabilidade moderna possuindo uma ampla aplicabilidade. Porém, o que o torna importante é que não apenas modelam muitos fenômenos de interesse, mas também a falta de “memória” possibilita prever como uma Cadeia de Markov pode se comportar e calcular probabilidades e valores esperados que quantificam esse comportamento. Neste trabalho, serão apresen-tados técnicas gerais para a análise desses processos, juntamente com alguns exemplos e aplicações.

Nos últimos anos, houve um progresso considerável na análise das Cadeias de Markov para, dado um grafo qualquer, gerar uma coloração aleatória uniformemente ao acaso. Essas melhorias vieram em conjunto com refinamentos da técnica de acoplamento, que é uma ferramenta clássica na teoria da probabilidade. Com base nessas ideias, abordaremos aqui o problema de amostrar uma coloração própria em grafos, preocupando-se não somente com o modo que escolhemos cor aos vértices do grafo, mas sim como retiramos uma amostra de modo uniforme. Para isso utiliza-se o algoritmo de Metropolis e a técnica de acoplamento para calcular o número de etapas necessárias para alcançar a convergência, o chamado tempo de mistura da cadeia.

Além do problema da coloração citado acima, o algoritmo de Metropolis foi utilizado para o problema de decodificar cifras simples. Esta ideia foi baseada em um artigo publicado por Persi Diaconis [1] onde é proposto a utilização do uso de simulações computacionais para a quebra de um código criptografado. O problema apresentado por Diaconis consiste em decifrar mensagens codificadas trocadas por prisioneiros da Califórnia e interceptadas pela polícia.

A organização do trabalho é feita da seguinte forma: o segundo capítulo traz uma revisão dos conceitos básicos de Probabilidade e Estatística, onde são definidos espaço de probabilidade, variáveis aleatórias, esperança, apresentando também a lei dos grandes números. Além disso, é definido o que é um grafo e como as variáveis aleatórias se comportam neste objeto. No capítulo 3 serão apresentados, detalhadamente, definições e teoremas relacionados às Cadeias de Markov, dentre eles a existência e convergência para a distribuição estacionária. No quarto capítulo, será exposto o algoritmo de Monte Carlo via Cadeias de Markov, em particular, o algoritmo de Metropolis que será utilizado para realizar simulações. Dado a relevância do cálculo do tempo de convergência deste algoritmo,

(22)

2 Capítulo 1. Introdução

o tempo de mistura, foi dedicado um capítulo especial, capítulo 5, para sua exposição e de resultados precedentes. O capítulo 6 é reservado à apresentação de aplicações, com a primeira sendo colorações em grafos. É importante ressaltar que a implementado foi feita em linguagem JAVA e está disponibilizado no apêndice deste trabalho; a segunda aplicação foi o problema de decodificar um código criptografado. Finalmente, o capítulo 7 é dedicado às conclusões e considerações finais, o qual apresenta-se as questões centrais tratadas neste trabalho e mostrou possíveis desdobramentos.

(23)

3

2 Teoria Básica de Probabilidade

Neste capítulo faremos uma breve revisão de alguns conceitos de probabilidade e estatística de suma importância para o decorrer do trabalho. Os resultados são clássicos e as provas podem ser encontradas nas referências [2], [3] e [4] .

Um modelo probabilístico tem três componentes básicas:

1. Um conjunto não vazio Ω, cujos elementos representam todos os resultados possíveis de um determinado experimento, é chamado espaço amostral. O experimento é dado pela escolha de algum dos possíveis ω ∈ Ω, e dizemos que o ω escolhido representa a realização do experimento.

2. Uma classe apropriada F de subconjuntos do espaço amostral Ω, ao qual atribuímos uma probabilidade, é chamada coleção de eventos aleatórios.

3. Seja Ω um espaço amostral e F um evento do espaço amostral Ω. Uma medida de probabilidade P é uma aplicação P : F −→ R satisfazendo as seguintes propriedades:

Propriedade 1. P(A) > 0 para todo A ∈ F;

Propriedade 2. P(Ω) = 1;

Propriedade 3. Se A1, A2, ... ∈ F, com AiTAj = ∅, para todo i 6= j, então P (S∞i=1Ai) =

P∞

i=1P(Ai).

Chamamos ao trio (Ω, F, P ) de espaço de probabilidade.

Exemplo 2.1. Se o experimento consiste em lançar uma moeda, então

Ω = {0, 1}

onde 1 representa a face “cara” e 0 representa a face “coroa”. Temos que o conjunto dos eventos aleatórios é dado por

F = P (Ω) = {{0}, {1}, {0, 1}, ∅} e a medida de probabilidade, para uma moeda justa, é

(24)

4 Capítulo 2. Teoria Básica de Probabilidade P : F −→ [0, 1] {0} 7−→ 1 2 {1} 7−→ 1 2 {0, 1} 7−→ 1 ∅ 7−→0

2.1

Probabilidade Condicional

A probabilidade condicional é uma nova medida de probabilidade, de forma a representar melhor as chances de eventos aleatórios a partir da informação de que um dado evento aconteceu. É definida da seguinte maneira:

Definição 2.2 (Probabilidade Condicional). Dados A, B ∈ F em um espaço (Ω, F, P ), definimos a probabilidade condicional de A dado que ocorreu B, ou simplesmente probabi-lidade de A dado B, por

P(A|B) = P(A ∩ B)

P(B) . (2.1)

Quando P (B) = 0, definimos P (A|B) = P (A).

Proposição 2.3. A probabilidade condicional é uma medida de probabilidade, isto é, dado B ∈ F tal que P (B) > 0, a função que leva A em P (A|B) satisfaz as propriedades (1), (2) e (3).

2.1.1

Regra do Produto

A regra do produto permite expressar a probabilidade da ocorrência simultânea de diversos eventos a partir do valor de cada probabilidade condicional dados os eventos anteriores.

Teorema 2.4 (Regra do Produto). Dados A1, A2, ..., An em (Ω, F, P ), vale

P(A1∩ ... ∩ An) = P (A1)P (A2|A1)P (A3|A1∩ A2)...P (An|A1∩ A2∩ ... ∩ An−1).

Exemplo 2.5. Se selecionarmos 3 cartas de um baralho de 52 cartas, ao acaso e sem reposição. Qual a probabilidade de tirar 3 reis? Seja Ai =“tirar rei na i-ésima retirada” e

A =“tirar 3 reis”= A1∩ A2∩ A3. Temos

P(A) = P (A1)P (A2|A1)P (A3|A1∩ A2) = 4 52 3 51 2 50 = 1 5525.

(25)

2.2. Eventos Independentes 5

2.1.2

Lei da probabilidade total e teorema de Bayes

Dizemos que B1, B2, B3, ... ∈ F formam uma partição de Ω se Bi∩ Bj = ∅, para

todo i 6= j e S∞

i=1Bi = Ω.

Teorema 2.6 (Lei da probabilidade total). Sejam A, B1, B2, B3, ... eventos aleatórios em

(Ω, F, P ) tais que B1, B2, B3, ...formam uma partição de Ω. Então

P(A) =

X

i=1

P(Bi)P (A|Bi).

O próximo resultado, a fórmula de Bayes, determina a probabilidade condicional de eventos que precedem aquele efetivamente observado. Mais precisamente, quando conhecemos as probabilidades de uma sequência de eventos Bj que particionam Ω e a

probabilidade condicional de um evento posterior A em termos dessa partição, podemos calcular as probabilidades condicionais de ocorrência de cada Bj sabendo-se da ocorrência

ou não do evento A.

Teorema 2.7 (Fórmula de Bayes). Dado um espaço de probabilidade (Ω, F, P ), uma partição B1, B2, B3, ... , e um evento A, para todo j ∈ N vale a fórmula

P(Bj|A) =

P(Bj)P (A|Bj)

P

iP(Bi)P (A|Bi)

Exemplo 2.8. Um armário tem duas gavetas, A e B. A gaveta A tem 2 meias azuis e 3 meias pretas, e a gaveta B tem 3 meias azuis e 3 meias vermelhas. Abre-se uma gaveta ao acaso e retira-se uma meia ao acaso da gaveta escolhida. Qual a probabilidade de escolher-se uma meia azul?

Começamos pelos valores conhecidos: P (A) = P (B) = 1

2, P(azul|A) = 2 5 e

P(azul|B) = 36. Assim,

P(azul) = P (A)P (azul|A) + P (B)P (azul|B) = 1 2 2 5 + 1 2 3 6 = 9 20.

Sabendo-se que uma meia azul foi retirada, qual a probabilidade de ter sido aberta a gaveta A?

Pela Fórmula de Bayes temos

P(A|azul) = P(A)P (azul|A)

P(A)P (azul|A) + P (B)P (azul|B) =

1 5 9 20 = 49.

2.2

Eventos Independentes

Dois eventos aleatórios são independentes quando a ocorrência de um deles não aumenta nem diminui a chance relativa de que ocorra o outro.

(26)

6 Capítulo 2. Teoria Básica de Probabilidade

Definição 2.9 (Eventos Independentes). Os eventos aleatórios A e B são ditos indepen-dentes se

P(A) = P (A|B), quando P (B) > 0.

Proposição 2.10. A e B são eventos independentes se, e somente se, P (A ∩ B) = P(A)P (B).

Definição 2.11(Eventos Independentes Dois a Dois). Os eventos aleatórios (Ai)i∈I, onde

I é um conjunto qualquer de índices, são ditos independentes dois a dois se Ai e Aj são

independentes para todos i, j ∈ I, com i 6= j.

Exemplo 2.12. Vamos considerar um lançamento de um dado de 4 faces. Considere A =“par”, B =“menor que 3”, C =“1 ou 4”, i.e., A = {2, 4}, B ={1, 2}, C = {1, 4}. Então A, B e C são independentes dois a dois. De fato,

P(A ∩ B) = P (2) = 1 4 = P (A)P (B), P(A ∩ C) = P (4) = 1 4 = P (A)P (C), P(B ∩ C) = P (1) = 1 4 = P (B)P (C).

2.3

Variáveis Aleatórias

Na realização de um fenômeno aleatório, muitas vezes estamos interessados em uma ou mais quantidades, que são dadas em função do resultado do fenômeno. Por exemplo, sortear 11 cartas do baralho e contar quantas dessas cartas são de espadas, ou sortear dois números reais entre 0 e 1 e considerar o menor deles. A essas quantidades damos o nome de variáveis aleatórias. Uma variável aleatória é um observável numérico resultante de um experimento.

2.3.1

Variáveis Aleatórias

Uma variável aleatória é uma função que associa a cada resultado ω do espaço amostral Ω um número real, ou seja, uma função

X : Ω −→ R ω 7−→ X(ω)

Exemplo 2.13. Joga-se um dado e observa-se a face superior. Nesse caso temos Ω = {1, 2, 3, 4, 5, 6} e X(ω) = ω.

(27)

2.3. Variáveis Aleatórias 7

Vamos colocar uma restrição sobre a função X com o intuito de poder associar pro-babilidade a eventos como “o valor observado de X é menor que 7”. Para isso, introduzimos uma definição mais formal:

Definição 2.14 (Variável Aleatória). Uma variável aleatória X em um espaço de proba-bilidade (Ω, F, P ) é uma função real definida no espaço Ω tal que o conjunto {ω ∈ Ω : X(ω) ≤ x} é evento aleatório para todo x ∈ R, isto é,

X : Ω −→ R

é uma variável aleatória se {ω ∈ Ω : X(ω) ≤ x} ∈ F para todo x ∈ R. Daqui para frente denotaremos por [X ≤ x]o evento {ω ∈ Ω : X(ω) ≤ x}.

Exemplo 2.15 (Variável aleatória constante). Se X(ω) = c para todo ω ∈ Ω, então

{ω: X(ω) ≤ a} =      Ω, se a ≥ c, ∅, a < c. Portanto, X é variável aleatória.

Exemplo 2.16 (Função indicadora). Dado A ⊆ Ω, definimos

lA(ω) =      1, se ω ∈ A, 0, se ω /∈ A. Se A ∈ F e X = lA, então : X(ω) ≤ a} =            Ω, se a ≥1, Ac, se 0 ≤ a < 1, 0, se a <0. Portanto, X é variável aleatória.

Definição 2.17. Um processo estocástico definido sobre o espaço (Ω, F, P ) é uma sequên-cia de variáveis aleatórias (X0, X1, ..., Xn, ...) com cada Xn: Ω −→ R, para cada n.

2.3.2

Probabilidade Induzida

Definição 2.18 (Probabilidade induzida). Dado um espaço de probabilidade (Ω, F, P ), uma variável aleatória X : Ω −→ R, e uma coleção B de eventos aleatórios em R. Definimos o espaço de probabilidade induzido por X como (R, B, PX), onde

PX(B) = P ({ω : X(ω) ∈ B}), B ∈ B.

Chamamos de lei de distribuição ou distribuição da variável aleatória X, a medida de probabilidade PX em R.

(28)

8 Capítulo 2. Teoria Básica de Probabilidade

2.3.3

Variáveis Aleatórias Discretas

Definição 2.19 (Variável Aleatória Discreta). Dizemos que uma variável aleatória X, e sua lei PX, são discretas se existe um conjunto enumerável A = {x1, x2, x3, ...} ⊆ R tal

que,

X

n=1

P(X = xn) = 1.

Neste caso definimos a função de probabilidade de uma variável aleatória discreta como pX = P (X = x), para cada x ∈ A.

A lei de uma variável aleatória discreta é dada por PX(B) =

X

x∈B

pX(x) ∀B ∈ B

O tratamento de variáveis aleatórias discretas é feito em termos de somatórios.

2.3.4

Principais distribuições discretas

Distribuição uniforme discreta: Dado I = {x1, x2, ..., xk}, dizemos que X tem

distribuição uniforme discreta em I, denotado por X ∼ Ud[I], se

pX(xi) =

1

k, i= 1, ..., k

Exemplo 2.20. No lançamento de um dado com 6 faces. Temos I = {1, 2, 3, 4, 5, 6} e p(i) = 1

6, i = 1, 2, . . . , 6.

Distribuição de Bernoulli: Dizemos que X é Bernoulli, X ∼ Bernoulli(p), se pX(1) = p e pX(0) = 1 − p. Indicadores de eventos são Bernoulli e vice-versa. Às vezes

associamos o evento [X = 1] a "sucesso"e [X = 0] a "fracasso".

Distribuição Binomial: Considere n ensaios de Bernoulli independentes e com mesmo parâmetro p, e seja X o número de sucessos obtidos. Dizemos que X segue o modelo binomial com parâmetros n e p, X ∼ b(n, p).A função de probabilidade é dada por

PX(x) =   n x  p x(1 − p)n−x , x= 0, 1, 2, ..., n.

2.3.5

Variáveis Aleatórias Continuas

Definição 2.21. Dizemos que uma variável aleatória X, sua lei PX são contínuas se existe

fX(·) > 0 tal que

PX(B) = P (X ∈ B) =

Z

B

(29)

2.4. Esperança Matemática 9

Neste caso, dizemos que fX é a função de densidade de probabilidade de X, ou simplesmente

densidade de X.

Exemplo 2.22. Para distribuição uniforme em [0, 1], definimos

fX(x) =      1, se x ∈[0, 1],

0, caso contrário.

e neste caso temos,

P(x ≤ t) = Z t −∞ fX(x)dx =            0, t 6 0, t, 0 6 t < 1, 1, t > 1.

Distribuição normal: Dizemos que a variável aleatória X tem distribuição normal com parâmetros µ ∈ R e σ2 >0, denotado por X ∼ N (µ, σ2), se X tem como densidade

fX(x) = 1 2πσ2 exp (x − µ)2 2 , x ∈ R A distribuição N = N (0, 1) é chamada normal padrão.

2.4

Esperança Matemática

A esperança E[X] de uma variável aleatória X é a média dos valores assumidos por X, ponderada pela probabilidade de X assumir esses valores. Podemos pensar em E[X] como sendo o “centro de massa” de X. A esperança de X é, em vários sentidos, a melhor aproximação determinística para a variável aleatória X. Uma das justificativas mais importantes, que veremos mais adiante, é a lei dos grandes números: se X1, ..., Xn

são independentes e têm a mesma distribuição de X, então a média amostral 1

n

Pn

i=1Xi se

aproxima de E[X] quando fazemos n grande.

2.4.1

Esperança

Definição 2.23 (Variáveis Aleatórias Discretas). Dada uma variável aleatória discreta X, definimos a esperança de X, ou média de X, ou ainda o valor esperado de X, denotada por E[X], por E[X] = ∞ X x=1 x · P(X = x), que é equivalente a E[X] = ∞ X x=1 P(X > x). (2.2)

(30)

10 Capítulo 2. Teoria Básica de Probabilidade

Definição 2.24 (Variáveis Aleatórias Contínuas). Seja X uma variável aleatória contínua. Então definimos sua esperança por

E[X] =

Z

R

x · fX(x)dx.

Proposição 2.25 (Propriedades da Esperança). Sejam c constante e X, Y variáveis aleatórias quaisquer e suponha que a esperança, de X e Y existam. Então

1. Se X = c então E[X] = c. 2. E(aX + b) = aE(X) + b. 3. E[X ± Y ] = E[X] ± E[Y ].

4. Sejam n variáveis aleatórias X1, X2, ..., Xn, então

E[X1+ X2+ ... + Xn] = E[X1] + E[X2] + ... + E[Xn].

5. E(X ± c) = E(X) ± c.

2.4.2

Variância

Definição 2.26(Variância). Seja X uma variável aleatória integrável. Define-se a variância da variável aleatória X, denotada por V [X] ou σ2, como

V[X] = E[(X − E[X])2]. Uma forma alternativa para a variância é dado por:

V[X] = E[X2] − (E[X])2

Proposição 2.27 (Propriedades da Variância). Seja X uma variável aleatória integrável. Então:

1. Se c for uma constante, então V [X + c] = V [X]. 2. Se c for uma constante, então V [cX] = c2V[X].

3. Se X e Y forem variáveis aleatórias independentes, então V [X +Y ] = V [X]+V ar[Y ]. 4. Sejam X1, ..., Xn variáveis aleatórias independentes. Então,

V[X1+ ... + Xn] = V [X1] + ... + V [Xn].

Exemplo 2.28. Fixando p ∈ [0, 1], e seja

X =      1, com probabilidade p, 0, com probabilidade 1 − p.

(31)

2.4. Esperança Matemática 11

Isto é, X é uma variável aleatória de Bernoulli(p). A esperança de X é dada por

E[X] = 0 · P (X = 0) + 1 · P (X = 1) = p

Além disso, desde que X toma apenas valores 0 e 1, temos que X2 = X, logo E[X2] = E[X]

e portanto, a variância será dada por

V[X] = E[X2] − (E[X])2 = p − p2 = p(1 − p).

2.4.3

Desigualdade de Markov e Chebyshev

Apresentamos abaixo Desigualdades de Markov e Chebyshev. A desigualdade de Chebyshev será de grande importância para a demonstração da Lei dos Grandes Números. Proposição 2.29 (Desigualdade de Markov). Suponha que X é uma variável aleatória tal que

P(X ≥ t) ≤ E[X] t .

Corolário 2.30 (Desigualdade de Chebyshev). Seja X uma variável aleatória tal que V(X) existe. Então, para cada número t > 0

P(|X − E[X]| ≥ t) ≤ V[X] t2 .

Demonstração. Defina outra variável aleatória Y, sendo

Y =      t2, se |X − E[X]| ≥ t

0, caso contrário.

Então nós sempre temos Y ≤ (X − E[X])2 e E[Y ] ≤ E[(X − E[X])2]. Além disso,

E[Y ] = t2P(|X − E[X]| ≥ t), Logo, P(|X − E[X]| > t) = E[Y ] t2 6 E[(X − E[X])2] t2 = V[X] t2 .

2.4.4

Lei dos Grandes Números

A desigualdade de Chebyshev pode não ser uma ferramenta prática para determinar o tamanho apropriado da amostra em um problema específico, porque ela pode especificar um tamanho de amostra muito maior do que é realmente necessário para a distribuição em particular, a partir do qual a amostra está sendo tomada. No entanto, a desigualdade

(32)

12 Capítulo 2. Teoria Básica de Probabilidade

de Chebyshev é uma ferramenta teórica valiosa, e será usada para provar um resultado importante conhecido como a lei dos grandes números.

Suponha que Z1, Z2, ...é uma sequência de variáveis aleatórias. A grosso modo, é

dito que essa sequência converge para Z dado se a distribuição de probabilidade de Zn

torna-se cada vez mais concentrada em torno de Z quando n −→ ∞.

Definição 2.31 (Convergência em Probabilidade). A sequência Z1, Z2, ... de variáveis

aleatórias converge para Z em probabilidade se para todo número  > 0, lim

n−→∞P(|Zn− Z| > ) = 0

Notação: Zn P

−→ Z.

Teorema 2.32 (Lei dos grandes números). Suponha que X1, ..., Xn forma uma amostra

aleatória de uma distribuição cuja média é µ e σ2 a variância finita. Denote por ¯X

n a

média amostral, isto é, ¯Xn = X1+X2n+...+Xn. Então

¯ Xn

P

−→ µ.

Demonstração. Usando os itens (4) e (5) da proposição2.25 temos E[Xn] = 1

n(µ + ... + µ) = µ

Similarmente, podemos aplicar (2) e (4) da proposição2.27 para mostrar que: V[Xn] =

1 n2

2+ ... + σ2) = σ2

n Daí, a desigualdade de Chebyshev nos dá

P(|Xn− µ| > t) 6

σ2

nt2

o qual tende para 0 quando n −→ ∞.

2.5

Grafos

É possível definir variáveis aleatórias para grafos porém antes disso segue uma definição para grafos. Para um estudo mais profundo de grafos, veja [5].

Definição 2.33. Um grafo não orientado é uma estrutura G = G(V, E), constituída por um conjunto finito e não vazio V cujos elementos são denominados vértices, e um conjunto E de pares não ordenados de vértices distintos denominados arestas.

(33)

2.5. Grafos 13

Dado um grafo G = (V, E), representamos seu conjunto de vértices por V = {v1, . . . , vn} e o conjunto de arestas por E = {{vi, vj}; i 6= j, vi, vj ∈ V }.

Se {u, v} ∈ E dizemos que os dois vértices u, v ∈ V são vizinhos e denotamos por u ∼ v. Denota-se por N(v) o conjunto dos vizinhos de v e sua cardinalidade |N(v)| = d(v) , o grau de v. Ou seja, d(v) é o número de vértices de G adjacentes a v. Os graus mínimo e máximo em G são denotados respectivamente por δ(G) = min{di; vi ∈ V } e

∆(G) = max{di; vi ∈ V }.

Vejamos um exemplo de um grafo não orientado: Exemplo 2.34. Seja G um grafo como na figura a seguir,

Figura 1 – Grafo com vértices A, B, C e D

O grafo G tem conjuntos de vértices dado por V = {A, B, C, D} e conjunto de arestas E = {{A, B}; {B, C}; {C, A}; {C, D}}. Além disso, grau máximo ∆ = 3.

Estamos interessados em eventos aleatórios associados a grafos, para isso definiremos variáveis aleatórias de forma geral.

Definição 2.35. Uma variável aleatória é uma função X : Ω −→ Θ, onde Θ é um outro conjunto finito. Assim, também pode-se definir a distribuição da variável aleatória X como a probabilidade PX sobre Θ tal que:

θ ∈Θ : PX(θ) = P (X = θ) = P ({ω ∈ Ω : X(ω) = θ}).

Exemplo 2.36. Seja G um grafo finito com o conjunto de vértices V tal que |V | = n. Escolher um vértice de V uniformemente ao acaso significa considerar a variável aleatória X : Ω −→ V tal que

P(X = v) = 1

n, ∀v ∈ V

Definição 2.37. Uma coloração Q = {1, ..., q} no grafo G=(V,E) finito é uma função CQ : V −→ Q. Dizemos que a coloração é própria se v ∼ u, então CQ(v) 6= CQ(u).

Exemplo 2.38. Dado o Grafo apresentado no exemplo 2.34, na figura 2 temos uma coloração qualquer e na figura 3 uma coloração própria.

(34)

14 Capítulo 2. Teoria Básica de Probabilidade

Figura 2 – Grafo com uma coloração qualquer

Figura 3 – Grafo com uma coloração própria

Exemplo 2.39. Dado o grafo do exemplo 2.34, Tem-se que o número de colorações é 34 (para cada vértice temos três cores possíveis), e o número de colorações próprias é 12

(3 · 2 · 1 · 2).

Seja X uma coloração escolhida uniformemente entre todas as colorações possíveis (34 possibilidades ), então X é uma variável aleatória X : Ω −→ {colorações de G} tal

que

P(X = CQ) =

1

81, para CQ ∈ {colorações de G}.

Agora, seja Y uma coloração própria escolhida uniformemente entre todas as colorações próprias possíveis (3 · 2 · 1 · 2 possibilidades), então Y é uma variável aleatória

Y : Ω −→ {colorações de G} tal que

P(Y = CQ) =      1/12, se CQ é coloração própria;

(35)

15

3 Cadeias de Markov

Estudaremos neste capítulo a definição e resultados de Cadeias de Markov. Na sequência esses conceitos serão aprofundados e aplicados nos próximos capítulos, o texto teve como base [6] e [7], onde podem ser extraídas mais informações.

3.1

Introdução

Antes de formalizar o conceito de Cadeia de Markov daremos início com um exemplo simples.

Exemplo 3.1. Consideremos uma cidade pequena que consiste em quatro ruas e quatro esquinas (v1, v2, v3 e v4), isto é, um grafo G . Definimos como Passeio Aleatório ao seguinte

procedimento:

No tempo 0, o caminhante aleatório está na esquina v1;

No tempo 1, ele joga uma moeda honesta e move-se imediatamente para v2 ou

v4, de acordo com o resultado, com a regra de decisão que, se a moeda der cara, então ele

se move um passo no sentido horário, enquanto se der coroa, ele se move um passo no sentido anti-horário;

No tempo 2, a moeda é lançada novamente para decidir qual dos dois vértices adjacentes ele irá se mover, com a mesma regra de decisão;

O processo é iterativo nos tempos 3,4,5...

Denotamos Xn para o índice da esquina, no qual o caminhante está no tempo n.

Consequentemente, (X0, X1, ..) é um processo estocástico tomando valores {1, 2, 3, 4}.

Vejamos a Figura 4, para melhor entendimento.

v3

v2

v1

v4

(36)

16 Capítulo 3. Cadeias de Markov

Considerando que o passeador comece no tempo 0 em v1, nós temos

P(X0 = 1) = 1

No próximo passo, ele se move para v2 ou v4 com probabilidade 1/2 cada, então

P(X1 = 2) = 1/2

P(X1 = 4) = 1/2

Computar a distribuição de Xn para n ≥ 2 requer um pouco mais de trabalho. Para

isto é necessário considerar probabilidades condicionais. Suponhamos que no tempo n o caminhante está em v2, então :

P(Xn+1 = 1|Xn= 2) = 1/2

e

P(Xn+1= 3|Xn = 2) = 1/2.

Devido ao mecanismo de cara ou coroa para decidir para onde ir. Se condicionarmos ainda mais a história completa do processo até o momento n, teremos

P(Xn+1= 1|X0 = i0, X1 = i1, ..., Xn−1 = in−1, Xn= 2) = 1/2 (3.1)

P(Xn+1= 3|X0 = i0, X1 = i1, ..., Xn−1 = in−1, Xn= 2) = 1/2 (3.2)

Observação 3.2. Podemos observar no exemplo anterior que as equações 3.1 e 3.2 são satisfeitas para qualquer escolha de i0, ..., in−1. Isto é consequência do lançamento no

tempo n + 1 ser independente de todos os anteriores e, portanto, independente também de X0, ..., Xn−1. Este fenômeno é chamado de "perda de memória", também conhecida

como propriedade de markov.

Observação 3.3. Outra característica interessante destes processos estocásticos é que a distribuição condicional de Xn+1 dado que Xn = 2 é o mesmo para todos os n. Esta

propriedade é conhecida como a homogeneidade do tempo, ou simplesmente

homo-geneidade. Essa propriedade será considerada para os casos que iremos tratar neste

trabalho.

Definição 3.4 (Cadeia de Markov). Uma sequência de variáveis aleatórias (X0, X1, ...) é

uma Cadeia de Markov com espaço de estado S, se para todo si, sj ∈ S, com n ≥ 1, temos

P(Xn+1 = sj|X0 = si0, X1 = si1, ..., Xn−1= sin−1, Xn= sin) = P (Xn+1 = sj|Xn= si)

(37)

3.1. Introdução 17

Matriz de Transição

Definição 3.5. Seja P uma matriz k × k com elementos {Pi,j : i, j = 1, ..., k}. Um

processo aleatório (X0, X1, ...) com espaço de estado finito S = {s1, s2, ..., sk} é dito ser

uma Cadeia de Markov com matriz de transição P, se ∀n, todo i, j ∈ {1, ..., k} e todo i0, ..., in+1 ∈ {1, ..., k}, nós temos:

P(Xn+1= sj|X0 = si0, X1 = si1, ..., Xn−1 = sin−1, Xn = sin) = P (Xn + 1 = sj|Xn = si) = Pi,j

Observação 3.6. Os elementos da matriz de transição P são chamados de probabilidade de transição e temos que satisfaz:

i) Pi,j ≥0 ∀i, j ∈1, .., k

ii)Pk

j=1Pi,j = 1 ∀i ∈1, ..., k

Exemplo 3.7. Consideremos o exemplo do Passeio aleatório, apresentado anteriormente, que é uma Cadeia de Markov, com o espaço amostral 1,2,3,4 e matriz de transição:

P =         0 1 2 0 1 2 1 2 0 1 2 0 0 1 2 0 1 2 1 2 0 1 2 0        

Distribuição inicial

Consideremos outra característica importante de uma Cadeia de Markov (X0, X1, X2, ...)

nomeado de distribuição inicial, que nos diz como começamos o processo. Representamos tal distribuição como vetor linha µ(0) dado por:

µ(0)= (µ(0)1 , µ(0)2 , ..., µ(0)k ) = (P (X0 = s1), P (X0 = s2), ..., P (X0 = sk)).

Como µ(0) representa a distribuição de probabilidade, nós temos:

k

X

i=1

µ(0)i = 1

Similarmente os vetores linhas (µ(1), µ(2), ...) denotam a distribuição da cadeia no

tempo 1,2,3..., da seguinte forma

µ(n)= (µ(n)1 , µ(n)2 , ..., µ(n)k ,) = (P (Xn= s1), P (Xn = s2), ..., P (Xn= sk)).

O resultado a seguir nos mostra que uma vez que sabemos a distribuição inicial µ(0) e a matriz de transição P, podemos computar todas as distribuições µ(1), µ(2), ..., da

(38)

18 Capítulo 3. Cadeias de Markov

Teorema 3.8. Para a Cadeia de Markov (X0, X1, ...) com espaço de estado finito S =

{s1, s2, ..., sk}, a distribuição inicial µ(0) e a matriz de transição P, nós temos que para

qualquer n a distribuição no tempo n satisfaz: µ(n)= µ(0)Pn, onde Pn = P × P × ... × P .

Demonstração. A demonstração segue por indução. Consideremos o caso onde n = 1, para j = 1, 2, ..., k, temos µ(1)j = P (X1 = sj) = k X i=1 P(X0 = si, X1 = sj) =Xk i=1 P(X0 = si)P (X1 = sj|X0 = si) =Xk i=1 µ(0)i Pi,j = (µ(0)P)j (3.4) onde (µ(0)P)

j denota o j-ésimo elemento do vetor linha µ(0)P. Daí, µ(1) = µ(0)P.

Fixando n = m, vamos supor que µ(m) = µ(0)Pm é válido. Basta mostrar então que

para n = m + 1 é válido. Temos,

µ(m+1)j = P (Xm+1 = sj) = k X i=1 P(Xm = si, Xm+1 = sj) =Xk i=1 P(Xm = si)P (Xm+1 = sj|Xm = si) =Xk i=1 µ(m)i Pi,j = (µ(m)P)j (3.5)

então µ(m+1) = µ(m)P. Mas µ(m) = µ(0)Pm pela hipótese de indução, então:

µ(m+1) = µ(m)P = µ(0)PnP = µ(0)Pn+1 como queríamos provar.

Exemplo 3.9. Voltando ao exemplo 3.1 com a seguinte distribuição inicial: µ(0) = (1, 0, 0, 0)

e com a seguinte matriz de transição:

P =         0 1 2 0 1 2 1 2 0 1 2 0 0 1 2 0 1 2 1 2 0 1 2 0        

(39)

3.2. Cadeias de Markov irredutíveis e aperiódicas 19

temos que as distribuições seguintes são dadas por µ(1) =  0,12,0,1 2  µ(2) = 1 2,0, 1 2,0  ... µ(n) = µ(0)Pn=      (1 2,0, 1 2,0), se n é par; (0,1 2,0, 1 2), se n é ímpar.

3.2

Cadeias de Markov irredutíveis e aperiódicas

Tomamos nota agora de duas condições importantes na teoria central de Markov, começamos por irredutibilidade, que é a propriedade que "todos os estados da cadeia podem ser alcançados por todos os outros". Consideremos uma Cadeia de Markov (X0, X1, ...)

com espaço de estado S = {s1, ..., sk} e matriz de transição P. Dizemos que o estado si se

comunica com sj, escrevemos si −→ sj, se a cadeia tem probabilidade positiva de atingir

sj, quando começamos de si. Em outras palavras, si se comunica com sj se existe n tal

que

P(Xm+n = sj|Xm = si) > 0

Se si −→ sj e sj −→ si, então dizemos que elas intercomunicam-se e escrevemos si ↔ sj.

Definição 3.10. Uma Cadeia de Markov (X0, X1, ...) com espaço de estado S = {s1, ..., sk}

e matriz de transição P é dita ser irredutível se para todo si, sj ∈ S temos que si ↔ sj.

Caso contrário a cadeia é dita ser redutível.

Observação 3.11. Uma cadeia é irredutível se, e somente se, para todo si, sj ∈ S, existe

n tal que (Pn)i,j >0. Vejamos um exemplo em que não é irredutível.

Exemplo 3.12. (Uma Cadeia de Markov redutível) Considerando uma cadeia de Markov (X0, X1, ...) com estado de espaço S = {1, 2, 3, 4} e matriz de transição

P =         0, 5 0, 5 0 0 0, 3 0, 7 0 0 0 0 0, 2 0, 8 0 0 0, 8 0, 2         . (3.6)

(40)

20 Capítulo 3. Cadeias de Markov

Figura 5 – Grafo para a Cadeia P em 3.6

Analisando o grafo, imediatamente vemos que se a cadeia começa em 1 e 2, então ela se restringe aos estados 1 e 2 sempre. O caso é similar se começa dos estados 3 e 4. Portanto a cadeia é redutível.

Note que se a cadeia começar do estado 1 ou 2, então ela se comporta como se fosse uma Cadeia de Markov com estado de espaço {1, 2} e matriz de transição:

P{1,2}=   0, 5 0, 5 0, 3 0, 7  

E se começarmos em 3 ou 4, então se comporta como uma Cadeia de Markov com espaço de estado {3, 4} e matriz de transição:

P{3,4}=   0, 2 0, 8 0, 8 0, 2  

Isso ilustra uma característica de Cadeias de Markov redutíveis, que também explica o termo "redutível ".

Passamos a considerar o conceito de aperiodicidade. Porém antes é necessário que se definia o conceito de período.

Definição 3.13. Seja S = {s1, ..., sk}, o período p(si) de um estado si ∈ S é definido

como

p(si) = mdc{n ≥ 1 : (Pn)i,i>0}

Em outras palavras, o período de si é o maior divisor comum do conjunto de vezes

que a cadeia pode retornar( isto é, tem probabilidade positiva de retorno) a si, dado que

começamos com X0 = si. Se d(si) = 1, então dizemos que o estado si é aperiódico.

Definição 3.14.A cadeia de Markov é dita aperiódica se todos os estados são aperiódicos. Caso contrário é chamada de periódica.

(41)

3.3. Distribuição Estacionária 21

Exemplo 3.15. Considerando o exemplo 3.1, do Passeio Aleatório, inicialmente no tempo 0 o caminhante está no vértice v1. Claramente, ele precisa tomar um número par de vértices

para voltar a v1. Isto significa que (Pn)i,i >0 apenas para n = 2, 4, 6.... Consequentemente,

mdc{n > 1 : (Pn)i,i >0)} = mdc{2, 4, 6} = 2

portanto, a cadeia é periódica.

O teorema a seguir será de suma importância na demonstração do teorema de convergência. Sua demonstração pode ser encontrada em [6].

Teorema 3.16. Suponhamos que temos uma Cadeia de Markov irredutível e aperiódica (X0, X1, ...) com espaço de estado s = {s1, ..., sk} e matriz de transição P . Então existe

N < ∞ tal que

(Pn)

i,j >0 ∀i ∈ {1, 2, ..., k} e ∀n > N.

3.3

Distribuição Estacionária

Nesta seção, iremos considerar uma das questões centrais na teoria de Markov : Assintótica. Para o comportamento a longo prazo das Cadeias de Markov, o que podemos afirmar? Se a cadeia tem sido executada por um longo tempo, podemos encontrar teoremas assintóticos interessantes ?

Definição 3.17. Seja (X0, X1, ....) uma Cadeia de Markov com espaço de estado S =

{s1, ..., sk} e matriz de transição P. Um vetor linha (π1, ..., πk) é dito ser uma distribuição

estacionária para a Cadeia de Markov, se satisfaz : i) πi0, para i = 1, ..., k e Pki=1πi = 1

ii) πP = π , ou seja,Pk

i=1πiPi,j = πj ∀j = 1, ..., k.

Observação 3.18. A propriedade i) ,da definição ??, traduz a ideia de que π descreve uma distribuição de probabilidade em {s1, ..., sk}. Enquanto a propriedade ii) implica que

se a distribuição µ(0) = π então a distribuição da cadeia no tempo 1, satisfaz

µ(1) = µ(0)P = πP = π Consequentemente, por iteração, teremos que µ(n)= π.

Agora, iremos tratar três questões: a existência da distribuição estacionária, a unicidade das distribuições estacionárias e a convergência a partir de qualquer distribuição inicial. Para isso vamos considerar as condições introduzidas na seção anterior (irredutibi-lidade e aperiodicidade), embora para alguns dos resultados essas condições possam ser esquecidas.

(42)

22 Capítulo 3. Cadeias de Markov

Antes de provar o teorema de existência, iremos enunciar um lema. Para isto, consideremos as seguintes definições:

Definição 3.19. Se uma Cadeia de Markov (X0, X1, ...) com espaço de estado {s1, ..., sk}

e matriz de transição P começa em si, então podemos definir o tempo de chegada a sj

Ti,j = min{n > 1 : Xn= sj},

onde Ti,j = ∞ quando a cadeia nunca visita sj. Nós também definimos o tempo médio de

chegada como

τi,j = E[Ti,j]

Lema 3.20. Para qualquer Cadeia de Markov aperiódica e irredutível com estado de espaço S= {s1, ..., sk} e matriz de transição P, nós temos para qualquer dois estados si, sj ∈ S

se a cadeia começa de si, então

P(Ti,j < ∞) = 1 (3.7)

Além disso, o tempo médio de chegada é finito, isto é,

E[Ti,j] < ∞ (3.8)

Demonstração. Se encontra no apêndiceA.1.

Teorema 3.21 (Extistência de distribuição Estacionária). Para qualquer Cadeia de Markov irredutível e aperiódica, existe pelo menos uma distribuição estacionária.

Demonstração. Escreva, como usualmente (X0, X1, ...) para uma Cadeia de Markov, S =

{s1, s2, ..., sk}para espaço estado e P para a matriz de transição. Suponhamos que a cadeia

começa em s1 e defina, para i = 1, ..., k ,

ρi =

X

n=1

P(Xn= si, T1,1 > n)

em outras palavras, ρi é o número de visita do estado i até o tempo T1,1 −1. Como o

tempo médio de retorno E[T1,1] = τ1,1 é finito e ρi < τ1,1, assim ρi é finito também.

Nosso candidato para a distribuição estacionária é π = (π1, π2, ..., πn) = ρ1 τ1,1 , ρ2 τ1,1 , ..., ρn τ1,1 !

Vamos verificar que π satisfaz as condições (i) e (ii) da definição ??. Mostraremos primeiro a relação Pk

(43)

3.3. Distribuição Estacionária 23

que j=1 será tratado separadamente). Temos, πj = ρi τ1,1 = 1 τ1,1 ∞ X n=0 P(Xn= sj, T1,1 > n) = 1 τ1,1 ∞ X n=1 P(Xn= sj, T1,1 > n −1) (3.9) = 1 τ1,1 ∞ X n=1 k X i=1 P(Xn−1= si, Xn= sj, T1,1 > n −1) (3.10) = 1 τ1,1 ∞ X n=1 k X i=1 P(Xn−1= si, T1,1 > n −1)P (Xn = sj | Xn−1= si) (3.11) = 1 τ1,1 ∞ X n=1 k X i=1 P(Xn−1= si, T1,1 > n −1) = 1 τ1,1 k X i=1 Pi,j ∞ X n=1 P(Xn−1 = si, T1,1 > n −1) = 1 τ1,1 k X i=1 Pi,j ∞ X m−0 P(Xm = si, T1,1 > m) =Xk i=1 ρi τ1,1 Pi,j = k X i=1 πiPi,j (3.12)

onde nas linhas (3.9), (3.10) e (3.11) iremos assumir que j 6= 1; note também que em (3.11) usamos o fato de que o evento {T1,1 > n −1} é determinado somente pelas variáveis

X0, X1, ..., Xn−1.

Agora vamos verificar a condição (ii) também para j = 1. Note primeiro que ρ1 = 1,

isto segue da definição de ρi. Temos,

ρ1 = P (T1,1 < ∞) = X∞ n=1 P(T1,1 = n) = X∞ n=1 k X i=1 P(Xn−1= si, T1,1 = n) = X∞ n=1 k X i=1 P(Xn−1= si, T1,1 > n −1)P (Xn = s1 | Xn−1) = ∞ X n=1 Pi,1 k X i=1 P(Xn−1 = si, T1,1 > n −1) =Xk i=1 Pi,1 ∞ X n=1 P(Xn−1 = si, T1,1 > n −1) =Xk i=1 Pi,1 ∞ X m=0 P(Xm = si, T1,1 > m) =Xk i=1 ρi Pi,1

(44)

24 Capítulo 3. Cadeias de Markov Consequentemente, π1 = ρ1 τ1,1 =Xk i=1 ρiPi,1 τ1,1 =Xk i=1 πiPi,1 (3.13)

Combinando a equação acima com (3.12), estabelecemos que a condição (ii) é válida para nossa escolha de π.

Agora basta verificar a condição (i). Que πi0, ∀i = 1, ..., k é imediato. Vamos

verificar que Pk

i=1πi = 1, note que

τ1,1 = E[T1,1] = ∞ X n=0 P(T1,1 > n) (3.14) = ∞ X n=0 k X i=1 P(Xn = si, T1,1 > n) =Xk i=1 ∞ X n=0 P(Xn = si, T1,1 > n) =Xk i=1 ρi (3.15) usando (A.2) em (3.14). Então, k X i=1 πi = 1 τ1,1 k X i=1 ρi = 1

e a condição (i) é satisfeita.

Para demonstrar o Teorema 3.24, precisamos definir o que significa uma sequência de distribuição de probabilidade ν(1), ν(2), ...convergir para outra distribuição. Para isto, é

necessário definir uma métrica em distribuição de probabilidade. Em particular, iremos utilizar a métrica chamada distância de variação total. (Veja mais sobre isso no capítulo

5) Definição 3.22. Se ν(1) = (ν(1) 1 , ..., ν (1) k ) e ν(2) = (ν (2) 1 , ..., ν (2)

k ) são distribuições de

proba-bilidade em S = {s1, ..., sk}, então definimos a distância de variação total entre ν(1) e ν(2)

como dvt(ν(1), ν(2)) = 1 2 k X i=1 i(1)− νi(2)| (3.16)

Dizemos que ν(n) converge para ν com n −→ ∞, e escrevemos ν(n) V T−→ ν, se

lim

n−→0dvt(ν

(45)

3.3. Distribuição Estacionária 25

Observação 3.23. Tem-se que dV T é uma métrica no espaço das medidas de probabilidade

sobre S = {s1, s2, ..., sk}.

Teorema 3.24 (Convergência de Cadeias de Markov). Seja (X0, X1, ...) uma cadeia

de Markov irredutível e aperiódica com estado de espaço S = {s1, ..., sk} e matriz de

transição P , e distribuição inicial arbitrária µ(0). Então, para qualquer distribuição π que

é estacionária para a matriz de transição P , temos

µ(n) V T−→ π (3.17)

Demonstração. Inicialmente, definiremos duas funções para nos auxiliar a simular cadeias de Markov. Fixando µ uma medida de probabilidade em S, defina para cada x ∈ [0, 1]:

ψµ(x) =                                  s1, para x ∈ [0, µ(s1)]; s2, para x ∈ [µ(s1), µ(s1) + µ(s2)]; ... si, para x ∈ [Pi−1j=1µ(sj),Pij=1µ(sj)]; ... sk, para x ∈[Pk−1j=1µ(sj), 1]. (3.18)

Agora, defina φ : S × [0, 1] −→ R por:

φ(si, x) =                                  s1, para x ∈ [0, Pi,1];

s2, para x ∈ [Pi,1, Pi,1+ Pi,2];

...

sj, para x ∈[Pj−1l=1 Pi,l,Pjl=1Pi,l];

...

sk, para x ∈[Pk−1l=1 Pi,l,1].

(3.19)

Vamos simular a cadeia usando as funções acima. Para isso, considere (U0, U1, ...)

uma sequência i.i.d. de variáveis uniforme [0, 1] e defina: X0 =ψµ(0)(U0) X1 =φ(X0, U1) X2 =φ(X1, U2) ... Xn =φ(Xn−1, Un) ...

(46)

26 Capítulo 3. Cadeias de Markov

Observe que X0 ∼ µ(0), de fato,

P(X0 = s1) = P (0 ≤ U ≤ s1) = µ(0)(s1)

P(X0 = s2) = P (s1 ≤ U ≤ s1+ s2) = µ(0)(s1).

Analogamente, as variáveis X0, X1, ..., Xn, ... tem distribuição dada por:

X0 =ψµ(0)(U0) ∼ µ(0) X1 =φ(X0, U1) ∼ µ(0)P X2 =φ(X1, U2) ∼ µ(0)P2 ... Xn=φ(Xn−1, Un) ∼ µ(0)Pn ...

Em seguida, introduziremos uma segunda Cadeia de Markov (X0 0, X

0

1, ...) com

distri-buição inicial π. Para isso, utilizamos uma outra sequência (U0 0, U

0

1, ...) i.i.d.(independente

de (U0

0, U10, ...) ) uniforme [0, 1], e com configuração

X00 =ψπ(U0) ∼ π X10 =φ(X00, U10) ∼ πP = π X20 =φ(X10, U20) ∼ πP2 = π ... Xn0 =φ(Xn−10 , Un0) ∼ πPn= π ...

Desde que π é distribuição estacionária, temos que X0

n tem distribuição π para

qualquer n. Também as cadeias (X0, X1, ...) e (X00, X 0

1, ...) são independentes uma da outra,

pelo pressuposto de que as sequências (U0, U1, ...) e (U10, U 0

2, ...) são independentes.

Um passo-chave na prova é mostrar que, com probabilidade um, as duas cadeias "se encontrarão", significando que ∃n tal que Xn = Xn0. Para mostrar isso, defina o momento

em que eles se encontram como

T = min{n : Xn= Xn0}

escrevemos T = ∞ se as cadeias nunca se encontram. Como a Cadeia de Markov (X0, X1, ...)

é irredutível e aperiódica, podemos usar o teorema3.16que diz que existe M < ∞ tal que (PM)

i,j >0 ∀i, j ∈ {1, ..., k}

e

(47)

3.3. Distribuição Estacionária 27

e note que α > 0. Temos que, P(T ≤ M) ≥ P (XM = XM0 ) ≥ P(XM = s1, XM0 = s1) = P (XM = s1)P (XM0 = s1) = Xk i=1 P(X0 = si, XM = s1) ! k X i=1 P(X00 = si, XM0 = s1) ! = Xk i=1 P(X0 = si)P (XM = s1|X0 = si) ! k X i=1 P(X00 = si)P (XM0 = s1|X00 = si) ! ≥ α k X i=1 P(X0 = si) ! α k X i=1 P(X00 = si) ! = α2 então, P(X ≤ M) ≤ 1 − α2

Da mesma forma, dado tudo que aconteceu até M, temos probabilidade condicional pelo menos α2 de ter X

2M = X2M0 = s1, então P(X2M 6= X2M0 |T > M) ≥ 1 − α 2 Consequentemente, P(T > 2M) = P (T > M)P (T > 2M|T > M)(1 − α2)P (T > 2M|T > M)(1 − α2)P (X2M 6= X2M0 |T > M) ≥(1 − α2)2

Iterando este argumento, temos para qualquer ` que P(T > `M) ≤ (1 − α2)` que tende para zero quando ` −→ ∞. Consequentemente,

lim

n−→∞P(T > n) = 0 (3.20)

Em outras palavras, mostramos que as duas cadeias se encontrarão com probabili-dade igual a um.

O próximo passo é construir uma terceira Cadeia de Markov (X00

0, X100, ...) onde X000 = X0 (3.21) e para cada n, Xn+100 =      φ(Xn00, Un+1), se Xn00 6= X 0 n φ(Xn00, Un+10 ), se Xn00 = Xn0

(48)

28 Capítulo 3. Cadeias de Markov

Em outras palavras, a cadeia (X00 0, X

00

1, ...) evolui exatamente como a cadeia (X0, X1, ...)

até o momento T quando se encontram pela primeira vez com a cadeia (X0 0, X

0

1, ...),

evo-luindo da mesma forma que esta última cadeia após esse momento. É importante perceber que (X00

0, X100, ...) é realmente uma cadeia com matriz de transição P.

Isto pode exigir uma pausa no pensamento, mas a razão básica pela qual é verdadeira é que em cada atualização, a função de atualização é exposta a uma nova variável uniforme "fresh"[0, 1], ou seja, uma que é independente de todas as outras variáveis aleatórias (se a nova cadeia é exposta a Un+1 ou a Un+10 depende dos valores anteriores das variáveis

uniformes [0, 1], mas isso não importa, uma vez que Un+1 e Un+10 tem a mesma distribuição

e são independentes de tudo o que aconteceu até o tempo n). Devido a (3.21), temos que X00

0 tem distribuição µ(0). Consequentemente, para

qualquer n, X00

n tem distribuição µ(n). Agora, para qualquer i ∈ {1, ..., k}

µ(n)i − πi = P (Xn00 = si) − P (Xn0 = si)

≤ P(Xn00 = si, Xn0 6= si)

≤ P(Xn00 6= Xn0) = P (T > n)

que tende a zero quando n −→ ∞, devido a (3.20). Usando o mesmo argumento, temos que

πi− µ

(n)

i ≤ P(T > n)

de mesmo modo, tende a zero quando n −→ ∞. Consequentemente, lim

n−→∞| µ

(n)

i − πi |= 0 (3.22)

Isto implica que

lim dV T(µ(n), π) = lim 1 2 k X i=1 | µ(n)i − πi | ! (3.23) uma vez que cada termo do lado direito de (3.23) tende a zero. Concluímos então que (3.17) é válido.

Teorema 3.25 (Unicidade da distribuição Estacionária). Qualquer Cadeia de Markov irredutível e aperiódica tem exatamente uma distribuição estacionária.

Demonstração. Seja (X0, X1, ...) uma Cadeia de Markov irredutível e aperiódica com

matriz de transição P. Sabemos, pelo teorema3.21, que existe pelo menos uma distribuição estacionária para P, então temos que mostrar que esta distribuição é única.

Suponhamos, por absurdo, que existem duas distribuições estacionárias, isto é, temos que π e π0 são distribuições estacionárias para P, temos que provar que π = π0.

(49)

3.4. Cadeias reversíveis 29

Agora suponha que a Cadeia de Markov começa com a distribuição inicial µ(0) = π0

então µ(n) = π0 ∀n, pois π0 é estacionária.Por outro lado, o teorema3.24diz que µ(n) V T−→ π,

significa que

limn−→∞dvt(µ(n), π) = 0

Mas µ(n)= π0, isto é o mesmo que

limn−→∞dvt(π0, π) = 0

Mas dvt(π0, π) não depende de n e é igual a 0, isto implica que π = π0, como queríamos.

3.4

Cadeias reversíveis

Introduziremos, nesta seção, uma classe especial de Cadeias de Markov conhecida como reversíveis, que são interessantes de serem estudas pois é uma propriedade fácil de ser verificada e implica estacionariedade.

Definição 3.26. Seja (X0, X1, ....) uma Cadeia de Markov com espaço de estado S =

{s1, ..., sk} e matriz de transição P. Uma distribuição de probabilidade π em S é dita

reversível para a cadeia(ou para a matriz de transição P) se ∀i, j ∈ {1, ..., k} temos

πiPi,j = πjPj,i (3.24)

Temos então que se a Cadeia é iniciada com a distribuição reversível, então o lado esquerdo da equação 3.24 pode ser pensado como a quantidade de massa de probabilidade que flui no tempo 1 do estado si ao estado sj. Similarmente, o lado direito é a massa de

probabilidade que flui de sj para si. Isto nos mostra uma forte forma de equilíbrio e o

seguinte resultado nos mostrará isso.

Teorema 3.27. Seja (X0, X1, ....) uma Cadeia de Markov com espaço de estado S =

{s1, ..., sk} e matriz de transição P. Se π é uma distribuição reversível da cadeia, então é

também uma distribuição estacionária para a cadeia.

Demonstração. A Propriedade (i) da Definição 3.17é imediata. Assim só resta mostrar que para qualquer j ∈ {1, ..., k} temos

πj = k X i=1 πiPi,j. Observe que, πj = πj k X i=1 Pj,i= k X i=1 πjPj,i = k X i=1 πiPi,j. pois Pk i=1Pj,i = 1.

Referências

Documentos relacionados

Trabalho de Graduação apresentado ao Curso de Matemática Bacharelado da Universidade Federal de Santa Maria (UFSM, RS), como requisito parcial para.. a obtenção do grau

Depois do meu check em um board como esse eu sei que na grande maioria das vezes ele nunca aposta com o 7, pois ele sabe que o meu range de 3-bet é de certa forma

▫ Feixe de His (ramos direito e esquerdo) ▫ Fibras de Purkinje Nó sinusal Músculo atrial Nó AV Fibra de Purkinge Músculo ventricular Feixe de His Sistema excitocondutor

Atendimento da formatação exigida pelo congresso (peso 1). Antes de iniciar o processo de classificação, os conceitos foram comparados, com o objetivo de detectar

A mosca tsé-tsé carrega um parasita inofensivo para ela, e que pegou ao picar um animal ou um homem já infectado. De dia, ela pica para chupar o sangue de sua presa. Nesse

A animação turística visa promover uma determinada região através de atividades criativas que incentivem a participação dos turistas e dos locais, de forma a desenvolver o turismo

Os CAPS figuram como a principal iniciativa de desinstitucionalização e alcance da reabilitação e reinserção social das pessoas com transtorno mental, embora se

Após inúmeras tentativas para descobrir qual a rede que melhor representa o peso do cacho baseado no coeficiente de determinação, erro médio de previsão e quadrado médio do erro