• Nenhum resultado encontrado

Um curso de inferência e seleção estatística de cadeias de alcance variável

N/A
N/A
Protected

Academic year: 2022

Share "Um curso de inferência e seleção estatística de cadeias de alcance variável"

Copied!
101
0
0

Texto

(1)

Curso de Matemática Aplicada e Computacional

Rafael Klanfer Nunes

Um curso de inferência e seleção estatística de cadeias de alcance variável

Trabalho de Conclusão de Curso

São Paulo – SP

2014

(2)

Um curso de inferência e seleção estatística de cadeias de alcance variável

Trabalho de conclusão de curso apresentado ao Curso de Matemática Aplicada e Computacional da USP, como requisito para a obtenção do grau de bacharel em Matemática Aplicada e Computacional com habilitação em Estatística Econômica.

Orientador: Prof. Dr. Antonio Galves MAE – IME – USP

São Paulo – SP

2014

(3)

O presente trabalho teve como principal motivação a percepção de que há uma escassez de materiais didáticos que abordem de forma mais abrangente o tema da seleção e inferência estatística de cadeias de alcance variável, em especial na língua portuguesa. Além disso, constata- se uma necessidade crescente de apresentar esse e demais assuntos correlatos à alunos de graduação em áreas relacionadas à estatística.

Dessa forma, procurou-se aproveitar a oportunidade de reunir o conteúdo oferecido pela disciplina MAE0699 – Tópicos de Probabilidade e Estatística – ministradas pelo professor Antonio Galves no Instituto de Matemática e Estatística (IME-USP) de forma a elaborar um material que suprisse tais lacunas. O projeto consistiu em organizar o curso no formato de livro-texto, através do uso do software Latex, tomando as notas de aula da disciplina MAE0699 como principal referência. Foram também aproveitados artigos complementares de apoio à disciplina. De maneira geral, tentou-se trazer para um livro-texto a fluidez, didaticidade e coerência do conteúdo do curso. Tendo isso em mente, tomamos especial atenção à alguns pontos críticos para a compreensão do leitor: Alguns detalhes de notação foram modificados e padronizados de forma a evitar erros de interpretação. O conteúdo foi dividido em capítulos de forma a apresentar no capítulo anterior as ideias necessárias para o entendimento do capítulo seguinte. Ao final de cada capítulo foram inseridos diversos exercícios que captam as ideias fundamentais do conteúdo apresentado.

Por fim, o trabalho está em constante atualização, motivado em especial pelo “feedback” fornecido por alguns alunos do IME, os quais tiveram contato com versões preliminares desse texto. Contato motivado tanto pela busca de um melhor entendimento da própria disciplina MAE0699, como também de forma a fazer uso desse material como suporte ao seus próprios trabalhos de conclusão de curso. Assim, espera-se com este trabalho contribuir tanto para um melhor aprendizado dos alunos de graduação, bem como propiciar a difusão dos temas aqui abordados.

Palavras-chave: cadeias de markov, cadeias de alcance variável,

estatística, algoritmo contexto, seleção estatística.

(4)

Curso de inferência e seleção estatística

de cadeias de alcance variável

Professor Dr. Antonio Galves

Transcrito por: Rafael Klanfer Nunes

(5)

PUBLISHED BYPUBLISHER

HTTP://WWW.IME.USP.BR/GALVES/CURSOS HTTP://WWW.IME.USP.BR/DOUGLASR

Licensed under the Creative Commons Attribution-NonCommercial 3.0 Unported License (the “License”). You may not use this file except in compliance with the License. You may obtain a copy of the License athttp://creativecommons.

org/licenses/by-nc/3.0. Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an “AS IS” BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the specific language governing permissions and limitations under the License.

information

First printing, 2014

(6)

1

Revisão de alguns conceitos estatísticos . . . 5

1.1 Comentário inicial 5

1.1.3 Lei fraca dos grandes números . . . 7

2

Cadeias de Markov . . . 9

2.1 Objetivo do curso 9

2.2 Pseudo-algoritmo de simulação de uma cadeia de Markov10 2.2.1 Simulação . . . 10

2.3 Conceitos importantes 11

2.3.1 Probabilidade invariante . . . 15

2.4 Modelo de Ehrenfest 19

2.5 Inferência estatística em cadeias de Markov 19 2.5.1 Caso geral . . . 25 2.5.2 Caso de alcance k 1 . . . 27

(7)

3

Cadeias de alcance variável . . . 41 3.1 Neurociências: Modelo simples de um sistema de neurônios

interagindo entre si. 41

3.2 Árvore de contextos 45

3.2.1 Contexto . . . 46

3.3 Conceitos importantes 51

3.4 Estimação de ‘p’ por máxima verossimilhança 53

3.5 Considerações Importantes 56

3.6 Exercícios de fixação 60

3.7 Exercícios teste 64

4

Seleção estatística de modelos . . . 69

4.1 Introdução 69

4.2 Critério de Schwarz 72

4.3 Seleção de modelos 79

4.3.1 Selecionando uma árvore de contextos . . . 85 4.3.2 Algoritmo "Contexto

. . . 86

4.4 Considerações importantes 89

4.5 Exercícios de fixação 90

4.6 Algoritmos de simulação em R 92

5

Bibliografia . . . 97

(8)

1 — Revisão de alguns conceitos estatísticos

1.1 Comentário inicial

Antes de tratar dos problemas de interesse deste curso, vamos fazer uma pequena revisão acerca de algumas ferramentas básicas que serão necessárias para o bom entendimento do que virá nos demais capítulos.

1.1.1 Variáveis Aleatórias1

Seja(W,F,P)um espaço de probabilidade. Denominamos devariável aleatória qualquer funçãoX:W!Rtal que:

X 1(I) ={w2W:X(w)2I}2F

para todo intervaloI⇢R. Dito de outra forma, X é variável aleatória se sua imagem inversa para intervalosI⇢Rpertencerem à sigma-álgebraF.

Portanto, uma variável aleatória é uma função do espaço amostralWnos reais, para a qual é possível calcular a probabilidade de ocorrência de seus valores. Assim, para cada elementow2Wtemos um número real X(w), além de certa probabilidade P{X=X(w)}associada.

1Ver Magalhães(2011)

(9)

1.1.2 Cadeias de Markov2

Seja uma sequência de variáveis aleatóriasX0,X1, ...,que assumem valores dentro do conjunto{0,1, ...,k}. Interpreta-seXncomo o estado de algum sistema no instante

‘n’, de tal forma que o sistema encontra-se no estado ‘i’ no instante ‘n’ seXn=i.

Diz-se que a sequência de variáveis aleatórias forma umacadeia de Markovse, cada vez que o sistema estiver no estado ‘i’, existir uma probabilidadefixa-Pi j - de que o sistema passe para o estado ‘j’. Ou seja, parai0, ...,in 1,i,j:

P{Xn+1=j|Xn=i,Xn 1=in 1, ...,X0=i0}=Pi j

Chama-sePi j deprobabilidades de transiçãoda cadeia de Markov, tal que:

Pi j 0

Â

k

j=0Pi j=1 i=0,1, ...,k

Também é conveniente arranjar as probabilidades de transição de tal forma a obter- mos a matriz de probabilidades de transição P:

P00 P01 ... P0k

P10 P11 ... P1k

... ... ... ...

Pk0 Pk1 ... Pkk

Note que se conhecermos a composição da matriz de probabilidades de transição, bem como a distribuição de X0, poderemos calcular todas as probabilidades de interesse. Por exemplo, a função de probabilidade conjunta deX0, ...Xné dada por:

P{Xn=in,Xn 1=in 1, ...,X1=i1,X0=i0}= P{Xn=in|Xn 1=in 1, ...,X0=i0}.P{Xn 1=in 1, ...,X0=i0}= Pin 1,inP{Xn 1=in 1, ...,X0=i0}=...= Pin 1,in.Pin 2,in 1....P{X0=i0}

Uma definição útil neste curso3para cadeia de Markov diz: O processo em tempo discreto(Xn)n2N tendo E como espaço de estados é umacadeia de Markov se existir uma funçãoF:E⇥[0,1]!E tal que para todon 1 :Xn=F(Xn 1,Un), ondeU1,U2, ...é uma sequência de variáveis aleatórias i.i.d. no intervalo[0,1].

2Ver Ross(2007)

3Ver Ferrari, P. A.; Galves, A(1997)

(10)

1.1.3 Lei fraca dos grandes números

Para demonstrar a lei fraca dos grandes números iremos primeiramente nos valer de duas ferramentas importantes, adesigualdade de Markove adesigualdade de Chebyshev.

Desigualdade de Markov

SejaZ2{0,1,2,3, ...}uma variável aleatória. EntãoP{Z>u}E(Z)u . Demonstração:

E(Z) =

Â

z=1zP{Z=z}=

u 1

z=1

Â

zP{Z=z}+

Â

z=uzP{Z=z}

Â

z=uzP{Z=z}

Â

z=uuP{Z=z}= u

Â

z=uP{Z=z}=uP{Z u} Assim: P{Z>u} E(Z)

u Desigualdade de Chebyshev

Seja Z uma variável aleatória com valores reais, comE(|Z|)<•eV(Z) =s2<•, então8e>0 P{|Z E(Z)|>e}Var(Z)e2 .

Demonstração: Segue da desigualdade de Markov

• P{|Z E| e}=P{(Z E(Z))2 e2}

• W = [Z E(Z)]2

Usando a notação:P{W e2}, ondee>0)W 0, então usando a desigualdade de Markov:

P{W >e2}E(W) e2 )

(11)

P{|Z E(Z)|>e}

Var(Z)

z }| {

E{[Z E(Z)]2} e2

Demonstração da LFGN usando as desigualdades apresentadas

P{|1 n

Â

n i=1

yi

z }| {q

E(Yi)|>e}=P{|1 n(

Â

n i=1

Yi nq)|>e}= P{|1

n

Â

n i=1

(Yi q)|>e}=P{|

Â

| (Y{zi q)}

Z

|>|{z}ne

e

}

Usando Chebyshev !P{|

Â

(Yi q)|>ne}Var(Z)(ne)2 =Var(Â

i.i.d.

z }| { (Yi q)) (ne)2 =

indep. de(Y1,Y2, ...) =Âni=1

s2

z }| { Var(Yi q)

(ne)2 = ns2 n2e2 =1

n s2 e2

| {z }

!0

n!•

Assim, obtemos o seguinte resultado:

P{|1 n

Â

n i=1

yi

z }| {q

E(Yi)|>e}1 n

Var(Yi) e2 !0

n!•

(12)

Simulação

Conceitos importantes Probabilidade invariante Modelo de Ehrenfest

Inferência estatística em cadeias de Markov

Caso geral

Caso de alcance k 1 Exercícios de fixação Exercícios teste

2 — Cadeias de Markov

2.1 Objetivo do curso

Interpretar séries de 0’s e 1’s, associando um modelo probabilístico a cada uma dessas séries através de procedimento estatístico:Seleção estatística de modelos.

Discretização: Spike sorting

Notação:

X(i)n=

⇢ 1, há disparo do neurônio i no instante de tempo n 0, caso contrário

(13)

2.2 Pseudo-algoritmo de simulação de uma cadeia de Markov

•Este algoritmo irá assumir sempre valores num alfabeto ‘A’ finito.

1. Atribuir um valor escolhido em A aX0. 2. Para todon 1.

2.1. Selecionar um número aleatórioUn2[0;1], com distribuição uniforme independente do passado.

2.2. Xn= f(Xn 1,Un)onde f:A⇥[0;1]!A.

2.2.1 Simulação

Seja(Xn(0))n 0uma evolução Markoviana assumindo valores no alfabetoA={0,1} e que pode ser simulada através do seguinte algoritmo:

Passo 1.X0(0)=0;

Passo 2. Paran 1, definimos1:

( Xn(0)=0, se Un0,7 Xn(0)=1, se Un>0,7

! Note que o subscrito a, emXa(b), indica o instante do tempo que estamos tratando. Já o subscrito b, indica qual o valor inicial da sequência. Neste caso a sequência assume o valor inicial b. Usaremos o parênteses para indicar o símbolo inicial da sequência. Se a cadeia considera apenas 1 passo para trás, então chamamos de cadeia de Markov de alcance, ou ordem, 1. Isso ficará mais claro ao longo do texto.

Exemplo 2.1 Considere a seguinte série: (2,1,1,2,1,1,2,1,1). Ela simula a batida de uma valsa. Veja que as seguintes possibilidades são possíveis:

se 8<

:

Xn 1=2!Xn=1 Xn 1=1!

⇢ Xn 2=1!Xn 1=1!Xn=2 Xn 2=2!Xn 1=1!Xn=1

Veja que para saber o próximo passo preci- samos considerar até 2 passos atrás. As- sim, a cadeia de Mar- kov da valsa é de or- dem 2!

1onde(Un)n 1é uma sequência de variáveis aleatórias i.i.d. com distribuição uniforme em[0;1].

(14)

2.3 Conceitos importantes

Definição 2.3.1 Uma cadeia de Markov é de alcance ‘k’ se possuir o seguinte algoritmo:

• Inicialização: Escolho valores paraX k, ...,X 1.

• Paran 0:Xn= f(Xn 1,Xn 2, ...,Xn k;Un), onde(Un)né uma sequência de variáveis aleatórias i.i.d. com distribuição uniforme em[0;1].

Definição 2.3.2 Seja a cadeia da Markov de alcance 1:Xn= f(Xn 1;Un)com função f:A⇥[0;1]!A. EntãoP{Xn=b|Xn 1=a}é dado por:

P{Xn=b|Xn 1=a}=P{f(Xn 1,Un) =b|Xn 1=a}= P{f(a,Un) =b|Xn 1=a}=P{f(a,Un) =b}

Exemplo 2.2 Considere o seguinte exemplo onde, a partir das funções, calcula-

mos a probabilidade de transição:

f(0,u) =

⇢ 0 se u0,7 1 se u>0,7

f(1,u) =

⇢ 0 se u0,4 1 se u>0,4

• p(1|0) =P{f(0,u) =1}=p(u>0,7) =0,3

• p(0|0) =P{f(0,u) =0}=p(u0,7) =0,7

• p(1|1) =P{f(1,u) =1}=p(u>0,4) =0,6

• p(0|1) =P{f(1,u) =0}=p(u0,4) =0,4 Note que: p(1|0) +p(0|0) =p(1|1) +p(0|1) =1.

Ou seja, dada a função: f :A⇥[0;1]!A, calculamos a probabilidade de transição:

p(b|a) =P{f(a|u) =b}

(15)

! Como convenção definimos a probabilidade de transição ‘p’ como sendo:

p=

P(0|0) P(1|0) P(0|1) P(1|1)

Cada linha representa o valor que aconteceu no instante anterior, enquanto que cada coluna representa o valor que irá acontecer no instante seguinte.

Além disso, note que a probabilidade de transição ‘p’ é unicamente determi- nada pela função ‘f’.

Exemplo 2.3 Neste exemplo a função não é dada. Tem-se que o alfabeto consi- derado é o conjunto: A ={1,2,3}. Assim, a matriz de probabilidades é:

p=

1 2 3

1 0,2 0,2 0,6! 2 0,7 0,1 0,2 3 0,5 0,4 0,1

! Note que a escolha de f não é única.

Exercício 2.1 Monte uma outra função ˜f que também represente as probabili-

dades da matriz de transição p anterior.

Para montar a função ‘f’ é importante observar que:

f(a,u) =

Â

x2A

x.1{u2Ia

x}

ondeIxa(x2A)é a partição disjunta de [0;1] para cadaa2A.

Condição : 8<

:

Sx2AIxa= [0;1]

|Ixa|=p(a|x).

se x6=x0 , IxaTIxa0= /0

(16)

Exemplo 2.4 Este exemplo servirá para mostrar como uma cadeia de Markov não tem memória de seu valor inicial. Para tanto, considere a notação Xn(a) em que o subscrito ‘a’ representa o valor inicial da cadeia. Assim, distinguiremos duas sequências através deste símbolo. Agora, considere a seguinte matriz ‘p’ de transição, bem como um esquema das probabilidades:

p=

0 1

✓ ◆

0 0,7 0,3 1 0,3 0,7

0 1 0

0

1

0,3 0,6

0 1 1 u

! Veja com atenção a forma como o esquema foi criado. Do lado esquerdo, os números 0 e 1 indicam o estado no instanteXn 1. A reta indica os valores que a variável aleatóriaUnpode assumir no intervalo [0;1]. Note que a parte de cima da reta indica qual o valor queXnassume no instante n. Há uma probabilidade deXnassumir o valor 1 de 30%, ou seja, 0,6 - 0,3. Da mesma forma, dado queXn 1=0, a probabilidade deXn=0 é 70%.

Na parte de baixo da reta é exibido o que pode acontecer com a variável aleatória, dado que no instanteXn 1ela assumiu o valor 1. Verifique que esta representação das probabilidades é exatamente a mesma que a exibida na matriz de probabilidades ‘p’!

Continuando, vamos simular ao mesmo tempo o par(Xn(0),Xn(1))2A2, ondeA= {0,1}. Ou seja, duas sequências regidas pela mesma matriz de probabilidades de transição, porém com valores iniciais distintos.2 Dessa forma teremos dois casos possíveis:

• Se(Xn(0)1,Xn(1)1)= (0,1) ou (1,0)

– Seun0,3)(Xn(0),Xn(1))= (0,0) – Se 0,3<un0,6)(Xn(0),Xn(1)) = (1,1) – Se 0,6<un1)(Xn(0),Xn(1)) = (0,1)

• Se(Xn(0)1,Xn(1)1)= (0,0) ou (1,1)

2(Xn(0),Xn(1)) =f(Xn(0),Xn(1),Un)

(17)

– Seun0,3)(Xn(0),Xn(1)) = (0,0) – Se 0,3<un0,6)(Xn(0),Xn(1)) = (1,1) – Se 0,6<un1)(Xn(0),Xn(1)) = (0,0)

Ou seja, seXn(0)1=Xn(1)1entãoXn(0)=Xn(1). Assim, no instante em que os estados da cadeia se igualam as probabilidades ficam as mesmas. Observe a cadeia redutível com uma classe fechada (Pontilhado).

(0,0)

(1,1)

(1,0)

(0,1)

? Qual o valor da probabilidadeP{Xn(0)6=Xn(1)}?

P{Xn(0)6=Xn(1)}= P{u0>0,6;u1>0,6;...;un>0,6}= P{u0>0,6}.P{u1>0,6}...P{un>0,6}=0,4n+1 Portanto, paran!•, P{X(0)n 6=X(1)n }=0

Ou seja, a cadeia de Markovperde a memória do valor inicial.

! Consequência da perda de memória da cadeia de Markov:

9única medida de probabilidadeµem A tal que8a e b:

|P{Xn(a)=b} µ(b)|(0,4)n+1

(18)

2.3.1 Probabilidade invariante

Retomando a definição 1.3.2, temos que:

Seja a cadeia da Markov de alcance 1: Xn = f(Xn 1;Un) para dada função f : A⇥[0;1]!A. Qual a probabilidade deXn=b, dado queXn 1=a?3

p(b|a) =P{Xn=b|Xn 1=a}=P{f(Xn 1,Un) =b|Xn 1=a}= P{f(a,Un) =b|Xn 1=a}=P{f(a,Un) =b}

•Dada a funçãof, existe uma única matrizp:Ak⇥A![0;1]tal que4: p(b|a 1k) =P{f(a 1k,Un) =b}=P{Xn=b|Xn kn 1=a 1k}=

=P{f(Xn kn 1,Un) =b|Xn kn 1=a 1k} !Depende só deUn

Assim, a matriz de probabilidades de transição de ordem k tem a seguinte proprie- dade:

0p(b|a 1k)1

8a 1k,

Â

b2A

p(b|a 1k) =1

Reciprocamente:

Dada a matriz p:Ak⇥A![0;1], existem muitas funções f:Ak⇥[0;1]!Aque fornecem o algoritmo de simulação para uma cadeia de Markov de alcance k e matriz p.

3a 1k= (a k, ...,a 1)

4Cuidado com a notação. Veja que agora os subscritos indicam quais elementos estamos tratando:

{Xn kn 1=a 1k}={Xn k=a k, ...,Xn 1=a 1}

(19)

Caso k=1:mProbabilidade invariante com a matriz p. A probabilidade µ: A! [0;1]é invariante com respeito a p se,8b2A:

µ(b) =

Â

a2A

µ(a)p(b|a)

Ou seja, escolhemos o estado inicial com a medida de probabilidadeµ: Inicialização:X 1!acom probabilidadeµ(a).

Escolhi o elemento ‘a’ com probabilidadeµ(a)e quero saberp(b|a).

a b

-1 0

p(b|a) 1 Passo

Quero saber a probabilidade de no instante ‘0’ aparecer o símbolo ‘b’.

P{X0µ=b}= f( |{z}X 1 Escolho comµ

,U0) Graficamente:

A A

a

b

-1 0

Qual a probabilidade de termos

‘b’ após o primeiro passo.

p(b|a)

X−1=

P{X0µ =b}=

Â

a2A

µ0(a)p(b|a)

? Dado ‘p’, como selecionarµ0de forma que:µ1=µ0(Invariante).5

5µ0: Distribuição inicial.µ1Dist. após 1 passo.!µ1(·)=Âaµ0(a)p(·|a)

(20)

•Mostrar que qualquer cadeia de Markov tem sempre um único estado invariante e sempre é possível alcançá-lo. Dados:A={0,1}. p:A2![0;1]

Simular as 2 cadeias ao mesmo tempo:

p=

0 1

✓ ◆

0 0,2 0,8 1 0,6 0,4

0 1 1

0

1

0,2 0,6

0 1 0 u

Definir:

(X0(0),X0(1)) = f((0,1),U0) = 8<

:

(0,0) U0<0,2 (1,1) 0,2<U0<0,6 (1,0) 0,6<U0<1 SeXm(0)=Xn(1)para algum n, entãoXm+1(0) =Xn+1(1)

Assim:P{X0(0)6=X0(1)}=0,4. Generalizando: P{Xn(0)6=Xn(1)}= (0,4)n+1 Distribuição após o instante ‘n’ da cadeia que começou com símbolo ‘a’:

µn(a)(·) =P{Xn(a)=·}

Proposição 2.3.1n(0)(x) µn(1)(x)||{z}!

n!•

0 Demonstração:

Primeiro veja que:P(F) =E(1F) =1.P{1F =1}+0.P{1F=0}=P(F) Agora, pela definição temos:

n(0)(x) µn(1)(x)|=|P{Xn(0)=x} P{Xn(1)=x}|=

=|E(1

Xn(0)=x) E(1

Xn(1)=x)|=|E(1

Xn(0)=x) 1

Xn(1)=x|=

=E(1

Xn(0)6=Xn(1)) =P{Xn(0)6=Xn(1)}= (0,4)n+1!0 Ou seja:

nlim!•µn(0)(x) = lim

n!•µn(1)(x) =µ(x)

Vamos chamar essa probabilidade limite comum deµ (Probabilidade Invariante).

(21)

Voltando ao exemplo:

p=

0 1

✓ ◆

0 0,2 0,8 1 0,6 0,4

0,2 0,6

min{p(0|0),p(0|1)}

min{p(0|1),p(1|1)}

p(1|0)−p(1|1) = p(0|0)−p(0|1)

0,4 Assim6:

n(0)(x) µn(1)(x) =|p(1|0) p(1|1)|(n+1)

!

Mas no caso em queXnsão v.a. independentes: p(1|0) =p(1|1), ou seja, o passo atual não depende dos anteriores.

No caso k=0: Xn= f(Un), ou seja, não depende dos valores anteriores (···,Xn 2,Xn 1).

Problema 2.1 Tenho 2 urnas com N bolas numeradas de 1 a N. Jogo uma moeda honesta e se sair cara troco de urna a bola cujo número foi sorteado. Se sair coroa não faço nada e recomeço. Após um número grande de rodadas, como será a distribuição das bolas nas duas urnas? Ela depende da forma como inicialmente estavam distribuídas as bolas entre as duas urnas? Esse problema é uma motivação para o próximo assunto.

URNA A URNA B 1

9 22

N URNA

1 2 3 4 BOLA

A A B A =Xn

6Se o tamanho do alfabeto for|A|>3, ao invés do sinal de igualdade teremos.

(22)

2.4 Modelo de Ehrenfest

Proposto em 1907 por Paul e Tatjana Ehrenfest, o modelo descreve a evolução de um gás entre dois compartimentos fechados7. Considere dois compartimentos interligados, em que a conexão é regulada por uma válvula. Inicialmente todo gás está num único compartimento. A experiência começa quando se permite a comunicação das duas câmaras. Se indicarmos o primeiro compartimento com o símbolo ‘0’ e o segundo por ‘1’, e supondo queN é o número de moléculas do gás, então o passeio pode ser visto como uma descrição detalhada da posição dasN moléculas. Para tanto, define-se a variável aleatóriaXn(a)(i)que representa o número do compartimento que a moléculaise encontra no instanten, em queadescreve a posição inicial da molécula(a(i) =0 i=1, ...,N). A partir desse modelo, são levantadas algumas perguntas de interesse:

• Qual a situação típica do modelo? Qual a probabilidade invariante dessa evolução?

• Se o modelo é reversível, quanto tempo leva para o gás voltar todo para o compartimento inicial?

• Quanto tempo leva para o sistema voltar à configuração inicial? Sabe-se que o número de avogrado é de 1023e que o tempo para cada molécula mudar de tanque é de 1 segundo... (Poderia levar bilhões de anos!!!)

2.5 Inferência estatística em cadeias de Markov

Problema 2.2 Dada uma amostra (X k=a k, ...,X 1=a 1,X0=a0, ...,Xn=an), gerada por uma cadeia de Markov de alcance ‘k’ conhecido e matriz de probabilidade de transição desconhecida, como podemos estimar a matriz?

Método: Estimação por máxima verossimilhança. A ideia é que a matriz esti- mada ˆpn seja aquela que maximiza a ‘verossimilhança’ da amostra, ou seja, a probabilidade de ocorrência da amostra!

Vamos supor que a matriz probabilidade de transição seja: p2Mk(A). Repare que a

7Ver Ferrari, P. A.; Galves, A.(1997)

(23)

notação deMk(A)refere-se a toda classe de matrizes de transição de alcance k sob o alfabeto finito A.

Para ilustrar, vamos resolver este problema usando o alfabetoA={0,1}, traba- lhando com uma cadeia de alcance k=1 e supondo ter selecionado a seguinte amostra:

X 1=0,X0=0,X1=1,X2=0,X3=0,X4=1,X5=1,X6=0,X7=0,X8=0,X9=1,X10=1

Notação 2.1. As seguintes igualdades serão usadas de agora em diante:

• {Xn1=an1}={X 1=a 1,X0=a0, ...,Xn=an}

• P{Xr=ar|Xr 1=ar 1}=p(ar|ar 1) Agora observe que:

P{Xn1=an1}=P{X 1=a 1}.P{X0n=an0|X 1=a 1}= P{X 1=a 1}.P{X0=a0|X 1=a 1}.P{X1n=an1|X01=a01}=

P{X 1=a 1}.

n r=0

.P{Xr=ar|Xr11=ar11}

| {z }

a última informação é que importa

Voltando ao nosso exemplo:

P{Xn1=an1}=P{X 1=0}.p(0|0).p(1|0).p(0|1).p(0|0).p(0|1).

p(1|1).p(0|1).p(0|0).p(0|0).p(1|0).p(1|1) =

=P{X 1=0}.p(0|0)4.p(1|0)3.p(0|1)2.p(1|1)2

Veja que a potência 4 em p(0|0)4diz respeito ao número de transições de 0 para 0 na amostraX101. Além disso, se somarmos 4+3+2+2=11, obtemos o número de vezes que temos transições.

Portanto, generalizando temos que:

P{Xn1=an1}=P{X 1=a 1}.

(x,y)2A2

.p(y|x)Nn(x,y)

(24)

Notação 2.2. A seguinte notação é muito útil e diz respeito a forma como fazemos a contagem:

• Nn(x,y) =Âtn=01

{Xt 1=x,Xt=y}

Exemplo 2.5 Primeiro vamos considerar a amostra até o instante n: X1, ...,Xn. Agora sejam:

• Nn(x,y):(x,y)2A2.

• Xn=z.

• Xn+1=w.

Nn+1(x,y) = 8<

:

Nn(x,y) se x6=z

Nn(z,y) se x=z mas Xn+1=w6=y Nn(z,y) +1 quando Xn=z e Xn+1=w

Chamamos a verossimilhança da amostraXn1=an1relativamente à matriz ‘p’ o valor:

P{X 1=a 1}.

(x,y)2A2

.p(y|x)Nn(x,y)

Vamos indicar a matriz p como índice deP:

Pp{Xn1=an1}=P{X 1=a 1}.

(x,y)2A2

.p(y|x)Nn(x,y)

Assim dada a amostraan1e supondoP{X 1=a 1}=1, queremos calcular ˆp2 M1(A)que maximiza:

Pp{Xn1=an1}=1.

(x,y)2A2

.p(y|x)Nn(x,y)

Portanto:

ˆ

p=argmax{Pp{Xn1=an1}:p2M1(A)}

(25)

Voltando ao exemplo numérico do problema 2.2:

Pp{X101=a101}=p(0|0)4

| {z }

a

p(0|1)3

| {z }

1 a

p(1|0)2

| {z }

1 b

p(1|1)2

| {z }

b

Supondo a matriz:

p=

✓ a 1 a

1 b b

Quero achar a matriz:

ˆ p=

✓ aˆ 1 aˆ 1 bˆ bˆ

Que maximizaPp{X101=a101}

Para achar o máximo, bastar derivar e igualar a zero a função. Para facilitar, vamos renomear e aplicar o logaritmo antes de derivar:

log(P(a,b){X101=a101}) =log(a4+ (1 a)3+ (1 b)2+b2) =

=4loga+3log(1 a) +2log(1 b) +2logb Derivando e igualando a zero:

∂a log(a,b) = 4 aˆ

3

1 aˆ =0!aˆ =4 7

∂blog(a,b) =2⇣1 bˆ

1 1 bˆ

⌘=0!bˆ =1 2

•Finalmente, veja que8: aˆ

1 aˆ =4

3 =N10(0,0) N10(0,1)

bˆ 1 bˆ =2

2= N10(1,1) N10(1,0) aˆ = 4

4+3= N10(0,0)

N10(0,0) +N10(0,1) bˆ = N10(1,1) N10(1,1) +N10(1,0)

8p(0ˆ |0) =47: Proporção de vezes que aparece um 0 seguido de outro 0.

(26)

Resumindo:

Fixada a amostraXn1=an1, temos:

log({p(y|x):(x,y)2A2}) =logP{Xn1=an1}=

Â

(x,y)

Nn(x,y)logp(y|x)

Queremos encontrar o máximo valor de log({p(y|x):(x,y)2A2})como função de p={p(y|x):(x,y)2A2}.

Assim, temos um problema de otimização com vínculo!

0p(y|x)1 e 8x

Â

y2A

p(y|x) =1

Exercício 2.2 Tendo em vista o que foi visto até agora, e supondo que p2 M2(A), calcule uma expressão paraPp{Xn2=an2}.

Problema 2.3 Este problema irá motivar a construção de um caso geral a seguir.

Pergunta:Suponha que seja dada a amostraXn1=an1. Queremos estimar a matriz que gerou a amostra.

Critério:Máxima verossimilhança. Vamos usar a matriz estimada ˆp, aquela que maximiza a chance de ocorrência daquela amostra em particular.

• M1(A) é a classe de matrizes probabilidade de transição de alcance 1 no conjunto A.

• pˆ=argmax{Pp{Xn1=an1}:p2M1(A)}. Supondo queP{X 1=a 1}=1 Considere:

• AlfabetoA={0,1}

• Matriz de probabilidade de transição p2Ma(A)tal que:

p=

✓ a 1 a

1 b b

a,b 2[0;1]

(27)

Agora seja a função a maximizar:

L(a,b) =P(a,b){Xn1=an1}=aNn(0,0)(1 a)Nn(0,1)bNn(1,1)(1 b)Nn(1,0)

O objetivo é calcular ˆa e ˆb que maximizam a verossimilhança da funçãoL(a,b). Para tanto, vamos otimizar derivando e igualando a zero:

L

∂a =0 e∂bL=0

Finalmente iremos obter:

aˆ = Nn(0,0)

Nn(0,0) +Nn(0,1) e bˆ = Nn(1,1) Nn(1,1) +Nn(1,0)

! Veja que ˆbindica a proporção estimada de vezes que a partir do elemento 1 obtemos o símbolo 1 no passo seguinte.

Notação 2.3. O contador Nn(1,0)indica que no primeiro instante temos o elemento 1, e no instante seguinte o elemento 0. Portanto sempre deve-se ler da esquerda

para a direita, como sendo o passado para o futuro.

Nn(1,1) +Nn(1,0) = Número de vezes que o símbolo 1 aparece nas posições (X 1, ...,Xn 1)seguido por qualquer outro símbolo.

Notação 2.4. Assim, para amostras de tamanho ‘n’ temos:

ˆ

pn(1|1) =Nn(1,1) Nn 1(1)

? Será que se a amostra for gerada por cadeia de matriz ¯p, o estimador ˆpnn!!•

¯

p? Ou seja, estimador é não viesado?

É possível provar que o estimador é consistente usando a lei dos grandes números!

(28)

2.5.1 Caso geral

• Conjunto A finito

• Amostra dada:Xn1=an1

• pˆ=argmax{ ’

(a,b)2A2.p(b|a)Nn(a,b):p2M1(A)} Cálculo do argmax(log{’p(b|a)Nn(a,b)}) = Â

(a,b)2A2Nn(a,b)log(p(b|a)) Dificuldade: Vínculo

0p(b|a)1, 8a, Â

b p(b|a) =1

Usando multiplicadores de Lagrange, vamos obter o máximo da função de verossi- milhança:

•F(p(b|a),la,a2A,b2A)=

=

Â

a2A{

Â

b2A

Nn(a,b)log(p(b|a)) +la{1

Â

b2A

p(b|a)}}=

=

Â

(a,b)2A2

Nn(a,b)log(p(b|a)) +

Â

a2A

la{1

Â

b2A

p(b|a)}

Derivando e igualando a zero:

∂F

∂p(u,v) ! se (a,b)6= (u,v)! ∂F

∂p(u,v)=0 então:

∂F=∂Nn(u,v)logp(v|u)

∂p(u,v) +∂lub6=vp(b|u) p(v|u)}

∂p(u,v) Antes de continuar: Observação Importante!

Seja o alfabeto: A={0,1}.

e considere a notação: p(0|0) =x, p(1|0) =y, p(0|1) =z, p(1|1)=w

(29)

Assim, montamos a seguinte função:

F(x,y,z,w,l0,l 1) =N(0,0)logx+N(0,1)logy+

N(1,0)logz+N(1,1)logw+l0[1 (x+y)] +l1[1 (z+w)]

O que resulta nas seguintes derivadas:

∂F

∂x =0)Nn(0|0).1

x l0=0

∂F

∂y =0)Nn(0|1).1

y l0=0

···

Retomando, e tendo em mente a observação anterior temos:

∂F

∂p(b|a) =0) Nn(a,b)

p(b|a) la=0)p(bˆ |a) =Nn(a,b) lˆa

Vamos achar o valor de ˆla:

∂F

∂la =0)1 [

Â

p(b|a) =ˆ 0])

Â

p(b|a) =ˆ 1

{da equação anterior:}

Â

b

Nn(a,b) lˆa

=1 )lˆa=

Â

b2A

Nn(a,b) Inserindo o resultado, obtemos:

ˆ

p(b|a) = Nn(a,b) Âc2ANn(a,c)

(30)

2.5.2 Caso de alcance k 1

• Conjunto A finito. Amostra dada:Xnk=ank

• Matrizp2Mk(A)ep=Ak⇥A![0;1]

• Âb2Ap(b|a 1k) =1; 8a 1k e 0p(b|a 1k)1

Temos dada a amostraXnk=ank e conhecemos o alcance k. Queremos estimar ˆ

p2Mk(A)supondo queP{X k1=a 1k}=1.

Pp{Xnk=ank}=P{X k1=a 1k}.

n t=0

p(at|att k1)

| {z }

agrupando termos iguais

=⇠⇠⇠⇠⇠⇠:1 P{X k1=a 1k}.

(x 1k,y)2Ak⇥A

p(y|x 1k)Nn(x1k,y)

Portanto queremos: ˆp=argmax

(x 1k,y)

p(y|x 1k)Nn(x 1k,y)

| {z }

L(p)

.

Para facilitar as contas, vamos aplicar o log na função L(p), o que permite trocar o produtório pelo somatório, sem perder a generalidade do processo de maximização.

logL(p) =

Â

(x 1k,y)

Nn(x k1,y).logp(y|x 1k) Usando a seguinte notação: l= (l{x 1

k}:x 1k2Ak)

Escrevemos o Lagrangeano com o problema de vínculo da seguinte forma:

F(p,l) =logL(p) +

Â

lx 1k[1

Â

y2A

p(y|x 1k)]

Para obter o máximo, derivamos e igualamos a zero como o usual:

∂F

∂p(y|x 1k) =0 e ∂F

∂lx 1 k

=0 E a partir dos resultados apresentado obtemos:

Nn(x 1k,y) lˆx 1

k

=p(y|xˆ 1k)

Â

y p(yˆ |x 1k) =1

) p(yˆ |x 1k) = Nn(x 1k,y) Âz2AN(x 1k,z)

(31)

2.6 Exercícios de fixação

1. Seja(Xn(a))n 0(Dadoa2A={0,1}) uma evolução Markoviana assumindo valores no alfabeto A e que pode ser simulada através do seguinte algoritmo:

Passo 1. X0(a)=a;

Passo 2. Paran 1, definimosXn(a)=0, seUnh(Xn(a)1), ondeh(0) =1/3 eh(1) =1/5, eXn(a)=1, seUn>h(Xn(a)1),

onde(Un)n 1é uma sequência de variáveis aleatórias i.i.d com distribuição uniforme em[0,1].

(i) Qual é a matriz de probabilidades de transição desta cadeia de Markov?

(ii) CalculeP(X2(1)=1) =P(X2(1)=1|X0(1)=1).

2. Dadoa2{1,2,3}definimos a sequência{Xn(a)}n=0por:

X0(a)=a

Xn(a)=F(Xn(a)1,Un), 8n 1

onde{Un}n=1é uma sequência de variáveis aleatórias i.i.d com distribuição uniforme em(0,1)eF(x,u)está definida por:

F(x,u) = 8>

<

>:

1, se 0u<h1(x) 2, seh1(x)u<h2(x) 3, seh2(x)u1 onde

h1(x) = 8>

<

>:

1/2, sex=1 1/3, sex=2 1/4, sex=3 e

h2(x) = 8>

<

>:

3/4, sex=1 2/3, sex=2 1/2, sex=3

(32)

(i) Calcule as probabilidades de transição desta cadeia de Markov.

(ii) Calcule sua ou suas probabilidades invariantes.

(iii) Diga tudo que puder sobre essa cadeia de Markov (irredutibilidade, etc.).

3. Sejapa matriz de probabilidades de transição emA={1,2,3}, assim definida 0

@

1 2 3

1 0 1/2 1/2

2 1/3 1/3 1/3 3 1/4 1/4 1/2

1 A.

Queremos simular uma realização da cadeia de Markov(Xn(1))n 0assumindo valores no alfabeto A e tendo o símbolo 1 como estado inicial (ou seja, X0(1)=1).

(i) Proponha um algoritmo de simulação para esta cadeia.

(ii) A partir do algoritmo proposto em (a), simule uma realização dos dez primeiros símbolos desta cadeia, ou seja, simule uma realização da sequência(X1(1), . . . ,X10(1)).

(iii) A cadeia é irredutível? É aperiódica?

(iv) A cadeia admite alguma probabilidade invariante? Se a resposta for sim, calcule-a. Ela é única?

4. Como você simularia a cadeia de Markov assumindo valores no conjunto {0,1, . . . ,N}e com probabilidades de transição

p(x+1|x) =N x N p(x 1|x) = x

N,

para todox=1, . . . ,N 1 ep(N 1|N) =p(1|0) =1?

(33)

5. Seja(Xn(1,0))n 0 uma evolução Markoviana com memória de alcance 2 as- sumindo valores no alfabetoA={0,1}e que pode ser simulada através do seguinte algoritmo:

Passo 1. X(1,0)2 =1 eX(1,0)1 =0;

Passo 2. Paran 0, definimos Xn1,0=

( 0, seUnh(Xn(1,0)2 ,Xn(1,0)1 ) 1, seUn>h(Xn(1,0)2 ,Xn(1,0)1 )

onde h(0,0) =1/2, h(0,1) =1/3, h(1,0) =1/4h(1,1) =1/5 e(Un)n 1é uma sequência de variáveis aleatórias i.i.d com distribuição uniforme em [0,1].

(i) Qual é a matriz de probabilidades de transição desta cadeia de Markov de ordem 2?

(ii) CalculeP(X2(1,0)=1).

6. Considere a cadeia estocástica(Xn(1,0))n 0definida no exercício anterior. Seja (Yn(1,0))n 2 a cadeia estocástica tomando valores no alfabeto S={0,1}2 satisfazendoYn(1,0)= (Xn(1,0)2 ,Xn(1,0)1 ).

(i) Observe que(Yn(1,0))n 2é uma cadeia de Markov de ordem 1.

(ii) Determine a matriz de transição desta cadeia de Markov.

(iii) O que podemos dizer a respeito de cadeias de Markov de alcance 1 em Ak construidas a partir de cadeias de alcancekemA?

7. Seja(Xn(1))n 0uma cadeia de Markov assumindo valores no alfabeto A= {0,1}, tendo o símbolo 1 como estado inicial e tendo matriz de probabilidades de transiçãopassim definida:

p=

✓0.7 0.3 0.4 0.6

◆ .

(i) Calcule (se existir) a probabilidade invariante desta cadeia. Ela é única?

(ii) Construa simultaneamente as cadeias(Xn(0),Xn(1))com estado inicial 0 e 1, respectivamente, utilizando o algorítmo

(Xn(0),Xn(1)) = f(Xn(0)1,Xn(1)1,Un)

(34)

onde(Un)n 0é uma sequência iid de variáveis aleatórias com distribui- ção uniforme em[0,1]e f:A⇥A⇥[0,1]!A⇥A.Verifique que

P(Xn(0)6=Xn(1)) = (0.3)n

8. Seja(Xn)n 0uma cadeia de Markov assumindo valores num alfabeto finito Acom a matrix de probabilidades de transição p= (p(i|j):i,j2A). Uma medida de probabilidadeµ definida emAé dita reversível com respeito ap se para todo par de elementosie jdeAvaler a igualdade

µ(i)p(j|i) =µ(j)p(i|j).

(i) Mostre que seµ é reversível com respeito a matrixp, entãoµ é invari- ante com respeito ap.

9. Seja(Xn)n 0a sequência definida por Xn=

⇢ 2 sen=3k,k=0,1,2...

1 caso contrário.

Seja (xn)n 0 uma sequência de variáveis aleatórias independentes e iden- ticamente distribuidas tomando valores no alfabeto A={0,1}, tais que P(x=0) =e. Considere a cadeia de estocástica(Yn)n 0definida como

Yn=

⇢ Xn seXn=2 Xnxn caso contrário.

Mostre que(Yn)n 0é uma cadeia de Markov de ordem 2.

10. Seja(Xn(1))n 0a cadeia de Markov de ordem 1 assumindo valores no alfabeto A={0,1}, tendo como estado inicial o símbolo 1 e tendo como matriz de probabilidades de transição

p=

✓ 0,8 0,2 0,4 0,6

◆ .

(35)

Dada uma amostra X1(1), . . . ,Xn(1), para todoa2A definimos o estimador empírico

µˆn(a) =1 n

Â

n t=1

1{Xt(1)=a}

da proporção de ocorrências do símboloana amostra. Nestas condições, o limite limn!+•µˆn(1)existe? Se a resposta for sim, calcule-o.

11. Considere uma realização aleatória(Xn)n=0,...,100de uma cadeia de Markov assumindo valores no alfabetoA={0,1}e com matriz de probabilidades de transição

p=

✓1/4 3/4 3/5 2/5

◆ .

Obteve-se as contagens de todas as sequências de tamanho 2 na amostra:

N100(00) =15,N100(01) =48,N100(10) =21,N100(11) =16. Assumindo queP(X0=1) =1:

(i) Calcule a verossimilhança da amostra.

(ii) Obtenha os estimadores de máxima verossimilhança das probabilidades de transição da matriz p.

(iii) Calcule omaior valor que a verossimilhança da amostra pode assumir.

12. Temos uma amostra X0,X1, . . .X100 de símbolos pertencendo ao alfabeto A={0,1}. Suponhamos que os valores para o número de ocorrência das sequências de tamanho 2 e 3, foram obtidos e registrados, respectivamente, conforme as tabelas abaixo:

a0 N100(a0,0) N100(a0,1)

0 12 40

1 39 9

a0 a1 N100(a0,a1,0) N100(a0,a1,1)

0 0 3 9

0 1 32 7

1 0 9 31

1 1 7 2

(i) Estime as matrizes de probabilidades de transição de alcance 0 (caso independente), 1 e 2 que maximizam a verossimilhança da amostra.

(36)

(ii) Escreva explicitamente as fórmulas para o maior valor que a verossimi- lhança da amostra pode assumir, supondo que ela seja produzida por uma cadeia de Markov de alcance 0 (caso independente), 1 e 2, respecti- vamente, supondo, no caso emk=1, queX0=1 com probabilidade 1 e, no caso em quek=2, queX0=X1=0 com probabilidade 1.

13. Seja(Xn(1))n 0 a cadeia de evolução Markoviana assumindo valores no al- fabetoA={0,1}, tendo como estado inicial o símbolo 1, isto é,X0(1)=1.

Suponhamos que este processo tenha matriz de probabilidades de transição dada por

p=

✓ 1 a a

b 1 b

onde 0<a <1 e 0<b<1.

(i) Calcule, se existir, a medida de probabilidade invarianteµ para esta cadeia.

(ii) O tempo do primeiro retorno da cadeia(Xn(1))n 0ao símbolo 1,T1!1, é definido como

T1!1=inf{n 1 :Xn=1}. Quanto vale a esperançaE[T1!1]?

14. SejamI1,I2, . . .variáveis aleatórias i.i.d., cada uma delas com distribuição uniforme no conjunto{1,2,3}, eV1,V2, . . .variáveis aleatórias i.i.d., cada uma delas assumindo valores em A={0,1}e com P(Vn=1) =1/2 para todo n 1. As sequências(In)n 1 e (Vn)n 1 são independentes entre si.

Construímos agora a cadeia de Markov(Xn)n 0assumindo valores emA3e comXn= (Xn(1),Xn(2),Xn(3)),ondeXn(i)2Aparai=1,2,3, da seguinte maneira:

Passo 1:X0(i) =0 para todoi=1,2,3 ; Passo 2: Para todon 1,

Xn(i) =

(Xn 1(i) , seIn6=i Vn , seIn=i.

(i) Construa a matriz de probabilidade de transição desta cadeia.

(ii) Calcule a probabilidade invariante para esta cadeia utilizando as equa- ções de reversibilidade .

Referências

Documentos relacionados

O presente estudo tem como objetivo avaliar se o uso de um munhão personalizado é capaz de facilitar a remoção do excesso de cimento após a cimentação de

Não só o crack, mas também as drogas de modo geral, e incluem-se aqui também as chamadas drogas lícitas tais como álcool e tabaco, são considerados um

Nos Estados Unidos da América EUA, elas representam cerca de 133 milhões, as quais contribuem para 7 a 10% da mortalidade a cada ano, resultam num gasto dispendido para a saúde de

Para modelação e ajuste do viés arbitral foi usado regressão logística binária sendo “audiência” (público no estádio) e taxa de ocupação, posse de

A operacionalização da implantação do apoio matricial às equipes de Saúde da Família, segundo Relatório do Planejamento da Gestão atual da Saúde Mental se deu

Como consta do art.º 3.º, n.º 1 da CEAL, a Autonomia Local é não só o direito, mas também a capacidade efetiva das Autarquias Locais regularem e gerirem uma parte

Materials and Methods: In a cross-sectional study, the evaluation of p16 [sup]INK4a and Ki-67 immunohistochemistry was performed on 72 cervical biopsies of adolescents and young

Este estudo tem por objetivo geral: Analisar a percepção das usuárias quanto á assistência prestada para o planejamento familiar e como objetivos específicos: