1 Método de Monte Carlo Simples

(1)

1 M´

etodo de Monte Carlo Simples

Finalidade: obter uma estimativa para o valor esperado de uma fun¸cão qualquer g da variável aleatória θ, ou seja, E[g(θ)].

Seja g(θ) uma fun¸cão qualquer de θ. Suponha que quero estimar I = E[g(θ)] sendo θ um variável aleatória com f.d.p. p(θ). Note que

I = E[g(θ)] = Z +∞

−∞

g(θ)p(θ)dθ O m´etodo de Monte Carlo simples estima isto da seguinte forma

ˆ I = ¯g = 1 n n X i=1 g(θi)

sendo (θ1, . . . , θn) uma a.a.s. da distribui¸c˜ao p(θ).

Portanto, os passos deste m´etodo s˜ao

1. Obtenho uma a.a.s. (θ1, . . . , θn) da distribui¸c˜ao p(θ)

2. calculo g(θ1), . . . , g(θn)

3. calculo ˆI = ¯g = 1_nPn

i=1g(θi)

Exemplo 1:

Suponha que quero estimar I =R₁3exp(−θ)dθ. Posso reescrever isto da seguinte forma

I =

Z 3

1

exp(−θ)(3 − 1) 1

3 − 1dθ = E[2 exp(−θ)]

sendo θ uma v.a. com distribui¸cão Unif(1,3). Logo, pelo método de Monte Carlo simples, estimo I da seguinte forma: obtenho uma amostra de tamanho n da distribui¸cão Unif(1,3). Para cada valor amostrado, calculo g(θi) = 2 exp(−θi). Depois calculo

ˆ

I = ¯g = 1 n

Pn

i=1g(θi).

Note que I = − exp(−3) + exp(−1) = 0, 3181. Logo, para n suficientemente grande, teremos ˆI → 0, 3181.

(2)

Exemplo 2:

Suponha que quero estimar I = R₀1exp(−θ)dθ utilizando a distribui¸c˜ao Beta(4,3). Posso reescrever isto da seguinte forma

I = Z 1 0 exp(−θ) p(θ) p(θ)dθ = E exp(−θ) p(θ)

sendo p(θ) a f.d.p. da distribui¸cão Beta(4,3). Logo, pelo método de Monte Carlo simples, estimo I da seguinte forma: obtenho uma amostra de tamanho n da distribui¸cão Beta(4,3). Para cada valor amostrado, calculo g(θi) = exp(−θ_p(θ i)

i) . Depois calculo ˆI = ¯g =

1 n

Pn

i=1g(θi).

Note que I = − exp(−1)+exp(0) = 0, 6321. Logo, para n suficientemente grande, teremos ˆ

I → 0, 6321.

OBS:

Note que podemos estimar o valor de qualquer integral a partir deste m´etodo pois

I = Z b a h(θ)dθ = Z b a h(θ) p(θ)p(θ)dθ = E h(θ) p(θ)

considerando θ uma v.a. com f.d.p. p(θ).

Propriedades do estimador

1. O estimador Î é um estimador não viesado para I pois

E[ ˆI] = E " 1 n n X i=1 g(θi) # = 1 n n X i=1 E[g(θi)] iid = 1 nnE[g(θ)] = E[g(θ)] = I 2. Pela Lei Forte dos Grandes N´umeros, temos que

ˆ I q.c.→ I quando n for suficientemente grande.

(3)

3. A variância do estimador Î é τ = V ar[ Î]indep= 1 n2 n X i=1 V ar[g(θi)] ident.distr. = 1 nV ar[g(θ)]. Note que um bom estimador para V ar[g(θ)] é a variância amostral

Pn

i=1(g(θi)−¯g)2

n−1

sendo ¯g = ˆI. Logo, podemos estimar a variˆancia τ usando o seguinte estimador ˆ τ = 1 n(n − 1) n X i=1 (g(θi) − ¯g)2.

4. Como θ1, θ2, . . . , θn ´e a.a.s., temos que θi iid

∼ p(θ). Logo, temos que Yi = g(θi)

´e independente de Yj = g(θj) quando i 6= j e temos que Y1, . . . , Yn s˜ao v.a.s

identicamente distribu´ıdas. Portanto, pelo Teorema Central do Limite, temos que, quando o tamanho da amostra n ´e suficientemente grande,

ˆ I → W

sendo W uma variável aleatória com distribui¸cão N (I, ˆτ ).

Podemos usar o resultado acima para testar a convergência: se tivermos uma amostra de Î, a distribui¸cão desta amostra tem que convergir para a distribui¸cão normal quando o tamanho da amostra for suficientemente grande. Caso não convirja, pode ser que o tamanho da amostra não seja suficientemente grande. Também podemos estimar o erro deste estimador a partir da amostra: zα/2

√ ˆ τ sendo zα/2 o quantil (1 − α/2) da distribui¸c˜ao normal padr˜ao.

Extens˜ao para o caso multivariado

Suponha que queiramos estimar E[g(θ)] sendo θ = (θ1, . . . , θp). Seja p(θ) a fun¸c˜ao de

densidade de probabilidade do vetor aleat´orio θ. Logo,

I =

Z . . .

Z

g(θ)p(θ)dθ1. . . dθp

(4)

1. Obtenho uma a.a.s. (θ1, . . . , θn) da distribui¸cão p(θ). Note que θié o i-ésimo vetor

de tamanho p gerado da distribui¸c˜ao p(θ). 2. calculo g(θ1), . . . , g(θn)

3. calculo ˆI = ¯g = 1_nPn

i=1g(θi)

Exemplo

Suponha que queremos estimar I = E[θ1θ2] sendo θ = (θ1, θ2) um vetor aleat´orio

com distribui¸cão normal bivariada com vetor de médias repleto de zeros, variâncias iguais a 1 e correla¸cão igual a 0,5. Então podemos obter uma a.a.s. da distribui¸cão N2     0 0  ,   1 0, 5 0, 5 1   

. Calculamos ent˜ao g(θi) = θ1iθ2i e depois calculamos

ˆ I = ¯g.

Note que cov(θ1, θ2) = 0, 5 = E[θ1θ2]−

E[θ1]

E[θ2] = E[θ1θ2]. Logo, ˆI tem que convergir

para 0,5. C´odigo do R: ite = 1000 for(j in 1:ite) { n = 1000 theta = matrix(NA,n,2) for(i in 1:n) { theta[i,] = mvrnorm(1,rep(0,2),matrix(c(1,0.5,0.5,1),2,2)) g[i] = theta[i,1]*theta[i,2]} I[j] = mean(g) } }

(5)

mean(I) var(I)

OBS 1: Note que se quisermos calcular a probabilidade de θ1 < 1 usando o exemplo

acima, podemos gerar n valores da distribui¸c˜ao normal bivariada e calcular quantos destes valores tiveram θ1 < 1.

OBS 2: Note que se quisermos calcular P r(θ1 < 1|θ2 < 1) usando o exemplo acima,

podemos gerar n valores da distribui¸c˜ao normal bivariada, selecionar somente os pontos nos quais θ2 < 1 e calcular quantos pontos selecionados tiveram θ1 < 1.

2 M´

etodo de Monte Carlo via cadeias de Markov

(MCMC)

Antes de falarmos sobre este m´etodo, vamos fazer uma breve introdu¸c˜ao sobre cadeias de Markov.

Dizemos que temos uma cadeia de Markov de primeira ordem quando tivermos uma s´erie X0, X1, . . . , Xt satisfazendo a seguinte condi¸c˜ao

P r(Xt|X0, X1, . . . , Xt−1) = P r(Xt|Xt−1).

Os m´etodos MCMC requerem ainda que a cadeia seja 1. homogˆenea

As probabilidades de transi¸c˜ao de um estado para outro s˜ao invariantes. Para explicar isto, considere que Xt = s sendo s ∈ {0, . . . , S}. Costuma-se dizer que

a variável aleatória Xt está no estado s no tempo t. A probabilidade desta variável

mudar para o estado k no tempo t + 1 n˜ao pode depender de t se a cadeia for homogˆenea.

(6)

2. irredut´ıvel

Cada estado pode ser atingido a partir de qualquer outro em um n´umero finito de itera¸c˜oes.

3. aperi´odica

Não haja estado absorvente. Dizemos que temos um estado absorvente se quando a variável aleatória entrar neste estado, ela permanecer nele com probabilidade 1. Suponha que uma distribui¸c˜_{ao π(x) , x ∈ R}d_{seja conhecida a menos de uma constante}

multiplicativa porém complexa o bastante para não ser poss´ıvel obter uma amostra diretamente. Dada as realiza¸cões {X(t)_{, t = 0, 1, . . .} de uma cadeia de Markov com}

distribui¸c˜ao de equil´ıbro π, temos que X(t) t→∞→ π(x) e 1 ng(X

(t) i )

t→∞

→ Eπ(g(X)) q.c. .

Um algoritmo Monte Carlo via cadeias de Markov para simular uma amostra de uma distribui¸cão p(·) é qualquer método que produza uma cadeia de Markov homogênea, ergódica e irredut´ıvel cuja distribui¸cão estacionária seja p(·). Uma cadeia é ergódica quando ela é aperiódica e recorrente positiva. Uma cadeia é recorrente positiva quando o número médio de passos até que a cadeia retorne a qualquer estado é finito.

2.1 Amostrador de Gibbs

O algoritmo amostrador de Gibbs foi proposto por Geman e Geman (1984) e introduzido a comunidade estat´ıstica por Gelfand e Smith (1990). Usa-se este algoritmo quando amostrar de uma dada distribui¸cão é custoso, complicado ou quando não tem como amostrar diretamente da distribui¸cão. Seja p(θ) a distribui¸cão que tem-se o interesse de amostrar onde θ = (θ1, . . . , θd). Cada um dos componentes pode ser um escalar, um vetor

ou uma matriz. Seja θ−l composto por todos os elementos de θ exceto pelo elemento θl,

l = 1, . . . , d. Sejam pl(θl) = p(θl|θ−l), l = 1, . . . , d as distribui¸c˜oes condicionais completa.

Considere-nas completamente conhecidas. O amostrador de Gibbs consiste num esquema de amostragem baseado em sucessivas gera¸c˜oes das distribui¸c˜oes condicionais completas descrito abaixo:

(7)

1. Determina-se um valor inicial arbitr´ario para cada θl, l = 1, . . . , d, denotando estes

valores por θ(0) = (θ₁(0), . . . , θ(0)_d );

2. Inicializa-se o contador da itera¸c˜ao i = 1;

3. Obtem-se um novo valor θ(i) = (θ(i)₁ , . . . , θ(i)_d ) através de gera¸cões sucessivas das distribui¸cões θ₁(i) ∼ p(θ1|θ2(i−1), . . . , θ (i−1) d ), θ₂(i) ∼ p(θ2|θ1(i), θ (i−1) 3 , θ (i−1) 4 , . . . , θ (i−1) d ), .. . θ_d(i) ∼ p(θ2|θ1(i), . . . , θ (i) d−1);

4. Altera-se o contador de i para i + 1;

5. Repete-se os ´ıtens 3 e 4 at´e que a convergˆencia seja obtida.

A convergência das cadeias de Markov é esperada após um per´ıodo chamado de aquecimento. Para diminuir a autocorrela¸cão dos parâmetros pode-se usar o que denomina-se de espa¸camento. Sejam b − 1 a quantidade de itera¸cões iniciais necessárias para o aquecimento e t o espa¸camento. Então tem-se que as amostras θ(b)_{, θ}(b+t)_{, θ}(b+2t)_{, . . .}

s˜ao usadas como sendo a amostra de θ da distribui¸c˜ao de interesse.

2.1.1 Modelo 1

Suponha que queiramos obter uma amostra de θ1 e θ2 sabendo que

  θ1 θ2  ∼ N2     µ1 µ2  ,   V11 V12 V21 V22     sendo µ1, µ2, V11, V12, V21, V22 conhecidos.

(8)

Amostrando da distribui¸c˜ao exata

Pode-se mostrar que, para i 6= j,

θi|θj ∼ N (µi+ VijVjj−1(θj − µj) , Vii− Vij2V −1 jj )

θj ∼ N (µj, Vjj)

Desta forma, podemos decompor a distribui¸c˜ao conjunta de (θ1, θ2) no produto de normais

da seguinte forma:

p(θ1, θ2) = p(θ1|θ2)p(θ2)

Logo, para obter uma amostra da conjunta, basta amostrar θ2 da distribui¸c˜ao normal com

média µ2 e variância V22e depois amostrar θ1 com média µ1+ V12V22−1(θ2− µ2) e variância

V11− V122V −1 22 .

Outra forma de obter uma amostra da distribui¸cão conjunta usando o programa R é usando a fun¸cão mvrnorm do R. Para isto, tem-se que carregar o pacote MASS.

Amostrando usando o MCMC

Precisamos calcular as distribui¸c˜oes condicionais completas: θ1|θ2 ∼ N (µ1+ V12V22−1(θ2− µ2) , V11− V122V −1 22 ) θ2|θ1 ∼ N (µ2+ V21V11−1(θ1− µ1) , V22− V212V −1 11 ) Exerc´ıcio:

Considere µ1 = 2, µ2 = 1, V11 = V22 = 1 e V12= V21 = 0, 7. Obtenha uma amostra de

(θ1, θ2) da distribui¸c˜ao exata. Depois simule usando o MCMC.

2.1.2 Modelo 2

Suponha que Yi seja o n´umero de pessoas doentes no dia i. Suponha que para os

dias i = 1, 2, . . . , K, consideremos que Yi iid

(9)

consideremos que Yi iid

∼ P ois(φ). Ou seja, estamos considerando que para os K primeiros dias, em m´edia, λ pessoas ficam doentes e para os (n − K) dias seguintes, esta m´edia muda para φ pessoas. Suponha que λ, φ, K sejam desconhecidos. Com uma amostra y = y1, . . . , yn, como podemos estimar o valor de K, λ, φ?

A distribui¸cão das observa¸cões condicionada nos parâmetros é p(y1, . . . , yn|λ, φ, K) = p(y1, . . . , yk|λ, K)p(yk+1, . . . , yn|φ, K)

= _Q_n1

i=1yi

λPKi=1yi_{exp(−λK)φ}Pni=K+1yi_{exp(−φ(n − K))}

Para usar a inferência bayesiana, precisamos atribuir uma distribui¸cão a priori para (K, λ, φ). Considere a priori que estes parâmetros sejam independentes e que λ ∼ G(a2, b2), φ ∼ G(a1, b1) e que K ∼ U nif Disc{1, . . . , n}. Portanto a distribui¸cão

conjunta de (K, λ, φ) a posteriori ´e proporcional a

p(λ, φ, K|y1, . . . , yn) ∝ p(y1, . . . , yn|λ, φ, K)p(λ, φ, K)

∝ λPKi=1yi_{exp(−λK)φ}Pni=K+1yi_{exp(−φ(n − K)) ×}

λa2−1_exp(−b

2λ)φa1−1exp(−b1φ) (1)

Se a fun¸cão acima pudesse ser reescrita como sendo o produto de distribui¸cões conhecidas, eu saberia amostrar da distribui¸cão acima. Porém não consigo isto e, por isso, recorrerei aos métodos de Monte Carlo via cadeias de MarKov para obter uma amostra da distribui¸cão acima. Usarei o Amostrador de Gibbs para isto. Logo, preciso calcular as distribui¸cões condicionais completas a posteriori:

(10)

p(λ|φ, K, y1, . . . , yn) ∝ λ PK

i=1yi_{exp(−λK)λ}a2−1_exp(−b

2λ) ∝ λa2+PKi=1yi−1_{exp(−λ(K + b} 2)) ⇒ λ|φ, K, y1, . . . , yn∼ G(a2+ K X i=1 yi, K + b2) p(φ|λ, K, y1, . . . , yn) ∝ φ Pn

i=K+1yi_{exp(−φ(n − K))φ}a1−1_exp(−b

1φ) ∝ φa1+Pn_i=K+1yi−1_exp(−φ(b 1+ n − K)) ⇒ φ|λ, K, y1, . . . , yn∼ G(a1+ n X i=K+1 yi, n − K + b1) p(K|λ, φ, y1, . . . , yn) ∝   

λPKi=1yi_{exp(−λK)φ}Pni=K+1yi_{exp(−φ(n − K))} _{se K = 1, 2, . . . , n − 1}

λPKi=1yi_exp(−λK) _{se K = n}

e ent˜ao K|λ, φ, y1, . . . , yn tem distribui¸c˜ao discreta com probabilidade P r(K = j) sendo

P r(K = l) =    cλPli=1yi_{exp(−λl)φ} Pn i=l+1yi_{exp(−φ(n − l))} _{se l = 1, . . . , n − 1} cλPli=1yi_exp(−λl) _{se l = n}

sendo c uma constante. Para calcular o valor de c, considere que ql seja igual a

ql =

 



λPli=1yi_{exp(−λl)φ}Pni=l+1yi_{exp(−φ(n − l))} _{se l = 1, . . . , n − 1}

λPli=1yi_exp(−λl) _{se l = n}

e ent˜ao

c = 1

q1+ q2+ . . . + qn

.

Logo, para obter uma amostra da distribui¸c˜ao dada pela equa¸c˜ao 1, faremos os seguintes passos:

1. Inicializo θ(1) _{fazendo λ = 3, φ = 2 e k = 4 ≤ n, por exemplo.}

2. Fa¸co j = 2.

3. Gero λ(j) ∼ G(a2 +

PK(j−1)

i=1 yi, K(j−1)+ b2).

(11)

5. Calculo as probabilidades pl= P r(K = l) para l = 1, 2, . . . , n.

6. Gero K(j) da distribui¸c˜ao discreta com probabilidade p1, . . . , pn.

7. Fa¸co j = j + 1 e repito os 4 últimos passos anteriores até obter convergência. Para calcular as probabilidades pl = P r(K = l) para l = 1, 2, . . . , n, quando n for

grande, teremos que calcular ql e podemos ter que esta medida assume valores muito

altos ou baixos, ocasionando em problemas num´ericos. Sendo assim, podemos usar o seguinte artif´ıcio:

P r(K = l) = ql

q1+ q2+ . . . , qn

= exp (log(ql) − log(q1+ q2+ . . . , qn))

e para calcular log(q1+ q2+ . . . , qn) podemos fazer o seguinte

q = q1 + q2

log(q) = log(q1+ q2) = log(q1) + log (1 + q2/q1) = log(q1) + log (1 + exp(log(q2) − log(q1)))

Inicializo o contador l = 3 e considero q =Pl−1

i=1ql. Desta forma, tenho que

log(q + ql) = log(q) + log (1 + exp(log(ql) − log(q)))

Fa¸co l = l + 1 e repito a equa¸c˜ao anterior at´e obter log(q1 + q2+ . . . , qn). Depois fa¸co

pK = P r(K = l) = exp {log(ql) − log(q1+ q2+ . . . + qn)} .

2.2 Algoritmo de Metropolis-Hastings

Este algoritmo foi proposto por Metropolis e outros (1953) e Hastings (1970). Seja p(φ) a distribui¸c˜ao que tem-se o interesse de amostrar. Assim como o amostrador de Gibbs, o algoritmo Metropolis-Hastings gera uma sequˆencia φ(0)_{, φ}(1)_{, . . . , a partir de}

uma cadeia de Markov, cuja distribui¸cão limite é p(φ). Usualmente, quando não sabe-se gerar da distribui¸cão condicional completa, recorre-se a este algoritmo. Ele pode ser descrito pelos seguintes passos:

(12)

1. Determina-se um valor inicial arbitr´ario para φ denotando este valor por φ(0)_;

2. Inicializa-se o contador de itera¸c˜ao i = 1;

3. Gera-se ξ ∼ q(ξ|φ(i−1)_{) de uma distribui¸c˜}_{ao conhecida, chamada de distribui¸c˜}_ao

proposta ou de fun¸cão de densidade de transi¸cão, pois é a fun¸cão de densidade de probabilidade de mover de φ(i−1)_{para ξ. Aceita-se o ponto gerado com probabilidade}

min 1, p(ξ) q(ξ|φ(i−1)₎ q(φ(i−1)|ξ) p(φ(i−1)₎

, onde p(·) é a distribui¸cão de interesse; Se o ponto for aceito, φ(i) = ξ, caso contrário, φ(i) = φ(i−1) e a cadeia não se move.

4. Altera-se o contador de i para i + 1;

5. Repete-se os ´ıtens 3 e 4 at´e que a convergˆencia seja obtida.

A desvantagem deste algoritmo é que dependendo da escolha da distribui¸cão proposta o número de rejei¸cões pode ser muito alto comprometendo a eficiência do algoritmo. Baseado em ?, ? descreve um algoritmo para sintonizar a variância de um determinado parâmetro garantindo que a taxa de aceita¸cão fique em torno de 44%. Suponha que τ2 seja a variância da distribui¸cão proposta, q(ξ|φ(i−1)_{), para um dado parˆ}_{ametro φ. Os}

passos para sintonizar a variˆancia s˜ao:

1. Gera-se um valor inicial para a variˆancia proposta e denomina-se este valor de (τ2₎(0)_.

2. Inicializa-se o contador de ciclos, n = 0. Executa-se L itera¸c˜oes usando (τ2₎(n)_como

a variˆancia proposta.

3. Se a taxa de aceita¸c˜ao de φ for maior que 0,44, faz-se log(τ2₎(n+1)_{= log (τ}2₎(n)₊

δ(n + 1) e, se for menor, faz-se log(τ2₎(n+1)

= log(τ2₎(n)_{− δ(n + 1), onde}

δ(n + 1) = min (0, 01; (n + 1)−1/2).

4. Incrementa-se o contador de k para k + 1 e repete-se os passos 2 e 3 at´e obter convergˆencia.

(13)

5. A convergência é esperada após um per´ıodo chamado de aquecimento. Calcula-se a média das variâncias propostas, isto é, ¯τ2 =

Nc

X

n=b

(τ2)(n), onde Nc ´e o n´umero total

de ciclos e b − 1 o número de itera¸cões necessárias para o aquecimento. Executa-se o MCMC novamente usando ¯τ2 _{como a variˆ}_{ancia da distribui¸c˜}_{ao proposta.}

2.2.1 Modelo 3

Em uma certa popula¸c˜ao de animais sabe-se que cada animal pode pertencer a uma dentre 4 linhagens gen´eticas com probabilidades

p1 = 1 2 + θ 4, p2 = p3 = 1 − θ 4 , p4 = θ 4,

sendo 0 < θ < 1 um parˆametro desconhecido. Note que pi > 0 para todo i = 1, 2, 3, 4

e que p1+ p2 + p3 + p4 = 1. Observa-se n animais e anota-se a linhagem deste animal.

Seja Y um vetor com elementos Yi sendo o n´umero de animais observados pertencentes

a linhagem i. Ent˜ao temos que

Y ∼ M ultin(n, p = (p1, p2, p3, p4)).

Assumindo a priori que θ ∼ U nif (0, 1) temos que a distribui¸c˜ao a posteriori de θ ´e proporcional a π(θ) = p(θ|y1, y2, y3, y4) ∝ p(y1, y2, y3, y4|θ)p(θ) ∝ 1 2+ θ 4 y1_{1 − θ} 4 y2+y3_θ 4 y4 ∝ (2 + θ)y1 (1 − θ)y2+y3 θy4

Como a distribui¸cão acima é desconhecida, podemos obter uma amostra desta distribui¸cão usando o Metropolis-Hastings. Portanto, precisamos escolher uma distribui¸cão proposta q(|θ(j−1)), sendo θ(j−1)o valor amostrado na itera¸cão anterior. Seja ∼ U nif (0, 1). Desta forma temos que a razão

r = π() q(|θ(j−1)₎ q(θ(j−1)_|) π(θ(j−1)₎ = (2 + ) y1 (1 − )y2+y3 y4 (2 + θ(j−1)₎y1 (1 − θ(j−1)₎y2+y3 (θ(j−1)₎y4

(14)

Simule um conjunto de dados deste modelo e amostre θ usando o Metropolis-Hastings com a distribui¸cão proposta dada acima. Você verá que a taxa de rejei¸cão é muito grande. Neste caso, podemos alterar a distribui¸cão proposta de forma que a taxa de rejei¸cão diminua.