1 MAE0399 - An´alise de Dados e Simula¸c˜ao - 1

(1)

MAE0399 - Análise de Dados e Simula¸cão - 1ô semestre de 2018 - IME - USP 1â Lista de Exerc´ıcios

1) Simulando de uma X ∼Poisson(λ) . Considerepi =P(X =i) a) Verifique a rela¸c˜ao recursiva apresentada nos slides de aula:

p_i+1 = λ

i+ 1p_i, i= 0,1,2,3,· · · Solu¸c˜ao: Assumindop₀ =e^−λ e usando a forma recursiva,

p₁ = λ

1p₀ =λe^−λ p₂ = λ

1 + 1p₁ = λ² 2∗1e^−λ p₃ = λ

2 + 1p₂ = λ³ 3∗2∗1e^−λ ...

p_K = λ

(K −1) + 1pK−1 = λ^K K!e^−λ

Portanto, temos que essa rela¸c˜ao recursiva gera probabilidades de uma Poisson com parˆametro λ.

b) Implemente o algoritmo indicado nos slides usando a linguagem R . Considere dois valores distintos deλ a sua escolha.

Solu¸cão: Implementa¸cão para qualquer valor de λ: Código R:

r.pois <- function(N, lambda ){

x <- numeric(N) for(j in 1:N){

U <- runif(1)

Pois <- exp(-lambda) FPois <- Pois ; i <- 0 while(U >= FPois){

Pois <- lambda*Pois/(i+1) FPois <- Pois + FPois i <- i+1 }

x[j] <- i } return(x)}

(2)

c) Use o seu algoritmo para simular uma amostra de tamanho n = 100 de X.

Obtenha a média da amostra e compare com o verdadeiro valor deλ. Fa¸ca um gráfico de barras para os valores simulados usando como altura as frequências relativas observadas e compare com as probabilidades exatas da Poisson.

Solu¸cão: Foi gerada uma amostra de tamanho 100 de uma Poisson com parâmetro igual a 2 e o valor amostral da média e da variância foram respectivamente 1.88 e 2.167. As estimativas da média, da variância e das probabilidades

s˜ao relativamente pr´oximas dos valores reais e poderiam ser melhoradas com o aumento do tamanho da amostra.

d) Repita o item(c), usando a fun¸c˜aorpois do R e compare os resultados e tempo de processamento.

Usando a fun¸cão system.time() obtemos que a fun¸cão r.pois apresentou um tempo de execu¸cão de 0.001 segundos e a fun¸cão rpois apresentou um tempo de execu¸cão de 0.0 segundos. A fun¸cão padrão do R foi mais rápida do que a

(3)

fun¸cão apresentada no item b). As estimativas da média e da variância para as duas fun¸cões são:

Fun¸c˜ao E(X) Var(X) r.pois 2.1 2.60

rpois 2.13 2.04

2) Simule o valor da constante π usando o algoritmo de simula¸c˜ao proposto em sala.

Apresente uma tabela com os valores estimados para diferentes tamanhos de amos- tras.

Solu¸cão: O valor de π até a quarta casa decimal é 3.1415 e para simular o valor de π podemos proceder da seguinte forma:

Para calcular um valor aproximado de π considere que o vetor aleatório (X,Y) é uniformemente distribu´ıdo em um quadrado de áreaA_Q= 4 definido pelos pontos (- 1,-1),(-1,1), (1,-1) e (1,1). Considere também que um c´ırculo de raio 1 (X²+Y² ≤1), cujo a área é A_circ =π, está circunscrito a esse quadrado.

Com tais informa¸c˜oes, e desde que o vetor (X,Y) esteja uniformemente distribu´ıdo no quadrado, a probabilidade de um ponto estar dentro do c´ırculo ´e dada por,

P_circ =P(X²+Y² ≤1) = Acirc

A_Q = π 4.

Assumindo que os pontos tenham a mesma probabilidade de atingir qualquer região da área definida por −1 ≤ X ≤ 1 e −1 ≤ Y ≤ 1 podemos assumir que X ∼ U(−1,1) e Y ∼ U(−1,1). Deste modo, podemos reescrever as variáveis aleatórias independentes X e Y em fun¸cão de U₁ ∼(0,1) e U₂ ∼(0,1) respectivamente,

X = 2U₁ −1, Y = 2U₂ −1.

Para obter o valor aproximado de π temos que definir a seguinte vari´avel aleat´oria

I =







1, se X²+Y² ≤1 0, se c.c.

(1)

Assim, I ∼ Bernoulli(^π₄) e o valor de π aproximado é dado simulando essa distribui¸cão a partir de (1) e calculando sua média de modo queπ = 4E(I)≈4∗1

n

X

i=1

I_i.

(4)

C´odigo R:

n <- c(100,500,1000,10^4, 10^7) pi_aprox <- numeric(5)

for(i in 1:5){

U1 <- runif(n[i]) U2 <- runif(n[i])

I <- (2*U1-1)^2 + (2*U2-1)^2

pi_aprox[i] <- 4*length(I[I<= 1])/n[i]

}

n 100 500 1000 10⁴ 10⁷

Aproxima¸c˜ao doπ 3.0000 3.1440 3.1475 3.1488 3.1411

3) Use simula¸cão para aproximar as integrais abaixo, partindo sempre da simula¸cão de um número aleatório básico, isto é, de U ∼U(0,1). Compare com os resultados exatos (se você puder obtê-los).

a) R1

0(1−x²)^3/2dx Solu¸c˜ao:

Solu¸c˜ao da integral:

Fazendo a transforma¸c˜aou=x², chegaremos a seguinte integral:

1 2

Z 1 0

(1−u)^3/2u^−1/2du= 1

2B(5/2,1/2) = 1 2

Γ(5/2)Γ(1/2)

Γ(3) = 3π

16 = 0.5890486, em que Γ(1/2) =√

π, Γ(5/2) = ³

√π

4 e Γ(3) = 2.

M´etodo de Monte Carlo:

Z 1 0

(1−x²)^3/2dx=E((1−X²)^3/2)≈ 1 n

n

X

i=1

(1−X_i²)^3/2. em que X∼U(0,1).

(5)

C´odigo R:

n <- 10^7 X <- runif(n)

mean(((1-X^2))^(3/2)) [1] 0.5892025

Comparando com o valor exato, temos que é uma boa aproxima¸cão até a terceira casa decimal.

b) R2

−2e^x+x²dx

Solu¸cão: No item b) devemos aplicar uma transforma¸cão de variável de modo que o espa¸co de integra¸cão seja o espa¸co (0,1). Fazendo a transforma¸cão u =

x+2

4 chegaremos a seguinte integral,

Z 2

−2

e^x+x²dx= 4 Z 1

0

exp 4u−2 + (4u−2)²

du = 4E exp 4U −2 + (4U−2)²)

≈ 4 n

n

X

i=1

exp 4U_i−2 + (4U_i−2)²).

em que U ∼U(0,1).

C´odigo R:

n <- 10^7 U <- runif(n)

4*mean(exp(4*U - 2 +(4*U - 2)^2 )) [1] 93.11628

c) R1 0

R1

0 exp(x+y)²dxdy Solu¸c˜ao

No item c) podemos ver a integral como sendo Z 1

0

Z 1 0

exp(x+y)²dxdy =E_XY(exp(X+Y)²)≈ 1 n²

n

X

i=1 n

X

j=1

exp(X_i+Y_j)² em que X∼U(0,1) e Y ∼U(0,1).

C´odigo R:

(6)

n <- 10^4 x <- runif(n) y <- runif(n)

mean(sapply(x,FUN = function(x) exp((x + y)^2))) [1] 5.017221

d) R2

0 exp(x²/2)dx

Solu¸c˜ao: No item d) devemos fazer a transforma¸c˜ao u = ^x₂. E assim, chegaremos a seguinte integral,

Z 2 0

exp(x²/2)dx= 2 Z 1

0

exp(2u²)du= 2E(exp(2U²))≈ 2 n

n

X

i=1

exp(2U_i²) Para encontrar o valor aproximado devemos executar o seguinte c´odigo no R, C´odigo R:

n <- 10^7 U <- runif(n) 2*mean(exp(2*U^2)) [1] 4.727395

4) Seja U ∼ U(0,1) use simula¸cão para aproximar Cov(U, eÛ). Obtenha a resposta exata e compare com sua aproxima¸cão.

Solu¸c˜ao:

Cov(U, eÛ) = E(U eÛ)−E(U)E(eÛ)

= 1− e−1

2 = 3−e

2 = 0.14085 C´odigo R:

n <- 10^7 U <- runif(n) cov(U,exp(U)) [1] 0.1408358

Como podemos ver, a aproxima¸cão é boa até a quarta casa decimal.

(7)

5) A partir de um número aleatório básico, apresente um algoritmo eficiente (ordenando as probabilidades) para simular da v.a. X abaixo.

X 2 4 6 8 10

Prob 0.10 0.30 0.40 0.15 0.05

a) Implemente o algoritmo e obtenha uma amostra de tamanho n = 100 dessa distribui¸c˜ao. Compare as frequˆencias relativas observadas com as probabilidades exatas.

Solu¸cão: As frequências relativas para a amostra de tamanho 100 foram próximas dos valores das probabilidades.

X 2 4 6 8 10

Frequˆencia relativa 0.09 0.29 0.45 0.12 0.05

b) Repetir (a) para n = 1000.

Solu¸cão: As frequências relativas com a amostra de tamanho 1000 foram de um modo geral mais próximas dos valores das probabilidades.

X 2 4 6 8 10

Frequˆencia relativa 0.11 0.29 0.40 0.16 0.05

C´odigo R:

RX <- function(n){

px <- c(0.4,0.3,0.15,0.1,0.05) # porbabilidades ordenadas X <- c(6,4,8,2,10)

x <- numeric(n) Fx <- cumsum(px)

for(i in 1:n){ U <- runif(1) k = 1

while(U > Fx[k]){ k = k + 1 } x[i] = X[k] }

return(x)}

(8)

6) Um baralho possui 100 cartas numeradas 1,2, ...,100. As cartas são embaralhadas e então retiradas, uma à uma. Ocorre uma coincidência quando a i-ésima carta aparece na i-ésima retirada, i = 1,2, ...,100. Escreva um programa para simular o processo e estimar a média e variância do total de coincidências. Compare os valores simulados com os valores reais de média e variância

Solu¸c˜ao:

Primeiramente, calcularemos os valores reais da média e da variância. Considere as variáveis X1, ..., Xn, tais que:

x=







1,se ocorreu coincidˆencia na i-´esima carta 0,c.c

Temos que P(X_i = 1) = ¹_n e P(X_i = 1, X_j = 1) = ^(n−2)!_n!

Desse forma, X₁, ..., X_n são identicamente distribu´ıdas com distribui¸cãoBer(1/n) e não são independentes. Seja N =

n

X

i=1

X_i o n´umero de coincidˆencias obtidas.

E(N) =E ⁿ

X

i=1

X_i

=

n

X

i=1

E(X_i) =

n

X

i=1

1 n = 1 Como X₁,· · · , X_n n˜ao s˜ao independentes temos que:

Cov(X_i, X_j) = E(X_iX_j)−E(X_i)E(X_j) =P(X_i = 1, X_j = 1)−P(X_i = 1)P(X_j = 1)

= (n−2)!

n! − 1

n² = 1 n²(n−1) V ar(N) = V ar

ⁿ X

i=1

X_i

=

n

X

i=1

V ar(X_i) +

n

X

i=1

X

j=1 i6=j

Cov(X_i, X_j)

=

n

X

i=1

1 n

1− 1

n

+n(n−1) 1

n²(n−1) = 1− 1 n + 1

n = 1

O problema de embaralhamento das cartas pode ser relacionado ao problema de permuta¸cão da sequência 1,2,· · · ,100, uma vez que cada carta é retirada sem re- posi¸cão. Utilizando o algoritmo descrito em aula para a simula¸cão de permuta¸cões aleatórias, temos o seguinte algoritmo para simular o processo de embaralhamento das cartas.

(9)

1 Consideramos a sequˆencia P₁,· · · , P₁₀₀, tal que P_i =i, para i= 1,· · · ,100 2 Fa¸ca k= 100

3 Enquanto k >1 fa¸ca

4 Simule U ∼U nif(0,1) e fa¸caI =Int[k∗u] + 1 5 Troque os P_I e P_k entre si

6 Fa¸ca k=k−1 C´odigo R

# Maneira 1

embaralhar <- function(n){

x <- seq(1:n) k <- n

while(k > 1){

u <- runif(1,0,1)

posicao <- floor(k*u)+1 aux <- x[posicao]

x[posicao] <- x[k]

x[k] <- aux k <- k-1 } return(x)

}

a <- seq(1:100) c<- vector() for(i in 1:1000){

x <- embaralhar(100) c[i] <- sum(x==a) }

> mean(c) [1] 0.968

> var(c) [1] 0.989966

(10)

# maneira 2

baralho <- 1:100

coincid <- numeric(10^7)

for(i in 1:10^7){ coincid[i] <- sum(sample(baralho,100) == baralho) }

> mean(coincid) [1] 1.000253

> var(coincid) [1] 1.000643

Como podemos ver, os valores simulados foram pr´oximos dos valores reais.

7) Usando o método da Transformada Inversa, derivar um algoritmo para gerar das variáveis aleatórias com as seguintes fun¸cões densidades de probabilidades. Não precisa implementar no R

a) f(x) = _e−1^e^x , 0≤x≤1.

Solu¸cão: A distribui¸cão acumulada do item a) é dada por, F(x) =

Z x 0

e^y

e−1dy= e^x−1 e−1 e sua inversa ´e dada por,

e^x−1

e−1 = U

x = log(U(e−1) + 1), (2)

em que 0≤U ≤1. Assim, para gerar uma amosta da distribui¸c˜ao de X, basta gerar uma amostra deU ∼U(0,1) e aplicar em (2).

b) f(x) = ^x−2₂ , se 2≤x≤3 e f(x) = ^2−x/3₂ ,se 3< x≤6

Solu¸cão: Neste item, a distribui¸cão acumulada está dividida em dois casos:

∗ Para 2≤x≤3

F(x) = Z x

2

y−2

2 dy= x²

4 −x+ 1

(11)

e

x²

4 −x+ 1 = U x²−4x+ 4(1−U) = 0

Resolvendo a equa¸c˜ao encontraremos duas ra´ızes, mas somente a raiz x= 2 + 2√

U ser´a usada, pois gera valores no intervalo 2 ≤ x ≤ 3, para 0≤U ≤1/4.

∗ Para 3 < x≤6 F(x) =

Z x 3

2−y/3

2 dy+F(3) =x− x²

12−3 + 9 12+1

4 =x− x² 12 −2 e

x− x²

12−2 = U x− x²

12 −(2 +U) = 0

Essa equa¸c˜ao possui duas ra´ızes, mas somente a raizx= 6−2p

3(1−U) = 6

1−q

1− ^2+U₃

ser´a usada, pois gera valores no intervalo 3 < x ≤ 6, para 1/4< U ≤1.

Portanto, para gerar uma amostra da distribui¸c˜ao deX basta gerar uma amostra da distribui¸c˜aoU ∼U(0,1) e aplicar em

x=







2 + 2√

U , se 0≤U ≤1/4 6−2p

3(1−U), se 1/4< U ≤1.

c) f(x) =e^2x, sex≤0 e f(x) =e^−2x, se x >0.

Solu¸cão: A distribui¸cão acumulada é,

F(x) =







e^2x

2 , se x≤0 1− ^e^−2x₂ , se x >0

Invertendo a distribui¸c˜ao acumulada para cada caso, teremos que

x=







1

2log(2U), se 0≤U ≤ ¹₂

−¹₂log(2(1−U)), se ¹₂ < U ≤1 em que U ∼U(0,1) .

(12)

8) Deseja-se gerar de uma distribui¸c˜ao Gama com a seguinte densidade f(x) = 1

2x²e^−x x >0.

Para isso, vamos usar o método de rejei¸cão com proposta exponencial com taxa λ. Encontre o valor de λ que minimiza o número esperado de itera¸cões do algoritmo.

Solu¸cão: Pelo método de rejei¸cão, f(x)

g(x) =

1 2x²e^−x

λe^−λx = 1

2λx²e^−(1−λ)x ≤C.

Fazendo _dx^d

f(x) g(x)

= 0 e simplificando chegaremos a 2x−(1−λ)x² = 0, cujo as ra´ızes sãox₁ = 0 e x₂ = _1−λ² . O valor deλque minimiza o número esperado de itera¸cões do algoritmo é dado minimizando a seguinte fun¸cão,

f(_1−λ² )

g(_1−λ² ) = 2

λ(1−λ)²e⁻² =C(λ).

Minimizando a fun¸c˜aoC(λ) encontraremos que o m´ınimo ocorre quandoλ= ¹₃.