• Nenhum resultado encontrado

AGA Análise de Dados em Astronomia I. O método de Monte Carlo

N/A
N/A
Protected

Academic year: 2021

Share "AGA Análise de Dados em Astronomia I. O método de Monte Carlo"

Copied!
16
0
0

Texto

(1)

AGA 0505- Análise de Dados em Astronomia I

O método de Monte Carlo

Laerte Sodré Jr.

(2)

breve história

método de resolução de problemas baseado em amostragem aleatória de distribuições de probabilidades

inventado por Stanislaw Ulam, John von Neuman e Nicholas Metropolis durante o projeto Manhattan

Ulam (um dos que desenharam a bomba de hidrogênio) bolou o método em 1946, pensando nas probabilidades de se ganhar um jogo de cartas de paciência

Metropolis é o responsável pelo nome Monte Carlo

aplicações:

integração numérica otimização

simulação de sistemas complexos ...

(3)

princípios

objetivo: dada uma distribuição de probabilidadesP(x), gerarN valores {xi} distribuídos como P(x)

vamos supor que saibamos produzir uma sequência de números aleatórios uniformemente distribuídos entre 0 e 1

isso não é fácil: os números gerados pelos “geradores de números aleatórios” são pseudo- aleatórios

seja γ um número gerado uniformemente entre 0 e 1

vamos supor que o número de pontos gerados entre γ e γ +dγ seja igual aP(x)dx nesse caso,dγ = P(x)dx e γ = Zx −∞P(x 0 )dx0=F(x)

assim, dado um γi, encontra-sexiresolvendo-se a equação acima

para a distribuição cumulativa de probabilidadesF(x)

(4)

exemplo: distribuição exponencial

produção de uma amostra {xi} com P(x) = e−x(x > 0)

princípio do MC: γ = Zx −∞P(x 0 )dx0=F(x)

para a distribuição exponencial:

γ = Zx 0 e −x0dx0 =1 − e−x logo x = − ln(1 − γ)

assim, dado um conjunto deN números γigerados uniformemente

entre 0 e 1, calcula-sexi= −ln(1 − γi)

(5)

exemplo: meu universo

simulação de um universo newtoniano simples: esférico, cartesiano, uniformemente povoado por galáxias

objetivo: produzir um catálogo com as posições de N galáxias dentro de um raio R

o melhor é fazer a simulação em coordenadas esféricas (r, θ, φ) e daí obter (x, y, z): x = r sen(θ) cos(φ) y = r sen(θ) sen(φ) z = r cos(θ) com 0 ≤ r ≤ R 0 ≤ θ ≤ π 0 ≤ φ ≤ 2π

(6)

meu universo

parâmetros: N galáxias dentro de um raio R densidade median = 3N/(4πR3)

simulação das coordenadas esféricas (r, θ, φ): para cada galáxia geramos 3 números aleatórios uniformemente distribuídos entre 0 e 1: γr,i, γθ,i, γφ,i

para θ e φ podemos assumir distribuições uniformes: θi= πγθ,i

φi=2πγφ,i

P(r)dr: probabilidade de se encontrar uma galáxia entrer e r + dr P(r)dr ∝ n4πr2dr → P(r) ∝ r2 logo, γr= Zr 0 P(r0)dr0=r R 3 e ri=Rγr,i1/3 6 / 16

(7)
(8)

colonização da galáxia

modelo de expansão da humanidade pela Via Láctea: passeio aleatório (random walk) discreto no plano (x,y) vamos supor que as estrelas estejam distribuídas uniformemente, formando uma malha uniforme (x,y) de intervalo 1 pc

uma nave só pode executar 4 movimentos: 1) dx=1 2) dx=-1 3) dy=1 4) dy=-1

o tempo para viajar de um ponto a outro (1 passo temporal) é de 100 anos (v∼0.032c)

qual é a distancia média à origem percorrida por uma nave em 100000 anos?

100000 anos corresponde aNp=1000 movimentos (passos)

o random walk no plano obedece à distribuição de Rayleigh P(x) = 2x

Np

exp(−x2/Np) para essa distribuição:

¯

d = N1/2p =31.6

as figuras ao lado mostram o resultado de 1000 simulações (media: 27.7)

(9)

integração por Monte Carlo

MC oferece uma forma simples para se integrar uma função positivaf (x): I = Zb a f (x)dx f (x) > 0 o “método da rejeição”:

vamos supor que a funçãof (x) possa ser “coberta” por uma função mais simplesg(x) (isto é 0 ≤ f (x) ≤ g(x)), de área A no intervalo de integração

por exemplo,g(x) = fmax= const, A = (b − a)fmax

algoritmo: Nac=0

repitaN vezes os passos:

gere aleatoriamente umxientrea e b

gere um número aleatório γiuniformemente

distribuído entre 0 eg(xi)

sef (xi) ≥ γiaceita-sexi; se não, rejeita-se

sexifoi aceito:Nac=Nac+1 integral:

I =Nac

(10)

cálculo de π por MC

a área de um quarto de círculo unitário é π/4

podemos calcular π com o método da rejeição calculando a área de um quarto de círculo com o algoritmo (a = 0, b = 0, fmax=1)

Nac=0

repitaN vezes os passos:

gere aleatoriamente umxie umyientre 0 e 1

calculed = x2i+y2i

sed ≤ 1 aceita-se o ponto i; se não, rejeita-se sei foi aceito: Nac=Nac+1

valor estimado de π:

ˆ π =4Nac

N =3.104

(nesta simulação, com 1000 pontos)

(11)

variância nas estimativas por MC

note que a variância nos métodos de

MC cai com 1/N

como o desvio padrão σ é a raiz

quadrada da variância, para reduzir σ

por um fator 2 deve-se multiplicar o

número de simulações por um fator 4

(12)

teste de hipótese com MC

temos duas amostras independentes,x1, ...,xmey1, ...,yn, com dimensãom e n, respectivamente, extraídas de uma distribuição normal de mesma media e variância

exemplo: N=M=10 (Jim Albert - Bayesian Computation with R): distribuições X e Y obtidas com rnorm(10,mean=50,sd=10) amostra X: 62.62954 46.73767 63.29799 62.72429 54.14641 34.60050 40.71433 47.05280 49.94233 74.04653

amostra Y: 57.63593 42.00991 38.52343 47.10538 47.00785 45.88489 52.52223 41.08079 54.35683 37.62462

neste caso a diferença entre as médias é 7.214

queremos testar a hipótese de que ambas as populações tenham a mesma média:

hipótese H0: ¯X = ¯Y

solução por MC: fazemos N simulações de amostras com rnorm(10,mean=50,sd=10) e vemos a frequência com que se obtém um valor igual ou maior que essa diferença

esse é o p-value

(13)

teste de hipótese com MC

os testes de hipótese clássicos funcionam estabelecendo-se um nível de significância α que estabelece o preço que se quer pagar para se rejeitar H0 dado um certo valor da diferença das médias

por exemplo, se α =0.05 - rejeitamos H0 se esta diferença aparecer em menos de 5% dos casos da distribuição

uma simulação com os dados acima mostra que a diferença observada ocorre com probabilidade 0.0502

por muito pouco H0 não seria rejeitada neste caso!

o exemplo acima envolve o one-side test: testamos a probabilidade da média de X-Y, onde o sinal da diferença é importante

podemos estar interessados no two-side test: a probabilidade da média de |X-Y|, onde o sinal da diferença não é importante

para uma distribuição simétrica, o p-value do segundo caso é o dobro daquele do primeiro caso

(14)

teste de hipótese com MC

temos duas amostras independentes,x1, ...,xmey1, ...,yn, com dimensõesm e n, respectivamente, extraídas de uma distribuição normal de mesma media e variância

queremos testar a hipótese H0: ¯X = ¯Y

a solução geral para nosso problema é a estatísticat de Student Student era o pseudônimo de William Sealy Gosset, um químico trabalhando para a cervejaria Guinness na Irlanda

ele desenvolveu a estatísticat para monitorar a qualidade do stout!

a estatísticat pode ser definida como

T = ¯x − ¯y spp1/m + 1/n onde sp= v u u t (m − 1)σ2 x+ (n − 1)σ2y m + n − 2 é o desvio padrão agrupado (pooled standard deviation)

sob H0 a estatísticaT tem uma distribuição t com m + n − 2 graus de liberdade se as amostras X e Y são independentes e oriundas de uma distribuição de mesma variância (σx= σy)

dado o nível de significância α rejeitamos H0 se (two-side test) |T| ≥ tn+m−2,α/2

ondetdf ,αé o quantil (1 − α) da distribuição t com df graus de

liberdade

(15)

teste de hipótese com MC

muitas vezes se usa o testet quando a rigor não se deveria: variâncias diferentes ou distribuições não gaussianas

como isso impacta o resultado do teste?

vamos responder com MC (10000 simulações em cada caso, n=m=10): vamos calcular a estatísticat e comparar com o valor input de α = 0.1

caso 1: duas gaussianas de mesma média e variância αMC=0.1

x=rnorm(m,mean=0,sd=1) y=rnorm(n,mean=0,sd=1) caso 2: gaussianas de larguras diferentes: αMC=0.117

x=rnorm(m,mean=0,sd=1) y=rnorm(n,mean=0,sd=10) caso 3: duas populações exponenciais: αMC=0.098

x=rexp(m,rate=1) y=rexp(n,rate=1)

caso 4: distribuições t com 4 graus de liberdade e mesmas larguras: αMC=0.098

x=rt(m,df=4) y=rt(n,df=4)

caso 5: uma distribuicao normal e uma exponencial: αMC=0.155

(16)

Exercícios

1 EstimeI =R1

0x3dx via MC. Obtenha estimatimativas usando N = 1, 10, 100, 1000, 10000 simulações. Faça um gráfico log-log da variância nos valores

simulados deI versus N para analisar como o erro na estimativa da integral varia com N. 2 O espectro de energia dos raios cósmicos pode ser parametrizado como

n(E) = CE−γ ondeC é uma constante de normalização e γ ' 2.7 para energias entre 109eV e1015eV. a) Determine a forma analítica da função de distribuição cumulativa,

F(E) = ZE

Emin

n(E0)dE0

DetermineC impondo que F(Emax) =1.

b) InvertaF(E) para estimar Emin≤ E ≤ Emaxa partir de um número entre 0 e 1.

c) simuleN = 10, 100, 1000, 10000 pontos com esta distribuição e calcule, para cada conjunto de N pontos, o valor médio e o desvio padrão da energia. 3 Em um observatório verifica-se uma relação entre a qualidade da noite hoje (boa, razoável, ruim) e a de amanhã, de acordo com a tabela. Faça uma

simulação para estimar a fração de noites boas no longo prazo.

hoje amanhã boa razoável ruim

boa 0.60 0.30 0.10

razoável 0.50 0.25 0.25

ruim 0.20 0.40 0.40

Referências

Documentos relacionados

No entanto, maiores lucros com publicidade e um crescimento no uso da plataforma em smartphones e tablets não serão suficientes para o mercado se a maior rede social do mundo

O valor da reputação dos pseudônimos é igual a 0,8 devido aos fal- sos positivos do mecanismo auxiliar, que acabam por fazer com que a reputação mesmo dos usuários que enviam

QUANDO TIVER BANHEIRA LIGADA À CAIXA SIFONADA É CONVENIENTE ADOTAR A SAÍDA DA CAIXA SIFONADA COM DIÂMTRO DE 75 mm, PARA EVITAR O TRANSBORDAMENTO DA ESPUMA FORMADA DENTRO DA

Neste capítulo foi apresentado a análise dos testes realizados para a obtenção de uma tabela de quantização robusta utilizando o método de algoritmos genéticos aplicado a um

We propose a conformance testing theory to deal with this model and describe a test case generation process based on a combination of symbolic execution and constraint solving for

Os dados obtidos nessa dissertação diferem dos demais pela análise da variação temporal, que mostrou que, após dose única e subletal de MCYST, o dano oxidativo no fígado

Baseada no ciclo PDCA (Plan-Do-Check-Act) a ISO 14001 especifica os requisitos mais importantes para identificar, controlar e monitorar os aspectos do meio

Prestadores Prestadores Ciclo de Debates Ciclo de Debates GV Sa GV Sa ú ú de de 18.outubro.2006 18.outubro.2006 1. Aç ções SulAm ões SulAmé érica rica - - Curto/Mé