IntroProbabilidadeComputacionalR

(1)

Probabilidade Computacional e Visualizac¸˜ao

de Dados na Plataforma

R

Alejandro C. Frery & H´elio Lopes

CPMAT & LCCV Instituto de Computac¸˜ao Universidade Federal de Alagoas

XII Simp ´osio de Pesquisa Operacional e Log´ıstica da Marinha

XII SPOLM Rio de Janeiro 5 e 6 de agosto de 2009

(2)

Resumo

1 _{Introduc¸˜ao}

2 _{A plataforma}R

Hist órico e principais caracter´ısticas Instalação

Uso b´asico – estat´ıstica univariada Estat´ıstica multivariada

3 _{Ensaios Monte Carlo}

Hist ´orico Exemplos

Desdobramentos

4 _{Estimação de parâmetros}

(3)

Objetivos

Probabilidade Computacional

É o cruzamento entre probabilidade, estat´ıstica, computação e análise numérica.

Veremos três t ópicos básicos:

1 PlataformaR

2 _{Estat´ıstica descritiva quantitativa e qualitativa}

(visualizac¸ ˜ao)

3 _{O m´etodo Monte Carlo}

Boa parte destas transparˆencias tem como fonte os textos de Bustos & Frery (1992b), de Frery & Cribari-Neto (2005), de Velho et al. (2008), e de Vieira et al. (2008).

(4)

Resumo

1 _{Introduc¸˜ao}

2 _{A plataforma}R

Desdobramentos

(5)

Licenc¸a de uso

R ´eFree/Libre and Open Source Software (FLOSS).

Seu c ódigo-fonte está dispon´ıvel para qualquer pessoa e pode ser alterado para adequá-lo a necessidades espec´ıficas, sem ter que pagar.

Portanto, FLOSS é de fato gratuito, mas usar este termo somente para designar softwares sem custo é contar a metade da hist ória.

O software gratuito (freeware), por si s ó, é um software que pode ser usado sem precisar pagar. Porém, não se tem acesso ao seu c ódigo-fonte, portanto não pode ser alterado ou simplesmente estudado, somente pode ser usado da forma como ele foi disponibilizado.

(6)

O que ´e

R

_?

R _{é uma}_linguagem_{e um}_ambiente_{para computação estat´ıstica}

e produção de gráficos.

É uma implementação GNU da linguatemS(Chambers, 2008).

R_{provˆe recursos para modelagem linear e n˜ao-linear, testes}

estat´ısticos clássicos, análise de séries de tempo, classificaç ão, agrupamento. . . , e é extens´ıvel, incluindo

tratamento e armazenamento eficazes de dados

operadores para c´alculos em arrays, em particular matrizes ferramentas para an´alise qualitativa e quantitativa de dados

(7)

Como instalar

R

_?

R está dispon´ıvel tanto na forma de c ódigo fonte, para ser compilado de forma otimizada para cada plataforma de hardware e software, quanto na forma de “pacotes” de instalação para UNIX, Linux, Mac OS X e —ninguém é perfeito— Windows.

Em Ubuntu e outros derivados de Debian, basta dar o comando:

acfrery@omas$ sudo apt-get install r-base

A instalação de bibliotecas deve ser feita como super-usuário.

(8)

Entrar, pedir ajuda e sair

Para entrar noRem Linux, digiteRna linha de comando

acfrery@omas$ R

Para pedir ajuda, j´a dentro deR, digite

> ?data_{para ter ajuda no console sobre}data > help.start()para ter ajuda no navegador Web Para sair doR

(9)

R ´e uma calculadora!

> 2+2 [1] 4 > 2+3 ; 5ˆ2 [1] 5 [1] 25 > log(pi) [1] 1.14473 > log(7ˆpi, 7) [1] 3.141593 > cos(pi/2) [1] 6.123032e-17 > sqrt(2-5i) [1] 1.921609-1.300993i 9 / 71

(10)

Bibliotecas e dados

R possui bibliotecas com func¸ ˜oes e conjuntos de dados adicionais.

A func¸˜aolibrary()carrega bibliotecas:

> library(lattice)

A func¸˜aodata()carrega dados internos:

> data(iris)

A func¸˜aoread.table()carrega dados ASCII

(11)

O que temos na mem ´oria?

> ls()

> iris

> summary(iris)

Sepal.Length Sepal.Width Petal.Length Petal.Width Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 Median :5.800 Median :3.000 Median :4.350 Median :1.300 Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800 Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500

Species setosa :50 versicolor:50 virginica :50

(12)

Algumas contas b´asicas

> length(iris$Sepal.Length) [1] 150 > attach(iris) > quantile(Sepal.Length) 0% 25% 50% 75% 100% 4.3 5.1 5.8 6.4 7.9 > quantile(Sepal.Length, seq(0, 1, 0.1)) 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 4.30 4.80 5.00 5.27 5.60 5.80 6.10 6.30 6.52 6.90 7.90 > mean(Sepal.Length) [1] 5.843333 > median(Sepal.Length) [1] 5.8

(13)

Mais contas b´asicas

> library(e1071)

Loading required package: class > skewness(Sepal.Length)

[1] 0.3086407

> kurtosis(Sepal.Length) [1] -0.6058125

(14)

Meus primeiros gr´aficos em R I

> boxplot(iris[,-5], horizontal=TRUE, notch=TRUE, main="Exemplo de Boxplot")

Sepal.Width

Petal.Length

Petal.Width

(15)

Meus primeiros gr´aficos em R II

> hist(Sepal.Length, prob=TRUE, main="Histograma", xlab="Comprimento da Sépala", ylab="Proporções")

Exemplo de Histograma Comprimento da Sépala Proporções 4 5 6 7 8 0.0 0.1 0.2 0.3 0.4 15 / 71

(16)

Meus primeiros gr´aficos em R III

Uma forma entre gráfica e alfanumérica é o diagrama de galhos e folhas (stem-and-leaf plot):

> stem(Sepal.Length)

The decimal point is 1 digit(s) to the left of the | 42 | 0 44 | 0000 46 | 000000 48 | 00000000000 50 | 0000000000000000000 52 | 00000 54 | 0000000000000 56 | 00000000000000 58 | 0000000000 60 | 000000000000 62 | 0000000000000 64 | 000000000000 66 | 0000000000 68 | 0000000 70 | 00 72 | 0000

(17)

An´alise descritiva

A funçãosummaryjá nos forneceu uma idéia quantitativa de um conjunto de dados multivariados: 150 observaç ões de quatro variáveis (comprimento e largura de sépalas e pétalas), categorizadas em três grupos (as espécies setosa, versicolor e virginica).

O que está faltando é alguma idéia da relação entre elas. . .

(18)

> var(iris[,-5])

Sepal.Length Sepal.Width Petal.Length Petal.Width Sepal.Length 0.68569351 -0.04243400 1.2743154 0.5162707 Sepal.Width -0.04243400 0.18997942 -0.3296564 -0.1216394 Petal.Length 1.27431544 -0.32965638 3.1162779 1.2956094 Petal.Width 0.51627069 -0.12163937 1.2956094 0.5810063 > cor(iris[,-5])

Sepal.Length Sepal.Width Petal.Length Petal.Width Sepal.Length 1.0000000 -0.1175698 0.8717538 0.8179411 Sepal.Width -0.1175698 1.0000000 -0.4284401 -0.3661259 Petal.Length 0.8717538 -0.4284401 1.0000000 0.9628654 Petal.Width 0.8179411 -0.3661259 0.9628654 1.0000000

(19)

Gr´afico de pares

> pairs(iris[,-5], main="Conjunto Iris", pch=21, bg=c("red","green3","blue")[unclass(Species)]) Sepal.Length 2.0 2.5 3.0 3.5 4.0 0.5 1.0 1.5 2.0 2.5 4.5 5.5 6.5 7.5 2.0 2.5 3.0 3.5 4.0 Sepal.Width Petal.Length 1 2 3 4 5 6 7 4.55.05.56.06.57.07.58.0 0.5 1.0 1.5 2.0 2.5 1 2 3 4 5 6 7 Petal.Width Conjunto Iris 19 / 71

(20)

Gr´afico de estrelas

> stars(iris, full=TRUE, draw.segments=TRUE, key.loc=c(27,1))

(21)

Bibliografia b´asica de R

Uma biblioteca m´ınima a respeito de R ´e formada pelos seguintes livros: Chambers (2008); Chambers et al. (1983); Crawley (2005, 2007); Dalgaard (2002); Davison & Hinkley (1997); Everitt & Hothorn (2006); Maindonald & Braun (2003); Murrell (2006); Sarkar (2008); Spector (2008); Venables & Ripley (2000, 2002); Venables & Smith (2001); Verzani (2004).

Dois recursos na Web s˜ao essenciais:

O s´ıtio oficial de R:http://www.r-project.org

A lista de discuss˜ao RSTAT:

http://br.groups.yahoo.com/group/R_STAT

(22)

Resumo

1 _{Introduc¸˜ao} 2 _{A plataforma}R

Desdobramentos

(23)

Os Top 10

No artigo de Dongarra & Sullivan (2000) (cujo conte údo está dispon´ıvel gratuitamente no trabalho de Cipra, 2000) o método

Monte Carlo ´e o primeiro da lista cronol ´ogica dos dez

algoritmos mais importantes para o desenvolvimento e a prática da ciência e da engenharia no século XX.

Proposto nos anos 40, este algoritmo vem prestando serviços inestimáveis ao cálculo de quantidades dif´ıceis de avaliar e, mais geralmente, à compreensão de fen ômenos complexos.

(24)

Os Top 10

No artigo de Dongarra & Sullivan (2000) (cujo conte údo está dispon´ıvel gratuitamente no trabalho de Cipra, 2000) o método

Monte Carlo ´e o primeiro da lista cronol ´ogica dos dez

algoritmos mais importantes para o desenvolvimento e a prática da ciência e da engenharia no século XX.

Proposto nos anos 40, este algoritmo vem prestando serviços inestimáveis ao cálculo de quantidades dif´ıceis de avaliar e, mais geralmente, à compreensão de fen ômenos complexos.

(25)

Monte Carlo

É um método de cálculo poderoso e de aplicabilidade muito ampla que emprega no seu cerne elementos estocásticos. O seu nome é uma referência aos cassinos do Principado de M ônaco.

(26)

Antecedentes

1777 A agulha de Buffon: o lançamento de uma agulha sobre uma grade de linhas paralelas e o registro da proporção de interseções redunda na

determinação do n úmero π

In´ıcio do Séc. XX William Gosset usa amostragem na determinação da distribuição t-Student Ver o artigo de Hitchcock (2003).

(27)

Antecedentes

In´ıcio do Séc. XX William Gosset usa amostragem na determinação da distribuição t-Student

Ver o artigo de Hitchcock (2003).

(28)

Antecedentes

In´ıcio do Séc. XX William Gosset usa amostragem na determinação da distribuição t-Student

(29)

Um in´ıcio muito s´erio

Ulam, enquanto estava acamado em 1946 fazendo jogos de paciˆencia, se perguntou pela probabilidade de um jogo de

Canfield (tamb´em conhecido como Klondike) poder ser

ganho (Eckhardt, 1987; Metropolis, 1987).

(dispon´ıvel gratuitamente em

www.solitairenetwork.com/Solitaire/canfield-solitaire-game.html 26 / 71

(30)

Alternativas

Combinat ´oria (pensamento abstrato)

Uso dos nov´ıssimos e poderos´ıssimos computadores da ´epoca

A id´eia era embaralhar “aleatoriamente” um baralho na

mem ´oria do computador, e deixar a m´aquina jogar pelas regras do Canfield.

Ap ´os cada jogo, registrar se houve ou n˜ao sucesso.

Uma estimativa da probabilidade de ganhar um jogo qualquer é a proporção de sucessos.

(31)

Alternativas

(32)

Alternativas

(33)

Alternativas

(34)

1946

Uma idéia levou a outra, e Ulam logo estava (ainda acamado e) pensando em problemas de difusão de neutrinos e outras coisas da f´ısica matemática.

O pulo foi imaginar como “traduzir” fen ômenos descritos por equaç ões diferenciais para a linguagem de processos aleat órios. Uma vez nesse dom´ınio, seria apenas reproduzir o processo no computador.

(35)

1946

Uma idéia levou a outra, e Ulam logo estava (ainda acamado e) pensando em problemas de difusão de neutrinos e outras coisas da f´ısica matemática.

O pulo foi imaginar como “traduzir” fen ômenos descritos por equaç ões diferenciais para a linguagem de processos aleat órios. Uma vez nesse dom´ınio, seria apenas reproduzir o processo no computador.

(36)

1947

Von Neumann, colega de Ulam, escreve para o diretor da Divis˜ao Te ´orica de Los Alamos dizendo que essa abordagem estat´ıstica era muito conveniente para um tratamento digital.

Nessa correspondência ele esboça o novo método para resolver a difusão de neutrinos e o comportamento de dispositivos de fisão nuclear.

Todos os ingredientes do processo sãodetermin´ısticos, menos o n úmero de neutrinos gerados que segue uma distribuição de probabilidade.

A idéia é acompanhar a vida de cada part´ıcula usando n úmeros pseudoaleat órios para modelar as interaç ões com

(37)

1947

Von Neumann, colega de Ulam, escreve para o diretor da Divisão Te órica de Los Alamos dizendo que essa abordagem estat´ıstica era muito conveniente para um tratamento digital. Nessa correspondência ele esboça o novo método para resolver a difusão de neutrinos e o comportamento de dispositivos de fisão nuclear.

A idéia é acompanhar a vida de cada part´ıcula usando n úmeros pseudoaleat órios para modelar as interaç ões com outras part´ıculas. Cada part´ıcula é um jogo de paciência!

(38)

1947

A idéia é acompanhar a vida de cada part´ıcula usando n úmeros pseudoaleat órios para modelar as interaç ões com

(39)

1947

A idéia é acompanhar a vida de cada part´ıcula usando n úmeros pseudoaleat órios para modelar as interaç ões com outras part´ıculas. Cada part´ıcula é um jogo de paciência!

(40)

1948

A primeira versão do algoritmo não incluia explicitamente deslocamento de matéria

radiac¸˜ao gerada

mas ambos fen ˆomenos estavam previstos na discuss˜ao de von Neumann.

Já no ano seguinte Ulam informava da possibilidade de tratar raios c ósmicos e certos tipos de equações diferenciais pela mesma abordagem.

(41)

1948

A primeira versão do algoritmo não incluia explicitamente deslocamento de matéria

radiac¸˜ao gerada

mas ambos fen ˆomenos estavam previstos na discuss˜ao de von Neumann.

Já no ano seguinte Ulam informava da possibilidade de tratar raios c ósmicos e certos tipos de equações diferenciais pela mesma abordagem.

(42)

Ainda em 1948

Nicholas C. Metropolis volta a Los Alamos (local de trabalho de Ulam e von Neumann) para liderar a construc¸˜ao do MANIAC (Mathematical Analyzer, Numerical Integrator and

Computer). . . que foi a plataforma ideal para rodar as “experiˆencias estat´ısticas”.

(43)

Ainda em 1948

Nicholas C. Metropolis volta a Los Alamos (local de trabalho de Ulam e von Neumann) para liderar a construc¸˜ao do MANIAC (Mathematical Analyzer, Numerical Integrator and

Computer). . . que foi a plataforma ideal para rodar as

“experiˆencias estat´ısticas”.

(44)

Publicac¸˜ao fundamental

Aparece o artigo de Metropolis & Ulam (1949) onde os autores começam por definir o problema de calcular o volume de uma região não infinitesimal em [0, 1]20definida por um conjunto de desigualdades da forma f1(x1, . . . , x20) < 0, f2(x1, . . . , x20) < 0, .. . f20(x1, . . . , x20) < 0.

(45)

Publicac¸˜ao fundamental

Aparece o artigo de Metropolis & Ulam (1949) onde os autores começam por definir o problema de calcular o volume de uma região não infinitesimal em [0, 1]20definida por um conjunto de desigualdades da forma f1(x1, . . . , x20) < 0, f2(x1, . . . , x20) < 0, .. . f20(x1, . . . , x20) < 0.

Os autores começam discutindo por que a avaliaç ão numérica sequencial pode não ser uma boa idéia, e argumentam a favor do uso de amostragem.

(46)

Publicac¸˜ao fundamental

Em um segundo exemplo apresentam o problema dos raios c ósmicos, ondem modelam várias componentes da formação da cascata de part´ıculas como variáveis aleat órias. A solução anal´ıtica passa pelo produto muitas vezes de matrizes, ou pela reprodução do fen ômeno no computador.

O artigo segue com a descrição de um problema geral: uma part´ıcula capaz de produzir em um meio outras part´ıculas dotadas de certas propriedades (energia e movimento). Cada nova part´ıcula poderá, por sua vez, criar outras. Sistemas desse tipo podem ser descritos pelas equações de Boltzman de

cinética de gases, que são similares às equaç ões probabil´ısticas de Fokker-Plank.

(47)

Publicac¸˜ao fundamental

O artigo segue com a descrição de um problema geral: uma part´ıcula capaz de produzir em um meio outras part´ıculas dotadas de certas propriedades (energia e movimento). Cada nova part´ıcula poderá, por sua vez, criar outras.Sistemas desse tipo podem ser descritos pelas equações de Boltzman de

Dotando ao computador da capacidade de “simular” eventos, a conex˜ao est´a feita!

(48)

Publicac¸˜ao fundamental

(49)

Publicac¸˜ao fundamental

Dotando ao computador da capacidade de “simular” eventos, a conex˜ao est´a feita!

(50)

Problema conceitual

Determin´ıstico vs. aleat ´orio

Como obter ou gerar n ´umeros aleat ´orios em um ambiente essencialmente determin´ıstico: o computador digital?

Knuth e von Neumann, dentre outros grandes nomes da computação, fizeram grandes contribuiç ões a esse problema. A literatura sobre geração de n úmeros pseudoaleat órios

uniformes ´e vasta (ver, por exemplo, Gentle, 2000; Lewis & Orav, 1989; Ripley, 1987; Ross, 1997), mas rapidamente constatou-se a necessidade de “obter amostras” de vari´aveis

(51)

Problema conceitual

Determin´ıstico vs. aleat ´orio

Como obter ou gerar n úmeros aleat órios em um ambiente essencialmente determin´ıstico: o computador digital? Knuth e von Neumann, dentre outros grandes nomes da computação, fizeram grandes contribuiç ões a esse problema. A literatura sobre geração de n úmeros pseudoaleat órios

uniformes é vasta (ver, por exemplo, Gentle, 2000; Lewis & Orav, 1989; Ripley, 1987; Ross, 1997), mas rapidamente constatou-se a necessidade de “obter amostras” de variáveis aleat órias não uniformes.

(52)

Soluc¸˜ao computacional

Construir um algoritmo (e, portanto, um artefato

determin´ıstico) capaz de gerar sequˆencias de n ´umeros que

1 _{um avaliador que ignore o que o algoritmo faz, as}

considere como sendo ocorrências de variáveis aleat órias independentes e identicamente distribu´ıdas;

2 _{sejam repet´ıveis;} 3 sejam port´aveis.

Ainda hoje ´e um tema de pesquisa!

O método mais conhecido que gera uma seq üência de n úmeros pseudo-aleat órios é o LCG (Linear Congruential Generator), que usa a equação:

(53)

Soluc¸˜ao computacional

Construir um algoritmo (e, portanto, um artefato

determin´ıstico) capaz de gerar sequˆencias de n ´umeros que

1 _{um avaliador que ignore o que o algoritmo faz, as}

considere como sendo ocorrências de variáveis aleat órias independentes e identicamente distribu´ıdas;

2 _{sejam repet´ıveis;} 3 sejam port´aveis.

Ainda hoje ´e um tema de pesquisa!

O método mais conhecido que gera uma seq üência de n úmeros pseudo-aleat órios é o LCG (Linear Congruential Generator), que usa a equação:

vi+1= (a × vi+ b) mod m, i ≥ 0,

onde a, b e m são inteiros, mod é a operação m ódulo, e v0 é a

semente. A seq üência {ui}1≥0 é obtida fazendo ui= vi/m.

(54)

. . . ainda em 1947

Em outra correspondência de von Neumann para Ulam, ele discute duas técnicas para a geração de ocorrências de variáveis aleat órias não uniformes:

o m´etodo de invers˜ao

o método de aceitação-rejeição

Esses são ainda os pilares da simulação estocástica (para detalhes, ver Devroye, 1986; Robert & Casella, 2000).

(55)

An´alise de dados

Uma vez executada uma s´erie desses “experimentos aleat ´orios”, os dados resultantes podem ser analisados da mesma forma em que seriam tratados dados experimentais do mundo real.

Se observamos n ensaios independentes e coletamos x1, . . . , xn, uma estimativa razoável para o valor esperado da variável aleat ória X é

b E(X) = 1 n n X i=1 xi,

cuja imprecisão é proporcional apVar(X)/n, que também pode ser estimada. Qualquer procedimento que diminua a imprecisão no cálculo chama-se técnica de redu¸cão da variância (ver Ripley, 1987).

(56)

An´alise de dados

Se observamos n ensaios independentes e coletamos x1, . . . , xn,

uma estimativa razoável para o valor esperado da variável aleat ória X é

b E(X) = 1 n n X i=1 xi,

cuja imprecisão é proporcional apVar(X)/n, que também pode ser estimada.Qualquer procedimento que diminua a

(57)

An´alise de dados

Se observamos n ensaios independentes e coletamos x1, . . . , xn,

uma estimativa razoável para o valor esperado da variável aleat ória X é

b E(X) = 1 n n X i=1 xi,

cuja imprecisão é proporcional apVar(X)/n, que também pode ser estimada. Qualquer procedimento que diminua a imprecisão no cálculo chama-se técnica de redu¸cão da variância (ver Ripley, 1987).

(58)

O problema geral e uma soluc¸˜ao

Sejam Y : Ω →R

k _{um vetor aleat ´orio k-dimensional e}

ψ : R

k _→

R

r_{uma função (bem comportada). O problema é}

calcular θ = E(ψ(Y)), isto ´e, resolver a integral θ =

Z

R

rψ(y)f (y)dy

que, freq üentemente, não tem forma anal´ıtica fechada e para a qual os métodos numéricos dispon´ıveis são pouco confiáveis ou instáveis.

Uma solução simples (que pode ser melhorada) é por Monte Carlo Força Bruta, que consiste em “aproximar” θ, usando a Lei

(59)

O problema geral e uma soluc¸˜ao

Sejam Y : Ω →R

k _{um vetor aleat ´orio k-dimensional e}

ψ : R

k _→

R

r_{uma função (bem comportada). O problema é}

calcular θ = E(ψ(Y)), isto ´e, resolver a integral θ =

Z

R

rψ(y)f (y)dy

que, freq üentemente, não tem forma anal´ıtica fechada e para a qual os métodos numéricos dispon´ıveis são pouco confiáveis ou instáveis.

Uma solução simples (que pode ser melhorada) é por Monte Carlo Força Bruta, que consiste em “aproximar” θ, usando a Lei dos Grandes N úmeros, por ˆθ = n−1Pn

i=1ψ(yi), onde

(y1, . . . , yn) são amostras independentes da variável aleat ória Y.

(60)

T´ecnicas derivadas

A busca pela eficiência e a adaptação a novos paradigmas levou à proposta de várias técnicas de enorme sucesso, dentre elas

! Simulated Annealing (Kirkpatrick et al., 1983) ! Bootstrap (Davison & Hinkley, 1997)

! MCMC (Monte Carlo Markov Chain; Gelfand & Smith, 1990;

Geman & Geman, 1984).

(61)

Exemplo pr´atico

Avaliar o desempenho do estimador bθ = bθ(X1, . . . , Xn) quando

as variáveis aleat órias {Xi} são independentes e identicamente

distribu´ıdas segundo a lei D(θ). A avaliaç ão precisa levar em conta vários valores de θ ∈ Θ e vários tamanhos de amostra n, e será feita pelo erro quadrático médio EQM(bθ).

Primeira abordagemobrigat ória: calcular analiticamente EQM(bθ) = B2(bθ) + Var(bθ), onde o viés é dado por

B(bθ) = E(bθ) − θ.

Se todas as nossas tentativas falharem, podemos proceder para a segunda abordagem.

(62)

Exemplo pr´atico

B(bθ) = E(bθ) − θ.

(63)

Exemplo pr´atico

B(bθ) = E(bθ) − θ.

(64)

Exemplo pr´atico: a lei exponencial I

A distribuição da variável aleat ória X chama-se exponencial padrão se a sua densidade é f (t) = exp{−t}1

R+(t). Com isso, a

sua função de distribuição acumulada é

F(t) = (1 − exp{−t})1 R+(t).

A variável aleat ória Y = λX, com X exponencial padrão e λ > 0 tem distribuição exponencial de média λ, e a sua densidade é

fY(t) = 1

λexp{−t/λ}1

R+(t), (1)

(65)

Exemplo pr´atico: a lei exponencial II

Para gerar eventos de Y, podemos usar o teorema de inversão na equação (2). Se U ∼ U(0, 1), então F−1_Y (U) = −λ ln(1 − U) tem a distribuição que precisamos, isto é, geramos u1, . . . , un

eventos independentes de U e usamos y1, . . . , yn, com

yi= −λ ln(1 − ui).

Já estamos em condiç ões de avaliar o desempenho de algum estimador para λ, por exemplo, o estimador de máxima verossimilhança: c λn= 1 n n X i=1 yi. 42 / 71

(66)

Pseudoc ´odigo

Entrada: Fatores e replicac¸ ˜oes

para cada θ ∈ {θ1, . . . , θT} ⊂ Θ fa¸ca

para cadan ∈ {n1, . . . , nN} fa¸ca

para cada1 ≤ r ≤ Rnfa¸ca

Gere a amostra x(n, r) = (x1, . . . , xn)(r) de D(θ);

Calcule e armazene a estimativa bθ(x(n, r));

fim

Estime o viés da situação usando b

B(bθ(X1, . . . , Xn)) =

b

θ(x(n,1))+···+bθ(x(n,Rn))

Rn − θ;

Estime analogamente a variância da situação;

(67)

Implementação (muito básica) em R

theta = seq(1,10,1)

tamanho = seq(10, 100, 10) estimativa = vector(length=10) vies = matrix(nrow=10, ncol=10) for (i in 1:10) {

t = theta[i] for (j in 1:10) {

n = tamanho[j]

for (replic in seq(1, 100000/n, 1)) {

estimativa[replic] = mean(rexp(n, rate = 1/t)) }

vies[i,j] = mean(estimativa) - t }

}

(68)

Agora a análise é com vocês. . .

O valorvies[i,j]possui a estimativa do viés da situação indexada pelo parâmetrotheta[i]e a amostra de tamanhotamanho[j]

Analise a variaç ão do viés, para cada tamanho de amostra, em função do parâmetro:plot(theta, vies[,1])_etc.

Analise a variaç ão do viés, para cada valor do parâmetro, em função do tamanho da amostra

(69)

Agora a análise é com vocês. . .

plot(tamanho, vies[1,])etc.

(70)

Agora a análise é com vocês. . .

(71)

Fatos do exemplo pr´atico

! Foram considerados apenas dois fatores: θ e n ! Foram avaliadas T × N situac¸ ˜oes

! Para cada situação foram feitas Rnreplicaç ões

! Em cada replicação foram geradas n amostras da lei D(θ) ! A estrutura de um experimento Monte Carlo por Força

Bruta é de laços aninhados com vetores de dados de várias dimens ões

! O fim de um experimento Monte Carlo ´e a an´alise dos

dados coletados

Ver detalhes em Bustos & Frery (1992a).

É importante frisar que a execução desse exemplo requer a simulação exata de ocorrências de variáveis aleat órias que seguem a lei D(θ).

(72)

Fatos do exemplo pr´atico

! Foram considerados apenas dois fatores: θ e n ! Foram avaliadas T × N situac¸ ˜oes

! Para cada situação foram feitas Rnreplicaç ões

! Em cada replicação foram geradas n amostras da lei D(θ) ! A estrutura de um experimento Monte Carlo por Força

Bruta é de laços aninhados com vetores de dados de várias dimens ões

! O fim de um experimento Monte Carlo ´e a an´alise dos

dados coletados

Ver detalhes em Bustos & Frery (1992a).

(73)

Funç ões para simulação no

R

Roferece um leque enorme de funç ões prontas para geração de eventos das mais variadas distribuiç ões, dentre elas:

rexp(n, rate=1)exponencial

rgamma(n, shape, rate = 1, scale = 1/rate)

gama

rbinom(n, size, prob)binomial

rbeta(n, shape1, shape2, ncp = 0)beta

rpois(n, lambda)_Poisson

rnorm(n, mean = 0, sd = 1)_gaussiana

(74)

Misturando (bem) simulação, estimação e gráficos

x = rexp(1000, rate=1/5)

hist(x, breaks="FD", probability=TRUE) l_estim = mean(x); print(l_estim) [1] 5.058988

(75)

Misturando (mal) simulação, estimação e gráficos

x = rexp(1000, rate=1/5)

hist(x, breaks="FD", probability=TRUE) mu_estim = mean(x); dp_estim = sd(x) print(mu_estim); print(dp_estim) [1] 4.791208

[1] 4.514147

curve(dnorm(x, mean=mu_estim,sd=dp_estim), add=TRUE)

(76)

Pacotes em R

R oferece pacotes com funç ões prontas para realizar ensaios Monte Carlo e outras técnicas baseadas em simulação estocástica, dentre eles

statsinclui a rotinaoptimpara otimizac¸˜ao com

Simulated Annealing

bootstrap_{para estudos com reamostragem} mcmcpara Monte Carlo Markov Chains

(77)

Pacotes em R

bootstrap_{para estudos com reamostragem}

mcmcpara Monte Carlo Markov Chains

genalgpara otimizaç ão com algoritmos genéticos

(78)

Pacotes em R

(79)

Pacotes em R

genalgpara otimizaç ão com algoritmos genéticos

(80)

Resumo

Desdobramentos 4 _{Estimação de parâmetros}

(81)

Modelo param´etrico

Os modelos estat´ısticos são referenciais te óricos utilizados para descrever fen ômenos. Os fen ômenos naturais são, em sua maioria, excessivamente complexos para que possamos extrair informação útil a partir de sua observação direta. Os modelos são simplificaç ões desta realidade que, ao perder detalhes e buscar um certo grau de generalização, aspiram a ajudar-nos a formular leis de certa validade.

Um modelo estat´ıstico param´etrico ´e uma fam´ılia de

distribuiç ões de probabilidade indexadas (determinadas) por um vetor p dimensional θ sobre o qual s ó sabemos que pertence a um conjunto Θ ⊂R

p_{. Os dados servem para termos} uma id´eia do valor parˆametro θ.

A literatura é vasta em modelos estat´ısticos, mais ou menos adequados para certas situaç ões. Referências importantes para este tema são os textos Johnson et al. (1993, 1994, 1995).

(82)

Modelo param´etrico

p_{. Os dados servem para termos}

(83)

Modelo param´etrico

p_{. Os dados servem para termos}

uma id´eia do valor parˆametro θ.

A literatura é vasta em modelos estat´ısticos, mais ou menos adequados para certas situaç ões. Referências importantes para este tema são os textos Johnson et al. (1993, 1994, 1995).

(84)

Nosso exemplo de trabalho: a distribuic¸˜ao gama I

A variável aleat ória Y segue uma lei gama com parâmetros α, β > 0 se sua densidade é dada por

f (y; α, β) = 1

βα_Γ(α)y

α−1_exp{−y/β}

1

R+(y),

onde1Adenota a func¸˜ao indicadora do conjunto A. Esta

situação denota-se Y ∼ Γ(α, β). Esta densidade está dispon´ıvel na plataformaRatravés da funçãodgamma, e pode ser

simulada com chamadas à funçãorgamma. A esperança e a variância de uma variável aleat ória com esta distribuição são dadas, respectivamente, por

(85)

Nosso exemplo de trabalho: a distribuic¸˜ao gama II

Com isso ´e imediato que E2(Y)

Var(Y) = α, Var(Y)

E(Y) = β.

Pela lei dos grandes n úmeros sabemos que, sob condiç ões razoáveis, quando n → ∞ temos que

1 n X 1≤i≤n g(Yi)−→ E(g(Y)).Pr 54 / 71

(86)

Nosso exemplo de trabalho: a distribuic¸˜ao gama III

Esse resultado inspira a proposta dos seguintes estimadores: b α = m 2 1 m2− m2₁ , b β = m2− m 2 1 m1 , onde mℓ= 1 n X 1≤i≤n yℓ_i

(87)

O m´etodo de analogia

Se o parˆametro desconhecido tem a forma θ = (θ1, . . . , θp),

então o método de substituição consiste em estimar θ através de bθ _{= (b}_θ₁_{, . . . , b}_θ_p_{), que é a solução do sistema}

               1 n X 1≤i≤n Ψ1(yi) = Eθb[Ψ1(Y)], .. . ... 1 n X 1≤i≤n Ψp(yi) = Eθb[Ψp(Y)]. (3)

Uma referência importante para esta técnica é o livro

de Manski (1988). O método é geral em sua formulação, mas sua versão mais popular é baseada nos momentos amostrais. Quando o lado direito das equaç ões do sistema dado em (3) são momentos, o método é conhecido comométodo de momentos.

(88)

O m´etodo de analogia

Se o parˆametro desconhecido tem a forma θ = (θ1, . . . , θp),

então o método de substituição consiste em estimar θ através de bθ _{= (b}_θ₁_{, . . . , b}_θ_p_{), que é a solução do sistema}

               1 n X 1≤i≤n Ψ1(yi) = Eθb[Ψ1(Y)], .. . ... 1 n X 1≤i≤n Ψp(yi) = Eθb[Ψp(Y)]. (3)

Uma referência importante para esta técnica é o livro

(89)

Propriedades da estimac¸˜ao por analogia

Ele se reduz à solução de um sistema de equaç ões

(tipicamente n˜ao lineares)

É o método preferido nas aplicaç ões (engenharia,

sensoriamento remoto etc.)

O seu resultado ´e frequentemente empregado como

solução inicial de algoritmos iterativos para o cálculo de estimadores de máxima verossimilhança, robustos etc. Ele é simples de calcular e de implementar

Ele nem sequer requer o conhecimento da densidade, basta

o conhecimento de tantos momentos quanto parˆametros a estimar

Suas propriedades te ´oricas devem ser analisadas caso a

caso, e não são necessariamente ótimas

(90)

Propriedades da estimac¸˜ao por analogia

solução inicial de algoritmos iterativos para o cálculo de estimadores de máxima verossimilhança, robustos etc.

Ele ´e simples de calcular e de implementar

(91)

Propriedades da estimac¸˜ao por analogia

(92)

Propriedades da estimac¸˜ao por analogia

(93)

Propriedades da estimac¸˜ao por analogia

(94)

Propriedades da estimac¸˜ao por analogia

(95)

O conceito de verossimilhanc¸a I

Dizemos que bθ _{é um estimador de máxima verossimilhança} para o parâmetro θ sob a amostra y = (y1, . . . , yn) se

b

θ_{= arg max}

θ∈Θ L(θ; y), (4)

onde L ´e a verossimilhanc¸a dos dados y. Para dados

provenientes de vari´aveis aleat ´orias cont´ınuas i.i.d., temos que

L(θ; y) = Y

1≤i≤n

f (θ; yi),

onde f (θ; yi) = fY(yi; θ) é a densidade da variável aleat ória

indexada pelo parâmetro θ. A verossimilhança é a função de densidade de probabilidade, s ó que com o argumento y fixo

(96)

O conceito de verossimilhanc¸a II

(visto que foi observado), e variando o parâmetro; a verossimilhançanãoé um produto de densidades. Um estimador de máxima verossimilhança maximiza a verossimilhança conjunta (equação (4)), isto é, é um valor do parâmetro que faz com que a amostra observada seja a mais plaus´ıvel (veross´ımil).

Na maioria das aplicaç ões não interessa o valor que a função de verossimilhança adota; s ó estamos interessados em argumentos que a maximizam; ver os textos de Bickel & Doksum (2001); Bolfarine & Sandoval (2001); Wassermann (2005).

(97)

Novamente a distribuic¸˜ao gama I

Lembrando que Y ∼ Γ(α, β) tem densidade

f (y; α, β) = 1

βα_Γ(α)y

α−1_exp(−y/β)

1

R+(y),

então a verossimilhança de y = (y1, . . . , yn) é

L(α, β; y) = (βαΓ(α))−n n Y i=1 yα−1_i ! exp ( − 1 β n X i=1 yi ) , que pode ser muito complicada de maximizar em (α, β), mas essa tarefa melhora lembrando que as densidades s˜ao positivas e, portanto, o ponto que maximiza um produto delas ´e o mesmo que maximiza o logaritmo do produto. Com isso, e

(98)

Novamente a distribuic¸˜ao gama II

desprezando os termos que n˜ao dependem das vari´aveis de interesse, temos que maximizar

ℓ(α, β; y) = −n(α ln β + ln Γ(α)) + α n X i=1 ln yi− 1 β n X i=1 yi. (5)

Sob condiç ões não muito dif´ıceis de cumprir, maximizar a equação (5) equivale a achar os zeros das derivadas parciais, isto é, basta resolver o sistema de equações ∇ℓ = 0 que, no nosso exemplo, consiste em

(

1Pn

(99)

Novamente a distribuic¸˜ao gama III

Em palavras, calcular o estimador de máxima verossimilhança consiste em (i) resolver um problema de otimização, isto é, a equação (5), ou (ii) resolver um sistema de equaç ões

tipicamente n˜ao lineares, isto ´e, o sistema (6). R fornece ferramentas para ambas abordagens!

Vocˆe aproveitou o minicurso se. . .

for capaz de fazer um ensaio Monte Carlo para comparar erro quadrático médio dos estimadores de momentos e de máxima verossimilhança para os parâmetros da distribuição gama em uma boa variedade de situaç ões.

(100)

Resumo

Desdobramentos

(101)

Referˆencias I

Bickel, P. J. & Doksum, K. A. (2001), Mathematical Statistics: Basic Ideas and

Selected Topics, Vol. 1, 2 ed., Prentice-Hall, NJ.

Bolfarine, H. & Sandoval, M. C. (2001), Introdu¸cão à Inferência Estat´ıstica, Coleção Matemática Aplicada, Sociedade Brasileira de Matemática, Rio de Janeiro.

Bustos, O. H. & Frery, A. C. (1992a), ‘Reporting Monte Carlo results in statistics: suggestions and an example’, Revista de la Sociedad Chilena de

Estad´ıstica 9(2), 46–95.

Bustos, O. H. & Frery, A. C. (1992b), Simula¸c˜ao estoc´astica: teoria e algoritmos

(vers˜ao completa), Monografias de Matem´atica, 49, CNPq/IMPA, Rio de

Janeiro, RJ.

Chambers, J. M. (2008), Software for Data Analysis: Programming with R, Statistics and Computing, Springer.

(102)

Referˆencias II

Chambers, J. M., Cleveland, W. S., Kleiner, B. & Tuckey, P. A. (1983), Graphical

Methods for Data Analysis, Statistics/Probability Series, Wadsworth and

Brooks/Cole, Pacific Grove.

Cipra, B. A. (2000), ‘The best of the 20th century: Editors name top 10 algorithms’, SIAM News 33(4), 1–2.

Crawley, M. J. (2005), Statistics: an introduction using R, Wiley. Crawley, M. J. (2007), The R book, Wiley.

Dalgaard, P. (2002), Introductory Statistics with R, Statistics and Computing, Springer, New York.

Davison, A. C. & Hinkley, D. V. (1997), Bootstrap Methods and their Application, Cambridge University Press, New York.

Devroye, L. (1986), Non-Uniform Random Variate Generation, Springer-Verlag, New York.

(103)

Referˆencias III

Eckhardt, R. (1987), ‘Stan Ulam, John von Neumann, and the Monte Carlo method’, Los Alamos Science (15), 131–141. URL

http://library.lanl.gov/cgi-bin/getfile?00326867.pdf. Everitt, B. S. & Hothorn, T. (2006), A Handbook of Statistical Analyses Using R,

Chapman & Hall/CRC.

Frery, A. C. & Cribari-Neto, F. (2005), Elementos de Estat´ıstica Computacional

usando Software Livre/Gratuito, Associac¸˜ao Instituto Nacional de

Matem´atica Pura e Aplicada - IMPA, Rio de Janeiro, RJ.

Gelfand, A. E. & Smith, A. F. M. (1990), ‘Sampling based approaches to calculating marginal densities’, Journal of the Americal Statistical Association

85, 398–409.

Geman, D. & Geman, S. (1984), ‘Stochastic relaxation, Gibbs distributions and the Bayesian restoration of images’, IEEE Transactions on Pattern Analysis

and Machine Intelligence 6(6), 721–741.

Gentle, J. E. (2000), Random Number Generation and Monte Carlo Methods, Statistics and Computing, Springer, New York.

(104)

Referˆencias IV

Hitchcock, D. B. (2003), ‘A history of the Metropolis-Hastings algorithm’, The

American Statistician 57(4), 254–257.

Johnson, N. L., Kotz, S. & Balakrishnan, N. (1994), Continuous Univariate

Distributions, Vol. 1 of Wiley Series in Probability and Mathematical Statistics,

2 ed., John Wiley & Sons, New York.

Johnson, N. L., Kotz, S. & Balakrishnan, N. (1995), Continuous Univariate

Distributions, Vol. 2, 2 ed., John Wiley & Sons, New York.

Johnson, N. L., Kotz, S. & Kemp, A. W. (1993), Univariate Discrete

Distributions, Wiley Series in Probability and Mathematical Statistics, 2 ed.,

John Wiley & Sons, New York.

Kaelbling, L., Littman, M. & Moore, A. (1996), ‘Reinforcement learning: A survey’, Journal of Artificial Inteligence Research 4, 237–285.

(105)

Referˆencias V

Lewis, P. A. W. & Orav, E. J. (1989), Simulation Methodology for Statisticians,

Operation Analysts and Engineers, Vol. 1, Wadsworth and Brooks/Cole,

Pacific Grove.

Maindonald, J. & Braun, J. (2003), Data Analysis and Graphics with R: an

Example-based Approach, Statistical and Probabilistic Mathematics,

Cambridge.

Manski, C. F. (1988), Analog Estimation Methods in Econometrics, Vol. 39 of

Monographs on Statistics and Applied Probability, Chapman & Hall, New

York. URLhttp://elsa.berkeley.edu/books/analog.html. Metropolis, N. (1987), ‘The beginning of the Monte Carlo method’, Los Alamos

Science (17), 125–130. URL

http://library.lanl.gov/cgi-bin/getfile?00326866.pdf. Metropolis, N. & Ulam, S. (1949), ‘The Monte Carlo method’, Journal of the

American Statistical Association pp. 335–341.

Murrell, P. (2006), R Graphics, Chapman & Hall.

Ripley, B. D. (1987), Stochastic Simulation, Wiley, New York.

(106)

Referˆencias VI

Robert, C. P. & Casella, G. (2000), Monte Carlo Statistical Methods, Springer Texts in Statistics, Springer, New York.

Ross, S. M. (1997), Simulation, Statistical Modeling and Decision Science, 2 ed., Harcourt/Academic Press, San Diego.

Sarkar, D. (2008), Lattice: Multivariate Data Visualization with R, Use R!, Springer.

Spector, P. (2008), Data Manipulation with R, Use R!, Springer.

Velho, L., Frery, A. C. & Miranda, J. (2008), Image Processing for Computer

Graphics and Vision, 2 ed., Springer, London.

Venables, W. N. & Ripley, B. D. (2000), S Programming, Springer-Verlag, New York.

Venables, W. N. & Ripley, B. D. (2002), Modern Applied Statistics with S, Statistics and Computing, 4 ed., Springer, New York.

(107)

Referˆencias VII

Verzani, J. (2004), Using R for Introductory Statistics, Chapman & Hall/CRC. Vieira, H. C., Frery, A. C. & Vereda, L. (2008), Introdu¸cão à Simula¸cão Estocástica

para Atu´aria e Finan¸cas usando R, Vol. 33 of Notas em Matem´atica Aplicada,

Sociedade Brasileira de Matem´atica Aplicada e Computacional – SBMAC. Wassermann, L. (2005), All of Statistics: A Concise Course in Statistical Inference,

Springer.

(108)

Contato

Alejandro C. Frery

acfrery@pesquisador.cnpq.br

http://lattes.cnpq.br/2312365155234431 http://www.researcherid.com/rid/A-8855-2008

Universidade Federal de Alagoas

Mestrado em Modelagem Computacional de Conhecimento

Programa de p ós-graduação nota 4 na Capes. As inscriç ões abrem em dezembro, com boa disponibilidade de bolsas.