Probabilidade Computacional e Visualizac¸˜ao
de Dados na Plataforma
R
Alejandro C. Frery & H´elio Lopes
CPMAT & LCCV Instituto de Computac¸˜ao Universidade Federal de Alagoas
XII Simp ´osio de Pesquisa Operacional e Log´ıstica da Marinha
XII SPOLM Rio de Janeiro 5 e 6 de agosto de 2009
Resumo
1 Introduc¸˜ao
2 A plataformaR
Hist ´orico e principais caracter´ısticas Instalac¸˜ao
Uso b´asico – estat´ıstica univariada Estat´ıstica multivariada
3 Ensaios Monte Carlo
Hist ´orico Exemplos
Desdobramentos
4 Estimac¸˜ao de parˆametros
Objetivos
Probabilidade Computacional
´E o cruzamento entre probabilidade, estat´ıstica, computac¸˜ao e an´alise num´erica.
Veremos trˆes t ´opicos b´asicos:
1 PlataformaR
2 Estat´ıstica descritiva quantitativa e qualitativa
(visualizac¸ ˜ao)
3 O m´etodo Monte Carlo
Boa parte destas transparˆencias tem como fonte os textos de Bustos & Frery (1992b), de Frery & Cribari-Neto (2005), de Velho et al. (2008), e de Vieira et al. (2008).
Resumo
1 Introduc¸˜ao
2 A plataformaR
Hist ´orico e principais caracter´ısticas Instalac¸˜ao
Uso b´asico – estat´ıstica univariada Estat´ıstica multivariada
3 Ensaios Monte Carlo
Hist ´orico Exemplos
Desdobramentos
4 Estimac¸˜ao de parˆametros
Licenc¸a de uso
R ´eFree/Libre and Open Source Software (FLOSS).
Seu c ´odigo-fonte est´a dispon´ıvel para qualquer pessoa e pode ser alterado para adequ´a-lo a necessidades espec´ıficas, sem ter que pagar.
Portanto, FLOSS ´e de fato gratuito, mas usar este termo somente para designar softwares sem custo ´e contar a metade da hist ´oria.
O software gratuito (freeware), por si s ´o, ´e um software que pode ser usado sem precisar pagar. Por´em, n˜ao se tem acesso ao seu c ´odigo-fonte, portanto n˜ao pode ser alterado ou simplesmente estudado, somente pode ser usado da forma como ele foi disponibilizado.
O que ´e
R
?
R ´e umalinguageme umambientepara computac¸˜ao estat´ıstica
e produc¸˜ao de gr´aficos.
´E uma implementac¸˜ao GNU da linguatemS(Chambers, 2008).
Rprovˆe recursos para modelagem linear e n˜ao-linear, testes
estat´ısticos cl´assicos, an´alise de s´eries de tempo, classificac¸ ˜ao, agrupamento. . . , e ´e extens´ıvel, incluindo
tratamento e armazenamento eficazes de dados
operadores para c´alculos em arrays, em particular matrizes ferramentas para an´alise qualitativa e quantitativa de dados
Como instalar
R
?
R est´a dispon´ıvel tanto na forma de c ´odigo fonte, para ser compilado de forma otimizada para cada plataforma de hardware e software, quanto na forma de “pacotes” de instalac¸˜ao para UNIX, Linux, Mac OS X e —ningu´em ´e perfeito— Windows.
Em Ubuntu e outros derivados de Debian, basta dar o comando:
acfrery@omas$ sudo apt-get install r-base
A instalac¸˜ao de bibliotecas deve ser feita como super-usu´ario.
Entrar, pedir ajuda e sair
Para entrar noRem Linux, digiteRna linha de comando
acfrery@omas$ R
Para pedir ajuda, j´a dentro deR, digite
> ?datapara ter ajuda no console sobredata > help.start()para ter ajuda no navegador Web Para sair doR
R ´e uma calculadora!
> 2+2 [1] 4 > 2+3 ; 5ˆ2 [1] 5 [1] 25 > log(pi) [1] 1.14473 > log(7ˆpi, 7) [1] 3.141593 > cos(pi/2) [1] 6.123032e-17 > sqrt(2-5i) [1] 1.921609-1.300993i 9 / 71Bibliotecas e dados
R possui bibliotecas com func¸ ˜oes e conjuntos de dados adicionais.
A func¸˜aolibrary()carrega bibliotecas:
> library(lattice)
A func¸˜aodata()carrega dados internos:
> data(iris)
A func¸˜aoread.table()carrega dados ASCII
O que temos na mem ´oria?
> ls()> iris
> summary(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 Median :5.800 Median :3.000 Median :4.350 Median :1.300 Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800 Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
Species setosa :50 versicolor:50 virginica :50
Algumas contas b´asicas
> length(iris$Sepal.Length) [1] 150 > attach(iris) > quantile(Sepal.Length) 0% 25% 50% 75% 100% 4.3 5.1 5.8 6.4 7.9 > quantile(Sepal.Length, seq(0, 1, 0.1)) 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 4.30 4.80 5.00 5.27 5.60 5.80 6.10 6.30 6.52 6.90 7.90 > mean(Sepal.Length) [1] 5.843333 > median(Sepal.Length) [1] 5.8Mais contas b´asicas
> library(e1071)
Loading required package: class > skewness(Sepal.Length)
[1] 0.3086407
> kurtosis(Sepal.Length) [1] -0.6058125
Meus primeiros gr´aficos em R I
> boxplot(iris[,-5], horizontal=TRUE, notch=TRUE, main="Exemplo de Boxplot")
Sepal.Width
Petal.Length
Petal.Width
Meus primeiros gr´aficos em R II
> hist(Sepal.Length, prob=TRUE, main="Histograma", xlab="Comprimento da S´epala", ylab="Proporc¸˜oes")
Exemplo de Histograma Comprimento da Sépala Proporções 4 5 6 7 8 0.0 0.1 0.2 0.3 0.4 15 / 71
Meus primeiros gr´aficos em R III
Uma forma entre gr´afica e alfanum´erica ´e o diagrama de galhos e folhas (stem-and-leaf plot):
> stem(Sepal.Length)
The decimal point is 1 digit(s) to the left of the | 42 | 0 44 | 0000 46 | 000000 48 | 00000000000 50 | 0000000000000000000 52 | 00000 54 | 0000000000000 56 | 00000000000000 58 | 0000000000 60 | 000000000000 62 | 0000000000000 64 | 000000000000 66 | 0000000000 68 | 0000000 70 | 00 72 | 0000
An´alise descritiva
A func¸˜aosummaryj´a nos forneceu uma id´eia quantitativa de um conjunto de dados multivariados: 150 observac¸ ˜oes de quatro vari´aveis (comprimento e largura de s´epalas e p´etalas), categorizadas em trˆes grupos (as esp´ecies setosa, versicolor e virginica).
O que est´a faltando ´e alguma id´eia da relac¸˜ao entre elas. . .
> var(iris[,-5])
Sepal.Length Sepal.Width Petal.Length Petal.Width Sepal.Length 0.68569351 -0.04243400 1.2743154 0.5162707 Sepal.Width -0.04243400 0.18997942 -0.3296564 -0.1216394 Petal.Length 1.27431544 -0.32965638 3.1162779 1.2956094 Petal.Width 0.51627069 -0.12163937 1.2956094 0.5810063 > cor(iris[,-5])
Sepal.Length Sepal.Width Petal.Length Petal.Width Sepal.Length 1.0000000 -0.1175698 0.8717538 0.8179411 Sepal.Width -0.1175698 1.0000000 -0.4284401 -0.3661259 Petal.Length 0.8717538 -0.4284401 1.0000000 0.9628654 Petal.Width 0.8179411 -0.3661259 0.9628654 1.0000000
Gr´afico de pares
> pairs(iris[,-5], main="Conjunto Iris", pch=21, bg=c("red","green3","blue")[unclass(Species)]) Sepal.Length 2.0 2.5 3.0 3.5 4.0 0.5 1.0 1.5 2.0 2.5 4.5 5.5 6.5 7.5 2.0 2.5 3.0 3.5 4.0 Sepal.Width Petal.Length 1 2 3 4 5 6 7 4.55.05.56.06.57.07.58.0 0.5 1.0 1.5 2.0 2.5 1 2 3 4 5 6 7 Petal.Width Conjunto Iris 19 / 71
Gr´afico de estrelas
> stars(iris, full=TRUE, draw.segments=TRUE, key.loc=c(27,1))
Bibliografia b´asica de R
Uma biblioteca m´ınima a respeito de R ´e formada pelos seguintes livros: Chambers (2008); Chambers et al. (1983); Crawley (2005, 2007); Dalgaard (2002); Davison & Hinkley (1997); Everitt & Hothorn (2006); Maindonald & Braun (2003); Murrell (2006); Sarkar (2008); Spector (2008); Venables & Ripley (2000, 2002); Venables & Smith (2001); Verzani (2004).
Dois recursos na Web s˜ao essenciais:
O s´ıtio oficial de R:http://www.r-project.org
A lista de discuss˜ao RSTAT:
http://br.groups.yahoo.com/group/R_STAT
Resumo
1 Introduc¸˜ao 2 A plataformaR
Hist ´orico e principais caracter´ısticas Instalac¸˜ao
Uso b´asico – estat´ıstica univariada Estat´ıstica multivariada
3 Ensaios Monte Carlo
Hist ´orico Exemplos
Desdobramentos
4 Estimac¸˜ao de parˆametros
Os Top 10
No artigo de Dongarra & Sullivan (2000) (cujo conte ´udo est´a dispon´ıvel gratuitamente no trabalho de Cipra, 2000) o m´etodo
Monte Carlo ´e o primeiro da lista cronol ´ogica dos dez
algoritmos mais importantes para o desenvolvimento e a pr´atica da ciˆencia e da engenharia no s´eculo XX.
Proposto nos anos 40, este algoritmo vem prestando servic¸os inestim´aveis ao c´alculo de quantidades dif´ıceis de avaliar e, mais geralmente, `a compreens˜ao de fen ˆomenos complexos.
Os Top 10
No artigo de Dongarra & Sullivan (2000) (cujo conte ´udo est´a dispon´ıvel gratuitamente no trabalho de Cipra, 2000) o m´etodo
Monte Carlo ´e o primeiro da lista cronol ´ogica dos dez
algoritmos mais importantes para o desenvolvimento e a pr´atica da ciˆencia e da engenharia no s´eculo XX.
Proposto nos anos 40, este algoritmo vem prestando servic¸os inestim´aveis ao c´alculo de quantidades dif´ıceis de avaliar e, mais geralmente, `a compreens˜ao de fen ˆomenos complexos.
Monte Carlo
´E um m´etodo de c´alculo poderoso e de aplicabilidade muito ampla que emprega no seu cerne elementos estoc´asticos. O seu nome ´e uma referˆencia aos cassinos do Principado de M ˆonaco.
Antecedentes
1777 A agulha de Buffon: o lanc¸amento de uma agulha sobre uma grade de linhas paralelas e o registro da proporc¸˜ao de intersec¸˜oes redunda na
determinac¸˜ao do n ´umero π
In´ıcio do S´ec. XX William Gosset usa amostragem na determinac¸˜ao da distribuic¸˜ao t-Student Ver o artigo de Hitchcock (2003).
Antecedentes
1777 A agulha de Buffon: o lanc¸amento de uma agulha sobre uma grade de linhas paralelas e o registro da proporc¸˜ao de intersec¸˜oes redunda na
determinac¸˜ao do n ´umero π
In´ıcio do S´ec. XX William Gosset usa amostragem na determinac¸˜ao da distribuic¸˜ao t-Student
Ver o artigo de Hitchcock (2003).
Antecedentes
1777 A agulha de Buffon: o lanc¸amento de uma agulha sobre uma grade de linhas paralelas e o registro da proporc¸˜ao de intersec¸˜oes redunda na
determinac¸˜ao do n ´umero π
In´ıcio do S´ec. XX William Gosset usa amostragem na determinac¸˜ao da distribuic¸˜ao t-Student
Um in´ıcio muito s´erio
Ulam, enquanto estava acamado em 1946 fazendo jogos de paciˆencia, se perguntou pela probabilidade de um jogo de
Canfield (tamb´em conhecido como Klondike) poder ser
ganho (Eckhardt, 1987; Metropolis, 1987).
(dispon´ıvel gratuitamente em
www.solitairenetwork.com/Solitaire/canfield-solitaire-game.html 26 / 71
Alternativas
Combinat ´oria (pensamento abstrato)
Uso dos nov´ıssimos e poderos´ıssimos computadores da ´epoca
A id´eia era embaralhar “aleatoriamente” um baralho na
mem ´oria do computador, e deixar a m´aquina jogar pelas regras do Canfield.
Ap ´os cada jogo, registrar se houve ou n˜ao sucesso.
Uma estimativa da probabilidade de ganhar um jogo qualquer ´e a proporc¸˜ao de sucessos.
Alternativas
Combinat ´oria (pensamento abstrato)
Uso dos nov´ıssimos e poderos´ıssimos computadores da ´epoca
A id´eia era embaralhar “aleatoriamente” um baralho na
mem ´oria do computador, e deixar a m´aquina jogar pelas regras do Canfield.
Ap ´os cada jogo, registrar se houve ou n˜ao sucesso.
Uma estimativa da probabilidade de ganhar um jogo qualquer ´e a proporc¸˜ao de sucessos.
Alternativas
Combinat ´oria (pensamento abstrato)
Uso dos nov´ıssimos e poderos´ıssimos computadores da ´epoca
A id´eia era embaralhar “aleatoriamente” um baralho na
mem ´oria do computador, e deixar a m´aquina jogar pelas regras do Canfield.
Ap ´os cada jogo, registrar se houve ou n˜ao sucesso.
Uma estimativa da probabilidade de ganhar um jogo qualquer ´e a proporc¸˜ao de sucessos.
Alternativas
Combinat ´oria (pensamento abstrato)
Uso dos nov´ıssimos e poderos´ıssimos computadores da ´epoca
A id´eia era embaralhar “aleatoriamente” um baralho na
mem ´oria do computador, e deixar a m´aquina jogar pelas regras do Canfield.
Ap ´os cada jogo, registrar se houve ou n˜ao sucesso.
Uma estimativa da probabilidade de ganhar um jogo qualquer ´e a proporc¸˜ao de sucessos.
1946
Uma id´eia levou a outra, e Ulam logo estava (ainda acamado e) pensando em problemas de difus˜ao de neutrinos e outras coisas da f´ısica matem´atica.
O pulo foi imaginar como “traduzir” fen ˆomenos descritos por equac¸ ˜oes diferenciais para a linguagem de processos aleat ´orios. Uma vez nesse dom´ınio, seria apenas reproduzir o processo no computador.
1946
Uma id´eia levou a outra, e Ulam logo estava (ainda acamado e) pensando em problemas de difus˜ao de neutrinos e outras coisas da f´ısica matem´atica.
O pulo foi imaginar como “traduzir” fen ˆomenos descritos por equac¸ ˜oes diferenciais para a linguagem de processos aleat ´orios. Uma vez nesse dom´ınio, seria apenas reproduzir o processo no computador.
1947
Von Neumann, colega de Ulam, escreve para o diretor da Divis˜ao Te ´orica de Los Alamos dizendo que essa abordagem estat´ıstica era muito conveniente para um tratamento digital.
Nessa correspondˆencia ele esboc¸a o novo m´etodo para resolver a difus˜ao de neutrinos e o comportamento de dispositivos de fis˜ao nuclear.
Todos os ingredientes do processo s˜aodetermin´ısticos, menos o n ´umero de neutrinos gerados que segue uma distribuic¸˜ao de probabilidade.
A id´eia ´e acompanhar a vida de cada part´ıcula usando n ´umeros pseudoaleat ´orios para modelar as interac¸ ˜oes com
1947
Von Neumann, colega de Ulam, escreve para o diretor da Divis˜ao Te ´orica de Los Alamos dizendo que essa abordagem estat´ıstica era muito conveniente para um tratamento digital. Nessa correspondˆencia ele esboc¸a o novo m´etodo para resolver a difus˜ao de neutrinos e o comportamento de dispositivos de fis˜ao nuclear.
Todos os ingredientes do processo s˜aodetermin´ısticos, menos o n ´umero de neutrinos gerados que segue uma distribuic¸˜ao de probabilidade.
A id´eia ´e acompanhar a vida de cada part´ıcula usando n ´umeros pseudoaleat ´orios para modelar as interac¸ ˜oes com outras part´ıculas. Cada part´ıcula ´e um jogo de paciˆencia!
1947
Von Neumann, colega de Ulam, escreve para o diretor da Divis˜ao Te ´orica de Los Alamos dizendo que essa abordagem estat´ıstica era muito conveniente para um tratamento digital. Nessa correspondˆencia ele esboc¸a o novo m´etodo para resolver a difus˜ao de neutrinos e o comportamento de dispositivos de fis˜ao nuclear.
Todos os ingredientes do processo s˜aodetermin´ısticos, menos o n ´umero de neutrinos gerados que segue uma distribuic¸˜ao de probabilidade.
A id´eia ´e acompanhar a vida de cada part´ıcula usando n ´umeros pseudoaleat ´orios para modelar as interac¸ ˜oes com
1947
Von Neumann, colega de Ulam, escreve para o diretor da Divis˜ao Te ´orica de Los Alamos dizendo que essa abordagem estat´ıstica era muito conveniente para um tratamento digital. Nessa correspondˆencia ele esboc¸a o novo m´etodo para resolver a difus˜ao de neutrinos e o comportamento de dispositivos de fis˜ao nuclear.
Todos os ingredientes do processo s˜aodetermin´ısticos, menos o n ´umero de neutrinos gerados que segue uma distribuic¸˜ao de probabilidade.
A id´eia ´e acompanhar a vida de cada part´ıcula usando n ´umeros pseudoaleat ´orios para modelar as interac¸ ˜oes com outras part´ıculas. Cada part´ıcula ´e um jogo de paciˆencia!
1948
A primeira vers˜ao do algoritmo n˜ao incluia explicitamente deslocamento de mat´eria
radiac¸˜ao gerada
mas ambos fen ˆomenos estavam previstos na discuss˜ao de von Neumann.
J´a no ano seguinte Ulam informava da possibilidade de tratar raios c ´osmicos e certos tipos de equac¸˜oes diferenciais pela mesma abordagem.
1948
A primeira vers˜ao do algoritmo n˜ao incluia explicitamente deslocamento de mat´eria
radiac¸˜ao gerada
mas ambos fen ˆomenos estavam previstos na discuss˜ao de von Neumann.
J´a no ano seguinte Ulam informava da possibilidade de tratar raios c ´osmicos e certos tipos de equac¸˜oes diferenciais pela mesma abordagem.
Ainda em 1948
Nicholas C. Metropolis volta a Los Alamos (local de trabalho de Ulam e von Neumann) para liderar a construc¸˜ao do MANIAC (Mathematical Analyzer, Numerical Integrator and
Computer). . . que foi a plataforma ideal para rodar as “experiˆencias estat´ısticas”.
Ainda em 1948
Nicholas C. Metropolis volta a Los Alamos (local de trabalho de Ulam e von Neumann) para liderar a construc¸˜ao do MANIAC (Mathematical Analyzer, Numerical Integrator and
Computer). . . que foi a plataforma ideal para rodar as
“experiˆencias estat´ısticas”.
Publicac¸˜ao fundamental
Aparece o artigo de Metropolis & Ulam (1949) onde os autores comec¸am por definir o problema de calcular o volume de uma regi˜ao n˜ao infinitesimal em [0, 1]20definida por um conjunto de desigualdades da forma f1(x1, . . . , x20) < 0, f2(x1, . . . , x20) < 0, .. . f20(x1, . . . , x20) < 0.
Publicac¸˜ao fundamental
Aparece o artigo de Metropolis & Ulam (1949) onde os autores comec¸am por definir o problema de calcular o volume de uma regi˜ao n˜ao infinitesimal em [0, 1]20definida por um conjunto de desigualdades da forma f1(x1, . . . , x20) < 0, f2(x1, . . . , x20) < 0, .. . f20(x1, . . . , x20) < 0.
Os autores comec¸am discutindo por que a avaliac¸ ˜ao num´erica sequencial pode n˜ao ser uma boa id´eia, e argumentam a favor do uso de amostragem.
Publicac¸˜ao fundamental
Em um segundo exemplo apresentam o problema dos raios c ´osmicos, ondem modelam v´arias componentes da formac¸˜ao da cascata de part´ıculas como vari´aveis aleat ´orias. A soluc¸˜ao anal´ıtica passa pelo produto muitas vezes de matrizes, ou pela reproduc¸˜ao do fen ˆomeno no computador.
O artigo segue com a descric¸˜ao de um problema geral: uma part´ıcula capaz de produzir em um meio outras part´ıculas dotadas de certas propriedades (energia e movimento). Cada nova part´ıcula poder´a, por sua vez, criar outras. Sistemas desse tipo podem ser descritos pelas equac¸˜oes de Boltzman de
cin´etica de gases, que s˜ao similares `as equac¸ ˜oes probabil´ısticas de Fokker-Plank.
Publicac¸˜ao fundamental
Em um segundo exemplo apresentam o problema dos raios c ´osmicos, ondem modelam v´arias componentes da formac¸˜ao da cascata de part´ıculas como vari´aveis aleat ´orias. A soluc¸˜ao anal´ıtica passa pelo produto muitas vezes de matrizes, ou pela reproduc¸˜ao do fen ˆomeno no computador.
O artigo segue com a descric¸˜ao de um problema geral: uma part´ıcula capaz de produzir em um meio outras part´ıculas dotadas de certas propriedades (energia e movimento). Cada nova part´ıcula poder´a, por sua vez, criar outras.Sistemas desse tipo podem ser descritos pelas equac¸˜oes de Boltzman de
cin´etica de gases, que s˜ao similares `as equac¸ ˜oes probabil´ısticas de Fokker-Plank.
Dotando ao computador da capacidade de “simular” eventos, a conex˜ao est´a feita!
Publicac¸˜ao fundamental
Em um segundo exemplo apresentam o problema dos raios c ´osmicos, ondem modelam v´arias componentes da formac¸˜ao da cascata de part´ıculas como vari´aveis aleat ´orias. A soluc¸˜ao anal´ıtica passa pelo produto muitas vezes de matrizes, ou pela reproduc¸˜ao do fen ˆomeno no computador.
O artigo segue com a descric¸˜ao de um problema geral: uma part´ıcula capaz de produzir em um meio outras part´ıculas dotadas de certas propriedades (energia e movimento). Cada nova part´ıcula poder´a, por sua vez, criar outras. Sistemas desse tipo podem ser descritos pelas equac¸˜oes de Boltzman de
cin´etica de gases, que s˜ao similares `as equac¸ ˜oes probabil´ısticas de Fokker-Plank.
Publicac¸˜ao fundamental
Em um segundo exemplo apresentam o problema dos raios c ´osmicos, ondem modelam v´arias componentes da formac¸˜ao da cascata de part´ıculas como vari´aveis aleat ´orias. A soluc¸˜ao anal´ıtica passa pelo produto muitas vezes de matrizes, ou pela reproduc¸˜ao do fen ˆomeno no computador.
O artigo segue com a descric¸˜ao de um problema geral: uma part´ıcula capaz de produzir em um meio outras part´ıculas dotadas de certas propriedades (energia e movimento). Cada nova part´ıcula poder´a, por sua vez, criar outras. Sistemas desse tipo podem ser descritos pelas equac¸˜oes de Boltzman de
cin´etica de gases, que s˜ao similares `as equac¸ ˜oes probabil´ısticas de Fokker-Plank.
Dotando ao computador da capacidade de “simular” eventos, a conex˜ao est´a feita!
Problema conceitual
Determin´ıstico vs. aleat ´orio
Como obter ou gerar n ´umeros aleat ´orios em um ambiente essencialmente determin´ıstico: o computador digital?
Knuth e von Neumann, dentre outros grandes nomes da computac¸˜ao, fizeram grandes contribuic¸ ˜oes a esse problema. A literatura sobre gerac¸˜ao de n ´umeros pseudoaleat ´orios
uniformes ´e vasta (ver, por exemplo, Gentle, 2000; Lewis & Orav, 1989; Ripley, 1987; Ross, 1997), mas rapidamente constatou-se a necessidade de “obter amostras” de vari´aveis
Problema conceitual
Determin´ıstico vs. aleat ´orio
Como obter ou gerar n ´umeros aleat ´orios em um ambiente essencialmente determin´ıstico: o computador digital? Knuth e von Neumann, dentre outros grandes nomes da computac¸˜ao, fizeram grandes contribuic¸ ˜oes a esse problema. A literatura sobre gerac¸˜ao de n ´umeros pseudoaleat ´orios
uniformes ´e vasta (ver, por exemplo, Gentle, 2000; Lewis & Orav, 1989; Ripley, 1987; Ross, 1997), mas rapidamente constatou-se a necessidade de “obter amostras” de vari´aveis aleat ´orias n˜ao uniformes.
Soluc¸˜ao computacional
Construir um algoritmo (e, portanto, um artefato
determin´ıstico) capaz de gerar sequˆencias de n ´umeros que
1 um avaliador que ignore o que o algoritmo faz, as
considere como sendo ocorrˆencias de vari´aveis aleat ´orias independentes e identicamente distribu´ıdas;
2 sejam repet´ıveis; 3 sejam port´aveis.
Ainda hoje ´e um tema de pesquisa!
O m´etodo mais conhecido que gera uma seq ¨uˆencia de n ´umeros pseudo-aleat ´orios ´e o LCG (Linear Congruential Generator), que usa a equac¸˜ao:
Soluc¸˜ao computacional
Construir um algoritmo (e, portanto, um artefato
determin´ıstico) capaz de gerar sequˆencias de n ´umeros que
1 um avaliador que ignore o que o algoritmo faz, as
considere como sendo ocorrˆencias de vari´aveis aleat ´orias independentes e identicamente distribu´ıdas;
2 sejam repet´ıveis; 3 sejam port´aveis.
Ainda hoje ´e um tema de pesquisa!
O m´etodo mais conhecido que gera uma seq ¨uˆencia de n ´umeros pseudo-aleat ´orios ´e o LCG (Linear Congruential Generator), que usa a equac¸˜ao:
vi+1= (a × vi+ b) mod m, i ≥ 0,
onde a, b e m s˜ao inteiros, mod ´e a operac¸˜ao m ´odulo, e v0 ´e a
semente. A seq ¨uˆencia {ui}1≥0 ´e obtida fazendo ui= vi/m.
. . . ainda em 1947
Em outra correspondˆencia de von Neumann para Ulam, ele discute duas t´ecnicas para a gerac¸˜ao de ocorrˆencias de vari´aveis aleat ´orias n˜ao uniformes:
o m´etodo de invers˜ao
o m´etodo de aceitac¸˜ao-rejeic¸˜ao
Esses s˜ao ainda os pilares da simulac¸˜ao estoc´astica (para detalhes, ver Devroye, 1986; Robert & Casella, 2000).
An´alise de dados
Uma vez executada uma s´erie desses “experimentos aleat ´orios”, os dados resultantes podem ser analisados da mesma forma em que seriam tratados dados experimentais do mundo real.
Se observamos n ensaios independentes e coletamos x1, . . . , xn, uma estimativa razo´avel para o valor esperado da vari´avel aleat ´oria X ´e
b E(X) = 1 n n X i=1 xi,
cuja imprecis˜ao ´e proporcional apVar(X)/n, que tamb´em pode ser estimada. Qualquer procedimento que diminua a imprecis˜ao no c´alculo chama-se t´ecnica de redu¸c˜ao da variˆancia (ver Ripley, 1987).
An´alise de dados
Uma vez executada uma s´erie desses “experimentos aleat ´orios”, os dados resultantes podem ser analisados da mesma forma em que seriam tratados dados experimentais do mundo real.
Se observamos n ensaios independentes e coletamos x1, . . . , xn,
uma estimativa razo´avel para o valor esperado da vari´avel aleat ´oria X ´e
b E(X) = 1 n n X i=1 xi,
cuja imprecis˜ao ´e proporcional apVar(X)/n, que tamb´em pode ser estimada.Qualquer procedimento que diminua a
An´alise de dados
Uma vez executada uma s´erie desses “experimentos aleat ´orios”, os dados resultantes podem ser analisados da mesma forma em que seriam tratados dados experimentais do mundo real.
Se observamos n ensaios independentes e coletamos x1, . . . , xn,
uma estimativa razo´avel para o valor esperado da vari´avel aleat ´oria X ´e
b E(X) = 1 n n X i=1 xi,
cuja imprecis˜ao ´e proporcional apVar(X)/n, que tamb´em pode ser estimada. Qualquer procedimento que diminua a imprecis˜ao no c´alculo chama-se t´ecnica de redu¸c˜ao da variˆancia (ver Ripley, 1987).
O problema geral e uma soluc¸˜ao
Sejam Y : Ω →R
k um vetor aleat ´orio k-dimensional e
ψ : R
k →
R
ruma func¸˜ao (bem comportada). O problema ´e
calcular θ = E(ψ(Y)), isto ´e, resolver a integral θ =
Z
R
rψ(y)f (y)dy
que, freq ¨uentemente, n˜ao tem forma anal´ıtica fechada e para a qual os m´etodos num´ericos dispon´ıveis s˜ao pouco confi´aveis ou inst´aveis.
Uma soluc¸˜ao simples (que pode ser melhorada) ´e por Monte Carlo Forc¸a Bruta, que consiste em “aproximar” θ, usando a Lei
O problema geral e uma soluc¸˜ao
Sejam Y : Ω →R
k um vetor aleat ´orio k-dimensional e
ψ : R
k →
R
ruma func¸˜ao (bem comportada). O problema ´e
calcular θ = E(ψ(Y)), isto ´e, resolver a integral θ =
Z
R
rψ(y)f (y)dy
que, freq ¨uentemente, n˜ao tem forma anal´ıtica fechada e para a qual os m´etodos num´ericos dispon´ıveis s˜ao pouco confi´aveis ou inst´aveis.
Uma soluc¸˜ao simples (que pode ser melhorada) ´e por Monte Carlo Forc¸a Bruta, que consiste em “aproximar” θ, usando a Lei dos Grandes N ´umeros, por ˆθ = n−1Pn
i=1ψ(yi), onde
(y1, . . . , yn) s˜ao amostras independentes da vari´avel aleat ´oria Y.
T´ecnicas derivadas
A busca pela eficiˆencia e a adaptac¸˜ao a novos paradigmas levou `a proposta de v´arias t´ecnicas de enorme sucesso, dentre elas
! Simulated Annealing (Kirkpatrick et al., 1983) ! Bootstrap (Davison & Hinkley, 1997)
! MCMC (Monte Carlo Markov Chain; Gelfand & Smith, 1990;
Geman & Geman, 1984).
Exemplo pr´atico
Avaliar o desempenho do estimador bθ = bθ(X1, . . . , Xn) quando
as vari´aveis aleat ´orias {Xi} s˜ao independentes e identicamente
distribu´ıdas segundo a lei D(θ). A avaliac¸ ˜ao precisa levar em conta v´arios valores de θ ∈ Θ e v´arios tamanhos de amostra n, e ser´a feita pelo erro quadr´atico m´edio EQM(bθ).
Primeira abordagemobrigat ´oria: calcular analiticamente EQM(bθ) = B2(bθ) + Var(bθ), onde o vi´es ´e dado por
B(bθ) = E(bθ) − θ.
Se todas as nossas tentativas falharem, podemos proceder para a segunda abordagem.
Exemplo pr´atico
Avaliar o desempenho do estimador bθ = bθ(X1, . . . , Xn) quando
as vari´aveis aleat ´orias {Xi} s˜ao independentes e identicamente
distribu´ıdas segundo a lei D(θ). A avaliac¸ ˜ao precisa levar em conta v´arios valores de θ ∈ Θ e v´arios tamanhos de amostra n, e ser´a feita pelo erro quadr´atico m´edio EQM(bθ).
Primeira abordagemobrigat ´oria: calcular analiticamente EQM(bθ) = B2(bθ) + Var(bθ), onde o vi´es ´e dado por
B(bθ) = E(bθ) − θ.
Se todas as nossas tentativas falharem, podemos proceder para a segunda abordagem.
Exemplo pr´atico
Avaliar o desempenho do estimador bθ = bθ(X1, . . . , Xn) quando
as vari´aveis aleat ´orias {Xi} s˜ao independentes e identicamente
distribu´ıdas segundo a lei D(θ). A avaliac¸ ˜ao precisa levar em conta v´arios valores de θ ∈ Θ e v´arios tamanhos de amostra n, e ser´a feita pelo erro quadr´atico m´edio EQM(bθ).
Primeira abordagemobrigat ´oria: calcular analiticamente EQM(bθ) = B2(bθ) + Var(bθ), onde o vi´es ´e dado por
B(bθ) = E(bθ) − θ.
Se todas as nossas tentativas falharem, podemos proceder para a segunda abordagem.
Exemplo pr´atico: a lei exponencial I
A distribuic¸˜ao da vari´avel aleat ´oria X chama-se exponencial padr˜ao se a sua densidade ´e f (t) = exp{−t}1
R+(t). Com isso, a
sua func¸˜ao de distribuic¸˜ao acumulada ´e
F(t) = (1 − exp{−t})1 R+(t).
A vari´avel aleat ´oria Y = λX, com X exponencial padr˜ao e λ > 0 tem distribuic¸˜ao exponencial de m´edia λ, e a sua densidade ´e
fY(t) = 1
λexp{−t/λ}1
R+(t), (1)
Exemplo pr´atico: a lei exponencial II
Para gerar eventos de Y, podemos usar o teorema de invers˜ao na equac¸˜ao (2). Se U ∼ U(0, 1), ent˜ao F−1Y (U) = −λ ln(1 − U) tem a distribuic¸˜ao que precisamos, isto ´e, geramos u1, . . . , un
eventos independentes de U e usamos y1, . . . , yn, com
yi= −λ ln(1 − ui).
J´a estamos em condic¸ ˜oes de avaliar o desempenho de algum estimador para λ, por exemplo, o estimador de m´axima verossimilhanc¸a: c λn= 1 n n X i=1 yi. 42 / 71
Pseudoc ´odigo
Entrada: Fatores e replicac¸ ˜oes
para cada θ ∈ {θ1, . . . , θT} ⊂ Θ fa¸ca
para cadan ∈ {n1, . . . , nN} fa¸ca
para cada1 ≤ r ≤ Rnfa¸ca
Gere a amostra x(n, r) = (x1, . . . , xn)(r) de D(θ);
Calcule e armazene a estimativa bθ(x(n, r));
fim
Estime o vi´es da situac¸˜ao usando b
B(bθ(X1, . . . , Xn)) =
b
θ(x(n,1))+···+bθ(x(n,Rn))
Rn − θ;
Estime analogamente a variˆancia da situac¸˜ao;
Implementac¸˜ao (muito b´asica) em R
theta = seq(1,10,1)
tamanho = seq(10, 100, 10) estimativa = vector(length=10) vies = matrix(nrow=10, ncol=10) for (i in 1:10) {
t = theta[i] for (j in 1:10) {
n = tamanho[j]
for (replic in seq(1, 100000/n, 1)) {
estimativa[replic] = mean(rexp(n, rate = 1/t)) }
vies[i,j] = mean(estimativa) - t }
}
Agora a an´alise ´e com vocˆes. . .
O valorvies[i,j]possui a estimativa do vi´es da situac¸˜ao indexada pelo parˆametrotheta[i]e a amostra de tamanhotamanho[j]
Analise a variac¸ ˜ao do vi´es, para cada tamanho de amostra, em func¸˜ao do parˆametro:plot(theta, vies[,1])etc.
Analise a variac¸ ˜ao do vi´es, para cada valor do parˆametro, em func¸˜ao do tamanho da amostra
Agora a an´alise ´e com vocˆes. . .
O valorvies[i,j]possui a estimativa do vi´es da situac¸˜ao indexada pelo parˆametrotheta[i]e a amostra de tamanhotamanho[j]
Analise a variac¸ ˜ao do vi´es, para cada tamanho de amostra, em func¸˜ao do parˆametro:plot(theta, vies[,1])etc.
Analise a variac¸ ˜ao do vi´es, para cada valor do parˆametro, em func¸˜ao do tamanho da amostra
plot(tamanho, vies[1,])etc.
Agora a an´alise ´e com vocˆes. . .
O valorvies[i,j]possui a estimativa do vi´es da situac¸˜ao indexada pelo parˆametrotheta[i]e a amostra de tamanhotamanho[j]
Analise a variac¸ ˜ao do vi´es, para cada tamanho de amostra, em func¸˜ao do parˆametro:plot(theta, vies[,1])etc.
Analise a variac¸ ˜ao do vi´es, para cada valor do parˆametro, em func¸˜ao do tamanho da amostra
Fatos do exemplo pr´atico
! Foram considerados apenas dois fatores: θ e n ! Foram avaliadas T × N situac¸ ˜oes
! Para cada situac¸˜ao foram feitas Rnreplicac¸ ˜oes
! Em cada replicac¸˜ao foram geradas n amostras da lei D(θ) ! A estrutura de um experimento Monte Carlo por Forc¸a
Bruta ´e de lac¸os aninhados com vetores de dados de v´arias dimens ˜oes
! O fim de um experimento Monte Carlo ´e a an´alise dos
dados coletados
Ver detalhes em Bustos & Frery (1992a).
´E importante frisar que a execuc¸˜ao desse exemplo requer a simulac¸˜ao exata de ocorrˆencias de vari´aveis aleat ´orias que seguem a lei D(θ).
Fatos do exemplo pr´atico
! Foram considerados apenas dois fatores: θ e n ! Foram avaliadas T × N situac¸ ˜oes
! Para cada situac¸˜ao foram feitas Rnreplicac¸ ˜oes
! Em cada replicac¸˜ao foram geradas n amostras da lei D(θ) ! A estrutura de um experimento Monte Carlo por Forc¸a
Bruta ´e de lac¸os aninhados com vetores de dados de v´arias dimens ˜oes
! O fim de um experimento Monte Carlo ´e a an´alise dos
dados coletados
Ver detalhes em Bustos & Frery (1992a).
Func¸ ˜oes para simulac¸˜ao no
R
Roferece um leque enorme de func¸ ˜oes prontas para gerac¸˜ao de eventos das mais variadas distribuic¸ ˜oes, dentre elas:
rexp(n, rate=1)exponencial
rgamma(n, shape, rate = 1, scale = 1/rate)
gama
rbinom(n, size, prob)binomial
rbeta(n, shape1, shape2, ncp = 0)beta
rpois(n, lambda)Poisson
rnorm(n, mean = 0, sd = 1)gaussiana
Misturando (bem) simulac¸˜ao, estimac¸˜ao e gr´aficos
x = rexp(1000, rate=1/5)
hist(x, breaks="FD", probability=TRUE) l_estim = mean(x); print(l_estim) [1] 5.058988
Misturando (mal) simulac¸˜ao, estimac¸˜ao e gr´aficos
x = rexp(1000, rate=1/5)
hist(x, breaks="FD", probability=TRUE) mu_estim = mean(x); dp_estim = sd(x) print(mu_estim); print(dp_estim) [1] 4.791208
[1] 4.514147
curve(dnorm(x, mean=mu_estim,sd=dp_estim), add=TRUE)
Pacotes em R
R oferece pacotes com func¸ ˜oes prontas para realizar ensaios Monte Carlo e outras t´ecnicas baseadas em simulac¸˜ao estoc´astica, dentre eles
statsinclui a rotinaoptimpara otimizac¸˜ao com
Simulated Annealing
bootstrappara estudos com reamostragem mcmcpara Monte Carlo Markov Chains
Pacotes em R
R oferece pacotes com func¸ ˜oes prontas para realizar ensaios Monte Carlo e outras t´ecnicas baseadas em simulac¸˜ao estoc´astica, dentre eles
statsinclui a rotinaoptimpara otimizac¸˜ao com
Simulated Annealing
bootstrappara estudos com reamostragem
mcmcpara Monte Carlo Markov Chains
genalgpara otimizac¸ ˜ao com algoritmos gen´eticos
Pacotes em R
R oferece pacotes com func¸ ˜oes prontas para realizar ensaios Monte Carlo e outras t´ecnicas baseadas em simulac¸˜ao estoc´astica, dentre eles
statsinclui a rotinaoptimpara otimizac¸˜ao com
Simulated Annealing
bootstrappara estudos com reamostragem mcmcpara Monte Carlo Markov Chains
Pacotes em R
R oferece pacotes com func¸ ˜oes prontas para realizar ensaios Monte Carlo e outras t´ecnicas baseadas em simulac¸˜ao estoc´astica, dentre eles
statsinclui a rotinaoptimpara otimizac¸˜ao com
Simulated Annealing
bootstrappara estudos com reamostragem mcmcpara Monte Carlo Markov Chains
genalgpara otimizac¸ ˜ao com algoritmos gen´eticos
Resumo
1 Introduc¸˜ao 2 A plataformaR
Hist ´orico e principais caracter´ısticas Instalac¸˜ao
Uso b´asico – estat´ıstica univariada Estat´ıstica multivariada
3 Ensaios Monte Carlo
Hist ´orico Exemplos
Desdobramentos 4 Estimac¸˜ao de parˆametros
Modelo param´etrico
Os modelos estat´ısticos s˜ao referenciais te ´oricos utilizados para descrever fen ˆomenos. Os fen ˆomenos naturais s˜ao, em sua maioria, excessivamente complexos para que possamos extrair informac¸˜ao ´util a partir de sua observac¸˜ao direta. Os modelos s˜ao simplificac¸ ˜oes desta realidade que, ao perder detalhes e buscar um certo grau de generalizac¸˜ao, aspiram a ajudar-nos a formular leis de certa validade.
Um modelo estat´ıstico param´etrico ´e uma fam´ılia de
distribuic¸ ˜oes de probabilidade indexadas (determinadas) por um vetor p dimensional θ sobre o qual s ´o sabemos que pertence a um conjunto Θ ⊂R
p. Os dados servem para termos uma id´eia do valor parˆametro θ.
A literatura ´e vasta em modelos estat´ısticos, mais ou menos adequados para certas situac¸ ˜oes. Referˆencias importantes para este tema s˜ao os textos Johnson et al. (1993, 1994, 1995).
Modelo param´etrico
Os modelos estat´ısticos s˜ao referenciais te ´oricos utilizados para descrever fen ˆomenos. Os fen ˆomenos naturais s˜ao, em sua maioria, excessivamente complexos para que possamos extrair informac¸˜ao ´util a partir de sua observac¸˜ao direta. Os modelos s˜ao simplificac¸ ˜oes desta realidade que, ao perder detalhes e buscar um certo grau de generalizac¸˜ao, aspiram a ajudar-nos a formular leis de certa validade.
Um modelo estat´ıstico param´etrico ´e uma fam´ılia de
distribuic¸ ˜oes de probabilidade indexadas (determinadas) por um vetor p dimensional θ sobre o qual s ´o sabemos que pertence a um conjunto Θ ⊂R
p. Os dados servem para termos
Modelo param´etrico
Os modelos estat´ısticos s˜ao referenciais te ´oricos utilizados para descrever fen ˆomenos. Os fen ˆomenos naturais s˜ao, em sua maioria, excessivamente complexos para que possamos extrair informac¸˜ao ´util a partir de sua observac¸˜ao direta. Os modelos s˜ao simplificac¸ ˜oes desta realidade que, ao perder detalhes e buscar um certo grau de generalizac¸˜ao, aspiram a ajudar-nos a formular leis de certa validade.
Um modelo estat´ıstico param´etrico ´e uma fam´ılia de
distribuic¸ ˜oes de probabilidade indexadas (determinadas) por um vetor p dimensional θ sobre o qual s ´o sabemos que pertence a um conjunto Θ ⊂R
p. Os dados servem para termos
uma id´eia do valor parˆametro θ.
A literatura ´e vasta em modelos estat´ısticos, mais ou menos adequados para certas situac¸ ˜oes. Referˆencias importantes para este tema s˜ao os textos Johnson et al. (1993, 1994, 1995).
Nosso exemplo de trabalho: a distribuic¸˜ao gama I
A vari´avel aleat ´oria Y segue uma lei gama com parˆametros α, β > 0 se sua densidade ´e dada por
f (y; α, β) = 1
βαΓ(α)y
α−1exp{−y/β}
1
R+(y),
onde1Adenota a func¸˜ao indicadora do conjunto A. Esta
situac¸˜ao denota-se Y ∼ Γ(α, β). Esta densidade est´a dispon´ıvel na plataformaRatrav´es da func¸˜aodgamma, e pode ser
simulada com chamadas `a func¸˜aorgamma. A esperanc¸a e a variˆancia de uma vari´avel aleat ´oria com esta distribuic¸˜ao s˜ao dadas, respectivamente, por
Nosso exemplo de trabalho: a distribuic¸˜ao gama II
Com isso ´e imediato que E2(Y)
Var(Y) = α, Var(Y)
E(Y) = β.
Pela lei dos grandes n ´umeros sabemos que, sob condic¸ ˜oes razo´aveis, quando n → ∞ temos que
1 n X 1≤i≤n g(Yi)−→ E(g(Y)).Pr 54 / 71
Nosso exemplo de trabalho: a distribuic¸˜ao gama III
Esse resultado inspira a proposta dos seguintes estimadores: b α = m 2 1 m2− m21 , b β = m2− m 2 1 m1 , onde mℓ= 1 n X 1≤i≤n yℓi
O m´etodo de analogia
Se o parˆametro desconhecido tem a forma θ = (θ1, . . . , θp),
ent˜ao o m´etodo de substituic¸˜ao consiste em estimar θ atrav´es de bθ = (bθ1, . . . , bθp), que ´e a soluc¸˜ao do sistema
1 n X 1≤i≤n Ψ1(yi) = Eθb[Ψ1(Y)], .. . ... 1 n X 1≤i≤n Ψp(yi) = Eθb[Ψp(Y)]. (3)
Uma referˆencia importante para esta t´ecnica ´e o livro
de Manski (1988). O m´etodo ´e geral em sua formulac¸˜ao, mas sua vers˜ao mais popular ´e baseada nos momentos amostrais. Quando o lado direito das equac¸ ˜oes do sistema dado em (3) s˜ao momentos, o m´etodo ´e conhecido comom´etodo de momentos.
O m´etodo de analogia
Se o parˆametro desconhecido tem a forma θ = (θ1, . . . , θp),
ent˜ao o m´etodo de substituic¸˜ao consiste em estimar θ atrav´es de bθ = (bθ1, . . . , bθp), que ´e a soluc¸˜ao do sistema
1 n X 1≤i≤n Ψ1(yi) = Eθb[Ψ1(Y)], .. . ... 1 n X 1≤i≤n Ψp(yi) = Eθb[Ψp(Y)]. (3)
Uma referˆencia importante para esta t´ecnica ´e o livro
Propriedades da estimac¸˜ao por analogia
Ele se reduz `a soluc¸˜ao de um sistema de equac¸ ˜oes
(tipicamente n˜ao lineares)
´E o m´etodo preferido nas aplicac¸ ˜oes (engenharia,
sensoriamento remoto etc.)
O seu resultado ´e frequentemente empregado como
soluc¸˜ao inicial de algoritmos iterativos para o c´alculo de estimadores de m´axima verossimilhanc¸a, robustos etc. Ele ´e simples de calcular e de implementar
Ele nem sequer requer o conhecimento da densidade, basta
o conhecimento de tantos momentos quanto parˆametros a estimar
Suas propriedades te ´oricas devem ser analisadas caso a
caso, e n˜ao s˜ao necessariamente ´otimas
Propriedades da estimac¸˜ao por analogia
Ele se reduz `a soluc¸˜ao de um sistema de equac¸ ˜oes
(tipicamente n˜ao lineares)
´E o m´etodo preferido nas aplicac¸ ˜oes (engenharia,
sensoriamento remoto etc.)
O seu resultado ´e frequentemente empregado como
soluc¸˜ao inicial de algoritmos iterativos para o c´alculo de estimadores de m´axima verossimilhanc¸a, robustos etc.
Ele ´e simples de calcular e de implementar
Ele nem sequer requer o conhecimento da densidade, basta
o conhecimento de tantos momentos quanto parˆametros a estimar
Propriedades da estimac¸˜ao por analogia
Ele se reduz `a soluc¸˜ao de um sistema de equac¸ ˜oes
(tipicamente n˜ao lineares)
´E o m´etodo preferido nas aplicac¸ ˜oes (engenharia,
sensoriamento remoto etc.)
O seu resultado ´e frequentemente empregado como
soluc¸˜ao inicial de algoritmos iterativos para o c´alculo de estimadores de m´axima verossimilhanc¸a, robustos etc.
Ele ´e simples de calcular e de implementar
Ele nem sequer requer o conhecimento da densidade, basta
o conhecimento de tantos momentos quanto parˆametros a estimar
Suas propriedades te ´oricas devem ser analisadas caso a
caso, e n˜ao s˜ao necessariamente ´otimas
Propriedades da estimac¸˜ao por analogia
Ele se reduz `a soluc¸˜ao de um sistema de equac¸ ˜oes
(tipicamente n˜ao lineares)
´E o m´etodo preferido nas aplicac¸ ˜oes (engenharia,
sensoriamento remoto etc.)
O seu resultado ´e frequentemente empregado como
soluc¸˜ao inicial de algoritmos iterativos para o c´alculo de estimadores de m´axima verossimilhanc¸a, robustos etc.
Ele ´e simples de calcular e de implementar
Ele nem sequer requer o conhecimento da densidade, basta
o conhecimento de tantos momentos quanto parˆametros a estimar
Propriedades da estimac¸˜ao por analogia
Ele se reduz `a soluc¸˜ao de um sistema de equac¸ ˜oes
(tipicamente n˜ao lineares)
´E o m´etodo preferido nas aplicac¸ ˜oes (engenharia,
sensoriamento remoto etc.)
O seu resultado ´e frequentemente empregado como
soluc¸˜ao inicial de algoritmos iterativos para o c´alculo de estimadores de m´axima verossimilhanc¸a, robustos etc.
Ele ´e simples de calcular e de implementar
Ele nem sequer requer o conhecimento da densidade, basta
o conhecimento de tantos momentos quanto parˆametros a estimar
Suas propriedades te ´oricas devem ser analisadas caso a
caso, e n˜ao s˜ao necessariamente ´otimas
Propriedades da estimac¸˜ao por analogia
Ele se reduz `a soluc¸˜ao de um sistema de equac¸ ˜oes
(tipicamente n˜ao lineares)
´E o m´etodo preferido nas aplicac¸ ˜oes (engenharia,
sensoriamento remoto etc.)
O seu resultado ´e frequentemente empregado como
soluc¸˜ao inicial de algoritmos iterativos para o c´alculo de estimadores de m´axima verossimilhanc¸a, robustos etc.
Ele ´e simples de calcular e de implementar
Ele nem sequer requer o conhecimento da densidade, basta
o conhecimento de tantos momentos quanto parˆametros a estimar
O conceito de verossimilhanc¸a I
Dizemos que bθ ´e um estimador de m´axima verossimilhanc¸a para o parˆametro θ sob a amostra y = (y1, . . . , yn) se
b
θ= arg max
θ∈Θ L(θ; y), (4)
onde L ´e a verossimilhanc¸a dos dados y. Para dados
provenientes de vari´aveis aleat ´orias cont´ınuas i.i.d., temos que
L(θ; y) = Y
1≤i≤n
f (θ; yi),
onde f (θ; yi) = fY(yi; θ) ´e a densidade da vari´avel aleat ´oria
indexada pelo parˆametro θ. A verossimilhanc¸a ´e a func¸˜ao de densidade de probabilidade, s ´o que com o argumento y fixo
O conceito de verossimilhanc¸a II
(visto que foi observado), e variando o parˆametro; a verossimilhanc¸an˜ao´e um produto de densidades. Um estimador de m´axima verossimilhanc¸a maximiza a verossimilhanc¸a conjunta (equac¸˜ao (4)), isto ´e, ´e um valor do parˆametro que faz com que a amostra observada seja a mais plaus´ıvel (veross´ımil).
Na maioria das aplicac¸ ˜oes n˜ao interessa o valor que a func¸˜ao de verossimilhanc¸a adota; s ´o estamos interessados em argumentos que a maximizam; ver os textos de Bickel & Doksum (2001); Bolfarine & Sandoval (2001); Wassermann (2005).
Novamente a distribuic¸˜ao gama I
Lembrando que Y ∼ Γ(α, β) tem densidade
f (y; α, β) = 1
βαΓ(α)y
α−1exp(−y/β)
1
R+(y),
ent˜ao a verossimilhanc¸a de y = (y1, . . . , yn) ´e
L(α, β; y) = (βαΓ(α))−n n Y i=1 yα−1i ! exp ( − 1 β n X i=1 yi ) , que pode ser muito complicada de maximizar em (α, β), mas essa tarefa melhora lembrando que as densidades s˜ao positivas e, portanto, o ponto que maximiza um produto delas ´e o mesmo que maximiza o logaritmo do produto. Com isso, e
Novamente a distribuic¸˜ao gama II
desprezando os termos que n˜ao dependem das vari´aveis de interesse, temos que maximizar
ℓ(α, β; y) = −n(α ln β + ln Γ(α)) + α n X i=1 ln yi− 1 β n X i=1 yi. (5)
Sob condic¸ ˜oes n˜ao muito dif´ıceis de cumprir, maximizar a equac¸˜ao (5) equivale a achar os zeros das derivadas parciais, isto ´e, basta resolver o sistema de equac¸˜oes ∇ℓ = 0 que, no nosso exemplo, consiste em
(
1Pn
Novamente a distribuic¸˜ao gama III
Em palavras, calcular o estimador de m´axima verossimilhanc¸a consiste em (i) resolver um problema de otimizac¸˜ao, isto ´e, a equac¸˜ao (5), ou (ii) resolver um sistema de equac¸ ˜oes
tipicamente n˜ao lineares, isto ´e, o sistema (6). R fornece ferramentas para ambas abordagens!
Vocˆe aproveitou o minicurso se. . .
for capaz de fazer um ensaio Monte Carlo para comparar erro quadr´atico m´edio dos estimadores de momentos e de m´axima verossimilhanc¸a para os parˆametros da distribuic¸˜ao gama em uma boa variedade de situac¸ ˜oes.
Resumo
1 Introduc¸˜ao 2 A plataformaR
Hist ´orico e principais caracter´ısticas Instalac¸˜ao
Uso b´asico – estat´ıstica univariada Estat´ıstica multivariada
3 Ensaios Monte Carlo
Hist ´orico Exemplos
Desdobramentos
4 Estimac¸˜ao de parˆametros
Referˆencias I
Bickel, P. J. & Doksum, K. A. (2001), Mathematical Statistics: Basic Ideas and
Selected Topics, Vol. 1, 2 ed., Prentice-Hall, NJ.
Bolfarine, H. & Sandoval, M. C. (2001), Introdu¸c˜ao `a Inferˆencia Estat´ıstica, Colec¸˜ao Matem´atica Aplicada, Sociedade Brasileira de Matem´atica, Rio de Janeiro.
Bustos, O. H. & Frery, A. C. (1992a), ‘Reporting Monte Carlo results in statistics: suggestions and an example’, Revista de la Sociedad Chilena de
Estad´ıstica 9(2), 46–95.
Bustos, O. H. & Frery, A. C. (1992b), Simula¸c˜ao estoc´astica: teoria e algoritmos
(vers˜ao completa), Monografias de Matem´atica, 49, CNPq/IMPA, Rio de
Janeiro, RJ.
Chambers, J. M. (2008), Software for Data Analysis: Programming with R, Statistics and Computing, Springer.
Referˆencias II
Chambers, J. M., Cleveland, W. S., Kleiner, B. & Tuckey, P. A. (1983), Graphical
Methods for Data Analysis, Statistics/Probability Series, Wadsworth and
Brooks/Cole, Pacific Grove.
Cipra, B. A. (2000), ‘The best of the 20th century: Editors name top 10 algorithms’, SIAM News 33(4), 1–2.
Crawley, M. J. (2005), Statistics: an introduction using R, Wiley. Crawley, M. J. (2007), The R book, Wiley.
Dalgaard, P. (2002), Introductory Statistics with R, Statistics and Computing, Springer, New York.
Davison, A. C. & Hinkley, D. V. (1997), Bootstrap Methods and their Application, Cambridge University Press, New York.
Devroye, L. (1986), Non-Uniform Random Variate Generation, Springer-Verlag, New York.
Referˆencias III
Eckhardt, R. (1987), ‘Stan Ulam, John von Neumann, and the Monte Carlo method’, Los Alamos Science (15), 131–141. URL
http://library.lanl.gov/cgi-bin/getfile?00326867.pdf. Everitt, B. S. & Hothorn, T. (2006), A Handbook of Statistical Analyses Using R,
Chapman & Hall/CRC.
Frery, A. C. & Cribari-Neto, F. (2005), Elementos de Estat´ıstica Computacional
usando Software Livre/Gratuito, Associac¸˜ao Instituto Nacional de
Matem´atica Pura e Aplicada - IMPA, Rio de Janeiro, RJ.
Gelfand, A. E. & Smith, A. F. M. (1990), ‘Sampling based approaches to calculating marginal densities’, Journal of the Americal Statistical Association
85, 398–409.
Geman, D. & Geman, S. (1984), ‘Stochastic relaxation, Gibbs distributions and the Bayesian restoration of images’, IEEE Transactions on Pattern Analysis
and Machine Intelligence 6(6), 721–741.
Gentle, J. E. (2000), Random Number Generation and Monte Carlo Methods, Statistics and Computing, Springer, New York.
Referˆencias IV
Hitchcock, D. B. (2003), ‘A history of the Metropolis-Hastings algorithm’, The
American Statistician 57(4), 254–257.
Johnson, N. L., Kotz, S. & Balakrishnan, N. (1994), Continuous Univariate
Distributions, Vol. 1 of Wiley Series in Probability and Mathematical Statistics,
2 ed., John Wiley & Sons, New York.
Johnson, N. L., Kotz, S. & Balakrishnan, N. (1995), Continuous Univariate
Distributions, Vol. 2, 2 ed., John Wiley & Sons, New York.
Johnson, N. L., Kotz, S. & Kemp, A. W. (1993), Univariate Discrete
Distributions, Wiley Series in Probability and Mathematical Statistics, 2 ed.,
John Wiley & Sons, New York.
Kaelbling, L., Littman, M. & Moore, A. (1996), ‘Reinforcement learning: A survey’, Journal of Artificial Inteligence Research 4, 237–285.
Referˆencias V
Lewis, P. A. W. & Orav, E. J. (1989), Simulation Methodology for Statisticians,
Operation Analysts and Engineers, Vol. 1, Wadsworth and Brooks/Cole,
Pacific Grove.
Maindonald, J. & Braun, J. (2003), Data Analysis and Graphics with R: an
Example-based Approach, Statistical and Probabilistic Mathematics,
Cambridge.
Manski, C. F. (1988), Analog Estimation Methods in Econometrics, Vol. 39 of
Monographs on Statistics and Applied Probability, Chapman & Hall, New
York. URLhttp://elsa.berkeley.edu/books/analog.html. Metropolis, N. (1987), ‘The beginning of the Monte Carlo method’, Los Alamos
Science (17), 125–130. URL
http://library.lanl.gov/cgi-bin/getfile?00326866.pdf. Metropolis, N. & Ulam, S. (1949), ‘The Monte Carlo method’, Journal of the
American Statistical Association pp. 335–341.
Murrell, P. (2006), R Graphics, Chapman & Hall.
Ripley, B. D. (1987), Stochastic Simulation, Wiley, New York.
Referˆencias VI
Robert, C. P. & Casella, G. (2000), Monte Carlo Statistical Methods, Springer Texts in Statistics, Springer, New York.
Ross, S. M. (1997), Simulation, Statistical Modeling and Decision Science, 2 ed., Harcourt/Academic Press, San Diego.
Sarkar, D. (2008), Lattice: Multivariate Data Visualization with R, Use R!, Springer.
Spector, P. (2008), Data Manipulation with R, Use R!, Springer.
Velho, L., Frery, A. C. & Miranda, J. (2008), Image Processing for Computer
Graphics and Vision, 2 ed., Springer, London.
Venables, W. N. & Ripley, B. D. (2000), S Programming, Springer-Verlag, New York.
Venables, W. N. & Ripley, B. D. (2002), Modern Applied Statistics with S, Statistics and Computing, 4 ed., Springer, New York.
Referˆencias VII
Verzani, J. (2004), Using R for Introductory Statistics, Chapman & Hall/CRC. Vieira, H. C., Frery, A. C. & Vereda, L. (2008), Introdu¸c˜ao `a Simula¸c˜ao Estoc´astica
para Atu´aria e Finan¸cas usando R, Vol. 33 of Notas em Matem´atica Aplicada,
Sociedade Brasileira de Matem´atica Aplicada e Computacional – SBMAC. Wassermann, L. (2005), All of Statistics: A Concise Course in Statistical Inference,
Springer.
Contato
Alejandro C. Frery
acfrery@pesquisador.cnpq.br
http://lattes.cnpq.br/2312365155234431 http://www.researcherid.com/rid/A-8855-2008
Universidade Federal de Alagoas
Mestrado em Modelagem Computacional de Conhecimento
Programa de p ´os-graduac¸˜ao nota 4 na Capes. As inscric¸ ˜oes abrem em dezembro, com boa disponibilidade de bolsas.