• Nenhum resultado encontrado

Nesta dissertação o objetivo não é contextualizar em profundidade as diferenças da estatística frequentista e da estatística bayesiana, historicamente um dos assuntos mais debatidos na comunidade estatística, mas que perde relevância continuamente desde a revolução introduzida pelos métodos computacionais baseados em simulações de Monte Carlo (Robert e Casella (2013)) nos últimos 40 anos.

Um estudo completo da estatística bayesiana foge igualmente ao escopo desta dissertação, cujo objetivo é estabelecer o ferramental necessário para estudar a dependência entre variáveis aleatórias, fazendo uso das técnicas mais adequadas à disposição do analista. Algumas referências modernas das características e vantagens da abordagem bayesiana são Gelman et al.(2013) e McElreath (2020).

Na estatística frequentista, também denominada estatística clássica, fortemente influenciada pelo protagonismo, entre muitos outros, de grandes estatísticos como Karl Pearson e Ronald Fisher, o parâmetro (desconhecido) θ da distribuição X „ F p¨|θq é considerado fixo e estimado a partir de uma amostra aleatória X1, . . . , Xn de tamanho

n da variável aleatória X, a qual assume-se proveniente da distribuição F p¨|θq. O que

caracteriza a estatística frequentista é a interpretação específica da probabilidade como o limite de uma frequência relativa de ocorrência do evento de interesse com base em uma longa sequência de experimentos. Embora plausível quando se tem à disposição uma longa sequência de experimentos similares, tal interpretação da probabilidade é incapaz de fornecer soluções em situações nas quais há pouca informação.

Exemplo 3.4. Na década de 1950, o atuário L.H. Longley-Cook recebeu do CEO da

Insurance Company of North America (INA) a tarefa de determinar a probabilidade de colisão de dois aviões comerciais durante o voo em território americano (Charpentier(2014, p. 136)). À época ainda não havia ocorrido nenhuma colisão grave entre aeronaves, dado que a aviação comercial estava apenas nos seus primórdios. Assim, com base no histórico de dados de 5 anos e caso tivesse usado a interpretação frequentista da probabilidade, sua melhor estimativa teria sido nr. de colisõesnr. de voos “ 0

nr. de voos0, ou seja, um evento impossível de ocorrer. Somente nos 6 anos subsequentes e nos EUA houve 2 colisões1:

• 30/6/1956, envolvendo os voos UA718 (United Airlines) e TWA 2 (Trans World Airlines) acima do Grand Canyon, Arizona, com 128 vítimas fatais e • 06/12/1960, envolvendo os voos UA 826 e TWA 266 em Nova Iorque, Nevada,

com 134 vítimas fatais.

1 Detalhes: <https://aviation-safety.net/database/events/dblist.php?Event=COAI>, acessado em

Na estatística bayesiana, decorrente dos trabalhos, entre muitos outros, de Thomas Bayes, Leonard J. Savage, Harold Jeffrey e Bruno De Finetti, o parâmetro (desconhecido) θ da distribuição X „ F p¨|θq é igualmente estimado a partir de uma amostra aleatória X1, . . . , Xn de tamanho n da variável aleatória X, porém é considerado aleatório, ou seja, está associado a uma distribuição de probabilidade que busca traduzir o conhecimento disponível do parâmetro à luz do estado de conhecimento mais recente do analista.

De centralidade para toda a inferência bayesiana é o Teorema de Bayes, definido mais adiante e que decorre da definição de probabilidade condicional.

Sejam A, B P A, eventos não nulos pertencentes à σ-Álgebra A do espaço de probabilidade pΩ, A, P q, onde P pBq ‰ 0. Da definição de probabilidade condicio- nal, temos que P pA|Bq “ P pA X Bq

P pBq ùñ P pA X Bq “ P pA|BqP pBq. Analogamente, P pB|Aq “ P pA X Bq

P pAq ùñ P pAXBq “ P pB|AqP pAq, logo, P pB|AqP pAq “ P pA|BqP pBq

e, finalmente, P pA|Bq “ P pB|AqP pAq

P pBq .

Teorema 3.1(Teorema de Bayes). Seja pΩ, A, P q um espaço de probabilidade, B Ă A um

conjunto qualquer tal que B ‰ φ e A1, A2, . . . , AnĂA uma partição do espaço amostral Ω, ou seja, n ď k“1 AkΩ, onde AiX Aj “ φ e Ai ‰ φ, @i ‰ j “1, . . . , n. Então P pAi|Bq “ P pAiX Bq P pBqP pAiqP pB|Aiq P pŤnk“1B X AkqP pAiqP pB|Aiq řn k“1P pB X Akq “ řnP pAiqP pB|Aiq k“1P pAkqP pB|Akq .

O que caracteriza a abordagem bayesiana é o fato de as conclusões a respeito do parâmetro desconhecido θ P Θ serem condicionadas aos dados, seguindo a regra matemática fornecida pelo teorema de Bayes para a devida atualização do conhecimento a respeito do parâmetro.

Segundo Bolfarine e Sandoval (2001), em termos gerais, a estimação bayesiana pressupõe uma tripla formada por

• uma distribuição amostral fpx|θq, geralmente associada às observa- ções da amostra aleatória da variável aleatória X, de tamanho n,

X1, . . . , Xn, do modelo presumido F p¨|θq

• uma distribuição a priori πpθq, definida em Θ, o espaço paramétrico de θ, que representa o conhecimento a respeito de θ antes de se observarem os dados

• uma função de perda Lpθ, pθq, responsável por comparar diferentes decisões (ou estimadores) pθ quanto ao estado da natureza2 (não observável) θ.

Como descrito em Gelman et al. (2013, p. 6), para formular expressões pro- babilísticas de θ dados x1, . . . , xn, parte-se da distribuição de probabilidade conjunta do

parâmetro θ e da amostra observada x “ x1, . . . , xn.

A função de densidade de probabilidade conjunta da amostra X, denominada

função de verossimilhança, pode ser escrita como o produto de densidades da distribuição

amostral fpx|θq e da distribuição a priori πpθq, ou seja, fpθ, xq “ πpθqfpx|θq.

Condicionando em relação à amostra observada e aplicando o teorema de Bayes descrito anteriormente, determina-se a função de densidade a posteriori de θ:

ppθ|xq “ f pθ, xq gpxqπpθqf px|θq gpxq pTeorema 3.1q “ $ ’ ’ ’ ’ & ’ ’ ’ ’ % πpθqf px|θq ř θPΘπpθqf px|θq , no caso discreto πpθqf px|θq ş θPΘπpθqf px|θqdθ , no caso contínuo.

Dado que o termo gpxq independe de θ, a distribuição a posteriori é comumente escrita como ppθ|xq 9 πpθqfpx|θq e denominada densidade a posteriori não normalizada.

A escolha da priori deve levar em conta os valores plausíveis de θ, já que à medida que o tamanho da amostra cresce (n Ñ 8), a posteriori é dominada pela verossimilhança. Prioris podem ser não informativas, quando nenhum valor específico é mais provável que os demais, ou informativas, quando refletem o estado mais atual de conhecimento, seja objetivamente com base em dados históricos ou em conhecimento subjetivo do usuário. Adicionalmente, elas podem ser denominadas impróprias, o que ocorre quando

ż

Θ

πpθq dθ “ 8, ou ainda conjugadas, quando possuem a mesma estru-

tura funcional que a função de verossimilhança, o que ocorre no Exemplo 3.5. Prioris conjugadas, historicamente, foram o meio utilizado pelos estatísticos para obtenção de modelos com interpretação simples ou então com expressão analítica fechada, porém a revolução provocada pelos métodos de simulação de Monte Carlo permite que prioris não necessariamente conjugadas sejam trivialmente empregadas nas análises.

Exemplo 3.5 (Continuação do Exemplo 3.4). Deseja-se estimar

θ “ P robp2 aviões colidirem durante o voo em um anoq.

2

p

θ representa uma decisão em relação a θ tomada com base na amostra aleatória observada, logo pθ é

Seja a variável aleatória Xi: “2 aviões colidem no ano i”. Então, XiBernoullipθq, X “ 5 ÿ i“1 XiBinomialp5, θq e fX|θpx|θq “ ˆ5 x ˙

θxp1 ´ θq5´x1t0,...,5upxq.Como θ é uma

probabilidade, ou seja, θ P r0, 1s, a priori pode ser modelada pela distribuição Beta, θ „ Betapa, bq, cuja função densidade é πpθq “ Γpa ` bq

ΓpaqΓpbqθa´1p1´θqb´11r0,1spθq. A posteriori

θ|X “ x é calculada, para θ P r0, 1s, como ppθ|xq 9 πpθqf px|θqΓpa ` bq ΓpaqΓpbqθa´1p1 ´ θqb´1ˆ ˆ 5 x ˙ θxp1 ´ θq5´x “Ca,b,xˆ θa´1p1 ´ θqb´1θxp1 ´ θq5´x 9 θpa`xq´1p1 ´ θqp5`b´xq´1,

em que Ca,b,x é uma constante não depende de θ, de onde se nota que θ|X “ x „

Beta ˜ a ` 5 ÿ i“1 xi,5 ` b ´ 5 ÿ i“1 xi ¸

. Como nos primeiros 5 anos da década não houve colisões entre aviões comerciais,

5

ÿ

i“1

xi0. Além disso, considere que o atuário assumiu uma priori

não informativa de parâmetros a “ b “ 1. Assim, θ|pX “ 0q „ Betap1, 6q. Como será visto mais adiante, assumindo uma perda quadrática, o estimador de Bayes é a média a posteriori Epθ|X “ 0q “ 1 ` 61 “ 1

7. Adicionalmente, um intervalo de confiança de 95%

para θ é r0, 0.39s, onde 0.39 “ qBp1,6q

95% é o percentil 95% da distribuição a posteriori de θ.

Note que 39% « 2.51 “ 4

10, ou seja, 4 colisões a cada 10 anos, o que fornece uma boa

estimativa (vide Exemplo 3.4).

Em resumo, as expressões anteriores sintetizam a inferência bayesiana: de posse de dados observados x1, . . . , xn e uma distribuição a priori πpθq para o parâmetro θ P Θ, obtém-se a densidade conjunta fpθ, xq, procede-se aos cálculos necessários para determinar a distribuição a posteriori ppθ|xq de θ de maneira apropriada.

Sob a abordagem frequentista (clássica), a estimação do parâmetro θ consiste em uma estimativa pontual, baseada na amostra aleatória observada, usualmente acompanhada de uma medida de sua variabilidade (por exemplo, erro padrão).

Sob a abordagem bayesiana, dispõe-se de uma distribuição de probabilidade que fornece toda a informação relevante do parâmetro θ. Do ponto de vista bayesiano da teoria da decisão, é possível igualmente determinar um estimador pontual baseado em uma

função de perda não negativa Lpθ, pθq e em uma função de risco Rpθ, pθq “ ErLpθ, pθq|θs

associada a ela, dado um valor conhecido de θ, através da minimização do risco de bayes

Rpπ, pθq “ EπrRpθ, pθqs, definido a seguir, que é a esperança da função de risco avaliada

absolutamente contínuas, então Rpπ, dq “ EπrRpθ, pθqs “ ż Θ Rpθ, pθqπpθq dθ “ ż Θ „ż X Lpθ, pθqf px|θq dxπpθq dθ “ ż Θ ż X Lpθ, pθqf px|θqπpθq dx dθ “ ż Θ ż X Lpθ, pθqf px, θq dx dθ (Regra de Bayes) “ ż Θ ż X Lpθ, pθqppθ|xqgpxq dx dθ pTeorema 3.1q “ ż X „ż Θ Lpθ, pθqppθ|xq dθgpxq dx,

no qual a integral interna é denominada perda a posteriori e sob algumas condições de regularidade se pode permutar as integrais (vide Bickel e Doksum (2015, pp.114-121)). Analogamente, se θ e X forem ambas variáveis aleatórias discretas, então Rpπ, pθq “ ÿ X « ÿ Θ Lpθ, pθqppθ|xq ff gpxq.

Assim, definida uma função de perda Lpθ, pθq, busca-se pθBpxq, denominado o

estimador de Bayes, que minimize o risco de Bayes Rpπ, pθq. Como o risco de Bayes

depende de θ somente através da integral interna no caso absolutamente contínuo (e do somatório interno no caso discreto), segue que o estimador de bayes, para cada observação

x, é dado por p θBpxq “ $ ’ ’ ’ ’ & ’ ’ ’ ’ % arg min p θ ż Θ

Lpθ, pθqppθ|xq dθ ,no caso absolutamente contínuo

arg min p θ ÿ Θ Lpθ, pθqppθ|xq ,no caso discreto.

A cada função perda Lpθ, pθq corresponde um estimador de Bayes pθBpxq. Consi- derando a perda quadrática, ou seja, Lpθ, pθq “ pθ ´ pθq2, segue que

p θBpxq “arg min p θ ż Θ Lpθ, pθqppθ|xq dθ “arg min p θ ż Θ pθ ´ pθq2ppθ|xq dθ,

1. d dt „ż Θ pθ ´ tq2ppθ|xq dθ ˇ ˇ ˇ ˇ t“pθBpxq “0 e 2. d2 dt2 „ż Θ pθ ´ tq2ppθ|xq dθ ˇ ˇ ˇ ˇ t“pθBpxq ě0. Prosseguindo, tem-se d dt „ż Θ pθ ´ tq2ppθ|xq dθ ˇ ˇ ˇ ˇ t“pθBpxq “0 ùñ ż Θ

´2pθ ´ pθBpxqqppθ|xq dθ “0 pnotar que pθB depende de xq ùñ ż Θ θppθ|xq dθ ´ ż θ p θBpxq ppθ|xq dθ “0 ùñ ż Θ θppθ|xq dθ “ pθBpxq ż θ ppθ|xq dθ ùñ ż Θ θppθ|xq dθ “ pθBpxq pppθ|xqé fdpq ùñ pθBpxq “Erθ|X “ xs,

além disso, verifica-se que

d2 dt2 „ż Θ pθ ´ tq2ppθ|xq dθ ˇ ˇ ˇ ˇ t“pθBpxq “2 ě 0

ou seja, a média a posteriori é o estimador de Bayes para uma perda quadrática. Analogamente pode-se determinar que a mediana a posteriori é o estimador de Bayes referente à função perda Lpθ, pθq “ |θ ´ pθ| e que a moda a posteriori é o estimador de Bayes referente à função perda Lpθ, pθq “ 1tθuppθq (vide Velasco et al.(2016, pp. 50-51)).

Outra maneira usual de apresentar os resultados da análise sob a abordagem bayesiana é por meio de intervalos. Um intervalo de credibilidade pθI, θSq de p1 ´ αq% para θ, 0 ď α ď 1, com eventualmente base na distribuição a posteriori ppθ|xq, é tal que

żθS

θI

ppθ|xq dθ “ 1 ´ α. Um intervalo central de p1 ´ αq% para θ é determinado a

partir dos percentis θα{2% e θ1´α{2% de modo que

żθ1´α{2%

θα{2%

ppθ|xq dθ “1 ´ α. Contudo, tais

intervalos não são o foco das aplicações e da dissertação; no Apêndice E encontra-se um exemplo numérico de um intervalo central de 95% para θ referente à aplicação Mapa da Desigualdade,Seção 4.4.

3.2.1

Distribuição a Posteriori via simulações

É inerente à inferência bayesiana a grande complexidade proveniente dos cálculos que surgem nas aplicações, principalmente associada às altas dimensões decorrentes do grande número de parâmetros a serem estimados. Até a difusão de computadores pessoais e

métodos específicos de simulações de Monte Carlo, a inferência bayesiana ficou limitada aos casos mais triviais, restringindo a exploração de novas soluções e combinações de modelos por estar confinada basicamente nos modelos mais simples com prioris conjugadas ou estrategicamente escolhidas para facilitar o cômputo analítico da distribuição a posteriori.

Hoje em dia as análises bayesianas complexas são possíveis devido ao fácil acesso à simulação de valores provenientes da chamada distribuição alvo3, processo para qual existem diferentes algoritmos nos dias de hoje. A denominação geral de tais simulações são simulações de Monte Carlo, que consistem na geração de valores de uma distribuição de probabilidade de interesse. O tratamento completo deste tema foge ao escopo desta dissertação e pode ser encontrado em Robert e Casella (2013).

Os primeiros algoritmos datam do pós-guerra e provém do trabalho de Stanislaw Ulam, Nicholas Metropolis e Wilfred Keith Hastings, mas foi durante a década de 1980 que a estatística bayesiana voltou a florescer, em consequência do desenvolvimento do software BUGS4, que viabilizou o uso de modelos hierárquicos sob a abordagem bayesiana principalmente por pesquisadores aplicados, não necessariamente com formação estatística. Problemas de astronomia, biologia e ciências sociais, por exemplo, até então intratáveis do ponto de vista matemático, puderam ser retomados e explorados em profundidade, até que novas limitações ao algoritmo de Metropolis-Hastings surgissem em decorrência da alta dimensionalidade do espaço paramétrico Θ, contexto no qual a exploração da distribuição a

posteriori tende a não ser completa, o que é denominado um comportamento patológico

por Betancourt (2017).

Nesta dissertação foi utilizado o stan5, uma linguagem de programação pro- babilística, para realização das simulações da distribuição a posteriori do parâmetro de interesse, através do pacote rstan do software GNU R. Baseada no algoritmo de Monte Carlo Hamiltoniano (HMC), que utiliza o gradiente da log-verossimilhança para determinar os valores simulados da posteriori, stan representa a evolução de linguagens como BUGS e JAGS, ambas baseadas em amostradores de Gibbs e em Monte Carlo via Cadeias de Markov (MCMC), que por sua vez são avanços em relação ao método de Monte Carlo original. O entendimento de como e, principalmente, porque o método de Monte Carlo Ha- miltoniano funciona está condicionado à matemática da geometria diferencial (Betancourt

(2017)) e, por este motivo, mantém-se uma discussão mais superficial nesta dissertação. De posse da sequência θt

, t “1, 2, 3, . . . , considerando a distribuição a posteriori ppθ|xq estimada através das simulações de Monte Carlo, o método básico de inferência

bayesiana consiste em usar a coleção de todos os valores simulados de ppθ|xq para resumir a densidade a posteriori e calcular quantis, momentos e demais resumos de interesse 3

geralmente ppθ|xq, a distribuição a posteriori de θ com base na amostra aleatória x “ x1, . . . , xn

4 acrônimo do inglês Bayesian Inference Using Gibbs Sampling: Inferência Bayesiana Usando Amostra-

dores de Gibbs, em tradução livre

(Gelman et al. (2013, p. 281)).

Por construção, o stan gera uma sequência paralela de m estimativas para cada parâmetro θ, cada uma partindo de um ponto inicial distinto θ0 com o objetivo

de que as sequências misturem-se e sejam estacionárias. A variabilidade dentro de cada sequência e entre sequências é necessária para a determinação de 2 métricas responsáveis por, conjuntamente, indicar a convergência das simulações: pR e neff.

Como descrito em Gelman et al. (2013, p. 284), dadas m sequências paralelas de cada uma das n simulações (após descartada a primeira metade das simulações6 – warm-

up), para cada parâmetro estimável θ atribuem-se as simulações θij, em que i representa a simulação e j, o parâmetro simulado (i “ 1, . . . , n; j “ 1, . . . , mq e são calculados B (a variância entre sequências) e W (a variância dentro de cada sequência):

B “ n m ´1 m ÿ j“1 `θ¨j´ 訨 ˘2 , onde θ¨j “ 1 n n ÿ i“1 θij, 訨 “ 1 m m ÿ j“1 θ¨j e W “ 1 m m ÿ j“1 s2j, onde s2j “ 1 n ´1 n ÿ i“1 `θij ´ θ¨j ˘2 .

Ainda, segundo Gelman et al. (2013, p. 285), monitora-se a convergência das simulações através da estimativa do fator pelo qual a escala da distribuição de θ poderia ser reduzida caso as simulações continuassem indefinidamente no limite n Ñ 8. O potencial de redução de escala no stan e é estimado por

p R “ d y Var`pθ|xq W ,

que tende a 1 à medida que n Ñ 8, e y

Var`pθ|xq “ n ´1

n W `

1

nB

é a variância marginal a posteriori de θ.

Se pRfor superior a 1, então há razões para acreditar que aumentando o número

de simulações (n) é possível melhorar a inferência da distribuição alvo do parâmetro θ sob análise. Segundo Gelman et al. (2013, p. 287), valores de pR abaixo de 1.1 indicam que

as cadeias convergiram. A principal vantagem deste critério é poder prescindir da análise exclusivamente gráfica das simulações (como na Subfigura E.2(a) e na Subfigura E.2(b) no

Apêndice E).

A segunda métrica de convergência é neff, o número efetivo de simulações

independentes da posteriori para algum parâmetro θ de interesse, obtido via comparação 6

por padrão o stan descarta as primeiras 1000 (argumento warmup) de um total de 2000 iterações (argumento iter), porém ambos os argumentos podem ser alterados pelo usuário.

das variâncias entre e dentro das m sequências. Nota-se que, se as n simulações dentro de cada sequência fossem verdadeiramente independentes, a variação entre sequências

B seria um estimador não-viesado da variância a posteriori Varpθ|xq e ter-se-ia acesso a nm simulações independentes das m sequências, porém, devido à autocorrelação entre

simulações, B será maior que Varpθ|xq em média (Gelman et al. (2013, pp. 286-288)). Portanto, define-se neff “

mn

1 ` 2 ř8

t“1ρpt

, em que ρpté o estimador de ρt, a autocorrelação da sequência θ de acordo com o lag t, definido como ρpt“1 ´

Vt 2yVar`pθ|xq

, dado o variograma

Vt avaliado em cada lag t e definido como Vt“ 1

mpn ´ tq m ÿ j“1 n ÿ i“t`1

pθi,j´ θi´t,jq2. A métrica

neff é responsável por um senso de acurácia das simulações e serve como um critério de

parada para simular os valores da posteriori, sendo que neff acima de 5m são necessários

para garantir a estabilidade das sequências de simulações (Gelman et al.(2013, p.287)).

Documentos relacionados