• Nenhum resultado encontrado

2.3 O modelo de mistura de regress˜ oes com componente de decl´ınio acelerado

3.1.1 Algoritmos de simula¸c˜ ao

Ferramentas tradicionais para encontrar estimativas Bayesianas se baseiam em conceitos de inte- gra¸c˜ao num´erica, aproxima¸c˜ao anal´ıtica de Laplace ou m´etodos de Monte Carlo para calcular inte- grais da distribui¸c˜ao a posteriori Robert(2004). Por exemplo, supondo fun¸c˜ao de perda quadr´atica, o estimador de 𝜃 ´e dado por:

^

𝜃 = E[𝜃|𝑦] = ∫︁

𝜃 𝜋(𝜃|𝑦) d𝜃 = ∫︀ 𝜃𝑓 (𝑦|𝜃)𝜋(𝜃) d𝜃

∫︀ 𝑓 (𝑦|𝜃)𝜋(𝜃) d𝜃 . (3.1.2) Assim, ^𝜃 poderia ser estimado por quadraturas gaussianas ou gerando uma amostra 𝜃(1), . . . , 𝜃(𝑀 ) da distribui¸c˜ao a priori 𝜋(𝜃) e aproximando (3.1.2) por ^𝜃 ≈ 𝐴

𝐵, 𝐵 > 0, com 𝐴 = 1 𝑀 𝑀 ∑︁ 𝑘=1 𝜃(𝑘)𝑓 (𝑦|𝜃(𝑘))−→𝑞.𝑐. ∫︁ 𝜃𝑓 (𝑦|𝜃)𝜋(𝜃) d𝜃, (3.1.3) 𝐵 = 1 𝑀 𝑀 ∑︁ 𝑘=1 𝑓 (𝑦|𝜃(𝑘))−→𝑞.𝑐. ∫︁ 𝑓 (𝑦|𝜃)𝜋(𝜃) d𝜃, (3.1.4)

visto que 𝐵𝐴 −→ E[𝜃|𝑦]. Este resultado ´e decorrente das propriedades de converg^encia quase certa,𝑞.𝑐. juntamente com (3.1.3) e (3.1.4). Esta abordagem torna-se menos acurada `a medida que a dimens˜ao do espa¸co param´etrico cresce. Al´em disso, a infer^encia acerca destes estimadores n˜ao ´e feita de maneira direta.

Com o avan¸co das capacidades de processamento e armazenamento de informa¸c˜ao dos computa- dores na d´ecada de 1990, os algoritmos MCMC tornaram-se mais vantajosos em rela¸c˜ao aos m´etodos Monte Carlo tradicionais. Eles s˜ao, em princ´ıpio, amplamente aplic´aveis a problemas de infer^encia

Bayesiana e trabalham melhor com espa¸cos param´etricos de alta dimens˜ao.

Os algoritmos MCMC baseiam-se na constru¸c˜ao de cadeias de Markov dos par^ametros, de forma que sua distribui¸c˜ao estacion´aria seja a densidade de interesse 𝜋(𝜃|𝑦). Como o n´umero de simula¸c˜oes para que a estacionariedade e n˜ao correla¸c˜ao das cadeias seja atingida pode ser grande, estes m´etodos t^em um custo computacional alto. Dentro desta categoria de algoritmos, encontram-se os conhecidos m´etodos de simula¸c˜ao Amostrador de Gibbs Casella and George (1992) e Metropolis-HastingsHas-

tings (1970). ´E poss´ıvel ainda combinar t´ecnicas de simula¸c˜ao como o Slice Sampling Neal (1997)

ou o m´etodo de Aceita¸c˜ao-Rejei¸c˜ao Devroye (1986) dentro do Amostrador de Gibbs, por exemplo.

Amostrador de Gibbs

O Amostrador de Gibbs, `as vezes chamado de amostragem condicional alternada, ´e uma ferra- menta importante e muito utilizada quando o par^ametro de interesse 𝜃 ´e multidimensional. Considere ainda a estrutura 𝜃 ∈ Θ ⊆ R𝑑. O algoritmo em quest˜ao faz uso das distribui¸c˜oes condicionais com- pletas, definidas na Se¸c˜ao 3.1, e o procedimento ´e descrito no Algoritmo B.2.

Caso as condicionais completas tenham a forma de distribui¸c˜oes conhecidas, opera-se com m´etodos de simula¸c˜ao de vari´aveis aleat´orias tradicionais, como o M´etodo da Invers˜ao, o M´etodo da Aceita¸c˜ao- Rejei¸c˜ao, M´etodo da Composi¸c˜ao ou M´etodo da Representa¸c˜ao Estoc´astica, para explica¸c˜ao e exem- plos, vejaTan et al. (2009).

Por outro lado, se para pelo menos um 𝑘, a distribui¸c˜ao 𝜋(𝜃𝑘|𝜃−𝑘) n˜ao tiver forma conhecida,

deve-se simular desta(s) vari´avel(is) aleat´oria(s) com outros m´etodos, como os que seguem.

Metropolis-Hastings

Suponha que queiramos simular uma vari´avel aleat´oria da densidade ℎ(·), de suporte ℋ. Escolhe- se uma densidade auxiliar 𝑔 : ℋ ↦→ [0, +∞), da qual se sabe gerar valores aleat´orios. Sob o algoritmo de Metropolis-Hastings, ℎ ´e vista como a distribui¸c˜ao estacion´aria de um processo aleat´orio Markovi- ano. Assim, seus valores s˜ao gerados atrav´es de uma cadeia de Markov e, de acordo com um crit´erio das condi¸c˜oes de balan¸co, estes valores podem ou n˜ao ser aceitos, segundo o esquema do Algoritmo B.1.

Note que da maneira como se define a probabilidade de aceita¸c˜ao, 𝑎, ´e suficiente saber o n´ucleo da densidade objetivo ℎ para que o algoritmo funcione. Uma desvantagem desta ferramenta ´e a arbitrariedade na escolha da fun¸c˜ao 𝑔, visto que ela interfere na taxa de aceita¸c˜ao e define, ent˜ao, a velocidade/efic´acia do procedimento Chib and Greenberg (1995).

Slice sampler

Uma alternativa interessante para a simula¸c˜ao de valores provenientes de condicionais completas desconhecidas ´e o Slice sampler. Al´em de ter opera¸c˜oes computacionalmente menos custosas, em diversos cen´arios (multimodalidade, por exemplo) ele ´e mais eficiente do que o Metropolis-Hastings.

Como discutido em Neal (2003), ele ´e introduzido justamente com o objetivo de ser adaptativo e de uso automatizado, ao contr´ario das formula¸c˜oes tradicionais do Metropolis-Hastings. Genera- liza¸c˜oes para casos multivariados e demonstra¸c˜ao dos resultados de invari^ancia da amostra gerada s˜ao apresentadas no mesmo artigo.

Novamente, suponha que a densidade objetivo ´e proporcional `a fun¸c˜ao ℎ : ℋ ↦→ [0, +∞). Defi- nindo uma vari´avel auxiliar, 𝑧, a ideia do algoritmo ´e obter uma amostra da distribui¸c˜ao conjunta uniforme de (𝑋, 𝑍) sobre o conjunto 𝑈 = {(𝑥, 𝑧) : 0 < 𝑧 < ℎ(𝑥)}, e em sequ^encia projet´a-los sobre o eixo das abscissas para obter uma amostra da densidade determinada por ℎ(𝑥). Sendo um m´etodo robusto para simular de fun¸c˜oes de probabilidade e at´e densidades multimodais, h´a diferentes pos- sibilidades para implementa¸c˜ao de algumas etapas do algoritmo. O procedimento geral consiste em, com base num valor inicial 𝑥(0):

i. Gerar 𝑧 ∼ Uniforme(0, ℎ(𝑥(0))), e definir o corte horizontal 𝑆 = {𝑥 : 𝑧 < ℎ(𝑥)}.

ii. Encontrar um intervalo 𝐼 = (𝐿, 𝑅) ao redor de 𝑥(0) que contenha todos, ou grande parte

dos pontos de 𝑆. Este passo pode ser feito pelo procedimento stepping out, que incrementa alternadamente a vizinhan¸ca do ponto 𝑥(0) at´e que 𝑆 ⊂ 𝐼; ou pelo procedimento doubling, que

incrementa a vizinhan¸ca ao redor de 𝑥(0) sempre duplicando seu tamanho, at´e que 𝑆 ⊂ 𝐼.

iii. O novo valor 𝑥(1) ´e simulado de uma distribui¸c˜ao uniforme sobre o conjunto 𝐼, e aceito se

pertencer ao conjunto 𝐴 = {𝑥 : 𝑥 ∈ 𝑆 ∩ 𝐼 e P(𝐼 | estado 𝑥) = P(𝐼 | estado 𝑥0)}.

Como exemplo, o algoritmo slice sampling para distribui¸c˜oes unimodais com procedimento doubling ´e mostrado pelo Algoritmo B.3.

Simula¸c˜ao com vari´aveis auxiliares para modelos log´ısticos Binomiais

A estima¸c˜ao Bayesiana de Modelos Lineares Generalizados ´e complicada sob um ponto de vista computacional, pelo fato do valor esperado condicional das vari´aveis resposta n˜ao mais ser uma fun¸c˜ao linear nos par^ametros. As distribui¸c˜oes condicionais completas dos efeitos das covari´aveis tornam-se desconhecidas por conta da fun¸c˜ao de liga¸c˜ao entre os preditores e a densidade da vari´avel resposta, exigindo algoritmos mais sofisticados de simula¸c˜ao para gerar valores das suas distribui¸c˜oes, tais como o Metropolis-Hastings e/ou Slice sampling.

Em alguns casos dentro da fam´ılia exponencial, entretanto, ´e poss´ıvel construir um amostrador de Gibbs que herda caracter´ısticas desej´aveis das estima¸c˜oes Bayesianas de modelos lineares gaussianos, sem precisar dos referidos algoritmos adicionais. Tais procedimentos tem como base a determina¸c˜ao de vari´aveis auxiliares para cria¸c˜ao de uma verossimilhan¸ca completa Tanner and Wong (1987), e servem em particular para regress˜ao com distribui¸c˜ao de Poisson e Binomial, sob certas fun¸c˜oes de liga¸c˜ao.

Dentro dos modelos de regress˜ao Bernoulli, o novo procedimento foi desenvolvido para o caso com liga¸c˜ao probito Albert and Chib (1993), enquanto os autores Holmes and Held (2006) estenderam para o caso com liga¸c˜ao logito. Desde ent˜ao, os m´etodos mais interessantes e eficientes elaborados para regress˜ao Binomial log´ıstica est˜ao descritos em Fr¨uhwirth-Schnatter and Fr¨uhwirth (2007) e

Fr¨uhwirth-Schnatter et al. (2009). A ideia ser´a introduzida para o caso com respostas Bernoulli, e

depois generalizado para 𝐾 ensaios com resposta dicot^omica.

Suponha o modelo de regress˜ao 𝑌1, . . . , 𝑌𝑛 𝑖𝑛𝑑

∼ Bernoulli(𝑝𝑖), logito(𝑝𝑖) = 𝑥′𝑖𝛽, em que 𝑥𝑖 ´e o vetor

de covari´aveis e 𝛽 um vetor de par^ametros com distribui¸c˜ao gaussiana multivariada. Em primeira inst^ancia, definem-se vari´aveis latentes 𝑦𝑢

0𝑖 e 𝑦𝑢𝑖 (denominadas de utilidades de escolha das categorias

0 e 1, respectivamente) para cada unidade experimental, de forma que

𝑦𝑖 = {︃ 0, se 𝑦𝑢 𝑖 ≤ 𝑦0𝑖𝑢 1, se 𝑦𝑢 𝑖 > 𝑦𝑢0𝑖 e 𝑦𝑖𝑢 = 𝑥′𝑖𝛽 + 𝜀𝑖, (3.1.5) com 𝑦𝑢 0𝑖, 𝜀𝑖 𝑖𝑖𝑑

∼ Gumbel(0, 1). 𝑋 ∼ Gumbel(𝑎, 𝑏) representa a distribui¸c˜ao Gumbel do m´aximo com loca¸c˜ao 𝑎 e escala 𝑏 (tamb´em conhecida como distribui¸c˜ao do valor extremo tipo I Johnson et al.

(1995)). Note que pela representa¸c˜ao, 𝑦𝑖𝑢 𝑖𝑛𝑑∼ Gumbel(𝑥′

𝑖𝛽, 1). Sob esta estrutura, a distribui¸c˜ao

marginal dos dados 𝑦𝑖 ´e equivalente `a do modelo postulado Bernoulli(𝑝𝑖), 𝑝𝑖 = logito −1

(𝑥′𝑖𝛽). Para que o modelo tenha identificabilidade, as utilidades 𝑦𝑢0𝑖 independem de covari´aveis. Note que esta formula¸c˜ao traz a conveni^encia de se ter uma express˜ao para as utilidades que ´e linear nos par^ametros 𝛽, mas que ainda possui perturba¸c˜oes aleat´orias com forma n˜ao trat´avel diretamente.

Adicionalmente, os autores Fr¨uhwirth-Schnatter and Fr¨uhwirth (2007) aproximam a distribui¸c˜ao de 𝜀𝑖 por uma mistura finita de vari´aveis aleat´orias gaussianas com L componentes, 𝑓 (𝜀𝑖) ≈

∑︀𝐿

𝑙=1𝑟𝑙×

𝜑(𝜀𝑖|𝑚𝑙, 𝑠2𝑙), com

∑︀

𝑙𝑟𝑙 = 1. 𝜑(·|𝜇, 𝜎

2) representa a densidade gaussiana univariada com m´edia 𝜇 e

vari^ancia 𝜎2. A dimens˜ao 𝐿 (em geral igual a 10) e os par^ametros 𝑚𝑙, 𝑠2𝑙, ∀𝑙 ∈ {1, . . . , 𝐿} foram

obtidos anteriormente minimizando a dist^ancia de Kullback-Leibler entre a mistura e a densidade da Gumbel padr˜ao Fr¨uhwirth-Schnatter and Fr¨uhwirth (2007). Deve-se, portanto, incluir mais um conjunto de vari´aveis latentes, 𝑅1, . . . , 𝑅𝑛, sendo estas as aloca¸c˜oes das componentes da mistura.

Assim, a representa¸c˜ao do modelo log´ıstico com os dados aumentados (𝑦, 𝑦𝑢, 𝑅) fica:

𝑦𝑖|𝑦𝑖𝑢, 𝑅𝑖 𝑖𝑛𝑑 ∼ 𝑓 (𝑦𝑖|𝑦𝑖𝑢, 𝑅𝑖), 𝑦𝑖𝑢|𝑅𝑖 = 𝑙 𝑎𝑝𝑟 ∼ Normal(𝑥′𝑖𝛽 + 𝑚𝑙, 𝑠2𝑙) e 𝑅𝑖 𝑖𝑖𝑑 ∼ Multinomial(1, 𝑟1, . . . , 𝑟𝐿),

𝑖 = 1, . . . , 𝑛} n˜ao dependem dos par^ametros de interesse 𝛽, eles s˜ao considerados quantidades nui- sance, e podem ser marginalizados da estrutura dos dados. A distribui¸c˜ao a posteriori neste caso, por condicionamento, ´e da forma 𝜋(𝑦𝑢, 𝑅, 𝛽|𝑦) ∝ 𝑓 (𝑦, 𝑦𝑢, 𝑅|𝛽)𝜋(𝛽), com condicionais completas

𝜋(𝛽|𝑦, 𝑦𝑢, 𝑅) e 𝜋(𝑦𝑢, 𝑅|𝑦, 𝛽), que pode ser decomposta em 𝜋(𝑅|𝑦𝑢, 𝑦, 𝛽)𝜋(𝑦𝑢|𝑦, 𝛽).

Algumas propriedades importantes antes de encontrar a forma das distribui¸c˜oes acima mencio- nadas:

∙ Pela representa¸c˜ao (3.1.5), argumenta-se em Fr¨uhwirth-Schnatter and Fr¨uhwirth (2007) que 𝜋(𝑅|𝑦𝑢, 𝑦, 𝛽) = ∏︀𝑛

𝑖=1

𝜋(𝑅𝑖|𝑦𝑖𝑢, 𝛽) e 𝜋(𝛽|𝑦, 𝑦𝑢, 𝑅) = 𝜋(𝛽|𝑦𝑢, 𝑅);

∙ Se 𝑋 ∼ Gumbel(𝑎, 1), ent˜ao 𝑍 = 𝑒−𝑋 ∼ Exponencial(𝑒𝑎), com taxa de falha 𝑒𝑎. Consequente-

mente, no atual contexto, temos exp(−𝑦𝑢

0𝑖) ∼ Exponencial(1) e exp(−𝑦𝑢𝑖) ∼ Exponencial(𝑒𝑥

𝑖𝛽);

∙ Se 𝑋𝑖 𝑖𝑛𝑑

∼ Exponencial(𝜆𝑖), 𝑖 ∈ {1, 2}, ent˜ao min{𝑋1, 𝑋2} ∼ Exponencial(𝜆1+ 𝜆2). Em particu-

lar, min{exp(−𝑦0𝑖𝑢), exp(−𝑦𝑢𝑖)} ∼ Exponencial(1 + 𝑒𝑥′𝑖𝛽).

Agora, para simular valores de 𝜋(𝑦𝑢

𝑖|𝑦𝑖, 𝛽), considere a densidade aumentada 𝜋(𝑦𝑢𝑖, 𝑦0𝑖𝑢|𝑦𝑖, 𝛽). Os

autores encontram, de forma argumentativa, a distribui¸c˜ao condicional de 𝑦𝑢

𝑖 por duas situa¸c˜oes:

1. Caso 𝑦𝑖 = 1, a utilidade da categoria 1 ´e maior do que da categoria 0, e 𝑦𝑢𝑖 > 𝑦0𝑖𝑢 ⇐⇒ exp(−𝑦𝑖𝑢) <

exp(−𝑦𝑢

0𝑖) ⇐⇒ min{exp(−𝑦𝑢𝑖), exp(−𝑦0𝑖𝑢)} = exp(−𝑦𝑢𝑖). Assim, exp(−𝑦𝑖𝑢) ∼ Exponencial(1 +

𝑒𝑥′𝑖𝛽) diretamente;

2. Caso 𝑦𝑖 = 0, a utilidade da categoria 0 ´e maior do que da categoria 1, e 𝑦𝑖𝑢 ≤ 𝑦0𝑖𝑢 ⇐⇒

exp(−𝑦𝑢

𝑖) ≥ exp(−𝑦0𝑖𝑢) ⇐⇒ min{exp(−𝑦𝑖𝑢), exp(−𝑦𝑢0𝑖)} = exp(−𝑦0𝑖𝑢). Assim, 𝜋(𝑦𝑖𝑢, 𝑦0𝑖𝑢|𝑦𝑖 =

1, 𝛽) = 𝜋(𝑦𝑢

𝑖|𝑦0𝑖𝑢, 𝑦𝑖 = 0, 𝛽)𝜋(𝑦0𝑖𝑢|𝑦𝑖 = 0, 𝛽). Pela falta de mem´oria das vari´aveis aleat´orias

Exponenciais, a densidade de exp(−𝑦𝑢𝑖) ser´a deslocada pelo min{exp(−𝑦𝑖𝑢), exp(−𝑦𝑢0𝑖)} reali- zado, que neste caso vale exp(−𝑦0𝑖𝑢). Portanto, obt´em-se exp(−𝑦0𝑖𝑢) ∼ Exponencial(1 + 𝑒𝑥′𝑖𝛽) e

exp(−𝑦𝑢𝑖)|[exp(−𝑦0𝑖𝑢) = 𝑐] ∼ Exponencial(𝑒𝑥′𝑖𝛽)1{exp(−𝑦𝑢

𝑖) ∈ (𝑐, +∞)}.

As condicionais completas das aloca¸c˜oes 𝑅𝑖 t^em a mesma forma das aloca¸c˜oes em modelos Baye-

sianos de misturas gaussianas finitasFr¨uhwirth-Schnatter (2006), isto ´e, para todo 𝑖 ∈ {1, . . . , 𝑛},

𝜋(𝑅𝑖 = 𝑙|𝑦𝑢𝑖, 𝛽L) ∝ 𝑟𝑙 𝑠𝑙 exp {︃ 1 2𝑠2 𝑙 (︂ 𝑦𝑖𝑢− 𝑥′ 𝑖𝛽 − 𝑚𝑙 )︂2}︃ , 𝑙 ∈ {1, . . . , 𝐿}. (3.1.6)

Por ´ultimo, fixados os valores 𝑦𝑢

1, . . . , 𝑦𝑢𝑛 e 𝑅1, . . . , 𝑅𝑛, a simula¸c˜ao de 𝛽 ´e feita da mesma forma

como no modelo linear gaussiano, em que possui condicional completa com distribui¸c˜ao Normal multivariada Zellner (1971), por conta da representa¸c˜ao (3.1.5). Assim, a estima¸c˜ao Bayesiana de par^ametros para um modelo linear generalizado ´e feita com simula¸c˜oes de quantidades equivalentes `

Apresenta-se agora a metodologia para regress˜ao longitudinal com o n´umero de sucessos dentre 𝐾 ensaios independentes como vari´avel resposta e com inclus˜ao de efeitos aleat´orios, isto ´e, 𝑌𝑖𝑗

𝑖𝑛𝑑

∼ Binomial(𝐾, 𝑝𝑖𝑗), logito(𝑝𝑖𝑗) = 𝑥′𝑖𝑗𝛽 + 𝑧

𝑖𝑗𝑏𝑖, em que 𝑥𝑖𝑗 e 𝑧𝑖𝑗 s˜ao vetores de covari´aveis para os efeitos

𝛽 ∼ Normal𝑞𝛽(𝜇𝛽, I𝛽) e 𝑏𝑖 ∼ Normal𝑞𝑏(0, D), respectivamente. Embora n˜ao seja necess´ario, sup˜oe-se

que a matriz de covari^ancias D tem uma distribui¸c˜ao Inversa Wishart. Considere a decomposi¸c˜ao da quantidade de sucessos no tempo 𝑗 como 𝑦𝑖𝑗 =

∑︀𝐾 𝑘=1𝑠𝑘𝑖𝑗, com 𝑠𝑘𝑖𝑗 = {︃ 1, se 1 ≤ 𝑘 ≤ 𝑦𝑖𝑗 0, se 𝑦𝑖𝑗 < 𝑘 ≤ 𝐾, em que P[𝑠𝑘𝑖𝑗 = 1|𝑝𝑖𝑗] = 𝑝𝑖𝑗, ∀𝑘 ∈ {1, . . . , 𝐾}, ∀𝑗 ∈ {1, . . . L, 𝑛𝑖} e ∀𝑖 ∈ {1, . . . , 𝑛}. As utilidades

𝑦𝑘𝑖𝑗𝑢 , ∀(𝑘, 𝑗) da 𝑖-´esima unidade experimental s˜ao criadas como em (3.1.5), para cada 𝑠𝑘𝑖𝑗. Da mesma

forma, 𝑦0𝑖𝑗𝑢 tem distribui¸c˜ao conhecida e independente de covari´aveis, por quest˜oes de identificabili- dade. O modelo de regress˜ao para as utilidades latentes fica:

𝑦𝑢𝑘𝑖𝑗 = 𝑥′𝑖𝑗𝛽 + 𝑧𝑖𝑗′ 𝑏𝑖+ 𝜀𝑘𝑖𝑗, (3.1.7)

∀𝑘 ∈ {1, . . . , 𝐾} e ∀𝑗 ∈ {1, . . . , 𝑛𝑖}, em que 𝑦0𝑖𝑗𝑢 , 𝜀𝑘𝑖𝑗 𝑖𝑖𝑑

∼ Gumbel(0, 1). Negativando e tomando o exponencial em ambos os lados da express˜ao (3.1.7), tem-se a rela¸c˜ao

exp(−𝑦𝑢𝑘𝑖𝑗) = exp(−𝑥′𝑖𝑗𝛽 − 𝑧′𝑖𝑗𝑏𝑖) exp(−𝜀𝑘𝑖𝑗) ⇒ 𝐾 ∑︁ 𝑘=1 exp(−𝑦𝑢𝑘𝑖𝑗) = exp(−𝑥′𝑖𝑗𝛽 − 𝑧′𝑖𝑗𝑏𝑖) 𝐾 ∑︁ 𝑘=1 exp(−𝜀𝑘𝑖𝑗) ⇒ 𝑦*𝑖𝑗 = 𝑥′𝑖𝑗𝛽 + 𝑧𝑖𝑗′ 𝑏𝑖+ 𝜉𝑖𝑗, (3.1.8) em que 𝑦*𝑖𝑗 = −log(︁∑︀𝐾 𝑘=1exp(−𝑦 𝑢 𝑘𝑖𝑗) )︁ e 𝜉𝑖𝑗 = −log (︁ ∑︀𝐾 𝑘=1exp(−𝜀𝑘𝑖𝑗) )︁ = −log(Gamma(𝐾, 1)), ∀𝑖, 𝑗. 𝑋 ∼ Gamma(𝑎, 𝑏) indica a parametriza¸c˜ao com E[𝑋] = 𝑎/𝑏. Assim como no caso Bernoulli, no in´ıcio desta se¸c˜ao, aproxima-se a vari´avel 𝜉𝑖𝑗 por uma mistura finita gaussiana de 𝐿 componentes.

A vantagem agora ´e que, de acordo com o Teorema Central do Limite, conforme a quantidade de categorias 𝐾 cresce, a aproxima¸c˜ao da vari´avel aleat´oria −log(Gamma(𝑢, 1)) para a Normal ´e melhor. Assim, conforme 𝐾 −→ +∞, a quantidade de componentes na mistura finita necess´aria para aproximar 𝜉𝑖𝑗 diminui. Para 𝐾 = 30, por exemplo, utiliza-se 𝐿 = 4 componentes.

A simula¸c˜ao das utilidades agregadas 𝑦𝑖𝑗* ´e feita de maneira an´aloga ao caso de regress˜ao Ber- noulli. O processo ´e descrito em Fr¨uhwirth-Schnatter et al. (2009), e culmina em: para 𝑦𝑖𝑗 = 𝐾,

𝑦𝑖𝑗* = −log(︁ 𝑈𝑖𝑗

1+𝜆𝑖𝑗

)︁

; enquanto para 𝑦𝑖𝑗 < 𝐾, 𝑦𝑖𝑗* = −log

(︁ 𝑈 𝑖𝑗 1+𝜆𝑖𝑗 + 𝑉𝑖𝑗 𝜆𝑖𝑗 )︁ , em que 𝜆𝑖𝑗 = exp(𝑥′𝑖𝑗𝛽 + 𝑧𝑖𝑗′ 𝑏𝑖),

𝑈𝑖𝑗 ∼ Gamma(𝐾, 1) e 𝑉𝑖𝑗 ∼ Gamma(𝐾 − 𝑦𝑖𝑗, 1), independentes. As vari´aveis latentes de aloca¸c˜ao

nas componentes de mistura s˜ao geradas exatamente como em (3.1.6), com acr´escimo dos efeitos aleat´orios na m´edia das utilidades. Por ´ultimo, dentro do processo iterativo de simula¸c˜ao, condici- onados em {𝑦𝑖𝑗* : 𝑗 = 1, . . . , 𝑛𝑖; 𝑖 = 1, . . . , 𝑛} e {𝑅𝑖𝑗 : 𝑗 = 1, . . . , 𝑛𝑖; 𝑖 = 1, . . . , 𝑛}, a condicional

gaussianos multivariados. Assim, elas s˜ao obtidas, respectivamente, ao gerar pontos de uma Normal (𝑞𝛽 + 𝑛𝑞𝑏) - multivariada e de uma Inversa Wishart (dadas as escolhas de distribui¸c˜oes a priori ci-

tadas). A simula¸c˜ao em blocos do caso Binomial com efeitos mistos e fun¸c˜ao logito ´e descrita no Algoritmo B.4, no Ap^endice B.

Documentos relacionados