2.3 O modelo de mistura de regress˜ oes com componente de decl´ınio acelerado
3.1.1 Algoritmos de simula¸c˜ ao
Ferramentas tradicionais para encontrar estimativas Bayesianas se baseiam em conceitos de inte- gra¸c˜ao num´erica, aproxima¸c˜ao anal´ıtica de Laplace ou m´etodos de Monte Carlo para calcular inte- grais da distribui¸c˜ao a posteriori Robert(2004). Por exemplo, supondo fun¸c˜ao de perda quadr´atica, o estimador de 𝜃 ´e dado por:
^
𝜃 = E[𝜃|𝑦] = ∫︁
𝜃 𝜋(𝜃|𝑦) d𝜃 = ∫︀ 𝜃𝑓 (𝑦|𝜃)𝜋(𝜃) d𝜃
∫︀ 𝑓 (𝑦|𝜃)𝜋(𝜃) d𝜃 . (3.1.2) Assim, ^𝜃 poderia ser estimado por quadraturas gaussianas ou gerando uma amostra 𝜃(1), . . . , 𝜃(𝑀 ) da distribui¸c˜ao a priori 𝜋(𝜃) e aproximando (3.1.2) por ^𝜃 ≈ 𝐴
𝐵, 𝐵 > 0, com 𝐴 = 1 𝑀 𝑀 ∑︁ 𝑘=1 𝜃(𝑘)𝑓 (𝑦|𝜃(𝑘))−→𝑞.𝑐. ∫︁ 𝜃𝑓 (𝑦|𝜃)𝜋(𝜃) d𝜃, (3.1.3) 𝐵 = 1 𝑀 𝑀 ∑︁ 𝑘=1 𝑓 (𝑦|𝜃(𝑘))−→𝑞.𝑐. ∫︁ 𝑓 (𝑦|𝜃)𝜋(𝜃) d𝜃, (3.1.4)
visto que 𝐵𝐴 −→ E[𝜃|𝑦]. Este resultado ´e decorrente das propriedades de converg^encia quase certa,𝑞.𝑐. juntamente com (3.1.3) e (3.1.4). Esta abordagem torna-se menos acurada `a medida que a dimens˜ao do espa¸co param´etrico cresce. Al´em disso, a infer^encia acerca destes estimadores n˜ao ´e feita de maneira direta.
Com o avan¸co das capacidades de processamento e armazenamento de informa¸c˜ao dos computa- dores na d´ecada de 1990, os algoritmos MCMC tornaram-se mais vantajosos em rela¸c˜ao aos m´etodos Monte Carlo tradicionais. Eles s˜ao, em princ´ıpio, amplamente aplic´aveis a problemas de infer^encia
Bayesiana e trabalham melhor com espa¸cos param´etricos de alta dimens˜ao.
Os algoritmos MCMC baseiam-se na constru¸c˜ao de cadeias de Markov dos par^ametros, de forma que sua distribui¸c˜ao estacion´aria seja a densidade de interesse 𝜋(𝜃|𝑦). Como o n´umero de simula¸c˜oes para que a estacionariedade e n˜ao correla¸c˜ao das cadeias seja atingida pode ser grande, estes m´etodos t^em um custo computacional alto. Dentro desta categoria de algoritmos, encontram-se os conhecidos m´etodos de simula¸c˜ao Amostrador de Gibbs Casella and George (1992) e Metropolis-HastingsHas-
tings (1970). ´E poss´ıvel ainda combinar t´ecnicas de simula¸c˜ao como o Slice Sampling Neal (1997)
ou o m´etodo de Aceita¸c˜ao-Rejei¸c˜ao Devroye (1986) dentro do Amostrador de Gibbs, por exemplo.
Amostrador de Gibbs
O Amostrador de Gibbs, `as vezes chamado de amostragem condicional alternada, ´e uma ferra- menta importante e muito utilizada quando o par^ametro de interesse 𝜃 ´e multidimensional. Considere ainda a estrutura 𝜃 ∈ Θ ⊆ R𝑑. O algoritmo em quest˜ao faz uso das distribui¸c˜oes condicionais com- pletas, definidas na Se¸c˜ao 3.1, e o procedimento ´e descrito no Algoritmo B.2.
Caso as condicionais completas tenham a forma de distribui¸c˜oes conhecidas, opera-se com m´etodos de simula¸c˜ao de vari´aveis aleat´orias tradicionais, como o M´etodo da Invers˜ao, o M´etodo da Aceita¸c˜ao- Rejei¸c˜ao, M´etodo da Composi¸c˜ao ou M´etodo da Representa¸c˜ao Estoc´astica, para explica¸c˜ao e exem- plos, vejaTan et al. (2009).
Por outro lado, se para pelo menos um 𝑘, a distribui¸c˜ao 𝜋(𝜃𝑘|𝜃−𝑘) n˜ao tiver forma conhecida,
deve-se simular desta(s) vari´avel(is) aleat´oria(s) com outros m´etodos, como os que seguem.
Metropolis-Hastings
Suponha que queiramos simular uma vari´avel aleat´oria da densidade ℎ(·), de suporte ℋ. Escolhe- se uma densidade auxiliar 𝑔 : ℋ ↦→ [0, +∞), da qual se sabe gerar valores aleat´orios. Sob o algoritmo de Metropolis-Hastings, ℎ ´e vista como a distribui¸c˜ao estacion´aria de um processo aleat´orio Markovi- ano. Assim, seus valores s˜ao gerados atrav´es de uma cadeia de Markov e, de acordo com um crit´erio das condi¸c˜oes de balan¸co, estes valores podem ou n˜ao ser aceitos, segundo o esquema do Algoritmo B.1.
Note que da maneira como se define a probabilidade de aceita¸c˜ao, 𝑎, ´e suficiente saber o n´ucleo da densidade objetivo ℎ para que o algoritmo funcione. Uma desvantagem desta ferramenta ´e a arbitrariedade na escolha da fun¸c˜ao 𝑔, visto que ela interfere na taxa de aceita¸c˜ao e define, ent˜ao, a velocidade/efic´acia do procedimento Chib and Greenberg (1995).
Slice sampler
Uma alternativa interessante para a simula¸c˜ao de valores provenientes de condicionais completas desconhecidas ´e o Slice sampler. Al´em de ter opera¸c˜oes computacionalmente menos custosas, em diversos cen´arios (multimodalidade, por exemplo) ele ´e mais eficiente do que o Metropolis-Hastings.
Como discutido em Neal (2003), ele ´e introduzido justamente com o objetivo de ser adaptativo e de uso automatizado, ao contr´ario das formula¸c˜oes tradicionais do Metropolis-Hastings. Genera- liza¸c˜oes para casos multivariados e demonstra¸c˜ao dos resultados de invari^ancia da amostra gerada s˜ao apresentadas no mesmo artigo.
Novamente, suponha que a densidade objetivo ´e proporcional `a fun¸c˜ao ℎ : ℋ ↦→ [0, +∞). Defi- nindo uma vari´avel auxiliar, 𝑧, a ideia do algoritmo ´e obter uma amostra da distribui¸c˜ao conjunta uniforme de (𝑋, 𝑍) sobre o conjunto 𝑈 = {(𝑥, 𝑧) : 0 < 𝑧 < ℎ(𝑥)}, e em sequ^encia projet´a-los sobre o eixo das abscissas para obter uma amostra da densidade determinada por ℎ(𝑥). Sendo um m´etodo robusto para simular de fun¸c˜oes de probabilidade e at´e densidades multimodais, h´a diferentes pos- sibilidades para implementa¸c˜ao de algumas etapas do algoritmo. O procedimento geral consiste em, com base num valor inicial 𝑥(0):
i. Gerar 𝑧 ∼ Uniforme(0, ℎ(𝑥(0))), e definir o corte horizontal 𝑆 = {𝑥 : 𝑧 < ℎ(𝑥)}.
ii. Encontrar um intervalo 𝐼 = (𝐿, 𝑅) ao redor de 𝑥(0) que contenha todos, ou grande parte
dos pontos de 𝑆. Este passo pode ser feito pelo procedimento stepping out, que incrementa alternadamente a vizinhan¸ca do ponto 𝑥(0) at´e que 𝑆 ⊂ 𝐼; ou pelo procedimento doubling, que
incrementa a vizinhan¸ca ao redor de 𝑥(0) sempre duplicando seu tamanho, at´e que 𝑆 ⊂ 𝐼.
iii. O novo valor 𝑥(1) ´e simulado de uma distribui¸c˜ao uniforme sobre o conjunto 𝐼, e aceito se
pertencer ao conjunto 𝐴 = {𝑥 : 𝑥 ∈ 𝑆 ∩ 𝐼 e P(𝐼 | estado 𝑥) = P(𝐼 | estado 𝑥0)}.
Como exemplo, o algoritmo slice sampling para distribui¸c˜oes unimodais com procedimento doubling ´e mostrado pelo Algoritmo B.3.
Simula¸c˜ao com vari´aveis auxiliares para modelos log´ısticos Binomiais
A estima¸c˜ao Bayesiana de Modelos Lineares Generalizados ´e complicada sob um ponto de vista computacional, pelo fato do valor esperado condicional das vari´aveis resposta n˜ao mais ser uma fun¸c˜ao linear nos par^ametros. As distribui¸c˜oes condicionais completas dos efeitos das covari´aveis tornam-se desconhecidas por conta da fun¸c˜ao de liga¸c˜ao entre os preditores e a densidade da vari´avel resposta, exigindo algoritmos mais sofisticados de simula¸c˜ao para gerar valores das suas distribui¸c˜oes, tais como o Metropolis-Hastings e/ou Slice sampling.
Em alguns casos dentro da fam´ılia exponencial, entretanto, ´e poss´ıvel construir um amostrador de Gibbs que herda caracter´ısticas desej´aveis das estima¸c˜oes Bayesianas de modelos lineares gaussianos, sem precisar dos referidos algoritmos adicionais. Tais procedimentos tem como base a determina¸c˜ao de vari´aveis auxiliares para cria¸c˜ao de uma verossimilhan¸ca completa Tanner and Wong (1987), e servem em particular para regress˜ao com distribui¸c˜ao de Poisson e Binomial, sob certas fun¸c˜oes de liga¸c˜ao.
Dentro dos modelos de regress˜ao Bernoulli, o novo procedimento foi desenvolvido para o caso com liga¸c˜ao probito Albert and Chib (1993), enquanto os autores Holmes and Held (2006) estenderam para o caso com liga¸c˜ao logito. Desde ent˜ao, os m´etodos mais interessantes e eficientes elaborados para regress˜ao Binomial log´ıstica est˜ao descritos em Fr¨uhwirth-Schnatter and Fr¨uhwirth (2007) e
Fr¨uhwirth-Schnatter et al. (2009). A ideia ser´a introduzida para o caso com respostas Bernoulli, e
depois generalizado para 𝐾 ensaios com resposta dicot^omica.
Suponha o modelo de regress˜ao 𝑌1, . . . , 𝑌𝑛 𝑖𝑛𝑑
∼ Bernoulli(𝑝𝑖), logito(𝑝𝑖) = 𝑥′𝑖𝛽, em que 𝑥𝑖 ´e o vetor
de covari´aveis e 𝛽 um vetor de par^ametros com distribui¸c˜ao gaussiana multivariada. Em primeira inst^ancia, definem-se vari´aveis latentes 𝑦𝑢
0𝑖 e 𝑦𝑢𝑖 (denominadas de utilidades de escolha das categorias
0 e 1, respectivamente) para cada unidade experimental, de forma que
𝑦𝑖 = {︃ 0, se 𝑦𝑢 𝑖 ≤ 𝑦0𝑖𝑢 1, se 𝑦𝑢 𝑖 > 𝑦𝑢0𝑖 e 𝑦𝑖𝑢 = 𝑥′𝑖𝛽 + 𝜀𝑖, (3.1.5) com 𝑦𝑢 0𝑖, 𝜀𝑖 𝑖𝑖𝑑
∼ Gumbel(0, 1). 𝑋 ∼ Gumbel(𝑎, 𝑏) representa a distribui¸c˜ao Gumbel do m´aximo com loca¸c˜ao 𝑎 e escala 𝑏 (tamb´em conhecida como distribui¸c˜ao do valor extremo tipo I Johnson et al.
(1995)). Note que pela representa¸c˜ao, 𝑦𝑖𝑢 𝑖𝑛𝑑∼ Gumbel(𝑥′
𝑖𝛽, 1). Sob esta estrutura, a distribui¸c˜ao
marginal dos dados 𝑦𝑖 ´e equivalente `a do modelo postulado Bernoulli(𝑝𝑖), 𝑝𝑖 = logito −1
(𝑥′𝑖𝛽). Para que o modelo tenha identificabilidade, as utilidades 𝑦𝑢0𝑖 independem de covari´aveis. Note que esta formula¸c˜ao traz a conveni^encia de se ter uma express˜ao para as utilidades que ´e linear nos par^ametros 𝛽, mas que ainda possui perturba¸c˜oes aleat´orias com forma n˜ao trat´avel diretamente.
Adicionalmente, os autores Fr¨uhwirth-Schnatter and Fr¨uhwirth (2007) aproximam a distribui¸c˜ao de 𝜀𝑖 por uma mistura finita de vari´aveis aleat´orias gaussianas com L componentes, 𝑓 (𝜀𝑖) ≈
∑︀𝐿
𝑙=1𝑟𝑙×
𝜑(𝜀𝑖|𝑚𝑙, 𝑠2𝑙), com
∑︀
𝑙𝑟𝑙 = 1. 𝜑(·|𝜇, 𝜎
2) representa a densidade gaussiana univariada com m´edia 𝜇 e
vari^ancia 𝜎2. A dimens˜ao 𝐿 (em geral igual a 10) e os par^ametros 𝑚𝑙, 𝑠2𝑙, ∀𝑙 ∈ {1, . . . , 𝐿} foram
obtidos anteriormente minimizando a dist^ancia de Kullback-Leibler entre a mistura e a densidade da Gumbel padr˜ao Fr¨uhwirth-Schnatter and Fr¨uhwirth (2007). Deve-se, portanto, incluir mais um conjunto de vari´aveis latentes, 𝑅1, . . . , 𝑅𝑛, sendo estas as aloca¸c˜oes das componentes da mistura.
Assim, a representa¸c˜ao do modelo log´ıstico com os dados aumentados (𝑦, 𝑦𝑢, 𝑅) fica:
𝑦𝑖|𝑦𝑖𝑢, 𝑅𝑖 𝑖𝑛𝑑 ∼ 𝑓 (𝑦𝑖|𝑦𝑖𝑢, 𝑅𝑖), 𝑦𝑖𝑢|𝑅𝑖 = 𝑙 𝑎𝑝𝑟 ∼ Normal(𝑥′𝑖𝛽 + 𝑚𝑙, 𝑠2𝑙) e 𝑅𝑖 𝑖𝑖𝑑 ∼ Multinomial(1, 𝑟1, . . . , 𝑟𝐿),
𝑖 = 1, . . . , 𝑛} n˜ao dependem dos par^ametros de interesse 𝛽, eles s˜ao considerados quantidades nui- sance, e podem ser marginalizados da estrutura dos dados. A distribui¸c˜ao a posteriori neste caso, por condicionamento, ´e da forma 𝜋(𝑦𝑢, 𝑅, 𝛽|𝑦) ∝ 𝑓 (𝑦, 𝑦𝑢, 𝑅|𝛽)𝜋(𝛽), com condicionais completas
𝜋(𝛽|𝑦, 𝑦𝑢, 𝑅) e 𝜋(𝑦𝑢, 𝑅|𝑦, 𝛽), que pode ser decomposta em 𝜋(𝑅|𝑦𝑢, 𝑦, 𝛽)𝜋(𝑦𝑢|𝑦, 𝛽).
Algumas propriedades importantes antes de encontrar a forma das distribui¸c˜oes acima mencio- nadas:
∙ Pela representa¸c˜ao (3.1.5), argumenta-se em Fr¨uhwirth-Schnatter and Fr¨uhwirth (2007) que 𝜋(𝑅|𝑦𝑢, 𝑦, 𝛽) = ∏︀𝑛
𝑖=1
𝜋(𝑅𝑖|𝑦𝑖𝑢, 𝛽) e 𝜋(𝛽|𝑦, 𝑦𝑢, 𝑅) = 𝜋(𝛽|𝑦𝑢, 𝑅);
∙ Se 𝑋 ∼ Gumbel(𝑎, 1), ent˜ao 𝑍 = 𝑒−𝑋 ∼ Exponencial(𝑒𝑎), com taxa de falha 𝑒𝑎. Consequente-
mente, no atual contexto, temos exp(−𝑦𝑢
0𝑖) ∼ Exponencial(1) e exp(−𝑦𝑢𝑖) ∼ Exponencial(𝑒𝑥
′
𝑖𝛽);
∙ Se 𝑋𝑖 𝑖𝑛𝑑
∼ Exponencial(𝜆𝑖), 𝑖 ∈ {1, 2}, ent˜ao min{𝑋1, 𝑋2} ∼ Exponencial(𝜆1+ 𝜆2). Em particu-
lar, min{exp(−𝑦0𝑖𝑢), exp(−𝑦𝑢𝑖)} ∼ Exponencial(1 + 𝑒𝑥′𝑖𝛽).
Agora, para simular valores de 𝜋(𝑦𝑢
𝑖|𝑦𝑖, 𝛽), considere a densidade aumentada 𝜋(𝑦𝑢𝑖, 𝑦0𝑖𝑢|𝑦𝑖, 𝛽). Os
autores encontram, de forma argumentativa, a distribui¸c˜ao condicional de 𝑦𝑢
𝑖 por duas situa¸c˜oes:
1. Caso 𝑦𝑖 = 1, a utilidade da categoria 1 ´e maior do que da categoria 0, e 𝑦𝑢𝑖 > 𝑦0𝑖𝑢 ⇐⇒ exp(−𝑦𝑖𝑢) <
exp(−𝑦𝑢
0𝑖) ⇐⇒ min{exp(−𝑦𝑢𝑖), exp(−𝑦0𝑖𝑢)} = exp(−𝑦𝑢𝑖). Assim, exp(−𝑦𝑖𝑢) ∼ Exponencial(1 +
𝑒𝑥′𝑖𝛽) diretamente;
2. Caso 𝑦𝑖 = 0, a utilidade da categoria 0 ´e maior do que da categoria 1, e 𝑦𝑖𝑢 ≤ 𝑦0𝑖𝑢 ⇐⇒
exp(−𝑦𝑢
𝑖) ≥ exp(−𝑦0𝑖𝑢) ⇐⇒ min{exp(−𝑦𝑖𝑢), exp(−𝑦𝑢0𝑖)} = exp(−𝑦0𝑖𝑢). Assim, 𝜋(𝑦𝑖𝑢, 𝑦0𝑖𝑢|𝑦𝑖 =
1, 𝛽) = 𝜋(𝑦𝑢
𝑖|𝑦0𝑖𝑢, 𝑦𝑖 = 0, 𝛽)𝜋(𝑦0𝑖𝑢|𝑦𝑖 = 0, 𝛽). Pela falta de mem´oria das vari´aveis aleat´orias
Exponenciais, a densidade de exp(−𝑦𝑢𝑖) ser´a deslocada pelo min{exp(−𝑦𝑖𝑢), exp(−𝑦𝑢0𝑖)} reali- zado, que neste caso vale exp(−𝑦0𝑖𝑢). Portanto, obt´em-se exp(−𝑦0𝑖𝑢) ∼ Exponencial(1 + 𝑒𝑥′𝑖𝛽) e
exp(−𝑦𝑢𝑖)|[exp(−𝑦0𝑖𝑢) = 𝑐] ∼ Exponencial(𝑒𝑥′𝑖𝛽)1{exp(−𝑦𝑢
𝑖) ∈ (𝑐, +∞)}.
As condicionais completas das aloca¸c˜oes 𝑅𝑖 t^em a mesma forma das aloca¸c˜oes em modelos Baye-
sianos de misturas gaussianas finitasFr¨uhwirth-Schnatter (2006), isto ´e, para todo 𝑖 ∈ {1, . . . , 𝑛},
𝜋(𝑅𝑖 = 𝑙|𝑦𝑢𝑖, 𝛽L) ∝ 𝑟𝑙 𝑠𝑙 exp {︃ 1 2𝑠2 𝑙 (︂ 𝑦𝑖𝑢− 𝑥′ 𝑖𝛽 − 𝑚𝑙 )︂2}︃ , 𝑙 ∈ {1, . . . , 𝐿}. (3.1.6)
Por ´ultimo, fixados os valores 𝑦𝑢
1, . . . , 𝑦𝑢𝑛 e 𝑅1, . . . , 𝑅𝑛, a simula¸c˜ao de 𝛽 ´e feita da mesma forma
como no modelo linear gaussiano, em que possui condicional completa com distribui¸c˜ao Normal multivariada Zellner (1971), por conta da representa¸c˜ao (3.1.5). Assim, a estima¸c˜ao Bayesiana de par^ametros para um modelo linear generalizado ´e feita com simula¸c˜oes de quantidades equivalentes `
Apresenta-se agora a metodologia para regress˜ao longitudinal com o n´umero de sucessos dentre 𝐾 ensaios independentes como vari´avel resposta e com inclus˜ao de efeitos aleat´orios, isto ´e, 𝑌𝑖𝑗
𝑖𝑛𝑑
∼ Binomial(𝐾, 𝑝𝑖𝑗), logito(𝑝𝑖𝑗) = 𝑥′𝑖𝑗𝛽 + 𝑧
′
𝑖𝑗𝑏𝑖, em que 𝑥𝑖𝑗 e 𝑧𝑖𝑗 s˜ao vetores de covari´aveis para os efeitos
𝛽 ∼ Normal𝑞𝛽(𝜇𝛽, I𝛽) e 𝑏𝑖 ∼ Normal𝑞𝑏(0, D), respectivamente. Embora n˜ao seja necess´ario, sup˜oe-se
que a matriz de covari^ancias D tem uma distribui¸c˜ao Inversa Wishart. Considere a decomposi¸c˜ao da quantidade de sucessos no tempo 𝑗 como 𝑦𝑖𝑗 =
∑︀𝐾 𝑘=1𝑠𝑘𝑖𝑗, com 𝑠𝑘𝑖𝑗 = {︃ 1, se 1 ≤ 𝑘 ≤ 𝑦𝑖𝑗 0, se 𝑦𝑖𝑗 < 𝑘 ≤ 𝐾, em que P[𝑠𝑘𝑖𝑗 = 1|𝑝𝑖𝑗] = 𝑝𝑖𝑗, ∀𝑘 ∈ {1, . . . , 𝐾}, ∀𝑗 ∈ {1, . . . L, 𝑛𝑖} e ∀𝑖 ∈ {1, . . . , 𝑛}. As utilidades
𝑦𝑘𝑖𝑗𝑢 , ∀(𝑘, 𝑗) da 𝑖-´esima unidade experimental s˜ao criadas como em (3.1.5), para cada 𝑠𝑘𝑖𝑗. Da mesma
forma, 𝑦0𝑖𝑗𝑢 tem distribui¸c˜ao conhecida e independente de covari´aveis, por quest˜oes de identificabili- dade. O modelo de regress˜ao para as utilidades latentes fica:
𝑦𝑢𝑘𝑖𝑗 = 𝑥′𝑖𝑗𝛽 + 𝑧𝑖𝑗′ 𝑏𝑖+ 𝜀𝑘𝑖𝑗, (3.1.7)
∀𝑘 ∈ {1, . . . , 𝐾} e ∀𝑗 ∈ {1, . . . , 𝑛𝑖}, em que 𝑦0𝑖𝑗𝑢 , 𝜀𝑘𝑖𝑗 𝑖𝑖𝑑
∼ Gumbel(0, 1). Negativando e tomando o exponencial em ambos os lados da express˜ao (3.1.7), tem-se a rela¸c˜ao
exp(−𝑦𝑢𝑘𝑖𝑗) = exp(−𝑥′𝑖𝑗𝛽 − 𝑧′𝑖𝑗𝑏𝑖) exp(−𝜀𝑘𝑖𝑗) ⇒ 𝐾 ∑︁ 𝑘=1 exp(−𝑦𝑢𝑘𝑖𝑗) = exp(−𝑥′𝑖𝑗𝛽 − 𝑧′𝑖𝑗𝑏𝑖) 𝐾 ∑︁ 𝑘=1 exp(−𝜀𝑘𝑖𝑗) ⇒ 𝑦*𝑖𝑗 = 𝑥′𝑖𝑗𝛽 + 𝑧𝑖𝑗′ 𝑏𝑖+ 𝜉𝑖𝑗, (3.1.8) em que 𝑦*𝑖𝑗 = −log(︁∑︀𝐾 𝑘=1exp(−𝑦 𝑢 𝑘𝑖𝑗) )︁ e 𝜉𝑖𝑗 = −log (︁ ∑︀𝐾 𝑘=1exp(−𝜀𝑘𝑖𝑗) )︁ = −log(Gamma(𝐾, 1)), ∀𝑖, 𝑗. 𝑋 ∼ Gamma(𝑎, 𝑏) indica a parametriza¸c˜ao com E[𝑋] = 𝑎/𝑏. Assim como no caso Bernoulli, no in´ıcio desta se¸c˜ao, aproxima-se a vari´avel 𝜉𝑖𝑗 por uma mistura finita gaussiana de 𝐿 componentes.
A vantagem agora ´e que, de acordo com o Teorema Central do Limite, conforme a quantidade de categorias 𝐾 cresce, a aproxima¸c˜ao da vari´avel aleat´oria −log(Gamma(𝑢, 1)) para a Normal ´e melhor. Assim, conforme 𝐾 −→ +∞, a quantidade de componentes na mistura finita necess´aria para aproximar 𝜉𝑖𝑗 diminui. Para 𝐾 = 30, por exemplo, utiliza-se 𝐿 = 4 componentes.
A simula¸c˜ao das utilidades agregadas 𝑦𝑖𝑗* ´e feita de maneira an´aloga ao caso de regress˜ao Ber- noulli. O processo ´e descrito em Fr¨uhwirth-Schnatter et al. (2009), e culmina em: para 𝑦𝑖𝑗 = 𝐾,
𝑦𝑖𝑗* = −log(︁ 𝑈𝑖𝑗
1+𝜆𝑖𝑗
)︁
; enquanto para 𝑦𝑖𝑗 < 𝐾, 𝑦𝑖𝑗* = −log
(︁ 𝑈 𝑖𝑗 1+𝜆𝑖𝑗 + 𝑉𝑖𝑗 𝜆𝑖𝑗 )︁ , em que 𝜆𝑖𝑗 = exp(𝑥′𝑖𝑗𝛽 + 𝑧𝑖𝑗′ 𝑏𝑖),
𝑈𝑖𝑗 ∼ Gamma(𝐾, 1) e 𝑉𝑖𝑗 ∼ Gamma(𝐾 − 𝑦𝑖𝑗, 1), independentes. As vari´aveis latentes de aloca¸c˜ao
nas componentes de mistura s˜ao geradas exatamente como em (3.1.6), com acr´escimo dos efeitos aleat´orios na m´edia das utilidades. Por ´ultimo, dentro do processo iterativo de simula¸c˜ao, condici- onados em {𝑦𝑖𝑗* : 𝑗 = 1, . . . , 𝑛𝑖; 𝑖 = 1, . . . , 𝑛} e {𝑅𝑖𝑗 : 𝑗 = 1, . . . , 𝑛𝑖; 𝑖 = 1, . . . , 𝑛}, a condicional
gaussianos multivariados. Assim, elas s˜ao obtidas, respectivamente, ao gerar pontos de uma Normal (𝑞𝛽 + 𝑛𝑞𝑏) - multivariada e de uma Inversa Wishart (dadas as escolhas de distribui¸c˜oes a priori ci-
tadas). A simula¸c˜ao em blocos do caso Binomial com efeitos mistos e fun¸c˜ao logito ´e descrita no Algoritmo B.4, no Ap^endice B.