Algoritmos de simula¸c˜ ao - O modelo de mistura de regress˜ oes com componente de decl´ınio ac

2.3 O modelo de mistura de regress˜ oes com componente de decl´ınio acelerado

3.1.1 Algoritmos de simula¸c˜ ao

Ferramentas tradicionais para encontrar estimativas Bayesianas se baseiam em conceitos de inte- gra¸cão numérica, aproxima¸cão anal´ıtica de Laplace ou métodos de Monte Carlo para calcular inte- grais da distribui¸cão a posteriori Robert(2004). Por exemplo, supondo fun¸cão de perda quadrática, o estimador de 𝜃 é dado por:

𝜃 = E[𝜃|𝑦] = ∫︁

𝜃 𝜋(𝜃|𝑦) d𝜃 = ∫︀ 𝜃𝑓 (𝑦|𝜃)𝜋(𝜃) d𝜃

∫︀ 𝑓 (𝑦|𝜃)𝜋(𝜃) d𝜃 . (3.1.2) Assim, ^𝜃 poderia ser estimado por quadraturas gaussianas ou gerando uma amostra 𝜃(1), . . . , 𝜃(𝑀 ) da distribui¸c˜ao a priori 𝜋(𝜃) e aproximando (3.1.2) por ^𝜃 ≈ 𝐴

𝐵, 𝐵 > 0, com 𝐴 = 1 𝑀 𝑀 ∑︁ 𝑘=1 𝜃(𝑘)𝑓 (𝑦|𝜃(𝑘))−→𝑞.𝑐. ∫︁ 𝜃𝑓 (𝑦|𝜃)𝜋(𝜃) d𝜃, (3.1.3) 𝐵 = 1 𝑀 𝑀 ∑︁ 𝑘=1 𝑓 (𝑦|𝜃(𝑘))−→𝑞.𝑐. ∫︁ 𝑓 (𝑦|𝜃)𝜋(𝜃) d𝜃, (3.1.4)

visto que _𝐵𝐴 −→ E[𝜃|𝑦]. Este resultado é decorrente das propriedades de convergência quase certa,𝑞.𝑐. juntamente com (3.1.3) e (3.1.4). Esta abordagem torna-se menos acurada à medida que a dimensão do espa¸co paramétrico cresce. Além disso, a inferência acerca destes estimadores não é feita de maneira direta.

Com o avan¸co das capacidades de processamento e armazenamento de informa¸cão dos computa- dores na década de 1990, os algoritmos MCMC tornaram-se mais vantajosos em rela¸cão aos métodos Monte Carlo tradicionais. Eles são, em princ´ıpio, amplamente aplicáveis a problemas de inferência

Bayesiana e trabalham melhor com espa¸cos param´etricos de alta dimens˜ao.

Os algoritmos MCMC baseiam-se na constru¸cão de cadeias de Markov dos parâmetros, de forma que sua distribui¸cão estacionária seja a densidade de interesse 𝜋(𝜃|𝑦). Como o número de simula¸cões para que a estacionariedade e não correla¸cão das cadeias seja atingida pode ser grande, estes métodos têm um custo computacional alto. Dentro desta categoria de algoritmos, encontram-se os conhecidos métodos de simula¸cão Amostrador de Gibbs Casella and George (1992) e Metropolis-HastingsHas-

tings (1970). É poss´ıvel ainda combinar técnicas de simula¸cão como o Slice Sampling Neal (1997)

ou o método de Aceita¸cão-Rejei¸cão Devroye (1986) dentro do Amostrador de Gibbs, por exemplo.

Amostrador de Gibbs

O Amostrador de Gibbs, às vezes chamado de amostragem condicional alternada, é uma ferramenta importante e muito utilizada quando o parâmetro de interesse 𝜃 é multidimensional. Considere ainda a estrutura 𝜃 ∈ Θ ⊆ R𝑑. O algoritmo em questão faz uso das distribui¸cões condicionais completas, definidas na Se¸cão 3.1, e o procedimento é descrito no Algoritmo B.2.

Caso as condicionais completas tenham a forma de distribui¸cões conhecidas, opera-se com métodos de simula¸cão de variáveis aleatórias tradicionais, como o Método da Inversão, o Método da Aceita¸cão- Rejei¸cão, Método da Composi¸cão ou Método da Representa¸cão Estocástica, para explica¸cão e exem- plos, vejaTan et al. (2009).

Por outro lado, se para pelo menos um 𝑘, a distribui¸c˜ao 𝜋(𝜃𝑘|𝜃−𝑘) n˜ao tiver forma conhecida,

deve-se simular desta(s) variável(is) aleatória(s) com outros métodos, como os que seguem.

Metropolis-Hastings

Suponha que queiramos simular uma variável aleatória da densidade ℎ(·), de suporte ℋ. Escolhe- se uma densidade auxiliar 𝑔 : ℋ ↦→ [0, +∞), da qual se sabe gerar valores aleatórios. Sob o algoritmo de Metropolis-Hastings, ℎ é vista como a distribui¸cão estacionária de um processo aleatório Markovi- ano. Assim, seus valores são gerados através de uma cadeia de Markov e, de acordo com um critério das condi¸cões de balan¸co, estes valores podem ou não ser aceitos, segundo o esquema do Algoritmo B.1.

Note que da maneira como se define a probabilidade de aceita¸cão, 𝑎, é suficiente saber o núcleo da densidade objetivo ℎ para que o algoritmo funcione. Uma desvantagem desta ferramenta é a arbitrariedade na escolha da fun¸cão 𝑔, visto que ela interfere na taxa de aceita¸cão e define, então, a velocidade/eficácia do procedimento Chib and Greenberg (1995).

Slice sampler

Uma alternativa interessante para a simula¸cão de valores provenientes de condicionais completas desconhecidas é o Slice sampler. Além de ter opera¸cões computacionalmente menos custosas, em diversos cenários (multimodalidade, por exemplo) ele é mais eficiente do que o Metropolis-Hastings.

Como discutido em Neal (2003), ele é introduzido justamente com o objetivo de ser adaptativo e de uso automatizado, ao contrário das formula¸cões tradicionais do Metropolis-Hastings. Genera- liza¸cões para casos multivariados e demonstra¸cão dos resultados de invariância da amostra gerada são apresentadas no mesmo artigo.

Novamente, suponha que a densidade objetivo é proporcional à fun¸cão ℎ : ℋ ↦→ [0, +∞). Defi- nindo uma variável auxiliar, 𝑧, a ideia do algoritmo é obter uma amostra da distribui¸cão conjunta uniforme de (𝑋, 𝑍) sobre o conjunto 𝑈 = {(𝑥, 𝑧) : 0 < 𝑧 < ℎ(𝑥)}, e em sequência projetá-los sobre o eixo das abscissas para obter uma amostra da densidade determinada por ℎ(𝑥). Sendo um método robusto para simular de fun¸cões de probabilidade e até densidades multimodais, há diferentes pos- sibilidades para implementa¸cão de algumas etapas do algoritmo. O procedimento geral consiste em, com base num valor inicial 𝑥(0)_:

i. Gerar 𝑧 ∼ Uniforme(0, ℎ(𝑥(0))), e definir o corte horizontal 𝑆 = {𝑥 : 𝑧 < ℎ(𝑥)}.

ii. Encontrar um intervalo 𝐼 = (𝐿, 𝑅) ao redor de 𝑥(0) _{que contenha todos, ou grande parte}

dos pontos de 𝑆. Este passo pode ser feito pelo procedimento stepping out, que incrementa alternadamente a vizinhan¸ca do ponto 𝑥(0) _at´_{e que 𝑆 ⊂ 𝐼; ou pelo procedimento doubling, que}

incrementa a vizinhan¸ca ao redor de 𝑥(0) _{sempre duplicando seu tamanho, at´}_{e que 𝑆 ⊂ 𝐼.}

iii. O novo valor 𝑥(1) _´_{e simulado de uma distribui¸c˜}_{ao uniforme sobre o conjunto 𝐼, e aceito se}

pertencer ao conjunto 𝐴 = {𝑥 : 𝑥 ∈ 𝑆 ∩ 𝐼 e P(𝐼 | estado 𝑥) = P(𝐼 | estado 𝑥0)}.

Como exemplo, o algoritmo slice sampling para distribui¸c˜oes unimodais com procedimento doubling ´e mostrado pelo Algoritmo B.3.

Simula¸c˜ao com vari´aveis auxiliares para modelos log´ısticos Binomiais

A estima¸cão Bayesiana de Modelos Lineares Generalizados é complicada sob um ponto de vista computacional, pelo fato do valor esperado condicional das variáveis resposta não mais ser uma fun¸cão linear nos parâmetros. As distribui¸cões condicionais completas dos efeitos das covariáveis tornam-se desconhecidas por conta da fun¸cão de liga¸cão entre os preditores e a densidade da variável resposta, exigindo algoritmos mais sofisticados de simula¸cão para gerar valores das suas distribui¸cões, tais como o Metropolis-Hastings e/ou Slice sampling.

Em alguns casos dentro da fam´ılia exponencial, entretanto, é poss´ıvel construir um amostrador de Gibbs que herda caracter´ısticas desejáveis das estima¸cões Bayesianas de modelos lineares gaussianos, sem precisar dos referidos algoritmos adicionais. Tais procedimentos tem como base a determina¸cão de variáveis auxiliares para cria¸cão de uma verossimilhan¸ca completa Tanner and Wong (1987), e servem em particular para regressão com distribui¸cão de Poisson e Binomial, sob certas fun¸cões de liga¸cão.

Dentro dos modelos de regressão Bernoulli, o novo procedimento foi desenvolvido para o caso com liga¸cão probito Albert and Chib (1993), enquanto os autores Holmes and Held (2006) estenderam para o caso com liga¸cão logito. Desde então, os métodos mais interessantes e eficientes elaborados para regressão Binomial log´ıstica estão descritos em Frühwirth-Schnatter and Frühwirth (2007) e

Fr¨uhwirth-Schnatter et al. (2009). A ideia ser´a introduzida para o caso com respostas Bernoulli, e

depois generalizado para 𝐾 ensaios com resposta dicot^omica.

Suponha o modelo de regress˜ao 𝑌1, . . . , 𝑌𝑛 𝑖𝑛𝑑

∼ Bernoulli(𝑝𝑖), logito(𝑝𝑖) = 𝑥′𝑖𝛽, em que 𝑥𝑖 ´e o vetor

de covariáveis e 𝛽 um vetor de parâmetros com distribui¸cão gaussiana multivariada. Em primeira instância, definem-se variáveis latentes 𝑦𝑢

0𝑖 e 𝑦𝑢𝑖 (denominadas de utilidades de escolha das categorias

0 e 1, respectivamente) para cada unidade experimental, de forma que

𝑦𝑖 = {︃ 0, se 𝑦𝑢 𝑖 ≤ 𝑦0𝑖𝑢 1, se 𝑦𝑢 𝑖 > 𝑦𝑢0𝑖 e 𝑦_𝑖𝑢 = 𝑥′_𝑖𝛽 + 𝜀𝑖, (3.1.5) com 𝑦𝑢 0𝑖, 𝜀𝑖 𝑖𝑖𝑑

∼ Gumbel(0, 1). 𝑋 ∼ Gumbel(𝑎, 𝑏) representa a distribui¸cão Gumbel do máximo com loca¸cão 𝑎 e escala 𝑏 (também conhecida como distribui¸cão do valor extremo tipo I Johnson et al.

(1995)). Note que pela representa¸c˜ao, 𝑦_𝑖𝑢 𝑖𝑛𝑑∼ Gumbel(𝑥′

𝑖𝛽, 1). Sob esta estrutura, a distribui¸c˜ao

marginal dos dados 𝑦𝑖 ´e equivalente `a do modelo postulado Bernoulli(𝑝𝑖), 𝑝𝑖 = logito −1

(𝑥′_𝑖𝛽). Para que o modelo tenha identificabilidade, as utilidades 𝑦𝑢_0𝑖 independem de covariáveis. Note que esta formula¸cão traz a conveniência de se ter uma expressão para as utilidades que é linear nos parâmetros 𝛽, mas que ainda possui perturba¸cões aleatórias com forma não tratável diretamente.

Adicionalmente, os autores Frühwirth-Schnatter and Frühwirth (2007) aproximam a distribui¸cão de 𝜀𝑖 por uma mistura finita de variáveis aleatórias gaussianas com L componentes, 𝑓 (𝜀𝑖) ≈

∑︀𝐿

𝑙=1𝑟𝑙×

𝜑(𝜀𝑖|𝑚𝑙, 𝑠2𝑙), com

∑︀

𝑙𝑟𝑙 = 1. 𝜑(·|𝜇, 𝜎

2_{) representa a densidade gaussiana univariada com m´}_{edia 𝜇 e}

variância 𝜎2. A dimensão 𝐿 (em geral igual a 10) e os parâmetros 𝑚𝑙, 𝑠2𝑙, ∀𝑙 ∈ {1, . . . , 𝐿} foram

obtidos anteriormente minimizando a distância de Kullback-Leibler entre a mistura e a densidade da Gumbel padrão Frühwirth-Schnatter and Frühwirth (2007). Deve-se, portanto, incluir mais um conjunto de variáveis latentes, 𝑅1, . . . , 𝑅𝑛, sendo estas as aloca¸cões das componentes da mistura.

Assim, a representa¸c˜ao do modelo log´ıstico com os dados aumentados (𝑦, 𝑦𝑢_{, 𝑅) fica:}

𝑦𝑖|𝑦𝑖𝑢, 𝑅𝑖 𝑖𝑛𝑑 ∼ 𝑓 (𝑦𝑖|𝑦𝑖𝑢, 𝑅𝑖), 𝑦𝑖𝑢|𝑅𝑖 = 𝑙 𝑎𝑝𝑟 ∼ Normal(𝑥′_𝑖𝛽 + 𝑚𝑙, 𝑠2𝑙) e 𝑅𝑖 𝑖𝑖𝑑 ∼ Multinomial(1, 𝑟1, . . . , 𝑟𝐿),

𝑖 = 1, . . . , 𝑛} não dependem dos parâmetros de interesse 𝛽, eles são considerados quantidades nui- sance, e podem ser marginalizados da estrutura dos dados. A distribui¸cão a posteriori neste caso, por condicionamento, é da forma 𝜋(𝑦𝑢_{, 𝑅, 𝛽|𝑦) ∝ 𝑓 (𝑦, 𝑦}𝑢_{, 𝑅|𝛽)𝜋(𝛽), com condicionais completas}

𝜋(𝛽|𝑦, 𝑦𝑢_{, 𝑅) e 𝜋(𝑦}𝑢_{, 𝑅|𝑦, 𝛽), que pode ser decomposta em 𝜋(𝑅|𝑦}𝑢_{, 𝑦, 𝛽)𝜋(𝑦}𝑢_{|𝑦, 𝛽).}

Algumas propriedades importantes antes de encontrar a forma das distribui¸c˜oes acima mencio- nadas:

∙ Pela representa¸cão (3.1.5), argumenta-se em Frühwirth-Schnatter and Frühwirth (2007) que 𝜋(𝑅|𝑦𝑢_{, 𝑦, 𝛽) =} ∏︀𝑛

𝑖=1

𝜋(𝑅𝑖|𝑦𝑖𝑢, 𝛽) e 𝜋(𝛽|𝑦, 𝑦𝑢, 𝑅) = 𝜋(𝛽|𝑦𝑢, 𝑅);

∙ Se 𝑋 ∼ Gumbel(𝑎, 1), ent˜ao 𝑍 = 𝑒−𝑋 ∼ Exponencial(𝑒𝑎_{), com taxa de falha 𝑒}𝑎_{. Consequente-}

mente, no atual contexto, temos exp(−𝑦𝑢

0𝑖) ∼ Exponencial(1) e exp(−𝑦𝑢𝑖) ∼ Exponencial(𝑒𝑥

′

𝑖𝛽);

∙ Se 𝑋𝑖 𝑖𝑛𝑑

∼ Exponencial(𝜆𝑖), 𝑖 ∈ {1, 2}, ent˜ao min{𝑋1, 𝑋2} ∼ Exponencial(𝜆1+ 𝜆2). Em particu-

lar, min{exp(−𝑦_0𝑖𝑢), exp(−𝑦𝑢_𝑖)} ∼ Exponencial(1 + 𝑒𝑥′𝑖𝛽).

Agora, para simular valores de 𝜋(𝑦𝑢

𝑖|𝑦𝑖, 𝛽), considere a densidade aumentada 𝜋(𝑦𝑢𝑖, 𝑦0𝑖𝑢|𝑦𝑖, 𝛽). Os

autores encontram, de forma argumentativa, a distribui¸c˜ao condicional de 𝑦𝑢

𝑖 por duas situa¸c˜oes:

1. Caso 𝑦𝑖 = 1, a utilidade da categoria 1 ´e maior do que da categoria 0, e 𝑦𝑢𝑖 > 𝑦0𝑖𝑢 ⇐⇒ exp(−𝑦𝑖𝑢) <

exp(−𝑦𝑢

0𝑖) ⇐⇒ min{exp(−𝑦𝑢𝑖), exp(−𝑦0𝑖𝑢)} = exp(−𝑦𝑢𝑖). Assim, exp(−𝑦𝑖𝑢) ∼ Exponencial(1 +

𝑒𝑥′_𝑖𝛽_{) diretamente;}

2. Caso 𝑦𝑖 = 0, a utilidade da categoria 0 ´e maior do que da categoria 1, e 𝑦𝑖𝑢 ≤ 𝑦0𝑖𝑢 ⇐⇒

exp(−𝑦𝑢

𝑖) ≥ exp(−𝑦0𝑖𝑢) ⇐⇒ min{exp(−𝑦𝑖𝑢), exp(−𝑦𝑢0𝑖)} = exp(−𝑦0𝑖𝑢). Assim, 𝜋(𝑦𝑖𝑢, 𝑦0𝑖𝑢|𝑦𝑖 =

1, 𝛽) = 𝜋(𝑦𝑢

𝑖|𝑦0𝑖𝑢, 𝑦𝑖 = 0, 𝛽)𝜋(𝑦0𝑖𝑢|𝑦𝑖 = 0, 𝛽). Pela falta de memória das variáveis aleatórias

Exponenciais, a densidade de exp(−𝑦𝑢_𝑖) ser´a deslocada pelo min{exp(−𝑦_𝑖𝑢), exp(−𝑦𝑢_0𝑖)} reali- zado, que neste caso vale exp(−𝑦_0𝑖𝑢). Portanto, obt´em-se exp(−𝑦_0𝑖𝑢) ∼ Exponencial(1 + 𝑒𝑥′𝑖𝛽) e

exp(−𝑦𝑢_𝑖)|[exp(−𝑦_0𝑖𝑢) = 𝑐] ∼ Exponencial(𝑒𝑥′𝑖𝛽)1{exp(−𝑦𝑢

𝑖) ∈ (𝑐, +∞)}.

As condicionais completas das aloca¸cões 𝑅𝑖 têm a mesma forma das aloca¸cões em modelos Baye-

sianos de misturas gaussianas finitasFr¨uhwirth-Schnatter (2006), isto ´e, para todo 𝑖 ∈ {1, . . . , 𝑛},

𝜋(𝑅𝑖 = 𝑙|𝑦𝑢𝑖, 𝛽L) ∝ 𝑟𝑙 𝑠𝑙 exp {︃ 1 2𝑠2 𝑙 (︂ 𝑦_𝑖𝑢− 𝑥′ 𝑖𝛽 − 𝑚𝑙 )︂2}︃ , 𝑙 ∈ {1, . . . , 𝐿}. (3.1.6)

Por ´ultimo, fixados os valores 𝑦𝑢

1, . . . , 𝑦𝑢𝑛 e 𝑅1, . . . , 𝑅𝑛, a simula¸c˜ao de 𝛽 ´e feita da mesma forma

como no modelo linear gaussiano, em que possui condicional completa com distribui¸cão Normal multivariada Zellner (1971), por conta da representa¸cão (3.1.5). Assim, a estima¸cão Bayesiana de parâmetros para um modelo linear generalizado é feita com simula¸cões de quantidades equivalentes `

Apresenta-se agora a metodologia para regressão longitudinal com o número de sucessos dentre 𝐾 ensaios independentes como variável resposta e com inclusão de efeitos aleatórios, isto é, 𝑌𝑖𝑗

𝑖𝑛𝑑

∼ Binomial(𝐾, 𝑝𝑖𝑗), logito(𝑝𝑖𝑗) = 𝑥′𝑖𝑗𝛽 + 𝑧

′

𝑖𝑗𝑏𝑖, em que 𝑥𝑖𝑗 e 𝑧𝑖𝑗 s˜ao vetores de covari´aveis para os efeitos

𝛽 ∼ Normal𝑞𝛽(𝜇𝛽, I𝛽) e 𝑏𝑖 ∼ Normal𝑞𝑏(0, D), respectivamente. Embora não seja necessário, supõe-se

que a matriz de covariâncias D tem uma distribui¸cão Inversa Wishart. Considere a decomposi¸cão da quantidade de sucessos no tempo 𝑗 como 𝑦𝑖𝑗 =

∑︀𝐾 𝑘=1𝑠𝑘𝑖𝑗, com 𝑠𝑘𝑖𝑗 = {︃ 1, se 1 ≤ 𝑘 ≤ 𝑦𝑖𝑗 0, se 𝑦𝑖𝑗 < 𝑘 ≤ 𝐾, em que P[𝑠𝑘𝑖𝑗 = 1|𝑝𝑖𝑗] = 𝑝𝑖𝑗, ∀𝑘 ∈ {1, . . . , 𝐾}, ∀𝑗 ∈ {1, . . . L, 𝑛𝑖} e ∀𝑖 ∈ {1, . . . , 𝑛}. As utilidades

𝑦_𝑘𝑖𝑗𝑢 , ∀(𝑘, 𝑗) da 𝑖-´esima unidade experimental s˜ao criadas como em (3.1.5), para cada 𝑠𝑘𝑖𝑗. Da mesma

forma, 𝑦_0𝑖𝑗𝑢 tem distribui¸cão conhecida e independente de covariáveis, por questões de identificabilidade. O modelo de regressão para as utilidades latentes fica:

𝑦𝑢_𝑘𝑖𝑗 = 𝑥′_𝑖𝑗𝛽 + 𝑧_𝑖𝑗′ 𝑏𝑖+ 𝜀𝑘𝑖𝑗, (3.1.7)

∀𝑘 ∈ {1, . . . , 𝐾} e ∀𝑗 ∈ {1, . . . , 𝑛𝑖}, em que 𝑦0𝑖𝑗𝑢 , 𝜀𝑘𝑖𝑗 𝑖𝑖𝑑

∼ Gumbel(0, 1). Negativando e tomando o exponencial em ambos os lados da express˜ao (3.1.7), tem-se a rela¸c˜ao

exp(−𝑦𝑢_𝑘𝑖𝑗) = exp(−𝑥′_𝑖𝑗𝛽 − 𝑧′_𝑖𝑗𝑏𝑖) exp(−𝜀𝑘𝑖𝑗) ⇒ 𝐾 ∑︁ 𝑘=1 exp(−𝑦𝑢_𝑘𝑖𝑗) = exp(−𝑥′_𝑖𝑗𝛽 − 𝑧′_𝑖𝑗𝑏𝑖) 𝐾 ∑︁ 𝑘=1 exp(−𝜀𝑘𝑖𝑗) ⇒ 𝑦*_𝑖𝑗 = 𝑥′_𝑖𝑗𝛽 + 𝑧_𝑖𝑗′ 𝑏𝑖+ 𝜉𝑖𝑗, (3.1.8) em que 𝑦*_𝑖𝑗 = −log(︁∑︀𝐾 𝑘=1exp(−𝑦 𝑢 𝑘𝑖𝑗) )︁ e 𝜉𝑖𝑗 = −log (︁ ∑︀𝐾 𝑘=1exp(−𝜀𝑘𝑖𝑗) )︁ = −log(Gamma(𝐾, 1)), ∀𝑖, 𝑗. 𝑋 ∼ Gamma(𝑎, 𝑏) indica a parametriza¸cão com E[𝑋] = 𝑎/𝑏. Assim como no caso Bernoulli, no in´ıcio desta se¸cão, aproxima-se a variável 𝜉𝑖𝑗 por uma mistura finita gaussiana de 𝐿 componentes.

A vantagem agora é que, de acordo com o Teorema Central do Limite, conforme a quantidade de categorias 𝐾 cresce, a aproxima¸cão da variável aleatória −log(Gamma(𝑢, 1)) para a Normal é melhor. Assim, conforme 𝐾 −→ +∞, a quantidade de componentes na mistura finita necessária para aproximar 𝜉𝑖𝑗 diminui. Para 𝐾 = 30, por exemplo, utiliza-se 𝐿 = 4 componentes.

A simula¸cão das utilidades agregadas 𝑦_𝑖𝑗* é feita de maneira análoga ao caso de regressão Ber- noulli. O processo é descrito em Frühwirth-Schnatter et al. (2009), e culmina em: para 𝑦𝑖𝑗 = 𝐾,

𝑦_𝑖𝑗* = −log(︁ 𝑈𝑖𝑗

1+𝜆𝑖𝑗

)︁

; enquanto para 𝑦𝑖𝑗 < 𝐾, 𝑦𝑖𝑗* = −log

(︁ _𝑈 𝑖𝑗 1+𝜆𝑖𝑗 + 𝑉𝑖𝑗 𝜆𝑖𝑗 )︁ , em que 𝜆𝑖𝑗 = exp(𝑥′𝑖𝑗𝛽 + 𝑧𝑖𝑗′ 𝑏𝑖),

𝑈𝑖𝑗 ∼ Gamma(𝐾, 1) e 𝑉𝑖𝑗 ∼ Gamma(𝐾 − 𝑦𝑖𝑗, 1), independentes. As vari´aveis latentes de aloca¸c˜ao

nas componentes de mistura são geradas exatamente como em (3.1.6), com acréscimo dos efeitos aleatórios na média das utilidades. Por último, dentro do processo iterativo de simula¸cão, condici- onados em {𝑦_𝑖𝑗* : 𝑗 = 1, . . . , 𝑛𝑖; 𝑖 = 1, . . . , 𝑛} e {𝑅𝑖𝑗 : 𝑗 = 1, . . . , 𝑛𝑖; 𝑖 = 1, . . . , 𝑛}, a condicional

gaussianos multivariados. Assim, elas s˜ao obtidas, respectivamente, ao gerar pontos de uma Normal (𝑞𝛽 + 𝑛𝑞𝑏) - multivariada e de uma Inversa Wishart (dadas as escolhas de distribui¸c˜oes a priori ci-

tadas). A simula¸cão em blocos do caso Binomial com efeitos mistos e fun¸cão logito é descrita no Algoritmo B.4, no Apêndice B.

No documento Modelos de mistura para dados longitudinais de habilidade cognitiva em idosos (páginas 32-38)