Processo Dirichlet
Paulo C. Marques F.
Semin´ario relˆampago ministrado no Insper
Mistura de normais
Considere um modelo de mistura de normais em que x1, . . . , xn ∈ R
s˜ao condicionalmente independentes e identicamente distribu´ıdas, dados (w , µ, σ2), tais que
f(x | w, µ, σ2) = n Y i=1 f(xi | w, µ, σ2) = n Y i=1 k X j=1 wj φ(xi | µj, σ2j), em que φ(xi | µj, σj2) = e−(x2 i−µj)2/2σ2j √ 2πσj .
Note que a fun¸c˜ao de verossimilhan¸ca Lx(w , µ, σ2) = f (x | w, µ, σ2)
Vari´aveis latentes (1)
Neste modelo de mistura ´e poss´ıvel “aumentar os dados” (Tanner e Wong) introduzindo n vari´aveis latentes zi ∈ {1, . . . , k} que dizem
a qual componente da mistura cada um dos xi’s pertence.
Formalmente, se postularmos que f (xi | zi, µ, σ2) = φ(xi | µzi, σ
2 zi) e f(zi | w) = wzi, usando o teorema da probabilidade total e a regra do produto, temos que
f(x | w, µ, σ2) = n Y i=1 f(xi | w, µ, σ2) = n Y i=1 k X zi=1 f(xi, zi | w, µ, σ2) = n Y i=1 k X zi=1 f(xi | zi, w , µ, σ2) f (zi | w, µ, σ2) = n Y i=1 k X zi=1 wziφ(xi | µzi, σ 2 zi) = Lx(w , µ, σ 2).
Infinitas componentes (1)
Esta nova representa¸c˜ao do modelo possibilita, sob certas
condi¸c˜oes, o c´alculo das condicionais completas necess´arias para a constru¸c˜ao de um Gibbs sampler.
As marginais a posteriori dos zi’s permitem uma an´alise de clusters
no contexto deste modelo de mistura em que k ´e conhecido. ´
E poss´ıvel estender o modelo para o caso em que temos infinitas componentes: f(xi | w, µ, σ2) = ∞ X j=1 wjφ(xi | µj, σj2).
Para criar alguma intui¸c˜ao do caso infinito, suponha que alteramos os r´otulos das componentes da mistura de modo a ordenar os pesos w1 ≥ w2 ≥ w3≥ . . . .
Infinitas componentes (2)
Lembrando que wj ≥ 0 e que P
∞
j=1wj = 1, a partir de um certo k
os componentes da mistura passam a ser “irrelevantes” (n˜ao tˆem peso apreci´avel).
Informalmente, para o referido k , ter´ıamos que Pk
j=1wj ≈ 1.
Formalmente, no modelo em que os r´otulos das componentes da mistura foram redefinidos de modo a termos os pesos em ordem crescente, para todo ǫ > 0, existe um k = k (ǫ) ≥ 1, tal que
Z R ∞ X j=1 wjφ(t | µj, σj2) − k X j=1 wjφ(t | µj, σj2) dt < ǫ.
Deste modo, um modelo de mistura com infinitas componentes pode ser representado mentalmente pelo modelo finito que o aproxima com qualquer precis˜ao desejada.
Processo Dirichlet
Um Processo Dirichlet G ∼ DP(c, G0) ´e uma distribui¸c˜ao de
probabilidade aleat´oria, em que c > 0 ´e a constante de
concentra¸c˜ao do processo e G0 ´e a distribui¸c˜ao em que o processo
est´a centrado, no sentido de que E[G] = G0.
Do mesmo modo que uma vari´avel aleat´oria X ∼ N(0, 1) representa nossa incerteza a respeito de um n´umero real, um Processo Dirichlet representa nossa incerteza sobre uma distribui¸c˜ao de probabilidade.
Se x1, . . . , xn s˜ao condicionalmente IID, dado G, com distribui¸c˜ao
G, ent˜ao a posteriori G | x1, . . . , xn ∼ DP c+ n, n c+ nFˆn+ c c+ nG0 .
Note os compartamentos quando c ↓ 0 e quando n → ∞ (Bayesian Bootstrap).
Podemos definir hierarquias G | H ∼ DP(c, H ), H ∼ DP(d, H0)
“Stick breaking” (1)
Se pud´essemos simular um Processo Dirichlet, como seriam suas realiza¸c˜oes?
Blackwell: com probabilidade 1, as realiza¸c˜oes de um Processo Dirichlet s˜ao distribui¸c˜oes de probabilidade discretas com suporte infinito.
Sethuraman descobriu uma constru¸c˜ao expl´ıcita do Processo Dirichlet, denominada “stick breaking”.
Dadas {βi} ∞
i=1 IID com distribui¸c˜ao Beta(1, c).
Defina w1 = β1 e wi = βiQi −1j=1(1 − βj), para j ≥ 2.
Sejam os ´atomos {yi}∞i=1 IID com distibui¸c˜ao G0.
Supondo que o espa¸co amostral ´e a reta real, uma realiza¸c˜ao de G seria G(t) = ∞ X i=1 wiI(−∞,yi](t).
“Stick breaking” (2)
−2 0 2 4 0.0 0.5 1.0 c = 1 −4 −2 0 2 4 0.0 0.5 1.0 c = 10 −4 −2 0 2 0.0 0.5 1.0 c = 100 −3 −2 −1 0 1 2 3 0.0 0.5 1.0 c = 1000Restaurante chinˆes
H´a probabilidade positiva de que duas observa¸c˜oes geradas a partir de uma realiza¸c˜ao de um Processo Dirichlet sejam exatamente iguais.
´
E poss´ıvel provar que
xn+1| x1, . . . xn ∼
n
c+ nFˆn + c c+ nG0.
Interpreta¸c˜ao metaf´orica: um novo cliente chega ao “restaurante chinˆes”.
Com probabilidade c/(c + n) ele “se senta” sozinho em uma “nova mesa” (um novo cluster ´e criado).
Com probabilidade (n/(c + n)) × (nk/n) = nk/(c + n) ele “se
senta” na k -´esima “mesa existente”, na qual j´a t´ınhamos nk clientes.
Portanto, ´e mais prov´avel que ele “se sente” em uma mesa em que j´a h´a muitos clientes.
Mistura via Processo Dirichlet (1)
Um modelo de mistura via Processo Dirichlet ´e definido pela seguinte hierarquia.
G ∼ DP(c, G0).
µ1, . . . , µn s˜ao condicionalmente IID, dado G, com distribui¸c˜ao G.
x1, . . . , xn s˜ao condicionalmente independentes, dado
Mistura via Processo Dirichlet (2)
Usando a constru¸c˜ao “stick breaking” do Processo Dirichlet e introduzindo vari´aveis latentes de aloca¸c˜ao, podemos reescrever o modelo de mistura via Processo Dirichlet como um modelo de mistura de normais com infinitas componentes.
β1, β2, . . . s˜ao IID com distribui¸c˜ao Beta(1, c).
w1 = β1 e wj = βj
Qj −1
ℓ=1(1 − βℓ), para j ≥ 2.
µ1, µ2, . . . s˜ao IID com distribui¸c˜ao G0.
z1, . . . , zn s˜ao condicionalmente IID, dado w = {wj} ∞ j=1, com
distribui¸c˜ao Pr{zi = k | w} = wk, para k ≥ 1.
x1, . . . , xn s˜ao condicionalmente independentes, dados
z = (z1, . . . , zn) e µ = {µj}j∞=1, tais que xi | zi, µ ∼ N(µzi, σ
2 0I),
para i = 1, . . . , n.
Esta hierarquia torna poss´ıvel a constru¸c˜ao de um Gibbs sampler an´alogo ao utilizado no modelo de mistura tradicional.
Os clusters s˜ao obtidos a partir das marginais a posteriori dos zi’s.