Processo Dirichlet. Paulo C. Marques F. Seminário relâmpago ministrado no Insper. 8 de Abril de 2016

(1)

Processo Dirichlet

Paulo C. Marques F.

Semin´ario relˆampago ministrado no Insper

(2)

Mistura de normais

Considere um modelo de mistura de normais em que x1, . . . , xn ∈ R

s˜ao condicionalmente independentes e identicamente distribu´ıdas, dados (w , µ, σ2), tais que

f_{(x | w, µ, σ}2) = n Y i=1 f(xi | w, µ, σ2) = n Y i=1 k X j=1 wj φ(xi | µj, σ2j), em que φ(xi | µj, σj2) = e−(x2 i−µj)2/2σ2j √ 2πσj .

Note que a fun¸c˜ao de verossimilhan¸ca Lx(w , µ, σ2) = f (x | w, µ, σ2)

(3)

Vari´aveis latentes (1)

Neste modelo de mistura ´e poss´ıvel “aumentar os dados” (Tanner e Wong) introduzindo n vari´aveis latentes zi ∈ {1, . . . , k} que dizem

a qual componente da mistura cada um dos xi’s pertence.

Formalmente, se postularmos que f (xi | zi, µ, σ2) = φ(xi | µzi, σ

2 zi) e f(zi | w) = wzi, usando o teorema da probabilidade total e a regra do produto, temos que

f_{(x | w, µ, σ}2) = n Y i=1 f(xi | w, µ, σ2) = n Y i=1 k X zi=1 f(xi, zi | w, µ, σ2) = n Y i=1 k X zi=1 f(xi | zi, w , µ, σ2) f (zi | w, µ, σ2) = n Y i=1 k X zi=1 wziφ(xi | µzi, σ 2 zi) = Lx(w , µ, σ 2_).

(4)

Infinitas componentes (1)

Esta nova representa¸c˜ao do modelo possibilita, sob certas

condi¸cões, o cálculo das condicionais completas necessárias para a constru¸cão de um Gibbs sampler.

As marginais a posteriori dos zi’s permitem uma an´alise de clusters

no contexto deste modelo de mistura em que k ´e conhecido. ´

E poss´ıvel estender o modelo para o caso em que temos infinitas componentes: f(xi | w, µ, σ2) = ∞ X j=1 wjφ(xi | µj, σj2).

Para criar alguma intui¸c˜ao do caso infinito, suponha que alteramos os r´otulos das componentes da mistura de modo a ordenar os pesos w1 ≥ w2 ≥ w3≥ . . . .

(5)

Infinitas componentes (2)

Lembrando que wj ≥ 0 e que P

∞

j=1wj = 1, a partir de um certo k

os componentes da mistura passam a ser “irrelevantes” (não têm peso apreciável).

Informalmente, para o referido k , ter´ıamos que Pk

j=1wj ≈ 1.

Formalmente, no modelo em que os r´otulos das componentes da mistura foram redefinidos de modo a termos os pesos em ordem crescente, para todo ǫ > 0, existe um k = k (ǫ) ≥ 1, tal que

Z R ∞ X j=1 wjφ(t | µj, σj2) − k X j=1 wjφ(t | µj, σj2) dt < ǫ.

Deste modo, um modelo de mistura com infinitas componentes pode ser representado mentalmente pelo modelo finito que o aproxima com qualquer precis˜ao desejada.

(6)

Processo Dirichlet

Um Processo Dirichlet G ∼ DP(c, G0) ´e uma distribui¸c˜ao de

probabilidade aleat´oria, em que c > 0 ´e a constante de

concentra¸cão do processo e G0 é a distribui¸cão em que o processo

est´a centrado, no sentido de que E[G] = G0.

Do mesmo modo que uma variável aleat´_{oria X ∼ N(0, 1)} representa nossa incerteza a respeito de um número real, um Processo Dirichlet representa nossa incerteza sobre uma distribui¸cão de probabilidade.

Se x1, . . . , xn s˜ao condicionalmente IID, dado G, com distribui¸c˜ao

G, ent˜ao a posteriori G _{| x}1, . . . , xn ∼ DP c+ n, n c+ nFˆn+ c c+ nG0 .

Note os compartamentos quando c ↓ 0 e quando n → ∞ (Bayesian Bootstrap).

Podemos definir hierarquias G | H ∼ DP(c, H ), H ∼ DP(d, H0)

(7)

“Stick breaking” (1)

Se pud´essemos simular um Processo Dirichlet, como seriam suas realiza¸c˜oes?

Blackwell: com probabilidade 1, as realiza¸cões de um Processo Dirichlet são distribui¸cões de probabilidade discretas com suporte infinito.

Sethuraman descobriu uma constru¸c˜ao expl´ıcita do Processo Dirichlet, denominada “stick breaking”.

Dadas {βi} ∞

i=1 IID com distribui¸c˜ao Beta(1, c).

Defina w1 = β1 e wi = βiQi −1_j₌₁(1 − βj), para j ≥ 2.

Sejam os ´_{atomos {y}i}∞i=1 IID com distibui¸c˜ao G0.

Supondo que o espa¸co amostral ´e a reta real, uma realiza¸c˜ao de G seria G(t) = ∞ X i=1 wiI(−∞,yi](t).

(8)

“Stick breaking” (2)

−2 0 2 4 0.0 0.5 1.0 c = 1 −4 −2 0 2 4 0.0 0.5 1.0 c = 10 −4 −2 0 2 0.0 0.5 1.0 c = 100 −3 −2 −1 0 1 2 3 0.0 0.5 1.0 c = 1000

(9)

Restaurante chinˆes

Há probabilidade positiva de que duas observa¸cões geradas a partir de uma realiza¸cão de um Processo Dirichlet sejam exatamente iguais.

´

E poss´ıvel provar que

xn+1| x1, . . . xn ∼

n

c+ nFˆn + c c+ nG0.

Interpreta¸cão metafórica: um novo cliente chega ao “restaurante chinês”.

Com probabilidade c/(c + n) ele “se senta” sozinho em uma “nova mesa” (um novo cluster ´e criado).

Com probabilidade (n/(c + n)) × (nk/n) = nk/(c + n) ele “se

senta” na k -´esima “mesa existente”, na qual j´a t´ınhamos nk clientes.

Portanto, é mais provável que ele “se sente” em uma mesa em que já há muitos clientes.

(10)

Mistura via Processo Dirichlet (1)

Um modelo de mistura via Processo Dirichlet ´e definido pela seguinte hierarquia.

G _{∼ DP(c, G}0).

µ1, . . . , µn s˜ao condicionalmente IID, dado G, com distribui¸c˜ao G.

x1, . . . , xn s˜ao condicionalmente independentes, dado

(11)

Mistura via Processo Dirichlet (2)

Usando a constru¸cão “stick breaking” do Processo Dirichlet e introduzindo variáveis latentes de aloca¸cão, podemos reescrever o modelo de mistura via Processo Dirichlet como um modelo de mistura de normais com infinitas componentes.

β1, β2, . . . s˜ao IID com distribui¸c˜ao Beta(1, c).

w1 = β1 e wj = βj

Qj −1

ℓ=1(1 − βℓ), para j ≥ 2.

µ1, µ2, . . . s˜ao IID com distribui¸c˜ao G0.

z1, . . . , zn s˜ao condicionalmente IID, dado w = {wj} ∞ j=1, com

distribui¸c˜_{ao Pr{z}i = k | w} = wk, para k ≥ 1.

x1, . . . , xn s˜ao condicionalmente independentes, dados

z = (z1, . . . , zn) e µ = {µj}j∞=1, tais que xi | zi, µ ∼ N(µzi, σ

2 0I),

para i = 1, . . . , n.

Esta hierarquia torna poss´ıvel a constru¸c˜ao de um Gibbs sampler an´alogo ao utilizado no modelo de mistura tradicional.

Os clusters s˜ao obtidos a partir das marginais a posteriori dos zi’s.

(12)