Sistemas Inteligentes de Inferência

(1)

Sistemas Inteligentes de

Inferência

Carlos Hall

Redes Neurais Bayesianas

]

Denominação correta:

\

Redes Neurais com

Treinamento Bayesiano

]

Dois tipos de Estatística:

\

Estatística Clássica

: lida com

freqüências

de

ocorrência

\

Estatística Bayesiana

: lida com

densidades de

probabilidade

Teorema de Bayes

]

Considere dois eventos A e B:

\

P (A v B) = P(A) + P(B) – P(A^B)

\

P (A^B) = P(A|B) P(B)

\

P (A^B) = P(B|A) P(A)

(

)

(

_{( )}

) ( )

A

P

B

P

B

A

P

A

B

P

|

=

|

⋅

Teorema de Bayes

]

Considere dois eventos A e B:

\

P (A v B) = P(A) + P(B) – P(A^B)

\

P (A^B) = P(A|B) P(B)

\

P (A^B) = P(B|A) P(A)

(

)

(

_{( )}

) ( )

y

p

x

p

x

y

p

y

x

p

|

=

|

⋅

(

)

(

_{( )}

) ( )

A

P

B

P

B

A

P

A

B

P

|

=

|

⋅

Aprendizado de Redes Neurais

]

Considera-se:

\ Dados

D = {(x

1

, t

1

), (x

2

, t

2

),…, (x

Ny

, t

Ny

)}

\ Parâmetros

θ

= {

θ

1

, θ

2

,…, θ

Nm

}

\ Saídas do modelo:

y

_k

= g(θ, x

_k

)

\

Erros

e = {e

1

, e

2

, …, e

Ny

}, e

k

= t

k

- y

k

Aprendizado de Redes Neurais

]

Objetivo do Aprendizado:

\ Memorizar os Dados de Treinamento: NÃO

\ Modelar o processo gerador desses dados: SIM

\ Descrição completa do processo:

(2)

Aprendizado de Redes Neurais

]

Cálculo de

p (x, t)

\

Pode-se escrever:

p (x, t) = p (t | x) p (x)

\ Logo, é necessário calcular

p (t | x) = p (t | x ,

θ

)

\ Este modelo é ajustado aos dados de treinamento

D

:

[ Por meio dos parâmetros θ

[ Minimizando alguma função de erro, deduzida a partir de

algum princípio, para extrair a maior quantidade de informação possível.

Estatística Clássica

]

Princípio Fundamental:

\

Função de Verossimilhança

L(

θ

) = p(D |

θ

)

[ Fornece a distribuição de probabilidades dos dados

D em função dos parâmetros θ

\

Cálculo de

θ

é baseado na

maximização

da

função

L(

θ

)

\

Equivalente à

minimização

de uma

função de

erro

Redes Neurais e Verossimilhança

]

Considera-se:

\ Dados

D = {(x

1

, t

1

), (x

2

, t

2

),…, (x

Ny

, t

Ny

)}

\ Parâmetros

θ

= {

θ

1

, θ

2

,…, θ

Nm

}

\ Verossimilhança

L(

θ

) = p(D |

θ

) = p(x , t |

θ

)

\ Supondo que as observações

(x

k

, t

k

), k = 1… N

y são

independentes entre si, tem-se que:

( ) (

)

_∏

(

)

= = = Ny k k kt x p t x p L 1 | , | , θ θ θ

Redes Neurais e Verossimilhança

]

Decompondo:

]

Mas os dados de entrada são

independentes

das

observações!

( )

_∏

(

)

_∏

(

) (

)

= = = = y Ny k k k k N k k kt pt x px x p L 1 1 | , | | , θ θ θ θ

(

xk

) ( )

pxk p |θ =

( )

∏

(

) ( )

= = y N k k k k x px t p L 1 , | θ θ

Redes Neurais e Verossimilhança

]

Valor mais apropriado para

θ

:

\

Aquele que

maximiza

a função

L(

θ

)

\

Equivalente a

minimizar

a função

E(

θ

) = -ln

L(

θ

)

Redes Neurais e Verossimilhança

]

Função de Erro

E(

θ

)

( )

_∏

(

) ( )

= = Ny k k k k x px t p L 1 , | θ θ

( )

_∑

(

)

_∑

( )

= = − − = − = y Ny k k N k k k x px t p L E 1 1 ln , | ln ln θ θ θ

(3)

Redes Neurais e Verossimilhança

]

Função de Erro

E(

θ

)

( )

_∏

(

) ( )

= = y N k k k k x px t p L 1 , | θ θ

( )

_∑

(

)

_∑

( )

= = − − = − = y y N k k N k k k x px t p L E 1 1 ln , | ln ln θ θ θ Independe de θ

Redes Neurais e Verossimilhança

]

Função de Erro

E(

θ

)

\ Cada termo do somatório: erro referente a um dos padrões de treinamento

\ Diferentes tipos de erro são obtidos de acordo com a

forma assumida para a densidade condicional

( )

_∑

(

)

= − = Ny k k k x t p E 1 , | ln θ θ

(

tk|xk,θ

)

p

Redes Neurais e Verossimilhança

]

Função de Erro

E(

θ

)

\ Dados

D = {(x

1

, t

1

), (x

2

, t

2

),…, (x

Ny

, t

Ny

)}

y

k

= g(θ, x

k

)

\

Por exemplo, pode-se supor que

t

k

= y

k

+ e

k

\

e

k

: N(0,

σ)

( )

_⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛₋ = 2 2 2exp ₂ 2 1 σ πσ k k e e p

Redes Neurais e Verossimilhança

]

Função de Erro

E(

θ

)

\ Logo, tem-se:

(

)

(

)

_⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − − = 2 2 2 ₂ , exp 2 1 , | σ θ πσ θ k k k k x y t x t p

( )

_∑

(

)

_∑

(

)

= = ⎪⎭ ⎪ ⎬ ⎫ ⎪⎩ ⎪ ⎨ ⎧ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛₋ − − = − = y Ny k k k N k k k x y t x t p E 1 2 2 2 1 2 , exp 2 1 ln , | ln σ θ πσ θ θ

Redes Neurais e Verossimilhança

]

Função de Erro

E(

θ

)

\ Logo, tem-se:

( )

_∑

(

)

= = ⎪⎭ ⎪ ⎬ ⎫ ⎪⎩ ⎪ ⎨ ⎧ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛₋ − − ⎭ ⎬ ⎫ ⎩ ⎨ ⎧ − = y Ny k k k N k x y t E 1 2 2 1 2 2 , exp ln 2 1 ln σ θ πσ θ

Redes Neurais e Verossimilhança

]

Função de Erro

E(

θ

)

\ Logo, tem-se:

( )

_∑

(

)

= = ⎪⎭ ⎪ ⎬ ⎫ ⎪⎩ ⎪ ⎨ ⎧ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛₋ − − ⎭ ⎬ ⎫ ⎩ ⎨ ⎧ − = y Ny k k k N k x y t E 1 2 2 1 2 2 , exp ln 2 1 ln σ θ πσ θ Independe de θ _{ln(exp(x)) = x}

(4)

Redes Neurais e Verossimilhança

]

Função de Erro

E(

θ

)

\ Logo, tem-se:

\ O princípio da máxima verossimilhança implica na minimização de uma função de erro

\ Essa função nada mais é que o Erro Quadrático \ É a mesma função minimizada pelo algoritmo de

backpropagation.

\ Logo, o treinamento tradicional de redes neurais é baseado no princípio da máxima verossimilhança

( )

_∑

(

)

= − = Ny k k k yx t E 1 2 2 , 2 1 _θ σ θ

Redes Neurais Bayesianas

]

Treinamento Bayesiano:

\

Inspirado na

Estatística Bayesiana

\

Assume um modelo em particular (

distribuição a

priori

) para a densidade de probabilidade dos

parâmetros do modelo

p

(

θ

)

[ Expressa o grau de credibilidade de cada um dos valores que o vetor de parâmetros pode assumir.

\

Teorema de Bayes: infere, a partir dos dados

disponíveis, o

melhor conjunto

de parâmetros

Inferência Bayesiana

]

Método que auxilia a definir o

melhor

conjunto de parâmetros

do modelo a partir

dos dados disponíveis:

\

Dados: Variável aleatória D

\

Parâmetros:Variável aleatória θ

a priori p(θ)

θ

Inferência Bayesiana

]

Método que auxilia a definir o

melhor

conjunto de parâmetros

do modelo a partir

dos dados disponíveis:

\

Dados: Variável aleatória D

\

Parâmetros:Variável aleatória θ

a priori p(θ) θ D

+

Inferência Bayesiana

]

Método que auxilia a definir o

melhor

conjunto de parâmetros

do modelo a partir

dos dados disponíveis:

\

Dados: Variável aleatória D

\

Parâmetros:Variável aleatória θ

a posteriori θ p(θ |D)

Inferência Bayesiana

(

)

(

_{( )}

) ( )

D

p

D

p

D

p

θ

|

=

|

θ

⋅

θ

(5)

Inferência Bayesiana

Priori: informação sobre θ derivada do conhecimento prévio (background knowledge)

(

)

(

_{( )}

) ( )

D

p

D

p

D

p

θ

|

=

|

θ

⋅

θ

Priori

Inferência Bayesiana

(

)

(

_{( )}

) ( )

D

p

D

p

D

p

θ

|

=

|

θ

⋅

θ

Verossimilhança Priori

Verossimilhança: informação sobre θ derivada dos dados

Posteriori: combina as duas fontes de informação

Inferência Bayesiana

(

)

(

_{( )}

) ( )

D

p

D

p

D

p

θ

|

=

|

θ

⋅

θ

Verossimilhança Priori

Inferência Bayesiana

]

Para facilitar o cálculo da posteriori

p(

θ

| D)

:

\

Priori

p(

θ

)

\

Verossimilhança

p(D |

θ

)

(

)

(

_{( )}

) ( )

D

p

D

p

D

p

θ

|

=

|

θ

⋅

θ

Inferência Bayesiana

]

Para facilitar o cálculo da posteriori

p(

θ

| D)

:

\

Priori

p(

θ

)

\

Verossimilhança

p(D |

θ

)

Forma exponencial

(

)

(

_{( )}

) ( )

D

p

D

p

D

p

θ

|

=

|

θ

⋅

θ

e

y

e

x

Inferência Bayesiana

]

Densidade a priori

p(

θ

)

:

\

Em geral:

\

Z

_θ

(

α

):

fator de normalização para garantir

\ Para favorecer parâmetros pequenos, pode-se fazer:

( )

_{( ) (}

θ

)

θ

α

θ

E

Z

p

=

1 exp

−

( )

=1

∫

p

θ

d

θ

∑

= =1

_θ

2 1Nm

_θ

(6)

Inferência Bayesiana

]

Densidade a priori

p(

θ

)

:

\

Em geral:

\

Z

_θ

(

α

):

fator de normalização para garantir \ Para favorecer parâmetros pequenos, pode-se fazer:

( )

_{( ) (}

θ

)

θ

α

θ

E

Z

p

=

1 exp

−

( )

=1

∫

p

θ

d

θ

∑

= = = Nm i i E 1 2 2 2 1 2 1

_θ

θ hiper-parâmetro

Inferência Bayesiana

]

Densidade a priori

p(

θ

)

:

\

Então fica:

\

Ou seja quando θ é grande, p(θ) é pequeno, o que penaliza valores grandes dos parâmetros

\ Normalização:

( )

_{( )}

⎟ ⎠ ⎞ ⎜ ⎝ ⎛− = 2 2 exp 1 α _θ α θ θ Z p

( )

(

)

2 1 2 2 2 exp exp m m N N i i d d E Z ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ = ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − = − =

_∫

∑

=

α

π

θ

α

θ

α

θ θ

Inferência Bayesiana

]

Densidade a priori

p(

θ

)

:

\

Então fica:

\

Ou seja quando θ é grande, p(θ) é pequeno, o que penaliza valores grandes dos parâmetros

\ Normalização:

( )

_{( )}

⎟ ⎠ ⎞ ⎜ ⎝ ⎛− = 2 2 exp 1 θ α α θ θ Z p Regularized Weight Decay

( )

(

)

2 1 2 2 2 exp exp m m N N i i d d E Z ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ = ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − = − =

_∫

∑

=

α

π

θ

α

θ

α

θ θ

Inferência Bayesiana

]

Verossimilhança

p(D |

θ

)

\

Em geral:

(

)

_{( ) (}

D

)

D E Z D p β β θ = 1 exp− |

Inferência Bayesiana

]

Verossimilhança

p(D |

θ

)

\

Em geral:

\

Z

D

(

β

):

fator de normalização

(

)

_{( ) (}

D

)

( )

=

_∫

(

− E

)

dD ZD

β

exp

β

D hiper-parâmetro

Inferência Bayesiana

]

Verossimilhança

p(D |

θ

)

\ Dados

D = {(x

1

, t

1

), (x

2

, t

2

),…, (x

Ny

, t

Ny

)}

y

_k

= g(θ, x

_k

)

(

)

_∏

(

) ( )

= = Ny k k k k x px t p D p 1 , | |θ θ

(

)

(

)

_⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛₋ − = ₂ 2 2 ₂ , exp 2 1 , | σ θ πσ θ k k k k x y t x t p Deduzido anteriormente:

(7)

Inferência Bayesiana

]

Verossimilhança

p(D |

θ

)

:

\

Então fica:

\

Ou seja:

(

)

_∏

(

)

= ⎟⎟⎠ ⎞ ⎜⎜ ⎝ ⎛₋ − =Ny k k k yx t D p 1 2 2 2 ₂ , exp 2 1 | σ θ πσ θ

(

)

{

(

)

}

_⎟⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ =

∑

= y y N k k k N x y t D p 1 2 2 2 2 , 2 1 exp 2 1 | θ σ πσ θ

(

)

{

(

)

}

_⎟⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ =

∑

= y y N k k k N x y t D p 1 2 2 , 2 exp 2 | β θ π β θ 2 1 σ β=

Inferência Bayesiana

]

Verossimilhança

p(D |

θ

)

:

(

)

{

(

)

}

_⎟⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ =

∑

= y y N k k k N x y t D p 1 2 2 , 2 exp 2 | β θ π β θ

(

)

_{( ) (}

D

)

Inferência Bayesiana

]

Verossimilhança

p(D |

θ

)

:

(

)

{

(

)

}

_⎟⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ =

_∑

(

)

_{( ) (}

D

)

( )

₂ 2 y N D Z _⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ =

β

π

β

(

)

{

}

2 , 1 2

∑

= − = y N k k k D t x y E

θ

Sum squared Error !

Inferência Bayesiana

]

Posteriori

p(

θ

| D)

:

(

)

(

_{( )}

) ( )

D

p

D

p

D

p

θ

|

=

|

θ

⋅

θ

(

)

_{( ) (}

)

_{( ) (}

_{) ( )}

D

p

E

Z

E

Z

D

p

D D

1 exp

1 |

_⎥

⎦

⎤

⎢

⎣

⎡

−

⎥

⎦

⎤

⎢

⎣

⎡

₋

=

θ θ

α

β

θ

( )

D =

_∫

p

(

D

θ

) ( )

p

θ

d

θ

p |

Inferência Bayesiana

]

Posteriori

p(

θ

| D)

:

(

)

(

_{( )}

) ( )

D

p

D

p

D

p

θ

|

=

|

θ

⋅

θ

(

)

₍

_{) (}

β

α

θ

)

β

α

θ

E

Z

D

p

D S

−

=

exp

,

1 |

Inferência Bayesiana

]

Posteriori

p(

θ

| D)

:

(

)

(

_{( )}

) ( )

D

p

D

p

D

p

θ

|

=

|

θ

⋅

θ

(

)

₍

_{) (}

β

α

θ

)

β

α

θ

E

Z

D

p

D S

−

=

exp

,

1 |

-S(θ)

(8)

Inferência Bayesiana

]

Função de Erro

E(

θ

)

( )

θ lnp

(

D|θ

)

E =−

( )

(

)

(

( )

)

_⎭

⎬

⎫

⎩

⎨

⎧

₋

−

=

θ

β

α

θ

S

Z

E

S

exp

,

1 ln

( )

θ

{

Z

(

α

β

)

}

{

(

S

( )

θ

)

}

E

=

ln

_S

,

−

ln

exp

−

Inferência Bayesiana

]

Função de Erro

E(

θ

)

( )

θ lnp

(

D|θ

)

E =−

( )

(

)

(

( )

)

_⎭

⎬

⎫

⎩

⎨

⎧

₋

−

=

θ

β

α

θ

S

Z

E

S

exp

,

1 ln

( )

θ

{

Z

(

α

β

)

}

{

(

S

( )

θ

)

}

E

=

ln

_S

,

−

ln

exp

−

Independe de θ

Inferência Bayesiana

]

Função de Erro

E(

θ

)

( )

θ lnp

(

D|θ

)

E =−

( )

(

)

(

( )

)

_⎭

⎬

⎫

⎩

⎨

⎧

−

=

θ

β

α

θ

S

Z

E

S

exp

,

1 ln

( ) ( )

θ

S

θ

E

=

( )

θ

β

E

α

E

θ

E

=

_D

+

Inferência Bayesiana

]

Posteriori

p(

θ

| D)

:

(

)

₍

_{) (}

β

α

θ

)

β

α

θ

E

Z

D

p

D S

−

=

exp

,

1 |

(

)

{

}

2 , 1 2

∑

= − = y N k k k D t x y E

θ

∑

= = = Nm i i E 1 2 2 2 1 2 1

_θ

θ quadráticas em θ

Inferência Bayesiana

]

Posteriori

p(

θ

| D)

:

θ p(θ |D)

(

θ

)

₍

_α

_β

_{) (}

β

E

α

E

θ

)

Z

D

p

D S

−

=

exp

,

1 |

Gaussiana!

Inferência Bayesiana

]

Posteriori

p(

θ

| D)

:

θ p(θ |D)

(

θ

)

₍

_α

_β

_{) (}

β

E

α

E

θ

)

Z

D

p

D S

−

=

exp

,

1 |

Gaussiana! θMP

(9)

Inferência Bayesiana

]

Máxima a Posteriori

θ

_MP

:

\

Representa o

valor mais provável

para o vetor

de parâmetros

θ

\

Maximizar

p(θ | D) equivale a

minimizar

θ p(θ |D) Gaussiana! θMP

( ) ( )

θ Sθ E =

Inferência Bayesiana

]

Máxima a Posteriori

θ

_MP

:

θ p(θ |D) Gaussiana! θMP

( )

_∑

{

(

)

}

_∑

= = + − = y Nm i i N k k k t x y S 1 2 1 2 2 , 2

θ

α

θ

β

θ

Inferência Bayesiana

]

Máxima a Posteriori

θ

_MP

:

\

N

_y

grande

: muitos dados de treinamento,

primeiro termo domina o erro, e máxima

verossimilhança dá uma boa aproximação

\

N

y

pequeno

: termo de weight decay passa a

ser importante

( )

_∑

{

(

)

}

_∑

= = + − = y Nm i i N k k k t x y S 1 2 1 2 2 , 2

θ

α

θ

β

θ

Inferência Bayesiana

Cálculo da Densidade a Posteriori

Analiticamente Aproximação Gaussiana

MCMC

Inferência Bayesiana

Analiticamente Aproximação Gaussiana

MCMC

Inferência Bayesiana - Exemplo

]

Suponha um processo bastante simples:

\

y =

ω

0

x

t =

ω

0

x +

η

\

ω

₀

= 1.57

η = N(0,0.1)

(10)

Inferência Bayesiana - Exemplo

]

Cálculo da função

S(

θ

)

:

\

Modelo y = θ

₁

x

N

m

= 1

θ = {θ

1

}

( )

_∑

{

(

)

}

_∑

= = + − = y Nm i i N k k k t x y S 1 2 1 2 2 , 2

θ

α

θ

β

θ

( )

{

}

2 2 2 1 1 2 1

αθ

θ

β

θ

=

∑

− + = y N k k k t x S

Inferência Bayesiana - Exemplo

]

Cálculo da função

S(

θ

)

:

\

Modelo y = θ

₁

x

N

m

= 1

θ = {θ

1

}

\

Deseja-se encontrar θ que minimize S(θ)

( )

{

}

2 2 2 2 1 1 1 2 2 2 1

αθ

θ

β

θ

=

∑

+ − + = y N k k k k k t xt x S

Inferência Bayesiana - Exemplo

]

Mínimo da função

S(

θ

)

:

( )

_{

_}

0 1 1 2 1 − + = = ∂ ∂

∑

=

αθ

θ

β

θ

Ny k k k k xt x S 0 1 1 2 1 ⎟⎟− = ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ +

∑

= = y y N k k k N k k xt x

β

α

θ

Inferência Bayesiana - Exemplo

]

Mínimo da função

S(

θ

)

:

∑

= = + = y y N k k N k k k MP x t x 1 2 1

β

α

β

θ

2 1 σ β=

Inferência Bayesiana - Exemplo

]

Mínimo da função

S(

θ

)

:

α = 0

∑

= = = y y N k k N k k k MP x t x 1 2 1

θ

Mínimos Quadrados

Inferência Bayesiana - Exemplo

]

No exemplo:

\

σ = 0.1

→

β = 100

\

N

_y

= 10

∑

= = + = ₁₀ 1 2 10 1 100 100 k k k k k MP x t x

α

θ

(11)

Inferência Bayesiana - Exemplo

]

Posteriori

p(

θ

| D)

:

(

)

₍

₎

(

( )

θ

)

β

α

θ

S

Z

D

p

S

−

=

exp

,

1 |

(

α

β

)

=

_∫

(

−S

( )

θ

)

d

θ

Z_S , exp

( )

{

}

2 2 2 2 1 1 1 2 2 2 1

αθ

θ

β

θ

=

∑

+ − + = y N k k k k k t xt x S

Inferência Bayesiana - Exemplo

]

Posteriori

p(

θ

| D)

:

(

)

+∞

_∫

_∑

{

}

∞ − = ⎟⎟⎠ ⎞ ⎜⎜ ⎝ ⎛ − − + − =

β

θ

αθ

θ

β

α

x t xt d Z y N k k k k k S 2 2 2 exp , 2 1 1 1 2 2 2 1

(

)

+∞

_∫

_∑

∞ − = = = ⎪⎭ ⎪ ⎬ ⎫ ⎪⎩ ⎪ ⎨ ⎧ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − − ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ + − = β α θ β θ β θ β α x xt t d Z y y y N k k N k k k N k k S 1 2 1 1 2 1 1 2 2 2 2 exp ,

Inferência Bayesiana - Exemplo

]

Posteriori

p(

θ

| D)

:

(

)

+∞

_∫

{

}

∞ − − − − = θ θ θ β α a b cd ZS 1 2 1 exp , 2 2 1 2 α β + =

∑

= y N k k x a

∑

= − = Ny k k kt x b 1 β

∑

= = y N k k t c 1 2 2 β

Inferência Bayesiana - Exemplo

]

Posteriori

p(

θ

| D)

:

(

)

⎭ ⎬ ⎫ ⎩ ⎨ ⎧ − = c a b a Z_S 4 exp , 2 π β α 2 2 1 2 α β + =

∑

= y N k k x a

∑

= − = Ny k k kt x b 1 β

∑

= = y N k k t c 1 2 2 β

Inferência Bayesiana - Exemplo

]

Priori

p(

θ

)

:

α = 0.5

Inferência Bayesiana - Exemplo

(12)

Inferência Bayesiana - Exemplo

]

Modelo

y =

θ

MP

x

:

θMP= 1.56

ω0= 1.57

Inferência Bayesiana

Analiticamente Aproximação Gaussiana MCMC

Inferência Bayesiana

(

)

₍

₎

(

( )

θ

)

β

α

θ

S

Z

D

p

S

−

=

exp

,

1 |

(

θ

)

₍

_α

_β

_{) (}

β

E

α

E

θ

)

Z

D

p

_D S

−

=

exp

,

1 |

(

)

(

_{( )}

) ( )

D

p

D

p

D

p

θ

|

=

|

θ

⋅

θ

( )

θ

β

E

α

E

θ

S

=

D

+

Inferência Bayesiana

(

)

₍

₎

(

( )

θ

)

β

α

θ

S

Z

D

p

S

−

=

exp

,

1 |

Cálculo analítico é complicado!

Aproximação Gaussiana (Mackay)

Inferência Bayesiana

]

Aproximação Gaussiana

\ Primeiro passo: expansão em série de Taylor de S(θ)

em torno de um ponto qualquer θ :

\ Fazendo θ = θ∗_{= mínimo de S(}_θ₎ ^

( )

θ

=

( ) ( ) ( ) ( )

θ

+

θ

−

θ

∇

θ

+

θ

−

θ

ˆ ∇∇

( )( )

θ

ˆ

θ

−

θ

ˆ+K ! 2 1 ˆ ˆ ˆ _S _S S S T T ^

Inferência Bayesiana

]

Aproximação Gaussiana

\ Primeiro passo: expansão em série de Taylor de S(θ)

em torno de um ponto qualquer θ :

( )

θ

=

( ) ( ) ( ) ( )

θ

+

θ

−

θ

∇

θ

+

θ

−

θ

ˆ ∇∇

( )( )

θ

ˆ

θ

−

θ

ˆ +K ! 2 1 ˆ ˆ ˆ _S _S S S T T ^

(13)

Inferência Bayesiana

]

Aproximação Gaussiana

\ Primeiro passo: expansão em série de Taylor de S(θ) em torno de um ponto qualquer θ :

( )

θ

=

( ) ( ) ( ) ( )

θ

+

θ

−

θ

∇

θ

+

θ

−

θ

ˆ ∇∇

( )( )

θ

ˆ

θ

−

θ

ˆ+K ! 2 1 ˆ ˆ ˆ _S _S S S T T ^

( )

=

( ) (

* + − *

)

∇∇

( )(

* − *

)

+K ! 2 1

_θ

θ

S S S T

Inferência Bayesiana

]

Aproximação Gaussiana

\ Considerando somente a expansão linear:

( )

( ) (

* *

) (

*

)

! 2 1

_θ

θ

=S + − H − S T

( )

θ

* S H=∇∇ Matriz Hessiana

Inferência Bayesiana

]

Aproximação Gaussiana

( )

( ) (

* *

) (

*

)

! 2 1

_θ

θ

=S + − H − S T

( )

_θ

* S H=∇∇ Matriz Hessiana

( )

θ

β

E

α

E

θ

S

=

_D

+

H

=

β

∇∇

E

D

( )

θ

+

α

I

*

Inferência Bayesiana

]

Aproximação Gaussiana

( )

θ

=S

( )

θ

+ ∆

θ

H∆

θ

S T ! 2 1 * *

θ

= − ∆

Inferência Bayesiana

]

Aproximação Gaussiana

( )

θ

=S

( )

θ

+ ∆

θ

H∆

θ

S T ! 2 1 * *

θ

= − ∆

(

θ

D

)

=

₍

_α

_β

₎

⎨

⎧

−

S

( )

θ

−

∆

θ

H

∆

θ

⎫

⎬

p

|

1 exp

*

1

T

Inferência Bayesiana

]

Aproximação Gaussiana

(

)

_∫

( )

⎭

⎬

⎫

⎩

⎨

⎧

₋

_∆

=

θ

β

α

S

H

d

Z

T S

2

1 exp

,

* *

(14)

Inferência Bayesiana

]

Aproximação Gaussiana

(

)

_∫

( )

⎭

⎬

⎫

⎩

⎨

⎧

₋

_∆

=

θ

β

α

S

H

d

Z

T S

2

1 exp

,

* *

(

)

( )

2 1 2 *

2 ,

=

e

− *

H

−

Z

m N S S

α

β

π

θ

Cálculo analítico é fácil

Inferência Bayesiana

]

Aproximação Gaussiana

(

)

( )

_{( )}

⎭

⎬

⎫

⎩

⎨

⎧

₋

_∆

=

− − −

θ

π

θ

θ θ

H

e

D

p

T N S S m

₂

1 exp

2 |

2 1 2 * *

(

)

( )

⎭

⎬

⎫

⎩

⎨

⎧

₋

_∆

=

−

θ

π

θ

H

D

p

T Nm

₂

1 exp

2

1 |

2 1 2

Inferência Bayesiana

]

Aproximação Gaussiana

(

)

( )

(

) (

)

⎭

⎬

⎫

⎩

⎨

⎧

₋

=

− * * 2 1 2

2

1 exp

2

1 |

θ

π

θ

H

D

p

_N T m

Inferência Bayesiana

]

Aproximação Gaussiana

(

)

( )

(

) (

)

⎭

⎬

⎫

⎩

⎨

⎧

₋

=

− * * 2 1 2

2

1 exp

2

1 |

θ

π

θ

H

D

p

_N T m

( )

(

)

(

)

⎭

⎬

⎫

⎩

⎨

⎧

₋

_∑

₋

∑

=

_µ

−

_µ

π

x

p

T d 1 2 1 2

2

1 exp

2

1

Distribuição gaussiana multivariável em d dimensões;

µ: média

Σ: matriz de covariância

Inferência Bayesiana

]

Ou seja:

\ A distribuição a posteriori p(θ | D) tem a forma de uma gaussiana em Nm dimensões

\ θ∗ é a média da distribuição a posteriori

\ θ∗ é equivalente a θMP (máxima a posteriori)

\ θ_MPpode ser encontrado minimizando a função S(θ) por meio de algum processo de otimização não-linear:

[ Algoritmos Genéticos [ Gradiente descendente [ Levenberg-Marquardt

Redes Neurais Bayesianas

] Cálculo dos Hiper-parâmetros

\ Até o momento, considerou-se os hiper-parâmetros

α e βcomo constantes conhecidas.

\ a abordagem Bayesiana permite inferir os valores mais apropriados para estes hiper-parâmetros a partir dos dados de treinamento.

\ Tais valores devem maximizar a distribuição a

(15)

Redes Neurais Bayesianas

\ Pode-se escrever:

(

θ D

)

=

_∫∫

p

(

θα β D

)

dαdβ

p | , , |

Redes Neurais Bayesianas

\ Pode-se escrever:

(

θ D

)

=

_∫∫

p

(

θα β D

)

dαdβ

p | , , |

(

θ D

)

=

_∫∫

p

(

θ α β D

) (

pα β D

)

dαdβ

p | | , , , |

Redes Neurais Bayesianas

] Cálculo dos Hiper-parâmetros \ Pode-se escrever:

(

θ D

)

=

_∫∫

p

(

θα β D

)

dαdβ

p | , , |

(

θ D

)

=

_∫∫

p

(

θ α β D

) (

pα β D

)

dαdβ

p | | , , , |

Solução analítica muito difícil!

Redes Neurais Bayesianas

\ Solução aproximada (evidence approximation) – Mackay

(

θ D

) (

≅pθ α β D

)

_∫∫

p

(

α β D

)

dαdβ

p | | _MP, _MP, , |

Redes Neurais Bayesianas

(

θ D

) (

≅pθ α β D

)

_∫∫

p

(

α β D

)

dαdβ

p | | MP, MP, , |

=1

Redes Neurais Bayesianas

\ Onde αMP e βMP são os valores que maximizam a

distribuição a posteriori p(α,β | D)

\ p(α,β | D) é similar a p(θ | D), sendo dada por (Bayes):

(

D

) (

p D

)

pθ| ≅ θ|α_MP,β_MP,

(16)

Redes Neurais Bayesianas

] Cálculo dos Hiper-parâmetros \ Assim, deseja-se maximizar

\ p(D) → independe de α e β

\ p(α,β) → distribuição a priori dos hiper-parâmetros, supõe-se uniforme

\ Logo, maximizar p(α,β | D) equivale a maximizar p(D|α,β)

(

)

(

_{( )}

) (

)

D p p D p D pα,β| = |α,β⋅ α,β

Redes Neurais Bayesianas

\ Assim, deseja-se maximizar a verossimilhança dos hiper-parâmetros:

(

D|α,β

)

p

Redes Neurais Bayesianas

(

D|α,β

)

p

(

D α β

)

=

_∫

p

(

D θαβ

) (

pθ α β

)

dθ p | , | , , | ,

Redes Neurais Bayesianas

(

D|α,β

)

p

(

Dα β

)

=

_∫

p

(

Dθαβ

) (

pθ α β

)

dθ p | , | , , | , Independe de α

(

)

{

(

)

}

_⎟⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ =

∑

Redes Neurais Bayesianas

(

D|α,β

)

p

(

Dα β

)

=

_∫

p

(

D θ β

) (

pθ α β

)

dθ p | , | , | ,

Redes Neurais Bayesianas

(

D|α,β

)

p

(

Dα β

)

=

_∫

p

(

Dθ β

) (

pθ αβ

)

dθ p | , | , | , Independe de β

( )

_{( )}

⎟ ⎠ ⎞ ⎜ ⎝ ⎛− = 2 2 exp 1 α _θ α θ θ Z p

(17)

Redes Neurais Bayesianas

(

D αβ

)

=

_∫

p

(

Dθ β

) (

pθ α

)

dθ p | , | , |

Redes Neurais Bayesianas

\ Assim, deseja-se maximizar a verossimilhança dos hiper-parâmetros: \ Onde (já deduzido):

(

D α β

)

=

_∫

p

(

D θβ

) (

pθ α

)

dθ p | , | , | ( ) _{( ) (} D) D E Z D p β β β θ, = 1 exp− |

( )

₂ 2 y N D Z _⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ =

β

π

β

(

)

_{( ) (}

θ

)

θ α α α θ E Z p | = 1 exp−

( )

₂ 2 m N Z ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ =

α

π

α

θ

Redes Neurais Bayesianas

\ Logo, tem-se:

(

)

=

_∫

(

−

_{( )}

)

(

−

_{( )}

)

θ α α β β β α θ θ _d Z E Z E D p D D exp exp , |

( )

₂ 2 y N D Z _⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ =

β

π

β

( )

2 2 m N Z ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ =

α

π

α

θ

Redes Neurais Bayesianas

\ Logo, tem-se:

(

)

=

_∫

(

−

_{( )}

)

(

−

_{( )}

)

θ α α β β β α θ θ _d Z E Z E D p D D exp exp , |

( )

₂ 2 y N D Z _⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ =

β

π

β

( )

2 2 m N Z ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ =

α

π

α

θ Independem de θ !

Redes Neurais Bayesianas

\ Logo, tem-se:

(

)

=

_{( ) ( )}

_∫

(

−β −α

)

θ α β β α θ θ d E E Z Z D p D D exp 1 , |

Redes Neurais Bayesianas

\ Logo, tem-se:

(

)

=

_{( ) ( )}

_∫

(

−β −α

)

θ α β β α θ θ d E E Z Z D p D D exp 1 , | S(θ)

(18)

Redes Neurais Bayesianas

] Cálculo dos Hiper-parâmetros \ Logo, tem-se:

(

αβ

)

_{( ) ( )}

_β

(

αβ

)

_α θ Z Z Z D p D S , , | =

(

αβ

)

=

_∫

{

−S

( )

θ

}

dθ ZS , exp

Redes Neurais Bayesianas

(

αβ

)

_{( ) ( )}

_β

(

αβ_α

)

θ Z Z Z D p D S , , | =

(

αβ

)

=

_∫

{

−S

( )

θ

}

dθ ZS , exp

(

)

( )

_{( )}

₂1 2 *

2 ,

=

e

−

H

−

Z

MP m N S S

α

β

π

θ Aproximação Gaussiana:

( )

MP MP D MP

E

S

θ

=

β

+

α

θ

Redes Neurais Bayesianas

\ Finalmente:

(

αβ

)

_{( ) ( )}

_β

( )

π_α θ α β θ Z Z H e D p D N E EMP MP m D 2 1 2 2 , | − − − =

( )

₂ 2 y N D Z _⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ =

β

π

β

( )

2 2 m N Z ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ =

α

π

α

θ

Redes Neurais Bayesianas

\ Ou seja:

\ Agora, deseja-se maximizar p(D|α,β) em relação a α e β, ou seja, encontrar α e β tais que

(

)

( )

2 1 2 2 2 ₂ , | − − − − = e e H D p y MP D E y MP E m N N N π β α β α αθ β

(

| ,

)

₀ = ∂ ∂ α β α D p

(

)

0 , | ₌ ∂ ∂ β β α D p e

Redes Neurais Bayesianas

\ Ou seja:

\ Agora, deseja-se maximizar p(D|α,β) em relação a α e β, ou seja, encontrar α e β tais que

\ O que é equivalente a:

(

)

0 , | ₌ ∂ ∂ α β α D p

(

| ,

)

₌₀ ∂ ∂ β β α D p e

(

| ,

)

₀ ln ₌ ∂ ∂ α β α D p

(

)

0 , | ln ₌ ∂ ∂ β β α D p e

(

)

( )

2 1 2 2 2 ₂ , | − − − − = e e H D p y MP D E y MP E m N N N π β α β α αθ β

Redes Neurais Bayesianas

\ Inicialmente, calcula-se:

(

D

)

N E N E N

( )

H p MP y D y MP m _ln 2 1 2 ln 2 ln 2 ln 2 , | ln αβ = α−α θ + β−β − π −

(19)

Redes Neurais Bayesianas

] Cálculo dos Hiper-parâmetros \ Agora, tem-se:

(

)

ln ₀ 2 1 2 , | ln = − − = ∂ ∂ α α α β α θ d H d E N D p m MP

Redes Neurais Bayesianas

] Cálculo dos Hiper-parâmetros \ Agora, tem-se:

(

)

ln ₀ 2 1 2 , | ln = − − = ∂ ∂ α α α β α θ d H d E N D p m MP α α θ d H d N EMP m ln 2 1 2 − = α θ α _α d H d N E m MP ln 2 = −

Redes Neurais Bayesianas

\ Matriz Hessiana:

\ Pode-se mostrar que:

∑

= + =Nm i i d H d 1 1 ln α λ α λi : autovalores da matriz G

( )

I G I E H=β∇∇ Dθ +α =β +α *

Redes Neurais Bayesianas

\ Logo, tem-se:

∑

= = + = + − = m Nm i i i N i i m MP _N E 1 1 2 α λ λ α λ α α θ MP MP Eθ γ α 2 =

_∑

= + =Nm i i i 1λ α λ γ

Redes Neurais Bayesianas

\ Agora para β:

(

)

ln ₀ 2 1 2 , | ln ₌ ₋ ₋ ₌ ∂ ∂ β β β β α d H d E N D p MP D y β β d H d N EMP y D ln 2 1 2 − = β β _β d H d N E y MP D ln 2 = −

Redes Neurais Bayesianas

\ Agora para β:

(

)

ln ₀ 2 1 2 , | ln ₌ ₋ ₋ ₌ ∂ ∂ β β β β α d H d E N D p MP D y β β d H d N EMP y D ln 2 1 2 − = β β _β d H d N E y MP D ln 2 = − λ

(20)

Redes Neurais Bayesianas

∑

= + − = Nm i i i y MP D N E 1 2 α λ λ β MP D y MP E N 2 γ β = −

∑

= + =Nm i i i 1λ α λ γ

Inferência Bayesiana - Exemplo

]

No exemplo:

\

Modelo y = θ

₁

x

N

m

= 1

θ = {θ

1

}

( )

_∑

{

}

= − = Ny k k k D x t E 1 2 1 2 1

_θ

θ

( )

_θ

* D E G=∇∇

∑

= =Ny k k x G 1 2

∑

= =Ny k k x 1 2 1

λ

γ _λλ_α + = 1 1

( )

2 2 1

θ

θ = E

Inferência Bayesiana - Exemplo

]

No exemplo:

\

Agora,

não é necessário

definir precisamente os

valores de

α

e

β

\

Define-se inicialmente:

[ α0 = 1

[ β0 = 1

\

E aplica-se iterativamente os passos abaixo:

[ Inferir θMP a partir de p(θ | D)

[ Inferir αMP e βMP a partir de p(α,β | D)

Inferência Bayesiana - Exemplo

]

Priori

p(

θ

)

:

α = 1.0

Inferência Bayesiana - Exemplo

]

Posteriori

p(

θ

| D)

:

θMP= 1.24

ω0= 1.57

Inferência Bayesiana - Exemplo

]

Modelo

y =

θ

MP

x

:

θMP= 1.24

(21)

Inferência Bayesiana - Exemplo

]

Inferência dos hiper-parâmetros:

∑

= = =Ny k k x 1 2 1 3.85

λ

0.79 0 . 1 1 1 1 1 ₌ + = + =_λλ_α _λλ γ 52 . 0 2 = = MP MP Eθ γ α ₂₀_.₀₁ 2 = − = MP D y MP E N γ β 77 . 0 = MP Eθ =0.26 MP D E

Inferência Bayesiana - Exemplo

]

Posteriori

p(

θ

| D)

:

θMP= 1.55

ω0= 1.57

Inferência Bayesiana - Exemplo

]

Modelo

y =

θ

_MP

x

:

θMP= 1.55

ω0= 1.57

Inferência Bayesiana - Exemplo

]

Inferência dos hiper-parâmetros:

∑

= = = y N k k x 1 2 1 3.85

λ

0.88 52 . 0 1 1 1 1 = + = + = λ λ α λ λ γ 37 . 0 2 = = MP MP Eθ γ α ₈₉_.₈₅ 2 = − = MP D y MP E N γ β 20 . 1 = MP Eθ =0.056 MP D E

Inferência Bayesiana - Exemplo

]

Posteriori

p(

θ

| D)

:

θMP= 1.56

ω0= 1.57

Inferência Bayesiana - Exemplo

]

Modelo

y =

θ

MP

x

:

θMP= 1.56

(22)

Redes Neurais Bayesianas

] Função Densidade de Probabilidade da Saída \ O treinamento Bayesiano baseia-se na função densidade de

probabilidade dos parâmetros do modelo.

\ Para uma nova entrada, a saída do modelo também é descrita por uma f.d.p. definida por:

(

t xD

)

=

_∫

p

(

t xθ

) (

pθ D

)

dθ

p | , | , |

Redes Neurais Bayesianas

] Função Densidade de Probabilidade da Saída \ O treinamento Bayesiano baseia-se na função densidade de

probabilidade dos parâmetros do modelo.

\ Para uma nova entrada, a saída do modelo também é descrita por uma f.d.p. definida por:

(

t xD

)

=

_∫

p

(

t xθ

) (

pθ D

)

dθ p | , | , |

(

)

(

( )

)

⎟ ⎠ ⎞ ⎜ ⎝ ⎛₋ ₋ ∝ 2 , 2 exp , |xθ β t yxθ t p

(

)

⎭ ⎬ ⎫ ⎩ ⎨ ⎧₋ _∆ _∆ ∝ θ θ θ D H p T 2 1 exp | MP θ θ θ= − ∆

Redes Neurais Bayesianas

] Função Densidade de Probabilidade da Saída

\ Então fica:

\ Mas y(x,θ ) pode ser aproximada pela expansão de Taylor:

(

)

_∫

⎡⎢_⎣

(

( )

)

_⎩⎨⎧− ∆ ∆ _⎭⎬⎫⎥_⎦⎤ ⎭ ⎬ ⎫ ⎩ ⎨ ⎧₋ ₋ ∝ β t yxθ θ H θ dθ D x t p T 2 1 exp , 2 exp , | 2

( ) (

x yx

)

g w y T MP + ∆ = θ θ , , MP y g=∇_θ _θ

Redes Neurais Bayesianas

\ Então fica:

(

)

_∫

⎢_⎣⎡

(

)

_⎩⎨⎧− ∆ ∆ _⎭⎬⎫_⎦⎤⎥ ⎭ ⎬ ⎫ ⎩ ⎨ ⎧₋ ₋ ₋ _∆ ∝ β t y g θ θ H θ dθ D x t p T T MP 2 1 exp 2 exp , | 2

(

MP

)

MP yx y = ,θ

Redes Neurais Bayesianas

\ Então fica:

\ Calculando esta integral, vem:

(

)

_∫

(

)

_⎥ ⎦ ⎤ ⎢ ⎣ ⎡ ⎭ ⎬ ⎫ ⎩ ⎨ ⎧₋ _∆ _∆ ⎭ ⎬ ⎫ ⎩ ⎨ ⎧₋ ₋ ₋ _∆ ∝ β t y g θ θ H θ dθ D x t p T T MP 2 1 exp 2 exp , | 2

(

MP

)

MP yx y = ,θ

(

)

(

)

⎭ ⎬ ⎫ ⎩ ⎨ ⎧₋ − = 2 2 2 exp 2 1 , | t MP t y t D x t p σ πσ g H gT t 1 1₊ − = β σ

Inferência Bayesiana - Exemplo

]

No exemplo:

\

Modelo y = θ

₁

x

N

m

= 1

θ = {θ

1

}

( )

_∑

{

}

= − = Ny k k k D x t E 1 2 1 2 1

_θ

θ

∑

= + = Ny k k x H 1 2

_α

β

( )

I

E

H

=

β

∇∇

D

θ

+

α

∑

= + + = y N k k t x x 1 2 2 2 1

α

β

σ

x y g MP= ∇ = θ θ