Redes Neurais

(1)

Prof. Paulo Martins Engel

Processamento Temporal por Redes Recorrentes Dirigidas Dinamicamente

Informática

UFRGS Prof. Paulo Martins Engel

Redes Recorrentes Dirigidas Dinamicamente

• Consideraremos redes (MLP) recorrentes com realimentação de natureza global, podendo ser da camada de saída para a camada de entrada, ou dos neurônios ocultos da rede.

• Quando o MLP tem várias camadas ocultas, as possibilidades de realimentação são mais variadas.

• A rede recorrente responde temporariamente ao sinal de entrada, sendo a saída da rede dirigida dinamicamente por ele.

• A aplicação de realimentação permite que as redes recorrentes adquiram representações do estado.

• O uso de realimentação tem o potencial de reduzir

significativamente as exigências de memória, quando comparado

com as redes sem realimentação dirigidas dinamicamente.

(2)

3

Arquiteturas de Redes Recorrentes

• A arquitetura de uma rede recorrente pode assumir muitas formas diferentes, mas elas compartilham características comuns:

– Todas incorporam um MLP estático, ou partes dele.

– Todas exploram a capacidade de mapeamento não-linear do MLP.

• Exemplos de modelos de redes recorrentes:

– Modelo Recorrente de Entrada-Saída – Modelo de Espaço de Estados

– MLP Recorrente

– Rede de Segunda Ordem

Informática

Modelo Recorrente de Entrada-Saída

• A arquitetura genérica de uma rede recorrente de entrada-saída é formada por um MLP com realimentação de sua saída para a entrada através de uma linha de atraso com q unidades.

• O modelo tem uma única entrada que é aplicada também a uma memória de linha de atraso com q unidades.

• O conteúdo das memórias é utilizado para alimentar a camada de entrada do MLP.

• O valor presente da entrada é u(n) e o valor da saída, y(n + 1), está adiantado (uma unidade de tempo) em relação à entrada.

• Entradas exógenas: u(n), u(n – 1), ... u(n – q + 1)

• Valores atrasados da saída: y(n), y(n–1), y(n – q + 1), sobre os

quais é feita a regressão da saída do modelo, y(n + 1).

(3)

5

Modelo Auto-regressivo Não-linear com Entradas Exógenas NARX

MLP

z^–1 z^–1

y(n–1) y(n)

y(n+1)

z^–1 u(n)

u(n–1) z^–1

u(n–2) z^–1

u(n–q+2) z^–1



u(n–q+1) y(n–q+1)

y(n–q+2)



Informática

Modelo Recorrente de Entrada-Saída: NARX

• Quando os sistemas são pouco entendidos se aplica a representação de

entrada-saída, como o modelo NARX (nonlinear auto-regressive with exogenous input)

• Considerando um sistema SISO, o modelo NARX estabelece uma relação entre a coleção de dados de entrada-saída passadas e a saída prevista:

y(n+1) = F

(

y(n), ..., y(k–q+1), u(n) ... u(n–q+1)

)

• Exemplo de modelo NARX de segunda ordem:

y(n+1) = F

(

y(n), y(n–1), u(n), u(n–1)

)

























) ( ) 2 ( ) 4 ( ) 3 (

) 2 ( ) ( ) 2 ( ) 1 (

) 1 ( ) 1 ( ) 3 ( ) 2 (

) 2 ( ) ( ) 2 ( ) 1 (

) 1 ( ) 1 ( ) 3 ( ) 2 (

N y k

y y y

N u k u u

u

N u k

u u u

N y k y y

y

N y k

y y y

z

Matriz dos vetores de regressão e regressando

F()

u(n)

u(n–1) z^–1

z^–1

y(n–1) y(n)

) 1 (n y

(4)

7

Modelo NARX de entrada-saída para regressão

• Na prática, o modelo NARX, como adotado na literatura de regressão, não é um modelo recursivo, pois não há acoplamento entre a saída prevista e a entrada; são as saídas do sistema real que servem de entrada para o modelo.

• Neste caso, não há realimentação dos erros de previsão nas entradas da rede e o ajuste dos pesos segue o chamado aprendizado por imposição do professor.

• Exemplo de modelo NARX de segunda ordem:

ŷ(n+1) = F

(

y(n), y(n–1), u(n), u(n–1)

)

F()

u(n)

u(n–1) z^–1

z^–1

y(n–1) y(n)

Sistema

^y(n+1)

) 1 ˆ(n y u(n)

Informática

Modelo Regressivo

• O modelo regressivo correspondente à arquitetura NARX de redes recorrentes, corresponde na literatura de regressão ao modelo NOE (Nonlinear Output Error).

• O modelo NOE inclui predições passadas em vez de saídas medidas.

ŷ(n+1) = F ( ŷ(n), ..., ŷ(n–n

_y

+1), u(n) ... u(n–n

_u

+1) )

F()

u(n)

z^–1 ŷ(n)

Sistema

^y(n+1)

) 1 ˆ(n y u(n)

(5)

9

Modelagem por espaço de estados

• Modelos de espaço de estados usam uma função de transição de estado que mapeia o estado atual e a entrada atual do sistema dinâmico para uma transição do estado (o estado no próximo instante de amostragem).

• A função de transição de estado é um mapeamento estático que pode ser representado por exemplo, por:

x(n+1) = Ax(n) + Bu(n) y(n) = Cx(n)

onde x(n) é o estado do sistema, u(n) é a entrada, A, B, Csão matrizes de dimensão adequada.

• A representação por espaço de estados é apropriada quando o conhecimento a priori disponível permite determinar a estrutura do sistema e identificar as variáveis de estado.

• A vantagem é que a estrutura do modelo pode ser relacionada com a estrutura do sistema real e os parâmetros normalmente são fisicamente relevantes.

Informática

x(n+1) = Ax(n) + Bu(n) y(n) = Cx(n)

A,B e Csão matrizes de dimensões adequadas

Modelo de Espaço de Estados (linear)

A

u(n)

z^–1 z^–1

u(n)

Sistema

^y(n+1)

) 1 ˆ(n x₂(n) y

C x₁(n)

x₁(n+1) x₂(n+1) B



Modelo

(6)

11

x(n+1) = F

(

x(n), u(n)

)

y(n) = Cx(n)

• Fé um mapeamento não-linear e Cuma matriz de dimensões adequadas

• Tem um banco de atrasos unitários na saída

Modelo de Espaço de Estados (não-linear)

F() z^–1 z^–1

u(n)

x₂(n) C

x₁(n)

x₁(n+1)

x₂(n+1) z^–1

) 1 (n y

) (n y

Informática

x(n+1) = F

(

x(n), u(n)

)

y(n) = G(x(n))

• Fé um mapeamento não-linear e Gpode ser um mapeamento não-linear

• Não tem o banco de atrasos unitários na saída

Rede de Elman: Rede Recorrente Simples (RRS)

F() z^–1 z^–1

u(n)

) 1 (n

x₂(n) G y

x₁(n)

x₁(n+1) x₂(n+1)

(7)

13

x_I(n+1) = φ_I

(

x_I(n), u(n)

)

x_II(n+1) = φ_II

(

x_II(n), x_I(n+1)

)

:

x_o(n+1) = φ_o

(

x_o(n), x_K(n+1)

)

RMLP: Perceptron de Múltiplas Camadas Recorrente

CO I z^–1I

u(n)

x_I(n) x_II(n)

x_I(n+1)

CO II z^–1I

x_II(n+1) x_o(n)

CS z^–1I

x_o(n+1) vetor de

saída vetor de

entrada

Informática

• Considere uma rede recorrente com uma única entrada e única saída, cujo comportamento é descrito pelas equações:

x(n+1) = 

(w

_ax(n) +

w

_bu(n)

)

y(n) = c^Tx(n)

• Pode-se mostrar que a saída y(n + q) pode ser expressa por:

y(n+q) = 

(

x(n), u_q(n)

)

onde u_q(n) = [u(n), u(n+ 1),..., u(n+ q – 1)]^Te : R^2qR e qé a dimensionalidade do espaço de estados.

• Desde que a rede recorrente seja observável(o estado da rede pode ser determinado por um conjunto de medidas de entrada-saída), pode-se mostrar que a equação de saída pode ser reescrita na forma:

y(n+1) = F

(

y(n), ..., y(k–q+1), u(n) ... u(n–q+1)

)

Equivalência de Modelos

(8)

15

Rede NARX

• Como conseqüência da equivalência de modelos, mostra-se que o modelo NARX é capaz de simular o comportamento o modelo de espaço de estados, para uma rede recorrente observável:

y(n+1) = F(y(n), y(n–1), u(n), u(n–1), bias)

Saída u(n)

Entrada

z⁻¹

u(n−1)

bias y(n−1)

y(n)

1

2

3 i₁(n)

z⁻¹

y(n+1)

y(n) w₁₁

w₁₂ w₁₃

w₁₅ w₁₄

w₂₁ w₂₂

w₂₅ w₂₄

w₂₃ i₂(n)

Informática

Rede recorrente equivalente

u(n)

z⁻¹ z⁻¹

1

2

3

y(n+1) w₁₁

w₁₂

w₁₃ w₂₁ w₂₂

w₂₃

w₃₁

w₃₂ b₃ b₁

b₂

x₂(n+1) x₁(n+1) x₁(n)

x₂(n)

z⁻¹ y(n)

Dimensionalidade do espaço de estados: q= 2

(9)

17

“Finding Structure in Time”

Jeffrey L. Elman, Cognitive Science, 14, 179-211 (1990)

• Está interessado na preservação da estrutura temporal relativado padrão:

[011100000] [000111000]

• Na representação relativa, estes dois vetores devem ser reconhecidos como instâncias do mesmo padrão (temporal).

• Na representação absoluta (paralela), eles são espacialmente distantes e portanto, são tratados como dissimilares.

• Problema relacionado: XOR seqüencial: o sistema de aprendizagem deve reconhecer uma seqüência (unidimensional) de bits.

• A seqüência é formada por pares de bits seguidos pelo valor do XOR correspondente.

RN

entrada saída

101000011110101...

01000011110101?..

entrada:

saída:

Informática

Exemplo de uma rede de Elman

u(n)

z⁻¹ z⁻¹

1

2

3

y(n+1) w₁₁

w₁₂

w₁₃ w₂₁ w₂₂

w₂₃

w₃₁

w₃₂ b₃ b₁

b₂

x₂(n+1) x₁(n+1) x₁(n)

x₂(n)

(10)

19

Resultados obtidos com a rede de Elman

Erro inicial

Erro final

Informática

Identificação de estrutura em seqüências de letras Geração de seqüência de letras

• Geração aleatória de uma seqüência de 1000 consoantes (b, d, g)

• Aplicação das regras de transformação:

b ba d dii g guuu

Erro de predição da próxima letra Codificação das letras

(11)

21

Algoritmos de treinamento para redes recorrentes

Para redes estáticas

• Modo por lote: a sensibilidade da rede é calculada para o conjunto inteiro de treinamento antes de ajustar os parâmetros da rede.

• Modo seqüencial: os ajustes de parâmetros são feitos após a apresentação de cada padrão do conjunto de treinamento.

Para redes recorrentes

• Treinamento por época: para uma dada época, a rede inicia a execução de algum estado inicial até alcançar um novo estado em que o treinamento é parado e a rede é reinicializada em um estado inicial para a próxima época.

• O estado inicial não precisa ser o mesmo para cada época.

• Época corresponde a um padrão temporal de treinamento.

• Treinamento contínuo: não há reinicialização de estados. A rede aprende enquanto realiza o processamento.

• BPTT: baseado no algoritmo BP

• ARTR: utiliza uma estimativa instantânea do gradiente da função de custo.

Informática

BPTT: Backpropagation Through Time

• É uma extensão do algoritmo BP padrão.

• Desdobra a operação temporal da rede numa rede em camadas, cuja topologia é acrescida de uma camada a cada passo de tempo.

• Cada passo de tempo tem uma camada contendo k neurônios que representam uma rede recorrente.

• Os pesos em cada camada são os mesmos: cópias.

• Existem duas versões do algoritmo: por época ou contínuo.

(12)

23

Exemplo

• Uma rede recorrente completa treinada por BPTT.

• Considere o seu desdobramento em 3 passos de tempo.

u(n)

z⁻¹ z⁻¹

1

2

3

y(n+1) w₁₁

w₁₂

w₁₃ w₂₁ w₂₂

w₂₃

w₃₁

w₃₂ b₃ b₁

b₂

x₂(n+1) x₁(n+1) x₁(n)

x₂(n)

Informática

Exemplo

• Rede recorrente desdobrada no tempo.

u(1) x₂(1) x₁(1)

1

2

3

x₁(2)

y(2)

w₁₁ w₁₂

w₁₃

w₂₁ w₂₂

w₂₃

x₂(2)

w₃₁ w₃₂ b₃

b₁

b₂

1

2

3

x₁(3)

y(3)

w₁₁ w₁₂

w₁₃

w₂₁ w₂₂

w₂₃

x₂(3)

w₃₁ w₃₂ b₃

b₁

b₂

u(2)

1

2

3

x₁(4)

y(4)

w₁₁ w₁₂

w₁₃

w₂₁ w₂₂

w₂₃

x₂(4)

w₃₁ w₃₂ b₃

b₁

b₂

u(3)

(13)

25

Retropropagação Através do Tempo (BPTT)

• BPTT por época: conjunto de dados de treinamento é particionado em épocas independentes.

• Cada época representa um padrão temporal de interesse.

• n₀e n₁são os tempos inicial e final de uma época.

• Para uma época podemos definir a função de custo:

com e_j(n) = d_j(n) –y_j(n)



 



¹

0

) 2 (

) 1 ,

(

₀ ₁ ²

n n n j A

j

total

n n e n

E

• Aé o conjunto de índices jdos neurônios para os quais as saídas desejadas são especificadas

• Calcula-se as derivadas parciais de E_total(n₀, n₁) em relação aos pesos da rede.

Informática

Algoritmo BPTT

• Executa-se um passo único para frente dos dados através da rede para o intervalo (n₀, n₁).

• Armazena-se o registro completo dos dados de entrada, pesos e respostas desejadas para este intervalo.

• Realiza-se um único passo para trás sobre este registro passado, para calcular os valores dos gradientes locais:

para todo jAe n₀< n n₁.

No caso de não haver camada de saída, temos ) (

) , ) (

( ⁰ ¹

n v

n n n E

j total

j 



 









 



 



  





 0 1

1

para )

1 ( )

( )) ( ( '

para )

( )) ( ( ' )

( v n e n w n n n n

n n n

e n v n

A k

k jk j

j

j j

j  





(14)

27

Algoritmo BPTT com camada de saída

• No caso de haver camada de saída, o erro e_j(n) deve ser substituído pela soma dos termos de erro retropropagados da camada de saída.

• Os gradientes locais da camada de saída são calculados como no algoritmo BP convencional:

• Nas camadas ocultas, os gradientes locais também recebem as somas dos gradientes da camada de saída, para todo jAe n₀< nn₁, com

 

 





 



 



  



  



 0 1

1

para )

1 ( )

( ))

( ( '

para )

( ))

( ( ' )

( v n n w w n n n n

n n w

n n

v n

A k

o k o jk s

lj l

s l j

s lj l

s l j

o

j

  







erro no futuro erro atual

) ( )) ( ) (

( ) , ) (

( ⁰ ¹ v n e n

n v

n n

n E _j _j

j total s

j   





 



Informática

Exemplo

u(1), u(2), u(3) d(2), d(3), d(4)

u(1) x₂(1) x₁(1)

1

2

3

x₁(2)

y(2)

w₁₁ w₁₂

w₁₃

w₂₁ w₂₂

w₂₃

x₂(2)

w₃₁ w₃₂ b₃

b₁

b₂

1

2

3

x₁(3)

y(3)

w₁₁ w₁₂

w₁₃

w₂₁ w₂₂

w₂₃

x₂(3)

w₃₁ w₃₂ b₃

b₁

b₂

u(2)

1

2

3

x₁(4)

y(4)

w₁₁ w₁₂

w₁₃

w₂₁ w₂₂

w₂₃

x₂(4)

w₃₁ w₃₂ b₃

b₁

b₂

u(3)

n= 1 n= 2 n= 3 n= 4

^s(4)

^s(3)

^s(2)

^o₁(4)

^o₂(4)

^o₂(3)

^o₁(3)

^o₁(2)

^o₂(2)

d(3) d(4) d(2)

(15)

29

Algoritmo BPTT

• Calcula-se repetidamente _j(n) começando no tempo n₁e trabalhando para trás, passo a passo, até o tempo n₀.

• Após a retropropagação chegar ao tempo n₀+1 ajustam-se os pesos.

onde é a taxa de aprendizagem e x_i(n– 1) é a entrada aplicada a i-ésima sinapse do neurônio jno tempo n – 1.

• Note que as respostas desejadas são especificadas para os neurônios em várias camadas da rede porque a camada de saída real é replicada muitas vezes.

ji total

ji

w

n n w E



 



  (

₀

,

₁

)











¹

0 1

) 1 ( ) (

n n n

i j

n x n





Informática

Algoritmo BPTT

• Considerando-se a rede desdobrada

• Padrão temporal de treinamento (época): u(1), u(2), u(3); d(2), d(3), d(4)



⁽²⁾ ⁽³⁾ ⁽⁴⁾



2 ) 1 4 , 2

( e² e² e²

E_total   

com e²(n) = [d(n) –y(n)]²

• Propagação: propagar o padrão temporal de treinamento.

• Considerando x₁(1) = 0, x₂(1) = 0

v₁(2) = u(1) w₁₃+ b₁ → x₁(2) = tanh(v₁(2)) v₂(2) = u(1) w₂₃+ b₂ → x₂(2) = tanh(v₂(2))

y(2) = x₁(2) w₃₁+ x₂(2) w₃₂+ b₃

v₁(3) = x₁(2) w₁₁+ x₂(2) w₁₂+ u(2) w₁₃+ b₁ → x₁(3) = tanh(v₁(3)) v₂(3) = x₁(2) w₂₁+ x₂(2) w₂₂+ u(2) w₂₃+ b₂ → x₂(3) = tanh(v₂(3))

y(3) = x (3) w + x (3) w + b

(16)

31

Fase de propagação

u(1), u(2), u(3) d(2), d(3), d(4)

u(1) x₂(1) x₁(1)

1

2

3

x₁(2)

y(2)

w₁₁ w₁₂

w₁₃

w₂₁ w₂₂

w₂₃

x₂(2)

w₃₁ w₃₂ b₃

b₁

b₂

1

2

3

x₁(3)

y(3)

w₁₁ w₁₂

w₁₃

w₂₁ w₂₂

w₂₃

x₂(3)

w₃₁ w₃₂ b₃

b₁

b₂

u(2)

1

2

3

x₁(4)

y(4)

w₁₁ w₁₂

w₁₃

w₂₁ w₂₂

w₂₃

x₂(4)

w₃₁ w₃₂ b₃

b₁

b₂

u(3)

n= 1 n= 2 n= 3 n= 4

d(3) d(4) d(2)

Informática

Algoritmo BPTT

Retropropagação: cálculo dos gradientes locais.

• Na camada de saída:

v₁(4) = x₁(3) w₁₁+ x₂(3) w₁₂+ u(3) w₁₃+ b₁ → x₁(4) = tanh(v₁(4)) v₂(4) = x₁(3) w₂₁+ x₂(3) w₂₂+ u(3) w₂₃+ b₂ → x₂(4) = tanh(v₂(4)) y(4) = x₁(4) w₃₁+ x₂(4) w₃₂+ b₃

e(2) = d(2) –y(2), e(3) = d(3) –y(3), e(4) = d(4) –y(4)

) ( )) ( ) (

( ) , ) (

( ⁰ ¹ v n e n

n v

n n

n E _j _j

j total

j   





 





¹ ⁽ ⁽⁴⁾⁾



⁽⁴⁾

) 4

( y ² e

s   





¹ ⁽ ⁽³⁾⁾



⁽³⁾

) 3

( y ² e

s   





¹ ⁽ ⁽²⁾⁾



⁽²⁾

) 2

( y ² e

s   



Estas parcelas são incluídas na camada oculta

(17)

33

Gradientes locais na camada de saída

u(1) x₂(1) x₁(1)

1

2

3

x₁(2)

y(2)

w₁₁ w₁₂

w₁₃

w₂₁ w₂₂

w₂₃

x₂(2)

w₃₁ w₃₂ b₃

b₁

b₂

1

2

3

x₁(3)

y(3)

w₁₁ w₁₂

w₁₃

w₂₁ w₂₂

w₂₃

x₂(3)

w₃₁ w₃₂ b₃

b₁

b₂

u(2)

1

2

3

x₁(4)

y(4)

w₁₁ w₁₂

w₁₃

w₂₁ w₂₂

w₂₃

x₂(4)

w₃₁ w₃₂ b₃

b₁

b₂

u(3)

n= 1 n= 2 n= 3 n= 4

^s(4)

^s(3)

^s(2)

^o₁(4)

^o₂(4)

^o₂(3)

^o₁(3)

^o₁(2)

^o₂(2)

d(3) d(4) d(2)



¹ ⁽ ⁽⁴⁾⁾



⁽⁴⁾

) 4

( y ² e

s   



¹ ⁽ ⁽³⁾⁾



⁽³⁾  )

3

( y ² e

s   



¹ ⁽ ⁽²⁾⁾



⁽²⁾  )

2

( y ² e

s   



Informática

Algoritmo BPTT

• Na camada oculta:



 



  

 

 





 

A k

o k o jk l

s l s lj j

j total o

j v n w n w n

n v

n n

n E ( ( )) ( ) ( 1)

) (

) , ) (

( ⁰ ¹   





¹ ⁽ ⁽⁴⁾⁾

 

⁽⁴⁾



) 4

( ₁ ² ₃₁

1

s

o x w 

   



¹ ⁽ ⁽⁴⁾⁾

 

⁽⁴⁾



) 4

( ₂ ² ₃₂

2o x w s

   



¹ ⁽ ⁽³⁾⁾

 

⁽³⁾ ⁽⁴⁾ ⁽⁴⁾



) 3

( ₁ ² ₃₁ ₁₁ ₁ ₂₁ ₂

1

o o

s

o x w  w  w 

     



¹ ⁽ ⁽³⁾⁾

 

⁽³⁾ ⁽⁴⁾ ⁽⁴⁾



) 3

( ₂ ² ₃₂ ₁₂ ₁ ₂₂ ₂

2

o o

s

o x w  w  w 

     



¹ ⁽ ⁽²⁾⁾

 

⁽²⁾ ⁽³⁾ ⁽³⁾



) 2

( ₁ ² ₃₁ ₁₁ ₁ ₂₁ ₂

1

o o

s

o x w  w  w 

     



¹ ⁽ ⁽²⁾⁾

 

⁽²⁾ ⁽³⁾ ⁽³⁾



) 2

( ₂ ² ₃₂ ₁₂ ₁ ₂₂ ₂

2

o o

s

o x w  w  w 

     

n = n₁

n₀< n < n₁

(18)

35

u(1) x₂(1) x₁(1)

1

2

3

x₁(2)

y(2)

w₁₁ w₁₂

w₁₃

w₂₁ w₂₂

w₂₃

x₂(2)

w₃₁ w₃₂ b₃

b₁

b₂

1

2

3

x₁(3)

y(3)

w₁₁ w₁₂

w₁₃

w₂₁ w₂₂

w₂₃

x₂(3)

w₃₁ w₃₂ b₃

b₁

b₂

u(2)

1

2

3

x₁(4)

y(4)

w₁₁ w₁₂

w₁₃

w₂₁ w₂₂

w₂₃

x₂(4)

w₃₁ w₃₂ b₃

b₁

b₂

u(3)

n= 1 n= 2 n= 3 n= 4

^s(4)

^s(3)

^s(2)

^o₁(4)

^o₂(4)

^o₂(3)

^o₁(3)

^o₁(2)

^o₂(2)

d(3) d(4) d(2)

Exemplo de cálculo de gradiente local na camada oculta: n = n

₁



¹ ⁽ ⁽⁴⁾⁾

 

⁽⁴⁾



) 4

( ₁ ² ₃₁

1o x w s

   

n =n₁= 4

Informática

Exemplo de cálculo de gradiente local na camada oculta: n < n

₁

u(1) x₂(1) x₁(1)

1

2

3

x₁(2)

y(2)

w₁₁ w₁₂

w₁₃

w₂₁ w₂₂

w₂₃

x₂(2)

w₃₁ w₃₂ b₃

b₁

b₂

1

2

3

x₁(3)

y(3)

w₁₁ w₁₂

w₁₃

w₂₁ w₂₂

w₂₃

x₂(3)

w₃₁ w₃₂ b₃

b₁

b₂

u(2)

1

2

3

x₁(4)

y(4)

w₁₁ w₁₂

w₁₃

w₂₁ w₂₂

w₂₃

x₂(4)

w₃₁ w₃₂ b₃

b₁

b₂

u(3)

n= 1 n= 2 n= 3 n= 4

^s(4)

^s(3)

^s(2)

^o₁(4)

^o₂(4)

^o₂(3)

^o₁(3)

^o₁(2)

^o₂(2)

d(4) d(2) d(3)



¹ ⁽ ⁽³⁾⁾

 

⁽³⁾ ⁽⁴⁾ ⁽⁴⁾



) 3

( ₁ ² ₃₁ ₁₁ ₁ ₂₁ ₂

1

o o

s

o x w



w



w



    

n= 3

(19)

37

Exemplo de cálculo de gradiente local na camada oculta: n < n

₁

u(1) x₂(1) x₁(1)

1

2

3

x₁(2)

y(2)

w₁₁ w₁₂

w₁₃

w₂₁ w₂₂

w₂₃

x₂(2)

w₃₁ w₃₂ b₃

b₁

b₂

1

2

3

x₁(3)

y(3)

w₁₁ w₁₂

w₁₃

w₂₁ w₂₂

w₂₃

x₂(3)

w₃₁ w₃₂ b₃

b₁

b₂

u(2)

1

2

3

x₁(4)

y(4)

w₁₁ w₁₂

w₁₃

w₂₁ w₂₂

w₂₃

x₂(4)

w₃₁ w₃₂ b₃

b₁

b₂

u(3)

n= 1 n= 2 n= 3 n= 4

^s(4)

^s(3)

^s(2)

^o₁(4)

^o₂(4)

^o₂(3)

^o₁(3)

^o₁(2)

^o₂(2)

d(3) d(4) d(2)



¹ ⁽ ⁽²⁾⁾

 

⁽²⁾ ⁽³⁾ ⁽³⁾



) 2

( ₁ ² ₃₁ ₁₁ ₁ ₂₁ ₂

1

o o

s

o x w



w



w



    

n= 2

Informática

Ajuste dos pesos: 











¹

0 1

) 1 ( ) (

n n n

i j

ji

n x n

w  



⁽⁴⁾ 1⁽⁴⁾ ⁽³⁾ 1⁽³⁾ ⁽²⁾ 1⁽²⁾



31 x x x

w  ^s   ^s   ^s 

   



⁽⁴⁾ 2⁽⁴⁾ ⁽³⁾ 2⁽³⁾ ⁽²⁾ 2⁽²⁾



32 x x x

w  ^s   ^s   ^s 

   



⁽⁴⁾ ⁽³⁾ ⁽²⁾



3

s s

b s  





1 ⁽⁴⁾ 1⁽³⁾ 1⁽³⁾ 1⁽²⁾ 1⁽²⁾ 1⁽¹⁾



11 x x x

w  ô   ô   ô 

   



1⁽⁴⁾ 2⁽³⁾ 1⁽³⁾ 2⁽²⁾ 1⁽²⁾ 2⁽¹⁾



12 x x x

w  ô   ô   ô 

   



1⁽⁴⁾ ⁽³⁾ 1⁽³⁾ ⁽²⁾ 1 ⁽²⁾ ⁽¹⁾



13 u u u

w  ô   ô   ô 

   



1⁽⁴⁾ 1 ⁽³⁾ 1 ⁽²⁾



1

o o

b o  





2⁽⁴⁾ 1⁽³⁾ 2⁽³⁾ 1⁽²⁾ 2⁽²⁾ 1⁽¹⁾



21 x x x

w  ô   ô   ô 

   



2⁽⁴⁾ 2⁽³⁾ 2⁽³⁾ 2⁽²⁾ 2⁽²⁾ 2⁽¹⁾



22 x x x

w  ô   ô   ô 

   



2⁽⁴⁾ ⁽³⁾ 2⁽³⁾ ⁽²⁾ 2⁽²⁾ ⁽¹⁾



23 u u u

w  ô   ô   ô 

   



ô⁽⁴⁾ ô⁽³⁾ ô⁽²⁾



b   



camada de saída

camada oculta

(20)

39

u(1) x₂(1) x₁(1)

1

2

3

x₁(2)

y(2)

w₁₁ w₁₂

w₁₃

w₂₁ w₂₂

w₂₃

x₂(2)

w₃₁ w₃₂ b₃

b₁

b₂

1

2

3

x₁(3)

y(3)

w₁₁ w₁₂

w₁₃

w₂₁ w₂₂

w₂₃

x₂(3)

w₃₁ w₃₂ b₃

b₁

b₂

u(2)

1

2

3

x₁(4)

y(4)

w₁₁ w₁₂

w₁₃

w₂₁ w₂₂

w₂₃

x₂(4)

w₃₁ w₃₂ b₃

b₁

b₂

u(3)

n= 1 n= 2 n= 3 n= 4

^s(4)

^s(3)

^s(2)

^o₁(4)

^o₂(4)

^o₂(3)

^o₁(3)

^o₁(2)

^o₂(2)

d(3) d(4) d(2)

Informática

Previsão de série temporal

• Rede recorrente como previsor de padrões temporais.

• Sinal de freqüência modulada: x(n) = sen(n+ sen(n²)), n = 0,1,...

• A rede recorrente (Elman) deve ser treinada para prever o próximo valor a partir do valor corrente (entrada atual) e do valor do estado atual.

• A rede é treinada para um padrão de 200 tempos e testada em um padrão de 100 tempos, sendo 50 tempos superpostos com o padrão de treinamento.

 x ⁽ n ^ l ⁾ 

_l^p₀

^ x ⁽ n ^ ¹ ⁾

(21)

41

Resultados do treinamento

• GDX, 1000 passos, 10 unidades ocultas

• Treina com 200 tempos (1 a 200)

Informática

Resultados de generalização

• GDX, 1000 passos, 10 unidades ocultas

• Treina com 200 tempos (1 a 200)

• Testa com 100 tempos (150 a 250)