Prof. Paulo Martins Engel
Processamento Temporal por Redes Recorrentes Dirigidas Dinamicamente
Informática
UFRGS Prof. Paulo Martins Engel
Redes Recorrentes Dirigidas Dinamicamente
• Consideraremos redes (MLP) recorrentes com realimentação de natureza global, podendo ser da camada de saída para a camada de entrada, ou dos neurônios ocultos da rede.
• Quando o MLP tem várias camadas ocultas, as possibilidades de realimentação são mais variadas.
• A rede recorrente responde temporariamente ao sinal de entrada, sendo a saída da rede dirigida dinamicamente por ele.
• A aplicação de realimentação permite que as redes recorrentes adquiram representações do estado.
• O uso de realimentação tem o potencial de reduzir
significativamente as exigências de memória, quando comparado
com as redes sem realimentação dirigidas dinamicamente.
3
Arquiteturas de Redes Recorrentes
• A arquitetura de uma rede recorrente pode assumir muitas formas diferentes, mas elas compartilham características comuns:
– Todas incorporam um MLP estático, ou partes dele.
– Todas exploram a capacidade de mapeamento não-linear do MLP.
• Exemplos de modelos de redes recorrentes:
– Modelo Recorrente de Entrada-Saída – Modelo de Espaço de Estados
– MLP Recorrente
– Rede de Segunda Ordem
Informática
UFRGS Prof. Paulo Martins Engel
Modelo Recorrente de Entrada-Saída
• A arquitetura genérica de uma rede recorrente de entrada-saída é formada por um MLP com realimentação de sua saída para a entrada através de uma linha de atraso com q unidades.
• O modelo tem uma única entrada que é aplicada também a uma memória de linha de atraso com q unidades.
• O conteúdo das memórias é utilizado para alimentar a camada de entrada do MLP.
• O valor presente da entrada é u(n) e o valor da saída, y(n + 1), está adiantado (uma unidade de tempo) em relação à entrada.
• Entradas exógenas: u(n), u(n – 1), ... u(n – q + 1)
• Valores atrasados da saída: y(n), y(n–1), y(n – q + 1), sobre os
quais é feita a regressão da saída do modelo, y(n + 1).
5
Modelo Auto-regressivo Não-linear com Entradas Exógenas NARX
MLP
z–1 z–1
y(n–1) y(n)
y(n+1)
z–1 u(n)
u(n–1) z–1
u(n–2) z–1
u(n–q+2) z–1
u(n–q+1) y(n–q+1)
y(n–q+2)
Informática
UFRGS Prof. Paulo Martins Engel
Modelo Recorrente de Entrada-Saída: NARX
• Quando os sistemas são pouco entendidos se aplica a representação de
entrada-saída, como o modelo NARX (nonlinear auto-regressive with exogenous input)
• Considerando um sistema SISO, o modelo NARX estabelece uma relação entre a coleção de dados de entrada-saída passadas e a saída prevista:
y(n+1) = F
(
y(n), ..., y(k–q+1), u(n) ... u(n–q+1))
• Exemplo de modelo NARX de segunda ordem:
y(n+1) = F
(
y(n), y(n–1), u(n), u(n–1))
) ( ) 2 ( ) 4 ( ) 3 (
) 2 ( ) ( ) 2 ( ) 1 (
) 1 ( ) 1 ( ) 3 ( ) 2 (
) 2 ( ) ( ) 2 ( ) 1 (
) 1 ( ) 1 ( ) 3 ( ) 2 (
N y k
y y y
N u k u u
u
N u k
u u u
N y k y y
y
N y k
y y y
z
Matriz dos vetores de regressão e regressando
F()
u(n)
u(n–1) z–1
z–1
z–1
y(n–1) y(n)
) 1 (n y
7
Modelo NARX de entrada-saída para regressão
• Na prática, o modelo NARX, como adotado na literatura de regressão, não é um modelo recursivo, pois não há acoplamento entre a saída prevista e a entrada; são as saídas do sistema real que servem de entrada para o modelo.
• Neste caso, não há realimentação dos erros de previsão nas entradas da rede e o ajuste dos pesos segue o chamado aprendizado por imposição do professor.
• Exemplo de modelo NARX de segunda ordem:
ŷ(n+1) = F
(
y(n), y(n–1), u(n), u(n–1))
F()
u(n)
u(n–1) z–1
z–1
z–1
y(n–1) y(n)
Sistema
y(n+1)) 1 ˆ(n y u(n)
Informática
UFRGS Prof. Paulo Martins Engel
Modelo Regressivo
• O modelo regressivo correspondente à arquitetura NARX de redes recorrentes, corresponde na literatura de regressão ao modelo NOE (Nonlinear Output Error).
• O modelo NOE inclui predições passadas em vez de saídas medidas.
ŷ(n+1) = F ( ŷ(n), ..., ŷ(n–n
y+1), u(n) ... u(n–n
u+1) )
F()
u(n)
z–1 ŷ(n)
Sistema
y(n+1)) 1 ˆ(n y u(n)
9
Modelagem por espaço de estados
• Modelos de espaço de estados usam uma função de transição de estado que mapeia o estado atual e a entrada atual do sistema dinâmico para uma transição do estado (o estado no próximo instante de amostragem).
• A função de transição de estado é um mapeamento estático que pode ser representado por exemplo, por:
x(n+1) = Ax(n) + Bu(n) y(n) = Cx(n)
onde x(n) é o estado do sistema, u(n) é a entrada, A, B, Csão matrizes de dimensão adequada.
• A representação por espaço de estados é apropriada quando o conhecimento a priori disponível permite determinar a estrutura do sistema e identificar as variáveis de estado.
• A vantagem é que a estrutura do modelo pode ser relacionada com a estrutura do sistema real e os parâmetros normalmente são fisicamente relevantes.
Informática
UFRGS Prof. Paulo Martins Engel
x(n+1) = Ax(n) + Bu(n) y(n) = Cx(n)
A,B e Csão matrizes de dimensões adequadas
Modelo de Espaço de Estados (linear)
A
u(n)
z–1 z–1
u(n)
Sistema
y(n+1)) 1 ˆ(n x2(n) y
C x1(n)
x1(n+1) x2(n+1) B
Modelo
11
x(n+1) = F
(
x(n), u(n))
y(n) = Cx(n)
• Fé um mapeamento não-linear e Cuma matriz de dimensões adequadas
• Tem um banco de atrasos unitários na saída
Modelo de Espaço de Estados (não-linear)
F() z–1 z–1
u(n)
x2(n) C
x1(n)
x1(n+1)
x2(n+1) z–1
) 1 (n y
) (n y
Informática
UFRGS Prof. Paulo Martins Engel
x(n+1) = F
(
x(n), u(n))
y(n) = G(x(n))
• Fé um mapeamento não-linear e Gpode ser um mapeamento não-linear
• Não tem o banco de atrasos unitários na saída
Rede de Elman: Rede Recorrente Simples (RRS)
F() z–1 z–1
u(n)
) 1 (n
x2(n) G y
x1(n)
x1(n+1) x2(n+1)
13
xI(n+1) = φI
(
xI(n), u(n))
xII(n+1) = φII
(
xII(n), xI(n+1))
:
xo(n+1) = φo
(
xo(n), xK(n+1))
RMLP: Perceptron de Múltiplas Camadas Recorrente
CO I z–1I
u(n)
xI(n) xII(n)
xI(n+1)
CO II z–1I
xII(n+1) xo(n)
CS z–1I
xo(n+1) vetor de
saída vetor de
entrada
Informática
UFRGS Prof. Paulo Martins Engel
• Considere uma rede recorrente com uma única entrada e única saída, cujo comportamento é descrito pelas equações:
x(n+1) =
(w
ax(n) +w
bu(n))
y(n) = cTx(n)
• Pode-se mostrar que a saída y(n + q) pode ser expressa por:
y(n+q) =
(
x(n), uq(n))
onde uq(n) = [u(n), u(n+ 1),..., u(n+ q – 1)]Te : R2qR e qé a dimensionalidade do espaço de estados.
• Desde que a rede recorrente seja observável(o estado da rede pode ser determinado por um conjunto de medidas de entrada-saída), pode-se mostrar que a equação de saída pode ser reescrita na forma:
y(n+1) = F
(
y(n), ..., y(k–q+1), u(n) ... u(n–q+1))
Equivalência de Modelos
15
Rede NARX
• Como conseqüência da equivalência de modelos, mostra-se que o modelo NARX é capaz de simular o comportamento o modelo de espaço de estados, para uma rede recorrente observável:
y(n+1) = F(y(n), y(n–1), u(n), u(n–1), bias)
Saída u(n)
Entrada
z−1
z−1
u(n−1)
bias y(n−1)
y(n)
1
2
3 i1(n)
z−1
y(n+1)
y(n) w11
w12 w13
w15 w14
w21 w22
w25 w24
w23 i2(n)
Informática
UFRGS Prof. Paulo Martins Engel
Rede recorrente equivalente
u(n)
z−1 z−1
1
2
3
y(n+1) w11
w12
w13 w21 w22
w23
w31
w32 b3 b1
b2
x2(n+1) x1(n+1) x1(n)
x2(n)
z−1 y(n)
Dimensionalidade do espaço de estados: q= 2
17
“Finding Structure in Time”
Jeffrey L. Elman, Cognitive Science, 14, 179-211 (1990)
• Está interessado na preservação da estrutura temporal relativado padrão:
[011100000] [000111000]
• Na representação relativa, estes dois vetores devem ser reconhecidos como instâncias do mesmo padrão (temporal).
• Na representação absoluta (paralela), eles são espacialmente distantes e portanto, são tratados como dissimilares.
• Problema relacionado: XOR seqüencial: o sistema de aprendizagem deve reconhecer uma seqüência (unidimensional) de bits.
• A seqüência é formada por pares de bits seguidos pelo valor do XOR correspondente.
RN
entrada saída
101000011110101...
01000011110101?..
entrada:
saída:
Informática
UFRGS Prof. Paulo Martins Engel
Exemplo de uma rede de Elman
u(n)
z−1 z−1
1
2
3
y(n+1) w11
w12
w13 w21 w22
w23
w31
w32 b3 b1
b2
x2(n+1) x1(n+1) x1(n)
x2(n)
19
Resultados obtidos com a rede de Elman
Erro inicial
Erro final
Informática
UFRGS Prof. Paulo Martins Engel
Identificação de estrutura em seqüências de letras Geração de seqüência de letras
• Geração aleatória de uma seqüência de 1000 consoantes (b, d, g)
• Aplicação das regras de transformação:
b ba d dii g guuu
Erro de predição da próxima letra Codificação das letras
21
Algoritmos de treinamento para redes recorrentes
Para redes estáticas
• Modo por lote: a sensibilidade da rede é calculada para o conjunto inteiro de treinamento antes de ajustar os parâmetros da rede.
• Modo seqüencial: os ajustes de parâmetros são feitos após a apresentação de cada padrão do conjunto de treinamento.
Para redes recorrentes
• Treinamento por época: para uma dada época, a rede inicia a execução de algum estado inicial até alcançar um novo estado em que o treinamento é parado e a rede é reinicializada em um estado inicial para a próxima época.
• O estado inicial não precisa ser o mesmo para cada época.
• Época corresponde a um padrão temporal de treinamento.
• Treinamento contínuo: não há reinicialização de estados. A rede aprende enquanto realiza o processamento.
• BPTT: baseado no algoritmo BP
• ARTR: utiliza uma estimativa instantânea do gradiente da função de custo.
Informática
UFRGS Prof. Paulo Martins Engel
BPTT: Backpropagation Through Time
• É uma extensão do algoritmo BP padrão.
• Desdobra a operação temporal da rede numa rede em camadas, cuja topologia é acrescida de uma camada a cada passo de tempo.
• Cada passo de tempo tem uma camada contendo k neurônios que representam uma rede recorrente.
• Os pesos em cada camada são os mesmos: cópias.
• Existem duas versões do algoritmo: por época ou contínuo.
23
Exemplo
• Uma rede recorrente completa treinada por BPTT.
• Considere o seu desdobramento em 3 passos de tempo.
u(n)
z−1 z−1
1
2
3
y(n+1) w11
w12
w13 w21 w22
w23
w31
w32 b3 b1
b2
x2(n+1) x1(n+1) x1(n)
x2(n)
Informática
UFRGS Prof. Paulo Martins Engel
Exemplo
• Rede recorrente desdobrada no tempo.
u(1) x2(1) x1(1)
1
2
3
x1(2)
y(2)
w11 w12
w13
w21 w22
w23
x2(2)
w31 w32 b3
b1
b2
1
2
3
x1(3)
y(3)
w11 w12
w13
w21 w22
w23
x2(3)
w31 w32 b3
b1
b2
u(2)
1
2
3
x1(4)
y(4)
w11 w12
w13
w21 w22
w23
x2(4)
w31 w32 b3
b1
b2
u(3)
25
Retropropagação Através do Tempo (BPTT)
• BPTT por época: conjunto de dados de treinamento é particionado em épocas independentes.
• Cada época representa um padrão temporal de interesse.
• n0e n1são os tempos inicial e final de uma época.
• Para uma época podemos definir a função de custo:
com ej(n) = dj(n) –yj(n)
10
) 2 (
) 1 ,
(
0 1 2n n n j A
j
total
n n e n
E
• Aé o conjunto de índices jdos neurônios para os quais as saídas desejadas são especificadas
• Calcula-se as derivadas parciais de Etotal(n0, n1) em relação aos pesos da rede.
Informática
UFRGS Prof. Paulo Martins Engel
Algoritmo BPTT
• Executa-se um passo único para frente dos dados através da rede para o intervalo (n0, n1).
• Armazena-se o registro completo dos dados de entrada, pesos e respostas desejadas para este intervalo.
• Realiza-se um único passo para trás sobre este registro passado, para calcular os valores dos gradientes locais:
para todo jAe n0< n n1.
No caso de não haver camada de saída, temos ) (
) , ) (
( 0 1
n v
n n n E
j total
j
0 1
1
para )
1 ( )
( )) ( ( '
para )
( )) ( ( ' )
( v n e n w n n n n
n n n
e n v n
A k
k jk j
j
j j
j
27
Algoritmo BPTT com camada de saída
• No caso de haver camada de saída, o erro ej(n) deve ser substituído pela soma dos termos de erro retropropagados da camada de saída.
• Os gradientes locais da camada de saída são calculados como no algoritmo BP convencional:
• Nas camadas ocultas, os gradientes locais também recebem as somas dos gradientes da camada de saída, para todo jAe n0< nn1, com
0 1
1
para )
1 ( )
( ))
( ( '
para )
( ))
( ( ' )
( v n n w w n n n n
n n w
n n
v n
A k
o k o jk s
lj l
s l j
s lj l
s l j
o
j
erro no futuro erro atual
) ( )) ( ) (
( ) , ) (
( 0 1 v n e n
n v
n n
n E j j
j total s
j
Informática
UFRGS Prof. Paulo Martins Engel
Exemplo
u(1), u(2), u(3) d(2), d(3), d(4)
u(1) x2(1) x1(1)
1
2
3
x1(2)
y(2)
w11 w12
w13
w21 w22
w23
x2(2)
w31 w32 b3
b1
b2
1
2
3
x1(3)
y(3)
w11 w12
w13
w21 w22
w23
x2(3)
w31 w32 b3
b1
b2
u(2)
1
2
3
x1(4)
y(4)
w11 w12
w13
w21 w22
w23
x2(4)
w31 w32 b3
b1
b2
u(3)
n= 1 n= 2 n= 3 n= 4
s(4)
s(3)
s(2)
o1(4)
o2(4)
o2(3)
o1(3)
o1(2)
o2(2)
d(3) d(4) d(2)
29
Algoritmo BPTT
• Calcula-se repetidamente j(n) começando no tempo n1 e trabalhando para trás, passo a passo, até o tempo n0.
• Após a retropropagação chegar ao tempo n0+1 ajustam-se os pesos.
onde é a taxa de aprendizagem e xi(n– 1) é a entrada aplicada a i-ésima sinapse do neurônio jno tempo n – 1.
• Note que as respostas desejadas são especificadas para os neurônios em várias camadas da rede porque a camada de saída real é replicada muitas vezes.
ji total
ji
w
n n w E
(
0,
1)
10 1
) 1 ( ) (
n n n
i j
n x n
Informática
UFRGS Prof. Paulo Martins Engel
Algoritmo BPTT
• Considerando-se a rede desdobrada
• Padrão temporal de treinamento (época): u(1), u(2), u(3); d(2), d(3), d(4)
(2) (3) (4)
2 ) 1 4 , 2
( e2 e2 e2
Etotal
com e2(n) = [d(n) –y(n)]2
• Propagação: propagar o padrão temporal de treinamento.
• Considerando x1(1) = 0, x2(1) = 0
v1(2) = u(1) w13+ b1 → x1(2) = tanh(v1(2)) v2(2) = u(1) w23+ b2 → x2(2) = tanh(v2(2))
y(2) = x1(2) w31+ x2(2) w32+ b3
v1(3) = x1(2) w11+ x2(2) w12+ u(2) w13+ b1 → x1(3) = tanh(v1(3)) v2(3) = x1(2) w21+ x2(2) w22+ u(2) w23+ b2 → x2(3) = tanh(v2(3))
y(3) = x (3) w + x (3) w + b
31
Fase de propagação
u(1), u(2), u(3) d(2), d(3), d(4)
u(1) x2(1) x1(1)
1
2
3
x1(2)
y(2)
w11 w12
w13
w21 w22
w23
x2(2)
w31 w32 b3
b1
b2
1
2
3
x1(3)
y(3)
w11 w12
w13
w21 w22
w23
x2(3)
w31 w32 b3
b1
b2
u(2)
1
2
3
x1(4)
y(4)
w11 w12
w13
w21 w22
w23
x2(4)
w31 w32 b3
b1
b2
u(3)
n= 1 n= 2 n= 3 n= 4
d(3) d(4) d(2)
Informática
UFRGS Prof. Paulo Martins Engel
Algoritmo BPTT
Retropropagação: cálculo dos gradientes locais.
• Na camada de saída:
v1(4) = x1(3) w11+ x2(3) w12+ u(3) w13+ b1 → x1(4) = tanh(v1(4)) v2(4) = x1(3) w21+ x2(3) w22+ u(3) w23+ b2 → x2(4) = tanh(v2(4)) y(4) = x1(4) w31+ x2(4) w32+ b3
e(2) = d(2) –y(2), e(3) = d(3) –y(3), e(4) = d(4) –y(4)
) ( )) ( ) (
( ) , ) (
( 0 1 v n e n
n v
n n
n E j j
j total
j
1 ( (4))
(4)) 4
( y 2 e
s
1 ( (3))
(3)) 3
( y 2 e
s
1 ( (2))
(2)) 2
( y 2 e
s
Estas parcelas são incluídas na camada oculta
33
Gradientes locais na camada de saída
u(1) x2(1) x1(1)
1
2
3
x1(2)
y(2)
w11 w12
w13
w21 w22
w23
x2(2)
w31 w32 b3
b1
b2
1
2
3
x1(3)
y(3)
w11 w12
w13
w21 w22
w23
x2(3)
w31 w32 b3
b1
b2
u(2)
1
2
3
x1(4)
y(4)
w11 w12
w13
w21 w22
w23
x2(4)
w31 w32 b3
b1
b2
u(3)
n= 1 n= 2 n= 3 n= 4
s(4)
s(3)
s(2)
o1(4)
o2(4)
o2(3)
o1(3)
o1(2)
o2(2)
d(3) d(4) d(2)
1 ( (4))
(4)) 4
( y 2 e
s
1 ( (3))
(3) )3
( y 2 e
s
1 ( (2))
(2) )2
( y 2 e
s
Informática
UFRGS Prof. Paulo Martins Engel
Algoritmo BPTT
• Na camada oculta:
A k
o k o jk l
s l s lj j
j total o
j v n w n w n
n v
n n
n E ( ( )) ( ) ( 1)
) (
) , ) (
( 0 1
1 ( (4))
(4)
) 4
( 1 2 31
1
s
o x w
1 ( (4))
(4)
) 4
( 2 2 32
2o x w s
1 ( (3))
(3) (4) (4)
) 3
( 1 2 31 11 1 21 2
1
o o
s
o x w w w
1 ( (3))
(3) (4) (4)
) 3
( 2 2 32 12 1 22 2
2
o o
s
o x w w w
1 ( (2))
(2) (3) (3)
) 2
( 1 2 31 11 1 21 2
1
o o
s
o x w w w
1 ( (2))
(2) (3) (3)
) 2
( 2 2 32 12 1 22 2
2
o o
s
o x w w w
n = n1
n0< n < n1
35
u(1) x2(1) x1(1)
1
2
3
x1(2)
y(2)
w11 w12
w13
w21 w22
w23
x2(2)
w31 w32 b3
b1
b2
1
2
3
x1(3)
y(3)
w11 w12
w13
w21 w22
w23
x2(3)
w31 w32 b3
b1
b2
u(2)
1
2
3
x1(4)
y(4)
w11 w12
w13
w21 w22
w23
x2(4)
w31 w32 b3
b1
b2
u(3)
n= 1 n= 2 n= 3 n= 4
s(4)
s(3)
s(2)
o1(4)
o2(4)
o2(3)
o1(3)
o1(2)
o2(2)
d(3) d(4) d(2)
Exemplo de cálculo de gradiente local na camada oculta: n = n
1
1 ( (4))
(4)
) 4
( 1 2 31
1o x w s
n =n1= 4
Informática
UFRGS Prof. Paulo Martins Engel
Exemplo de cálculo de gradiente local na camada oculta: n < n
1u(1) x2(1) x1(1)
1
2
3
x1(2)
y(2)
w11 w12
w13
w21 w22
w23
x2(2)
w31 w32 b3
b1
b2
1
2
3
x1(3)
y(3)
w11 w12
w13
w21 w22
w23
x2(3)
w31 w32 b3
b1
b2
u(2)
1
2
3
x1(4)
y(4)
w11 w12
w13
w21 w22
w23
x2(4)
w31 w32 b3
b1
b2
u(3)
n= 1 n= 2 n= 3 n= 4
s(4)
s(3)
s(2)
o1(4)
o2(4)
o2(3)
o1(3)
o1(2)
o2(2)
d(4) d(2) d(3)
1 ( (3))
(3) (4) (4)
) 3
( 1 2 31 11 1 21 2
1
o o
s
o x w
w
w
n= 3
37
Exemplo de cálculo de gradiente local na camada oculta: n < n
1u(1) x2(1) x1(1)
1
2
3
x1(2)
y(2)
w11 w12
w13
w21 w22
w23
x2(2)
w31 w32 b3
b1
b2
1
2
3
x1(3)
y(3)
w11 w12
w13
w21 w22
w23
x2(3)
w31 w32 b3
b1
b2
u(2)
1
2
3
x1(4)
y(4)
w11 w12
w13
w21 w22
w23
x2(4)
w31 w32 b3
b1
b2
u(3)
n= 1 n= 2 n= 3 n= 4
s(4)
s(3)
s(2)
o1(4)
o2(4)
o2(3)
o1(3)
o1(2)
o2(2)
d(3) d(4) d(2)
1 ( (2))
(2) (3) (3)
) 2
( 1 2 31 11 1 21 2
1
o o
s
o x w
w
w
n= 2
Informática
UFRGS Prof. Paulo Martins Engel
Ajuste dos pesos:
10 1
) 1 ( ) (
n n n
i j
ji
n x n
w
(4) 1(4) (3) 1(3) (2) 1(2)
31 x x x
w s s s
(4) 2(4) (3) 2(3) (2) 2(2)
32 x x x
w s s s
(4) (3) (2)
3
s s
b s
1 (4) 1(3) 1(3) 1(2) 1(2) 1(1)
11 x x x
w o o o
1(4) 2(3) 1(3) 2(2) 1(2) 2(1)
12 x x x
w o o o
1(4) (3) 1(3) (2) 1 (2) (1)
13 u u u
w o o o
1(4) 1 (3) 1 (2)
1
o o
b o
2(4) 1(3) 2(3) 1(2) 2(2) 1(1)
21 x x x
w o o o
2(4) 2(3) 2(3) 2(2) 2(2) 2(1)
22 x x x
w o o o
2(4) (3) 2(3) (2) 2(2) (1)
23 u u u
w o o o
o(4) o(3) o(2)
b
camada de saída
camada oculta
39
u(1) x2(1) x1(1)
1
2
3
x1(2)
y(2)
w11 w12
w13
w21 w22
w23
x2(2)
w31 w32 b3
b1
b2
1
2
3
x1(3)
y(3)
w11 w12
w13
w21 w22
w23
x2(3)
w31 w32 b3
b1
b2
u(2)
1
2
3
x1(4)
y(4)
w11 w12
w13
w21 w22
w23
x2(4)
w31 w32 b3
b1
b2
u(3)
n= 1 n= 2 n= 3 n= 4
s(4)
s(3)
s(2)
o1(4)
o2(4)
o2(3)
o1(3)
o1(2)
o2(2)
d(3) d(4) d(2)
Informática
UFRGS Prof. Paulo Martins Engel
Previsão de série temporal
• Rede recorrente como previsor de padrões temporais.
• Sinal de freqüência modulada: x(n) = sen(n+ sen(n2)), n = 0,1,...
• A rede recorrente (Elman) deve ser treinada para prever o próximo valor a partir do valor corrente (entrada atual) e do valor do estado atual.
• A rede é treinada para um padrão de 200 tempos e testada em um padrão de 100 tempos, sendo 50 tempos superpostos com o padrão de treinamento.
x ( n l )
lp0 x ( n 1 )
41
Resultados do treinamento
• GDX, 1000 passos, 10 unidades ocultas
• Treina com 200 tempos (1 a 200)
Informática
UFRGS Prof. Paulo Martins Engel
Resultados de generalização
• GDX, 1000 passos, 10 unidades ocultas
• Treina com 200 tempos (1 a 200)
• Testa com 100 tempos (150 a 250)