• Nenhum resultado encontrado

Redes Neurais

N/A
N/A
Protected

Academic year: 2022

Share "Redes Neurais"

Copied!
21
0
0

Texto

(1)

Prof. Paulo Martins Engel

Processamento Temporal por Redes Recorrentes Dirigidas Dinamicamente

Informática

UFRGS Prof. Paulo Martins Engel

Redes Recorrentes Dirigidas Dinamicamente

• Consideraremos redes (MLP) recorrentes com realimentação de natureza global, podendo ser da camada de saída para a camada de entrada, ou dos neurônios ocultos da rede.

• Quando o MLP tem várias camadas ocultas, as possibilidades de realimentação são mais variadas.

• A rede recorrente responde temporariamente ao sinal de entrada, sendo a saída da rede dirigida dinamicamente por ele.

• A aplicação de realimentação permite que as redes recorrentes adquiram representações do estado.

• O uso de realimentação tem o potencial de reduzir

significativamente as exigências de memória, quando comparado

com as redes sem realimentação dirigidas dinamicamente.

(2)

3

Arquiteturas de Redes Recorrentes

• A arquitetura de uma rede recorrente pode assumir muitas formas diferentes, mas elas compartilham características comuns:

– Todas incorporam um MLP estático, ou partes dele.

– Todas exploram a capacidade de mapeamento não-linear do MLP.

• Exemplos de modelos de redes recorrentes:

– Modelo Recorrente de Entrada-Saída – Modelo de Espaço de Estados

– MLP Recorrente

– Rede de Segunda Ordem

Informática

UFRGS Prof. Paulo Martins Engel

Modelo Recorrente de Entrada-Saída

• A arquitetura genérica de uma rede recorrente de entrada-saída é formada por um MLP com realimentação de sua saída para a entrada através de uma linha de atraso com q unidades.

• O modelo tem uma única entrada que é aplicada também a uma memória de linha de atraso com q unidades.

• O conteúdo das memórias é utilizado para alimentar a camada de entrada do MLP.

• O valor presente da entrada é u(n) e o valor da saída, y(n + 1), está adiantado (uma unidade de tempo) em relação à entrada.

• Entradas exógenas: u(n), u(n – 1), ... u(n – q + 1)

• Valores atrasados da saída: y(n), y(n–1), y(n – q + 1), sobre os

quais é feita a regressão da saída do modelo, y(n + 1).

(3)

5

Modelo Auto-regressivo Não-linear com Entradas Exógenas NARX

MLP

z–1 z–1

y(n–1) y(n)

y(n+1)

z–1 u(n)

u(n–1) z–1

u(n–2) z–1

u(n–q+2) z–1

u(n–q+1) y(n–q+1)

y(n–q+2)

Informática

UFRGS Prof. Paulo Martins Engel

Modelo Recorrente de Entrada-Saída: NARX

• Quando os sistemas são pouco entendidos se aplica a representação de

entrada-saída, como o modelo NARX (nonlinear auto-regressive with exogenous input)

• Considerando um sistema SISO, o modelo NARX estabelece uma relação entre a coleção de dados de entrada-saída passadas e a saída prevista:

y(n+1) = F

(

y(n), ..., y(k–q+1), u(n) ... u(n–q+1)

)

• Exemplo de modelo NARX de segunda ordem:

y(n+1) = F

(

y(n), y(n–1), u(n), u(n–1)

)













) ( ) 2 ( ) 4 ( ) 3 (

) 2 ( ) ( ) 2 ( ) 1 (

) 1 ( ) 1 ( ) 3 ( ) 2 (

) 2 ( ) ( ) 2 ( ) 1 (

) 1 ( ) 1 ( ) 3 ( ) 2 (

N y k

y y y

N u k u u

u

N u k

u u u

N y k y y

y

N y k

y y y

z

Matriz dos vetores de regressão e regressando

F()

u(n)

u(n–1) z–1

z–1

z–1

y(n–1) y(n)

) 1 (ny

(4)

7

Modelo NARX de entrada-saída para regressão

• Na prática, o modelo NARX, como adotado na literatura de regressão, não é um modelo recursivo, pois não há acoplamento entre a saída prevista e a entrada; são as saídas do sistema real que servem de entrada para o modelo.

• Neste caso, não há realimentação dos erros de previsão nas entradas da rede e o ajuste dos pesos segue o chamado aprendizado por imposição do professor.

• Exemplo de modelo NARX de segunda ordem:

ŷ(n+1) = F

(

y(n), y(n–1), u(n), u(n–1)

)

F()

u(n)

u(n–1) z–1

z–1

z–1

y(n–1) y(n)

Sistema

y(n+1)

) 1 ˆ(ny u(n)

Informática

UFRGS Prof. Paulo Martins Engel

Modelo Regressivo

• O modelo regressivo correspondente à arquitetura NARX de redes recorrentes, corresponde na literatura de regressão ao modelo NOE (Nonlinear Output Error).

• O modelo NOE inclui predições passadas em vez de saídas medidas.

ŷ(n+1) = F ( ŷ(n), ..., ŷ(n–n

y

+1), u(n) ... u(n–n

u

+1) )

F()

u(n)

z–1 ŷ(n)

Sistema

y(n+1)

) 1 ˆ(ny u(n)

(5)

9

Modelagem por espaço de estados

• Modelos de espaço de estados usam uma função de transição de estado que mapeia o estado atual e a entrada atual do sistema dinâmico para uma transição do estado (o estado no próximo instante de amostragem).

• A função de transição de estado é um mapeamento estático que pode ser representado por exemplo, por:

x(n+1) = Ax(n) + Bu(n) y(n) = Cx(n)

onde x(n) é o estado do sistema, u(n) é a entrada, A, B, Csão matrizes de dimensão adequada.

• A representação por espaço de estados é apropriada quando o conhecimento a priori disponível permite determinar a estrutura do sistema e identificar as variáveis de estado.

• A vantagem é que a estrutura do modelo pode ser relacionada com a estrutura do sistema real e os parâmetros normalmente são fisicamente relevantes.

Informática

UFRGS Prof. Paulo Martins Engel

x(n+1) = Ax(n) + Bu(n) y(n) = Cx(n)

A,B e Csão matrizes de dimensões adequadas

Modelo de Espaço de Estados (linear)

A

u(n)

z–1 z–1

u(n)

Sistema

y(n+1)

) 1 ˆ(nx2(n) y

C x1(n)

x1(n+1) x2(n+1) B

Modelo

(6)

11

x(n+1) = F

(

x(n), u(n)

)

y(n) = Cx(n)

Fé um mapeamento não-linear e Cuma matriz de dimensões adequadas

• Tem um banco de atrasos unitários na saída

Modelo de Espaço de Estados (não-linear)

F() z–1 z–1

u(n)

x2(n) C

x1(n)

x1(n+1)

x2(n+1) z–1

) 1 (ny

) (n y

Informática

UFRGS Prof. Paulo Martins Engel

x(n+1) = F

(

x(n), u(n)

)

y(n) = G(x(n))

Fé um mapeamento não-linear e Gpode ser um mapeamento não-linear

• Não tem o banco de atrasos unitários na saída

Rede de Elman: Rede Recorrente Simples (RRS)

F() z–1 z–1

u(n)

) 1 (n

x2(n) G y

x1(n)

x1(n+1) x2(n+1)

(7)

13

xI(n+1) = φI

(

xI(n), u(n)

)

xII(n+1) = φII

(

xII(n), xI(n+1)

)

:

xo(n+1) = φo

(

xo(n), xK(n+1)

)

RMLP: Perceptron de Múltiplas Camadas Recorrente

CO I z–1I

u(n)

xI(n) xII(n)

xI(n+1)

CO II z–1I

xII(n+1) xo(n)

CS z–1I

xo(n+1) vetor de

saída vetor de

entrada

Informática

UFRGS Prof. Paulo Martins Engel

• Considere uma rede recorrente com uma única entrada e única saída, cujo comportamento é descrito pelas equações:

x(n+1) = 

(w

ax(n) +

w

bu(n)

)

y(n) = cTx(n)

• Pode-se mostrar que a saída y(n + q) pode ser expressa por:

y(n+q) = 

(

x(n), uq(n)

)

onde uq(n) = [u(n), u(n+ 1),..., u(n+ q – 1)]Te : R2qR e qé a dimensionalidade do espaço de estados.

• Desde que a rede recorrente seja observável(o estado da rede pode ser determinado por um conjunto de medidas de entrada-saída), pode-se mostrar que a equação de saída pode ser reescrita na forma:

y(n+1) = F

(

y(n), ..., y(k–q+1), u(n) ... u(n–q+1)

)

Equivalência de Modelos

(8)

15

Rede NARX

• Como conseqüência da equivalência de modelos, mostra-se que o modelo NARX é capaz de simular o comportamento o modelo de espaço de estados, para uma rede recorrente observável:

y(n+1) = F(y(n), y(n–1), u(n), u(n–1), bias)

Saída u(n)

Entrada

z−1

z−1

u(n−1)

bias y(n−1)

y(n)

1

2

3 i1(n)

z−1

y(n+1)

y(n) w11

w12 w13

w15 w14

w21 w22

w25 w24

w23 i2(n)

Informática

UFRGS Prof. Paulo Martins Engel

Rede recorrente equivalente

u(n)

z−1 z−1

1

2

3

y(n+1) w11

w12

w13 w21 w22

w23

w31

w32 b3 b1

b2

x2(n+1) x1(n+1) x1(n)

x2(n)

z−1 y(n)

Dimensionalidade do espaço de estados: q= 2

(9)

17

“Finding Structure in Time”

Jeffrey L. Elman, Cognitive Science, 14, 179-211 (1990)

• Está interessado na preservação da estrutura temporal relativado padrão:

[011100000] [000111000]

• Na representação relativa, estes dois vetores devem ser reconhecidos como instâncias do mesmo padrão (temporal).

• Na representação absoluta (paralela), eles são espacialmente distantes e portanto, são tratados como dissimilares.

• Problema relacionado: XOR seqüencial: o sistema de aprendizagem deve reconhecer uma seqüência (unidimensional) de bits.

• A seqüência é formada por pares de bits seguidos pelo valor do XOR correspondente.

RN

entrada saída

101000011110101...

01000011110101?..

entrada:

saída:

Informática

UFRGS Prof. Paulo Martins Engel

Exemplo de uma rede de Elman

u(n)

z−1 z−1

1

2

3

y(n+1) w11

w12

w13 w21 w22

w23

w31

w32 b3 b1

b2

x2(n+1) x1(n+1) x1(n)

x2(n)

(10)

19

Resultados obtidos com a rede de Elman

Erro inicial

Erro final

Informática

UFRGS Prof. Paulo Martins Engel

Identificação de estrutura em seqüências de letras Geração de seqüência de letras

• Geração aleatória de uma seqüência de 1000 consoantes (b, d, g)

• Aplicação das regras de transformação:

b ba d dii g guuu

Erro de predição da próxima letra Codificação das letras

(11)

21

Algoritmos de treinamento para redes recorrentes

Para redes estáticas

Modo por lote: a sensibilidade da rede é calculada para o conjunto inteiro de treinamento antes de ajustar os parâmetros da rede.

Modo seqüencial: os ajustes de parâmetros são feitos após a apresentação de cada padrão do conjunto de treinamento.

Para redes recorrentes

Treinamento por época: para uma dada época, a rede inicia a execução de algum estado inicial até alcançar um novo estado em que o treinamento é parado e a rede é reinicializada em um estado inicial para a próxima época.

• O estado inicial não precisa ser o mesmo para cada época.

• Época corresponde a um padrão temporal de treinamento.

Treinamento contínuo: não há reinicialização de estados. A rede aprende enquanto realiza o processamento.

• BPTT: baseado no algoritmo BP

• ARTR: utiliza uma estimativa instantânea do gradiente da função de custo.

Informática

UFRGS Prof. Paulo Martins Engel

BPTT: Backpropagation Through Time

• É uma extensão do algoritmo BP padrão.

• Desdobra a operação temporal da rede numa rede em camadas, cuja topologia é acrescida de uma camada a cada passo de tempo.

• Cada passo de tempo tem uma camada contendo k neurônios que representam uma rede recorrente.

• Os pesos em cada camada são os mesmos: cópias.

• Existem duas versões do algoritmo: por época ou contínuo.

(12)

23

Exemplo

• Uma rede recorrente completa treinada por BPTT.

• Considere o seu desdobramento em 3 passos de tempo.

u(n)

z−1 z−1

1

2

3

y(n+1) w11

w12

w13 w21 w22

w23

w31

w32 b3 b1

b2

x2(n+1) x1(n+1) x1(n)

x2(n)

Informática

UFRGS Prof. Paulo Martins Engel

Exemplo

• Rede recorrente desdobrada no tempo.

u(1) x2(1) x1(1)

1

2

3

x1(2)

y(2)

w11 w12

w13

w21 w22

w23

x2(2)

w31 w32 b3

b1

b2

1

2

3

x1(3)

y(3)

w11 w12

w13

w21 w22

w23

x2(3)

w31 w32 b3

b1

b2

u(2)

1

2

3

x1(4)

y(4)

w11 w12

w13

w21 w22

w23

x2(4)

w31 w32 b3

b1

b2

u(3)

(13)

25

Retropropagação Através do Tempo (BPTT)

• BPTT por época: conjunto de dados de treinamento é particionado em épocas independentes.

• Cada época representa um padrão temporal de interesse.

n0e n1são os tempos inicial e final de uma época.

• Para uma época podemos definir a função de custo:

com ej(n) = dj(n) –yj(n)



1

0

) 2 (

) 1 ,

(

0 1 2

n n n j A

j

total

n n e n

E

Aé o conjunto de índices jdos neurônios para os quais as saídas desejadas são especificadas

• Calcula-se as derivadas parciais de Etotal(n0, n1) em relação aos pesos da rede.

Informática

UFRGS Prof. Paulo Martins Engel

Algoritmo BPTT

• Executa-se um passo único para frente dos dados através da rede para o intervalo (n0, n1).

• Armazena-se o registro completo dos dados de entrada, pesos e respostas desejadas para este intervalo.

• Realiza-se um único passo para trás sobre este registro passado, para calcular os valores dos gradientes locais:

para todo jAe n0< n n1.

No caso de não haver camada de saída, temos ) (

) , ) (

( 0 1

n v

n n n E

j total

j



 





 

 

  

0 1

1

para )

1 ( )

( )) ( ( '

para )

( )) ( ( ' )

( v n e n w n n n n

n n n

e n v n

A k

k jk j

j

j j

j  

(14)

27

Algoritmo BPTT com camada de saída

• No caso de haver camada de saída, o erro ej(n) deve ser substituído pela soma dos termos de erro retropropagados da camada de saída.

• Os gradientes locais da camada de saída são calculados como no algoritmo BP convencional:

• Nas camadas ocultas, os gradientes locais também recebem as somas dos gradientes da camada de saída, para todo jAe n0< nn1, com

 

 

 

 

  

  

0 1

1

para )

1 ( )

( ))

( ( '

para )

( ))

( ( ' )

( v n n w w n n n n

n n w

n n

v n

A k

o k o jk s

lj l

s l j

s lj l

s l j

o

j

  

erro no futuro erro atual

) ( )) ( ) (

( ) , ) (

( 0 1 v n e n

n v

n n

n E j j

j total s

j   



 

Informática

UFRGS Prof. Paulo Martins Engel

Exemplo

u(1), u(2), u(3) d(2), d(3), d(4)

u(1) x2(1) x1(1)

1

2

3

x1(2)

y(2)

w11 w12

w13

w21 w22

w23

x2(2)

w31 w32 b3

b1

b2

1

2

3

x1(3)

y(3)

w11 w12

w13

w21 w22

w23

x2(3)

w31 w32 b3

b1

b2

u(2)

1

2

3

x1(4)

y(4)

w11 w12

w13

w21 w22

w23

x2(4)

w31 w32 b3

b1

b2

u(3)

n= 1 n= 2 n= 3 n= 4

s(4)

s(3)

s(2)

o1(4)

o2(4)

o2(3)

o1(3)

o1(2)

o2(2)

d(3) d(4) d(2)

(15)

29

Algoritmo BPTT

• Calcula-se repetidamente j(n) começando no tempo n1 e trabalhando para trás, passo a passo, até o tempo n0.

• Após a retropropagação chegar ao tempo n0+1 ajustam-se os pesos.

onde é a taxa de aprendizagem e xi(n– 1) é a entrada aplicada a i-ésima sinapse do neurônio jno tempo n – 1.

• Note que as respostas desejadas são especificadas para os neurônios em várias camadas da rede porque a camada de saída real é replicada muitas vezes.

ji total

ji

w

n n w E

 

  (

0

,

1

)

1

0 1

) 1 ( ) (

n n n

i j

n x n

Informática

UFRGS Prof. Paulo Martins Engel

Algoritmo BPTT

• Considerando-se a rede desdobrada

• Padrão temporal de treinamento (época): u(1), u(2), u(3); d(2), d(3), d(4)

(2) (3) (4)

2 ) 1 4 , 2

( e2 e2 e2

Etotal   

com e2(n) = [d(n) –y(n)]2

• Propagação: propagar o padrão temporal de treinamento.

• Considerando x1(1) = 0, x2(1) = 0

v1(2) = u(1) w13+ b1 → x1(2) = tanh(v1(2)) v2(2) = u(1) w23+ b2 → x2(2) = tanh(v2(2))

y(2) = x1(2) w31+ x2(2) w32+ b3

v1(3) = x1(2) w11+ x2(2) w12+ u(2) w13+ b1 → x1(3) = tanh(v1(3)) v2(3) = x1(2) w21+ x2(2) w22+ u(2) w23+ b2 → x2(3) = tanh(v2(3))

y(3) = x (3) w + x (3) w + b

(16)

31

Fase de propagação

u(1), u(2), u(3) d(2), d(3), d(4)

u(1) x2(1) x1(1)

1

2

3

x1(2)

y(2)

w11 w12

w13

w21 w22

w23

x2(2)

w31 w32 b3

b1

b2

1

2

3

x1(3)

y(3)

w11 w12

w13

w21 w22

w23

x2(3)

w31 w32 b3

b1

b2

u(2)

1

2

3

x1(4)

y(4)

w11 w12

w13

w21 w22

w23

x2(4)

w31 w32 b3

b1

b2

u(3)

n= 1 n= 2 n= 3 n= 4

d(3) d(4) d(2)

Informática

UFRGS Prof. Paulo Martins Engel

Algoritmo BPTT

Retropropagação: cálculo dos gradientes locais.

Na camada de saída:

v1(4) = x1(3) w11+ x2(3) w12+ u(3) w13+ b1 → x1(4) = tanh(v1(4)) v2(4) = x1(3) w21+ x2(3) w22+ u(3) w23+ b2 → x2(4) = tanh(v2(4)) y(4) = x1(4) w31+ x2(4) w32+ b3

e(2) = d(2) –y(2), e(3) = d(3) –y(3), e(4) = d(4) –y(4)

) ( )) ( ) (

( ) , ) (

( 0 1 v n e n

n v

n n

n E j j

j total

j   



 

1 ( (4))

(4)

) 4

( y 2 e

s   

1 ( (3))

(3)

) 3

( y 2 e

s   

1 ( (2))

(2)

) 2

( y 2 e

s   

Estas parcelas são incluídas na camada oculta

(17)

33

Gradientes locais na camada de saída

u(1) x2(1) x1(1)

1

2

3

x1(2)

y(2)

w11 w12

w13

w21 w22

w23

x2(2)

w31 w32 b3

b1

b2

1

2

3

x1(3)

y(3)

w11 w12

w13

w21 w22

w23

x2(3)

w31 w32 b3

b1

b2

u(2)

1

2

3

x1(4)

y(4)

w11 w12

w13

w21 w22

w23

x2(4)

w31 w32 b3

b1

b2

u(3)

n= 1 n= 2 n= 3 n= 4

s(4)

s(3)

s(2)

o1(4)

o2(4)

o2(3)

o1(3)

o1(2)

o2(2)

d(3) d(4) d(2)

1 ( (4))

(4)

) 4

( y 2 e

s   

1 ( (3))

(3)  )

3

( y 2 e

s   

1 ( (2))

(2)  )

2

( y 2 e

s   

Informática

UFRGS Prof. Paulo Martins Engel

Algoritmo BPTT

Na camada oculta:



 

  

 

 



 

A k

o k o jk l

s l s lj j

j total o

j v n w n w n

n v

n n

n E ( ( )) ( ) ( 1)

) (

) , ) (

( 0 1   

1 ( (4))

 

(4)

) 4

( 1 2 31

1

s

o x w

   

1 ( (4))

 

(4)

) 4

( 2 2 32

2o x ws

   

1 ( (3))

 

(3) (4) (4)

) 3

( 1 2 31 11 1 21 2

1

o o

s

o x www

     

1 ( (3))

 

(3) (4) (4)

) 3

( 2 2 32 12 1 22 2

2

o o

s

o x www

     

1 ( (2))

 

(2) (3) (3)

) 2

( 1 2 31 11 1 21 2

1

o o

s

o x www

     

1 ( (2))

 

(2) (3) (3)

) 2

( 2 2 32 12 1 22 2

2

o o

s

o x www

     

n = n1

n0< n < n1

(18)

35

u(1) x2(1) x1(1)

1

2

3

x1(2)

y(2)

w11 w12

w13

w21 w22

w23

x2(2)

w31 w32 b3

b1

b2

1

2

3

x1(3)

y(3)

w11 w12

w13

w21 w22

w23

x2(3)

w31 w32 b3

b1

b2

u(2)

1

2

3

x1(4)

y(4)

w11 w12

w13

w21 w22

w23

x2(4)

w31 w32 b3

b1

b2

u(3)

n= 1 n= 2 n= 3 n= 4

s(4)

s(3)

s(2)

o1(4)

o2(4)

o2(3)

o1(3)

o1(2)

o2(2)

d(3) d(4) d(2)

Exemplo de cálculo de gradiente local na camada oculta: n = n

1

1 ( (4))

 

(4)

) 4

( 1 2 31

1o x ws

   

n =n1= 4

Informática

UFRGS Prof. Paulo Martins Engel

Exemplo de cálculo de gradiente local na camada oculta: n < n

1

u(1) x2(1) x1(1)

1

2

3

x1(2)

y(2)

w11 w12

w13

w21 w22

w23

x2(2)

w31 w32 b3

b1

b2

1

2

3

x1(3)

y(3)

w11 w12

w13

w21 w22

w23

x2(3)

w31 w32 b3

b1

b2

u(2)

1

2

3

x1(4)

y(4)

w11 w12

w13

w21 w22

w23

x2(4)

w31 w32 b3

b1

b2

u(3)

n= 1 n= 2 n= 3 n= 4

s(4)

s(3)

s(2)

o1(4)

o2(4)

o2(3)

o1(3)

o1(2)

o2(2)

d(4) d(2) d(3)

1 ( (3))

 

(3) (4) (4)

) 3

( 1 2 31 11 1 21 2

1

o o

s

o x w

w

w

    

n= 3

(19)

37

Exemplo de cálculo de gradiente local na camada oculta: n < n

1

u(1) x2(1) x1(1)

1

2

3

x1(2)

y(2)

w11 w12

w13

w21 w22

w23

x2(2)

w31 w32 b3

b1

b2

1

2

3

x1(3)

y(3)

w11 w12

w13

w21 w22

w23

x2(3)

w31 w32 b3

b1

b2

u(2)

1

2

3

x1(4)

y(4)

w11 w12

w13

w21 w22

w23

x2(4)

w31 w32 b3

b1

b2

u(3)

n= 1 n= 2 n= 3 n= 4

s(4)

s(3)

s(2)

o1(4)

o2(4)

o2(3)

o1(3)

o1(2)

o2(2)

d(3) d(4) d(2)

1 ( (2))

 

(2) (3) (3)

) 2

( 1 2 31 11 1 21 2

1

o o

s

o x w

w

w

    

n= 2

Informática

UFRGS Prof. Paulo Martins Engel

Ajuste dos pesos: 

1

0 1

) 1 ( ) (

n n n

i j

ji

n x n

w  

(4) 1(4) (3) 1(3) (2) 1(2)

31 x x x

ws   s   s

   

(4) 2(4) (3) 2(3) (2) 2(2)

32 x x x

ws   s   s

   

(4) (3) (2)

3

s s

b s  

1 (4) 1(3) 1(3) 1(2) 1(2) 1(1)

11 x x x

wo   o   o

   

1(4) 2(3) 1(3) 2(2) 1(2) 2(1)

12 x x x

wo   o   o

   

1(4) (3) 1(3) (2) 1 (2) (1)

13 u u u

wo   o   o

   

1(4) 1 (3) 1 (2)

1

o o

b o  

2(4) 1(3) 2(3) 1(2) 2(2) 1(1)

21 x x x

wo   o   o

   

2(4) 2(3) 2(3) 2(2) 2(2) 2(1)

22 x x x

wo   o   o

   

2(4) (3) 2(3) (2) 2(2) (1)

23 u u u

wo   o   o

   

o(4) o(3) o(2)

b   

camada de saída

camada oculta

(20)

39

u(1) x2(1) x1(1)

1

2

3

x1(2)

y(2)

w11 w12

w13

w21 w22

w23

x2(2)

w31 w32 b3

b1

b2

1

2

3

x1(3)

y(3)

w11 w12

w13

w21 w22

w23

x2(3)

w31 w32 b3

b1

b2

u(2)

1

2

3

x1(4)

y(4)

w11 w12

w13

w21 w22

w23

x2(4)

w31 w32 b3

b1

b2

u(3)

n= 1 n= 2 n= 3 n= 4

s(4)

s(3)

s(2)

o1(4)

o2(4)

o2(3)

o1(3)

o1(2)

o2(2)

d(3) d(4) d(2)

Informática

UFRGS Prof. Paulo Martins Engel

Previsão de série temporal

• Rede recorrente como previsor de padrões temporais.

• Sinal de freqüência modulada: x(n) = sen(n+ sen(n2)), n = 0,1,...

• A rede recorrente (Elman) deve ser treinada para prever o próximo valor a partir do valor corrente (entrada atual) e do valor do estado atual.

• A rede é treinada para um padrão de 200 tempos e testada em um padrão de 100 tempos, sendo 50 tempos superpostos com o padrão de treinamento.

x ( n l )

lp0

x ( n 1 )

(21)

41

Resultados do treinamento

• GDX, 1000 passos, 10 unidades ocultas

• Treina com 200 tempos (1 a 200)

Informática

UFRGS Prof. Paulo Martins Engel

Resultados de generalização

• GDX, 1000 passos, 10 unidades ocultas

• Treina com 200 tempos (1 a 200)

• Testa com 100 tempos (150 a 250)

Referências

Documentos relacionados

A raiva é uma doença viral que acomete os animais domésticos, silvestres e destes para o homem, causando uma doença com sintomatologia?. nervosa, aguda e fatal, levando ao óbito

´e aquele pelo qual a filosofia alem˜a traduziu, depois de Kant, o latim existentia, mas Heidegger deu-lhe um sentido muito particu- lar, j´a que designa na sua filosofia

Visando a este cenário, o Ministério da Saúde criou o Programa de Educação pelo Trabalho para a Saúde (PET-Saúde), regulamentado pela Portaria Interministerial

 De acordo com a Súmula 416 do STJ, caso haja a perda da qualidade de segurado à época do óbito, mesmo assim, será devida a pensão por morte ao dependentes, desde que o

Mesmo com a limitac¸˜ao de ter uma perna de pau (a esquerda), ele ganhou seis medalhas na gin´astica: trˆes de ouro, duas de prata e uma de bronze.. O gerente de uma loja de

Varr edura TCP Window ( cont inuação) ACK- win manipulado Não Responde ACK- win manipulado ICMP Tipo 3 Firewall Negando Firewall Rejeitando Scanner de Porta... Var r edur a FI N/

Concentração de determinada substância, acima da qual podem ocorrer alterações prejudiciais à qualidade do solo e da água subterrânea VALOR DE PREVENÇÃO -

Pré-aqueça o forno, asse as fatias de abacaxi por 10 minutos em forno baixo, vire na metade do