As extensões da rede Elman propostas a seguir utilizam o modelo da rede ELM introduzido no Capítulo 6. As redes envolvem as ideias já estabelecidas para a rede NARX- MISO e para a rede de Elman. Todas as arquiteturas propostas utilizam os mesmos três passos enumerados para o treinamento da rede ELM original. A única diferença se encontra nas realimentações e na forma com que as unidades de entrada são construídas.
Naturalmente as extensões da rede de Elman usando o modelo da rede ELM propostas tem o custo computacional aumentado, uma vez que a dimensão da unidade de entrada é maior do que a rede sem realimentações. No entanto esta dificuldade pode ser desprezível pela velocidade com que a rede ELM é treinada. Desta forma, um dos objetivos desta tese é justamente comparar os desempenhos das arquiteturas propostas e avaliar se há ganhos na capacidade preditiva das
redes recorrentes resultantes que compensem a complexidade adicional. As extensões da rede ELM avaliadas nesta tese são descritas a seguir.
7.4.1 Rede ELMAN-ELM
Esta arquitetura recorrente é baseada na arquitetura analisada na Seção 7.2, sendo que ao invés da utilização do algoritmo backpropagtion, é obtida a partir da rede ELM básica. A rede ELMAN-ELM é construída através da redefinição da camada de entrada da rede, que passa a ser dividida em duas partes. A primeira parte corresponde ao vetor de entrada definido conforme a Equação (7.1), que segue o Teorema de Takens. A segunda parte da entrada da rede de Elman contém as unidades de contexto, cujos valores são obtidos a partir da realimentação das saídas dos neurônios ocultos no instante n − 1, ou seja
xc
(n) = [xc1(n) xc2(n) ··· xcq(n)]T ∈ Rq (7.25)
= [v1(n − 1) v2(n − 1) ··· vq(n − 1)]T,
em que xc(n) ∈ Rqé chamada de vetor de contexto.
Assim, para uma rede ELMAN-ELM com q neurônios ocultos, as saídas destes neurônios são dadas por
vi(n) = φ [ui(n)], i= 1, . . . , q (7.26)
em que uidenota a ativação do i-ésimo neurônio oculto, definida como
ui(n) = dE
∑
j=1 wi j(n)xj(n) + q∑
l=1 wcil(n)xcl(n) − θi(n), (7.27)em que wi j é o peso que conecta a j-ésima unidade de entrada ao i-ésimo neurônio oculto, wcil é
o peso que conecta a l-ésima unidade de contexto ao i-ésimo neurônio oculto e θi(n) é o limiar
do i-ésimo neurônio oculto.
Vetorialmente, as Equações (7.26) e (7.27) podem ser escritas como
v(n) = φ(u(n)) = φ(W1x(n) + Wcxc(n)), (7.28)
com v(n) e u(n) denotando, respectivamente, os vetores contendo as saídas e as ativações dos neurônios ocultos.
Por fim, o acúmulo das saídas dos neurônios ocultos e o cálculo dos pesos dos neurônios de saída seguem as mesmas considerações matemáticas definidas para a rede ELM original (Seção 6.4), descritos nas Equações (6.16) e (6.19), respectivamente.
A Figura 40 ilustra uma rede ELMAN-ELM com a entrada x(n) definida de acordo com o Teorema de Takens, um contexto de realimentação formado pela saída dos neurônios ocultos (xc(n) = v(n − 1)), as matrizes W1e Wcrepresentando os pesos da camada não-linear
que são definidos aleatoriamente durante o treinamento e o vetor m representando os pesos do único neurônio de saída.
1ª camada 2ª camada Takens Realimentação x(n) W1 m v(n - 1) u(n) v(n) . . . Wc y(n) = x(n+1)^
Figura 40 – Rede ELMAN-ELM aplicada em predição de séries temporais.
7.4.2 Rede Híbrida ELMAN/NARX-ELM
Nesta seção, é proposto um modelo híbrido, que consiste de uma recorrência da saída dos neurônios da camada oculta e uma recorrência da camada de saída da rede. Esta arquitetura recorrente é a combinação das propostas da rede NARX-ELM e da rede ELMAN-ELM, sendo assim baseada na rede NARX-MISO e na rede de Elman ao mesmo tempo. Esta rede é obtida a partir da rede ELM básica através da redefinição da camada de entrada, que passa a ser dividida em três partes:
1. A primeira parte, vetor x(n) ∈ RdE, corresponde ao vetor de entrada definido conforme a
Equação 7.1, que segue o Teorema de Takens .
2. A segunda parte da entrada da rede ELMAN/NARX-ELM corresponde as unidades do primeiro contexto, cujos valores são obtidos a partir da realimentação das saídas dos neurônios ocultos no instante n − 1 .
xc1(n) = v(n − 1) = [v
1(n − 1) v2(n − 1) ··· vq(n − 1)]T ∈ Rq (7.29)
3. A terceira parte corresponde ao segundo contexto, definido pelo regressor de saída da rede NARX .
xc2(n) = ysp(n) = [x(n) x(n − 1) ··· x(n − dy+ 1)]T ∈ Rdy (7.30)
= [xc21 (n) xc22 (n) ··· xc2dY(n)]T
Assim, para uma rede ELMAN/NARX-ELM com q neurônios ocultos, as saídas destes neurônios são dadas por
vi(n) = φ [ui(n)], i= 1, . . . , q (7.31)
em que uidenota a ativação do i-ésimo neurônio oculto, definida como
ui(n) = dE
∑
j=1 wi j(n)xj(n) + q∑
l=1 wc1il (n)xc1l (n) + dy∑
m=1 wc2im(n)xc2m(n) − θi(n), (7.32)em que wi j é o peso que conecta a j-ésima unidade de entrada ao i-ésimo neurônio oculto, wc1il é
o peso que conecta a l-ésima unidade do primeiro contexto ao i-ésimo neurônio oculto, wc2 imé o
peso que conecta a l-ésima unidade do segundo contexto ao i-ésimo neurônio oculto e θi(n) é o
limiar do i-ésimo neurônio oculto.
Vetorialmente, as Equações (7.31) e (7.32) podem ser escritas como v(n) = φ(u(n)) = φ(W1x(n) + Wc1xc1(n) + Wc2y
sp(n)), (7.33)
com v(n) e u(n) denotando, respectivamente, os vetores contendo as saídas e as ativações dos neurônios ocultos.
Esta nova abordagem tem por objetivo aliar a capacidade de modelar dependências temporais de curto prazo da rede de Elman, com a capacidade de modelar dependências de longo prazo da rede NARX. Com isto, tenta-se verificar se esta combinação de informações pode trazer algum ganho na tarefa de predição múltiplos-passos-adiante.
7.5 Conclusão
Neste capítulo foram propostas algumas extensões da rede recorrente de Elman treinadas com o backpropagation voltadas para predição de séries temporais univariadas. Dentre as modificações propostas estão o uso de duas camadas ocultas, a realimentação ou da ativação ou da derivada da ativação de uma das camadas ocultas. Também são propostas redes baseadas na implementação da rede de Elman usando o algoritmo de treinamento da rede ELM.
O próximo capítulo apresenta os resultados das simulações computacionais das RNAs utilizando o modelo NARX-MISO e sua extensão para o modelo NARX-MIMO. É avaliada a capacidade preditiva destas redes comparando com outras arquiteturas neurais, tais como, FTDNN e Elman, na tarefa de predição múltiplos-passos-adiante.
8 RESULTADO PARA AS REDES NARX-MISO E NARX-MIMO
8.1 Introdução
Este capítulo tem o propósito de avaliar o desempenho das redes NARX-MISO e NARX-MIMO em relação aos de outras arquiteturas neurais, tais como FTDNN e Elman, na tarefa de predição recursiva, usando a série do laser caótico e a série de precipitação mensal de chuva na cidade de Fortaleza. O objetivo deste estudo é ressaltar as diferenças no projeto de tais arquiteturas neurais recorrentes, a fim de oferecer subsídios ao usuário no momento da escolha da arquitetura mais adequada à tarefa de interesse.