Reservoir Computing. André Roberto Leitão. Saulo Henrique Nápoles

(1)

Sistemas Inteligentes Híbridos Sistemas Inteligentes Híbridos

Reservoir Computing

André Roberto Leitão Saulo Henrique Nápoles

(2)

Introdução

 Em Aprendizagem de Máquina, diversos estudos são

realizados em estruturas feed-forward: – Redes Neurais Artificiais

– Modelos Bayesianos

– Médos de Kernel (ex: Support Vector Machine)

(3)

Introdução

 Entretanto, existem muitas aplicações temporais,

como:

 Previsão

 de Tempo, de dados financeiros, etc.

 Sistemas de Identificação  Redução de Ruído

 Visão e Fala

(4)

Introdução

 Com a adição de Conexões Recorrentes às

arquiteturas feed-forward, é possível transformam o sistema em um sistema dinâmico bastante complexo.

 No trabalho de Hopfield, a dinâmica da Rede Neural

Recorrente (RNN) era controlada através de uma topologia bem específica com pesos simétricos e dependia criticamente de pontos atratores.

(5)

Motivação

• A literatura mostra o uso em diversas aplicações:

– Aprendizado livre de contexto e linguagens sensíveis ao contexto

– Controle e modelagem de sistemas dinâmicos complexos

– Reconhecimento de fala

• Sendo assim, em teoria, as RNNs são uma ferramenta poderosa para resolver problemas

(6)

Novas técnicas

• Técnicas construindo redes neurais recorrrentes randômicas foram

independentemente desenvolvidas.

– Echo State Network (ESN), 2001 – Liquid State Machine (LSM), 2002

– Backpropagation Decorrelation (BPDC), 2004

• Possuiam características em comum apesar de tratarem de problemas de diferentes

(7)

Sistemas Inteligentes Híbridos

Echo State Network

• Rede randômica esparsamente conectada

– Em média, menos de 5% de conectividade

– Conectividade e pesos entre os neurônios são definidas randomicamente, e são fixos

– Os pesos dos neurônios de saída é que podem ser aprendidos

• Apesar desta rede possuir um comportamento não-linear, os únicos parâmetros são os

(8)

Echo State Network

• Características da ESN

– Capacidade de short-term memory

• Para uma determinada entrada, a capacidade de memória da rede é limitada pelo número de

unidades

– O principal cálculo computacional aplicado para se treinar a rede é uma regressão linear

• Ou seja, uma minimização do erro quadrático médio

(9)

Liquid State Machine

• A palavra “líquida” no nome faz referência ao, por exemplo, ato de jogar uma pedra num recipiente

com água.

• A LSM originalmente consistia numa rede de

estrutura 3D localmente conectada por neurônios spiking e randomicamente criada, usando

parâmetros inspirados biologicamente.

• É colocada como uma maneira de explicar o

funcionamento do cérebro e dita ser uma melhoria da teoria das Redes Neurais Artificiais.

(10)

Liquid State Machine

• Críticas a LSM:

– Não explica de fato o funcionamento do cérebro

• No máximo, pode replicar algumas funcionalidades

– Não tem uma forma garantida de descobrir como e quais computações são realizadas – Muito pouco controle sobre o processo

– Pode ser considerada ineficiente do ponto de vista da implementação

(11)

Unificação

Em 2007, no artigo “An experimental unification

of reservoir computing methods” foi proposta a

unificação das idéias numa linha comum de pesquisa, denominada Reservoir Computing (RC).

(12)

Definição

• Reservoir Computing (RC) é uma abordagem

para projetar, treinar e analisar Redes Neurais Recorrentes.

(13)

Princípios Fundamentais

 Faz uso de uma grande rede neural randômica

– Cada unidade da RNN cria sua própria

transformação linear dos sinais de entrada

– Os sinais de saída da RNN são lidos através de algum mecanismo, normalmente uma simples combinação linear dos sinais “reservoir”

– As saídas podem ter um treinamento

supervisionado, tipicamente através de uma regressão linear

(14)

(15)

Tipos dos Nós

• Não há uma convenção de qual tipo de nó seja o ideal para um determinado problema • Exemplos:

– A rede com melhor capacidade de memória consiste de neurônios lineares

– Para os neurônios spiking, é mostrado que

(16)

Criação e Dimensionamento

• São aleatoriamente criadas, e a exata

distribuição dos pesos e sua “esparsidade” tem uma pequena influência na performance • Na literatura das ESN, as redes reservoir são

escaladas usando medidas baseada nos limites de estabilidade

– No LSM, tais medidas simplesmente não existem

(17)

Treinamento

• No conceito original do LSM, o reservoir pode ser processado por qualquer técninca de

regressão ou classificação estatística

– Porém na literatura ESN, apenas a regressão linear é usada como função de leitura da saída

• A função de saída pode ser treinada off-line (batch) ou usando regras de aprendizado on-line

(18)

Adaptação

• Não há nenhuma pesquisa que aponte que adaptações num reservoir vão melhorar a performance para um dado problema

• Mudança nos parâmetros usando

aprendizado não-supervisionado não implicam numa melhora

– Provavelmente devido às regras de correlação e ante-correlação serem limitadas para

(19)

Adaptação

• Recentemente, uma nova maneira de adaptação:

– Impor uma certa distribuição de saída em cada neurônio

– É chamado de “Intrinsic Plasticity” (IP)

• Alguns problemas tornam-se com reservoir apenas quando IP é aplicada

(20)

Medidas de Dinamicidade

• Devido ao alto grau de feedback não-linear, uma análise estatística da dinamicidade

baseada em medidas de estabilidade seria imprecisa

– No ESN, os autores usam “raio espectral” da matriz de conexão do reservoir

• Porém isto é apenas uma aproximação para sistemas não-lineares

• A dinamicidade é mais dependente das entradas

(21)

Aplicações

• RC é utilizado para resolver problemas de classificação temporal, regressão ou

previsão, onde a performance pode ser alcançada sem se preocupar com os

parâmetros.

• Em aplicações do mundo real é fundamental que a escala de tempo natural seja ajustado para a mesma magnitude da escala de

(22)

Aplicações

• Matemática:

• Geração automática de senos, cálculo de funções altamente não-lineares

• Robótica

• Controle de braço robótico simulado, modelagem do controlador do robô, rastreamento de objetos, previsão de movimento, detecção de eventos

(23)

• PDS

• Reconhecimento de voz, modelagem de ruído.

• Séries Temporais

• Geração e previsão de séries temporais caóticas

(24)

Implementação

• RC pode ser utilizado em qualquer sistema dinâmico de alta dimensão que tenha as

propriedades certas para preprocessar os dados e usar facilmente técnicas lineares.

• A implementação pode ser feita em Software e em Hardware

(25)

Implementação - Software

ESNJava1.0: Implementação de ESN em Java. Resevoir Lab Ghent RC Toolbox: Toolbox para Mathlab e C++ implementa ESN e LSM podendo também usar neurônios spiking

PCSIM: Ferramenta para simulação de redes heterogêneas, escrito em C++ com a primeira interface em Python

Mathlab toolbox para ESN: toolbox para ESN rápidos e didáticos

(26)

Implementação - Hardware

• Redes neurais complexas requerem poder computacional e tempo.

• Devido a natureza binária dos neurônios

spikes é possível implementar em hardware (FPGA).

• Foi construído um poderoso e flexível

framework que permite construir as redes. • Pode usar a mesma estrutura de hardware

para simular vários tipos de neurônios e topologias.

(27)

Caminhos de Hibridização

R2SP: Reservoir with Random Static Projections RC + Extreme Learning Machine (ELM)

(28)

Reservoir with Random Static

Projections

Apenas os pesos que ligam a camada de saída são treinados usando regressão linear.

A ativação da camada estática é feita segundo a fórmula:

Onde:

são as ativações e a matriz de pesos de entrada das camadas estáticas

(29)

Reservoir with Random Static

Projections

Experimento: Reconhecimento sonoro de dígitos Base de Dados: TI46 com adição de ruído

Pré-processamento: Lyon cochlear model com fator de subamostragem 128, resultando em um vetor de dimensão 77

Cálculo do Erro: 10-fold Cross-validation Arquitetura: 150 neurônios (50 para cada camada)

(30)

Reservoir with Random Static

Projections

(31)

Direção de Pesquisas Futuras

• RC é uma área nova que possui muitas questões em aberto para pesquisar.

• Regularização da leitura e da dinâmica do RC.

• A influência das topologias hierárquicas e estruturadas.

• Pode ser estendido muito além da RNN e de um sistema dinâmico de alta dimensão.

• Além de outras formas de hibridizar como RC

(32)

Referências

[1] An overview of reservoir computing: theory, applications and

implementations. Benjamin Schrauwen, David Verstraeten, Jan Van

Campenhout. In Proceedings of the 15th European Symposium on Artificial Neural Networks (2007), pp. 471-482.

[2] The unified Reservoir Computing concept and its digital hardware

implementations. David Verstraeten, Benjamin Schrauwen, Michiel D’

Haene and Dirk Stroobandt. In Proceedings of the 2006 EPFL LATSIS Symposium

[3] Reservoir Computing Approaches to Recurrent Neural Network

Training. Mantas Lukosevicius, Herbert Jaeger. Computer Science

Review, Vol. 3, No. 3. (August 2009), pp. 127-149.

(33)

[4] Reservoir computing for static pattern recognition. Mark J. Embrechts and Luís A. Alexandre and Jonathan D. Linton. 17th European

Symposium on Artificial Neural Networks – ESANN 2009

[5] Extending reservoir computing with random static projections: a

hybrid between extreme learning and RC. John Butcher, David

Verstraeten, Benjamin Schrauwen, Charles Day and Peter Haycock. European Symposium on Artificial Neural Networks, 18th, Proceedings, pp. 303-308 (2010)

[6] http://www.reservoir-computing.org/