Aprendizado Extremo Recursivo - Aprendizado Extremo

3.2 Aprendizado Extremo

3.2.1 Aprendizado Extremo Recursivo

A versão apresentada da ELM considera que todos os dados de treinamento estão dispon´ı- veis. Com o objetivo de tornar o modelo independente da disponibilidade ou não de dados de treinamento, Liang et al. (2006) propõem um algoritmo de aprendizado sequencial online, OS- ELM (Online Sequential Extreme Learning), para treinamento de redes neurais feedforward. O algoritmo é baseado na máquina de aprendizado extremo e no algoritmo de quadrados m´ınimos recursivo (RLS, Recursive Least Squares).

Dado um grupo de dados iniciais, podendo ter um ou mais dados, ℘0 = (xi, di)N

i=1e N

0 _{≥ ˜}_{N ,}

em uma ELM clássica a solu¸cão seria minimizar a fun¸cão objetivo ||H0_{β − D}0_||2_{. Reescrevendo}

a equa¸c˜ao (3.18), considerando o problema proposto, tem-se

β0 = K0−1H0TD0, (3.19)

28 Cap´ıtulo 3. Sistemas Nebulosos Evolutivos e Aprendizado Extremo

Considerando agora um novo grupo de dados ℘1 = (xi, di) N0_+N1

i=N0₊₁, onde N1 representa o

n´umero de dados nesse novo grupo. A nova fun¸c˜ao objetivo a ser minimizada toma a seguinte forma " H0 H1 # β − " D0 D1 # 2 . (3.20)

Considerando os dois grupos de dados, ℘0 _{e ℘}1_{, a solu¸c˜}_{ao do problema de minimiza¸c˜}_{ao ´}_e

β1 = K1−1 " H0 H1 #T " D0 D1 # , (3.21) onde K1 = " H0 H1 #T " H0 H1 # . (3.22)

Reescrevendo essas express˜oes de forma a tornar os novos valores da matriz de pesos de sa´ıda dependentes dos valores anteriores, tem-se

K1 =hH0TH1Ti " H0 H1 # = H0TH0+ H1TH1 = K0 + H1TH1, (3.23) e " H0 H1 #T " D0 D1 # = H0TD0+ H1TD1 = K0K0−1H0TD0+ H1TD1 = K0β0+ H1TD1 = (K1− H1T H1)β0+ H1TD1 = K1β0− H1T H1β0+ H1TD1. (3.24)

3.2. Aprendizado Extremo 29

β1 = K1−1(K1β0− H1TH1β0+ H1TD1) = β0+ K1−1H1T(D1− H1_β0

(3.25)

Generalizando para qualquer novo grupo de dados, tˆem-se

Kt+1 = Kt+ Ht+1THt+1, (3.26)

βt+1 = βt+ Kt+1−1Ht+1T(Dt+1− Ht+1βk). (3.27)

Para o c´alculo recursivo da matriz dos pesos de sa´ıda, utiliza-se Kt+1−1 _{ao inv´}_{es de K}t+1_.

Portanto, este termo também deve ser calculado recursivamente. Esse cálculo é feito utilizando a fórmula de Woodbury (Golub e Van Loan; 1996)

Kt+1−1 = (Kt+ Ht+1THt+1)−1 = Kt−1 − Kt−1_Ht+1T

(I + Ht+1Kt−1Ht+1T)−1Ht+1Kt−1.

(3.28)

Portanto, a matriz dos pesos de sa´ıda ´e calculada recursivamente da seguinte forma

Pt+1 = Pt− Pt_Ht+1T

(I + Ht+1PtHt+1T)−1Ht+1Pt, (3.29) βt+1 = βt+ Pt+1−1Ht+1T(Dt+1− Ht+1βk), (3.30)

onde Pt_{= K}t−1_.

Assim como na OS-ELM, este trabalho também utiliza a versão recursiva da ELM, po- rém aqui adota-se o algoritmo de quadrados m´ınimos recursivo ponderado (WRLS, Weighted Recursive Least Squares). Esse algoritmo é uma versão que generaliza o RLS apresentado anteriormente. No WRLS o problema a ser resolvido é encontrar os pesos da camada de sa´ıda, β, que minimizam min β N X j=1 ψN −j||ˆyj− dj||2 (3.31)

onde 0 < ψN −j _{≤ 1 ´e chamado fator de esquecimento que pondera o valor de erros anteriores e}

30 Cap´ıtulo 3. Sistemas Nebulosos Evolutivos e Aprendizado Extremo

A solu¸cão do WRLS é semelhante ao RLS apresentado anteriormente e não será demonstrada. Para as redes propostas neste trabalho, o problema é encontrar os pesos da camada de sa´ıda, R = [rjl], que minimizam min R N X k=1 ψN −k||Rk_vk_{− f}−1 (yk)||2 (3.32)

onde f−1(y) = log(y) − log(1 − y), y ´e a sa´ıda desejada, v = [v1, . . . , vLt]T ´e a sa´ıda dos

neurônios da camada intermediária. Diferente da OS-ELM, e da ELM, o neurônio de sa´ıda das redes implementadas possuem uma fun¸cão de ativa¸cão sigmoidal, por isso o termo f−1(y) aparece na fun¸cão objetivo. Chamamos essa versão de OS-ELMn, onde (n) enfatiza a aplica¸cão de uma fun¸cão não linear na sa´ıda. A aplica¸cão da rede OS-ELMn é uma contribui¸cão deste trabalho.

A defini¸cão dos pesos das redes neurais propostas é similar ao apresentado anteriormente. Os pesos da camada intermediária são definidos de maneira não supervisionada e esses pesos são mantidos fixos até o final da aplica¸cão. Os pesos da camada de sa´ıda, R = [rjl], são calculados

utilizando o algoritmo de m´ınimos quadrados recursivo ponderado com fator de esquecimento ψ conforme

p = Qt−1v{ψ + (v)TQt−1v}−1 (3.33)

Qt = (ILt − p(v)T)ψ−1Qt−1 (3.34)

Rt = Rt−1+ (p)T(f−1(y) − Rt−1v). (3.35)

A inicializa¸cão de Q é usualmente ILtω, onde ω = 1000, I_Lt é a matriz de identidade de

dimens˜ao Lt_{× L}t_{, onde L}t_´_{e o n´}_{umero de neurˆ}_{onios na camada intermedi´}_{aria e os pesos de sa´ıda}

s˜ao inicializados com zero.

3.3 Resumo

Sistemas nebulosos evolutivos foram resumidos neste cap´ıtulo. Após uma breve explana¸cão e motiva¸cão para esta classe de sistemas, apresentou-se em seguida dois sistemas que serviram de base para este trabalho, o eTS e o ANYA.

3.3. Resumo 31

consideradas, com ênfase nos seus fundamentos e formula¸cão. Exemplos de aplica¸cões mencio- nadas na literatura também foram apresentadas.

Cap´ıtulo

4

Redes Neurais com Aprendizado Extremo

Recursivo

Este cap´ıtulo apresenta duas redes neurais com aprendizado extremo recursivo. O objetivo dessas redes ´e modelar sistemas e representar a dependˆencia entre a entrada e a sa´ıda, z = [xT_{, y}T_]T _{∈ <}n+m_{, onde x ∈ <}n _{e y ∈ <}m_{. A entrada de dados assume um fluxo, portanto}

todos os c´alculos s˜ao realizados de maneira recursiva.

A primeira rede neural é uma rede neural nebulosa h´ıbrida evolutiva com neurônios nebulosos com operadores definidos por uninormas. Os unineurônios são do tipo II, onde as entradas, os pesos e os operadores são definidos segundo os sistemas nebulosos. A rede utiliza um algoritmo recursivo de agrupamento, baseado nas nuvens, para particionar e representar o espa¸co de entrada-sa´ıda. A determina¸cão dos parâmetros do sistema é realizado por um algoritmo baseado em máquinas de aprendizado extremo e no algoritmo quadrados m´ınimos recursivo ponderado.

A segunda é uma rede neural evolutiva com aprendizado extremo recursivo, uma rede neural feedforward de três camadas que adiciona neurônios na camada intermediária conforme a densidade dos dados no espa¸co de entrada-sa´ıda. Um algoritmo recursivo de agrupamento, baseado no conceito de densidade dos dados, particiona o espa¸co de entrada-sa´ıda. A cada nova parti¸cão, um neurônio é adicionado na camada intermediária. Os parâmetros da rede são determinados por um algoritmo baseado em máquinas de aprendizado extremo e no algoritmo quadrados m´ınimos recursivo ponderado.

34 Cap´ıtulo 4. Redes Neurais com Aprendizado Extremo Recursivo

4.1 Rede Neural Nebulosa H´ıbrida Evolutiva

Métodos clássicos de modelagem de sistemas com algum tipo de inteligência computacional utilizam treinamentos offline (Irwin; 1998; Yao; 1999; Fukuda e Kubota; 2001; Naso e Maione; 2001). Os parâmetros e a estrutura do sistema são formados através de um treinamento antes de sua aplica¸cão. O sistema formado é estável, ou seja, não modifica seus parâmetros conforme novos dados. Sistemas evolutivos possuem a capacidade de atualizar seus parâmetros e sua estrutura simultaneamente, de acordo com um fluxo de dados (Angelov e Filev; 2004).

Redes neurais nebulosas evolutivas (eFNN, evolving Fuzzy Neural Network), assim como os sistemas evolutivos, são capazes de adaptar continuamente sua estrutura e atualizar seus parâmetros de acordo com um fluxo de dados (Angelov e Xiaowei; 2006). Devido seu processo de aprendizagem, as redes neurais nebulosas evolutivas podem adequar-se às varia¸cões que ocorrem em um sistema.

O processo de aprendizado de um eFNN geralmente possui duas partes, um agrupamento do espa¸co de entrada e uma atualiza¸cão dos parâmetros do sistema. Para auxiliar no processo de aprendizado algumas redes da literatura necessitam de um pré-treinamento para serem desenvolvidas.

Uma rede que utiliza um pré-treinamento é proposta por Liao e Tsao (2003). Os autores utilizam a abordagem evolutiva e realizam um pré ajuste dos parâmetros e da estrutura da eFNN utilizando algoritmos genéticos e uma busca tabu para previsão do consumo diário de energia em Taiwan.

Ho et al. (2010) utilizam de uma eFNN chamada sistema de inferência neural nebuloso Mandani-Takagi-Sugeno evolutivo (eMTSFIS, evolving Mandani-Takagi-Sugeno Neural-Fuzzy Inference System). A rede é utilizada para a previsão de valores diários do ´ındice de uma bolsa de valores. Ela é treinada utilizando uma aprendizagem supervisionada e os parâmetros são atualizados continuamente conforme os dados de entrada.

Wang et al. (2012) propõem um ajuste dos parâmetros por um algoritmo estimativo de m´ınimos quadrados e o agrupamento do espa¸co de entrada-sa´ıda é utilizado para a defini¸cão da estrutura. Após esse processo, é realizada uma otimiza¸cão da estrutura e dos parâmetros utilizando algoritmos genéticos.

Luna et al. (2009) realizam um pré-processamento, no caso, um agrupamento subtrativo no espa¸co de entrada para definir a estrutura da rede. Esse procedimento não é estritamente necessário. Ele é realizado pois no processo de ajuste dos parâmetros a rede utiliza uma versão

4.1. Rede Neural Nebulosa H´ıbrida Evolutiva 35

recursiva do algoritmo de maximiza¸c˜ao da expectativa (EM, Expectation Maximization), e esse algoritmo ´e sens´ıvel ao estado inicial do sistema.

Sistemas que não necessitam de pré-treinamento não possuem informa¸cão a priori do dados, portanto possuem um alto n´ıvel de adapta¸cão.

Uma eFNN que não necessita de pré-treinamento foi proposta por Nguyen e Quek (2010). Os autores propõem uma eFNN onde o espa¸co de entrada é particionado utilizando um algoritmo chamado agrupamento crescente escala-multidimensional. Esse algoritmo gerencia as regras, criando, fundindo e excluindo quando necessário. Os parâmetros da eFNN são ajustados utilizando um algoritmo de aprendizagem RLS, esses procedimentos são realizados a cada novo dado de entrada, com um fluxo de dados.

Souza et al. (2012) propõem uma eFNN onde a estrutura e os parâmetros são ajustados de modo online. Aqui utiliza-se um algoritmo de agrupamento evolutivo participatório gaussi- ano que gerencia as regras definindo a estrutura. Os parâmetros são ajustados utilizando um algoritmo WRLS.

Leite et al. (2012) utilizam uma eFNN para previsão de séries temporais. Nesse artigo os autores propõem um neurônio nebuloso que se diferencia dos comumente utilizados, um modelo de neurônio com agrega¸cão nebulosa. O agrupamento do espa¸co de entrada utiliza um novo conceito, realizando uma granula¸cão do espa¸co de entrada, tornando o processo mais abstrato e com representa¸cão compacta.

Bordignon e Gomide (2014) propõem uma eFNN com neurônios baseados em uninormas. A rede realiza um agrupamento do espa¸co de entrada utilizando dois algoritmos diferentes. O ajuste dos parâmetros é realizado como na rede proposta nesta se¸cão, através de uma versão recursiva da máquina de aprendizado extremo.

As áreas de aplica¸cão das eFNN são muitas. Elas são utilizadas para previsão de pre¸co de estoque (Nguyen e Quek; 2010), modelo térmico de transformadores de energia (Souza et al.; 2012), previsão do estado do sistema (Wang et al.; 2012), entre outras.

Esta se¸cão apresenta uma eFNN com alto n´ıvel de adapta¸cão que não necessita de nenhum pré-treinamento. Nesta rede, uma uninorma é utilizada como processamento sináptico de um neurônio nebuloso. O agrupamento dos dados de entrada-sa´ıda utilizará um procedimento chamado de nuvens. As nuvens formam grupos com contornos indefinidos e os dados podem pertencer a diversas nuvens com diferentes graus. Além disso as nuvens não necessitam de uma expl´ıcita defini¸cão da fun¸cão de pertinência ou um pressuposto anterior, o que é o caso de diversos modelos da literatura. O ajuste dos parâmetros será realizado a partir de uma versão recursiva

36 Cap´ıtulo 4. Redes Neurais com Aprendizado Extremo Recursivo

da máquina de aprendizado extremo, similar à proposta por Bordignon e Gomide (2014). Os pesos da camada intermediária da rede são escolhidos de maneira não supervisionada no intervalo [0,1], tornando a fun¸cão custo a ser minimizada dependente somente de uma variável, os pesos da camada de sa´ıda. A determina¸cão dos pesos da camada de sa´ıda é realizada através do algoritmo WRLS. Todas essas propostas irão tornar o processo ainda mais dinâmico e capaz de simular sistemas complexos e não lineares.

No documento Redes neurais evolutivas com aprendizado extremo recursivo (páginas 53-62)