Redes neurais evolutivas com aprendizado extremo recursivo

(1)

Raul Arthur Fernandes Rosa

Redes Neurais Evolutivas com Aprendizado Extremo

Recursivo

Campinas 2014

(2)

(3)

Universidade Estadual de Campinas

Faculdade de Engenharia El´

etrica e de Computa¸c˜

ao

Raul Arthur Fernandes Rosa

Redes Neurais Evolutivas com Aprendizado Extremo

Recursivo

Disserta¸cão de Mestrado apresentada ao Programa de P´ os-Gradua¸cão em Engenharia Elétrica da Faculdade de Enge-nharia Elétrica e de Computa¸cão da Universidade Estadual de Campinas para obten¸cão do t´ıtulo de Mestre em Engenha-ria Elétrica.

´

Area de Concentra¸c˜ao: Engenharia de Computa¸c˜ao. Orientador: Fernando Antonio Campos Gomide

Coorientador: Marcos Eduardo Ribeiro do Valle Mesquita

Este exemplar corresponde à versão final da disserta¸cão defendida pelo aluno Raul Arthur Fernandes Rosa, e orien-tada pelo Prof. Dr. Fernando Antonio Campos Gomide

Campinas 2014

(4)

Ficha catalográfica

Universidade Estadual de Campinas Biblioteca da Área de Engenharia e Arquitetura

Rose Meire da Silva - CRB 8/5974

Rosa, Raul Arthur Fernandes,

1989-R71r RosRedes neurais evolutivas com aprendizado extremo recursivo / Raul Arthur Fernandes Rosa. – Campinas, SP : [s.n.], 2014.

RosOrientador: Fernando Antonio Campos Gomide.

RosCoorientador: Marcos Eduardo Ribeiro do Valle Mesquita.

RosDissertação (mestrado) – Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação.

Ros1. Redes neurais artificiais. 2. Aprendizagem. 3. Computação evolutiva. 4. Sistemas nebulosos. I. Gomide, Fernando Antonio Campos,1951-. II. Mesquita, Marcos Eduardo Ribeiro do Valle. III. Universidade Estadual de Campinas. Faculdade de Engenharia Elétrica e de Computação. IV. Título.

Informações para Biblioteca Digital

Título em outro idioma: Evolving neural networks with recursive extreme learning Palavras-chave em inglês:

Artificial neural networks Learning

Evolutionary computation Fuzzy systems

Área de concentração: Engenharia de Computação Titulação: Mestre em Engenharia Elétrica

Banca examinadora:

Fernando Antonio Campos Gomide [Orientador] Michel Bortolini Hell

Romis Ribeiro de Faissol Attux Data de defesa: 25-08-2014

Programa de Pós-Graduação: Engenharia Elétrica

(5)

(6)

(7)

Resumo

Esta disserta¸cão estuda uma classe de redes neurais evolutivas para modelagem de sistemas a partir de um fluxo de dados. Esta classe é caracterizada por redes evolutivas com estruturas feedforward e uma camada intermediária cujo número de neurônios é variável e determinado durante a modelagem. A aprendizagem consiste em utilizar métodos de agrupamento para estimar o número de neurônios na camada intermediária e algoritmos de aprendizagem extrema para determinar os pesos da camada intermediária e de sa´ıda da rede. Neste caso, as redes neurais são chamadas de redes neurais evolutivas. Um caso particular de redes evolutivas é quando o número de neurônios da camada intermediária é determinado a priori, mantido fixo, e somente os pesos da camada intermediária e de sa´ıda da rede são atualizados de acordo com dados de entrada. Os algoritmos de agrupamento e de aprendizagem extrema que compõem os métodos evolutivos são recursivos, pois a aprendizagem ocorre de acordo com o processamento de um fluxo de dados.

Em particular, duas redes neurais evolutivas são propostas neste trabalho. A primeira é uma rede neural nebulosa h´ıbrida evolutiva. Os neurônios da camada intermediária desta rede são unineurônios, neurônios nebulosos com processamento sináptico realizado por uninormas. Os neurônios da camada de sa´ıda são sigmoi-dais. Um algoritmo recursivo de agrupamento baseado em densidade, chamado de nuvem, é utilizado para particionar o espa¸co de entrada-sa´ıda do sistema e estimar o número de neurônios da camada intermediária da rede; a cada nuvem corresponde um neurônio. Os pesos da rede neural nebulosa h´ıbrida são determinados utilizando a máquina de aprendizado extremo com o algoritmo quadrados m´ınimos recursivo ponderado. O segundo tipo de rede proposto neste trabalho é uma rede neural mul-ticamada evolutiva com neurônios sigmoidais na camada intermediária e de sa´ıda. Similarmente à rede h´ıbrida, nuvens particionam o espa¸co de entrada-sa´ıda do

(8)

tema e são utilizadas para estimar o número de neurônios da camada intermediária. O algoritmo para determinar os pesos da rede é a mesma versão recursiva da máquina de aprendizado extremo. Além das redes neurais evolutivas, sugere-se também uma varia¸cão da rede adaptativa OS-ELM (online sequential extreme learning machine) mantendo o número de neurônios na camada intermediária fixo e introduzindo neurˆ o-nios sigmoidais na camada de sa´ıda. Neste caso, a aprendizagem usa o algoritmo dos quadrados m´ınimos recursivo ponderado no aprendizado extremo.

As redes foram analisadas utilizando dois benchmarks clássicos: identifica¸cão de forno a gás com o conjunto de dados de Box-Jenkins e previsão de série temporal caótica de Mackey-Glass. Dados sintéticos foram gerados para analisar as redes neurais na modelagem de sistemas com parâmetros e estrutura variantes no tempo (concept drif e concept shift). Os desempenhos foram quantificados usando a raiz quadrada do erro quadrado médio e avaliados com o teste estat´ıstico de Deibold-Mariano. Os desempenhos das redes neurais evolutivas e da rede adaptativa foram comparados com os desempenhos da rede neural com aprendizagem extrema e dos métodos de modelagem evolutivos representativos do estado da arte. Os resultados mostram que as redes neurais evolutivas sugeridas neste trabalho são competitivas e têm desempenhos similares ou superiores às abordagens evolutivas propostas na literatura.

Palavras chave: sistemas evolutivos; redes neurais evolutivas; aprendizado extremo; modelagem de processos.

(9)

Abstract

This dissertation studies a class of evolving neural networks for system modeling from data streams. The class encompasses single hidden layer feedforward neu-ral networks with variable and online definition of the number of hidden neurons. Evolving neural network learning uses clustering methods to estimate the number of hidden neurons simultaneously with extreme learning algorithms to compute the weights of the hidden and output layers. A particular case is when the evolving network keeps the number of hidden neurons fixed. In this case, the number of hid-den neurons is found a priori, and the hidhid-den and output layer weights updated as data are input. Clustering and extreme learning algorithms are recursive. Therefore, the learning process may occur online or real-time using data stream as input.

Two evolving neural networks are suggested in this dissertation. The first is an evolving hybrid fuzzy neural network with unineurons in the hidden layer. Unineu-rons are fuzzy neuUnineu-rons whose synaptic processing is performed using uninorms. The output neurons are sigmoidals. A recursive clustering algorithm based on density and data clouds is used to granulate the input-output space, and to estimate the number of hidden neurons of the network. Each cloud corresponds to a hidden neuron. The weights of the hybrid fuzzy neural network are found using the extreme learning ma-chine and the weighted recursive least squares algorithm. The second network is an evolving multilayer neural network with sigmoidal hidden and output neurons. Like the hybrid neural fuzzy network, clouds granulate the input-output space and gives the number of hidden neurons. The algorithm to compute the network weights is the same recursive version of the extreme learning machine. A variation of the adaptive OS-ELM (online sequential extreme learning machine) network is also suggested. Similarly as the original, the new OS-ELM fixes the number of hidden neurons, but uses sigmoidal instead of linear neurons in the output layer. The new OS-ELM also uses weighted recursive least square.

(10)

The hybrid and neural networks were evaluated using two classic benchmarks: the gas furnace identification using the Box-Jenkins data, and forecasting of the cha-otic Mackey-Glass time series. Synthetic data were produced to evaluate the neural networks when modeling systems with concept drift and concept shift. This a mode-ling circumstance in which system structure and parameters change simultaneously. Evaluation was done using the root mean square error and the Deibold-Mariano statistical test. The performance of the evolving and adaptive neural networks was compared against neural network with extreme learning, and evolving mode-ling methods representative of the current state of the art. The results show that the evolving neural networks and the adaptive network suggested in this disserta-tion are competitive and have similar or superior performance than the evolving approaches proposed in the literature.

Keywords: evolving systems; evolving neural networks; extreme learning; system modeling.

(11)

Sum´

ario

1 Introdu¸c˜ao 1

1.1 Motiva¸c˜ao e Relevˆancia . . . 1

1.2 Objetivos . . . 2

1.3 Organiza¸c˜ao do Trabalho . . . 3

2 Redes Neurais Nebulosas 5 2.1 Redes Neurais Artificiais . . . 5

2.2 Redes Neurais Nebulosas . . . 7

2.2.1 Neurˆonios and e or . . . 10

2.2.2 Unineurˆonios . . . 12

2.3 Resumo . . . 15

3 Sistemas Nebulosos Evolutivos e Aprendizado Extremo 17 3.1 Sistemas Nebulosos Evolutivos . . . 17

3.1.1 Takagi-Sugeno Evolutivo . . . 18

3.1.2 Modelo Nebuloso Evolutivo Baseado em Nuvens . . . 21

3.2 Aprendizado Extremo . . . 25

3.2.1 Aprendizado Extremo Recursivo . . . 27

3.3 Resumo . . . 30

4 Redes Neurais com Aprendizado Extremo Recursivo 33 4.1 Rede Neural Nebulosa H´ıbrida Evolutiva . . . 34

4.1.1 Estrutura da Rede . . . 36

4.1.2 Parti¸c˜ao e Representa¸c˜ao do Espa¸co de Entrada-Sa´ıda . . . 38

4.1.3 Algoritmo de Aprendizagem da eHFN . . . 42

4.2 Rede Neural Evolutiva com Aprendizado Extremo Recursivo . . . 44

4.2.1 Estrutura da Rede . . . 46 xi

(12)

4.2.2 Defini¸cão do Número de Neurônios na Camada Intermediária . . . 48

4.2.3 Algoritmo de Aprendizagem da eNNEL . . . 48

4.3 Resumo . . . 50

5 Resultados Computacionais 51 5.1 Introdu¸c˜ao . . . 51

5.2 Critérios de Avalia¸cão e Valida¸cão . . . 52

5.2.1 Raiz Quadrada do Erro Quadrado M´edio . . . 52

5.2.2 Teste Estat´ıstico Diebold-Mariano . . . 53

5.2.3 Valida¸c˜ao Cruzada . . . 54

5.3 Identifica¸c˜ao de Sistemas . . . 55

5.4 Previs˜ao de S´eries Temporais . . . 63

5.4.1 S´erie Temporal Mackey-Glass . . . 63

5.4.2 S´erie Temporal N˜ao Linear . . . 75

5.5 Resumo . . . 84

6 Conclus˜ao 87

Bibliografia 89

(13)

Agradecimentos

Agrade¸co,

ao professor Fernando Gomide, pela oportunidade, disponibilidade e pelos ensinamentos t˜ao valiosos.

ao professor Marcos Eduardo Valle, por mais de 4 anos de parceria.

aos professores da banca, Michel Hell e professor Romis Attux pelas considera¸c˜oes e enriqueci-mento do trabalho.

aos colegas de orienta¸c˜ao: Thomas Barlett e Leandro Maciel, pelas conversas e ajudas nos mo-mentos de necessidade.

aos amigos que fiz na APOGEEU: Alan, Rafael, Edgar, Thisien, Eliezer, David, Saullo, Micael e Clarissa, pelo mútuo interesse em construir uma pós-gradua¸cão melhor e além do laboratório. aos professores e funcionários da FEEC, que fazem deste curso de pós-gradua¸cão um dos me-lhores do pa´ıs.

`

a CAPES, pelo apoio financeiro fornecido.

aos amigos de rep´ublica: Seike, Victor, Lucas e Natalia, pelas conversas enriquecedoras e par-ceria.

aos meus amigos de longa data: Jef, Jo˜ao, Marcel, Eduardo e Adalberto, pelos mais de 10 anos de companheirismo.

em especial, `a minha fam´ılia, Luis, Leila, Lara e Vit´oria, as pessoas mais importantes da minha vida.

`

a minha namorada e melhor amiga, Lara, pelo apoio e dedica¸c˜ao nesses 5 anos de amor.

(14)

(15)

O revolucionário é o homem que transgride, que não aceita, uma regra injusta. Respeite todas as regras justas, respeite pela sua consciência, não passe em cima do direito de ninguém. Agora, a regra injusta a gente não aceita.

O revolucion´ario Pl´ınio de Arruda Sampaio

(16)

(17)

Lista de Figuras

2.1 Neurˆonio artificial. . . 6

2.2 Rede neural artificial feedforward de ´unica camada intermedi´aria. . . 6

2.3 Neurˆonio nebuloso. . . 9

2.4 Neurˆonio l´ogico do tipo and. . . 11

2.5 Neurˆonio l´ogico do tipo or. . . 11

2.6 Unineurˆonio. . . 13

2.7 Exemplos de uninormas. . . 15

3.1 Demonstra¸c˜ao do potencial (Lemos; 2011). . . 20

3.2 Diferen¸cas entre nuvens e grupos (Angelov e Yager; 2011a). . . 23

4.1 Estrutura da rede neural nebulosa h´ıbrida evolutiva. . . 36

4.2 Estrutra da rede neural evolutiva com aprendizado extremo recursivo. . . 46

5.1 Treinamento e valida¸c˜ao para os dados Box-Jenkins. . . 56

5.2 Boxplot para os dados Box-Jenkins, para o conjunto Todos. . . 58

5.3 Sa´ıdas das redes para os dados Box-Jenkins, para o conjunto Todos. . . 60

5.4 Evolu¸cão do número de neurônios para os dados Box-Jenkins, para o conjunto Todos. . . 61

5.5 Boxplot para os dados Box-Jenkins, para o conjunto Fim. . . 62

5.6 Sa´ıdas das redes para os dados Box-Jenkins, para o conjunto Fim. . . 64

5.7 Evolu¸cão do número de neurônios para os dados Box-Jenkins, para o conjunto Fim. 65 5.8 Treinamento e valida¸cão para a série Mackey-Glass. . . 65

5.9 Boxplot para a s´erie temporal Mackey-Glass, para o conjunto Todos. . . 66

5.10 Sa´ıdas das redes para a s´erie temporal Mackey-Glass, para o conjunto Todos. . . 68 xvii

(18)

5.11 As 600 primeiras sa´ıdas das redes para a s´erie temporal Mackey-Glass, para o

conjunto Todos. . . 69

5.12 Evolu¸cão do número de neurônios para a série temporal Mackey-Glass, para o conjunto Todos. . . 70

5.13 Boxplot para a s´erie temporal Mackey-Glass, para o conjunto Fim. . . 71

5.14 Sa´ıdas das redes para a s´erie temporal Mackey-Glass, para o conjunto Fim. . . . 73

5.15 As 600 primeiras sa´ıdas das redes para a s´erie temporal Mackey-Glass, para o conjunto Fim. . . 74

5.16 Evolu¸cão do número de neurônios para a série temporal Mackey-Glass, para o conjunto Fim. . . 75

5.17 Treinamento e valida¸cão para a série temporal não linear. . . 77

5.18 Boxplot para a s´erie temporal n˜ao linear, para o conjunto Todos. . . 78

5.19 Sa´ıdas das redes para a s´erie temporal n˜ao linear, para o conjunto Todos. . . 80

5.20 Evolu¸cão do número de neurônios para a série temporal não linear, para o con-junto Todos. . . 81

5.21 Boxplot para a s´erie temporal n˜ao linear, para o conjunto Fim. . . 82

5.22 Sa´ıdas das redes para a s´erie temporal n˜ao linear, para o conjunto Fim. . . 84

5.23 Evolu¸cão do número de neurônios para a série temporal não linear, para o con-junto Fim. . . 85

(19)

Lista de Tabelas

5.1 Desempenho para o conjunto de dados Box-Jenkins, para o conjunto Todos. . . 57 5.2 Teste estat´ıstico DM para os dados Box-Jenkins, para o conjunto Todos. . . 58 5.3 Resumo do teste estat´ıstico DM para os dados Box-Jenkins, para o conjunto Todos. 59 5.4 Desempenho para o conjunto de dados Box-Jenkins, para o conjunto Fim. . . 61 5.5 Teste estat´ıstico DM para os dados Box-Jenkins, para o conjunto Fim. . . 62 5.6 Resumo do teste estat´ıstico DM para os dados Box-Jenkins, para o conjunto Fim. 63 5.7 Desempenho para a série temporal Mackey-Glass, para o conjunto Todos. . . 66 5.8 Teste estat´ıstico DM para a série temporal Mackey-Glass, para o conjunto Todos. 67 5.9 Resumo do teste estat´ıstico DM para a série temporal Mackey-Glass, para o

conjunto Todos. . . 67 5.10 Desempenho para a série temporal Mackey-Glass, para o conjunto Fim. . . 71 5.11 Teste estat´ıstico DM para a série temporal Mackey-Glass, para o conjunto Fim. 72 5.12 Resumo do teste estat´ıstico DM para a série temporal Mackey-Glass, para o

conjunto Fim. . . 72 5.13 Série temporal não linear . . . 76 5.14 Desempenho para a série temporal não linear, para o conjunto Todos. . . 78 5.15 Teste estat´ıstico DM para a série temporal não linear, para o conjunto Todos. . 79 5.16 Resumo do teste estat´ıstico DM para a série temporal não linear, para o conjunto

Todos. . . 79 5.17 Desempenho para a série temporal não linear, para o conjunto Fim. . . 82 5.18 Teste estat´ıstico DM para a série temporal não linear, para o conjunto Fim. . . . 83 5.19 Resultados do teste estat´ıstico DM para a série temporal não linear, para o

con-junto Fim. . . 83

(20)

(21)

Lista de Acrˆ

onimos

OS-ELM Online Sequential Extreme Learning Machine

TS Takagi-Sugeno

eTS evolving Takagi-Sugeno

ANYA ANgelov e YAger

NN Neural Network (rede neural)

SLFN Single Hidden Layer Feedforward Neural Networks

FRB Fuzzy Rule-Based

FNN Fuzzy Nerual Networks

ANFIS Adaptive-Network-Based Fuzzy Inference System

eFNN Evolving Fuzzy Neural Network

eFS evolving Fuzzy Systems

ELM Extreme Learning Machines

RLS Recursive Least Squares

OS-ELMn Online Sequential Extreme Learning Machine with Nonlinear function

EM Expectation Maximization

eHFN evolving Hybrid Fuzzy Neural network WRLS Weighted Recursive Least Squares

OP-ELM Optimally Pruned Extreme Learning Machine

eNNEL evolving Neural Network with recursive Extreme Learning DENFIS Dynamic Evolving Neuro-Fuzzy Inference System

RMSE Root Mean Squared Error

DM Diebold-Mariano

(22)

(23)

Lista de Nota¸c˜

ao

A matriz

x vetor

AT _{transposta da matriz A}

A−1 inversa da matriz A

<n _{conjunto dos n´}_{umeros reais n-dimensional}

t instante, est´agio ou etapa em processos iterativos/construtivos (x t y) Norma triangular (t-norma) entre x e y

T(.) Operador t-norma

(x s y) Conorma triangular (s-norma) entre x e y

S(.) Operador s-norma

(x u y) Uninorma entre x e y

U(.) Operador de uninorma

γ densidade local de uma nuvem

µ valor modal local de uma nuvem

Γ densidade global das nuvens

µ_G valor modal global das nuvens

M n´umero de elementos de uma nuvem

K dispers˜ao local de uma nuvem U ti utilidade de uma nuvem

[ ] elemento escalar ou vetorial vazio

W matriz de pesos sinápticos da camada intermediária de uma rede neural w vetor de pesos sinápticos da camada intermediária de uma rede neural R matriz de pesos sinápticos da camada sa´ıda de uma rede neural

r vetor de pesos sin´apticos da camada de sa´ıda de uma rede neural ˆ

y sa´ıda dos modelos

In matriz identidade de dimens˜ao n × n

|| · || norma Euclidiana

(24)

(25)

Trabalhos Publicados Pelo Autor

Congressos Internacionais

Rosa, R.; Gomide, F.; Dovzan, D.; Skrjanc, I. (2014). Evolving Neural Network with Extreme Learning for System Modeling. Proceedings of the IEEE Conference on Evolving and Adaptive Intelligent Systems, Linz, AT, v. 1, p. 1-7.

Rosa, R.; Maciel, L. S.; Gomide, F.; Ballini, R. (2014). Evolving Hybrid Neural Fuzzy Network for Realized Volatility Forecasting with Jumps. Proceedings of the IEEE Computational Intel-ligence for Financial Engineering & Economics, London, UK, v. 1, p. 1-8.

Rosa, R.; Ballini, R.; Gomide, F (2013). Evolving Hybrid Neural Fuzzy Network for System Modeling and Time Series Forecasting. Proceedings of the International Conference on Machine Learning and Applications, Miami, USA, v. 2, p. 378-383.

Congressos Nacionais

Rosa, R.; Gomide, F.; Ballini, R. (2013). Rede Neuro-Fuzzy Evolutiva com Neurônios Baseados em Uninormas para Previsão de Séries Temporais. Anais do Simpósio Brasileiro de Automa¸cão Inteligente, Fortaleza, Ceará, v. 1, p. 1-6.

(26)

(27)

Cap´ıtulo

1

Introdu¸c˜

ao

1.1 Motiva¸

c˜

ao e Relevˆ

ancia

Modelos de inteligência computacional se inspiram em processos naturais para a resolu¸cão de problemas como otimiza¸cão, automa¸cão, modelagem, controle, entre outros. Os modelos são baseados na forma de pensar do ser humano, a estrutura do cérebro, divisão celular, organiza¸cão de formigas, abelhas, etc. Dois paradigmas de inteligência computacional são as redes neurais artificiais e os sistemas nebulosos.

Redes neurais artificiais são modelos matemáticos baseados nos componentes e estrutura cerebral, como os neurônios e suas conexões sinápticas (Haykin; 2009). Elas visam emular a capacidade de aprendizagem, reconhecimento de padrões, memória, etc., das redes neurais naturais. A aprendizagem de uma rede neural artificial advém da sele¸cão de sua estrutura e dos parâmetros correspondentes. Redes neurais são utilizadas nas mais diversas aplica¸cões, como reconhecimento de fala, previsão no mercado financeiro, controle de processos não lineares, classifica¸cão, etc.

Tipicamente, métodos clássicos de aprendizagem de redes neurais tem o propósito de deter-minar os pesos sinápticos das redes (Rumelhart et al.; 1986; Huang et al.; 2004). Atualmente, observa-se um grande interesse por algoritmos de aprendizagem que determinem tanto a estru-tura como os pesos da rede neural. Por exemplo, algoritmos construtivos (crescimento, poda, crescimento-poda) e algoritmos evolucionários (Liu et al.; 2010; Fangju; 2011; Miche et al.; 2010; Feng et al.; 2009; Islam et al.; 2009a,b; Javan et al.; 2010; Pisani e Lorena; 2012) são duas alternativas propostas na literatura.

Sistemas nebulosos constituem um arcabou¸co formal para tratar informa¸cão e dados im-precisos. Fundamentais neste arcabou¸co são as no¸cões de conjunto nebuloso, variável

(28)

2 Cap´ıtulo 1. Introdu¸c˜ao

tica, rela¸cão nebulosa, opera¸cões com conjuntos e rela¸cões nebulosas. Estas no¸cões fornecem o substrato para construir modelos e controladores nebulosos com estrutura neural, lingu´ıstica, funcional ou h´ıbridas. Um tipo de sistema nebuloso particular é aquele baseado em regras nebulosas. Regras nebulosas podem originar do conhecimento especialista, de dados, ou de ambos. Em geral a aquisi¸cão de conhecimento especialista é complexa e métodos baseados em dados tornaram-se uma alternativa para desenvolver e complementar abordagens baseadas em conhecimento especialista. Mais recentement, sistemas evolutivos que produzem bases de regras nebulosas, ou determinam a estrutura de redes neurais, simultaneamente com os respectivos pa-râmetros foram propostas na literatura (Kasabov e Filev; 2006; Angelov e Filev; 2004; Angelov e Yager; 2011a; Angelov et al.; 2010).

Sistemas evolutivos são sistemas adaptativos de alto n´ıvel, pois eles determinam sua es-trutura e respectivos parâmetros de forma simultânea, gradual e incremental. Portanto, são sistemas capazes de aprender a partir de um fluxo de dados, o que é muito conveniente em ambientes on-line ou tempo real. Por exemplo, uma base de regras nebulosas pode ser reduzida ou expandida de modo a se adaptar à situa¸cão indicada pelos dados de entrada. Em geral, sistemas nebulosos evolutivos podem ser vistos como uma combina¸cão de modelos nebulosos, mecanismos de representa¸cão e compacta¸cão de dados, e métodos recursivos de aprendizado de máquina (Kasabov e Filev; 2006).

Sistemas neurais nebulosos combinam a propriedade dos sistemas nebulosos de representar e processar informa¸cões imprecisas com a capacidade de aprendizado e aproxima¸cão das redes neurais artificiais. Redes neurais nebulosas evolutivas, assim como os sistemas evolutivos, são capazes de adaptar sua estrutura (topologia da rede) e atualizar seus parâmetros (pesos da rede) de acordo com um fluxo de dados (Angelov e Filev; 2004; Angelov e Xiaowei; 2006). Encontram-se na literatura aplica¸cões de redes neurais nebulosas evolutivas para previsão de pre¸co de a¸cões (Nguyen e Quek; 2010), modelo térmico de transformadores de potência (Souza et al.; 2012), previsão de estado (Wang et al.; 2012), entre outras (Leite et al.; 2012; Wang et al.; 2012; Nguyen e Quek; 2010).

1.2 Objetivos

O objetivo deste trabalho é desenvolver e estudar redes neurais evolutivas para modelagem de processos não lineares e variantes no tempo a partir de um fluxo de dados. As redes neurais evolutivas adaptam sua estrutura e respectivos parâmetros simultaneamente usando algoritmos

(29)

1.3. Organiza¸c˜ao do Trabalho 3

recursivos de aprendizagem. A ênfase deste trabalho é em redes neurais feedforward com uma camada intermediária. A adapta¸cão da estrutura se dá pela varia¸cão do número de neurônios da camada intermediária. Os parâmetros correspondem aos pesos associados às conexões entre os neurônios da camada de entrada e a camada intermediária (pesos da camada intermediária) e aos pesos associados às conexões entre a camada intermediária e a camada de sa´ıda (pesos da camada de sa´ıda). A adapta¸cão de uma rede ocorre sempre que cada novo dado de entrada ´

e processado e o resultado deste processamento indique a necessidade de adapta¸cão à situa¸cão atual. Assume-se um fluxo de dados na entrada, isto é, o processamento de dados é sequencial, sem a obrigatoriedade de armazenar e reprocessar todos dados processados anteriormente.

São propostas duas redes neurais evolutivas com aprendizado extremo recursivo e uma rede neural que é uma varia¸cão da rede adaptativa OS-ELM (Liang et al.; 2006). A primeira é uma rede neural nebulosa h´ıbrida evolutiva com unineurônios na camada intermediária e neurônios sigmoidais na camada de sa´ıda. Unineurônios são neurônios artificiais nebulosos com proces-samento sináptico baseado em uninormas. Um algoritmo de agrupamento recursivo baseado no conceito de nuvem é utilizado para granularizar o espa¸co de entrada-sa´ıda do processo a ser modelado. Um algoritmo de aprendizado extremo recursivo é utilizado para determinar os parâmetros da rede neural, isto é, os pesos das camadas intermediária e de sa´ıda.

A segunda é uma rede neural evolutiva com aprendizado extremo recursivo. Esta rede neural utiliza neurônios sigmoidais na camada intermediária e de sa´ıda. Esta rede também utiliza um algoritmo de agrupamento recursivo baseado em nuvens. Contudo, neste caso o número de nuvens define o número de neurônios da camada intermediária: a cada nuvem é associado um neurônio desta camada. O algoritmo recursivo de aprendizado extremo também é utilizado para atualizar os pesos da camada intermediária e de sa´ıda.

A varia¸cão da rede OS-ELM sugerida nessa disserta¸cão tem a mesma estrutura e parâmetros da rede original. Porém, diferentemente da rede OS-ELM, os neurônios de sa´ıda têm fun¸cões de ativa¸cão sigmoidais em vez de lineares. Além disso, o algoritmo dos quadrados m´ınimos recursivo original é substitu´ıdo por sua versão ponderada.

1.3 Organiza¸

c˜

ao do Trabalho

Esta disserta¸cão está organizada da seguinte forma. Após esta introdu¸cão, o Cap´ıtulo 2 trata de redes neurais e redes neurais nebulosas. Os conceitos básicos de redes neurais artificiais e de sistemas nebulosos são revistos para, a seguir, caracterizar a classe de redes neurais nebulosas

(30)

4 Cap´ıtulo 1. Introdu¸c˜ao

de interesse neste trabalho. Em particular, este cap´ıtulo apresenta os conceitos de t-norma, s-norma e uninorma assim como neurˆonios nebulosos do tipo and e or e o unineurˆonio.

O Cap´ıtulo 3 resume as no¸cões de sistemas nebulosos funcionais evolutivos e de aprendizado extremo. Dois sistemas evolutivos são enfatizados, ambos modelos funcionais do tipo Takagi-Sugeno (TS). O primeiro, chamado de eTS (evolving Takagi-Takagi-Sugeno) (Angelov e Filev; 2004) utiliza algoritmos recursivos de agrupamento baseado em densidade e no quadrados m´ınimos. O segundo, ANYA (Angelov e Yager; 2011a) utiliza algoritmos recursivos de agrupamento baseado em nuvem e no quadrados m´ınimos. A máquina de aprendizado extremo (Huang et al.; 2004) ´

e apresentada em seguida, incluindo a m´aquina de aprendizado extremo sequencial OS-ELM e exemplos de aplica¸c˜oes mencionadas na literatura.

O Cap´ıtulo 4 detalha as redes neurais propostas neste trabalho: uma rede neural nebulosa h´ıbrida evolutiva e a neural sigmoidal evolutiva. É feita uma análise da inser¸cão das redes propostas no estado da arte na área de redes neurais evolutivas.

O Cap´ıtulo 5 trata da avalia¸cão de desempenho das redes neurais objeto deste trabalho. Ele resume os resultados computacionais e compara as redes neurais propostas com as alternativas de modelagem evolutiva mais representativas da literatura. Dois casos clássicos são considerados, a identifica¸cão de forno a gás usando os dados de Box-Jenkins, e a previsão da série temporal de Mackey-Glass. Considera-se também um processo não linear variante no tempo para gerar dados sintéticos com concept drift e concept shift. O propósito é o de avaliar o desempenho das redes neurais e sistemas evolutivos na modelagem de sistemas não lineares variantes no tempo (parâmetros e estrutura do processo). O desempenho dos sistemas são comparados utilizando a raiz quadrada do erro quadrado médio, o teste estat´ıstico Deibold-Mariano, o número de regras/neurônios e o tempo de processamento.

Finalmente, o Cap´ıtulo 6 conclui o trabalho resumindo suas principais contribui¸c˜oes e suge-rindo temas para trabalhos futuros.

(31)

Cap´ıtulo

2

Redes Neurais Nebulosas

Redes neurais nebulosas são destaque na literatura devido à grande aplicabilidade, capaci-dade de aprendizado e interpreta¸cão dos dados (Buckley e Hayashi; 1994; Lemos et al.; 2010). Neste cap´ıtulo são apresentados conceitos básicos sobre sistemas neurais artificias e sistemas nebulosos, sistemas neurais nebulosos e redes neurais nebulosas. Neurônios nebulosos do tipo and e or e unineurônios são apresentados assim como t-normas, s-normas e uninormas.

2.1 Redes Neurais Artificiais

Redes neurais artificias, ou redes neurais (NN, Neural Network), são modelos matemáticos inspirados nas redes neurais naturais e suas capacidades. As unidades básicas de processamento das redes neurais são os neurônios artificiais. Em 1943, McCulloch e Pitts (1943) apresentaram o primeiro modelo de neurônio artificial, um modelo matemático de um neurônio natural. Ro-senblatt (1958), 15 anos após o primeiro modelo de neurônio artificial, propôs a primeira rede neural chamada perceptron. As redes neurais emulam a capacidade de aprendizagem das re-des neurais naturais, sendo capazes de aprender associa¸cões, padrões e dependências funcionais (Hassoun; 1995). São utilizadas para reconhecimento de padrões, tomada de decisão, controle de sistemas, previsão, etc.

A Figura 2.1 apresenta um modelo de neurônio artificial. Nesse modelo, os dados de entrada, x = [x1, . . . , xn]T, são ponderados pelos pesos sinápticos w = [w1, . . . , wn]T através da

multipli-ca¸cão. Esses processamentos sinápticos, wixi com i = 1, . . . , n, são agregados pelo operador de

soma, P, como v = n X i=1 wixi. 5

(32)

6 Cap´ıtulo 2. Redes Neurais Nebulosas

x

1

x

i

x

n

w

1

w

i

w

n

y

Figura 2.1: Neurˆonio artificial.

Figura 2.2: Rede neural artificial feedforward de ´unica camada intermedi´aria.

A fun¸cão de ativa¸cão f é aplicada no resultado da agrega¸cão definindo a sa´ıda y. A fun¸cão f ´

e geralmente escolhida como uma fun¸cão sigmoidal, porém ela pode ser qualquer mapeamento R → R. A sa´ıda do neurônio artificial é definida como segue

y = f (v). (2.1)

Uma rede neural feedforward de única camada intermediária (SLFN, Single hidden Layer Feedforward Neural network), Figura 2.2, é um tipo de rede neural com um único fluxo de dados, da camada de entrada para a camada de sa´ıda. Neste trabalho, as redes neurais propostas são deste tipo.

(33)

2.2. Redes Neurais Nebulosas 7

componentes do dado de entrada estão conectados aos N neurônios da camada intermediária, ponderados pelos pesos intermediários W = [wil], com i = 1, . . . , n e l = 1, . . . , N . As sa´ıdas

dos neurônios da camada intermediária são definidas como

vl = f xTwl ,

onde wl = [w1l, . . . , wnl]T, l = 1, . . . , N e f , como j´a dito, ´e usualmente escolhida como uma

fun¸cão sigmoidal. As sa´ıdas dos neurônios da camada intermediária, v = [v1, . . . , vN]T, são

ponderadas pelos pesos de sa´ıda R = [rjl]. A sa´ıda da rede neural ´e definida como

ˆ

yj = rjv, (2.2)

onde rj = [rj1, . . . , rjN], j = 1, . . . , m e m ´e o n´umero de componentes do vetor de sa´ıda.

A aprendizagem das redes neurais advém do ajuste dos pesos sinápticos e da defini¸cão de sua estrutura. A aprendizagem é chamada estática, ou treinamento, quando há dispon´ıvel a priori um conjunto de dados para treinamento, valida¸cão e teste. Na aprendizagem dinâmica, ou adapta¸cão, os dados de entrada compõem um fluxo: a aprendizagem ocorre a cada dado de entrada, de maneira recursiva. Em particular, pode-se realizar a aprendizagem estática, a fim de determinar os parâmetros da rede neural, e, em seguida, processar um fluxo de dados com a aprendizagem dinâmica.

2.2 Redes Neurais Nebulosas

Sistemas neurais nebulosos combinam a propriedade dos sistemas nebulosos de representar e processar informa¸cões imprecisas com a capacidade de aprendizado e aproxima¸cão das redes neurais. O objetivo é integrar os dois sistemas e combinar suas qualidades.

Nos anos 1960, Zadeh (1965) buscou generalizar o conceito de conjuntos clássicos e suas opera¸cões, propondo os conjuntos nebulosos. A teoria dos conjuntos nebulosos traz um amparo matemático para capturar incertezas associadas aos processos cognitivos humanos. Diferente dos conjuntos clássicos, os conjuntos nebulosos permitem que um elemento perten¸ca a mais de um conjunto com diferentes graus de pertinência. Os graus de pertinência possuem valores no intervalo [0,1]. Sistemas baseados na teoria de conjuntos nebulosos foram chamados de sistemas nebulosos.

(34)

Based). Os sistemas FRB possuem um conjunto de regras nebulosas que modelam localmente um sistema. O desempenho dos sistemas FRB, em uma determinada aplica¸cão, pode ser ajustado modificando os parâmetros e número das regras nebulosas.

Ao combinar os sistemas nebulosos e as redes neurais, cria-se a possibilidade de tratar com um sistema lingu´ıstico ao invés de modelos matemáticos complexos. Um sistema lingu´ıstico é basicamente composto de regras nebulosas altamente intuitivas e facilmente compreendidas por humanos. Além disso, o sistema neural nebuloso pode auto-ajustar os parâmetros das regras nebulosas usando algoritmos de aprendizagem baseados nas redes neurais. Um tipo de sistema neural nebuloso são as rede neurais nebulosas (FNN, Fuzzy Nerual Networks).

Na literatura, Lee e Lee (1974, 1975) foram pioneiros ao generalizar o neurˆonio artificial de McCulloch-Pitts utilizando valores no intervalo de zero a um.

Kasabov (1996a) propôs a rede neural nebulosa chamada FuNN (Fuzzy Neural Network ). A estrutura da rede FuNN é similar à estrutura de uma rede neural perceptron de múltiplas camadas (MLP, Multilayer Perceptron) (Rosenblatt; 1958). O algoritmo de aprendizagem da rede FuNN corresponde a uma metodologia do tipo backpropagation. A FuNN é um modelo de FNN adaptável: as fun¸cões de pertinência dos antecedentes nebulosos e as regras nebulosas, ambas definidas antes do treinamento, adaptam-se e modificam-se de acordo com os dados de treinamento. Esta rede possui 5 camadas: a camada de entrada, camada dos elementos condicionais, camada de regras, camada dos consequentes e a camada de sa´ıda.

Outra FNN, chamada sistema de inferência nebulosa baseado em redes adaptativas (ANFIS, Adaptive-Network-Based Fuzzy Inference System) é uma FNN com destaque na literatura. Pro-posta por Shing e Jang (1993), é uma rede neural nebulosa h´ıbrida que constrói um conjunto de regras nebulosas do tipo se-então com fun¸cão de pertinência apropriada para modelagem de sistemas. A rede é composta de 6 camadas e pode ser comparada a um sistema de inferência ne-bulosa. A primeira camada é a camada de entrada dos dados. A segunda camada representa os dados de entrada através de fun¸cões de pertinência, e os parâmetros das fun¸cões de pertinência representam os antecedentes do sistema nebuloso. Os neurônios na terceira camada realizam o produto, ou outra t-norma, entre os diferentes graus das fun¸cões de pertinência para cada dado de entrada. A quarta camada possui neurônios que normalizam as sa´ıdas dos neurônios da terceira camada. Na quinta camada, os neurônios multiplicam a sa´ıda dos neurônios da camada anterior com uma fun¸cão linear das entradas. Os parâmetros da fun¸cão linear representam os consequentes do sistema nebuloso. A última camada, a camada de sa´ıda, realiza a média ponderada das sa´ıdas dos neurônios da camada anterior.

(35)

Segundo Buckley e Hayashi (1994), redes neurais nebulosas são definidas de acordo com os operadores escolhidos na agrega¸cão e pondera¸cão, e nas defini¸cões das entradas e pesos. As redes podem ser definidas como rede neural h´ıbrida, rede neural nebulosa e rede neural nebulosa h´ıbrida.

Redes neurais h´ıbridas utilizam neurônios com processamento sináptico e agrega¸cão definidos por operadores dos sistemas nebulosos, as entradas e pesos possuem valores reais. Lin e Lee (1996) chamaram esses neurônios de tipo I.

Nas redes neurais nebulosas, as entradas e/ou os pesos são nebulosos, ou seja, definidos por graus de pertinência a conjuntos nebulosos, no intervalo [0,1]. Os processamentos sinápticos e as agrega¸cões não são definidos por operadores dos sistemas nebulosos.

Como nas redes neurais h´ıbridas, os processamentos sinápticos e as agrega¸cões das redes neurais nebulosas h´ıbridas utilizam operadores dos sistemas nebulosos, porém as entradas e/ou pesos são nebulosos. Lin e Lee (1996) chamaram esses neurônios de tipo II. A rede ANFIS utiliza neurônios do tipo II em sua terceira camada.

Neurônios cujos operadores são definidos pelos sistemas nebulosos são chamados neurônios nebulosos (Pedrycz; 1993). Um neurônio nebuloso, Figura 2.3, é definido por suas duas opera-¸cões, uma opera¸cão local, também chamada processamento sinápitico ou operador de pondera-¸cão, ∗, que pondera as entradas xi com os pesos wi, e uma opera¸cão global, também chamada

de operador de agrega¸cão, ⊗, que combinam os processamentos sinápticos gerando a sa´ıda y, equa¸cão (2.3). Ambas as opera¸cões, local e global, são realizadas por operadores dos sistemas nebulosos. Se as entradas e os pesos forem valores reais, o neurônio é do tipo I, se as entradas e/ou os pesos são nebulosos, o neurônio é do tipo II.

x

1

x

i

x

n

w

1

w

i

w

n

v

1

v

i

v

n

y

Figura 2.3: Neurˆonio nebuloso.

(36)

da seguinte forma (Hell; 2008)

vi = wi∗ xi, i = 1, 2, . . . , n,

y = ⊗(v1, . . . , vn) = v1⊗ . . . vn.

(2.3) Nerônios do tipo and e or (Pedrycz e Rocha; 1993), unineurônios (Pedrycz; 2006a; Hell et al.; 2009a,b; Lemos et al.; 2010) e nulneurônios (Hell et al.; 2008) são neurônios nebulosos que utilizam operadores nebulosos tais como as t-normas, s-normas, uninormas e nulnormas, res-pectivamente. Dependendo dos valores assumidos pelos pesos e entradas, os neurônios nebulosos são definidos como neurônios do tipo I ou II.

2.2.1 Neurˆ

onios and e or

Operadores nebulosos são definidos pela teoria dos conjuntos nebulosos, e generalizam as opera¸cões dos conjuntos clássicos (Pedrycz e Rocha; 1993). As normas triangulares t-norma e s-norma, também chamada de t-conorma, são operadores que generalizam a interseçcão e a união dos conjuntos clássicos, respectivamente (Hájek; 2000). Estas normas são definidas da seguinte forma:

Defini¸cão 1 (t-norma) Um operador binário, comutativo, associativo, monotônico e com ele-mento neutro 1, T : [0, 1] × [0, 1] → [0, 1] que satisfaz T(x, 1) = x para todo x ∈ [0, 1] é chamado norma triangular ou t-norma.

Exemplos de t-normas s˜ao as opera¸c˜oes de produto e m´ınimo.

Defini¸cão 2 (s-norma) Um operador binário, comutativo, associativo, monotônico e com ele-mento neutro 0, S : [0, 1] × [0, 1] → [0, 1] que satisfaz S(x, 0) = x para todo x ∈ [0, 1] é chamado co-norma triangular ou s-norma.

Exemplos de s-norma são as opera¸cões de soma probabil´ıstica e máximo. Outros exemplos de t-normas e s-normas podem ser encontradas em (Klir e Yuan; 1995).

O neurônio nebuloso chamado neurônio lógico and, Figura 2.4, é obtido substituindo na equa¸cão (2.3) o operador local por uma s-norma e o operador global por uma t-norma.

Reescrevendo a equa¸c˜ao (2.3) desta forma, obtemos

vi = S(wi, xi), i = 1, 2, . . . , n,

y = T(v1, . . . , vn),

(2.4) ou simplesmente

(37)

x

1

x

i

x

n

w

1

w

i

w

n

y

and

Figura 2.4: Neurˆonio l´ogico do tipo and.

y = and(w, x) =

n

T

i=1S(wi, xi), (2.5)

onde x = [x1, . . . , xn]T ´e o vetor das entradas, xi ∈ [0, 1], w = [w1, . . . , wn]T ´e o vetor do pesos,

wi ∈ [0, 1], y ∈ [0, 1] ´e a sa´ıda e n

T

i=1(.) representa uma opera¸c˜ao de t-normas.

O neurônio nebuloso chamado neurônio lógico or, Figura 2.5, é obtido substituindo o opera-dor local, da equa¸cão (2.3), por uma t-norma e o operador global por uma s-norma, da seguinte forma

x

1

x

i

x

n

w

1

w

i

w

n

y

or

Figura 2.5: Neurˆonio l´ogico do tipo or.

vi = T (wi, xi), i = 1, 2, . . . , n, y = S(v1, . . . , vn), (2.6) ou simplesmente y = or(w, x) = Sn i=1T (wi, xi), (2.7) onde n S

i=1(.) representa uma opera¸c˜ao de s-normas.

Os neurônios lógicos and e or (Pedrycz e Rocha; 1993) são utilizados em diversas redes presentes na literatura. Originalmente, Pedrycz et al. (1995) propuseram FNNs que utilizam neurônios and e or. As FNNs propostas são redes neurais nebulosas h´ıbridas e são chamadas de processadores lógicos. Os dois tipos de processadores lógicos possuem estruturas duais com

(38)

as mesmas defini¸cões para entradas e pesos sinápticos, ambos com neurônios do tipo II. O que difere os dois tipos de processadores lógicos é o posicionamento dos neurônios and e or. No primeiro processador lógico há h neurônios and na camada intermediária e somente um neurônio or na camada de sa´ıda. Os neurônios and fornecem uma sequência de mintermos generalizados do sistema, combinados através da união lógica realizada pelo neurônio or. Este processador é conhecido como soma de mintermos. No segundo tipo de processador lógico, conhecido como produto de maxitermos, a camada intermediária possui h neurônios or e somente um neurônio and na camada de sa´ıda, que tem a fun¸cão de agregar os maxitermos generalizados fornecidos pela camada anterior (Hell; 2008).

Outra rede com neurônios and e or do tipo II, foi propostar por Caminhas et al. (1999). Essa FNN é utilizada para problemas de classifica¸cão de padrões. A rede neural nebulosa h´ıbrida apresenta o conhecimento adquirido de forma expl´ıcita: é poss´ıvel inserir ou extrair conhecimento na forma de regras nebulosas do tipo se-então.

Ballini e Gomide (2002) propõem uma FNN recorrente com neurônios and e or do tipo II. Nessa rede neural nebulosa h´ıbrida as duas primeiras camadas, com neurônios nebulosos, formando um sistema de inferência nebulosa, a camada de sa´ıda é formada por uma rede neural clássica que agrega as sa´ıdas das regras nebulosas do sistema de inferência, formando uma estrutura h´ıbrida (Hell; 2008).

2.2.2 Unineurˆ

onios

Neste trabalho, iremos utilizar neurônios nebulosos que utilizam uninormas em seus operado-res, chamados unineurônios. Unineurônios possuem uma grande plasticidade: eles generalizam os neurônios and e or, uma vez que a uninorma generaliza as t-normas e s-normas triangulares (Yager e Rybalov; 1996). Essa plasticidade é obtida através do elemento neutro das uninormas. Também chamado de elemento identidade, o elemento neutro pode assumir qualquer valor no intervalo unitário; assim, a uninorma pode assumir o comportamento de uma t-norma, com elemento identidade igual a 1, e de uma s-norma, com elemento identidade igual a 0, além de possuir caracter´ısticas intermediárias quando o elemento identidade assume outros valores.

A defini¸c˜ao de uninorma ´e da seguinte forma

Defini¸cão 3 (Uninorma) Um operador binário, comutativo, associativo, monotônico e com elemento identidade no intervalo [0, 1], U : [0, 1] × [0, 1] → [0, 1], U (x, y) = x u y, é chamado uninorma. Ou seja, para todo x, y, z ∈ [0, 1]

(39)

Comutatividade U (x, y) = U (y, x)

Monotonicidade U (x, y) ≥ U (z, v) para x > z e y > v Associatividade U (x, U (y, z)) = U (U (x, y), z)

Elemento identidade ∃ algum e ∈ [0, 1] tal que U (x, e) = x ∀x ∈ [0, 1] Exemplos de uninormas podem ser encontradas em Yager e Rybalov (1996).

O unineurônio, Figura 2.6, é obtido substituindo o operador local e global da equa¸cão (2.3) por uninormas duais. Uninormas duais são um par de uninormas que possuem elemento iden-tidade e = g ou e = (1 − g).

x

1

x

i

x

n

w

1

w

i

w

n

y

U

_n

Figura 2.6: Unineurˆonio.

A sa´ıda do unineurˆonio tem a seguinte forma

y = Un(w,x) = n

U

i=1xi u wi, (2.8)

onde xi é a i-ésima entrada e wi é o peso correspondente e n

U

i=1(.) representa uma opera¸c˜ao de

uninormas. Em particular, se n = 1, então a sa´ıda, y, do unineurônio será

y = xi u wi.

Na literatura, Pedrycz (2006a) publicou um estudo pioneiro na aplica¸cão de uninormas nos operadores de um neurônio artificial. O autor explorou casos onde a uninorma era empregada nos operadores locais ou nos operadores globais dos neurônios nebulosos. O autor afirma que al-goritmos de aprendizagem para casos onde emprega-se a uninorma tanto para operadores locais, como globais, seriam de dificil defini¸cão. Alguns anos mais tarde, Hell et al. (2009a) propõem um algoritmo de aprendizagem para uma rede neural nebulosa h´ıbrida onde os neurônios uti-lizavam uninormas como operador local e global. O processo de aprendizagem da rede neural possui duas fases: a primeira consiste em agrupar o espa¸co entrada-sa´ıda e a segunda utiliza o gradiente descendente para atualizar os pesos da rede.

(40)

Uma FNN com unineurônios do tipo II, proposta por Lemos et al. (2010), possui um al-goritmo de aprendizagem também dividido em duas partes; na primeira, é realizado um agru-pamento do espa¸co de entrada utilizando o fuzzy c-means. A segunda parte consiste em um algoritmo genético que ajusta os parâmetros livres da rede neural nebulosa h´ıbrida. O unineurˆ o-nio da rede é visto como uma agrega¸cão de uninorma ponderada e outra singularidade é que o elemento identidade é adicionado como parâmetro a ser otimizado.

Bordignon e Gomide (2014) propõem uma rede neural nebulosa evolutiva (eFNN, evolving Fuzzy Neural Network) com unineurônios do tipo II. O processo de aprendizagem consiste em agrupar os dados de entrada utilizando o fuzzy c-means e, para o ajuste dos parâmetros, é utilizada uma versão recursiva da máquina de aprendizado extremo. A mesma versão recursiva da máquina de aprendizado extremo é utilizada neste trabalho . Os autores conseguem provar a capacidade de aproxima¸cão universal da rede neural nebulosa proposta quando treinada com o aprendizado modo estático.

A uninorma utilizada neste trabalho ´e definida como (Pedrycz; 2006b)

a u b =  



e + (1 − e)S(a−e)_(1−e),_(1−e)(b−e), se a, b ∈ [e, 1] eT (a_e,b_e). caso contr´ario

, (2.9)

onde a t-norma ´e escolhida como o produto

T(a, b) = ab,

e a s-norma escolhida como a soma probabil´ıstica

S(a, b) = a + b − ab.

Essa escolha resulta em uma superf´ıcie mais suave para a fun¸cão de ativa¸cão do neurônio nebu-loso, ao contrário da combina¸cão min-max que gera mudan¸cas abruptas nos extremos de (a, e) e (e, b) (Yager e Rybalov; 1996).

A superf´ıcie gerada por essa uninorma ´e apresentada na Figura 2.7. As diferentes superf´ıcies s˜ao formadas escolhendo valores diferentes para o elemento identidade, e = [0, 1].

(41)

2.3. Resumo 15

a) e = 0, neunˆonio or. b) e = 0, 2.

c) e = 0, 4. d) e = 0, 6.

e) e = 0, 8. f) e = 1, neurˆonio and.

Figura 2.7: Exemplos de uninormas.

2.3 Resumo

Este cap´ıtulo apresentou uma breve revisão sobre redes neurais artificiais e neurônios arti-ficiais. O principal foco foram as redes neurais nebulosas e os neurônios nebulosos. Algumas

(42)

redes neurais nebulosas com destaque na literatura s˜ao comentadas.

Conceitos de operadores nebulosos, t-normas, s-normas e uninormas são apresentados para dar suporte as defini¸cões de neurônios nebulosos. Por fim, as redes neurais nebulosas com neurônios nebulosos com neurônios do tipo and e or e com unineurônios são apresentadas.

(43)

Cap´ıtulo

3

Sistemas Nebulosos Evolutivos e Aprendizado

Extremo

Este cap´ıtulo está dividido em dois tópicos, o primeiro trata de sistemas nebulosos evolutivos, apresenta alguns sistemas propostos na literatura, com enfoque em sistemas evolutivos que foram utilizados de base para a produ¸cão deste trabalho. O segundo tópico apresenta os fundamentos da máquina de aprendizado extremo e algumas aplica¸cões presentes na literatura, além da máquina de aprendizado sequencial online. Os principais conceitos apresentados aqui são o sistema evolutivo ANYA e a máquina de aprendizado extremo sequencial online. Eles serão as bases para a formula¸cão das redes neurais propostas neste trabalho.

3.1 Sistemas Nebulosos Evolutivos

Sistemas nebulosos evolutivos (eFS, evolving Fuzzy Systems) são sistemas adaptativos que modificam tanto sua estrutura como seus parâmetros conforme um fluxo de dados é processado. Ou seja, a estrutura do sistema nebuloso evolutivo pode ser reduzida ou expandida de modo a se adaptar à cada novo dado de entrada.

O termo “evolutivo” não pode ser confundido com “evolucionário”. Sistemas evolucionários baseiam-se no processo de evolu¸cão que ocorre em uma popula¸cão de indiv´ıduos e utilizam operadores baseados em processos genéticos. Sistemas evolutivos são sistemas que modificam sua estrutura e parâmetros a cada novo dado de entrada (Angelov e Xiaowei; 2006).

Sistemas nebulosos evolutivos podem ser vistos como uma combina¸cão de modelos nebulosos, um mecanismo evolutivo para representa¸cão e compacta¸cão dos dados de entrada e métodos recursivos de aprendizado de máquina (Kasabov e Filev; 2006).

(44)

18 Cap´ıtulo 3. Sistemas Nebulosos Evolutivos e Aprendizado Extremo

Os sistemas nebulosos evolutivos surgiram devido à necessidade de um eficiente processa-mento de informa¸cão e extra¸cão de conhecimento em sistemas complexos. No cenário atual, os dados são obtidos em grandes quantidades, dinamicamente e na forma de um fluxo (Ange-lov et al.; 2010). Para processar esses dados, novas metodologias foram propostas, capazes de extrair conhecimento a partir dos dados, em tempo real (Kasabov; 1996b).

Nesta se¸cão, serão apresentados dois sistemas nebulosos evolutivos, o eTS (Angelov; 2002) e o ANYA (Angelov e Yager; 2011a), escolhidos por se tratarem de referências para a constru¸cão deste trabalho.

3.1.1 Takagi-Sugeno Evolutivo

Os sistemas nebulosos baseado em regras (FRB, Fuzzy Rule-Based) chamados de Takagi-Sugeno (TS), são sistemas nebulosos onde os antecedentes das regras nebulosas são termos lingu´ısticos e os consequentes são fun¸cões das variáveis dos antecedentes (Takagi e Sugeno; 1985). O modelo Takagi-Sugeno evolutivo (eTS, evolving Takagi-Sugeno) propõe uma atualiza-¸cão do sistema de forma recursiva. Proposto por Angelov (2002), o modelo eTS determina os antecedentes das regras por um processo de agrupamento não supervisionado. A estrutura do modelo é flex´ıvel, ou seja, a cada novo dado de entrada deve-se decidir como a base de regras será atualizada, ajustando o número de regras e os parâmetros dos antecedentes (Angelov; 2002).

O modelos eTS ´e formado por um conjunto de regras nebulosas do tipo se-ent˜ao, semelhante ao modelo TS, da seguinte forma

Ri : SE xt1 é Ai1 E . . . E x t n é Ain ENTÃO y t i = ai0 + ai1x t 1+ · · · + ainx t n,

onde Rié a i-ésima regra nebulosa para i = 1, . . . , Lt, Lté o número de regras, xt = [xt1, . . . , xtn]T

∈ <n_´_{e o dado de entrada, A}

ij é a fun¸cão de pertinência associada à j-ésima variável de entrada

da i-´esima regra nebulosa, yt i ∈ <L

t

´

e a sa´ıda linear do consequente da i-´esima regra e aij s˜ao

os parâmetros do modelo linear da regra i e t é o número da itera¸cão.

Cada regra descreve comportamentos locais do conjunto de dados de entrada, aproximando esses comportamentos por modelos lineares. O sistema não-linear é formado pela união dos modelos lineares que fazem parte dos consequentes das regras (Angelov e Filev; 2004). O grau de ativa¸cão de cada regra pondera a participa¸cão que o modelo linear local terá na sa´ıda total. Os antecedentes das regras nebulosas são definidos por fun¸cões de pertinência Gaussianas da seguinte forma (Angelov e Filev; 2004)

(45)

3.1. Sistemas Nebulosos Evolutivos 19 µij(x t j) = exp − 4 σ2 ij ||xt j − ˇxij|| 2 ! , (3.1) onde µij(x t

j) é o grau de pertinência do j-ésima componente do dado de entrada, xt, em Aij, ˇxij

´

e a j-ésima componente do centro ou ponto focal do grupo i, ˇxi, e σij é a dispersão da fun¸cão

de pertinˆencia Aij e define a zona de influˆencia do modelo presente na regra i e por fim || · ||

define a distˆancia Euclidiana.

O grau de ativa¸cão da regra nebulosa i é definido pela conjun¸cão dos graus de pertinência do dado de entrada nos conjuntos nebulosos dos antecedentes desta regra, µij(x

t j), como segue τi(xt) = n T j=1µij(x t_{) =} n Y j=1 µij(x t_{) = µ} i1(x t 1) × · · · × µin(x t n), i = 1, . . . , L t_. _(3.2)

A sa´ıda do modelo ´e definida como a m´edia ponderada da sa´ıda de cada regra, como

y = Lt X i=1 λiyi, (3.3) onde λi = τi(xt) . PLt

j=1τj(xt) ´e o grau de ativa¸c˜ao normalizado de cada regra i.

Para atualizar a base de regras, adicionando ou modificando regras existentes, o modelo utiliza-se de um algoritmo de agrupamento recursivo não supervisionado. O agrupamento é realizado no espa¸co de entrada-sa´ıda, z = [xT, yT]T, e a estrutura do modelo é atualizada a cada itera¸cão. A base do algoritmo de agrupamento está na ideia de representatividade de cada umas das novas entradas, calculada a partir de um potencial (Yager e Filev; 1994a).

A fun¸c˜ao potencial de um dado, zt, depende de todos os outros dados, atrav´es de uma medida de proximidade como (Angelov e Filev; 2004)

P (zt) = 1 t − 1 t−1 X k=1 exp(−r||zt− zk_||2_), _(3.4)

onde r ´e uma constante positiva e t = 2, 3, . . . o ´ındice dos dados j´a processadas.

A fun¸cão potencial busca encontrar poss´ıveis dados que definam centro de regiões com con-centra¸cão de dados. A Figura 3.1 apresenta a ideia da fun¸cão potencial, onde o potencial do dado B, PB, é maior que o potencial de A, PA. Regiões com maior concentra¸cão de dados

apresen-tarão maiores valores de potencial para cada dado. Ou seja, a fun¸cão potencial é inversamente proporcional às distâncias entre os dados.

(46)

Figura 3.1: Demonstra¸c˜ao do potencial (Lemos; 2011).

como segue Pt(zt) = t − 1 (t − 1)(ϑt_{+ 1) + γ}t_{− 2υ}t, (3.5) onde ϑt ₌ Pn+m j=1 (z t j)2, γt = Pt−1 k=1 Pn+m j=1 (z k j)2, υt = Pn+m j=1 z t jβjt sendo βjt = Pt−1 k=1z k j, j =

1, . . . , n + m, n e m s˜ao as dimens˜oes do espa¸co de entrada e de sa´ıda, respectivamente.

Os parâmetros ϑt e υt são calculados a partir de zt, os parâmetros β_jt e γt podem ser calculados recursivamente, como

γt= γt−1+

n+m

X

j=1

(z_jt−1)2 e β_jt = βt−1+ z_jt−1. (3.6)

O potencial dos centros dos agrupamentos existentes também é calculado de maneira recur-siva. Como os potenciais são calculados utilizando todos os dados dispon´ıveis até o instante t, a cada chegada de um novo dado, os potenciais dos centros também mudam. Os potenciais dos grupos são atualizados de acordo com (Angelov e Filev; 2004)

Pt(ˇzi) = (t − 1)Pt−1_(ˇ_z i) t − 2 + Pt−1_(ˇ_z i) · h 1 +Pn+m j=1 (d t(t−1) j )2 i , (3.7)

onde ˇzi´e o centro do grupo i, i = 1, . . . , Lte d t(t−1)

(47)

3.1. Sistemas Nebulosos Evolutivos 21

Para a evolu¸cão da base de regras, compara-se o valor do potencial do novo dado e dos potenciais dos centros de grupo atualizados. Caso o potencial do novo dado seja maior que o potencial de todos os centros de grupo atualizados, o centro de um grupo será atualizado, ou um novo grupo será criado. Se o novo dado está próximo o suficiente, segundo a distância Euclidiana, de um centro de grupo existente, o novo dado assumirá o centro do grupo. Os limiares são definidos por Angelov e Filev (2004). Caso contrário, o novo dado irá originar um novo grupo e será centro desse grupo.

Não satisfazendo nenhuma condi¸cão, o novo dado será utilizado para atualizar os parˆ ame-tros do consequente da regra relacionada ao grupo com menor distância Euclidiana ao novo dado. Essa atualiza¸cão é realizada utilizando o algoritmo recursivo de m´ınimos quadrados ou o algoritmo recursivo de m´ınimos quadrados ponderado (Ljung; 1999; Young; 1984). O Algoritmo 3.1 apresenta o procedimento de atualiza¸cão da estrutura do modelo eTS (Lemos; 2011). Algoritmo 3.1 Algoritmo de agrupamento do eTS

ler o primeiro dado

inicializar o primeiro grupo com centro no primeiro dado while existirem entradas do

ler o novo dado

calcular o potencial, P (zt_{), do novo dado segundo (3.5)}

for i = 1, . . . , Lt _do

atualizar o potencial do centro ˇzi, P (ˇzi), segundo (3.7)

end for

if P (zt_{) > P (ˇ}_z

i) then

if zt ´e pr´oximo o suficiente do centro de algum grupo i then zt _{substitui ˇ}_z

i como centro do grupo i

else

criar um novo grupo com centro zt end if

else

atualizar os parˆametros do consequente da regra com centro de grupo com menor dis-tˆancia Euclidiana.

end if end while

3.1.2 Modelo Nebuloso Evolutivo Baseado em Nuvens

O modelo nebuloso evolutivo proposto por Angelov e Yager (2011a) recebeu o nome de ANYA (Angelov e Yager; 2011b) em homenagem aos autores. Trata-se de um novo sistema FRB que, diferentemente dos outros modelos FRBs, TS (Takagi e Sugeno; 1985) e Mamdani (Zadeh;

(48)

1973; Mamdani e Assilian; 1975), possui antecedentes não paramétricos. A determina¸cão dos antecedentes nos modelos FRBs, TS e Mamdani, utiliza fun¸cões de pertinência pré definidas (triangulares, trapezoidais, Gaussianas e etc.), que requerem um grande n´ıvel de aproxima¸cão (Angelov e Yager; 2011a). No modelo ANYA a determina¸cão dos antecedentes é não paramétrica e representa exatamente a real densidade e distribui¸cão dos dados.

O conjunto de regras que forma o modelo ANYA ´e da seguinte forma

Ri : SE (z ∼ ℵi) ENT˜AO (yi) ,

onde ∼ denota a pertinência nebulosa, lida como “é associado com”, Ri é a i-ésima regra

nebulosa para i = 1, . . . , Lt_{, L}t_´_{e o n´}_{umero de regras na itera¸c˜}_{ao t, ℵ}

i ∈ < ´e a nuvem dos dados

de entrada-sa´ıda, z = [z1, . . . , zn+m]T ∈ <n+m, onde x = [x1, . . . , xn]T ∈ <n ´e o vetor de entrada

e yi = [yi1, . . . , yim]

T _{∈ <}m _´_{e o vetor de sa´ıda da i-´}_{esima regra.}

Esse conjunto de regras nebulosas é descrito como um sistema complexo, geralmente não linear, não estacionário e não determin´ıstico, observável apenas por suas entradas e sa´ıdas. O objetivo é descrever a dependência entre a entrada e a sa´ıda baseado no histórico de observa¸cões dos pares entrada-sa´ıda, z = [xT_{, y}T_]T_{. A proposta deste modelo ´}_{e baseada em nuvens de dados}

encontradas através do cálculo recursivo das densidades no espa¸co entrada-sa´ıda dos dados. Como visto na Figura 3.2, as nuvens possuem certas diferen¸cas com rela¸cão aos grupos. As nuvens não possuem e não necessitam de contorno, por isso não possuem uma forma ana-l´ıtica, expl´ıcita. A nuvem de dados é um sub-conjunto dos dados de entrada-sa´ıda, onde os dados associados à nuvem possuem propriedades em comum (proximidade no espa¸co observ´ a-vel). Diferente das fun¸cões de pertinência, as nuvens representam direta e exatamente todos os dados de entrada-sa´ıda anteriores. O modelo preserva as caracter´ısticas dos sistemas nebulosos permitindo que um dado perten¸ca, com diferentes graus, λ ∈ [0, 1], a todas as nuvens.

As nuvens garantem ao modelo ANYA a não necessidade de defini¸cão a priori de fun¸cões de pertinência para os dados de entrada-sa´ıda, assim como é necessário nos FRBs tradicionais. Elas são descritas pela similaridade do sub-conjunto de dados que são associadas.

O grau de pertinˆencia de um dado, zt_{, `}_{as nuvens existentes ´}_{e calculado pela normaliza¸c˜}_ao

da densidade local, da seguinte forma

λt_i = γ t i PLt j=1γ t j , i = 1, ..., Lt, (3.8) onde γt

(49)

3.1. Sistemas Nebulosos Evolutivos 23

(50)

ponderada nebulosa (Klir e Folger; 1987; Yager e Filev; 1994b).

A densidade local, γ_it, do vetor zt, para a i-ésima nuvem, é definida por um kernel desejado da distância entre o dado de entrada-sa´ıda atual e todas os outros dados daquela nuvem, por isso chamada densidade local.

Para predi¸cão, modelagem de sistemas e controle, a média ponderada apresentada na equa-¸cão (4.12) é o operador de inferência preferido (Yager e Filev; 1994b), diferente de casos como classifica¸cão, que um operador de inferência do tipo “o ganhador leva tudo” é geralmente esco-lhido (Klir e Folger; 1987; Yager e Filev; 1994b; Angelov e Yager; 2011a).

O kernel utilizado para o cálculo da densidade local é escolhido como uma fun¸cão do tipo Cauchy (Angelov e Buswell; 2002). O cálculo recursivo da densidade local pode ser realizado da seguinte forma (Angelov e Yager; 2011a)

γ_it= 1

1 + ||zt_{− µ}t

i||2+ Υti− ||zt||2

, (3.9)

onde µt

i = ((Mi − 1)/(Mi))µt−1i + zt/(Mi), µ11 = z1 é o valor modal local, Mi é o número de

dados de entrada-sa´ıda associados `a i-´esima nuvem, i = 1, ..., Lt _{e L}t_´_{e o n´}_{umero de nuvens at´}_e

o instante t. Υt i, ´e calculado como Υt_i = Mi− 1 Mi Υt−1_i + 1 Mi ||zt||2, Υ1₁ = ||z1||2.

Outra medida importante ´e a densidade global, calculada similarmente, por´em considerando todos os dados de entrada-sa´ıda. A densidade global Γt _{em t ´}_{e calculada recursivamente da}

seguinte forma Γt= 1 1 + ||zt_{− µ}t G||2+ ΥtG− ||zt||2 , (3.10) onde µt G= ((t − 1)/t)µ t−1

G + zt/t, µ1G = z1 ´e o valor modal global de todos os dados em t, e

Υt_G = t − 1 t Υ t G− 1 + 1 t||z t_||2_, _Υ1 G = ||z1||2. ´

E fácil observar que, por causa da equa¸cão (3.8), o grau de pertinência nebuloso para uma nuvem, λi, é normalizado, portanto,

Lt

X

i=1

(51)

3.2. Aprendizado Extremo 25

O Algoritmo 3.2 resume o processo de forma¸c˜ao das nuvens. Algoritmo 3.2 Algoritmo de forma¸c˜ao de nuvens.

ler o primeiro dado

inicializar a primeira nuvem while existirem entradas do

ler o novo dado

atualizar a densidade global (3.10)

calcular a densidade local para cada nuvem (3.9)

if a densidade global do novo dado ´e maior que a densidade global de cada nuvem then criar uma nova nuvem

else

encontrar N uvemI onde o novo dado possui a maior densidade local

atualizar a N uvemI

end if

calcular o grau de pertinˆencia (3.8) end while

3.2 Aprendizado Extremo

A máquina de aprendizado extremo (ELM, Extreme Learning Machine) se associa a um m´ e-todo para treinamento de redes neurais feedforward de única camada intermediária (SLFN, Sin-gle Layer Feedforward Neural Network) (Huang et al.; 2004). O autor prova matematicamente que os pesos da camada intermediária podem ser escolhidos de maneira não-supervisionada e os pesos da camada de sa´ıda determinados analiticamente. Além disso, Huang, Zhu e Siew (2006) e Huang et al. (2011) apresentam a capacidade de aproxima¸cão universal de uma ELM.

As aplica¸cões para ELM são diversas: avalia¸cão de seguran¸ca em sistemas de potência (Xu et al.; 2012), preserva¸cão de privacidade (Samet e Miri; 2012), deteçcão automática de ataque epiléptico em eletroencefalograma (Song et al.; 2012) e reconhecimento de a¸cões humanas (Mi-nhas et al.; 2012). Huang et al. (2011) apresentam as diversas formas em que foi aplicada a máquina de aprendizado extremo.

Na literatura, diferentes modelos utilizam variados tipos de neurônios na camada interme-diária, como: rela¸cões nebulosas (Huang et al.; 2005) e neurônios complexos (Huang et al.; 2008).

Outra extensão natural é o uso de aprendizado extremo para modelar sistemas evolutivos nebulosos. Pelo fato de ser livre de derivadas, o método pode ser utilizado em conjunto com neurônios que desempenham qualquer fun¸cão não linear. É poss´ıvel utilizá-lo para treinar redes

(52)

que usem, por exemplo, uninormas em seus neurˆonios da camada intermedi´aria (Bordignon e Gomide; 2012).

Na ELM, os neurônios da camada intermediária são vistos como uma proje¸cão não-linear dos dados de entrada. As sa´ıdas desses neurônios são interpretadas como um espa¸co transformado, que servirá para o combinador linear da camada de sa´ıda.

Ao selecionar os pesos da camada intermediária de maneira não-supervisionada, o projeto dos pesos da camada de sa´ıda torna-se uma regressão linear, a rede se torna linear com res-peito aos parâmetros livres. Para resolver esse problema, utiliza-se a metodologia de quadrados m´ınimos. Para N padrões entrada-sa´ıda, (xj, yj), onde xj = [xj1, . . . , xjn]

T _{∈ <}n _´_{e o vetor}

de entrada e yj = [yj1, . . . , yjm]

T _{∈ <}m _´_{e o vetor sa´ıda, uma rede SLFN com ˜}_{N neurˆ}_{onios na}

camada intermediária, determinados pelo usuário, e fun¸cão de ativa¸cão g(x), pode ser modelada matematicamente como (Huang et al.; 2004)

˜ N X i=1 βig(wi· xj + bi) = ˆyj, j = 1, . . . , N, (3.12) onde wi = [wi1, . . . , win]

T _´_{e o vetor de pesos sin´}_{apticos que conectam o i-´}_{esimo neurˆ}_onio

inter-medi´ario e os n componentes do dado de entrada, βi = [βi1, . . . , βim]

T _´_{e o vetor de pesos que}

conecta o i-ésimo neurônio intermediário e os m neurônios de sa´ıda e bié o limiar para o i-ésimo

neurˆonio.

A SLFN pode aproximar os N dados de entrada com erro m´edio nulo,PN

j=1||ˆyj− dj||2 = 0,

sendo dj o vetor de sa´ıda desejado e k.k a distˆancia Euclidiana, i.e., existe βi, wi e bi tal que

˜ N

X

i=1

βig(wi· xj + bi) = dj, j = 1, . . . , N. (3.13)

A equa¸c˜ao 3.13 pode ser escrita matricialmente como

Hβ = D, (3.14) onde H = [H1 h2 . . . h_N˜] =     g(w1· x1+ b1) . . . g(w_N˜ · x1+ b_N˜) .. . . .. ... g(w1· xN + b1) . . . g(w_N˜ · xN + b_N˜)     N × ˜N (3.15)