• Nenhum resultado encontrado

Redes neurais evolutivas com aprendizado extremo recursivo

N/A
N/A
Protected

Academic year: 2021

Share "Redes neurais evolutivas com aprendizado extremo recursivo"

Copied!
123
0
0

Texto

(1)

Raul Arthur Fernandes Rosa

Redes Neurais Evolutivas com Aprendizado Extremo

Recursivo

Campinas 2014

(2)
(3)

Universidade Estadual de Campinas

Faculdade de Engenharia El´

etrica e de Computa¸c˜

ao

Raul Arthur Fernandes Rosa

Redes Neurais Evolutivas com Aprendizado Extremo

Recursivo

Disserta¸c˜ao de Mestrado apresentada ao Programa de P´ os-Gradua¸c˜ao em Engenharia El´etrica da Faculdade de Enge-nharia El´etrica e de Computa¸c˜ao da Universidade Estadual de Campinas para obten¸c˜ao do t´ıtulo de Mestre em Engenha-ria El´etrica.

´

Area de Concentra¸c˜ao: Engenharia de Computa¸c˜ao. Orientador: Fernando Antonio Campos Gomide

Coorientador: Marcos Eduardo Ribeiro do Valle Mesquita

Este exemplar corresponde `a vers˜ao final da disserta¸c˜ao defendida pelo aluno Raul Arthur Fernandes Rosa, e orien-tada pelo Prof. Dr. Fernando Antonio Campos Gomide

Campinas 2014

(4)

Ficha catalográfica

Universidade Estadual de Campinas Biblioteca da Área de Engenharia e Arquitetura

Rose Meire da Silva - CRB 8/5974

Rosa, Raul Arthur Fernandes,

1989-R71r RosRedes neurais evolutivas com aprendizado extremo recursivo / Raul Arthur Fernandes Rosa. – Campinas, SP : [s.n.], 2014.

RosOrientador: Fernando Antonio Campos Gomide.

RosCoorientador: Marcos Eduardo Ribeiro do Valle Mesquita.

RosDissertação (mestrado) – Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação.

Ros1. Redes neurais artificiais. 2. Aprendizagem. 3. Computação evolutiva. 4. Sistemas nebulosos. I. Gomide, Fernando Antonio Campos,1951-. II. Mesquita, Marcos Eduardo Ribeiro do Valle. III. Universidade Estadual de Campinas. Faculdade de Engenharia Elétrica e de Computação. IV. Título.

Informações para Biblioteca Digital

Título em outro idioma: Evolving neural networks with recursive extreme learning Palavras-chave em inglês:

Artificial neural networks Learning

Evolutionary computation Fuzzy systems

Área de concentração: Engenharia de Computação Titulação: Mestre em Engenharia Elétrica

Banca examinadora:

Fernando Antonio Campos Gomide [Orientador] Michel Bortolini Hell

Romis Ribeiro de Faissol Attux Data de defesa: 25-08-2014

Programa de Pós-Graduação: Engenharia Elétrica

(5)
(6)
(7)

Resumo

Esta disserta¸c˜ao estuda uma classe de redes neurais evolutivas para modelagem de sistemas a partir de um fluxo de dados. Esta classe ´e caracterizada por redes evolutivas com estruturas feedforward e uma camada intermedi´aria cujo n´umero de neurˆonios ´e vari´avel e determinado durante a modelagem. A aprendizagem consiste em utilizar m´etodos de agrupamento para estimar o n´umero de neurˆonios na camada intermedi´aria e algoritmos de aprendizagem extrema para determinar os pesos da camada intermedi´aria e de sa´ıda da rede. Neste caso, as redes neurais s˜ao chamadas de redes neurais evolutivas. Um caso particular de redes evolutivas ´e quando o n´umero de neurˆonios da camada intermedi´aria ´e determinado a priori, mantido fixo, e somente os pesos da camada intermedi´aria e de sa´ıda da rede s˜ao atualizados de acordo com dados de entrada. Os algoritmos de agrupamento e de aprendizagem extrema que comp˜oem os m´etodos evolutivos s˜ao recursivos, pois a aprendizagem ocorre de acordo com o processamento de um fluxo de dados.

Em particular, duas redes neurais evolutivas s˜ao propostas neste trabalho. A primeira ´e uma rede neural nebulosa h´ıbrida evolutiva. Os neurˆonios da camada intermedi´aria desta rede s˜ao unineurˆonios, neurˆonios nebulosos com processamento sin´aptico realizado por uninormas. Os neurˆonios da camada de sa´ıda s˜ao sigmoi-dais. Um algoritmo recursivo de agrupamento baseado em densidade, chamado de nuvem, ´e utilizado para particionar o espa¸co de entrada-sa´ıda do sistema e estimar o n´umero de neurˆonios da camada intermedi´aria da rede; a cada nuvem corresponde um neurˆonio. Os pesos da rede neural nebulosa h´ıbrida s˜ao determinados utilizando a m´aquina de aprendizado extremo com o algoritmo quadrados m´ınimos recursivo ponderado. O segundo tipo de rede proposto neste trabalho ´e uma rede neural mul-ticamada evolutiva com neurˆonios sigmoidais na camada intermedi´aria e de sa´ıda. Similarmente `a rede h´ıbrida, nuvens particionam o espa¸co de entrada-sa´ıda do

(8)

tema e s˜ao utilizadas para estimar o n´umero de neurˆonios da camada intermedi´aria. O algoritmo para determinar os pesos da rede ´e a mesma vers˜ao recursiva da m´aquina de aprendizado extremo. Al´em das redes neurais evolutivas, sugere-se tamb´em uma varia¸c˜ao da rede adaptativa OS-ELM (online sequential extreme learning machine) mantendo o n´umero de neurˆonios na camada intermedi´aria fixo e introduzindo neurˆ o-nios sigmoidais na camada de sa´ıda. Neste caso, a aprendizagem usa o algoritmo dos quadrados m´ınimos recursivo ponderado no aprendizado extremo.

As redes foram analisadas utilizando dois benchmarks cl´assicos: identifica¸c˜ao de forno a g´as com o conjunto de dados de Box-Jenkins e previs˜ao de s´erie temporal ca´otica de Mackey-Glass. Dados sint´eticos foram gerados para analisar as redes neurais na modelagem de sistemas com parˆametros e estrutura variantes no tempo (concept drif e concept shift). Os desempenhos foram quantificados usando a raiz quadrada do erro quadrado m´edio e avaliados com o teste estat´ıstico de Deibold-Mariano. Os desempenhos das redes neurais evolutivas e da rede adaptativa foram comparados com os desempenhos da rede neural com aprendizagem extrema e dos m´etodos de modelagem evolutivos representativos do estado da arte. Os resultados mostram que as redes neurais evolutivas sugeridas neste trabalho s˜ao competitivas e tˆem desempenhos similares ou superiores `as abordagens evolutivas propostas na literatura.

Palavras chave: sistemas evolutivos; redes neurais evolutivas; aprendizado extremo; modelagem de processos.

(9)

Abstract

This dissertation studies a class of evolving neural networks for system modeling from data streams. The class encompasses single hidden layer feedforward neu-ral networks with variable and online definition of the number of hidden neurons. Evolving neural network learning uses clustering methods to estimate the number of hidden neurons simultaneously with extreme learning algorithms to compute the weights of the hidden and output layers. A particular case is when the evolving network keeps the number of hidden neurons fixed. In this case, the number of hid-den neurons is found a priori, and the hidhid-den and output layer weights updated as data are input. Clustering and extreme learning algorithms are recursive. Therefore, the learning process may occur online or real-time using data stream as input.

Two evolving neural networks are suggested in this dissertation. The first is an evolving hybrid fuzzy neural network with unineurons in the hidden layer. Unineu-rons are fuzzy neuUnineu-rons whose synaptic processing is performed using uninorms. The output neurons are sigmoidals. A recursive clustering algorithm based on density and data clouds is used to granulate the input-output space, and to estimate the number of hidden neurons of the network. Each cloud corresponds to a hidden neuron. The weights of the hybrid fuzzy neural network are found using the extreme learning ma-chine and the weighted recursive least squares algorithm. The second network is an evolving multilayer neural network with sigmoidal hidden and output neurons. Like the hybrid neural fuzzy network, clouds granulate the input-output space and gives the number of hidden neurons. The algorithm to compute the network weights is the same recursive version of the extreme learning machine. A variation of the adaptive OS-ELM (online sequential extreme learning machine) network is also suggested. Similarly as the original, the new OS-ELM fixes the number of hidden neurons, but uses sigmoidal instead of linear neurons in the output layer. The new OS-ELM also uses weighted recursive least square.

(10)

The hybrid and neural networks were evaluated using two classic benchmarks: the gas furnace identification using the Box-Jenkins data, and forecasting of the cha-otic Mackey-Glass time series. Synthetic data were produced to evaluate the neural networks when modeling systems with concept drift and concept shift. This a mode-ling circumstance in which system structure and parameters change simultaneously. Evaluation was done using the root mean square error and the Deibold-Mariano statistical test. The performance of the evolving and adaptive neural networks was compared against neural network with extreme learning, and evolving mode-ling methods representative of the current state of the art. The results show that the evolving neural networks and the adaptive network suggested in this disserta-tion are competitive and have similar or superior performance than the evolving approaches proposed in the literature.

Keywords: evolving systems; evolving neural networks; extreme learning; system modeling.

(11)

Sum´

ario

1 Introdu¸c˜ao 1

1.1 Motiva¸c˜ao e Relevˆancia . . . 1

1.2 Objetivos . . . 2

1.3 Organiza¸c˜ao do Trabalho . . . 3

2 Redes Neurais Nebulosas 5 2.1 Redes Neurais Artificiais . . . 5

2.2 Redes Neurais Nebulosas . . . 7

2.2.1 Neurˆonios and e or . . . 10

2.2.2 Unineurˆonios . . . 12

2.3 Resumo . . . 15

3 Sistemas Nebulosos Evolutivos e Aprendizado Extremo 17 3.1 Sistemas Nebulosos Evolutivos . . . 17

3.1.1 Takagi-Sugeno Evolutivo . . . 18

3.1.2 Modelo Nebuloso Evolutivo Baseado em Nuvens . . . 21

3.2 Aprendizado Extremo . . . 25

3.2.1 Aprendizado Extremo Recursivo . . . 27

3.3 Resumo . . . 30

4 Redes Neurais com Aprendizado Extremo Recursivo 33 4.1 Rede Neural Nebulosa H´ıbrida Evolutiva . . . 34

4.1.1 Estrutura da Rede . . . 36

4.1.2 Parti¸c˜ao e Representa¸c˜ao do Espa¸co de Entrada-Sa´ıda . . . 38

4.1.3 Algoritmo de Aprendizagem da eHFN . . . 42

4.2 Rede Neural Evolutiva com Aprendizado Extremo Recursivo . . . 44

4.2.1 Estrutura da Rede . . . 46 xi

(12)

4.2.2 Defini¸c˜ao do N´umero de Neurˆonios na Camada Intermedi´aria . . . 48

4.2.3 Algoritmo de Aprendizagem da eNNEL . . . 48

4.3 Resumo . . . 50

5 Resultados Computacionais 51 5.1 Introdu¸c˜ao . . . 51

5.2 Crit´erios de Avalia¸c˜ao e Valida¸c˜ao . . . 52

5.2.1 Raiz Quadrada do Erro Quadrado M´edio . . . 52

5.2.2 Teste Estat´ıstico Diebold-Mariano . . . 53

5.2.3 Valida¸c˜ao Cruzada . . . 54

5.3 Identifica¸c˜ao de Sistemas . . . 55

5.4 Previs˜ao de S´eries Temporais . . . 63

5.4.1 S´erie Temporal Mackey-Glass . . . 63

5.4.2 S´erie Temporal N˜ao Linear . . . 75

5.5 Resumo . . . 84

6 Conclus˜ao 87

Bibliografia 89

(13)

Agradecimentos

Agrade¸co,

ao professor Fernando Gomide, pela oportunidade, disponibilidade e pelos ensinamentos t˜ao valiosos.

ao professor Marcos Eduardo Valle, por mais de 4 anos de parceria.

aos professores da banca, Michel Hell e professor Romis Attux pelas considera¸c˜oes e enriqueci-mento do trabalho.

aos colegas de orienta¸c˜ao: Thomas Barlett e Leandro Maciel, pelas conversas e ajudas nos mo-mentos de necessidade.

aos amigos que fiz na APOGEEU: Alan, Rafael, Edgar, Thisien, Eliezer, David, Saullo, Micael e Clarissa, pelo m´utuo interesse em construir uma p´os-gradua¸c˜ao melhor e al´em do laborat´orio. aos professores e funcion´arios da FEEC, que fazem deste curso de p´os-gradua¸c˜ao um dos me-lhores do pa´ıs.

`

a CAPES, pelo apoio financeiro fornecido.

aos amigos de rep´ublica: Seike, Victor, Lucas e Natalia, pelas conversas enriquecedoras e par-ceria.

aos meus amigos de longa data: Jef, Jo˜ao, Marcel, Eduardo e Adalberto, pelos mais de 10 anos de companheirismo.

em especial, `a minha fam´ılia, Luis, Leila, Lara e Vit´oria, as pessoas mais importantes da minha vida.

`

a minha namorada e melhor amiga, Lara, pelo apoio e dedica¸c˜ao nesses 5 anos de amor.

(14)
(15)

O revolucion´ario ´e o homem que transgride, que n˜ao aceita, uma regra injusta. Respeite todas as regras justas, respeite pela sua consciˆencia, n˜ao passe em cima do direito de ningu´em. Agora, a regra injusta a gente n˜ao aceita.

O revolucion´ario Pl´ınio de Arruda Sampaio

(16)
(17)

Lista de Figuras

2.1 Neurˆonio artificial. . . 6

2.2 Rede neural artificial feedforward de ´unica camada intermedi´aria. . . 6

2.3 Neurˆonio nebuloso. . . 9

2.4 Neurˆonio l´ogico do tipo and. . . 11

2.5 Neurˆonio l´ogico do tipo or. . . 11

2.6 Unineurˆonio. . . 13

2.7 Exemplos de uninormas. . . 15

3.1 Demonstra¸c˜ao do potencial (Lemos; 2011). . . 20

3.2 Diferen¸cas entre nuvens e grupos (Angelov e Yager; 2011a). . . 23

4.1 Estrutura da rede neural nebulosa h´ıbrida evolutiva. . . 36

4.2 Estrutra da rede neural evolutiva com aprendizado extremo recursivo. . . 46

5.1 Treinamento e valida¸c˜ao para os dados Box-Jenkins. . . 56

5.2 Boxplot para os dados Box-Jenkins, para o conjunto Todos. . . 58

5.3 Sa´ıdas das redes para os dados Box-Jenkins, para o conjunto Todos. . . 60

5.4 Evolu¸c˜ao do n´umero de neurˆonios para os dados Box-Jenkins, para o conjunto Todos. . . 61

5.5 Boxplot para os dados Box-Jenkins, para o conjunto Fim. . . 62

5.6 Sa´ıdas das redes para os dados Box-Jenkins, para o conjunto Fim. . . 64

5.7 Evolu¸c˜ao do n´umero de neurˆonios para os dados Box-Jenkins, para o conjunto Fim. 65 5.8 Treinamento e valida¸c˜ao para a s´erie Mackey-Glass. . . 65

5.9 Boxplot para a s´erie temporal Mackey-Glass, para o conjunto Todos. . . 66

5.10 Sa´ıdas das redes para a s´erie temporal Mackey-Glass, para o conjunto Todos. . . 68 xvii

(18)

5.11 As 600 primeiras sa´ıdas das redes para a s´erie temporal Mackey-Glass, para o

conjunto Todos. . . 69

5.12 Evolu¸c˜ao do n´umero de neurˆonios para a s´erie temporal Mackey-Glass, para o conjunto Todos. . . 70

5.13 Boxplot para a s´erie temporal Mackey-Glass, para o conjunto Fim. . . 71

5.14 Sa´ıdas das redes para a s´erie temporal Mackey-Glass, para o conjunto Fim. . . . 73

5.15 As 600 primeiras sa´ıdas das redes para a s´erie temporal Mackey-Glass, para o conjunto Fim. . . 74

5.16 Evolu¸c˜ao do n´umero de neurˆonios para a s´erie temporal Mackey-Glass, para o conjunto Fim. . . 75

5.17 Treinamento e valida¸c˜ao para a s´erie temporal n˜ao linear. . . 77

5.18 Boxplot para a s´erie temporal n˜ao linear, para o conjunto Todos. . . 78

5.19 Sa´ıdas das redes para a s´erie temporal n˜ao linear, para o conjunto Todos. . . 80

5.20 Evolu¸c˜ao do n´umero de neurˆonios para a s´erie temporal n˜ao linear, para o con-junto Todos. . . 81

5.21 Boxplot para a s´erie temporal n˜ao linear, para o conjunto Fim. . . 82

5.22 Sa´ıdas das redes para a s´erie temporal n˜ao linear, para o conjunto Fim. . . 84

5.23 Evolu¸c˜ao do n´umero de neurˆonios para a s´erie temporal n˜ao linear, para o con-junto Fim. . . 85

(19)

Lista de Tabelas

5.1 Desempenho para o conjunto de dados Box-Jenkins, para o conjunto Todos. . . 57 5.2 Teste estat´ıstico DM para os dados Box-Jenkins, para o conjunto Todos. . . 58 5.3 Resumo do teste estat´ıstico DM para os dados Box-Jenkins, para o conjunto Todos. 59 5.4 Desempenho para o conjunto de dados Box-Jenkins, para o conjunto Fim. . . 61 5.5 Teste estat´ıstico DM para os dados Box-Jenkins, para o conjunto Fim. . . 62 5.6 Resumo do teste estat´ıstico DM para os dados Box-Jenkins, para o conjunto Fim. 63 5.7 Desempenho para a s´erie temporal Mackey-Glass, para o conjunto Todos. . . 66 5.8 Teste estat´ıstico DM para a s´erie temporal Mackey-Glass, para o conjunto Todos. 67 5.9 Resumo do teste estat´ıstico DM para a s´erie temporal Mackey-Glass, para o

conjunto Todos. . . 67 5.10 Desempenho para a s´erie temporal Mackey-Glass, para o conjunto Fim. . . 71 5.11 Teste estat´ıstico DM para a s´erie temporal Mackey-Glass, para o conjunto Fim. 72 5.12 Resumo do teste estat´ıstico DM para a s´erie temporal Mackey-Glass, para o

conjunto Fim. . . 72 5.13 S´erie temporal n˜ao linear . . . 76 5.14 Desempenho para a s´erie temporal n˜ao linear, para o conjunto Todos. . . 78 5.15 Teste estat´ıstico DM para a s´erie temporal n˜ao linear, para o conjunto Todos. . 79 5.16 Resumo do teste estat´ıstico DM para a s´erie temporal n˜ao linear, para o conjunto

Todos. . . 79 5.17 Desempenho para a s´erie temporal n˜ao linear, para o conjunto Fim. . . 82 5.18 Teste estat´ıstico DM para a s´erie temporal n˜ao linear, para o conjunto Fim. . . . 83 5.19 Resultados do teste estat´ıstico DM para a s´erie temporal n˜ao linear, para o

con-junto Fim. . . 83

(20)
(21)

Lista de Acrˆ

onimos

OS-ELM Online Sequential Extreme Learning Machine

TS Takagi-Sugeno

eTS evolving Takagi-Sugeno

ANYA ANgelov e YAger

NN Neural Network (rede neural)

SLFN Single Hidden Layer Feedforward Neural Networks

FRB Fuzzy Rule-Based

FNN Fuzzy Nerual Networks

ANFIS Adaptive-Network-Based Fuzzy Inference System

eFNN Evolving Fuzzy Neural Network

eFS evolving Fuzzy Systems

ELM Extreme Learning Machines

RLS Recursive Least Squares

OS-ELMn Online Sequential Extreme Learning Machine with Nonlinear function

EM Expectation Maximization

eHFN evolving Hybrid Fuzzy Neural network WRLS Weighted Recursive Least Squares

OP-ELM Optimally Pruned Extreme Learning Machine

eNNEL evolving Neural Network with recursive Extreme Learning DENFIS Dynamic Evolving Neuro-Fuzzy Inference System

RMSE Root Mean Squared Error

DM Diebold-Mariano

(22)
(23)

Lista de Nota¸c˜

ao

A matriz

x vetor

AT transposta da matriz A

A−1 inversa da matriz A

<n conjunto dos n´umeros reais n-dimensional

t instante, est´agio ou etapa em processos iterativos/construtivos (x t y) Norma triangular (t-norma) entre x e y

T(.) Operador t-norma

(x s y) Conorma triangular (s-norma) entre x e y

S(.) Operador s-norma

(x u y) Uninorma entre x e y

U(.) Operador de uninorma

γ densidade local de uma nuvem

µ valor modal local de uma nuvem

Γ densidade global das nuvens

µG valor modal global das nuvens

M n´umero de elementos de uma nuvem

K dispers˜ao local de uma nuvem U ti utilidade de uma nuvem

[ ] elemento escalar ou vetorial vazio

W matriz de pesos sin´apticos da camada intermedi´aria de uma rede neural w vetor de pesos sin´apticos da camada intermedi´aria de uma rede neural R matriz de pesos sin´apticos da camada sa´ıda de uma rede neural

r vetor de pesos sin´apticos da camada de sa´ıda de uma rede neural ˆ

y sa´ıda dos modelos

In matriz identidade de dimens˜ao n × n

|| · || norma Euclidiana

(24)
(25)

Trabalhos Publicados Pelo Autor

Congressos Internacionais

Rosa, R.; Gomide, F.; Dovzan, D.; Skrjanc, I. (2014). Evolving Neural Network with Extreme Learning for System Modeling. Proceedings of the IEEE Conference on Evolving and Adaptive Intelligent Systems, Linz, AT, v. 1, p. 1-7.

Rosa, R.; Maciel, L. S.; Gomide, F.; Ballini, R. (2014). Evolving Hybrid Neural Fuzzy Network for Realized Volatility Forecasting with Jumps. Proceedings of the IEEE Computational Intel-ligence for Financial Engineering & Economics, London, UK, v. 1, p. 1-8.

Rosa, R.; Ballini, R.; Gomide, F (2013). Evolving Hybrid Neural Fuzzy Network for System Modeling and Time Series Forecasting. Proceedings of the International Conference on Machine Learning and Applications, Miami, USA, v. 2, p. 378-383.

Congressos Nacionais

Rosa, R.; Gomide, F.; Ballini, R. (2013). Rede Neuro-Fuzzy Evolutiva com Neurˆonios Baseados em Uninormas para Previs˜ao de S´eries Temporais. Anais do Simp´osio Brasileiro de Automa¸c˜ao Inteligente, Fortaleza, Cear´a, v. 1, p. 1-6.

(26)
(27)

Cap´ıtulo

1

Introdu¸c˜

ao

1.1

Motiva¸

ao e Relevˆ

ancia

Modelos de inteligˆencia computacional se inspiram em processos naturais para a resolu¸c˜ao de problemas como otimiza¸c˜ao, automa¸c˜ao, modelagem, controle, entre outros. Os modelos s˜ao baseados na forma de pensar do ser humano, a estrutura do c´erebro, divis˜ao celular, organiza¸c˜ao de formigas, abelhas, etc. Dois paradigmas de inteligˆencia computacional s˜ao as redes neurais artificiais e os sistemas nebulosos.

Redes neurais artificiais s˜ao modelos matem´aticos baseados nos componentes e estrutura cerebral, como os neurˆonios e suas conex˜oes sin´apticas (Haykin; 2009). Elas visam emular a capacidade de aprendizagem, reconhecimento de padr˜oes, mem´oria, etc., das redes neurais naturais. A aprendizagem de uma rede neural artificial adv´em da sele¸c˜ao de sua estrutura e dos parˆametros correspondentes. Redes neurais s˜ao utilizadas nas mais diversas aplica¸c˜oes, como reconhecimento de fala, previs˜ao no mercado financeiro, controle de processos n˜ao lineares, classifica¸c˜ao, etc.

Tipicamente, m´etodos cl´assicos de aprendizagem de redes neurais tem o prop´osito de deter-minar os pesos sin´apticos das redes (Rumelhart et al.; 1986; Huang et al.; 2004). Atualmente, observa-se um grande interesse por algoritmos de aprendizagem que determinem tanto a estru-tura como os pesos da rede neural. Por exemplo, algoritmos construtivos (crescimento, poda, crescimento-poda) e algoritmos evolucion´arios (Liu et al.; 2010; Fangju; 2011; Miche et al.; 2010; Feng et al.; 2009; Islam et al.; 2009a,b; Javan et al.; 2010; Pisani e Lorena; 2012) s˜ao duas alternativas propostas na literatura.

Sistemas nebulosos constituem um arcabou¸co formal para tratar informa¸c˜ao e dados im-precisos. Fundamentais neste arcabou¸co s˜ao as no¸c˜oes de conjunto nebuloso, vari´avel

(28)

2 Cap´ıtulo 1. Introdu¸c˜ao

tica, rela¸c˜ao nebulosa, opera¸c˜oes com conjuntos e rela¸c˜oes nebulosas. Estas no¸c˜oes fornecem o substrato para construir modelos e controladores nebulosos com estrutura neural, lingu´ıstica, funcional ou h´ıbridas. Um tipo de sistema nebuloso particular ´e aquele baseado em regras nebulosas. Regras nebulosas podem originar do conhecimento especialista, de dados, ou de ambos. Em geral a aquisi¸c˜ao de conhecimento especialista ´e complexa e m´etodos baseados em dados tornaram-se uma alternativa para desenvolver e complementar abordagens baseadas em conhecimento especialista. Mais recentement, sistemas evolutivos que produzem bases de regras nebulosas, ou determinam a estrutura de redes neurais, simultaneamente com os respectivos pa-rˆametros foram propostas na literatura (Kasabov e Filev; 2006; Angelov e Filev; 2004; Angelov e Yager; 2011a; Angelov et al.; 2010).

Sistemas evolutivos s˜ao sistemas adaptativos de alto n´ıvel, pois eles determinam sua es-trutura e respectivos parˆametros de forma simultˆanea, gradual e incremental. Portanto, s˜ao sistemas capazes de aprender a partir de um fluxo de dados, o que ´e muito conveniente em ambientes on-line ou tempo real. Por exemplo, uma base de regras nebulosas pode ser reduzida ou expandida de modo a se adaptar `a situa¸c˜ao indicada pelos dados de entrada. Em geral, sistemas nebulosos evolutivos podem ser vistos como uma combina¸c˜ao de modelos nebulosos, mecanismos de representa¸c˜ao e compacta¸c˜ao de dados, e m´etodos recursivos de aprendizado de m´aquina (Kasabov e Filev; 2006).

Sistemas neurais nebulosos combinam a propriedade dos sistemas nebulosos de representar e processar informa¸c˜oes imprecisas com a capacidade de aprendizado e aproxima¸c˜ao das redes neurais artificiais. Redes neurais nebulosas evolutivas, assim como os sistemas evolutivos, s˜ao capazes de adaptar sua estrutura (topologia da rede) e atualizar seus parˆametros (pesos da rede) de acordo com um fluxo de dados (Angelov e Filev; 2004; Angelov e Xiaowei; 2006). Encontram-se na literatura aplica¸c˜oes de redes neurais nebulosas evolutivas para previs˜ao de pre¸co de a¸c˜oes (Nguyen e Quek; 2010), modelo t´ermico de transformadores de potˆencia (Souza et al.; 2012), previs˜ao de estado (Wang et al.; 2012), entre outras (Leite et al.; 2012; Wang et al.; 2012; Nguyen e Quek; 2010).

1.2

Objetivos

O objetivo deste trabalho ´e desenvolver e estudar redes neurais evolutivas para modelagem de processos n˜ao lineares e variantes no tempo a partir de um fluxo de dados. As redes neurais evolutivas adaptam sua estrutura e respectivos parˆametros simultaneamente usando algoritmos

(29)

1.3. Organiza¸c˜ao do Trabalho 3

recursivos de aprendizagem. A ˆenfase deste trabalho ´e em redes neurais feedforward com uma camada intermedi´aria. A adapta¸c˜ao da estrutura se d´a pela varia¸c˜ao do n´umero de neurˆonios da camada intermedi´aria. Os parˆametros correspondem aos pesos associados `as conex˜oes entre os neurˆonios da camada de entrada e a camada intermedi´aria (pesos da camada intermedi´aria) e aos pesos associados `as conex˜oes entre a camada intermedi´aria e a camada de sa´ıda (pesos da camada de sa´ıda). A adapta¸c˜ao de uma rede ocorre sempre que cada novo dado de entrada ´

e processado e o resultado deste processamento indique a necessidade de adapta¸c˜ao `a situa¸c˜ao atual. Assume-se um fluxo de dados na entrada, isto ´e, o processamento de dados ´e sequencial, sem a obrigatoriedade de armazenar e reprocessar todos dados processados anteriormente.

S˜ao propostas duas redes neurais evolutivas com aprendizado extremo recursivo e uma rede neural que ´e uma varia¸c˜ao da rede adaptativa OS-ELM (Liang et al.; 2006). A primeira ´e uma rede neural nebulosa h´ıbrida evolutiva com unineurˆonios na camada intermedi´aria e neurˆonios sigmoidais na camada de sa´ıda. Unineurˆonios s˜ao neurˆonios artificiais nebulosos com proces-samento sin´aptico baseado em uninormas. Um algoritmo de agrupamento recursivo baseado no conceito de nuvem ´e utilizado para granularizar o espa¸co de entrada-sa´ıda do processo a ser modelado. Um algoritmo de aprendizado extremo recursivo ´e utilizado para determinar os parˆametros da rede neural, isto ´e, os pesos das camadas intermedi´aria e de sa´ıda.

A segunda ´e uma rede neural evolutiva com aprendizado extremo recursivo. Esta rede neural utiliza neurˆonios sigmoidais na camada intermedi´aria e de sa´ıda. Esta rede tamb´em utiliza um algoritmo de agrupamento recursivo baseado em nuvens. Contudo, neste caso o n´umero de nuvens define o n´umero de neurˆonios da camada intermedi´aria: a cada nuvem ´e associado um neurˆonio desta camada. O algoritmo recursivo de aprendizado extremo tamb´em ´e utilizado para atualizar os pesos da camada intermedi´aria e de sa´ıda.

A varia¸c˜ao da rede OS-ELM sugerida nessa disserta¸c˜ao tem a mesma estrutura e parˆametros da rede original. Por´em, diferentemente da rede OS-ELM, os neurˆonios de sa´ıda tˆem fun¸c˜oes de ativa¸c˜ao sigmoidais em vez de lineares. Al´em disso, o algoritmo dos quadrados m´ınimos recursivo original ´e substitu´ıdo por sua vers˜ao ponderada.

1.3

Organiza¸

ao do Trabalho

Esta disserta¸c˜ao est´a organizada da seguinte forma. Ap´os esta introdu¸c˜ao, o Cap´ıtulo 2 trata de redes neurais e redes neurais nebulosas. Os conceitos b´asicos de redes neurais artificiais e de sistemas nebulosos s˜ao revistos para, a seguir, caracterizar a classe de redes neurais nebulosas

(30)

4 Cap´ıtulo 1. Introdu¸c˜ao

de interesse neste trabalho. Em particular, este cap´ıtulo apresenta os conceitos de t-norma, s-norma e uninorma assim como neurˆonios nebulosos do tipo and e or e o unineurˆonio.

O Cap´ıtulo 3 resume as no¸c˜oes de sistemas nebulosos funcionais evolutivos e de aprendizado extremo. Dois sistemas evolutivos s˜ao enfatizados, ambos modelos funcionais do tipo Takagi-Sugeno (TS). O primeiro, chamado de eTS (evolving Takagi-Takagi-Sugeno) (Angelov e Filev; 2004) utiliza algoritmos recursivos de agrupamento baseado em densidade e no quadrados m´ınimos. O segundo, ANYA (Angelov e Yager; 2011a) utiliza algoritmos recursivos de agrupamento baseado em nuvem e no quadrados m´ınimos. A m´aquina de aprendizado extremo (Huang et al.; 2004) ´

e apresentada em seguida, incluindo a m´aquina de aprendizado extremo sequencial OS-ELM e exemplos de aplica¸c˜oes mencionadas na literatura.

O Cap´ıtulo 4 detalha as redes neurais propostas neste trabalho: uma rede neural nebulosa h´ıbrida evolutiva e a neural sigmoidal evolutiva. ´E feita uma an´alise da inser¸c˜ao das redes propostas no estado da arte na ´area de redes neurais evolutivas.

O Cap´ıtulo 5 trata da avalia¸c˜ao de desempenho das redes neurais objeto deste trabalho. Ele resume os resultados computacionais e compara as redes neurais propostas com as alternativas de modelagem evolutiva mais representativas da literatura. Dois casos cl´assicos s˜ao considerados, a identifica¸c˜ao de forno a g´as usando os dados de Box-Jenkins, e a previs˜ao da s´erie temporal de Mackey-Glass. Considera-se tamb´em um processo n˜ao linear variante no tempo para gerar dados sint´eticos com concept drift e concept shift. O prop´osito ´e o de avaliar o desempenho das redes neurais e sistemas evolutivos na modelagem de sistemas n˜ao lineares variantes no tempo (parˆametros e estrutura do processo). O desempenho dos sistemas s˜ao comparados utilizando a raiz quadrada do erro quadrado m´edio, o teste estat´ıstico Deibold-Mariano, o n´umero de regras/neurˆonios e o tempo de processamento.

Finalmente, o Cap´ıtulo 6 conclui o trabalho resumindo suas principais contribui¸c˜oes e suge-rindo temas para trabalhos futuros.

(31)

Cap´ıtulo

2

Redes Neurais Nebulosas

Redes neurais nebulosas s˜ao destaque na literatura devido `a grande aplicabilidade, capaci-dade de aprendizado e interpreta¸c˜ao dos dados (Buckley e Hayashi; 1994; Lemos et al.; 2010). Neste cap´ıtulo s˜ao apresentados conceitos b´asicos sobre sistemas neurais artificias e sistemas nebulosos, sistemas neurais nebulosos e redes neurais nebulosas. Neurˆonios nebulosos do tipo and e or e unineurˆonios s˜ao apresentados assim como t-normas, s-normas e uninormas.

2.1

Redes Neurais Artificiais

Redes neurais artificias, ou redes neurais (NN, Neural Network), s˜ao modelos matem´aticos inspirados nas redes neurais naturais e suas capacidades. As unidades b´asicas de processamento das redes neurais s˜ao os neurˆonios artificiais. Em 1943, McCulloch e Pitts (1943) apresentaram o primeiro modelo de neurˆonio artificial, um modelo matem´atico de um neurˆonio natural. Ro-senblatt (1958), 15 anos ap´os o primeiro modelo de neurˆonio artificial, propˆos a primeira rede neural chamada perceptron. As redes neurais emulam a capacidade de aprendizagem das re-des neurais naturais, sendo capazes de aprender associa¸c˜oes, padr˜oes e dependˆencias funcionais (Hassoun; 1995). S˜ao utilizadas para reconhecimento de padr˜oes, tomada de decis˜ao, controle de sistemas, previs˜ao, etc.

A Figura 2.1 apresenta um modelo de neurˆonio artificial. Nesse modelo, os dados de entrada, x = [x1, . . . , xn]T, s˜ao ponderados pelos pesos sin´apticos w = [w1, . . . , wn]T atrav´es da

multipli-ca¸c˜ao. Esses processamentos sin´apticos, wixi com i = 1, . . . , n, s˜ao agregados pelo operador de

soma, P, como v = n X i=1 wixi. 5

(32)

6 Cap´ıtulo 2. Redes Neurais Nebulosas

x

1

x

i

x

n

w

1

w

i

w

n

y

Figura 2.1: Neurˆonio artificial.

Figura 2.2: Rede neural artificial feedforward de ´unica camada intermedi´aria.

A fun¸c˜ao de ativa¸c˜ao f ´e aplicada no resultado da agrega¸c˜ao definindo a sa´ıda y. A fun¸c˜ao f ´

e geralmente escolhida como uma fun¸c˜ao sigmoidal, por´em ela pode ser qualquer mapeamento R → R. A sa´ıda do neurˆonio artificial ´e definida como segue

y = f (v). (2.1)

Uma rede neural feedforward de ´unica camada intermedi´aria (SLFN, Single hidden Layer Feedforward Neural network), Figura 2.2, ´e um tipo de rede neural com um ´unico fluxo de dados, da camada de entrada para a camada de sa´ıda. Neste trabalho, as redes neurais propostas s˜ao deste tipo.

(33)

2.2. Redes Neurais Nebulosas 7

componentes do dado de entrada est˜ao conectados aos N neurˆonios da camada intermedi´aria, ponderados pelos pesos intermedi´arios W = [wil], com i = 1, . . . , n e l = 1, . . . , N . As sa´ıdas

dos neurˆonios da camada intermedi´aria s˜ao definidas como

vl = f xTwl ,

onde wl = [w1l, . . . , wnl]T, l = 1, . . . , N e f , como j´a dito, ´e usualmente escolhida como uma

fun¸c˜ao sigmoidal. As sa´ıdas dos neurˆonios da camada intermedi´aria, v = [v1, . . . , vN]T, s˜ao

ponderadas pelos pesos de sa´ıda R = [rjl]. A sa´ıda da rede neural ´e definida como

ˆ

yj = rjv, (2.2)

onde rj = [rj1, . . . , rjN], j = 1, . . . , m e m ´e o n´umero de componentes do vetor de sa´ıda.

A aprendizagem das redes neurais adv´em do ajuste dos pesos sin´apticos e da defini¸c˜ao de sua estrutura. A aprendizagem ´e chamada est´atica, ou treinamento, quando h´a dispon´ıvel a priori um conjunto de dados para treinamento, valida¸c˜ao e teste. Na aprendizagem dinˆamica, ou adapta¸c˜ao, os dados de entrada comp˜oem um fluxo: a aprendizagem ocorre a cada dado de entrada, de maneira recursiva. Em particular, pode-se realizar a aprendizagem est´atica, a fim de determinar os parˆametros da rede neural, e, em seguida, processar um fluxo de dados com a aprendizagem dinˆamica.

2.2

Redes Neurais Nebulosas

Sistemas neurais nebulosos combinam a propriedade dos sistemas nebulosos de representar e processar informa¸c˜oes imprecisas com a capacidade de aprendizado e aproxima¸c˜ao das redes neurais. O objetivo ´e integrar os dois sistemas e combinar suas qualidades.

Nos anos 1960, Zadeh (1965) buscou generalizar o conceito de conjuntos cl´assicos e suas opera¸c˜oes, propondo os conjuntos nebulosos. A teoria dos conjuntos nebulosos traz um amparo matem´atico para capturar incertezas associadas aos processos cognitivos humanos. Diferente dos conjuntos cl´assicos, os conjuntos nebulosos permitem que um elemento perten¸ca a mais de um conjunto com diferentes graus de pertinˆencia. Os graus de pertinˆencia possuem valores no intervalo [0,1]. Sistemas baseados na teoria de conjuntos nebulosos foram chamados de sistemas nebulosos.

(34)

8 Cap´ıtulo 2. Redes Neurais Nebulosas

Based). Os sistemas FRB possuem um conjunto de regras nebulosas que modelam localmente um sistema. O desempenho dos sistemas FRB, em uma determinada aplica¸c˜ao, pode ser ajustado modificando os parˆametros e n´umero das regras nebulosas.

Ao combinar os sistemas nebulosos e as redes neurais, cria-se a possibilidade de tratar com um sistema lingu´ıstico ao inv´es de modelos matem´aticos complexos. Um sistema lingu´ıstico ´e basicamente composto de regras nebulosas altamente intuitivas e facilmente compreendidas por humanos. Al´em disso, o sistema neural nebuloso pode auto-ajustar os parˆametros das regras nebulosas usando algoritmos de aprendizagem baseados nas redes neurais. Um tipo de sistema neural nebuloso s˜ao as rede neurais nebulosas (FNN, Fuzzy Nerual Networks).

Na literatura, Lee e Lee (1974, 1975) foram pioneiros ao generalizar o neurˆonio artificial de McCulloch-Pitts utilizando valores no intervalo de zero a um.

Kasabov (1996a) propˆos a rede neural nebulosa chamada FuNN (Fuzzy Neural Network ). A estrutura da rede FuNN ´e similar `a estrutura de uma rede neural perceptron de m´ultiplas camadas (MLP, Multilayer Perceptron) (Rosenblatt; 1958). O algoritmo de aprendizagem da rede FuNN corresponde a uma metodologia do tipo backpropagation. A FuNN ´e um modelo de FNN adapt´avel: as fun¸c˜oes de pertinˆencia dos antecedentes nebulosos e as regras nebulosas, ambas definidas antes do treinamento, adaptam-se e modificam-se de acordo com os dados de treinamento. Esta rede possui 5 camadas: a camada de entrada, camada dos elementos condicionais, camada de regras, camada dos consequentes e a camada de sa´ıda.

Outra FNN, chamada sistema de inferˆencia nebulosa baseado em redes adaptativas (ANFIS, Adaptive-Network-Based Fuzzy Inference System) ´e uma FNN com destaque na literatura. Pro-posta por Shing e Jang (1993), ´e uma rede neural nebulosa h´ıbrida que constr´oi um conjunto de regras nebulosas do tipo se-ent˜ao com fun¸c˜ao de pertinˆencia apropriada para modelagem de sistemas. A rede ´e composta de 6 camadas e pode ser comparada a um sistema de inferˆencia ne-bulosa. A primeira camada ´e a camada de entrada dos dados. A segunda camada representa os dados de entrada atrav´es de fun¸c˜oes de pertinˆencia, e os parˆametros das fun¸c˜oes de pertinˆencia representam os antecedentes do sistema nebuloso. Os neurˆonios na terceira camada realizam o produto, ou outra t-norma, entre os diferentes graus das fun¸c˜oes de pertinˆencia para cada dado de entrada. A quarta camada possui neurˆonios que normalizam as sa´ıdas dos neurˆonios da terceira camada. Na quinta camada, os neurˆonios multiplicam a sa´ıda dos neurˆonios da camada anterior com uma fun¸c˜ao linear das entradas. Os parˆametros da fun¸c˜ao linear representam os consequentes do sistema nebuloso. A ´ultima camada, a camada de sa´ıda, realiza a m´edia ponderada das sa´ıdas dos neurˆonios da camada anterior.

(35)

2.2. Redes Neurais Nebulosas 9

Segundo Buckley e Hayashi (1994), redes neurais nebulosas s˜ao definidas de acordo com os operadores escolhidos na agrega¸c˜ao e pondera¸c˜ao, e nas defini¸c˜oes das entradas e pesos. As redes podem ser definidas como rede neural h´ıbrida, rede neural nebulosa e rede neural nebulosa h´ıbrida.

Redes neurais h´ıbridas utilizam neurˆonios com processamento sin´aptico e agrega¸c˜ao definidos por operadores dos sistemas nebulosos, as entradas e pesos possuem valores reais. Lin e Lee (1996) chamaram esses neurˆonios de tipo I.

Nas redes neurais nebulosas, as entradas e/ou os pesos s˜ao nebulosos, ou seja, definidos por graus de pertinˆencia a conjuntos nebulosos, no intervalo [0,1]. Os processamentos sin´apticos e as agrega¸c˜oes n˜ao s˜ao definidos por operadores dos sistemas nebulosos.

Como nas redes neurais h´ıbridas, os processamentos sin´apticos e as agrega¸c˜oes das redes neurais nebulosas h´ıbridas utilizam operadores dos sistemas nebulosos, por´em as entradas e/ou pesos s˜ao nebulosos. Lin e Lee (1996) chamaram esses neurˆonios de tipo II. A rede ANFIS utiliza neurˆonios do tipo II em sua terceira camada.

Neurˆonios cujos operadores s˜ao definidos pelos sistemas nebulosos s˜ao chamados neurˆonios nebulosos (Pedrycz; 1993). Um neurˆonio nebuloso, Figura 2.3, ´e definido por suas duas opera-¸c˜oes, uma opera¸c˜ao local, tamb´em chamada processamento sin´apitico ou operador de pondera-¸c˜ao, ∗, que pondera as entradas xi com os pesos wi, e uma opera¸c˜ao global, tamb´em chamada

de operador de agrega¸c˜ao, ⊗, que combinam os processamentos sin´apticos gerando a sa´ıda y, equa¸c˜ao (2.3). Ambas as opera¸c˜oes, local e global, s˜ao realizadas por operadores dos sistemas nebulosos. Se as entradas e os pesos forem valores reais, o neurˆonio ´e do tipo I, se as entradas e/ou os pesos s˜ao nebulosos, o neurˆonio ´e do tipo II.

x

1

x

i

x

n

w

1

w

i

w

n

v

1

v

i

v

n

y

Figura 2.3: Neurˆonio nebuloso.

(36)

10 Cap´ıtulo 2. Redes Neurais Nebulosas

da seguinte forma (Hell; 2008)

vi = wi∗ xi, i = 1, 2, . . . , n,

y = ⊗(v1, . . . , vn) = v1⊗ . . . vn.

(2.3) Nerˆonios do tipo and e or (Pedrycz e Rocha; 1993), unineurˆonios (Pedrycz; 2006a; Hell et al.; 2009a,b; Lemos et al.; 2010) e nulneurˆonios (Hell et al.; 2008) s˜ao neurˆonios nebulosos que utilizam operadores nebulosos tais como as t-normas, s-normas, uninormas e nulnormas, res-pectivamente. Dependendo dos valores assumidos pelos pesos e entradas, os neurˆonios nebulosos s˜ao definidos como neurˆonios do tipo I ou II.

2.2.1

Neurˆ

onios and e or

Operadores nebulosos s˜ao definidos pela teoria dos conjuntos nebulosos, e generalizam as opera¸c˜oes dos conjuntos cl´assicos (Pedrycz e Rocha; 1993). As normas triangulares t-norma e s-norma, tamb´em chamada de t-conorma, s˜ao operadores que generalizam a intersec¸c˜ao e a uni˜ao dos conjuntos cl´assicos, respectivamente (H´ajek; 2000). Estas normas s˜ao definidas da seguinte forma:

Defini¸c˜ao 1 (t-norma) Um operador bin´ario, comutativo, associativo, monotˆonico e com ele-mento neutro 1, T : [0, 1] × [0, 1] → [0, 1] que satisfaz T(x, 1) = x para todo x ∈ [0, 1] ´e chamado norma triangular ou t-norma.

Exemplos de t-normas s˜ao as opera¸c˜oes de produto e m´ınimo.

Defini¸c˜ao 2 (s-norma) Um operador bin´ario, comutativo, associativo, monotˆonico e com ele-mento neutro 0, S : [0, 1] × [0, 1] → [0, 1] que satisfaz S(x, 0) = x para todo x ∈ [0, 1] ´e chamado co-norma triangular ou s-norma.

Exemplos de s-norma s˜ao as opera¸c˜oes de soma probabil´ıstica e m´aximo. Outros exemplos de t-normas e s-normas podem ser encontradas em (Klir e Yuan; 1995).

O neurˆonio nebuloso chamado neurˆonio l´ogico and, Figura 2.4, ´e obtido substituindo na equa¸c˜ao (2.3) o operador local por uma s-norma e o operador global por uma t-norma.

Reescrevendo a equa¸c˜ao (2.3) desta forma, obtemos

vi = S(wi, xi), i = 1, 2, . . . , n,

y = T(v1, . . . , vn),

(2.4) ou simplesmente

(37)

2.2. Redes Neurais Nebulosas 11

x

1

x

i

x

n

w

1

w

i

w

n

y

and

Figura 2.4: Neurˆonio l´ogico do tipo and.

y = and(w, x) =

n

T

i=1S(wi, xi), (2.5)

onde x = [x1, . . . , xn]T ´e o vetor das entradas, xi ∈ [0, 1], w = [w1, . . . , wn]T ´e o vetor do pesos,

wi ∈ [0, 1], y ∈ [0, 1] ´e a sa´ıda e n

T

i=1(.) representa uma opera¸c˜ao de t-normas.

O neurˆonio nebuloso chamado neurˆonio l´ogico or, Figura 2.5, ´e obtido substituindo o opera-dor local, da equa¸c˜ao (2.3), por uma t-norma e o operador global por uma s-norma, da seguinte forma

x

1

x

i

x

n

w

1

w

i

w

n

y

or

Figura 2.5: Neurˆonio l´ogico do tipo or.

vi = T (wi, xi), i = 1, 2, . . . , n, y = S(v1, . . . , vn), (2.6) ou simplesmente y = or(w, x) = Sn i=1T (wi, xi), (2.7) onde n S

i=1(.) representa uma opera¸c˜ao de s-normas.

Os neurˆonios l´ogicos and e or (Pedrycz e Rocha; 1993) s˜ao utilizados em diversas redes presentes na literatura. Originalmente, Pedrycz et al. (1995) propuseram FNNs que utilizam neurˆonios and e or. As FNNs propostas s˜ao redes neurais nebulosas h´ıbridas e s˜ao chamadas de processadores l´ogicos. Os dois tipos de processadores l´ogicos possuem estruturas duais com

(38)

12 Cap´ıtulo 2. Redes Neurais Nebulosas

as mesmas defini¸c˜oes para entradas e pesos sin´apticos, ambos com neurˆonios do tipo II. O que difere os dois tipos de processadores l´ogicos ´e o posicionamento dos neurˆonios and e or. No primeiro processador l´ogico h´a h neurˆonios and na camada intermedi´aria e somente um neurˆonio or na camada de sa´ıda. Os neurˆonios and fornecem uma sequˆencia de mintermos generalizados do sistema, combinados atrav´es da uni˜ao l´ogica realizada pelo neurˆonio or. Este processador ´e conhecido como soma de mintermos. No segundo tipo de processador l´ogico, conhecido como produto de maxitermos, a camada intermedi´aria possui h neurˆonios or e somente um neurˆonio and na camada de sa´ıda, que tem a fun¸c˜ao de agregar os maxitermos generalizados fornecidos pela camada anterior (Hell; 2008).

Outra rede com neurˆonios and e or do tipo II, foi propostar por Caminhas et al. (1999). Essa FNN ´e utilizada para problemas de classifica¸c˜ao de padr˜oes. A rede neural nebulosa h´ıbrida apresenta o conhecimento adquirido de forma expl´ıcita: ´e poss´ıvel inserir ou extrair conhecimento na forma de regras nebulosas do tipo se-ent˜ao.

Ballini e Gomide (2002) prop˜oem uma FNN recorrente com neurˆonios and e or do tipo II. Nessa rede neural nebulosa h´ıbrida as duas primeiras camadas, com neurˆonios nebulosos, formando um sistema de inferˆencia nebulosa, a camada de sa´ıda ´e formada por uma rede neural cl´assica que agrega as sa´ıdas das regras nebulosas do sistema de inferˆencia, formando uma estrutura h´ıbrida (Hell; 2008).

2.2.2

Unineurˆ

onios

Neste trabalho, iremos utilizar neurˆonios nebulosos que utilizam uninormas em seus operado-res, chamados unineurˆonios. Unineurˆonios possuem uma grande plasticidade: eles generalizam os neurˆonios and e or, uma vez que a uninorma generaliza as t-normas e s-normas triangulares (Yager e Rybalov; 1996). Essa plasticidade ´e obtida atrav´es do elemento neutro das uninormas. Tamb´em chamado de elemento identidade, o elemento neutro pode assumir qualquer valor no intervalo unit´ario; assim, a uninorma pode assumir o comportamento de uma t-norma, com elemento identidade igual a 1, e de uma s-norma, com elemento identidade igual a 0, al´em de possuir caracter´ısticas intermedi´arias quando o elemento identidade assume outros valores.

A defini¸c˜ao de uninorma ´e da seguinte forma

Defini¸c˜ao 3 (Uninorma) Um operador bin´ario, comutativo, associativo, monotˆonico e com elemento identidade no intervalo [0, 1], U : [0, 1] × [0, 1] → [0, 1], U (x, y) = x u y, ´e chamado uninorma. Ou seja, para todo x, y, z ∈ [0, 1]

(39)

2.2. Redes Neurais Nebulosas 13

Comutatividade U (x, y) = U (y, x)

Monotonicidade U (x, y) ≥ U (z, v) para x > z e y > v Associatividade U (x, U (y, z)) = U (U (x, y), z)

Elemento identidade ∃ algum e ∈ [0, 1] tal que U (x, e) = x ∀x ∈ [0, 1] Exemplos de uninormas podem ser encontradas em Yager e Rybalov (1996).

O unineurˆonio, Figura 2.6, ´e obtido substituindo o operador local e global da equa¸c˜ao (2.3) por uninormas duais. Uninormas duais s˜ao um par de uninormas que possuem elemento iden-tidade e = g ou e = (1 − g).

x

1

x

i

x

n

w

1

w

i

w

n

y

U

n

Figura 2.6: Unineurˆonio.

A sa´ıda do unineurˆonio tem a seguinte forma

y = Un(w,x) = n

U

i=1xi u wi, (2.8)

onde xi ´e a i-´esima entrada e wi ´e o peso correspondente e n

U

i=1(.) representa uma opera¸c˜ao de

uninormas. Em particular, se n = 1, ent˜ao a sa´ıda, y, do unineurˆonio ser´a

y = xi u wi.

Na literatura, Pedrycz (2006a) publicou um estudo pioneiro na aplica¸c˜ao de uninormas nos operadores de um neurˆonio artificial. O autor explorou casos onde a uninorma era empregada nos operadores locais ou nos operadores globais dos neurˆonios nebulosos. O autor afirma que al-goritmos de aprendizagem para casos onde emprega-se a uninorma tanto para operadores locais, como globais, seriam de dificil defini¸c˜ao. Alguns anos mais tarde, Hell et al. (2009a) prop˜oem um algoritmo de aprendizagem para uma rede neural nebulosa h´ıbrida onde os neurˆonios uti-lizavam uninormas como operador local e global. O processo de aprendizagem da rede neural possui duas fases: a primeira consiste em agrupar o espa¸co entrada-sa´ıda e a segunda utiliza o gradiente descendente para atualizar os pesos da rede.

(40)

14 Cap´ıtulo 2. Redes Neurais Nebulosas

Uma FNN com unineurˆonios do tipo II, proposta por Lemos et al. (2010), possui um al-goritmo de aprendizagem tamb´em dividido em duas partes; na primeira, ´e realizado um agru-pamento do espa¸co de entrada utilizando o fuzzy c-means. A segunda parte consiste em um algoritmo gen´etico que ajusta os parˆametros livres da rede neural nebulosa h´ıbrida. O unineurˆ o-nio da rede ´e visto como uma agrega¸c˜ao de uninorma ponderada e outra singularidade ´e que o elemento identidade ´e adicionado como parˆametro a ser otimizado.

Bordignon e Gomide (2014) prop˜oem uma rede neural nebulosa evolutiva (eFNN, evolving Fuzzy Neural Network) com unineurˆonios do tipo II. O processo de aprendizagem consiste em agrupar os dados de entrada utilizando o fuzzy c-means e, para o ajuste dos parˆametros, ´e utilizada uma vers˜ao recursiva da m´aquina de aprendizado extremo. A mesma vers˜ao recursiva da m´aquina de aprendizado extremo ´e utilizada neste trabalho . Os autores conseguem provar a capacidade de aproxima¸c˜ao universal da rede neural nebulosa proposta quando treinada com o aprendizado modo est´atico.

A uninorma utilizada neste trabalho ´e definida como (Pedrycz; 2006b)

a u b =  

e + (1 − e)S(a−e)(1−e),(1−e)(b−e), se a, b ∈ [e, 1] eT (ae,be). caso contr´ario

, (2.9)

onde a t-norma ´e escolhida como o produto

T(a, b) = ab,

e a s-norma escolhida como a soma probabil´ıstica

S(a, b) = a + b − ab.

Essa escolha resulta em uma superf´ıcie mais suave para a fun¸c˜ao de ativa¸c˜ao do neurˆonio nebu-loso, ao contr´ario da combina¸c˜ao min-max que gera mudan¸cas abruptas nos extremos de (a, e) e (e, b) (Yager e Rybalov; 1996).

A superf´ıcie gerada por essa uninorma ´e apresentada na Figura 2.7. As diferentes superf´ıcies s˜ao formadas escolhendo valores diferentes para o elemento identidade, e = [0, 1].

(41)

2.3. Resumo 15

a) e = 0, neunˆonio or. b) e = 0, 2.

c) e = 0, 4. d) e = 0, 6.

e) e = 0, 8. f) e = 1, neurˆonio and.

Figura 2.7: Exemplos de uninormas.

2.3

Resumo

Este cap´ıtulo apresentou uma breve revis˜ao sobre redes neurais artificiais e neurˆonios arti-ficiais. O principal foco foram as redes neurais nebulosas e os neurˆonios nebulosos. Algumas

(42)

16 Cap´ıtulo 2. Redes Neurais Nebulosas

redes neurais nebulosas com destaque na literatura s˜ao comentadas.

Conceitos de operadores nebulosos, t-normas, s-normas e uninormas s˜ao apresentados para dar suporte as defini¸c˜oes de neurˆonios nebulosos. Por fim, as redes neurais nebulosas com neurˆonios nebulosos com neurˆonios do tipo and e or e com unineurˆonios s˜ao apresentadas.

(43)

Cap´ıtulo

3

Sistemas Nebulosos Evolutivos e Aprendizado

Extremo

Este cap´ıtulo est´a dividido em dois t´opicos, o primeiro trata de sistemas nebulosos evolutivos, apresenta alguns sistemas propostos na literatura, com enfoque em sistemas evolutivos que foram utilizados de base para a produ¸c˜ao deste trabalho. O segundo t´opico apresenta os fundamentos da m´aquina de aprendizado extremo e algumas aplica¸c˜oes presentes na literatura, al´em da m´aquina de aprendizado sequencial online. Os principais conceitos apresentados aqui s˜ao o sistema evolutivo ANYA e a m´aquina de aprendizado extremo sequencial online. Eles ser˜ao as bases para a formula¸c˜ao das redes neurais propostas neste trabalho.

3.1

Sistemas Nebulosos Evolutivos

Sistemas nebulosos evolutivos (eFS, evolving Fuzzy Systems) s˜ao sistemas adaptativos que modificam tanto sua estrutura como seus parˆametros conforme um fluxo de dados ´e processado. Ou seja, a estrutura do sistema nebuloso evolutivo pode ser reduzida ou expandida de modo a se adaptar `a cada novo dado de entrada.

O termo “evolutivo” n˜ao pode ser confundido com “evolucion´ario”. Sistemas evolucion´arios baseiam-se no processo de evolu¸c˜ao que ocorre em uma popula¸c˜ao de indiv´ıduos e utilizam operadores baseados em processos gen´eticos. Sistemas evolutivos s˜ao sistemas que modificam sua estrutura e parˆametros a cada novo dado de entrada (Angelov e Xiaowei; 2006).

Sistemas nebulosos evolutivos podem ser vistos como uma combina¸c˜ao de modelos nebulosos, um mecanismo evolutivo para representa¸c˜ao e compacta¸c˜ao dos dados de entrada e m´etodos recursivos de aprendizado de m´aquina (Kasabov e Filev; 2006).

(44)

18 Cap´ıtulo 3. Sistemas Nebulosos Evolutivos e Aprendizado Extremo

Os sistemas nebulosos evolutivos surgiram devido `a necessidade de um eficiente processa-mento de informa¸c˜ao e extra¸c˜ao de conhecimento em sistemas complexos. No cen´ario atual, os dados s˜ao obtidos em grandes quantidades, dinamicamente e na forma de um fluxo (Ange-lov et al.; 2010). Para processar esses dados, novas metodologias foram propostas, capazes de extrair conhecimento a partir dos dados, em tempo real (Kasabov; 1996b).

Nesta se¸c˜ao, ser˜ao apresentados dois sistemas nebulosos evolutivos, o eTS (Angelov; 2002) e o ANYA (Angelov e Yager; 2011a), escolhidos por se tratarem de referˆencias para a constru¸c˜ao deste trabalho.

3.1.1

Takagi-Sugeno Evolutivo

Os sistemas nebulosos baseado em regras (FRB, Fuzzy Rule-Based) chamados de Takagi-Sugeno (TS), s˜ao sistemas nebulosos onde os antecedentes das regras nebulosas s˜ao termos lingu´ısticos e os consequentes s˜ao fun¸c˜oes das vari´aveis dos antecedentes (Takagi e Sugeno; 1985). O modelo Takagi-Sugeno evolutivo (eTS, evolving Takagi-Sugeno) prop˜oe uma atualiza-¸c˜ao do sistema de forma recursiva. Proposto por Angelov (2002), o modelo eTS determina os antecedentes das regras por um processo de agrupamento n˜ao supervisionado. A estrutura do modelo ´e flex´ıvel, ou seja, a cada novo dado de entrada deve-se decidir como a base de regras ser´a atualizada, ajustando o n´umero de regras e os parˆametros dos antecedentes (Angelov; 2002).

O modelos eTS ´e formado por um conjunto de regras nebulosas do tipo se-ent˜ao, semelhante ao modelo TS, da seguinte forma

Ri : SE xt1 ´e Ai1 E . . . E x t n ´e Ain ENT˜AO y t i = ai0 + ai1x t 1+ · · · + ainx t n,

onde Ri´e a i-´esima regra nebulosa para i = 1, . . . , Lt, Lt´e o n´umero de regras, xt = [xt1, . . . , xtn]T

∈ <n´e o dado de entrada, A

ij ´e a fun¸c˜ao de pertinˆencia associada `a j-´esima vari´avel de entrada

da i-´esima regra nebulosa, yt i ∈ <L

t

´

e a sa´ıda linear do consequente da i-´esima regra e aij s˜ao

os parˆametros do modelo linear da regra i e t ´e o n´umero da itera¸c˜ao.

Cada regra descreve comportamentos locais do conjunto de dados de entrada, aproximando esses comportamentos por modelos lineares. O sistema n˜ao-linear ´e formado pela uni˜ao dos modelos lineares que fazem parte dos consequentes das regras (Angelov e Filev; 2004). O grau de ativa¸c˜ao de cada regra pondera a participa¸c˜ao que o modelo linear local ter´a na sa´ıda total. Os antecedentes das regras nebulosas s˜ao definidos por fun¸c˜oes de pertinˆencia Gaussianas da seguinte forma (Angelov e Filev; 2004)

(45)

3.1. Sistemas Nebulosos Evolutivos 19 µij(x t j) = exp − 4 σ2 ij ||xt j − ˇxij|| 2 ! , (3.1) onde µij(x t

j) ´e o grau de pertinˆencia do j-´esima componente do dado de entrada, xt, em Aij, ˇxij

´

e a j-´esima componente do centro ou ponto focal do grupo i, ˇxi, e σij ´e a dispers˜ao da fun¸c˜ao

de pertinˆencia Aij e define a zona de influˆencia do modelo presente na regra i e por fim || · ||

define a distˆancia Euclidiana.

O grau de ativa¸c˜ao da regra nebulosa i ´e definido pela conjun¸c˜ao dos graus de pertinˆencia do dado de entrada nos conjuntos nebulosos dos antecedentes desta regra, µij(x

t j), como segue τi(xt) = n T j=1µij(x t) = n Y j=1 µij(x t) = µ i1(x t 1) × · · · × µin(x t n), i = 1, . . . , L t. (3.2)

A sa´ıda do modelo ´e definida como a m´edia ponderada da sa´ıda de cada regra, como

y = Lt X i=1 λiyi, (3.3) onde λi = τi(xt) . PLt

j=1τj(xt) ´e o grau de ativa¸c˜ao normalizado de cada regra i.

Para atualizar a base de regras, adicionando ou modificando regras existentes, o modelo utiliza-se de um algoritmo de agrupamento recursivo n˜ao supervisionado. O agrupamento ´e realizado no espa¸co de entrada-sa´ıda, z = [xT, yT]T, e a estrutura do modelo ´e atualizada a cada itera¸c˜ao. A base do algoritmo de agrupamento est´a na ideia de representatividade de cada umas das novas entradas, calculada a partir de um potencial (Yager e Filev; 1994a).

A fun¸c˜ao potencial de um dado, zt, depende de todos os outros dados, atrav´es de uma medida de proximidade como (Angelov e Filev; 2004)

P (zt) = 1 t − 1 t−1 X k=1 exp(−r||zt− zk||2), (3.4)

onde r ´e uma constante positiva e t = 2, 3, . . . o ´ındice dos dados j´a processadas.

A fun¸c˜ao potencial busca encontrar poss´ıveis dados que definam centro de regi˜oes com con-centra¸c˜ao de dados. A Figura 3.1 apresenta a ideia da fun¸c˜ao potencial, onde o potencial do dado B, PB, ´e maior que o potencial de A, PA. Regi˜oes com maior concentra¸c˜ao de dados

apresen-tar˜ao maiores valores de potencial para cada dado. Ou seja, a fun¸c˜ao potencial ´e inversamente proporcional `as distˆancias entre os dados.

(46)

20 Cap´ıtulo 3. Sistemas Nebulosos Evolutivos e Aprendizado Extremo

Figura 3.1: Demonstra¸c˜ao do potencial (Lemos; 2011).

como segue Pt(zt) = t − 1 (t − 1)(ϑt+ 1) + γt− 2υt, (3.5) onde ϑt = Pn+m j=1 (z t j)2, γt = Pt−1 k=1 Pn+m j=1 (z k j)2, υt = Pn+m j=1 z t jβjt sendo βjt = Pt−1 k=1z k j, j =

1, . . . , n + m, n e m s˜ao as dimens˜oes do espa¸co de entrada e de sa´ıda, respectivamente.

Os parˆametros ϑt e υt s˜ao calculados a partir de zt, os parˆametros βjt e γt podem ser calculados recursivamente, como

γt= γt−1+

n+m

X

j=1

(zjt−1)2 e βjt = βt−1+ zjt−1. (3.6)

O potencial dos centros dos agrupamentos existentes tamb´em ´e calculado de maneira recur-siva. Como os potenciais s˜ao calculados utilizando todos os dados dispon´ıveis at´e o instante t, a cada chegada de um novo dado, os potenciais dos centros tamb´em mudam. Os potenciais dos grupos s˜ao atualizados de acordo com (Angelov e Filev; 2004)

Pt(ˇzi) = (t − 1)Pt−1z i) t − 2 + Pt−1z i) · h 1 +Pn+m j=1 (d t(t−1) j )2 i , (3.7)

onde ˇzi´e o centro do grupo i, i = 1, . . . , Lte d t(t−1)

(47)

3.1. Sistemas Nebulosos Evolutivos 21

Para a evolu¸c˜ao da base de regras, compara-se o valor do potencial do novo dado e dos potenciais dos centros de grupo atualizados. Caso o potencial do novo dado seja maior que o potencial de todos os centros de grupo atualizados, o centro de um grupo ser´a atualizado, ou um novo grupo ser´a criado. Se o novo dado est´a pr´oximo o suficiente, segundo a distˆancia Euclidiana, de um centro de grupo existente, o novo dado assumir´a o centro do grupo. Os limiares s˜ao definidos por Angelov e Filev (2004). Caso contr´ario, o novo dado ir´a originar um novo grupo e ser´a centro desse grupo.

N˜ao satisfazendo nenhuma condi¸c˜ao, o novo dado ser´a utilizado para atualizar os parˆ ame-tros do consequente da regra relacionada ao grupo com menor distˆancia Euclidiana ao novo dado. Essa atualiza¸c˜ao ´e realizada utilizando o algoritmo recursivo de m´ınimos quadrados ou o algoritmo recursivo de m´ınimos quadrados ponderado (Ljung; 1999; Young; 1984). O Algoritmo 3.1 apresenta o procedimento de atualiza¸c˜ao da estrutura do modelo eTS (Lemos; 2011). Algoritmo 3.1 Algoritmo de agrupamento do eTS

ler o primeiro dado

inicializar o primeiro grupo com centro no primeiro dado while existirem entradas do

ler o novo dado

calcular o potencial, P (zt), do novo dado segundo (3.5)

for i = 1, . . . , Lt do

atualizar o potencial do centro ˇzi, P (ˇzi), segundo (3.7)

end for

if P (zt) > P (ˇz

i) then

if zt ´e pr´oximo o suficiente do centro de algum grupo i then zt substitui ˇz

i como centro do grupo i

else

criar um novo grupo com centro zt end if

else

atualizar os parˆametros do consequente da regra com centro de grupo com menor dis-tˆancia Euclidiana.

end if end while

3.1.2

Modelo Nebuloso Evolutivo Baseado em Nuvens

O modelo nebuloso evolutivo proposto por Angelov e Yager (2011a) recebeu o nome de ANYA (Angelov e Yager; 2011b) em homenagem aos autores. Trata-se de um novo sistema FRB que, diferentemente dos outros modelos FRBs, TS (Takagi e Sugeno; 1985) e Mamdani (Zadeh;

(48)

22 Cap´ıtulo 3. Sistemas Nebulosos Evolutivos e Aprendizado Extremo

1973; Mamdani e Assilian; 1975), possui antecedentes n˜ao param´etricos. A determina¸c˜ao dos antecedentes nos modelos FRBs, TS e Mamdani, utiliza fun¸c˜oes de pertinˆencia pr´e definidas (triangulares, trapezoidais, Gaussianas e etc.), que requerem um grande n´ıvel de aproxima¸c˜ao (Angelov e Yager; 2011a). No modelo ANYA a determina¸c˜ao dos antecedentes ´e n˜ao param´etrica e representa exatamente a real densidade e distribui¸c˜ao dos dados.

O conjunto de regras que forma o modelo ANYA ´e da seguinte forma

Ri : SE (z ∼ ℵi) ENT˜AO (yi) ,

onde ∼ denota a pertinˆencia nebulosa, lida como “´e associado com”, Ri ´e a i-´esima regra

nebulosa para i = 1, . . . , Lt, Lt´e o n´umero de regras na itera¸c˜ao t, ℵ

i ∈ < ´e a nuvem dos dados

de entrada-sa´ıda, z = [z1, . . . , zn+m]T ∈ <n+m, onde x = [x1, . . . , xn]T ∈ <n ´e o vetor de entrada

e yi = [yi1, . . . , yim]

T ∈ <m ´e o vetor de sa´ıda da i-´esima regra.

Esse conjunto de regras nebulosas ´e descrito como um sistema complexo, geralmente n˜ao linear, n˜ao estacion´ario e n˜ao determin´ıstico, observ´avel apenas por suas entradas e sa´ıdas. O objetivo ´e descrever a dependˆencia entre a entrada e a sa´ıda baseado no hist´orico de observa¸c˜oes dos pares entrada-sa´ıda, z = [xT, yT]T. A proposta deste modelo ´e baseada em nuvens de dados

encontradas atrav´es do c´alculo recursivo das densidades no espa¸co entrada-sa´ıda dos dados. Como visto na Figura 3.2, as nuvens possuem certas diferen¸cas com rela¸c˜ao aos grupos. As nuvens n˜ao possuem e n˜ao necessitam de contorno, por isso n˜ao possuem uma forma ana-l´ıtica, expl´ıcita. A nuvem de dados ´e um sub-conjunto dos dados de entrada-sa´ıda, onde os dados associados `a nuvem possuem propriedades em comum (proximidade no espa¸co observ´ a-vel). Diferente das fun¸c˜oes de pertinˆencia, as nuvens representam direta e exatamente todos os dados de entrada-sa´ıda anteriores. O modelo preserva as caracter´ısticas dos sistemas nebulosos permitindo que um dado perten¸ca, com diferentes graus, λ ∈ [0, 1], a todas as nuvens.

As nuvens garantem ao modelo ANYA a n˜ao necessidade de defini¸c˜ao a priori de fun¸c˜oes de pertinˆencia para os dados de entrada-sa´ıda, assim como ´e necess´ario nos FRBs tradicionais. Elas s˜ao descritas pela similaridade do sub-conjunto de dados que s˜ao associadas.

O grau de pertinˆencia de um dado, zt, `as nuvens existentes ´e calculado pela normaliza¸c˜ao

da densidade local, da seguinte forma

λti = γ t i PLt j=1γ t j , i = 1, ..., Lt, (3.8) onde γt

(49)

3.1. Sistemas Nebulosos Evolutivos 23

(50)

24 Cap´ıtulo 3. Sistemas Nebulosos Evolutivos e Aprendizado Extremo

ponderada nebulosa (Klir e Folger; 1987; Yager e Filev; 1994b).

A densidade local, γit, do vetor zt, para a i-´esima nuvem, ´e definida por um kernel desejado da distˆancia entre o dado de entrada-sa´ıda atual e todas os outros dados daquela nuvem, por isso chamada densidade local.

Para predi¸c˜ao, modelagem de sistemas e controle, a m´edia ponderada apresentada na equa-¸c˜ao (4.12) ´e o operador de inferˆencia preferido (Yager e Filev; 1994b), diferente de casos como classifica¸c˜ao, que um operador de inferˆencia do tipo “o ganhador leva tudo” ´e geralmente esco-lhido (Klir e Folger; 1987; Yager e Filev; 1994b; Angelov e Yager; 2011a).

O kernel utilizado para o c´alculo da densidade local ´e escolhido como uma fun¸c˜ao do tipo Cauchy (Angelov e Buswell; 2002). O c´alculo recursivo da densidade local pode ser realizado da seguinte forma (Angelov e Yager; 2011a)

γit= 1

1 + ||zt− µt

i||2+ Υti− ||zt||2

, (3.9)

onde µt

i = ((Mi − 1)/(Mi))µt−1i + zt/(Mi), µ11 = z1 ´e o valor modal local, Mi ´e o n´umero de

dados de entrada-sa´ıda associados `a i-´esima nuvem, i = 1, ..., Lt e Lt´e o n´umero de nuvens at´e

o instante t. Υt i, ´e calculado como Υti = Mi− 1 Mi Υt−1i + 1 Mi ||zt||2, Υ11 = ||z1||2.

Outra medida importante ´e a densidade global, calculada similarmente, por´em considerando todos os dados de entrada-sa´ıda. A densidade global Γt em t ´e calculada recursivamente da

seguinte forma Γt= 1 1 + ||zt− µt G||2+ ΥtG− ||zt||2 , (3.10) onde µt G= ((t − 1)/t)µ t−1

G + zt/t, µ1G = z1 ´e o valor modal global de todos os dados em t, e

ΥtG = t − 1 t Υ t G− 1 + 1 t||z t||2, Υ1 G = ||z1||2. ´

E f´acil observar que, por causa da equa¸c˜ao (3.8), o grau de pertinˆencia nebuloso para uma nuvem, λi, ´e normalizado, portanto,

Lt

X

i=1

(51)

3.2. Aprendizado Extremo 25

O Algoritmo 3.2 resume o processo de forma¸c˜ao das nuvens. Algoritmo 3.2 Algoritmo de forma¸c˜ao de nuvens.

ler o primeiro dado

inicializar a primeira nuvem while existirem entradas do

ler o novo dado

atualizar a densidade global (3.10)

calcular a densidade local para cada nuvem (3.9)

if a densidade global do novo dado ´e maior que a densidade global de cada nuvem then criar uma nova nuvem

else

encontrar N uvemI onde o novo dado possui a maior densidade local

atualizar a N uvemI

end if

calcular o grau de pertinˆencia (3.8) end while

3.2

Aprendizado Extremo

A m´aquina de aprendizado extremo (ELM, Extreme Learning Machine) se associa a um m´ e-todo para treinamento de redes neurais feedforward de ´unica camada intermedi´aria (SLFN, Sin-gle Layer Feedforward Neural Network) (Huang et al.; 2004). O autor prova matematicamente que os pesos da camada intermedi´aria podem ser escolhidos de maneira n˜ao-supervisionada e os pesos da camada de sa´ıda determinados analiticamente. Al´em disso, Huang, Zhu e Siew (2006) e Huang et al. (2011) apresentam a capacidade de aproxima¸c˜ao universal de uma ELM.

As aplica¸c˜oes para ELM s˜ao diversas: avalia¸c˜ao de seguran¸ca em sistemas de potˆencia (Xu et al.; 2012), preserva¸c˜ao de privacidade (Samet e Miri; 2012), detec¸c˜ao autom´atica de ataque epil´eptico em eletroencefalograma (Song et al.; 2012) e reconhecimento de a¸c˜oes humanas (Mi-nhas et al.; 2012). Huang et al. (2011) apresentam as diversas formas em que foi aplicada a m´aquina de aprendizado extremo.

Na literatura, diferentes modelos utilizam variados tipos de neurˆonios na camada interme-di´aria, como: rela¸c˜oes nebulosas (Huang et al.; 2005) e neurˆonios complexos (Huang et al.; 2008).

Outra extens˜ao natural ´e o uso de aprendizado extremo para modelar sistemas evolutivos nebulosos. Pelo fato de ser livre de derivadas, o m´etodo pode ser utilizado em conjunto com neurˆonios que desempenham qualquer fun¸c˜ao n˜ao linear. ´E poss´ıvel utiliz´a-lo para treinar redes

(52)

26 Cap´ıtulo 3. Sistemas Nebulosos Evolutivos e Aprendizado Extremo

que usem, por exemplo, uninormas em seus neurˆonios da camada intermedi´aria (Bordignon e Gomide; 2012).

Na ELM, os neurˆonios da camada intermedi´aria s˜ao vistos como uma proje¸c˜ao n˜ao-linear dos dados de entrada. As sa´ıdas desses neurˆonios s˜ao interpretadas como um espa¸co transformado, que servir´a para o combinador linear da camada de sa´ıda.

Ao selecionar os pesos da camada intermedi´aria de maneira n˜ao-supervisionada, o projeto dos pesos da camada de sa´ıda torna-se uma regress˜ao linear, a rede se torna linear com res-peito aos parˆametros livres. Para resolver esse problema, utiliza-se a metodologia de quadrados m´ınimos. Para N padr˜oes entrada-sa´ıda, (xj, yj), onde xj = [xj1, . . . , xjn]

T ∈ <n ´e o vetor

de entrada e yj = [yj1, . . . , yjm]

T ∈ <m ´e o vetor sa´ıda, uma rede SLFN com ˜N neurˆonios na

camada intermedi´aria, determinados pelo usu´ario, e fun¸c˜ao de ativa¸c˜ao g(x), pode ser modelada matematicamente como (Huang et al.; 2004)

˜ N X i=1 βig(wi· xj + bi) = ˆyj, j = 1, . . . , N, (3.12) onde wi = [wi1, . . . , win]

T ´e o vetor de pesos sin´apticos que conectam o i-´esimo neurˆonio

inter-medi´ario e os n componentes do dado de entrada, βi = [βi1, . . . , βim]

T ´e o vetor de pesos que

conecta o i-´esimo neurˆonio intermedi´ario e os m neurˆonios de sa´ıda e bi´e o limiar para o i-´esimo

neurˆonio.

A SLFN pode aproximar os N dados de entrada com erro m´edio nulo,PN

j=1||ˆyj− dj||2 = 0,

sendo dj o vetor de sa´ıda desejado e k.k a distˆancia Euclidiana, i.e., existe βi, wi e bi tal que

˜ N

X

i=1

βig(wi· xj + bi) = dj, j = 1, . . . , N. (3.13)

A equa¸c˜ao 3.13 pode ser escrita matricialmente como

Hβ = D, (3.14) onde H = [H1 h2 . . . hN˜] =     g(w1· x1+ b1) . . . g(wN˜ · x1+ bN˜) .. . . .. ... g(w1· xN + b1) . . . g(wN˜ · xN + bN˜)     N × ˜N (3.15)

Referências

Documentos relacionados

CEB Dr.Correia Mateus Tipologia: Divulgação Estado: Aprovada Data Início: 3-12-2013 Data Término: 3-12-2013 Proponentes: Educação Especial 910 - Educação Especial 1

Analisando os diagramas de gresificação da mistura observa-se que, quanto maior o tempo de isoterma, maiores são os valores de retração linear e menores os valores de absorção

João VI: nascimento do “herói”, sua infância de endiabrado, suas desditas de filho abandonado mas sempre salvo de dificuldades pelos padrinhos, não casados (a parteira e

✓ Aceitar para qualquer fim, chaves de veículos estacionados no prédio ou dirigir, a qualquer título e local, veículos pertencentes a condôminos, bem como praticar

Em outras palavras “são os professores que precisam ser constantemente renovados e atualizados desde suas metodologias de ensino até as ferramentas que viabilizam esse ensino”

Mais especi…camente, a partir de uma base de dados consolidada de captações e aplicações dos bancos brasileiros, e compulsório sobre depósitos a prazo total, nós fazemos um

A Câmara Rio-Grandense do Livro prepara ainda uma solenidade especial para a Semana, com homenagens a pessoas e instituições que, no ano passado, destacaram-se na promoção da

Salienta-se que a parceria foi relevante para os pós-graduandos, que vivenciaram a integração ensino-serviço-extensão, trocaram conhecimentos e tecnologias com a sociedade