UNIVERSIDADE FEDERAL DO PARAN ´A JULIANO FABIANO DA MOTA

(1)

JULIANO FABIANO DA MOTA

META-HEURÍSTICAS BASEADAS EM POPULAÇ ÃO PARA O TREINAMENTO DE REDES NEURAIS DE BASE RADIAL NO CONTEXTO DE INTELIG ÊNCIA

COMPUTACIONAL: TEORIA E IMPLEMENTAC¸ ˜OES

CURITIBA 2012

(2)

META-HEURÍSTICAS BASEADAS EM POPULAÇ ÃO PARA O TREINAMENTO DE REDES NEURAIS DE BASE RADIAL NO CONTEXTO DE INTELIG ÊNCIA

COMPUTACIONAL: TEORIA E IMPLEMENTAC¸ ˜OES

Tese apresentada ao Curso de P ós-Graduaç ão em M étodos Num éricos em Engenharia, Area de´ Concentraç ão Programaç ão Matem ática, do Departa- mento de Matem ática, Setor de Ci ências Exatas e do Departamento de Construç ão Civil, Setor de Tecnolo- gia, Universidade Federal do Paran á, como parte das exig ências para a obtenç ão do t´ıtulo de Doutor em Ci ências.

Orientador: Prof. Dr. Paulo Henrique Siqueira Co-Orientadora: Prof^a. Dr^a. Luzia Vidal de Souza

CURITIBA 2012

(3)

JULIANO FABIANO DA MOTA

META-HEURÍSTICAS BASEADAS EM POPULAÇ ÃO PARA O TREINAMENTO DE REDES NEURAIS DE BASE RADIAL NO CONTEXTO DE INTELIG ÊNCIA

COMPUTACIONAL: TEORIA E IMPLEMENTAC¸ ˜OES

Tese aprovada como requisito parcial para a obtenç ão do grau de Doutor em Ci ências, área de concentraç ão Programaç ão Matem ática no Programa de P ós-Graduaç ão em M étodos Nu- m éricos em Engenharia, do Departamento de Matem ática, Setor de Ci ências Exatas e do Departamento de Construç ão Civil, Setor de Tecnologia, Universidade Federal do Paran á, pela seguinte banca examinadora:

Orientador: Prof. Dr. Paulo Henrique Siqueira

Programa de P ós-Graduaç ão em M étodos Num éricos em Engenharia, UFPR

Co-Orientadora: Prof^a. Dr^a. Luzia Vidal de Souza

Programa de P ós-Graduaç ão em M étodos Num éricos em Engenharia, UFPR

Profâ. Drâ. Deise Maria Bertholdi Costa Programa de P ós-Graduaç ão em M étodos Num éricos em Engenharia, UFPR

Profâ. Drâ. Sonia Isoldi Marty Gama Muller Programa de P ós-Graduaç ão em

Engenharia de Produc¸ ˜ao, UFPR

Profâ. Drâ. Angela Olandoski Barboza Universidade Tecnol ógica Federal do Paran á, UTFPR

Curitiba, 07 de dezembro de 2012.

(4)

(5)

A Deus.

Aos meus pais, irm ˜a e `a minha esposa, Franciely, por todo amor, incentivo e por torcerem tanto por mim.

Aos meus amigos Adriano, Gislaine, Solange e Tatiane, pelo companheirismo, pelo apoio dado nos momentos dif´ıceis e pelas risadas, principalmente das “piadinhas gen ´ericas” que sempre surgiam.

A D. Aparecida, por ter me recebido t ˜ao bem em sua casa durante os quatro anos de` doutorado.

Ao meu orientador, Professor Paulo, pelos ensinamentos, amizade, motivaç ão e dedicaç ão ao meu trabalho, sempre apresentando valiosas sugest ões.

A minha co-orientadora, Professora Luzia, pelo aprendizado proporcionado durante nos-` sos semin ários e pelas valiosas contribuiç ões dadas ao trabalho.

Ao Professor Anselmo Chaves Neto, pelo apoio e incentivo e por sempre ter acreditado na

“Turma de Campo Mour ˜ao”.

A Universidade Federal do Paran ´a, pela oportunidade de cursar o doutorado.`

Aos professores do Programa de P ós-Graduaç ão em M étodos Num éricos em Engenharia, pelos ensinamentos transmitidos durante as disciplinas.

A Maristela Bandil, uma das pessoas mais simp áticas e gentis que j á conheci, pela alegria` e efici ência com as quais realiza seu trabalho. E como se n ão bastasse tudo isso, faz um caf é maravilhoso!

A Universidade Estadual do Paran á, Campus Campo Mour ão, por me proporcionar condi-` ç ões necess árias para concluir este curso.

Finalmente, à Fundaç ão Arauc ária, pelo apoio financeiro.

(6)

adquira um sentimento, um senso pr ático daquilo que vale a pena ser empreendido, daquilo que é belo, do que é moralmente correto. A n ão ser assim, ele se assemelhar á, com seus conhecimentos profissionais, mais a um c ão ensinado do que a uma criatura harmoniosamente desenvolvida.

Deve aprender a compreender as motivaç ões dos homens, suas quimeras e suas ang ústias para determinar com exatid ão seu lugar exato em relaç ão a seus pr óximos e à comunidade.

Albert Einstein em “Como Vejo o Mundo”.

(7)

Um dos problemas da modelagem de uma RBFNN -Radial Basis Neural Network, Rede Neural de Base Radial, consiste em determinar os pesos da camada de sa´ıda, geralmente representados por uma matriz retangular. Uma abordagem que tem ganho alguma notoriedade recente- mente na resoluç ão desse problema é a criaç ão de modelos h´ıbridos baseados na combinaç ão de Meta-heur´ısticas, que s ão modelos gerais para soluç ão de problemas de otimizaç ão, como alternativa ao m étodo tradicional de realizar a pseudo-invers ão da matriz com os valores de ativaç ão da camada intermedi ária. Nesta pesquisa, duas destas Meta-heur´ısticas, Algoritmos Gen éticos e Nuvem de Part´ıculas (Particle Swarm Optmization) s ão implementadas a fim de comparar seus desempenhos com o m étodo tradicional e tamb ém é proposta a mudança da representaç ão dos indiv´ıduos de uma populaç ão, em Algoritmos Gen éticos, com a conse- quente adaptaç ão operadores para algoritmos gen éticos cont´ınuos em que os indiv´ıduos s ão matrizes, como é o caso do problema de calcular a matriz de pesos de uma RBFNN. Al ém disso, essas t écnicas tamb ém s ão comparadas com a FDLF - Funç ão Discriminante Linear de Fisher na classificaç ão de padr ões. Para fins de validaç ão da hip ótese levantada, foi realizado um experimento com seis bancos de dados e os resultados mostraram que as abordagens mais eficientes foram o treinamento tradicional das RBFNN e a FDLF, j á a modificaç ão proposta se mostrou t ão consistente quanto o Algoritmo Gen ético tradicional no que diz respeito

à efici ência ao encontrar soluç ões.

Palavras-chave: Redes Neurais de Base Radial, Algoritmos Gen ´eticos, Nuvem de Part´ıculas, Sistemas H´ıbridos.

(8)

One of the issues of modeling a RBFNN - Radial Basis Neural Network is to determine the weights matrix of the output layer, wich is generally represented by a rectangular matrix. One of the existing approaches that has gained some notoriety recently in solving this problem is to create hybrid models based on a combination of Metaheuristcs, which are general models for solving optimization problems, as an alternative to the traditional method of performing the pseduoinversion the hidden layer activation values matrix. In this research two of these Me- taheuristcs, Genetic Algorithms (GA) and Particle Swarm Optmization (PSO) are implemented in order to compare their performance with the traditional method and also a new kind representation of individuals in a population for genetic algorithms is proposed. This caused the adaptation of the continuous genetic operators in genetic algorithms with matricial individuals, specially for calculating the weights matrix of a RBFNN. Also a comparison of all these techniques with the LDFF - Linear Discriminant Fisher Function For is provided. Trying to validating the research hypothesis an experiment was designed using six diffrerent databases and results shows that the traditional training method of RBFNN and the Fisher LDF was more effective than the others techniques. The new proposed GA individuals representation was equally con- sistent with the traditional GA in finding solutions.

Key-words: Radial Basis Function Neural Networks, Genetic Algorithms, Particle Swarm Opti- mization, Hybrid Systems.

(9)

–

FIGURA 1 SISTEMAS BASEADOS EM IC . . . 17 –

FIGURA 2 REPRESENTAÇ ÃO DO NEUR ÔNIO BIOL ÓGICO . . . 18 –

FIGURA 3 REPRESENTAÇ ÃO DO NEUR ÔNIO ARTIFICIAL . . . 19 –

FIGURA 4 REPRESENTAC¸ ˜AO DA ARQUITETURA DE UMA RBFNN . . . 22 –

FIGURA 5 SELEC¸ ˜AO AUTO-ORGANIZADA DE CENTROS . . . 24 –

FIGURA 6 SEPARAÇ ÃO DE PADR ÕES DOPERCEPTRON E RBFNN . . . 25 –

FIGURA 7 ALGORITMO GEN ´ETICO ORIGINAL . . . 34 –

FIGURA 8 CRUZAMENTO GEN ´ETICO DE UM PONTO . . . 39 –

FIGURA 9 TOPOLOGIAS PARA O ALGORITMO PSO . . . 44 –

FIGURA 10 ALGORITMOGBEST - MELHOR INDIV´IDUO . . . 46 –

FIGURA 11 ALGORITMOLBEST - MELHOR INDIV´IDUO LOCAL . . . 47 –

FIGURA 12 CONFIGURAÇ ÃO DE INDIVÍDUOS PARA RBFNN-AG . . . 62 –

FIGURA 13 REPRESENTAÇ ÃO DE UM INDIVÍDUO EM AG TRADICIONAL . . . 68 –

FIGURA 14 REPRESENTAÇ ÃO DE UM INDIVÍDUO EM AG MATRICIAL . . . 69 –

FIGURA 15 OPERADOR CTH . . . 72 –

FIGURA 16 OPERADOR CTV . . . 72 –

FIGURA 17 OPERADOR CPH . . . 73 –

FIGURA 18 OPERADOR CPV . . . 74 –

FIGURA 19 ALGORITMO DO EXPERIMENTO . . . 82

(10)

–

TABELA 1 TABELA MANOVA . . . 54 –

TABELA 2 DISTRIBUIÇ ÃO DO L ÂMBDA DE WILKS . . . 55 –

TABELA 3 T´IPICA MATRIZ DE CONFUS ˜AO DE UM CLASSIFICADOR (2 CLASSES) 57 –

TABELA 4 CARACTER´ISTICAS DOS BANCOS DE DADOS . . . 60 –

TABELA 5 RESULTADOS DA APLICAC¸ ˜AO DA MANOVA . . . 83 –

TABELA 6 MELHORES CONFIGURAÇ ÕES DAS T ÉCNICAS . . . 84 –

TABELA 7 MELHORES CONFIGURAC¸ ˜OES PARAAGRBF EAGRBF MOD . . . 87 –

TABELA 8 PCC M ÉDIO, TE M ÉDIO E QI M ÉDIO POR BANCO DE DADOS . . . 87

(11)

1 INTRODUC¸ ˜AO . . . 12

1.1 OBJETIVOS . . . 13

1.2 CONTRIBUIC¸ ˜OES . . . 14

1.3 ESTRUTURA DO TRABALHO . . . 14

2 REVIS ˜AO DE LITERATURA . . . 16

2.1 REDES NEURAIS ARTIFICIAIS . . . 17

2.1.1Redes Neurais de Base Radial . . . 20

2.1.2O Projeto de uma RBFNN . . . 28

2.2 COMPUTAÇ ÃO EVOLUCION ÁRIA . . . 32

2.2.1Algoritmos Gen ´eticos . . . 33

2.3 INTELIG ˆENCIA DO ENXAME . . . 41

2.3.1Nuvem de Part´ıculas . . . 42

2.4 SISTEMAS DIFUSOS . . . 49

2.5 M ´ETODOS ESTAT´ISTICOS . . . 50

2.5.1Func¸ ˜ao Discriminante Linear de Fisher . . . 50

2.5.2An ´alise de Vari ˆancia Multivariada . . . 53

2.5.3Teste de Mann-Whitney . . . 55

2.5.4CoeficienteKappade Cohen . . . 56

2.6 TRABALHOS RELACIONADOS . . . 57

3 MATERIAL E M ´ETODO . . . 60

3.1 MATERIAL . . . 60

3.1.1Bancos de Dados Utilizados nos Experimentos . . . 60

3.1.2Hardware eSoftware Utilizados . . . 60

3.2 M ´ETODO . . . 61

(12)

3.2.2Adaptac¸ ˜ao Proposta . . . 68

3.2.3 Implementac¸ ˜ao Computacional . . . 76

3.2.4Descric¸ ˜ao do Experimento . . . 81

4 RESULTADOS E DISCUSS ˜AO . . . 83

4.1 AN ´ALISE DE VARI ˆANCIA MULTIVARIADA . . . 83

4.2 AN ÁLISE DA MELHOR CONFIGURAÇ ÃO ISOLADAMENTE . . . 83

4.3 COMPARAC¸ ˜AO ENTREAGRBF EAGRBF MOD . . . 87

5 CONSIDERAC¸ ˜OES FINAIS . . . 89

5.1 CONCLUS ˜OES . . . 89

5.2 SUGEST ˜OES PARA TRABALHOS FUTUROS . . . 92

REFER ˆENCIAS . . . 93

(13)

H á tempos os cientistas tentam desenvolver m étodos para prever valores em problemas de classificaç ão para uma melhor tomada de decis ão em cen ários de incerteza. Uma gama de m étodos matem áticos e estat´ısticos j á foi desenvolvida e, por este motivo, busca-se melhorar cada vez mais os m étodos j á existentes bem como o desenvolvimento de novos m étodos que reduzam o custo computacional, ofereçam melhores resultados no que diz respeito ao desempenho do modelo ou ambos.

Todos os m étodos existentes j á oferecem muitas opç ões quanto à velocidade e qualidade da previs ão ou classificaç ão. A tarefa mais dif´ıcil, que todo pesquisador anseia, é desenvolver um m étodo que consiga elevada acur ácia o mais r ápido poss´ıvel, dada a necessidade de rapi- dez na eraon-lineem que a sociedade se encontra. Por “elevada acur ácia” entende-se o me- nor erro poss´ıvel, num problema de previs ão, e o maior percentual poss´ıvel de classificaç ões corretas, para o caso de um problema de classificaç ão.

A id éia de criar um grupo de modelos matem áticos que simule os neur ônios humanos é considerada, por muitos cientistas, brilhante e extremamente útil para os respons áveis pela tomada de decis ão nas mais diversas áreas do conhecimento. Tais modelos s ão as Redes Neurais Artificiais. Segundo Haykin (2001), uma rede neural é uma m áquina de processamento paralelo que pode transformar conhecimento experimental em informaç ões utiliz áveis na pr ática, por exemplo, no aux´ılio à tomada de decis ão.

O subgrupo de modelos de Redes Neurais Artificiais mais difundido na literatura é aquele das baseadas no tipo de arquiteturafeed-forward(alimentada adiante) ao qual pertencem, por exemplo, oPerceptrone as Redes Neurais de Base Radial, sendo a primeira, mais conhecida e difundida entre os cientistas da área e a última um dos focos deste trabalho.

Uma Meta-heur´ıstica é um M étodo Heur´ıstico para resolver, de forma gen érica, problemas de Pesquisa Operacional, normalmente da área de Otimizaç ão Combinat ória, Reconhe- cimento de Padr ões ou Previs ão de S éries Temporais. Entretanto, tamb ém é poss´ıvel utilizar

(14)

uma Meta-heur´ıstica para Problemas de Otimizaç ão de Funç ões.

Geralmente, as Meta-heur´ısticas s ão inspiradas em outras ci ências, como é o caso das pr óprias Redes Neurais Artificiais, dos Algoritmos Gen éticos, Simulated Annealing, Col ônia de Formigas, Nuvem de Part´ıculas, entre outros, formando assim um sistema com regras matem áticas inspiradas em sistemas, apriori, n ão matem áticos .

Como ocorre com outras t écnicas matem áticas e estat´ısticas, é poss´ıvel a formaç ão de Sistemas H´ıbridos baseados em Meta-heur´ısticas, combinando as estrat égias de duas ou mais dessas t écnicas. Ademais, este campo de estudo tem ganho alguma notoriedade re- centemente, como é poss´ıvel observar pela quantidade de trabalhos publicados sobre este tema (Seç ão 2.6). Existem tamb ém m étodos estat´ısticos para a classificaç ão de padr ões, sendo que o mais conhecido é a FDLF - Funç ão Discriminante Linear de Fisher, descrita no Cap´ıtulo 2.

Um dos principais problemas a ser resolvido na modelagem de uma Rede Neural de Base Radial é o c álculo da matriz de pesos da camada intemedi ária, que é a única camada presente numa rede desse tipo al ém da camada de sa´ıda.

1.1 OBJETIVOS

A pesquisa de Mota et al. (2012) compara dois m étodos de treinamento de uma RBFNN, um é considerado tradicional, que se baseia na pseudo-invers ão de uma matriz retangular e o outro utiliza Algoritmos Gen éticos, convertendo esta matriz em indiv´ıduos de uma populaç ão gen ética, buscando encontrar a matriz ótima (ou quase- ótima) atrav és de seleç ão natural e operadores gen éticos, mais especificamente os propostos por Michalewicz, Logan e Swami- nathan (1994).

Nesse contexto, os principais objetivos deste trabalho s ˜ao:

• propor uma nova maneira de representaç ão dos indiv´ıduos em Algoritmos Gen éticos, para o caso em que as soluç ões do problema s ão matrizes ao inv és de vetores;

• propor uma extens ão dos operadores de Michalewicz, Logan e Swaminathan (1994) para esse novo modo de representaç ão representaç ão;

(15)

• comparar o desempenho de seis abordagens para a classificaç ão de padr ões em seis bancos de dados dispon´ıveis nawebque atenderam os crit érios de aplicaç ão dos m éto- dos, sendo:

– a Func¸ ˜ao Discriminante Linear de Fisher;

– o treinamento de uma RBFNN tradicional (pseudo-invers ˜ao);

– duas abordagens de treinamento de uma RBFNN baseadas em Algoritmos Gen é- ticos, sendo que a primeira é um Algoritmo Gen ético Tradicional utilizando os operadores de Michalewicz, Logan e Swaminathan (1994) e a segunda é a adaptaç ão proposta neste trabalho;

– duas abordagens de treinamento de uma RBFNN utilizando a Metaheur´ıstica “Nu- vem de Part´ıculas”, sendo uma abordagem com cada uma de suas duas variantes mais conhecidas: gbest elbest.

1.2 CONTRIBUIC¸ ˜OES

As contribuiç ões deste trabalho s ão:

• Uma verificaç ão emp´ırica da efici ência de duas t écnicas de Intelig ência Computacional para o treinamento de uma RBFNN e uma t écnica estat´ıstica para fins de classificaç ão de padr ões;

• Uma nova maneira de representar e “enxergar” os indiv´ıduos de uma populaç ão gen ética e, consequentemente, a extens ão dos operadores propostos por Michalewicz, Logan e Swaminathan (1994);

1.3 ESTRUTURA DO TRABALHO

Para que os objetivos elencados possam ser alcançados e a hip ótese principal possa ser verificada, preceitos b ásicos sobre Intelig ência Computacional, Redes Neurais de Base Radial, Funç ão Discriminante Linear de Fisher, Algoritmos Gen éticos e Nuvem de Part´ıculas s ão apresentados e uma verificaç ão experimental é realizada. Todas estas etapas do trabalho est ão divididas em cap´ıtulos, da seguinte maneira:

(16)

• No Cap´ıtulo 2, s ão apresentados, de maneira breve, os principais sistemas da Inte- lig ência Computacional (IC), afim de indicar sua classificaç ão como área de conhecimento, explicitar as t écnicas que a comp õem e discutir como estas t écnicas podem ser utilizadas de maneira isoladas ou com a criaç ão de sistemas h´ıbridos. Tamb ém est ão contemplados os conceitos relativos às Redes Neurais de Base Radial, destacando suas caracter´ısticas e estrat égias de modelagem e treinamento e conceitos essenciais sobre a Funç ão Discriminante Linear de Fisher (FDLF), ambas no contexto de classificaç ão de padr ões e os conceitos relacionados às duas Meta-heur´ısticas de Busca Baseadas em Populaç ão citadas anteriormente: Algoritmos Gen éticos e Nuvem de Part´ıculas;

• O Cap´ıtulo 3, trata das estrat égias utilizadas para criar uma Meta-heur´ıstica H´ıbrida baseada em Redes Neurais de Base Radial e Algoritmos Gen éticos e Nuvem de Part´ıculas, s ão apresentados detalhes sobre o experimento realizado

• O Cap´ıtulo 4 traz a an ´alise estat´ıstica dos resultados obtidos e apresenta uma discuss ˜ao acerca desses resultados;

• Finalmente, o Cap´ıtulo 5 traz as conclus ˜oes da pesquisa e sugest ˜oes para trabalhos futuros.

(17)

Para Engelbrecht (2007), “um grande impulso no desenvolvimento de novos algoritmos é a crescente complexidade dos problemas que surgem a cada dia”. Assim como enxerga-se problemas mais complexos a cada dia, numa velocidade quase equivalente os cientistas s ão capazes de desenvolver m étodos para resolver tais problemas. Esse desenvolvimento, por vezes, ocorre com o desenvolvimento de algoritmos, uma vez que o advento do computador tem como um de seus objetivos auxiliar em tarefas complexas para que antes eram realizadas manualmente.

Uma das vertentes na busca pela automatizaç ão de tarefas complexas é a criaç ão de m étodos e sistemas baseados na intelig ência natural e biol ógica que Engelbrecht (2007) deno- mina como “Sistemas Inteligentes”. Basicamente existem quatro grandes grupos de sistemas inteligentes: Redes Neurais Artificiais, Computaç ão Evolucion ária, Intelig ência do Enxame e Sistemas Difusos. Vale salientar que juntamente com L ógica; Sistemas Especialistas; Ra- cioc´ınio Baseado em Casos e Dedutivo; e M áquinas de Sistemas de Aprendizagem Simb ólica, os Sistemas Inteligentes pertencem ao campo de estudo denominado Intelig ência Artificial (IA).

Os quatro sistemas mais conhecidos baseados em Intelig ˆencia Computacional (IC) s ˜ao:

As Redes Neurais Artificiais (RNAs), a Computaç ão Evolucion ária (CE), a Intelig ência do En- xame (IE) e os Sistemas Difusos (SD). Tais sistemas podem ser utilizados como única abordagem a um problema, dependendo de suas caracter´ısticas, ou podem ainda serem combinados formando sistemas h´ıbridos.

A Figura 1 ilustra esta ideia de relacionamento desses quatro modelos por meio de se- tas, podendo haver relaç ões entre seus mecanismos internos. Tamb ém é poss´ıvel visuali- zar a indicaç ão da interaç ão dos quatro grupos de sistemas com os M étodos Estat´ısticos que, essencialmente, s ão utilizados para tratamento dos dados e validaç ão de testes, por isso a diferenciaç ão com linhas pontilhadas, embora haja m étodos estat´ısticos tanto para a

(18)

Classificaç ão de Padr ões quanto para a previs ão de S éries Temporais.

RNAs CE

SD IE

M´etodos Estat´ısticos

FIGURA1: Sistemas Baseados em IC

Os quatro grupos de sistemas aqui mencionados s ão inspirados na Biologia. As RNAs s ão baseadas no sistema neurol ógico humano, os modelos de CE, por sua vez s ão inspirados da Teoria da Evoluç ão, a IE é baseada em organismos que vivem em col ônias ou enxames, como o pr óprio nome sugere e os SD t êm suas origens em como os organismos interagem com o ambiente em que vivem.

2.1 REDES NEURAIS ARTIFICIAIS

Segundo Engelbrecht (2007), o c érebro humano é um computador complexo, paralelo e n ão linear que tem a habilidade de aprender, memorizar e generalizar a partir de exemplos. É capaz de realizar tarefas como o reconhecimento de padr ões, o controle motor e a percepç ão em muito menos tempo do que qualquer computador.

Para Silva, Spatti e Flauzino (2010), os cientistas possuem o sonho antigo de construir um mecanismo aut ônomo, que seja dotado de intelig ência. Possivelmente a principal motivaç ão para este anseio seja a complexidade do funcionamento do c érebro humano, sua capacidade de processamento, adaptaç ão, entre outras habilidades.

As Redes Neurais Artificiais (RNAs) s ão, portanto, um grupo de modelos matem áticos/com- putacionais inspirados no funcionamento do sistema neurol ógico humano, como é poss´ıvel ver

(19)

em Silva, Spatti e Flauzino (2010) e Engelbrecht (2007). Para Haykin (2001), uma Rede Neu- ral (RN) se assemelha ao c érebro em dois aspectos: possui um processo de aprendizagem a partir do ambiente em que est á inserida e o conhecimento adquirido fica armazenado nas conex ões entre os neur ônios.

Para Silva, Spatti e Flauzino (2010), Haykin (2001) e Fausett (1994), as principais caracter´ısticas ben ´eficas das RNAs s ˜ao:

• capacidade de absorver a n ˜ao linearidade nos dados de entrada;

• capacidade de mapeamento de entrada-sa´ıda;

• adaptabilidade à modificaç ões do meio ambiente;

• resposta `a evid ˆencias;

• contextualizaç ão natural da informaç ão por meio da interaç ão entre neur ônios;

• toler ância a falhas, para o caso de implementaç ão emhardware;

• possibilidade de implementac¸ ˜ao em larga escala;

• uniformidade de representac¸ ˜ao e;

• analogia neurol ´ogica.

A estrutura de um neur ônio biol ógico est á apresentada na Figura 2 e a de um neur ônio artificial na Figura 3. A unidade b ásica de nosso c érebro apresenta uma regi ão onde informaç ões s ão processadas (corpo celular), algumas entradas (dendritos) e uma sa´ıda (ax ônio). Os im- pulsos el étricos recebidos nos dendritos s ão processados e o resultado deste processamento

´e colocado no ax ˆonio.

FIGURA2: Representaç ão do Neur ônio Biol ógico

(20)

φ ( · )

x

1

x

2

x

n

Entradas

...

w

_·1

w

_·2

w

_·n

Pesos Sin´apticos

1 b

_·

y

_·

Bias

Sa´ıda Fun¸c˜ao de Ativa¸c˜ao

P

Soma

FIGURA 3: Representaç ão do Neur ônio Artificial

Na Figura 3, os valores denotados por x_i s ão informaç ões provenientes do ambiente externo denominadas n ós de entrada. Se compararmos com o neur ônio biol ógico da Figura 2, a conex ão entre os vetoresxie os pesos wi·,i=1, . . . ,n, é realizada pela sinapse que termina por conectar o ambiente externo ao neur ônio, por meio de seus dentritos, os quais s ão respons áveis por receber os sinais de entrada dos neur ônios. As sinapses s ão uma regi ão de contato muito pr óximo entre os dentritos e outras c élulas, inclusive outros neur ônios.

Os dentritos conduzem os sinais de entrada para o corpo celular, que no neur ˆonio artificial

é representado pela soma e funç ão de ativaç ão, fazendo o papel do n úcleo de processamento do neur ônio. O valor representado pory_· é a sa´ıda (resultado), que acusa o n´ıvel de ativaç ão de um neur ônio artificial. No neur ônio biol ógico, essa funç ão é desempenhada pelo ax ônio. A ligaç ão entre o terminal axional de um neur ônio e os dentritos de outro neur ônio é feita tamb ém pela sinapse.

No neur ônio artificial as sinapses recebem multiplicadores (pesos) que podem ser ini- bit órios (negativos) ou excitat órios (positivos). No esquema representado na Figura 3, os pe- sosw_· eb_· representam esses pesos, sendo que os pesosb_· s ão adicionados à rede apenas para aumentar seus graus de liberdade, causando um relaxamento no modelo matem ático, o valor de suas entradas é sempre “1”, por este ser o elemento neutro da multiplicaç ão.

Com relaç ão à aplicabilidade das RNAs, vale salientar que é poss´ıvel modelar problemas de áreas como Ci ências Exatas, Sociais, Humanas, entre outras áreas via Redes Neurais. As principais tarefas associadas a uma RNA s ão a classificaç ão, o agrupamento de padr ões e a previs ão de S éries Temporais.

(21)

Entretanto, como é poss´ıvel ver em Siqueira, Scheer e Steiner (2005), o roteamento de ve´ıculos e a designaç ão tamb ém s ão problemas pass´ıveis de resoluç ão por uma abordagem via RNAs. Mais exemplos de aplicaç ões podem ser encontrados em Silva, Spatti e Flauzino (2010), Engelbrecht (2007), Haykin (2001) e Fausett (1994).

Os cinco grupos de RNAs mais citados na literatura s ˜ao:

• RNAs de camada ´unica como, por exemplo, a Rede de Hopfield;

• de camada m ´ultipla como oPerceptronde M ´ultiplas Camadas (MLP);

• redes de Elman e a de Jordan que trabalham com a ideia de recorr ˆencia;

• Mapas Auto-organiz ´aveis, sendo a mais conhecida a rede de Kohonen e;

• redes alimentadas adiante combinadas com mapas auto-organiz ´aveis como, por exemplo, as Redes Neurais de Base Radial (RBFNN).

As Redes Neurais de Base Radial ouRadial Basis Function Neural Networks (RBFNNs), que s ão o foco dessa pesquisa, suas caracter´ısticas, m étodos para definiç ão de seus par âme- tros e seus m étodos tradicionais de treinamento est ão descritos a seguir.

2.1.1 Redes Neurais de Base Radial

Uma Rede Neural de Base Radial (RBFNN) é do tipo alimentada adiante e possui apenas duas camadas, sendo uma a intermedi ária e a última a camada de sa´ıda. Na camada intermedi ária as funç ões de ativaç ão dos neur ônios s ão ditasfunç ões de base radial. A seguir, ser ão apresentadas as principais caracter´ısticas das RBFNNs, mas antes vejamos alguns conceitos preliminares.

Funç ões de Base Radial e a Interpolaç ão Exata

Uma RBF - Radial Base Function (Funç ão de Base Radial) é definida por Haykin (2001) como qualquer funç ão que satisfaça a Equaç ão 2.1. Dizemos que uma funç ão é de base

(22)

radial quando seus valores funcionais s ˜ao iguais aos valores funcionais das normas de seus argumentos.

f(x) = f(kxk) (2.1)

Em outras palavras, uma funç ão é de base radial quando seu valor funcional depende apenas da dist ância de seu argumento à origem. Algumas dessas funç ões, comumente utilizadas, s ão apresentadas nas equaç ões 2.2–2.4.

f(x) =e⁻^βx²,paraβ>0(gaussiana) (2.2)

f(x) =p

x²+β²,paraβ >0(multiquadr ´atica) (2.3)

f(x) =x^k,parak=1,3, . . . (spline poliarm ônica) (2.4) De acordo com Powell (1988), a abordagem que busca aproximar funç ões por meio de combinaç ões lineares de funç ões de base radial consiste em introduzir um conjunto comn= 1,···,N funç ões base centradas num pontoxⁿ, uma para cada observaç ão amostral, tomando a formaφ(kx−xⁿk) em que φ(.) é uma RBF. Ent ão, cada funç ão base depende apenas da dist ância(kx−xⁿk)e a aproximaç ão toma a forma definida pela Equaç ão 2.5,

h(xⁿ) =

N

∑

n=1

wn·φ(kx−xⁿk), (2.5)

em quew_ns ão os pesos da combinaç ão linear. Considerando esta abordagem para resolver o problema de interpolaç ão exata na Equaç ão 2.6, em quet(xⁿ)s ão os valores alvo eh(xⁿ)s ão os resultados do modelo de interpolaç ão temos,

h(xⁿ) =t(xⁿ). (2.6)

Combinando as Equac¸ ˜oes 2.5 e 2.6, temos

(23)

N n=1

∑

w_n·φ(kx−xⁿk) =t, (2.7)

que podemos representar matricialmente por,

φ·w=t, (2.8)

em quet = (t¹,t², . . . ,tⁿ), w= (w₁,w₂, . . . ,wn) e φ é uma matriz quadrada. A soluç ão formal para 2.8 é dada na Equaç ão 2.9 e para funç ões multiquadr áticas, multiquadr áticas inversas e gaussianas, respectivamente, a matrizφ é invert´ıvel.

w=φ⁻¹·t (2.9)

Redes Neurais de Base Radial e sua Arquitetura

O processo de aprendizagem desta rede tem suas bases na teoria da Programaç ão N ão Linear. A arquitetura de uma RBFNN é composta por apenas duas camadas al ém dos n ós de entrada. Tem-se uma camada escondida, que possui funç ões de base radial como funç ões de ativaç ão, e uma camada de sa´ıda, que possui funç ões lineares como ativaç ão. A Figura 4 ilustra este tipo de rede.

x

¹

c

₁

c

₂

c

_s

.. . .. .

w11 w21 wp1 w12

w22 wp2

w1s w2s wps

φ

₁

φ

₂

φ

_s

y

₁

y

₂

y

_p

w10

w20

wp0

1

FIGURA4: Representac¸ ˜ao da arquitetura de uma RBFNN

(24)

Cada neur ônio da camada escondida possui um vetor associado, chamado de centro do neur ônio, o qual define o centro do campo receptivo daquele neur ônio. Geralmente tais vetores s ão armazenados numa matrizC, chamada de matriz de centros dos neur ônios. Estes vetores exercem alguma influ ência sobre o desempenho da rede. A seguir, alguns m étodos ser ão brevemente apresentados.

Par ˆametros de uma RBFNN

Nesta seç ão ser ão apresentadas algumas das estrat égias mais utilizadas para a determi- naç ão dos par âmetros de uma RBFNN que s ão, essencialmente tr ês: os Centros do campo receptivo dos neur ônios, o grau de abertura do raio da Funç ão de Base Radial e a Matriz de Pesos Sin ápticos entre a camada intermedi ária e a de sa´ıda.

Seleç ão dos Centros dos Neur ônios

A tarefa de selecionar os centros (ou vetores centr óides) dos neur ônios é, essencialmente, um problema de agrupamento de padr ões. H á algumas estrat égias cl ássicas descritas em Haykin (2001) e uma breve discuss ão sobre estas estrat égias é apresentada a seguir.

Centros Fixados Aleatoriamente

Esta é a maneira mais simples e menos custosa computacionalmente de selecionar os centros. Embora seja simples, é considerada por Haykin (2001) como a abordagem “mais sensata”, pois a cada experimento uma parte diferente da matriz de observaç ões é utilizada e, por este motivo, a matriz de centros passa a conter uma boa representaç ão do espaço de entrada. O m étodo consiste em escolher uma das seguintes opç ões:

(a) tomar valores aleat ´orios de um intervalo dado, sendo que a escolha deste intervalo,

(25)

certamente, influencia o desempenho do algoritmo;

(b) escolher aleatoriamente, dentre os valores observados, os centros, podendo obter boas representaç ões do conjunto de treinamento no que diz respeito aos pontos “medianos”, dependendo das caracter´ısticas do problema e, consequentemente, da distribuiç ão dos dados.

A limitaç ão deste m étodo reside na necessidade de um conjunto de treinamento grande para que um desempenho satisfat ório seja alcançado. O padr ão mais usado é aquele que utiliza 60% para treinamento, 20% para validaç ão e 20% para teste. Uma mudança nesse padr ão deve ser feita de maneira cuidadosa, pois o modelo pode perder capacidade de generalizaç ão.

Selec¸ ˜ao Auto-organizada de Centros

Descrito em Haykin (2001) e tamb ém em Silva, Spatti e Flauzino (2010), este m étodo de seleç ão de centros consiste em aplicar a ideia b ásica do algoritmo SOM -Self Organizing Map (Mapa Auto-organiz ável), proposto por Kohonen (1998) e descrito na Figura 5.

1. Gerar valores rand ˆomicos (distintos), ou escolher aleatoriamente, dentre os valores observados, os centros iniciais;

2. Nan- ésima iteraç ão, tomar uma amostra do conjunto de treinamento;

3. Para cada vetor de entrada, encontrar o centro que possui menor dist ˆancia euclidiana ou, equivalentemente, o centro com o qual o vetor de entrada produz o maior produto interno;

4. Para o centro vencedor, atualizar sua localizac¸ ˜ao segundo a regra:

c(novo) =c(anterior) +η(x−c)

em queη∈(0,1) é uma taxa de aprendizagem,x é o vetor de entrada ec é o centro vencedor;

5. Voltar ao Passo 2 at é que n ão haja modificaç ões significativas na matriz de centros.

FIGURA5: Selec¸ ˜ao auto-organizada de centros

A diferença deste algoritmo para o algoritmo SOM cl ássico é justamente a aus ência de um

“mapa” de neur ônios, ou seja, nenhuma vizinhança é sequer considerada na atualizaç ão dos neur ônios. Isso equivale a dizer que é um algoritmo SOM com o princ´ıpioWinner Takes All

(26)

(O Vencedor Leva Tudo) pois somente o neur ônio vencedor é atualizado. Uma descriç ão do princ´ıpioWinner Takes All, aplicado ao problema de designaç ão usando uma rede recorrente, pode ser encontrado em Siqueira, Scheer e Steiner (2005).

Selec¸ ˜ao Supervisionada de Centros

Esta é a forma mais gen érica de se realizar a seleç ão de centros. A ideia é ajustar os neur ônios na matriz de centros considerando aprendizagem por correç ão de erro e, desse modo, a RBFNN se assemelha aoPerceptron cl ássico. Um candidato natural para resolver este problema é o algoritmo conhecido como descida do gradiente, que é utilizado para mini- mizar uma funç ão de custo/erro.

Grau de de Abertura do Raio do Campo Receptivo

O raio de abertura do campo receptivo de uma RBF é o par âmetro que define a capacidade que a funç ão tem de agrupar padr ões. Vale ressaltar que ao contr ário doPerceptron, o qual separa os padr ões por meio da construç ão de hiperplanos, uma RBFNN classifica os padr ões por meio de regi ões hiperelipsoidais.

(a) Perceptron Multicamadas (b) Rede Neural de Base Radial

FIGURA6: Separaç ão de padr ões doPerceptrone RBFNN

E poss´ıvel observar na Figura 6 que esta estrat égia de agrupamento pode ser mais efici-´ ente do que a construç ão dos hiperplanos. Segundo Haykin (2001), o campo receptivo de uma

(27)

RBF é dado por uma matriz de covari ânciaΣe é poss´ıvel identificar tr ês diferentes cen ários de sua influ ência sobre a forma, tamanho e orientaç ão do campo receptivo:

1. Σ=σ²·I , onde I é a matriz identidade e σ² é uma vari ância comum. Neste caso, o campo receptivo é uma hiperesfera;

2. Σ=diag(σ₁²,σ₂², . . . ,σ_p²), quando forem considerados p exemplos para o treinamento.

Neste caso, o campo receptivo consiste numa hiper-elipse com a extens ˜ao dos j- ´esimos eixos determinados porσj, com j=1, . . . ,p;

3. Σ é uma matriz n ão-diagonal. Nesse caso, comoΣ é uma matriz definida positiva, por ser uma matriz de covari âncias, pode ser decomposta em:

Σ=Q^TΛQ

em queΛ é uma matriz diagonal eQ é uma matriz ortonormal de rotaç ão. Neste caso, a matrizΛdetermina a forma e o tamanho do campo receptivo enquantoQdetermina sua orientaç ão.

Vale salientar que o tamanho do raio de abertura influencia diretamente no tamanho do campo receptivo de um neur ônio. O ideal é que o raio de abertura n ão cause sobreposiç ão nem disjunç ão excessiva dos campos receptivos, pois em ambos os casos a rede pode ter dificuldades em classificar padr ões que est ão perto dos limites dos campos receptivos.

Segundo Braga e Ludermir (2007), v árias heur´ısticas vem sendo propostas para a definiç ão do raio de abertura das RBFNNs. Uma delas define cada σj como sendo a m édia das dist âncias euclidianas entre cada centro e seu vizinho (centro) mais pr óximo, ou seja, se con- siderarmos pneur ônios na camada intermedi ária, consequentemente com pcentros, sendod a dist ância euclidiana, os valores deσj s ão dados pela Equaç ão 2.10.

σj=min(di6=j(ci,cj))parai=1, . . . ,pe j=1, . . . ,p. (2.10) Outra heur´ıstica, encontrada em Silva, Spatti e Flauzino (2010) e Braga e Ludermir (2007), considerando n exemplos de treinamento e p neur ˆonios na camada intermedi ´aria, atribui a

(28)

cadaσj a m édia das dist âncias dosN≤n vetores de entrada mais pr óximos ao centrocj do que aos outros centros. A equaç ão 2.11 representa esta heur´ıstica.

σj= 1 N

N i=1

∑

d(xi,cj)para j=1, . . . ,p,. (2.11) em quex_i é um dos vetores de entrada mais pr óximos dec_j ed é a dist ância euclidiana. Esta

última heur´ıstica mostrou um desempenho adequado em Mota et al. (2012), no sentido de proporcionar percentuais de acerto na classificaç ão acima de 80%.

C ´alculo da Matriz de Pesos

SejaX⊂R^m^×ⁿa matriz de observaç ões contendonobservaç ões emvari áveis:

X=







x₁₁ . . . x_1n ... . .. ... x_m1 . . . xmn







O valor de ativaç ão dos- ésimo neur ônio da camada escondida depende da dist ância euclidiana quadr ática entre a entradaxⁱe o centrocj, ondecj∈C é o centro dom- ésimo neur ônio.

Ent ão, de acordo com a abordagem cl ássica, treinar uma RBFNN é, de fato, calcular a matriz de pesos,

w=







w₁₀ w₁₁ . . . w_1s

w₂₀ w₂₁ . . . w_2s

... . .. ... ...

w_p0 w_p1 . . . w_ps







de maneira a ajustar aos alvostcaday, como podemos ver na Equac¸ ˜ao 2.12,

yr=w_0rφ_0r+

s

∑

k=1

wkrφ ||xⁱ−C||

. (2.12)

Resolver o problema da Equaç ão 2.12 é equivalente a resolver a Equaç ão 2.8. A única

(29)

diferença é a forma deφ, que em 2.12 é retangular. Ou seja, treinar uma RBFNN é equivalente a resolver um sistema n ão linear retangular contendo funç ões de base radial.

Entretanto, existem, pelo menos, mais duas abordagens: uma baseada em correç ão de erro, que pode ser encontrada em Silva, Spatti e Flauzino (2010) e a outra, na qual esta pesquisa est á focada, que é a utilizaç ão de Meta-heur´ısticas de busca para o c álculo dos pesos, produzindo um sistema h´ıbrido, como por exemplo em Mota et al. (2012). A criaç ão de Metodologias H´ıbridas com RBFNNs e Meta-heur´ısticas de busca baseadas em populaç ão est á descrita no Cap´ıtulo 3.

2.1.2 O Projeto de uma RBFNN

Uma vez que sua arquitetura ´e pr ´e-definida, sendo uma rede alimentada adiante, projetar uma RBFNN consiste em definir os seguintes aspectos:

• Separaç ão e Tratamento dos Dados: separar os exemplos que ser ão utilizados no treinamento, validaç ão (caso haja) e testes da RBFNN, bem como realizar um tratamento estat´ıstico de dados visando identificar padr ões que possam atrapalhar o desempenho da rede por serem muito at´ıpicos, quando comparados com o restante dos padr ões;

• Topologia: consiste em definir a quantidade de neur ˆonios na camada intermedi ´aria e da camada de sa´ıda;

• Funç ão de Ativaç ão da Camada Intermedi ária: novamente, como a funç ão de ativaç ão da camada de sa´ıda tamb ém é pr é-definida, como sendo a linear pura, existe apenas a necessidade de escolher a funç ão de ativaç ão de cada neur ônio na camada escondida;

• Seleç ão dos Centros: escolher o m étodo de seleç ão dos centros que melhor defina suas localizaç ões;

• Raio de Abertura: escolher o m étodo para definir a amplitude do campo receptivo de cada neur ônio na camada intermedi ária e;

• C álculo da Matriz de Pesos: escolher o m étodo para o c álculo da matriz de pesos entre a camada intermedi ária e a camada de sa´ıda;

(30)

Separac¸ ˜ao e Tratamento dos Dados

H á dois processos de separaç ão dos exemplos para treinamento, teste e validaç ão conhecidos comohold-out e validaç ão cruzada pass´ıveis de aplicaç ão às RBFNNs. Ambos os procedimentos utilizam-se de sorteios aleat órios para definir quais exemplos pertencem a cada grupo, sendo que seus tamanhos s ão pr é-definidos.

Hold-out

O hold-out, em problemas de classificaç ão, consiste em dividir os exemplos amostrais em tr ês grupos: treinamento, validaç ão e testes. Na maioria das pesquisas os percentuais encontrados para cada conjunto s ão 60–20–20, respectivamente, sendo o padr ão 70–15–15 uma segunda opç ão adequada. Nesta abordagem, a Rede Neural em quest ão é treinada enquanto o percentual de acerto no conjunto de validaç ão estiver aumentando, uma vez que este é utilizado como auxiliar na medida de capacidade de generalizaç ão da rede.

A segunda abordagem dohold-out, aplic ável em problemas de previs ão em S éries Tempo- rais (ST), consiste em dividir os exemplos amostrais em dois grupos: treinamento e testes. No caso das ST, os exemplos s ão ordenados de acordo com sua disposiç ão no tempo, ou seja, a escolha aleat ória de quais exemplos pertencer ão a cada grupo n ão se aplica a esse caso.

Os percentuais mais encontrados na literatura para treinamento e teste s ˜ao 90–10, respectivamente.

Validac¸ ˜ao Cruzada

A Validac¸ ˜ao Cruzada consiste em dividir os exemplos amostrais em k grupos de mesmo tamanho (ou aproximadamente iguais), sorteando aleatoriamente exemplos para integrar os grupos, e para executar os seguintes procedimentos:

(31)

1. Sortear um dos k grupos de mesmo tamanho (ainda n ˜ao sorteado) e defin´ı-lo como conjunto de testes;

2. treinar a rede com osk−1grupos restantes;

3. verificar a capacidade de generalizac¸ ˜ao da rede no conjunto de testes;

4. Voltar ao passo um at ´e que todos os grupos tenham figurado como conjunto de testes.

Nesse procedimento, o percentual de acerto da rede que mede sua capacidade de gene- ralizaç ão é a m édia aritm ética simples dos percentuais de acerto em todos os conjuntos de testes.

Funç ão de Ativaç ão

A escolha da funç ão de ativaç ão na camada escondida de uma RBFNN n ão possui um m étodo espec´ıfico. De forma emp´ırica, faz-se necess ária a realizaç ão de testes iniciais para verificar qual funç ão apresenta melhor ajuste aos dados. A funç ão mais utilizada na literatura

é a Gaussiana, dada na Equaç ão 2.2. Vale ressaltar que os neur ônios da camada escondida podem utilizar funç ões de ativaç ão distintas.

Selec¸ ˜ao dos Centros

A seleç ão dos centros (ou centr óides) consiste em definir quais vetores ser ão os centros do campo receptivo de cada neur ônio na camada escondida. Em geral, qualquer algoritmo de agrupamento executar á bem esta tarefa, uma vez que a seleç ão de centr óides é um problema cl ássico dek-medianas.

(32)

Raio de Abertura

O raio de abertura da funç ão de ativaç ão delimita a amplitude do campo receptivo do neur ônio em quest ão. Novamente n ão h á apenas um m étodo para a realizaç ão dessa tarefa nem relaç ão conhecidaa priorientre a distribuiç ão dos dados e a escolha do m étodo, podendo ser um dos descritos anteriormente.

E necess ário que sejam realizados alguns testes preliminares para verificar qual m étodo´ mostra tend ência em produzir melhores resultados. Pode haver melhores resultados com m étodos diferentes, em conjuntos de dados de uma mesma área de estudo.

Matriz de Pesos

Na abordagem cl ássica das RBFNNs, o c álculo da matriz de pesos, que é o treinamento da rede em si, consiste em pseudo-inverter a matriz com os valores de ativaç ão dos neur ônios da camada intermedi ária.

Estrat égias para a Definiç ão da Topologia

Conforme mencionado anteriormente, o treinamento de uma RBFNN consiste na pseudo- invers ão da matriz com os valores de ativaç ão dos neur ônios da camada escondida e a definiç ão de sua topologia utiliza a mesma ideia principal do treinamento de uma Rede Neural.

Na maioria dos trabalhos encontrados na literatura o procedimento adotado ´e o seguinte:

executa-se um processo iterativo, aumentando a quantidade de neur ônios enquanto o desempenho do conjunto de validaç ão estiver melhorando. O “treinamento” deve ser abortado quando houver uma determinada quantidade de decr éscimos no desempenho do conjunto de validaç ão. Esses decr éscimos s ão chamados de “falhas de validaç ão”. Adota-se, ent ão, como capacidade de generalizaç ão da rede, o percentual de acertos no conjunto de testes corres- pondente à iteraç ão em que foi encontrado o melhor resultado no conjunto de validaç ão.

(33)

2.2 COMPUTAÇ ÃO EVOLUCION ÁRIA

A princ´ıpio, a Matem ática e a Biologia s ão duas Ci ências com sistematizaç ões e abordagens diferentes com um único objetivo em comum, aparentemente, de fazer parte de uma gama de conhecimentos necess ários à compreens ão do Universo. Entretanto, o surgimento de problemas mais espec´ıficos e complexos fez surgir uma parceria sistematizada incialmente por Holland (1975) entre a Teoria da Evoluç ão, proposta por Charles Darwin e a Álgebra Li- near, posteriormente a Inform ática veio fazer parte deste grupo, fornecendo ferramentas para a implementaç ão destes modelos.

A Computaç ão Evolucion ária (CE) tem como princ´ıpio b ásico modelar a evoluç ão natural.

Para que isso seja poss´ıvel, segundo Rutkowski (2008) e Engelbrecht (2007), é necess ário levar em consideraç ão os principais conceitos de sobreviv ência: adaptaç ão e aptid ão. Para isso, os indiv´ıduos melhores adaptados ao meio sobrevivem e t êm chance de passar os c ódigos gen éticos que garantiram sua sobreviv ência aos seus descendentes e os menos adaptados t êm maior probabilidade de morrer e perder esta chance, como afirmam Holland (1975) e Goldberg (1989).

Essencialmente, a CE consiste em modelar uma populaç ão de indiv´ıduos e fazer com que esta populaç ão se reproduza por meio de cruzamentos, gerando descend ência, e evolua por meio de mutaç ão, sendo levados em consideraç ão os princ´ıpios de seleç ão natural. Existem diferentes classes de algoritmos j á desenvolvidos, em Engelbrecht (2007) est ão listados os principais deles:

• Algoritmos Gen éticos (AG): T êm como principal objetivo modelar a evoluç ão gen ética;

• Programaç ão Gen ética: S ão baseados em AG, mas os indiv´ıduos s ão programas com- putacionais, em vez de vetores, e tais programas s ão representados em árvores;

• Programaç ão Evolucion ária: é uma derivaç ão da simulaç ão de comportamento adap- tativo na evoluç ão, tamb ém chamado de Evoluç ão Fenot´ıpica;

• Estrat égias Evolucion árias: orientam-se pela modelagem dos par âmetros que contro- lam a variaç ão na evoluç ão;

• Evoluç ão Diferencial: difere dos AGs apenas no mecanismo utilizado para a reproduç ão;

(34)

• Evoluç ão Cultural: modela a evoluç ão da cultura de uma populaç ão e como como esta cultura influencia a evoluç ão gen ética e fenot´ıpica dos indiv´ıduos;

• Co-evoluç ão: nesta abordagem, inicialmente s ão gerados indiv´ıduos “burros” que coo- peram ou competem entre si, com o objetivo de adquirir as caracter´ısticas necess árias para sobreviver.

Segundo Engelbrecht (2007), a CE tem sido utilizada com sucesso em v ários problemas do mundo real, tais como: Mineraç ão de Dados, Otimizaç ão Combinat ória, Diagn óstico de Falhas, Classificaç ão e Agrupamento de Padr ões, Quadro de Hor ários e Previs ão de S éries Temporais.

2.2.1 Algoritmos Gen ´eticos

Os Algoritmos Gen éticos (AG) fazem parte de uma sub área da Intelig ência Computaci- onal (IC) conhecida como Computaç ão Evolucion ária (CE), juntamente com outras t écnicas, tais como: a Programaç ão Gen ética (PG), Programaç ão Evolucion ária e Evoluç ão Diferencial.

Nesta seç ão os conceitos principais sobre os algoritmos gen éticos s ão apresentados, bem como as principais caracter´ısticas e operadores dos AG cont´ınuos, que fazem parte do foco deste trabalho.

Princ´ıpios Fundamentais

Os Algoritmos Gen éticos (AG) conforme descrito em Goldberg (1989) e Holland (1975) s ão, basicamente, um conjunto de algoritmos baseados nos princ´ıpios de biologia evolutiva enunciados por Charles Darwin em seu livro intitulado A Evoluç ão das Esp écies. Em sua abordagem cl ássica, os AGs utilizam strings vetoriais como candidatos à soluç ão de um problema de otimizaç ão.

Os princ´ıpios considerados na elaboraç ão de um AG s ão a seleç ão natural, hereditarie- dade, mutaç ão e a recombinaç ão (crossover). Quando s ão traduzidos para a linguagem matem ática, tais princ´ıpios se transformam em operadores gen éticos de cruzamento e mutaç ão,

(35)

j á a seleç ão natural se transforma numa regra de decis ão. A Figura 7 apresenta o algoritmo gen ético b ásico, em sua forma gen érica e resume seu funcionamento.

Sejag=0o contador de gerac¸ ˜oes;

Criar e inicializar uma populaç ão de tamanho pr é-definido;

Enquantonenhum crit ´erio de parada for satisfeitofac¸a;

Avalie ofitness(aptid ão) de cada indiv´ıduo da populaç ão;

Selecione os indiv´ıduos;

Realize a reproduç ão para gerar descend ência;

Selecione a nova populac¸ ˜ao;

Avance para a nova gerac¸ ˜ao, ou seja,g=g+1;

Fim Enquanto

FIGURA7: Algoritmo Gen ´etico Original

Vale ressaltar que, inicialmente, a base num érica bin ária (representaç ão bin ária) foi considerada para implementaç ão e aplicaç ão dos Algoritmos Gen éticos na literatura. Contudo, hoje é bastante comum encontrarmos aplicaç ões em que a base num érica decimal é utilizada, podendo utilizar valores inteiros e/ou reais (Algoritmos Gen éticos Cont´ınuos).

A escolha da base decimal em vez da base bin ária se justifica pela maior proximidade entre soluç ões ligeiramente diferentes, uma vez que, na base bin ária, uma pequena variaç ão no vetor de resposta pode ocasionar uma mudança radical na direç ão de busca, podendo ocasionar perdas maiores na funç ão objetivo do que na base decimal.

Os componentes da configuraç ão de um AG s ão:

1. uma funç ão de aptid ão;

2. uma populac¸ ˜ao inicial de tamanho predefinido;

3. um operador de seleç ão de pares para a reproduç ão;

4. os operadores de reproduc¸ ˜ao;

5. crit érios de medida de converg ência, ou crit érios de parada.

(36)

Funç ão de Aptid ão (Fitness)

Segundo Goldberg (1989) e Engelbrecht (2007), a Funç ão de Fitness (FF) (aptid ão) é, possivelmente, o componente mais importante de um Algoritmo Evolucion ário (AE), consequentemente, de um AG. Uma FF tem como principal tarefa mapear a representaç ão de um cromossomo (indiv´ıduo), a um valor escalar, geralmente real, ou seja:

F:C^I→R (2.13)

ondeF ´e a FF eCrepresenta o cromossomoI-dimensional.

Considerando o fato de que cada indiv´ıduo representa uma potencial soluç ão ótima, de acordo com crit érios pr é-definidos, para o problema, uma FF tem, como consequ ência de sua funç ão primordial, quantificar o qu ão bom um indiv´ıduo é, o qu ão perto a soluç ão est á do ótimo.

A maioria dos operadores gen éticos fazem uso da FF como crit érios internos de operaç ão.

Uma FF deve ser um bom modelo matem ático do problema, isto é, deve refletir todos os crit érios para ser otimizada e, inclusive, deve levar em consideraç ão as restriç ões do problema, conforme afirmam Goldberg (1989) e Engelbrecht (2007). A inclus ão das restriç ões numa FF pode ser feita por meio de penalizaç ões. Vale observar que as restriç ões podem ser incorporadas em outras etapas do AG, como nos operadores de cruzamento e mutaç ão.

Populac¸ ˜ao Inicial

Uma populaç ão inicial, de tamanho pr é-definido, equivale a gerar soluç ões para o problema em quest ão. Geralmente, esta etapa consiste em gerar aleatoriamente vetores (indiv´ıduos) que estejam no espaço de soluç ões. Para garantir a diversidade gen ética e repre- sentatividade do espaço de busca, apriori, a única restriç ão nesta operaç ão é a de que os indiv´ıduos sejam distintos.

Segundo Engelbrecht (2007), se houver informaç ões dispon´ıveis sobre quais caracter´ısticas s ão desej áveis nos elementos da populaç ão inicial é poss´ıvel criar heur´ısticas que levem isso

(37)

em consideraç ão. Entretanto, é necess ário ponderar que esta estrat égia pode levar à converg ência prematura e a um ótimo local, uma vez que indiv´ıduos que poderiam contribuir para melhoria da populaç ão, por diversidade gen ética, podem n ão ser selecionados para a populaç ão inicial.

Com relaç ão ao tamanho da populaç ão inicial, n ão existe um consenso do que pode ser considerada uma populaç ão inicial “grande” ou “pequena”. Entretanto, quase um un´ıssono na literatura é a afirmaç ão de que uma populaç ão inicial pequena, embora diminua o tempo computacional de execuç ão do algoritmo, pode requerer mais geraç ões para convergir e levar a um ótimo local, enquanto que uma populaç ão inicial grande requer menos iteraç ões para convergir e t êm mais chances de chegar ao ótimo global.

E claro que a falta de diversidade em populaç ões iniciais pequenas pode ser amenizada´ aumentando-se a taxa de mutaç ão, mas n ão h á garantias de que esta estrat égia resolva seu problema de miopia, ou seja, o tropeço em ótimos locais.

Operadores de Selec¸ ˜ao

Segundo Holland (1975) e Engelbrecht (2007), os Operadores de Seleç ão (OS) para a reproduç ão t êm a funç ão de garantir que os melhores indiv´ıduos de uma populaç ão sejam destacados. Alguns dos OS a serem considerados s ão: Seleç ão Rand ômica, Seleç ão Propor- cional, Seleç ão via Torneio, Seleç ão Baseada em Ranqueamento e Elitismo, os quais est ão descritos a seguir:

• Seleç ão Rand ômica: na qual os indiv´ıduos s ão selecionados sem crit ério algum. In- div´ıduos bons e ruins t êm a mesma chance de passar seu c ódigo gen ético às geraç ões futuras;

• Seleç ão Proporcional: a chance de um indiv´ıduo ser selecionado para se reproduzir é proporcional a seufitnesse expresso em probabilidade, de acordo com a Equaç ão 2.14,

Prob(C) = F(C)

∑^N_n=1F(C) (2.14)

(38)

em que Prob(C)representa a probabilidade de um indiv´ıduo ser selecionado eF(C) é o fitness de cada um dosNindiv´ıduos da populaç ão;

• Seleç ão via Torneio: Nesta modalidade,k<Nindiv´ıduos s ão pr é-selecionados aleatoriamente e apenas o indiv´ıduo que possui o melhorfitness é escolhido para se reproduzir;

• Seleç ão Baseada em Ranqueamento: Este tipo de seleç ão usa a ordenaç ão emran- king dofitness para determinar a probabilidade de seleç ão de um indiv´ıduo. Isso quer dizer que a seleç ão de um indiv´ıduo, por este m étodo de seleç ão, independe do valor real do fitness. Essa estrat égia garante que nenhum indiv´ıduo da populaç ão, n ão im- portando a magnitude de sua aptid ão, dominar á o processo no sentido de sempre ser escolhido para gerar descendentes.

• Elitismo: O Elitismo é um operador de seleç ão que se preocupa em definir quais indiv´ıduos sobreviver ão para a pr óxima geraç ão (sem sofrer mutaç ão), selecionando assim os poss´ıveis indiv´ıduos que poder ão, eventualmente, gerar descend ência duas geraç ões à frente da atual. A seleç ão pode ser baseada nos melhoresfitness ou qualquer um dos crit érios mencionados anteriormente.

Operadores de Reproduc¸ ˜ao

Existem, essencialmente dois operadores de reproduç ão a serem considerados: crossing- overoucrossover (cruzamento) e mutaç ão. Aqui um indiv´ıduo é considerado melhor adaptado ou “bom” se o valor de seufitnessfor adequado. Por outro lado é considerado “ruim” se o valor de seufitness for inadequado.

O objetivo principal dos operadores de reproduç ão é gerar descendentes, de indiv´ıduos previamente selecionados, utilizando-se os operadores gen éticos citados anteriormente.

O objetivo dos operadores de cruzamento é a combinaç ão de materiais gen éticos j á existentes a fim de obter novos indiv´ıduos que sejam compostos pelas melhores caracter´ısticas de seus geradores, formando assim um indiv´ıduo bem adaptado, isto é, com um valor adequado defitness. Segundo Engelbrecht (2007), pode-se escolher a substituiç ão dos geradores (pais)

(39)

por sua descend ˆencia (filhos), caso osfitness dos pais sejam menos adequados do que dos filhos.

A mutaç ão é o processo de modificar randomicamente os valores dos genes nos indiv´ıduos. O principal objetivo desse grupo de operadores gen éticos é o de introduzir material gen ético novo na populaç ão, com o intuito espec´ıfico de aumentar o espaço de busca por soluç ões. Segundo Holland (1975) e Engelbrecht (2007) a mutaç ão de uma populaç ão geralmente ocorre a uma baixa probabilidade (0,01–0,1) para tentar evitar que indiv´ıduos melhores adaptados percam as caracter´ısticas que os tornam bons.

Crit ´erios de Parada

Diversos crit ´erios de parada para um algoritmo com essas caracter´ısticas podem ser apli- cados:

• quando ofitness do melhor indiv´ıduo alcanc¸ar determinado valor;

• quando houver uma certa quantidade de indiv´ıduos iguais (ou muito parecidos) na populac¸ ˜ao;

• quando atingir uma certa quantidade de geraç ões (iteraç ões);

• quando o melhor indiv´ıduo n ão for superado ap ós uma certa quantidade de geraç ões.

Entre algumas aplicaç ões de AG, pode-se citar o trabalho de Wang e Kong (2011) que utilizaram como crit ério de parada o evento do melhor indiv´ıduo n ão ser superado ap ós uma quantidade de geraç ões. Mais especificamente, o crit ério de parada escolhido foi o de pa- rar o algoritmo ap ós o melhor indiv´ıduo n ão ser superado mais de0,1% em 5000 geraç ões.

Tamb ém, Hoffmann, Medina e Wolisz (2011) utilizaram o crit ério da quantidade de geraç ões, assumindo que o algoritmo convergiu ap ós 5000 geraç ões.

(40)

Algoritmos Gen ´eticos Cont´ınuos e Operadores de Michalewicz

Conforme mencionado anteriormente, j á existem in úmeras abordagens via AG que utilizam valores cont´ınuos, os denominados Algoritmos Gen éticos Cont´ınuos. Para maiores escla- recimentos sobre os operadores cl ássicos desenvolvidos para AG bin ário/discreto, é poss´ıvel consultar Holland (1975) e Goldberg (1989).

Uma das pesquisas que utiliza a representaç ão real foi realizada por Michalewicz, Logan e Swaminathan (1994) que sistematizou tr ês operadores de cruzamento (Crossover) e quatro operadores de mutaç ão, descritos a seguir.

Crossover Simples

Dados dois indiv´ıduos, ocrossover simples consiste em sortear aleatoriamente um ponto de cruzamento e, a partir daquele ponto, ocorre a troca de genes entre os pais. A Figura 8 ilustra a ideia do ponto de cruzamento e a mistura gen ´etica que acontece entre os pais para gerar os filhos.

1,5 9,2 31,2 6,8

0,8 7,4 1,3 5,7

1,5 9,2 31,2

6,8 0,8 7,4 1,3

5,7

Pais Filhos

FIGURA8: Cruzamento gen ´etico de um ponto

Crossover Aritm ´etico

Dados dois indiv´ıduosp₁ep₂para o cruzamento, ocrossover aritm ´etico consiste em gerar os elementos,

(41)

c₁=βp₁+ (1−β)p₂ec₂=βp₂+ (1−β)p₁comβ∼U(0,1). (2.15) Vale ressaltar que este operador n ˜ao ultrapassa os intervalos(p₁,p₂).

Crossover Heur´ıstico

Dados dois indiv´ıduos p₁ e p₂ para o cruzamento, tal que a aptid ão de p₁ é menos adequada do que a de p₂, este operador é a extrapolaç ão linear entre os geradores,

c=p₁+β(p₂−p₁)ondeβ∼U(0,1). (2.16)

Mutac¸ ˜ao Uniforme

Dado um indiv´ıduo p, com S={1, . . . ,s} genes, este operador sorteia um gene j∈S e o substitui por um n úmero aleat ório oriundo de uma distribuiç ão uniforme, ou seja,

c_i=







U(ai,bi), sei= j

pi, caso contr ´ario.

(2.17) Os valores ai e bi representam os limites do intervalo permitido para o indiv´ıduo p em sua i- ésima componente, caso haja alguma restriç ão de factibilidade ou simplesmente de intervalo de busca.

Mutac¸ ˜ao de Limite

Dado um indiv´ıduo p, comS={1, . . . ,s}genes, este operador substitui um gene j∈Spor um dos limites do intervalo fact´ıvel[ai,bi], caso haja alguma restric¸ ˜ao de factibilidade ou apenas

(42)

intervalo de busca, onder∼U(0,1),

ci=











ai, ser<0,5ei= j bi, ser>0,5ei= j p_i, caso contr ´ario .

Mutaç ão N ão-uniforme Simples e M últipla

Dado um indiv´ıduo p, comS={1, . . . ,s}genes, este operador substitui um gene j∈Spor um n úmero extra´ıdo de uma distribuiç ão n ão-uniforme,

pi=











pi+ (bi−pi)f(G), ser₁<0,5ei= j p_i−(p_i−a_i)f(G), ser₁≥0,5ei= j

pi, caso contr ´ario . com,

f(G) =

r₂

1− G Gmax

b

,

sendoGa geraç ão atual,Gmax o n úmero m áximo de geraç ões er₁,r₂∼U(0,1). Al ém disso, os valoresai ebis ão os limites do intervalo fact´ıvel. A aplicaç ão da mutaç ão n ão-uniforme em todos os genes deste indiv´ıduo é chamada de mutaç ão n ão-uniforme m últipla.

2.3 INTELIG ˆENCIA DO ENXAME

A Intelig ência do Enxame (IE) é uma área de estudo que tem suas origens nas col ônias, tamb ém chamados de enxames, de seres vivos. S ão v ários os seres vivos que se beneficiam da vida em sociedade, alguns destes inspiraram algoritmos de otimizaç ão. Os exemplos mais encontrados na literatura s ão: p ássaros, abelhas e formigas.

Segundo Abraham, Guo e Liu (2006), a t écnica conhecida comoParticle Swarm Optimi- zation (PSO), traduzida para o portugu ês como “Nuvem de Part´ıculas”, tem sua inspiraç ão no estudo do comportamento de pequenos grupos (blocks) de p ássaros e é um m étodo de otimizaç ão global.

(43)

A PSO é um m étodo de busca baseado em populaç ão no qual os indiv´ıduos (part´ıculas) s ão agrupadas num enxame (nuvem). Cada part´ıcula representa um candidato à soluç ão do problema, em geral um vetor. Num sistema baseado em PSO, cada part´ıcula se movimenta no espaço de busca, atualiza sua posiç ão, de acordo com sua pr ópria experi ência e, tamb ém, levando em consideraç ão a experi ência do grupo.

Assim como em outros m étodos, a medida de otimalidade de uma soluç ão é baseada numa funç ão de aptid ão (fitness) do indiv´ıduo, podendo variar sua medida desej ável de acordo com o significado de tal funç ão para o problema em quest ão. Ainda segundo Engelbrecht (2007), as aplicaç ões da PSO incluem agrupamento, como em Marini e Walczak (2011) e Lin e Tzeng (2010), otimizaç ão de estruturas mec ânicas, ver Omkar et al. (2009) e Li et al. (2007) e, consequentemente, a soluç ão de sistemas lineares.

Outra col ônia que encontramos na natureza é a de formigas. A maneira como esses inse- tos encontram o menor caminho at é uma fonte de comida por meio do dep ósito de ferom ônios, como uma trilha deixada aos indiv´ıduos da col ônia, inspirou o algoritmo de otimizaç ão conhecido comoAnt Colony Optimization(ACO) ou “Col ônia de Formigas”.

Segundo Engelbrecht (2007), a aplicaç ão primordial do algoritmo ACO é a determina- ç ão da rota mais curta, entretanto, h á outras aplicaç ões tais como: roteirizaç ão de ve´ıculos, Lee et al. (2010) e Yu, Yang e Yao (2009), problemas de quadro hor ário e coloraç ão de ima- gens, a classificaç ão de padr ões, como podemos ver em Villwock, Steiner e Siqueira (2011) e aplicaç ão em mineraç ão de dados oriundos da Internet como é poss´ıvel observar em Abraham, Guo e Liu (2006).

Em suma, a Intelig ência do Enxame é um campo de estudo ainda jovem e emergente, como ponderam Bonabeau, Corne e Poli (2010). Ademais, segundo Engelbrecht (2007), h á muito potencial nesta área da IA e as aplicaç ões iniciais, à sua época de publicaç ão, se mostraram promissoras.

2.3.1 Nuvem de Part´ıculas

O algoritmo PSO -Particle Swarm Optimization, ou “Nuvem de Part´ıculas” é um algoritmo de busca baseado em populaç ão que simula o comportamento social de p ássaros num bando.