• Nenhum resultado encontrado

Melhorando Redes Neurais do Tipo Extreme Learning Machine Através da Otimização por Enxame de Partículas com Mecanismo de Seleção

N/A
N/A
Protected

Academic year: 2021

Share "Melhorando Redes Neurais do Tipo Extreme Learning Machine Através da Otimização por Enxame de Partículas com Mecanismo de Seleção"

Copied!
11
0
0

Texto

(1)

Melhorando Redes Neurais do Tipo Extreme Learning

Machine Atrav´es da Otimizac¸˜ao por Enxame de Part´ıculas

com Mecanismo de Selec¸˜ao

Luciano D. S. Pac´ıfico1, Teresa B. Ludermir1

1Centro de Inform´atica – Universidade Federal de Pernambuco (UFPE)

Av. Jornalista Anibal Fernandes, s/n, 50.740-560 - Recife - PE - Brazil

{ldsp,tbl}@cin.ufpe.br

Abstract. Extreme learning machine (ELM) is a Single Hidden Layer Feedfor-ward Neural Networks (SLFNs) training strategy much faster than traditional gradient-based learning approaches. However, random determination of the input weights and hidden biases performed by ELM may lead to non-optimal performance. In this paper, two new hybrid approaches are proposed based on improved Particle Swarm Optimization (PSO) strategies to select input weights and hidden biases for ELM algorithm. Experimental results show that the pro-posed methods are able to achieve better generalization performance than tra-ditional ELM in real datasets.

Resumo. Extreme Leaning Machine (ELM) ´e uma estrat´egia de treinamento para redes neurais feedfoward de ´unica camada escondida (SLFNs) bem mais r´apida que as abordagens de treinamento tradicionais baseadas no gradiente. Contudo, a determinac¸˜ao aleat´oria dos pesos de entrada e bias da camada oculta executada pela ELM pode levar a uma performance n˜ao ´otima. Neste artigo, duas novas abordagens h´ıbridas s˜ao propostas baseadas em estrat´egias de Otimizac¸˜ao por Enxame de Part´ıculas (PSO) melhoradas a fim de otimizar a selec¸˜ao de pesos de entrada e bias da camada oculta para o algoritmo ELM. Os resultados experimentais mostram que essas abordagens s˜ao capazes de con-seguir uma melhor generalizac¸˜ao que o ELM tradicional em dados reais.

1. Introduc¸˜ao

Redes Neurais Artificiais (Artificial Neural Networks, ou ANNs) s˜ao ferramentas de mo-delagem computacional inspiradas no funcionamento do sistema nervoso humano que tˆem encontrado grande uso em diversas aplicac¸˜oes do mundo real. As ANNs s˜ao constitu´ıdas de unidades de processamento simples (neurˆonios), que encontram-se interconectadas, sendo o conhecimento destes modelos representado atrav´es dos pesos entre as conex˜oes de seus neurˆonios (pesos sin´apticos) [Haykin 1998]. Tais redes apresentam como carac-ter´ısticas a adaptabilidade, capacidade de aprendizagem atrav´es de exemplos e a capaci-dade de organizar ou generalizar dados.

Os algoritmos tradicionais para o treinamento de redes neurais artificiais basea-dos no gradiente s˜ao geralmente lentos no seu processo de aprendizagem e podem ficar presos em m´ınimos locais facilmente. Com o intuito de tornar o processo de treina-mento ANNs mais r´apido, um novo m´etodo foi proposto: o algoritmo Extreme Learning Machine (ELM) [Huang et al. 2006]. O Extreme Learning Machine ´e uma t´ecnica de

(2)

aprendizado proposta para o treinamento de redes neurais feedfoward de ´unica camada oculta (Single Hidden Layer Feedforward Neural Networks, ou SLFNs) que aumenta a velocidade de aprendizado atrav´es da gerac¸˜ao aleat´oria dos pesos de entrada e dos bias da camada oculta. Embora o ELM seja r´apido e apresente boa generalizac¸˜ao dos dados, o processo adotado de selec¸˜ao dos pesos de entrada e dos bias da camada oculta pode levar a escolha de valores n˜ao ´otimos destes parˆametros.

M´etodos de busca mais complexos, como o algoritmo de Tˆempera Simulada (Si-mulated Annealing, ou SA) [Kirkpatrick et al. 1983], a Busca Tabu (Tabu Search, ou TS) [Glover 1986] e os Algoritmos Evolucion´arios (Evolutionary Algorithms, ou EAs), s˜ao conhecidos como m´etodos de otimizac¸˜ao estoc´astica que podem explorar o espac¸o de soluc¸˜oes de forma flex´ıvel e eficiente, sendo usados no contexto de redes neurais artificiais para tarefas como o treinamento dos pesos entre as conex˜oes, inicializac¸˜ao desses pesos, otimizac¸˜ao da arquitetura, etc.

Neste artigo, duas novas propostas h´ıbridas ser˜ao apresentadas baseadas na t´ecnica de Otimizac¸˜ao por Enxame de Part´ıculas (Particle Swarm Optimization, ou PSO) [Kennedy and Eberhart 1995] [Kennedy and Eberhart 2001], para a escolha dos pesos de entrada e dos bias da camada oculta do ELM: CSPSO-ELM e CSGCPSO-ELM. Am-bas as t´ecnicas se Am-baseiam na formac¸˜ao de grupos entre os indiv´ıduos da populac¸˜ao, de forma que indiv´ıduos pertencentes a um mesmo grupo realizem buscas no espac¸o do pro-blema na direc¸˜ao de um ´otimo em particular [Kennedy 2000], levando em considerac¸˜ao o centro desse grupo para guiar seus movimentos. Tamb´em foi aplicado um operador de selec¸˜ao baseado na ideia apresentada em [Angeline 1999]. O CSGCPSO-ELM faz uso ainda da her´ıstica de convergˆencia garantida (Guaranteed Convergence, ou GC) para o PSO [Carvalho and Ludermir 2006].

Algumas estrat´egias evolutivas tˆem sido adotadas para o contexto do ELM. [Zhu et al. 2005] apresenta uma forma h´ıbrida do algoritmo de Evoluc¸˜ao Diferencial (Dif-ferential Evolution, ou DE) e ELM, chamado E-ELM para treinar SLFNs com redes mais compactas e com um mecanismo para evitar o overfitting, tendo sido uma das primeiras abordagens a combinar o ELM com uma t´ecnica evolucion´aria. [Xu and Shu 2006] a-presentaram um novo ELM evolutivo baseado em PSO para a tarefa de predic¸˜ao, tendo apresentado tamb´em trˆes abordagens para o tratamento dos indiv´ıduos que escapam do espac¸o de busca do problema. Em [Saraswathi et al. 2011], uma combinac¸˜ao de Algo-ritmo Gen´etico [Eiben and Smith 2003] com Codificac¸˜ao Inteira (Integer Coded Genetic Algorithm, ou ICGA) e PSO, juntamente com a ELM foi utilizado para a selec¸˜ao de genes e classificac¸˜ao do cˆancer. Em [Silva et al. 2011a], o ELM foi combinado com o m´etodo de Otimizac¸˜ao por Busca em Grupo (Group Search Optimization, ou GSO) [He et al. 2009], tendo sido realizadas quatro formas diferentes para o tratamento dos indiv´ıduos que es-capam do espac¸o de busca do problema. Em [Silva et al. 2011b] o ELM foi combinado com vers˜oes cooperativas do PSO baseadas na divis˜ao do espac¸o de busca. Embora neste ´ultimo trabalho tenha havido a preocupac¸˜ao no estudo de grupos populacionais locais, cada grupo preocupava-se apenas com a melhoria do conjunto de vari´aveis ao qual o mesmo era respons´avel, visando dar sua contribuic¸˜ao para o encontro de um ´unico valor ´otimo global, seguindo a estrat´egia de dividir para conquistar. No presente trabalho, cada grupo visa o encontro de um ´otimo local particular, com o intuito de explorar diferentes regi˜oes do espac¸o de busca de forma mais eficiente.

(3)

Este artigo est´a organizado da seguinte forma: na pr´oxima sec¸˜ao (Sec¸˜ao 2) ser˜ao apresentadas as t´ecnicas do ELM, o PSO, e sua vers˜ao com convergˆencia garantida; em seguida, os m´etodos propostos ser˜ao melhor detalhados (Sec¸˜ao 3); por fim, os resultados experimentais ser˜ao discutidos (Sec¸˜ao 4) e as conclus˜oes apresentadas (Sec¸˜ao 5).

2. Preliminares

2.1. Extreme Learning Machine

Partindo-se do pressuposto que estamos treinando SLFNs com K neurˆonios ocultos e func¸˜ao de ativac¸˜ao g(x) para aprender N amostras distintas (xi, ti), onde xi =

[xi1, xi2, ..., xin]T ∈ <n e ti = [ti1, ti2, ..., tim]T ∈ <m. No ELM, os pesos de entrada

e bias ocultos s˜ao gerados aleatoriamente. Ao fazer isso, o sistema n˜ao-linear ´e conver-tido para um sistema linear:

Hβ = T

onde H = hij (i = 1, ..., N e j = 1, ..., K) ´e a matriz de sa´ıda da camada oculta,

hij = g(wj · xi + bj) indica a sa´ıda do j-´esimo neurˆonio oculto no que diz respeito a

xi; wj = [wj1, wj2, ..., wjn]T ´e o vetor de pesos das conex˜oes do j-´esimo neurˆonio oculto

com os neurˆonios de entrada, e bj denota a bias do j-´esimo neurˆonio oculto; wj · xi

de-nota o produto interno do wj e xi; β = [β1, β2, ..., βK]T ´e a matriz pesos de sa´ıda e βj =

[βj1, βj2, ..., βjm]T(j = 1, ..., K) denota o vetor de pesos conectando o j-´esimo neurˆonio

oculto e os neurˆonios de sa´ıda; T = [t1, t2, ..., tn]T ´e a matriz de metas (sa´ıdas desejadas).

Assim, a determinac¸˜ao dos pesos de sa´ıda (que ligam a camada de n´os ocultos `a camada de sa´ıda) passa a ser definida simplesmente como a soluc¸˜ao de m´ınimos quadra-dos (Least-Squares, ou LS) para o sistema linear apresentado. A norma m´ınima quadra-dos m´ınimos quadrados que ´e soluc¸˜ao para o sistema linear ´e dada por:

ˆ

β = H†T

onde H† ´e a matriz pseudo-inversa generalizada de H. A norma m´ınima dos m´ınimos quadrados da soluc¸˜ao ´e ´unica e tem a menor norma entre todas as soluc¸˜oes LS. Devido ao uso da matriz pseudo-inversa para o c´alculo dos pesos da camada de sa´ıda, o ELM tende a obter um bom desempenho de generalizac¸˜ao com o aumento na velocidade de aprendizagem [Huang et al. 2006].

2.2. Otimizac¸˜ao por Enxame de Part´ıculas (PSO)

A t´ecnica de otimizac¸˜ao PSO foi introduzida por [Kennedy and Eberhart 1995] como uma busca estoc´astica por meio de um problema de espac¸o n-dimensional, tendo em vista a minimizac¸˜ao (ou maximizac¸˜ao) da func¸˜ao objetivo do problema. O PSO foi constru´ıdo atrav´es da tentativa de simular graficamente a coreografia de um bando de p´assaros que voam em busca de recursos. Mais tarde, `a procura de fundamentos te´oricos, estudos foram realizados sobre a maneira como os indiv´ıduos interagem em grupos, trocando informac¸˜oes e revendo conceitos pessoais para melhorar a sua adaptac¸˜ao ao ambiente [Kennedy and Eberhart 2001].

No PSO, um enxame de s soluc¸˜oes (part´ıculas) ´e mantido. Cada part´ıcula indivi-dual mant´em a sua posic¸˜ao, velocidade e melhor posic¸˜ao alcanc¸ada at´e o momento. Com

(4)

as iterac¸˜oes do algoritmo, a velocidade de cada part´ıcula ´e determinada de acordo com os dois principais pontos de referˆencia da pesquisa: a melhor posic¸˜ao individual visitada at´e o momento yi(t) e a melhor posic¸˜ao global visitada at´e agora ˆy(t). As equac¸˜oes (1) e (2)

descrevem, respectivamente, como a nova velocidade e a nova posic¸˜ao de uma part´ıcula s˜ao determinadas:

vij(t + 1) = wvij(t) + c1r1(yij − xij) + c2r2(ˆyj − xij) (1)

xij(t + 1) = xij(t) + vij(t + 1) (2)

1 ≤ i ≤ s, 1 ≤ j ≤ n

onde w ´e o peso de in´ercia escalar (termo momentum geralmente no intervalo [0.4, 0.9]), os valores r1e r2s˜ao vari´aveis aleat´orias retiradas de uma distribuic¸˜ao uniforme U (0, 1),

e os valores 0 ≤ c1, c2 ≤ 2 s˜ao coeficientes de acelerac¸˜ao individual e global,

respec-tivamente, normalmente definidos como valores iguais, mas as vezes valores diferentes para c1 e c2 levam a um melhor desempenho [Carvalho and Ludermir 2006]. A melhor

posic¸˜ao individual visitada at´e o momento yi(t) ´e atualizada de acordo com a equac¸˜ao (3),

enquanto a melhor posic¸˜ao global visitada at´e o momento ˆy(t) ´e atualizada por meio da equac¸˜ao (4). yi(t + 1) = xi(t + 1), sef (xi(t + 1)) < f (yi(t)) (3) = yi(t), sen˜ao. ˆ y(t + 1) = argmin yi(t+1) f (yi(t + 1)) (4) 1 ≤ i ≤ s 2.3. PSO com Convergˆencia Garantida (GCPSO)

O PSO padr˜ao tem uma propriedade que se xi = yi = ˆyi, o que significa que a

part´ıcula i est´a situada no melhor ponto do espac¸o de busca encontrado at´e o mo-mento, ent˜ao a equac¸˜ao de atualizac¸˜ao da velocidade (equac¸˜ao 1) ´e totalmente depen-dente do termo de in´ercia wvi(t). Se a velocidade anterior da part´ıcula ´e muito pr´oxima

a zero, h´a um indicativo de que a part´ıcula vai parar de se mover, atraindo as demais part´ıculas a esse ponto e causando a convergˆencia prematura do enxame. Uma pequena modificac¸˜ao no PSO padr˜ao ´e feita pelo algoritmo de convergˆencia garantida (GCPSO) [Carvalho and Ludermir 2006] para lidar com este problema. A ideia ´e modificar a equac¸˜ao de atualizac¸˜ao da velocidade s´o para as part´ıculas que atingiram o ponto mais global do espac¸o de busca para evitar a convergˆencia prematura do enxame e, ao mesmo tempo, procurar as melhores soluc¸˜oes nos arredores da atual melhor posic¸˜ao global ˆy. A nova equac¸˜ao utilizada ´e representada pela equac¸˜ao (5) em que i ´e o ´ındice de uma part´ıcula que alcanc¸ou a melhor posic¸˜ao atual do enxame e r(t) ´e um n´umero aleat´orio uniforme tomado a partir de U (0, 1). As outras part´ıculas do enxame continuam a usar a equac¸˜ao de atualizac¸˜ao padr˜ao da velocidade, ou seja, a equac¸˜ao (1).

(5)

O termo ρ(t) da equac¸˜ao ´e um fator de escala de adaptac¸˜ao que faz o PSO executar uma busca aleat´oria em torno da melhor part´ıcula global do enxame. O pr´oximo valor ρ(t) ´e determinado pela equac¸˜ao (6), em que ]sucessos e ]f racassos denotados pelo n´umero de sucessos e fracassos consecutivos da busca em minimizar a func¸˜ao objetivo, e sc e

fc s˜ao parˆametros de limites com valores iniciais geralmente iguais a 5. Sempre que o

contador dos ]sucessos ultrapassa o limiar de sucesso, significa que a ´area circundante a melhor posic¸˜ao poder´a ser ampliada levando `a duplicac¸˜ao do valor ρ(t). Da mesma forma, quando o contador de ]f racassos exceder o limite de falhas, isso significa que a ´area circundante a melhor posic¸˜ao global ´e muito grande e precisa ser reduzida, como pode ser visto na equac¸˜ao (6).

ρ(t + 1) = 2ρ(t), se]sucessos ≥ sc

= 0.5ρ(t), se]f racassos ≥ fc (6)

= ρ(t), sen˜ao.

Toda vez que os contadores de sucessos ou fracassos ultrapassarem seus limites correspondentes, o limiar excedido ´e aumentado. A cada iterac¸˜ao que a busca consegue minimizar a melhor posic¸˜ao atual, o contador de ]sucessos ´e incrementado e contador ]f racassos ´e reposto a zero. Da mesma forma, a cada iterac¸˜ao que a melhor posic¸˜ao global ˆy(t) n˜ao ´e atualizada, o contador ]f racassos ´e incrementado e o contador de ]sucessos ´e reduzido a zero.

3. M´etodos Propostos

Nesta sec¸˜ao, duas novas propostas h´ıbridas ser˜ao apresentadas baseadas na t´ecnica de Otimizac¸˜ao por Enxame de Part´ıculas [Kennedy and Eberhart 1995] [Kennedy and Eberhart 2001], para a escolha dos pesos de entrada e dos bias da camada oculta do ELM: CSPSO-ELM e o CSGCPSO-ELM. Essas abordagens fazem uso do con-ceito de estereotipac¸˜ao dos indiv´ıduos da populac¸˜ao [Kennedy 2000] em diferentes gru-pos, de forma que cada grupo execute buscas na direc¸˜ao de uma soluc¸˜ao ´otima espec´ıfica. Os grupos populacionais ir˜ao realizar a atualizac¸˜ao de suas posic¸˜oes e velocidades levando em considerac¸˜ao suas relac¸˜oes internas.

O algoritmo de agrupamento escolhido foi o Hard K-Means tradicional [MacQueen 1967], sendo o mesmo executado apenas durante um n´umero limitado de vezes, de forma que as part´ıculas do enxame foram distribu´ıdas em grupos n˜ao necessaria-mente ´otimos. Para que a etapa de agrupamento n˜ao fosse respons´avel por altas demandas computacionais, optou-se pela formac¸˜ao de agrupamentos apenas quando da mudanc¸a de uma das melhores posic¸˜oes locais alcanc¸adas por um dos indiv´ıduos [Kennedy 2000].

Para as abordagens em quest˜ao, o termo correspondente `a melhor posic¸˜ao local encontrada yi(t) at´e o momento ´e substitu´ıdo pelo centro gcdo grupo C ao qual a part´ıcula

xiest´a relacionada:

vij(t + 1) = wvij(t) + c1r1(gcj− xij) + c2r2(ˆyj− xij) (7)

A heur´ıstica de convergˆencia garantida [Carvalho and Ludermir 2006] foi apli-cada ao m´etodo CSGCPSO-ELM de forma a evitar que o enxame pare prematuramente em um ponto de m´ınimo local.

(6)

Na tentativa de melhorar o desempenho dos m´etodos propostos, foi utilizado um operador de selec¸˜ao, inspirado no operador de selec¸˜ao apresentado em [Angeline 1999]. O operador de selec¸˜ao utilizado executa da seguinte forma: ap´os a execuc¸˜ao do PSO, os indiv´ıduos s˜ao ordenados de acordo com o valor de sua func¸˜ao de f itness; ap´os a ordenac¸˜ao, a melhor metade da populac¸˜ao ´e usada para substituir os valores da posic¸˜ao atual e velocidade dos indiv´ıduos da pior metade, sendo a posic¸˜ao atual e velocidade do melhor indiv´ıduo usadas para substituir a posic¸˜ao atual e a velocidade do pior indiv´ıduo, a posic¸˜ao atual e velocidade do segundo melhor indiv´ıduo usadas para substituir a posic¸˜ao atual e a velocidade do segundo pior indiv´ıduo, etc. As melhores posic¸˜oes encontradas por cada indiv´ıduo s˜ao preservadas.

A inversa generalizada Moore-Penrose (MP) ´e usada para obter os pesos de sa´ıda, como no ELM tradicional [Huang et al. 2006].

Para todos os algoritmos, o enxame inicial ´e gerado aleatoriamente. Cada part´ıcula i no enxame ´e composta por um conjunto de pesos de entrada e bias ocultos:

xi = [w11, w12, ..., w1K, w21, w22, ..., wn1, wn2, ..., wnK, ..., b1, b2, ..., bK]

Todos wij e bj s˜ao inicializados aleatoriamente dentro do intervalo de [−1, 1].

Para cada indiv´ıduo, os pesos de sa´ıda correspondente da matriz s˜ao calculados usando a inversa generalizada MP. A func¸˜ao de fitness adotada ´e a raiz do erro m´edio quadrado (RMSE) do conjunto de validac¸˜ao [Zhu et al. 2005]:

E = s PN j=1 k PK i=1βig(wi· xj + bi) − tj k22 mXN (8)

Os m´etodos propostos s˜ao executados de acordo com os seguintes passos: 1) Inicializac¸˜ao:

Fixe o n´umero de grupos C; Fixe o n´umero de iterac¸˜oes do algoritmo de agrupa-mento M axIterClust;

Fixe o tamanho do enxame s; Fixe o n´umero m´aximo de iterac¸˜oes do PSO M axIter; t = 0;

Inicialize a populac¸˜ao aleatoriamente;

Escolha C indiv´ıduos da populac¸˜ao aleatoriamente como os centros iniciais dos grupos;

Para o caso do CSGCPSO-ELM, inicialize ρ0, sc e fc; Fac¸a ]sucessos = 0 e

]f racassos = 0;

2) Formac¸˜ao dos Agrupamentos:

Execute o algoritmo Hard K-Means sobre a populac¸˜ao do PSO por M axIterClust iterac¸˜oes, formando os novos grupos populacionais;

3) Avaliac¸˜ao da Populac¸˜ao:

Para cada part´ıcula i da populac¸˜ao, avalie sua func¸˜ao de f itnessf (xi(t)) como o

RMSE obtido pelo conjunto de validac¸˜ao do ELM (equac¸˜ao (8));

Atualize as melhores posic¸˜oes locais yi(t + 1) encontradas at´e o momento e a

melhor posic¸˜ao global encontrada at´e o momento ˆy(t + 1), de acordo com as equac¸˜oes (3) e (4), respectivamente;

(7)

4) Atualizac¸˜ao das Posic¸˜oes e Velocidades:

Atualize as velocidades de cada part´ıcula do enxame de acordo com a equac¸˜ao (7); para o caso do CSGCPSO-ELM, a melhor part´ıcula global encontrada at´e o momento ser´a de atualizada de acordo com a equac¸˜ao (5);

Atualize a posic¸˜ao de cada part´ıcula de acordo com a equac¸˜ao (2);

5) Atualizac¸˜ao dos Parˆametros da Convergˆencia Garantida (apenas CSGCPSO-ELM):

Atualize ρ de acordo com a equac¸˜ao (6), e ]sucessos, ]f racassos, sc e fc, se

necess´ario; 6) Selec¸˜ao:

Ordene os indiv´ıduos da populac¸˜ao de acordo com o valor da func¸˜ao de f itness; Substitua a posic¸˜ao atual xi(t + 1) e a velocidade atual vi(t + 1) do pior indiv´ıduo

de acordo com a func¸˜ao de f itness pela velocidade e posic¸˜ao atuais do melhor indiv´ıduo do enxame;

Substitua a velocidade e posic¸˜ao atuais do segundo pior indiv´ıduo pela velocidade e posic¸˜ao atuais do segundo melhor indiv´ıduo;

Repita este processo at´e que a pior metade do enxame tenha sido sobreposta pela melhor metade;

7) Crit´erio de Parada: Fac¸a t = t + 1;

Se t = M axIter ou f (ˆy(t)) ≤ 0 pare; sen˜ao, se houve mudanc¸a em algum yi(t + 1), v´a para 2; caso contr´ario, v´a para 3;

4. Resultados Experimentais

Nesta sec¸˜ao, comparamos o ELM tradicional com o Levenberg-Marquardt Back-propagation (BP-LM), que ´e uma das mais r´apidas implementac¸˜oes do algoritmo Backpropagation, o PSO-ELM [Xu and Shu 2006], o GCPSO-ELM [Silva et al. 2011b] e as duas novas variantes h´ıbridas propostas: o CSPSO-ELM e o CSGCPSO-ELM. Todos os experimentos foram executados no ambiente MATLAB 6.0. O algoritmo BP-LM ´e fornecido pelo toolbox de Redes Neurais do MATLAB. Para avaliar estes algoritmos, seis conjuntos de dados de classificac¸˜ao de referˆencia (corac¸˜ao, diabetes, ecoli, iris, vidros e vinhos), obtidos a partir da UCI Machine Learning Repository [Frank and Asuncion - Online] foram usadas. Estes conjuntos de dados apresentam dife-rentes graus de dificuldade e difedife-rentes n´umeros de classes. As m´etricas de avaliac¸˜ao utilizadas s˜ao a an´alise emp´ırica e o teste de hip´oteses do tipo t-test pareado (95% de confianc¸a). Nos experimentos, todas as entradas (atributos) foram normalizadas no inter-valo [0, 1], enquanto as sa´ıdas foram normalizadas em [−1, 1]. Os pesos de entrada e os bias foram obtidos no intervalo [−1, 1]. O ELM utilizou a func¸˜ao de ativac¸˜ao sigm´oide g(x) = 1/(1 + exp(−x)).

Os experimentos foram divididos em duas etapas: a primeira teve por objetivos a selec¸˜ao do n´umero K de n´os escondidos do ELM, o n´umero de iterac¸˜oes do PSO e o tamanho de sua populac¸˜ao; ap´os isso, os testes finais foram executados. Para BP-LM, o n´umero m´aximo de ´epocas foi definido como 200. Os demais parˆametros das abordagens utilizadas foram obtidos atrav´es da literatura [Carvalho and Ludermir 2006], [Kennedy 2000] (Tabela 1).

(8)

Table 1. Lista de Par ˆemetros

M´etodo Parˆametro Valor BP-LM N´umero de ´Epocas 200 ELM K 15 M axIter 100 s 50 PSO c1 2.0 c2 2.0 w 0.9 a 0.4 K-Means C 5 M axIterClust 5 ρ 1.0 GCPSO sc 5 fc 5

teste (Tabela 2). Para todos os algoritmos, 50 execuc¸˜oes independentes foram feitas com cada conjunto de dados. Os conjuntos de treinamento, validac¸˜ao e teste foram gerados aleatoriamente a cada tentativa da simulac¸˜ao. Para cada conjunto de dados, os resultados encontrados pela melhor abordagem est˜ao em negrito.

Table 2. Especificac¸ ˜oes das bases de dados

Base de Dados Corac¸˜ao Diabetes Ecoli Iris Vidros Vinhos

Classes 2 2 8 3 6 3 Atributos 13 8 7 4 9 13 Treinamento 130 252 180 70 114 78 Validac¸˜ao 70 258 78 40 50 50 Testes 70 258 78 40 50 50 Total 270 768 336 150 214 178

Os resultados para cada uma das bases s˜ao exibidos na Tabela 3. Para a base de dados Corac¸˜ao, as abordagens baseadas no PSO com convergˆencia garantida obtiveram resultados m´edios semelhantes em uma an´alise emp´ırica, por´em o CSPSO-ELM foi o mais est´avel dentre os mesmos. De modo geral, em uma an´alise emp´ırica, os m´etodos propostos foram melhores que as demais abordagens para a maioria das bases de dados testadas, execeto pela base de Vinhos [Frank and Asuncion - Online], na qual o m´etodo GCPSO-ELM [Silva et al. 2011b] foi o melhor. Os testes de hip´oteses (do tipo t-test pareado com 95% de confianc¸a) apontaram que de modo geral, os m´etodos baseados no Extreme Learning Machineforam equivalentes entre si, tendo superado os resultados o BP-LM em todos os casos. O BP-LM apresentou alto grau de instabilidade para a maioria das bases de dados testadas. Para o caso da base Iris, o CSPSO-ELM obteve melhores resultados que o ELM, de acordo com o t-test pareado (95% de confianc¸a). Da mesma forma, os testes de hip´oteses realizados indicaram que o CSGCPSO-ELM foi melhor que o ELM para a base de dados Vidros.

No que diz respeito ao tempo de execuc¸˜ao, houve um acr´escimo significativo ao custo computacional das abordagens propostas em relac¸˜ao ao ELM tradicional, por´em a

(9)

Table 3. Resultados obtidos para cada uma das bases de dados

Corac¸˜ao: Tempo de Treinamento (s) Acerto M´edio de Teste Desvio Padr˜ao

BP-LM 0.2959 68.6857 14.4994 ELM 0.00064 81.4571 4.2759 PSO-ELM 13.87432 81.3143 3.7613 GCPSO-ELM 13.44454 82.5714 3.6507 CSPSO-ELM 14.0736 82.5714 2.8862 CSGCPSO-ELM 14.45914 82.5714 4.3580

Diabetes: Tempo de Treinamento (s) Acerto M´edio de Teste Desvio Padr˜ao

BP-LM 0.26228 71.4419 5.8113 ELM 0.0008 76.6279 2.2509 PSO-ELM 31.07428 76.5581 2.2372 GCPSO-ELM 30.87776 76.8295 2.3365 CSPSO-ELM 30.79514 76.7364 2.4732 CSGCPSO-ELM 31.62088 77.1318 2.0102

Ecoli: Tempo de Treinamento (s) Acerto M´edio de Teste Desvio Padr˜ao

BP-LM 1.69106 50.2308 22.2852 ELM 0.00078 85.5385 3.7627 PSO-ELM 16.64496 85.8205 3.9571 GCPSO-ELM 16.34902 85.9487 3.4064 CSPSO-ELM 16.7578 86.6923 4.0367 CSGCPSO-ELM 17.35728 86.1282 3.7238

Iris: Tempo de Treinamento (s) Acerto M´edio de Teste Desvio Padr˜ao

BP-LM 0.15962 74.55 24.2473 ELM 0.00050 95.45 3.30 PSO-ELM 7.96944 96.10 3.2404 GCPSO-ELM 8.24572 96.25 3.2043 CSPSO-ELM 8.47062 96.80 3.0321 CSGCPSO-ELM 8.69774 96.45 2.8162

Vidros: Tempo de Treinamento (s) Acerto M´edio de Teste Desvio Padr˜ao

BP-LM 0.96992 41.08 18.6316 ELM 0.00066 61.20 6.8928 PSO-ELM 11.52478 62.88 6.6291 GCPSO-ELM 11.47504 62.40 5.9522 CSPSO-ELM 11.85036 63.48 5.9358 CSGCPSO-ELM 11.48998 63.92 5.3751

Vinhos: Tempo de Treinamento (s) Acerto M´edio de Teste Desvio Padr˜ao

BP-LM 0.6653 79.96 23.287 ELM 0.00050 96.56 3.1569 PSO-ELM 9.4544 97.24 2.0159 GCPSO-ELM 9.35978 97.32 2.6683 CSPSO-ELM 9.66808 97.08 2.2932 CSGCPSO-ELM 10.10154 97.00 2.5951

(10)

execuc¸˜ao das t´ecnicas propostas ocorreu em tempo semelhante `as demais t´ecnicas evolu-cion´arias comparadas (Tabela 3).

5. Conclus˜oes

Neste artigo, duas novas abordagens h´ıbridas foram propostas para a melhoria dos pe-sos de entrada e dos bias da camada oculta do Extreme Learning Machine baseadas na t´ecnica evolucion´aria de Otimizac¸˜ao por Enxame de Part´ıculas (PSO): CSPSO-ELM e CSGCPSO-ELM. Tais abordagens baseam-se na estereotipac¸˜ao dos indiv´ıduos da populac¸˜ao atrav´es da formac¸˜ao de grupos.

O desempenho dos m´etodos proposto foi avaliado fazendo-se uso de pro-blemas reais benchmark obtidos atrav´es do UCI Machine Learning Repository [Frank and Asuncion - Online]. Para a maioria das bases de dados testadas, as abor-dagens propostas obtiveram resultados superiores em uma an´alise emp´ırica aos encon-trados pelos m´etodos de comparac¸˜ao escolhidos: ELM tradicional [Huang et al. 2006], Levenberg-Marquardt Backpropagation, PSO-ELM [Xu and Shu 2006] e GCPSO-ELM [Silva et al. 2011b]. Para algumas das bases testadas, os m´etodos propostos foram su-periores ao ELM tradicional de acordo com testes de hip´oteses pareados. No que diz respeito ao tempo de execuc¸˜ao, os algoritmos propostos acrescentaram um custo signi-ficativo em relac¸˜ao ao ELM tradicional pela natureza evolucion´aria dos mesmos, por´em tais custos s˜ao equivalentes aos das t´ecnicas evolucion´arias existentes na literatura (como o PSO-ELM e o GCPSO-ELM).

Como trabalhos futuros, uma maior investigac¸˜ao ser´a feita em relac¸˜ao `a influˆencia dos grupos populacionais no resultado da busca global realizada do enxame de part´ıculas. Tamb´em ser´a avaliada a influˆencia do operador de selec¸˜ao na promoc¸˜ao de iterac¸˜oes entre os diversos grupos populacionais.

Agradecimentos

Os autores gostariam de agradecer `as agˆencias brasileiras CAPES, CNPq e FACEPE pelo suporte financeiro.

References

Angeline, P. J. (1999). Using Selection to Improve Particle Swarm Optimization.

Proc.

IJCNN’99

, Washington, DC, 84-89.

Bartlett, P. L. (1998). The Sample Complexity of Pattern Classification with Neural Net-works: The Size of the Weights is More Important than the Size of the Network.

IEEE

Trans. Inform. Theory

, 44(2):525-536.

Carvalho, M. and Ludemir, T. B. (2006). An Analysis of PSO Hybrid Algorithms for Feed-Forward Neural Networks Training.

Proceedings of the Ninth Brazilian

Sym-posium on Neural Networks SBRN06

, 6-11.

Eiben, E. and Smith, J. E. (2003). Introduction to Evolutionary Computing.

Natural

Computing Series

, MIT Press, Springer, Berlin.

Frank, A. and Asuncion, A. (2012). UCI Machine Learning Repository.

Univ.

California,

Sch. Inform. Comput. Sci.

, Irvine, CA,[Online]. Available: http://archive.ics.uci.edu/ml.

(11)

Glover, F. (1986). Future Paths for Integer Programming and Links to Artificial Intelli-gence.

Computers and Operation Research

, 13:533-549.

Haykin, S. (1998). Neural Networks: A Comprehensive Foundation.

Prentice Hall

, 2nd Edition, 1998.

He, S., Wu, H. and Saunders, J. R. (2009). Group Search Optimizer: An Optimization Algorithm Inspired by Animal Searching Behaviour

IEEE Transactions on

Evolu-tionary Computation

, 13(5):973-990.

Huang, G. B., Zhu Q. Y. and Siew, C. K. (2006). Extreme Learning Machine: Theory and Applications.

Neurocomputing

, 4:489-501.

Kennedy, J. and Eberhart, R. (1995). Particle Swarm Optimization.

Proc. IEEE Intl.

Conf. on Neural Networks (Perth, Australia)

, IEEE Service Center, Piscataway, NY, 4:1942-1948.

Kennedy, J. (2000). Stereotyping: Improving Particle Swarm Performance With Cluster Analysis.

Proc. 2000 Cong. Evolutionary Computing - CEC’2000

, 1507-1512. Kennedy, J. and Eberhart, R. (2001). Swarm Intelligence.

Morgan Kaufmann

Publish-ers, Inc

, San Francisco, CA.

Kirkpatrick, S., Gellat Jr., C. D. and Vecchi, M. P. (1983). Optimization by Simulated Annealing.

Science

, 220:671-680.

MacQueen, J. (1967). Some methods for classification and analysis of multivariate ob-servations.

Proc. of the Fifth Berkeley Symposium on Math., Stat. and Prob.

, 1:281-296.

Saraswathi, S., Sundaram, S., Sundararajan, N., Zimmermann, M. and Nilsen-Hamilton, M. (2011). ICGA-PSO-ELM Approach for Accurate Multiclass Cancer Classifica-tion Resulting in Reduced Gene Sets in Which Genes Encoding Secreted Proteins Are Highly Represented.

IEEE Transactions on Computational Biology and

Bioinfor-matics

, 8(2):452-463.

Silva, D. N.G., Pacifico, L. D. S., Ludermir, T. B. (2011). An Evolutionary Extreme Learning Machine Based on Group Search Optimization.

Proc. 2011 Cong.

Evolu-tionary Computing - CEC’2011

, 2297-2304.

Silva, D. N.G., Pacifico, L. D. S., Ludermir, T. B. (2011). Extreme Learning Machine Baseada em PSO Cooperativos.

10th Brazilian Congress on Computational

Intel-ligence (CBIC2011)

.

Xu, Y. and Shu, Y. (2006). Evolutionary Extreme Learning Machine - Based on Particle Swarm Optimization. In Advances in Neural Networks - ISNN 2006,

Lecture Notes

in Computer Science

, 3971:644-652.

Zhu, Q. Y., Qin, A. K., Suganthan, P. N. and Huang, G. B. (2005). Evolutionary Extreme Learning Machine.

Pattern Recognition

, 38:1759-1763.

Referências

Documentos relacionados

Ao escrever Histórias da velha Totônia (1936), José Lins do Rego buscou recontar as histórias que ouvira quando criança por uma velha senhora que andava de engenho a

Quando você cria um novo domínio de classe de serviço e especificar as suas entidades no novo domínio, o framework RIA Services cria automaticamente um método de consulta para cada

Fazemos sempre o nosso melhor para superar as expetativas dos nossos clientes e por todos estes motivos construímos uma relação duradoura com todos os nossos clientes....

Não será concedido trancamento de matrícula durante o primeiro semestre do curso ou durante a vigência de prorrogação de prazo para a conclusão de

Esse é o tempo que pode determinar a vida ou a morte de um paciente que aguarda na fila para receber o órgão.. Segundo o Conselho Regional de Me- dicina do Estado de São Paulo,

No prazo de 10 dias contada da deliberação, para os condóminos presentes, ou contada da sua comunicação, para os condómino ausentes, pode ser exigida ao administrador a convocação

[fonte: Wikipedia]

O PROGRAMA AGENTES LOCAIS DE INOVAÇÃO, por este Edital, torna público a Retificação do Edital 03/2011, a Lista de Convocados para Realização das Dinâmicas de Grupo e