Melhorando Redes Neurais do Tipo Extreme Learning Machine Através da Otimização por Enxame de Partículas com Mecanismo de Seleção

(1)

Melhorando Redes Neurais do Tipo Extreme Learning

Machine Através da Otimização por Enxame de Part´ıculas

com Mecanismo de Selec¸˜ao

Luciano D. S. Pac´ıfico1, Teresa B. Ludermir1

1_{Centro de Inform´atica – Universidade Federal de Pernambuco (UFPE)}

Av. Jornalista Anibal Fernandes, s/n, 50.740-560 - Recife - PE - Brazil

{ldsp,tbl}@cin.ufpe.br

Abstract. Extreme learning machine (ELM) is a Single Hidden Layer Feedfor-ward Neural Networks (SLFNs) training strategy much faster than traditional gradient-based learning approaches. However, random determination of the input weights and hidden biases performed by ELM may lead to non-optimal performance. In this paper, two new hybrid approaches are proposed based on improved Particle Swarm Optimization (PSO) strategies to select input weights and hidden biases for ELM algorithm. Experimental results show that the pro-posed methods are able to achieve better generalization performance than tra-ditional ELM in real datasets.

Resumo. Extreme Leaning Machine (ELM) é uma estratégia de treinamento para redes neurais feedfoward de única camada escondida (SLFNs) bem mais rápida que as abordagens de treinamento tradicionais baseadas no gradiente. Contudo, a determinação aleatória dos pesos de entrada e bias da camada oculta executada pela ELM pode levar a uma performance não ótima. Neste artigo, duas novas abordagens h´ıbridas são propostas baseadas em estratégias de Otimização por Enxame de Part´ıculas (PSO) melhoradas a fim de otimizar a seleção de pesos de entrada e bias da camada oculta para o algoritmo ELM. Os resultados experimentais mostram que essas abordagens são capazes de con-seguir uma melhor generalização que o ELM tradicional em dados reais.

1. Introduc¸˜ao

Redes Neurais Artificiais (Artificial Neural Networks, ou ANNs) são ferramentas de mo-delagem computacional inspiradas no funcionamento do sistema nervoso humano que têm encontrado grande uso em diversas aplicações do mundo real. As ANNs são constitu´ıdas de unidades de processamento simples (neurônios), que encontram-se interconectadas, sendo o conhecimento destes modelos representado através dos pesos entre as conexões de seus neurônios (pesos sinápticos) [Haykin 1998]. Tais redes apresentam como carac-ter´ısticas a adaptabilidade, capacidade de aprendizagem através de exemplos e a capaci-dade de organizar ou generalizar dados.

Os algoritmos tradicionais para o treinamento de redes neurais artificiais basea-dos no gradiente são geralmente lentos no seu processo de aprendizagem e podem ficar presos em m´ınimos locais facilmente. Com o intuito de tornar o processo de treina-mento ANNs mais rápido, um novo método foi proposto: o algoritmo Extreme Learning Machine (ELM) [Huang et al. 2006]. O Extreme Learning Machine é uma técnica de

(2)

aprendizado proposta para o treinamento de redes neurais feedfoward de única camada oculta (Single Hidden Layer Feedforward Neural Networks, ou SLFNs) que aumenta a velocidade de aprendizado através da geração aleatória dos pesos de entrada e dos bias da camada oculta. Embora o ELM seja rápido e apresente boa generalização dos dados, o processo adotado de seleção dos pesos de entrada e dos bias da camada oculta pode levar a escolha de valores não ótimos destes parâmetros.

Métodos de busca mais complexos, como o algoritmo de Têmpera Simulada (Si-mulated Annealing, ou SA) [Kirkpatrick et al. 1983], a Busca Tabu (Tabu Search, ou TS) [Glover 1986] e os Algoritmos Evolucionários (Evolutionary Algorithms, ou EAs), são conhecidos como métodos de otimização estocástica que podem explorar o espaço de soluções de forma flex´ıvel e eficiente, sendo usados no contexto de redes neurais artificiais para tarefas como o treinamento dos pesos entre as conexões, inicialização desses pesos, otimização da arquitetura, etc.

Neste artigo, duas novas propostas h´ıbridas serão apresentadas baseadas na técnica de Otimização por Enxame de Part´ıculas (Particle Swarm Optimization, ou PSO) [Kennedy and Eberhart 1995] [Kennedy and Eberhart 2001], para a escolha dos pesos de entrada e dos bias da camada oculta do ELM: CSPSO-ELM e CSGCPSO-ELM. Am-bas as técnicas se Am-baseiam na formação de grupos entre os indiv´ıduos da população, de forma que indiv´ıduos pertencentes a um mesmo grupo realizem buscas no espaço do pro-blema na direção de um ótimo em particular [Kennedy 2000], levando em consideração o centro desse grupo para guiar seus movimentos. Também foi aplicado um operador de seleção baseado na ideia apresentada em [Angeline 1999]. O CSGCPSO-ELM faz uso ainda da her´ıstica de convergência garantida (Guaranteed Convergence, ou GC) para o PSO [Carvalho and Ludermir 2006].

Algumas estratégias evolutivas têm sido adotadas para o contexto do ELM. [Zhu et al. 2005] apresenta uma forma h´ıbrida do algoritmo de Evolução Diferencial (Dif-ferential Evolution, ou DE) e ELM, chamado E-ELM para treinar SLFNs com redes mais compactas e com um mecanismo para evitar o overfitting, tendo sido uma das primeiras abordagens a combinar o ELM com uma técnica evolucionária. [Xu and Shu 2006] a-presentaram um novo ELM evolutivo baseado em PSO para a tarefa de predição, tendo apresentado também três abordagens para o tratamento dos indiv´ıduos que escapam do espaço de busca do problema. Em [Saraswathi et al. 2011], uma combinação de Algo-ritmo Genético [Eiben and Smith 2003] com Codificação Inteira (Integer Coded Genetic Algorithm, ou ICGA) e PSO, juntamente com a ELM foi utilizado para a seleção de genes e classificação do câncer. Em [Silva et al. 2011a], o ELM foi combinado com o método de Otimização por Busca em Grupo (Group Search Optimization, ou GSO) [He et al. 2009], tendo sido realizadas quatro formas diferentes para o tratamento dos indiv´ıduos que es-capam do espaço de busca do problema. Em [Silva et al. 2011b] o ELM foi combinado com versões cooperativas do PSO baseadas na divisão do espaço de busca. Embora neste último trabalho tenha havido a preocupação no estudo de grupos populacionais locais, cada grupo preocupava-se apenas com a melhoria do conjunto de variáveis ao qual o mesmo era responsável, visando dar sua contribuição para o encontro de um único valor ótimo global, seguindo a estratégia de dividir para conquistar. No presente trabalho, cada grupo visa o encontro de um ótimo local particular, com o intuito de explorar diferentes regiões do espaço de busca de forma mais eficiente.

(3)

Este artigo está organizado da seguinte forma: na próxima seção (Seção 2) serão apresentadas as técnicas do ELM, o PSO, e sua versão com convergência garantida; em seguida, os métodos propostos serão melhor detalhados (Seção 3); por fim, os resultados experimentais serão discutidos (Seção 4) e as conclusões apresentadas (Seção 5).

2. Preliminares

2.1. Extreme Learning Machine

Partindo-se do pressuposto que estamos treinando SLFNs com K neurônios ocultos e função de ativação g(x) para aprender N amostras distintas (xi, ti), onde xi =

[xi1, xi2, ..., xin]T ∈ <n e ti = [ti1, ti2, ..., tim]T ∈ <m. No ELM, os pesos de entrada

e bias ocultos são gerados aleatoriamente. Ao fazer isso, o sistema não-linear é conver-tido para um sistema linear:

Hβ = T

onde H = hij (i = 1, ..., N e j = 1, ..., K) ´e a matriz de sa´ıda da camada oculta,

hij = g(wj · xi + bj) indica a sa´ıda do j-´esimo neurˆonio oculto no que diz respeito a

xi; wj = [wj1, wj2, ..., wjn]T é o vetor de pesos das conexões do j-ésimo neurônio oculto

com os neurônios de entrada, e bj denota a bias do j-ésimo neurônio oculto; wj · xi

de-nota o produto interno do wj e xi; β = [β1, β2, ..., βK]T ´e a matriz pesos de sa´ıda e βj =

[βj1, βj2, ..., βjm]T(j = 1, ..., K) denota o vetor de pesos conectando o j-´esimo neurˆonio

oculto e os neurˆonios de sa´ıda; T = [t1, t2, ..., tn]T ´e a matriz de metas (sa´ıdas desejadas).

Assim, a determinação dos pesos de sa´ıda (que ligam a camada de nós ocultos à camada de sa´ıda) passa a ser definida simplesmente como a solução de m´ınimos quadra-dos (Least-Squares, ou LS) para o sistema linear apresentado. A norma m´ınima quadra-dos m´ınimos quadrados que é solução para o sistema linear é dada por:

ˆ

β = H†T

onde H† é a matriz pseudo-inversa generalizada de H. A norma m´ınima dos m´ınimos quadrados da solução é única e tem a menor norma entre todas as soluções LS. Devido ao uso da matriz pseudo-inversa para o cálculo dos pesos da camada de sa´ıda, o ELM tende a obter um bom desempenho de generalização com o aumento na velocidade de aprendizagem [Huang et al. 2006].

2.2. Otimizac¸˜ao por Enxame de Part´ıculas (PSO)

A técnica de otimização PSO foi introduzida por [Kennedy and Eberhart 1995] como uma busca estocástica por meio de um problema de espaço n-dimensional, tendo em vista a minimização (ou maximização) da função objetivo do problema. O PSO foi constru´ıdo através da tentativa de simular graficamente a coreografia de um bando de pássaros que voam em busca de recursos. Mais tarde, à procura de fundamentos teóricos, estudos foram realizados sobre a maneira como os indiv´ıduos interagem em grupos, trocando informações e revendo conceitos pessoais para melhorar a sua adaptação ao ambiente [Kennedy and Eberhart 2001].

No PSO, um enxame de s soluções (part´ıculas) é mantido. Cada part´ıcula indivi-dual mantém a sua posição, velocidade e melhor posição alcançada até o momento. Com

(4)

as iterações do algoritmo, a velocidade de cada part´ıcula é determinada de acordo com os dois principais pontos de referência da pesquisa: a melhor posição individual visitada até o momento yi(t) e a melhor posição global visitada até agora ˆy(t). As equações (1) e (2)

descrevem, respectivamente, como a nova velocidade e a nova posição de uma part´ıcula são determinadas:

vij(t + 1) = wvij(t) + c1r1(yij − xij) + c2r2(ˆyj − xij) (1)

xij(t + 1) = xij(t) + vij(t + 1) (2)

1 ≤ i ≤ s, 1 ≤ j ≤ n

onde w é o peso de inércia escalar (termo momentum geralmente no intervalo [0.4, 0.9]), os valores r1e r2são variáveis aleatórias retiradas de uma distribuição uniforme U (0, 1),

e os valores 0 ≤ c1, c2 ≤ 2 são coeficientes de aceleração individual e global,

respec-tivamente, normalmente definidos como valores iguais, mas as vezes valores diferentes para c1 e c2 levam a um melhor desempenho [Carvalho and Ludermir 2006]. A melhor

posição individual visitada até o momento yi(t) é atualizada de acordo com a equação (3),

enquanto a melhor posição global visitada até o momento ˆy(t) é atualizada por meio da equação (4). y_i(t + 1) = xi(t + 1), sef (xi(t + 1)) < f (yi(t)) (3) = y_i(t), senão. ˆ y(t + 1) = argmin yi(t+1) f (y_i(t + 1)) (4) 1 ≤ i ≤ s 2.3. PSO com Convergência Garantida (GCPSO)

O PSO padr˜ao tem uma propriedade que se xi = yi = ˆyi, o que significa que a

part´ıcula i está situada no melhor ponto do espaço de busca encontrado até o mo-mento, então a equação de atualização da velocidade (equação 1) é totalmente depen-dente do termo de inércia wvi(t). Se a velocidade anterior da part´ıcula é muito próxima

a zero, há um indicativo de que a part´ıcula vai parar de se mover, atraindo as demais part´ıculas a esse ponto e causando a convergência prematura do enxame. Uma pequena modificação no PSO padrão é feita pelo algoritmo de convergência garantida (GCPSO) [Carvalho and Ludermir 2006] para lidar com este problema. A ideia é modificar a equação de atualização da velocidade só para as part´ıculas que atingiram o ponto mais global do espaço de busca para evitar a convergência prematura do enxame e, ao mesmo tempo, procurar as melhores soluções nos arredores da atual melhor posição global ˆy. A nova equação utilizada é representada pela equação (5) em que i é o ´ındice de uma part´ıcula que alcançou a melhor posição atual do enxame e r(t) é um número aleatório uniforme tomado a partir de U (0, 1). As outras part´ıculas do enxame continuam a usar a equação de atualização padrão da velocidade, ou seja, a equação (1).

(5)

O termo ρ(t) da equação é um fator de escala de adaptação que faz o PSO executar uma busca aleatória em torno da melhor part´ıcula global do enxame. O próximo valor ρ(t) é determinado pela equação (6), em que ]sucessos e ]f racassos denotados pelo número de sucessos e fracassos consecutivos da busca em minimizar a função objetivo, e sc e

fc s˜ao parˆametros de limites com valores iniciais geralmente iguais a 5. Sempre que o

contador dos ]sucessos ultrapassa o limiar de sucesso, significa que a área circundante a melhor posição poderá ser ampliada levando à duplicação do valor ρ(t). Da mesma forma, quando o contador de ]f racassos exceder o limite de falhas, isso significa que a área circundante a melhor posição global é muito grande e precisa ser reduzida, como pode ser visto na equação (6).

ρ(t + 1) = 2ρ(t), se]sucessos ≥ sc

= 0.5ρ(t), se]f racassos ≥ fc (6)

= ρ(t), sen˜ao.

Toda vez que os contadores de sucessos ou fracassos ultrapassarem seus limites correspondentes, o limiar excedido é aumentado. A cada iteração que a busca consegue minimizar a melhor posição atual, o contador de ]sucessos é incrementado e contador ]f racassos é reposto a zero. Da mesma forma, a cada iteração que a melhor posição global ˆy(t) não é atualizada, o contador ]f racassos é incrementado e o contador de ]sucessos é reduzido a zero.

3. M´etodos Propostos

Nesta seção, duas novas propostas h´ıbridas serão apresentadas baseadas na técnica de Otimização por Enxame de Part´ıculas [Kennedy and Eberhart 1995] [Kennedy and Eberhart 2001], para a escolha dos pesos de entrada e dos bias da camada oculta do ELM: CSPSO-ELM e o CSGCPSO-ELM. Essas abordagens fazem uso do con-ceito de estereotipação dos indiv´ıduos da população [Kennedy 2000] em diferentes gru-pos, de forma que cada grupo execute buscas na direção de uma solução ótima espec´ıfica. Os grupos populacionais irão realizar a atualização de suas posições e velocidades levando em consideração suas relações internas.

O algoritmo de agrupamento escolhido foi o Hard K-Means tradicional [MacQueen 1967], sendo o mesmo executado apenas durante um número limitado de vezes, de forma que as part´ıculas do enxame foram distribu´ıdas em grupos não necessaria-mente ótimos. Para que a etapa de agrupamento não fosse responsável por altas demandas computacionais, optou-se pela formação de agrupamentos apenas quando da mudança de uma das melhores posições locais alcançadas por um dos indiv´ıduos [Kennedy 2000].

Para as abordagens em questão, o termo correspondente à melhor posição local encontrada yi(t) até o momento é substitu´ıdo pelo centro gcdo grupo C ao qual a part´ıcula

xiest´a relacionada:

vij(t + 1) = wvij(t) + c1r1(gcj− xij) + c2r2(ˆyj− xij) (7)

A heur´ıstica de convergˆencia garantida [Carvalho and Ludermir 2006] foi apli-cada ao m´etodo CSGCPSO-ELM de forma a evitar que o enxame pare prematuramente em um ponto de m´ınimo local.

(6)

Na tentativa de melhorar o desempenho dos métodos propostos, foi utilizado um operador de seleção, inspirado no operador de seleção apresentado em [Angeline 1999]. O operador de seleção utilizado executa da seguinte forma: após a execução do PSO, os indiv´ıduos são ordenados de acordo com o valor de sua função de f itness; após a ordenação, a melhor metade da população é usada para substituir os valores da posição atual e velocidade dos indiv´ıduos da pior metade, sendo a posição atual e velocidade do melhor indiv´ıduo usadas para substituir a posição atual e a velocidade do pior indiv´ıduo, a posição atual e velocidade do segundo melhor indiv´ıduo usadas para substituir a posição atual e a velocidade do segundo pior indiv´ıduo, etc. As melhores posições encontradas por cada indiv´ıduo são preservadas.

A inversa generalizada Moore-Penrose (MP) ´e usada para obter os pesos de sa´ıda, como no ELM tradicional [Huang et al. 2006].

Para todos os algoritmos, o enxame inicial ´e gerado aleatoriamente. Cada part´ıcula i no enxame ´e composta por um conjunto de pesos de entrada e bias ocultos:

xi = [w11, w12, ..., w1K, w21, w22, ..., wn1, wn2, ..., wnK, ..., b1, b2, ..., bK]

Todos wij e bj s˜ao inicializados aleatoriamente dentro do intervalo de [−1, 1].

Para cada indiv´ıduo, os pesos de sa´ıda correspondente da matriz são calculados usando a inversa generalizada MP. A função de fitness adotada é a raiz do erro médio quadrado (RMSE) do conjunto de validação [Zhu et al. 2005]:

E = s PN j=1 k PK i=1βig(wi· xj + bi) − tj k22 mXN (8)

Os métodos propostos são executados de acordo com os seguintes passos: 1) Inicialização:

Fixe o número de grupos C; Fixe o número de iterações do algoritmo de agrupa-mento M axIterClust;

Fixe o tamanho do enxame s; Fixe o número máximo de iterações do PSO M axIter; t = 0;

Inicialize a populac¸˜ao aleatoriamente;

Escolha C indiv´ıduos da populac¸˜ao aleatoriamente como os centros iniciais dos grupos;

Para o caso do CSGCPSO-ELM, inicialize ρ0, sc e fc; Fac¸a ]sucessos = 0 e

]f racassos = 0;

2) Formac¸˜ao dos Agrupamentos:

Execute o algoritmo Hard K-Means sobre a população do PSO por M axIterClust iterações, formando os novos grupos populacionais;

3) Avaliação da População:

Para cada part´ıcula i da população, avalie sua função de f itnessf (xi(t)) como o

RMSE obtido pelo conjunto de validação do ELM (equação (8));

Atualize as melhores posições locais yi(t + 1) encontradas até o momento e a

melhor posição global encontrada até o momento ˆy(t + 1), de acordo com as equações (3) e (4), respectivamente;

(7)

4) Atualização das Posições e Velocidades:

Atualize as velocidades de cada part´ıcula do enxame de acordo com a equação (7); para o caso do CSGCPSO-ELM, a melhor part´ıcula global encontrada até o momento será de atualizada de acordo com a equação (5);

Atualize a posição de cada part´ıcula de acordo com a equação (2);

5) Atualização dos Parâmetros da Convergência Garantida (apenas CSGCPSO-ELM):

Atualize ρ de acordo com a equac¸˜ao (6), e ]sucessos, ]f racassos, sc e fc, se

necessário; 6) Seleção:

Ordene os indiv´ıduos da população de acordo com o valor da função de f itness; Substitua a posição atual xi(t + 1) e a velocidade atual vi(t + 1) do pior indiv´ıduo

de acordo com a função de f itness pela velocidade e posição atuais do melhor indiv´ıduo do enxame;

Substitua a velocidade e posição atuais do segundo pior indiv´ıduo pela velocidade e posição atuais do segundo melhor indiv´ıduo;

Repita este processo at´e que a pior metade do enxame tenha sido sobreposta pela melhor metade;

7) Crit´erio de Parada: Fac¸a t = t + 1;

Se t = M axIter ou f (ˆy(t)) ≤ 0 pare; senão, se houve mudança em algum yi(t + 1), vá para 2; caso contrário, vá para 3;

4. Resultados Experimentais

Nesta seção, comparamos o ELM tradicional com o Levenberg-Marquardt Back-propagation (BP-LM), que é uma das mais rápidas implementações do algoritmo Backpropagation, o PSO-ELM [Xu and Shu 2006], o GCPSO-ELM [Silva et al. 2011b] e as duas novas variantes h´ıbridas propostas: o CSPSO-ELM e o CSGCPSO-ELM. Todos os experimentos foram executados no ambiente MATLAB 6.0. O algoritmo BP-LM é fornecido pelo toolbox de Redes Neurais do MATLAB. Para avaliar estes algoritmos, seis conjuntos de dados de classificação de referência (coração, diabetes, ecoli, iris, vidros e vinhos), obtidos a partir da UCI Machine Learning Repository [Frank and Asuncion - Online] foram usadas. Estes conjuntos de dados apresentam dife-rentes graus de dificuldade e difedife-rentes números de classes. As métricas de avaliação utilizadas são a análise emp´ırica e o teste de hipóteses do tipo t-test pareado (95% de confiança). Nos experimentos, todas as entradas (atributos) foram normalizadas no inter-valo [0, 1], enquanto as sa´ıdas foram normalizadas em [−1, 1]. Os pesos de entrada e os bias foram obtidos no intervalo [−1, 1]. O ELM utilizou a função de ativação sigmóide g(x) = 1/(1 + exp(−x)).

Os experimentos foram divididos em duas etapas: a primeira teve por objetivos a seleção do número K de nós escondidos do ELM, o número de iterações do PSO e o tamanho de sua população; após isso, os testes finais foram executados. Para BP-LM, o número máximo de épocas foi definido como 200. Os demais parâmetros das abordagens utilizadas foram obtidos através da literatura [Carvalho and Ludermir 2006], [Kennedy 2000] (Tabela 1).

(8)

Table 1. Lista de Par ˆemetros

Método Parâmetro Valor BP-LM Número de Épocas 200 ELM K 15 M axIter 100 s 50 PSO c1 2.0 c2 2.0 w 0.9 a 0.4 K-Means C 5 M axIterClust 5 ρ 1.0 GCPSO sc 5 fc 5

teste (Tabela 2). Para todos os algoritmos, 50 execuções independentes foram feitas com cada conjunto de dados. Os conjuntos de treinamento, validação e teste foram gerados aleatoriamente a cada tentativa da simulação. Para cada conjunto de dados, os resultados encontrados pela melhor abordagem estão em negrito.

Table 2. Especificac¸ ˜oes das bases de dados

Base de Dados Corac¸˜ao Diabetes Ecoli Iris Vidros Vinhos

Classes 2 2 8 3 6 3 Atributos 13 8 7 4 9 13 Treinamento 130 252 180 70 114 78 Validac¸˜ao 70 258 78 40 50 50 Testes 70 258 78 40 50 50 Total 270 768 336 150 214 178

Os resultados para cada uma das bases são exibidos na Tabela 3. Para a base de dados Coração, as abordagens baseadas no PSO com convergência garantida obtiveram resultados médios semelhantes em uma análise emp´ırica, porém o CSPSO-ELM foi o mais estável dentre os mesmos. De modo geral, em uma análise emp´ırica, os métodos propostos foram melhores que as demais abordagens para a maioria das bases de dados testadas, execeto pela base de Vinhos [Frank and Asuncion - Online], na qual o método GCPSO-ELM [Silva et al. 2011b] foi o melhor. Os testes de hipóteses (do tipo t-test pareado com 95% de confiança) apontaram que de modo geral, os métodos baseados no Extreme Learning Machineforam equivalentes entre si, tendo superado os resultados o BP-LM em todos os casos. O BP-LM apresentou alto grau de instabilidade para a maioria das bases de dados testadas. Para o caso da base Iris, o CSPSO-ELM obteve melhores resultados que o ELM, de acordo com o t-test pareado (95% de confiança). Da mesma forma, os testes de hipóteses realizados indicaram que o CSGCPSO-ELM foi melhor que o ELM para a base de dados Vidros.

No que diz respeito ao tempo de execução, houve um acréscimo significativo ao custo computacional das abordagens propostas em relação ao ELM tradicional, porém a

(9)

Table 3. Resultados obtidos para cada uma das bases de dados

Coração: Tempo de Treinamento (s) Acerto Médio de Teste Desvio Padrão

BP-LM 0.2959 68.6857 14.4994 ELM 0.00064 81.4571 4.2759 PSO-ELM 13.87432 81.3143 3.7613 GCPSO-ELM 13.44454 82.5714 3.6507 CSPSO-ELM 14.0736 82.5714 2.8862 CSGCPSO-ELM 14.45914 82.5714 4.3580

Diabetes: Tempo de Treinamento (s) Acerto M´edio de Teste Desvio Padr˜ao

Ecoli: Tempo de Treinamento (s) Acerto M´edio de Teste Desvio Padr˜ao

Iris: Tempo de Treinamento (s) Acerto M´edio de Teste Desvio Padr˜ao

Vidros: Tempo de Treinamento (s) Acerto M´edio de Teste Desvio Padr˜ao

Vinhos: Tempo de Treinamento (s) Acerto M´edio de Teste Desvio Padr˜ao

(10)

execução das técnicas propostas ocorreu em tempo semelhante às demais técnicas evolu-cionárias comparadas (Tabela 3).

5. Conclus˜oes

Neste artigo, duas novas abordagens h´ıbridas foram propostas para a melhoria dos pe-sos de entrada e dos bias da camada oculta do Extreme Learning Machine baseadas na técnica evolucionária de Otimização por Enxame de Part´ıculas (PSO): CSPSO-ELM e CSGCPSO-ELM. Tais abordagens baseam-se na estereotipação dos indiv´ıduos da população através da formação de grupos.

O desempenho dos métodos proposto foi avaliado fazendo-se uso de pro-blemas reais benchmark obtidos através do UCI Machine Learning Repository [Frank and Asuncion - Online]. Para a maioria das bases de dados testadas, as abor-dagens propostas obtiveram resultados superiores em uma análise emp´ırica aos encon-trados pelos métodos de comparação escolhidos: ELM tradicional [Huang et al. 2006], Levenberg-Marquardt Backpropagation, PSO-ELM [Xu and Shu 2006] e GCPSO-ELM [Silva et al. 2011b]. Para algumas das bases testadas, os métodos propostos foram su-periores ao ELM tradicional de acordo com testes de hipóteses pareados. No que diz respeito ao tempo de execução, os algoritmos propostos acrescentaram um custo signi-ficativo em relação ao ELM tradicional pela natureza evolucionária dos mesmos, porém tais custos são equivalentes aos das técnicas evolucionárias existentes na literatura (como o PSO-ELM e o GCPSO-ELM).

Como trabalhos futuros, uma maior investigação será feita em relação à influência dos grupos populacionais no resultado da busca global realizada do enxame de part´ıculas. Também será avaliada a influência do operador de seleção na promoção de iterações entre os diversos grupos populacionais.

Agradecimentos

Os autores gostariam de agradecer `as agˆencias brasileiras CAPES, CNPq e FACEPE pelo suporte financeiro.

References

Angeline, P. J. (1999). Using Selection to Improve Particle Swarm Optimization.

Proc.

IJCNN’99

, Washington, DC, 84-89.

Bartlett, P. L. (1998). The Sample Complexity of Pattern Classification with Neural Net-works: The Size of the Weights is More Important than the Size of the Network.

IEEE

Trans. Inform. Theory

, 44(2):525-536.

Carvalho, M. and Ludemir, T. B. (2006). An Analysis of PSO Hybrid Algorithms for Feed-Forward Neural Networks Training.

Proceedings of the Ninth Brazilian

Sym-posium on Neural Networks SBRN06

, 6-11.

Eiben, E. and Smith, J. E. (2003). Introduction to Evolutionary Computing.

Natural

Computing Series

, MIT Press, Springer, Berlin.

Frank, A. and Asuncion, A. (2012). UCI Machine Learning Repository.

Univ.

California,

Sch. Inform. Comput. Sci.

, Irvine, CA,[Online]. Available: http://archive.ics.uci.edu/ml.

(11)

Glover, F. (1986). Future Paths for Integer Programming and Links to Artificial Intelli-gence.

Computers and Operation Research

, 13:533-549.

Haykin, S. (1998). Neural Networks: A Comprehensive Foundation.

Prentice Hall

, 2nd Edition, 1998.

He, S., Wu, H. and Saunders, J. R. (2009). Group Search Optimizer: An Optimization Algorithm Inspired by Animal Searching Behaviour

IEEE Transactions on

Evolu-tionary Computation

, 13(5):973-990.

Huang, G. B., Zhu Q. Y. and Siew, C. K. (2006). Extreme Learning Machine: Theory and Applications.

Neurocomputing

, 4:489-501.

Kennedy, J. and Eberhart, R. (1995). Particle Swarm Optimization.

Proc. IEEE Intl.

Conf. on Neural Networks (Perth, Australia)

, IEEE Service Center, Piscataway, NY, 4:1942-1948.

Kennedy, J. (2000). Stereotyping: Improving Particle Swarm Performance With Cluster Analysis.

Proc. 2000 Cong. Evolutionary Computing - CEC’2000

, 1507-1512. Kennedy, J. and Eberhart, R. (2001). Swarm Intelligence.

Morgan Kaufmann

Publish-ers, Inc

, San Francisco, CA.

Kirkpatrick, S., Gellat Jr., C. D. and Vecchi, M. P. (1983). Optimization by Simulated Annealing.

Science

, 220:671-680.

MacQueen, J. (1967). Some methods for classification and analysis of multivariate ob-servations.

Proc. of the Fifth Berkeley Symposium on Math., Stat. and Prob.

, 1:281-296.

Saraswathi, S., Sundaram, S., Sundararajan, N., Zimmermann, M. and Nilsen-Hamilton, M. (2011). ICGA-PSO-ELM Approach for Accurate Multiclass Cancer Classifica-tion Resulting in Reduced Gene Sets in Which Genes Encoding Secreted Proteins Are Highly Represented.

IEEE Transactions on Computational Biology and

Bioinfor-matics

, 8(2):452-463.

Silva, D. N.G., Pacifico, L. D. S., Ludermir, T. B. (2011). An Evolutionary Extreme Learning Machine Based on Group Search Optimization.

Proc. 2011 Cong.

Evolu-tionary Computing - CEC’2011

, 2297-2304.

Silva, D. N.G., Pacifico, L. D. S., Ludermir, T. B. (2011). Extreme Learning Machine Baseada em PSO Cooperativos.

10th Brazilian Congress on Computational

Intel-ligence (CBIC2011)

.

Xu, Y. and Shu, Y. (2006). Evolutionary Extreme Learning Machine - Based on Particle Swarm Optimization. In Advances in Neural Networks - ISNN 2006,

Lecture Notes

in Computer Science

, 3971:644-652.

Zhu, Q. Y., Qin, A. K., Suganthan, P. N. and Huang, G. B. (2005). Evolutionary Extreme Learning Machine.

Pattern Recognition

, 38:1759-1763.