Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014

(1)

SELE ¸C ÃO DE N ÚMERO DE NEUR ÔNIOS DE ELMS BASEADA EM DECOMPOSI ¸C ÃO DE VALORES SINGULARES TRUNCADO

L. D. Tavares∗, R. R. Saldanha∗, D. A. G. Vieira†

∗_{Programa de P´}_os-Gradua¸_c˜_{ao em Engenharia El´}_{etrica - Universidade Federal de Minas Gerais}

Av. Antˆonio Carlos 6627, 31270-901, Belo Horizonte, MG, Brasil

†_{Rua Professor Jos´}_{e Vieira de Mendon¸}_{ca, 770}

Parque Tecnol´ogico de Belo Horizonte Belo Horizonte, MG, 31310-260, Brasil

Emails: tavares@dcc.ufmg.br, rodney@cpdee.ufmg.br, douglas.vieira@enacom.com.br

Abstract— The Extreme Learning Machine (ELM) is a recent training method for feedforward neural net-works. Its main advantage is a faster and simpler training procedure when it is compared with traditional global search optimization methods. It is achieved by using the least square solution for the output layer and random initialization for hidden layer. In this way, only one solution is attained. Anyway, selecting the number of hidden neurons is still an open problem, and, in most cases, the choice is made empirically. This paper presents a simple technique based on singular value decomposition (SVD) which is able to indicate the number of neurons in the hidden layer that favors low training error and the low complexity of the machine.

Keywords— Extreme Learning Machine, Singular Value Decomposition, Hidden layer neurons

Resumo— A Máquina de Aprendizagem Extrema (Extreme Learning Machine - ELM) é uma técnica recente de treinamento para redes neurais de única camada. Sua principal vantagem é seu rápido e simples processo de treinamento quando comparado aos tradicionais métodos de otimiza¸cão. Isto é obtido utilizando solu¸cões por quadrados m´ınimos para os pesos da camada de sa´ıda e inicializando de maneira aleatória os pesos dos neurônios da camada oculta. De qualquer forma, a sele¸cão do número de neurônios da camada escondida continua sendo um problema em aberto, sendo que, na maior parte dos casos, a escolha se dá de forma emp´ırica. O presente trabalho apresenta uma técnica simples baseada em decomposi¸cão em valores singulares (SVD) que é capaz de indicar o número de neurônios da camada escondida que favore¸ca o baixo erro de treinamento e a baixa complexidade da máquina.

Palavras-chave— Máquina de Aprendizagem Extrema, Decomposi¸cão em Valores Singulares, Neurônios na camada oculta

1 Introdu¸c˜ao

Desde o trabalho pioneiro de Huang et al. (Huang et al., 2004) (Huang et al., 2006) e (Huang et al., 2011), a Máquina de Aprendizagem Ex-trema (Extreme Learning Machine - ELM) tem sido amplamente discutida e utilizada em diver-sas áreas. A ELM é um método de aprendiza-gem de máquina que simplifica as etapas de ini-cializa¸cão e treinamento para redes neurais de ´

unica camada (Single Layer Feedforward Neural Network - SLFN). A ELM se diferencia dos m´ e-todos tradicionais de aprendizagem por selecio-nar de forma aleatória os pesos dos neurônios da camada oculta e, posteriormente, determinar de forma anal´ıtica, utilizando o método de quadra-dos m´ınimos, os pesos da camada de sa´ıda. Além disso, não há a necessidade de algoritmos baseados em gradiente descendente, como, por exemplo, o algoritmo de retropropaga¸cão ou qualquer outro método de busca global. A capacidade de uma SLFN ser um aproximador universal de fun¸cões foi provada em 1989 por Cybenco(Cybenko, 1989) and Funahashi(Funahashi, 1989). Recentemente, Huang and Babri (Huang and Babri, 1998) de-monstraram a sua capacidade máxima de apren-dizagem.

Dentre as principais vantagens da ELM, destacam-se: o treinamento é extremamente r´ a-pido (quando comparado com os métodos tra-dicionais de aprendizagem), requer um número menor de parâmetros para ser ajustado e o re-sultado apresenta uma boa generaliza¸cão (Huang et al., 2012). A ELM tem sido utilizada em di-versas aplica¸cões, como: predi¸cão de séries tem-porais (Singh and Balasundaram, 2007), classifi-ca¸cão de texto (Liu et al., 2008), reconhecimento de padrões (Liang et al., 2006), sele¸cão de vari´ a-veis e caracter´ısticas (Mateo and Lendasse, 2008), entre outras. Uma lista de aplica¸cões e o estado da arte pode ser encontrado em (Rajesh and Par-kash, 2011).

O treinamento da ELM utiliza a abordagem de quadrados m´ınimos, que requer apenas simples manipula¸cões algébricas em matrizes, no entanto, ainda é necessário calcular no m´ınimo uma inversa (ou pseudo-inversa). Em (Horata et al., 2011) quatro métodos são comparados em termos de complexidade computacional, tempo de processa-mento e precisão, são eles: (i) equa¸cão normal, (ii) decomposi¸cão em valores singulares (SVD), (iii) pseudo-inversa Moore-Penrose e (iv) decomposi-¸cão QR. É importante ressaltar que o trabalho

(2)

não apresenta conclusão alguma relacionada à in-fluência do método de inversão com a capacidade de generaliza¸cão ou abordagem multiobjetivo.

Apesar de simplificar o processo de apren-dizagem, a escolha do número de neurônios da camada escondida ainda continua sendo um pro-blema aberto. Em (Lan et al., 2010) é apresentado um método que seleciona o subconjunto de neurˆ o-nios que possuam maior correla¸cão com o mape-amento entrada-sa´ıda apresentado durante a fase de treinamento. Os neurônios com menor corre-la¸cão são descartados. Já em (Mart´ınez-Mart´ınez et al., 2011) o número de neurônios é determinado a partir da regulariza¸cão l 1 e l 2 (conhecida como regulariza¸cão Elastic-net ). Nesse caso, dois parˆ a-metros de regulariza¸cão são necessários, sendo o primeiro para o termo linear (l 1) e o segundo para o não linear (l 2), através da norma euclidiana. A regulariza¸cão do termo linear é obtida através do método de pontos interiores.

Em ambos os trabalhos, é poss´ıvel se observar o enorme esfor¸co computacional necessário para se obter o número de neurônios ótimo. O presente trabalho demonstra que é poss´ıvel se encontrar o número de neurônios adequado para uma SLFNN de forma que seja fact´ıvel controlar a complexi-dade da máquina, medida através da norma dos pesos de sa´ıda, e o risco emp´ırico, medido através da raiz quadrada do erro quadrático médio (Root-Mean-Square Error - RMSE).

Dessa forma, o objetivo do presente trabalho é propor um método de determina¸cão de número de neurônios da camada oculta de uma ELM de forma a controlar, ao mesmo tempo, a complexi-dade e erro. Para isto será utilizada a Decom-posi¸cão em Valores Singulares Truncada (Trunca-ted Singular Value Decomposition - TSVD). Con-forme discutido em (Vieira et al., 2008), a apren-dizagem de máquina é um problema multiobjetivo onde deve existir um balan¸co entre o risco emp´ı-rico e a complexidade. Dessa forma, um conjunto de solu¸cões, chamado fronteira Pareto Ótimo, é desejado.

O restante do trabalho está organizado como se segue: a Se¸cão 2 apresenta os principais ele-mentos relacionados à ELM e sua rela¸cão com a SVD. Posteriormente, na Se¸cão 3 é apresentado o método proposto para determina¸cão do número ´

otimo de neurônios da camada oculta para uma ELM. O desempenho do método proposto é avali-ado na Se¸cão 4. Finalmente, na Se¸cão 5 são apre-sentadas as discussões e trabalhos futuros.

2 M´aquina de aprendizagem extrema -ELM

Considere um conjunto de N exemplos distintos na forma (xi, ti) onde xi = [xi1, xi2, . . . , xin]0 ∈

Rn s˜ao as entradas de um sistema real, com i = 1, 2, ...N , o s´ımbolo ap´ostrofo (0)

signi-fica a transposi¸c˜ao do vetor ou matriz, e ti =

[ti1, ti2, . . . , tim]0 ∈ Rm s˜ao as respostas reais (ou

desejadas) do sistema ou ambiente que se deseja aprender. Considere ainda h como o n´umero de neurˆonios na camada oculta e f (·) como a fun-¸

cão de ativa¸cão, uma rede neural de camada única (SLFN) é modelada conforme: oi= h X j=1 βjf (x0iwj+ bj), i = 1, 2, . . . , N (1) onde oi = [oi1, oi2, . . . , oim]0 ∈ Rm são as respostas encontradas pela SLFN, wj =

[wj1, wj2, . . . , wjh]0 ∈ Rh ´e o vetor de pesos que

conecta a entrada e os neurˆonios da camada es-condida, βj= [βj1, βj2, . . . , βjm]0∈ Rms˜ao os

pe-sos que conectam a camada escondida com a sa´ıda da SLFN, e bj é o limiar do j-ésimo neurônio da

camada escondida. ´

E poss´ıvel aproximar oi de ti para todos os

N exemplos, de forma que PN

i=1kti − oik = 0,

assumindo que existem parˆametros w o suficiente, de forma que: ti= h X j=1 βjf (x0iwj+ bj), i = 1, 2, . . . , N (2)

com erro m´edio zero.

Na forma matricial compacta temos:

Hβ = T (3) onde: H =    f (x0₁w1+ b1) . . . f (x0Nwh+ bh) .. . . . . ... f (x0₁w1+ b1) . . . f (x0Nwh+ bh)   ∈ R N ×h (4) β = [β1, . . . , βh]0 e T = [t1, . . . , tN]0 (5)

Conforme mencionado, a ELM inicia aleatori-amente os valores de w e b. Dessa forma, o obje-tivo ´e avaliar o valor de β de forma que:

min

β kT − Hβkp (6)

onde p indica o tipo de norma `a ser utilizada (1, 2, ∞, . . . ). Para p = 2 o valor de β pode ser encon-trado utilizando a solu¸c˜ao por quadrados m´ınimos, conforme:

ξ = (T − Hβ)0(T − Hβ)

= T0T − T0Hβ − H0β0T + H0β0Hβ (7) Resolvendo ∂ξ_∂β = 0 obt´em-se:

(3)

∂ξ ∂β = −(T 0_H)0_{− (H}0_{T) + (H}0_{H + H}0_H)β (8a) H0Hβ = H0T (8b) β = H+T (8c)

onde a equa¸cão (8b) é chamada de equa¸cão nor-mal, H+é a pseudoinversa de H.

´

E importante observar que a inversa de (H0H) pode não existir, uma vez que a matriz pode não ter rank completo ou alto número de condiciona-mento. Nesses casos, é poss´ıvel realizar uma apro-xima¸cão da inversa de H, sendo um dos métodos a SVD. A próxima se¸cão explicará, brevemente, o método para se obter a pseudoinversa.

2.1 Pseudoinversa usando SVD

Considere a matriz H ∈ RN ×h com rank H = r. Ent˜ao H pode ser fatorada como (Golub and Van Loan, 1996):

H = UΣV0 (9)

onde U ∈ RN ×N _´_{e uma matriz quadrada}

ortonor-mal chamada vetor singular esquerdo composta pelos autovetores de (HH0), Vh×h _´_{e uma}

ma-triz quadrada ortonormal chamada vetor singu-lar direito composto pelos autovetores de (H0H) e Σ = diag(σ1, . . . , σr) ∈ RN ×h onde σi s˜ao os

valores singulares composta pelos autovalores de (H0H) e (HH0), com σ1 ≥ σ2 ≥ . . . σr≥ 0. A Σ

é pseudo-diagonal uma vez que pode não ser qua-drada. Existem h valores singulares caso N > h e existem N valores singulares no caso contrário.

Através de uma simples manipula¸cão alg´ e-brica, é poss´ıvel se obter a pseudoinversa de H conforme:

H+= (UΣV0)+= VΣ−1U0 (10) onde Σ−1 = diag(1/σ1, . . . , 1/σr).

Conforme mencionado, a pseudoinversa de H pode n˜ao existir caso H seja singular ou mal-condicionada. Nesse caso, a pseudoinversa pode ser aproximada eliminando os valores singulares muito pequenos, como:

H+≈ V ˜Σ−1_α U0 (11) onde: ˜ Σ−1_α = 1/σi se σi> α

0 caso contrário ∀i = 1, 2, ..., r (12) onde α > 0 é um limiar escolhido pelo usuário,

˜

Σ−1_α é a inversa de Σ baseado no parâmetro α. Este tipo de opera¸cão é chamada de decomposi¸cão em valores singulares truncado (Truncated Singu-lar Value Decomposition - TSVD), uma vez que o processo elimina os valores pequenos e mantém os bons.

3 M´etodo proposto

O método TSVD pode ser visto como uma t´ ec-nica de redu¸cão de dimensão equivalente à análise de componentes principais (Principal Component Analysis - PCA) (Jackson, 2003). Dessa forma, é poss´ıvel analisar o espa¸co gerado pela camada oculta, de forma que estejam presentes apenas as componentes principais, de forma a favorecer os critérios de complexidade e erro desejados.

O método supõe que o espa¸co gerado pela ca-mada oculta seja inicialmente de alt´ıssima dimen-são, no entanto que algumas delas não são neces-sárias, podendo assim serem dispensadas. Apesar de ser um método de redu¸cão do espa¸co oculto, o mesmo princ´ıpio pode ser aplicado, sem perda de generaliza¸cão, na forma incremento.

Em sua forma incremental, o espa¸co gerado pela camada oculta é de baixa dimensão, e, a cada itera¸cão, são acrescentados neurônios ocultos até que os critérios de complexidade e erro estejam equilibrados. Esta segunda abordagem, no en-tanto, não está contemplada no presente trabalho. A se¸cão a seguir irá detalhar o método pro-posto.

3.1 Detalhamento do m´etodo

Considerando o caso N > h, onde existem h va-lores singulares, o m´etodo pode ser detalhado da seguinte forma: 1. [UΣV0] = svd(H) 2. Para cada i = h, h − 1, ..., 2, 1 (a) σi= 0 (b) β = V ˜Σ−1U0y (c) ye= UΣV0β (d) ri= rmse(t, ye) (e) ni = kβk2

onde ye ´e a resposta encontrada pela ELM,

rmse(·, ·) é a fun¸cão que calcula a raiz quadrada do erro quadrático médio entre a sa´ıda desejada t e a sa´ıda calculada ye, e k·k2é a norma euclidiana.

´

E poss´ıvel observar que o método proposto gera diversas solu¸cões. O conjunto de solu¸cões formado é chamado de solu¸cões Pareto. No caso não é necessário observar as solu¸cões dominadas e não dominadas, uma vez que a solu¸cão desejada é aquela que está mais próxima da origem.

Ao final do processo, deve ser gerada uma ma-triz na forma P = [r0, n0]. Como necessariamente os vetores r e n são formados por valores positi-vos, a matriz P também será. Considerando cada linha de P como o par de solu¸cão erro e norma, para selecionar a solu¸cão que equilibre os crit´ e-rios, basta encontrar o ´ındice da linha Pi do qual

(4)

h∗= minh(P) (13)

onde minh(·) ´e a fun¸c˜ao que retorna o ´ındice da

linha que possui a menor norma euclidiana da ma-triz P, e h∗ é o número de neurônios que favorece o equil´ıbrio entre complexidade e erro.

´

E poss´ıvel perceber também que o método proposto calcula as matrizes U e V0 apenas uma vez. Com isso é poss´ıvel mapear todas as solu¸cões pareto, baseadas simplesmente nos valores sigula-res do espa¸co oculto.

O m´etodo proposto, por utilizar a aborda-gem TSVD ser´a chamado, daqui em diante, de Truncated-Extreme Learning Machine (T-ELM).

4 Experimentos realizados

A presente Se¸cão avalia o desempenho do m´ e-todo proposto. Todas as simula¸cões foram realizadas no ambiente MATLAB versão 7.12 (R2011a), executados em um Intel(R) Core(TM) i3, 2.40GHz CPU, sob o sistema operacional Ubuntu 13.10. Em todos os casos, foi utilizada a fun¸cão de ativa¸cão, para os neurônios ocul-tos, do tipo log´ıstica sigmoide na forma g(x) = 1/(1 + exp(−x)). Um caso sintético e 10 ben-chmarks foram escolhidos para os experimen-tos. Os benchmarks foram selecionados da base UCI Machine Learning Repository(Bache and Li-chman, 2014), para a tarefa de regressão de da-dos. Todas as bases dos benchmarks tiveram sua entrada normalizada no intervalo [0, −1] (mesmo para caracter´ısticas discretas), e suas sa´ıdas nor-malizadas no intervalo [−1, 1].

Cada experimento foi executado 50 vezes, e o resultado apresentado representa a m´edia e o desvio padr˜ao.

4.1 Base artificial: aproxima¸cão da fun¸cão Sinc Neste experimento, o método proposto será utili-zado para aproximar a fun¸cão Sinc, amplamente utilizada na literatura para propósito de regressão, na forma: ti= sin(xi) xi xi6= 0 1 xi= 0 (14) As bases de treinamento e teste possuem 500 pontos cada uma, criados de forma aleatória em uma distribui¸cão uniforme no intervalo [−10, 10]. Um ru´ıdo com distribui¸cão normal, com média 0 e variância=0.1 foi adicionado em todos os pontos de sa´ıda. Para este experimento, a ELM possui, inicialmente 150 neurônios na camada oculta, es-colhido arbitrariamente.

As figuras de 1 a 4 apresentam o resultado do experimento para 1 realiza¸cão. A figura 1 apre-senta as solu¸cões Pareto encontradas. Em des-taque estão a solu¸cão inicial (ponto superior), a

solu¸cão encontrada pelo método proposto (ponto inferior esquerdo) e a solu¸cão onde há apenas 1 neurônio na camada escondida (ponto inferior di-reito). Vale a pena ressaltar que foram mapeados 150 solu¸cões e o tempo gasto para a gera¸cão de todas as solu¸cões foi de apenas 9.03 segundos, ou seja, aproximadamente 0.06 segundos por solu¸cão.

Figura 1: Solu¸cões Pareto geradas. O ponto supe-rior, em destaque, representa a solu¸cão encontrada para a ELM que possui 150 neurônios na camada escondida, o ponto inferior esquerdo, em destaque, representa a solu¸cão encontrada para a ELM que possui 38 neurônios na camada escondida, e, final-mente, o ponto inferior direito, a solu¸cão encon-trada para a ELM que possui 1 neurônio apenas na camada escondida.

A figura 2 apresenta a solu¸c˜ao para a ELM que possui os 150 neurˆonios na camada escondida. ´

E poss´ıvel perceber, neste caso, que o resultado encontrado está sobre ajustado, isto é, além do modelo o ru´ıdo também é aprendido, o que não é um efeito desejado.

Figura 2: Resultado da regressão da fun¸cão sinc, onde a ELM possui os 150 neurônios na camada escondida.

(5)

que possui os 38 neurônios na camada escondida (resultado encontrado pelo método proposto). É poss´ıvel perceber, neste caso, que o resultado en-contrado se ajusta de forma coerente com modelo, eliminando a parte que possui ru´ıdo.

Figura 3: Resultado da regressão da fun¸cão sinc, onde a ELM possui os 38 neurônios na camada escondida.

Por fim, a figura 4 apresenta a solu¸cão para a ELM que possui apenas 1 neurônio na camada escondida. É poss´ıvel perceber, neste caso, que a ELM não é capaz de aprender nada sobre o mo-delo, uma vez que não há regressores no espa¸co oculto o suficiente.

Figura 4: Resultado da regressão da fun¸cão sinc, onde a ELM possui os 1 neurônio na camada es-condida.

A tabela 1 apresenta o resultado para as eta-pas de treinamento e teste para a base sint´etica. ´

E poss´ıvel perceber que o resultado encontrado pelo m´etodo proposto ´e capaz de gerar uma solu-¸

cão média que, tanto para a etapa de treinamento quanto para a etapa de teste, possui um RMSE e kβk2menores que a solu¸cão com maior número de

neurˆonios. RMSE kβk2 Treinamento Teste h = 150 0.0948(0.0272) 0.0998(0.0236) 7.64 · 1013 h∗ = 38 0.0729(0.0054) 0.0781(0.0054) 2.69 · 1013 h = 1 0.1987(0.0114) 0.2006(0.0089) 0.0848

Tabela 1: Média e desvio padrão (entre parˆ ente-ses) para o experimento com o caso sintético.

4.2 Base de dados benchmarks

Foram escolhidos 10 conjuntos de dados bench-marks bem conhecidos na literatura, selecionados da base de dados UCI Machine Learning Repo-sitory (Bache and Lichman, 2014), sendo todas para o propósito de regressão. O número de ob-serva¸cões e atributos de cada conjunto de dados são apresentados na tabela 2.

A fim de verificar a eficácia do método pro-posto, o resultado encontrado será comparado com os trabalhos (Mart´ınez-Mart´ınez et al., 2011) e (Lan et al., 2010). Ambos possuem o prop´ o-sito de encontrar o número ótimo de neurônios na camada escondida.

A tabela 3 apresenta a compara¸cão entre T-ELM e Martinez et. al. (Mart´ınez-Mart´ınez et al., 2011) para a etapa de valida¸cão. No tra-balho (Mart´ınez-Mart´ınez et al., 2011) são apre-sentados resultados para três critérios de regula-riza¸cão: (i) norma-l 1, (i) norma-l 2 e Elastic-net ). A compara¸cão será realizada contra o melhor dos três resultados. Infelizmente os autores não apre-sentam resultados para todas as 10 bases de dados testadas.

A tabela 4 apresenta a compara¸cão entre T-ELM e Yuan et. al. (Lan et al., 2010) para a etapa de valida¸cão. Infelizmente, novamente, os autores não apresentam resultados para todas as 10 bases de dados testadas.

´

E poss´ıvel perceber que em ambos os resulta-dos (tabelas 3 e 4) que o método proposto T-ELM foi capaz de gerar melhores resultados em termos de RMSE e para, alguns casos, a estrutura obtida possui menos neurônios na camada escondida. Os autores, em ambos os casos, não apresentaram os dados da norma dos pesos da camada de sa´ıda, o que impossibilitou uma análise desse critério.

5 Conclusões e trabalho futuros O presente trabalho apresentou uma técnica sim-ples e eficiente de sele¸cão do número de neurônios na camada oculta para redes neurais de única ca-mada. A técnica é baseada em decomposi¸cão em valores singulares truncado, isto é, os valores sin-gulares do espa¸co gerado pela camada oculta que são considerados pequenos são removidos.

A técnica é equivalente à análise de compo-nentes principais onde apenas as compocompo-nentes de maior importância são mantidas no modelo. Para o experimento foram utilizadas uma fun¸cão sin-tética e dez fun¸cões de benchmarks, obtidas da

(6)

Base de dados # Obserserva¸c˜oes # Atributos Treinamento Testing Cont´ınuos Discretos

Abalone 2, 000 2, 177 7 1 Auto price 80 79 14 1 Bank 4, 500 3, 692 8 0 California housing 8, 000 12, 460 8 0 Census (house 8L) 10, 000 12, 784 8 0 Computer activity 4, 000 4, 192 8 0 Delta ailerons 3, 000 4, 19 6 0 Delta elevators 4, 000 5, 517 6 0 Servo 80 87 0 4 Triazines 100 86 60 0

Tabela 2: Especifica¸c˜ao das bases de benchmark.

Base de dados T-ELM Martinez et. al. 2011

h∗ RMSE h∗ RMSE Abalone 99 0.0746(0.0001) 21 0.6499(0.003) Auto price 78 0.0065(0.0001) 21 0.3572(0.036) Bank 58 0.0415(0.0006) - -California housing 93 0.1183(0.0004) 400 0.5071(0.004) Census (house 8L) 70 0.0103(0.0026) 202 0.6048(0.003) Computer activity 98 0.0062(−) 253 0.1905(0.004) Delta ailerons 103 0.0339(−) 40 0.5289(0.003) Delta elevators 109 0.0156(−) 100 0.6036(0.002) Servo 70 0.0082(0.0031) - -Triazines 98 0.0381(−) 2 1.0281(0.023)

Tabela 3: Compara¸c˜ao do RMSE entre T-ELM and Martinez et. al. Valores de desvio padr˜ao inferiores `

a 0.0001 foram desprezados.

Base de dados T-ELM Yuan et. al. 2010

h∗ RMSE h∗ RMSE Abalone 99 0.0746(0.0001) 20 0.0771(0.0014) Auto price 78 0.0065(0.0001) - -Bank 58 0.0415(0.0006) 85 0.0442(0.0009) California housing 93 0.1183(0.0004) 38 0.1337(0.0019) Census (house 8L) 70 0.0103(0.0026) 89 0.0685(0.0031) Computer activity 98 0.0062(−) - -Delta ailerons 103 0.0339(−) 13 0.0394(0.0007) Delta elevators 109 0.0156(−) 11 0.0537(0.0005) Servo 70 0.0082(0.0031) 16 0.1214(0.0177) Triazines 98 0.0381(−) -

-Tabela 4: Compara¸cão do RMSE entre T-ELM and Yuan et. al. Valores de desvio padrão inferiores à 0.0001 foram desprezados.

UCI Machine Learning Repository (Bache and Li-chman, 2014), sendo todas para o prop´osito de re-gress˜ao.

Durante os experimentos foi poss´ıvel observar que o método proposto foi capaz de selecionar o número de neurônios h∗de forma que tanto o cri-tério de risco emp´ırico RMSE quanto o critério de complexidade, medida pela norma dos pesos da camada de sa´ıda kβk2 foram mantidos sob

con-trole.

Pode-se perceber que o método T-ELM é um método de baixa complexidade computacional ca-paz de atender de forma multiobjetivo o problema de treinamento de uma rede SLFNN.

Como trabalho futuro pretendido, destaca-se a demonstra¸cão formal que o método T-ELM é capaz de gerar o espa¸co de m´ınima norma e erro em conjunto, isto é, que a solu¸cão encontrada pelo método é Pareto ótimo dominante.

Agradecimentos

Os autores gostariam de agradecer a CAPES, CNPq e FAPEMIG pela ajuda financeira.

Referˆencias

Bache, K. and Lichman, M. (2014). UCI Ma-chine Learning Repository. http://archive. ics.uci.edu/ml.

Cybenko, G. (1989). Approximation by super-positions of a sigmoidal function, Mathema-tics of Control, Signals, and Systems (MCSS) 2(4): 303–314.

Funahashi, K. (1989). On the Approximate Re-alization of Continuous Mappings by Neural Networks, Neural Network 2(3): 183–192. Golub, G. and Van Loan, C. (1996). Matrix

Computations, Johns Hopkins Studies in the Mathematical Sciences, Johns Hopkins Uni-versity Press.

Horata, P., Chiewchanwattana, S. and Sunat, K. (2011). A comparative study of pseudo-inverse computing for the extreme learning machine classifier, 3rd International Confe-rence on Data Mining and Intelligent In-formation Technology Applications (ICMiA), pp. 40 – 45.

Huang, G.-B. and Babri, H. A. (1998). Upper bounds on the number of hidden neurons in feedforward networks with arbitrary bounded nonlinear activation functions., IEEE Tran-sactions on Neural Networks 9(1): 224–229. Huang, G.-B., Wang, D. and Lan, Y. (2011).

Ex-treme learning machines: a survey, Interna-tional Journal of Machine Learning and Cy-bernetics 2(2): 107–122.

(7)

Huang, G.-B., Zhou, H., Ding, X. and Zhang, R. (2012). Extreme Learning Machine for Re-gression and Multiclass Classification., IEEE Transactions on Systems, Man, and Cyber-netics, Part B 42(2): 513–529.

Huang, G.-B., Zhu, Q.-Y. and Siew, C.-K. (2004). Extreme learning machine: a new learning scheme of feedforward neural networks, Neu-ral Networks, 2004. Proceedings. 2004 IEEE International Joint Conference on, Vol. 2, pp. 985–990.

Huang, G.-B., Zhu, Q.-Y. and Siew, C.-K. (2006). Extreme learning machine: Theory and ap-plications, Neurocomputing 70(1-3): 489–501. Jackson, J. (2003). A User’s Guide to Principal Components, Wiley Series in Probability and Statistics, Wiley.

Lan, Y., Soh, Y. C. and Huang, G.-B. (2010). Constructive Hidden Nodes Selection of Ex-treme Learning Machine for Regression, Neu-rocomput. 73(16-18): 3191–3199.

Liang, N., Saratchandran, P., Huang, G. and Sun-dararajan, N. (2006). Classification of men-tal tasks from EEG signals using extreme le-arning machine, INTERNATIONAL JOUR-NAL OF NEURAL SYSTEMS 16(1): 29–38. Liu, D., Zhang, H. and Hu, S. (2008). Neural networks: Algorithms and applications, Neu-rocomputing 71: 471–473.

Mart´ınez-Mart´ınez, J. M., Escandell-Montero, P., Soria-Olivas, E., Mart´ın-Guerrero, J. D., Magdalena-Benedito, R. and G´omez-Sanchis, J. (2011). Regularized extreme learning ma-chine for regression problems, Neurocompu-ting 74(17): 3716–3721.

Mateo, F. and Lendasse, A. (2008). A variable selection approach based on the Delta Test for Extreme Learning Machine models, Euro-pean Symposium on Time Series Prediction. Rajesh, R. and Parkash, J. S. (2011). Extreme le-arning machine - A review and State-of-art, Internationa Journal of Wisdom Based Com-puting 1(1): 35–49.

Singh, R. and Balasundaram, S. (2007). Appli-cation of Extreme Learning Machine Method for Time Series Analysis, International Jour-nal of Intelligente Technology 2(4): 256–262. Vieira, D. A. G., Takahashi, R. H. C., Palade, V., Vasconcelos, J. A. and Caminhas, W. M. (2008). The Q-Norm Complexity Measure and the Minimum Gradient Method: A Novel

Approach to the Machine Learning Structu-ral Risk Minimization Problem, IEEE Tran-sactions on Neural Networks 19(8): 1415– 1430.