• Nenhum resultado encontrado

Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014

N/A
N/A
Protected

Academic year: 2021

Share "Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014"

Copied!
7
0
0

Texto

(1)

SELE ¸C ˜AO DE N ´UMERO DE NEUR ˆONIOS DE ELMS BASEADA EM DECOMPOSI ¸C ˜AO DE VALORES SINGULARES TRUNCADO

L. D. Tavares∗, R. R. Saldanha∗, D. A. G. Vieira†

Programa de P´os-Gradua¸ao em Engenharia El´etrica - Universidade Federal de Minas Gerais

Av. Antˆonio Carlos 6627, 31270-901, Belo Horizonte, MG, Brasil

Rua Professor Jos´e Vieira de Mendon¸ca, 770

Parque Tecnol´ogico de Belo Horizonte Belo Horizonte, MG, 31310-260, Brasil

Emails: tavares@dcc.ufmg.br, rodney@cpdee.ufmg.br, douglas.vieira@enacom.com.br

Abstract— The Extreme Learning Machine (ELM) is a recent training method for feedforward neural net-works. Its main advantage is a faster and simpler training procedure when it is compared with traditional global search optimization methods. It is achieved by using the least square solution for the output layer and random initialization for hidden layer. In this way, only one solution is attained. Anyway, selecting the number of hidden neurons is still an open problem, and, in most cases, the choice is made empirically. This paper presents a simple technique based on singular value decomposition (SVD) which is able to indicate the number of neurons in the hidden layer that favors low training error and the low complexity of the machine.

Keywords— Extreme Learning Machine, Singular Value Decomposition, Hidden layer neurons

Resumo— A M´aquina de Aprendizagem Extrema (Extreme Learning Machine - ELM) ´e uma t´ecnica recente de treinamento para redes neurais de ´unica camada. Sua principal vantagem ´e seu r´apido e simples processo de treinamento quando comparado aos tradicionais m´etodos de otimiza¸c˜ao. Isto ´e obtido utilizando solu¸c˜oes por quadrados m´ınimos para os pesos da camada de sa´ıda e inicializando de maneira aleat´oria os pesos dos neurˆonios da camada oculta. De qualquer forma, a sele¸c˜ao do n´umero de neurˆonios da camada escondida continua sendo um problema em aberto, sendo que, na maior parte dos casos, a escolha se d´a de forma emp´ırica. O presente trabalho apresenta uma t´ecnica simples baseada em decomposi¸c˜ao em valores singulares (SVD) que ´e capaz de indicar o n´umero de neurˆonios da camada escondida que favore¸ca o baixo erro de treinamento e a baixa complexidade da m´aquina.

Palavras-chave— M´aquina de Aprendizagem Extrema, Decomposi¸c˜ao em Valores Singulares, Neurˆonios na camada oculta

1 Introdu¸c˜ao

Desde o trabalho pioneiro de Huang et al. (Huang et al., 2004) (Huang et al., 2006) e (Huang et al., 2011), a M´aquina de Aprendizagem Ex-trema (Extreme Learning Machine - ELM) tem sido amplamente discutida e utilizada em diver-sas ´areas. A ELM ´e um m´etodo de aprendiza-gem de m´aquina que simplifica as etapas de ini-cializa¸c˜ao e treinamento para redes neurais de ´

unica camada (Single Layer Feedforward Neural Network - SLFN). A ELM se diferencia dos m´ e-todos tradicionais de aprendizagem por selecio-nar de forma aleat´oria os pesos dos neurˆonios da camada oculta e, posteriormente, determinar de forma anal´ıtica, utilizando o m´etodo de quadra-dos m´ınimos, os pesos da camada de sa´ıda. Al´em disso, n˜ao h´a a necessidade de algoritmos baseados em gradiente descendente, como, por exemplo, o algoritmo de retropropaga¸c˜ao ou qualquer outro m´etodo de busca global. A capacidade de uma SLFN ser um aproximador universal de fun¸c˜oes foi provada em 1989 por Cybenco(Cybenko, 1989) and Funahashi(Funahashi, 1989). Recentemente, Huang and Babri (Huang and Babri, 1998) de-monstraram a sua capacidade m´axima de apren-dizagem.

Dentre as principais vantagens da ELM, destacam-se: o treinamento ´e extremamente r´ a-pido (quando comparado com os m´etodos tra-dicionais de aprendizagem), requer um n´umero menor de parˆametros para ser ajustado e o re-sultado apresenta uma boa generaliza¸c˜ao (Huang et al., 2012). A ELM tem sido utilizada em di-versas aplica¸c˜oes, como: predi¸c˜ao de s´eries tem-porais (Singh and Balasundaram, 2007), classifi-ca¸c˜ao de texto (Liu et al., 2008), reconhecimento de padr˜oes (Liang et al., 2006), sele¸c˜ao de vari´ a-veis e caracter´ısticas (Mateo and Lendasse, 2008), entre outras. Uma lista de aplica¸c˜oes e o estado da arte pode ser encontrado em (Rajesh and Par-kash, 2011).

O treinamento da ELM utiliza a abordagem de quadrados m´ınimos, que requer apenas simples manipula¸c˜oes alg´ebricas em matrizes, no entanto, ainda ´e necess´ario calcular no m´ınimo uma inversa (ou pseudo-inversa). Em (Horata et al., 2011) quatro m´etodos s˜ao comparados em termos de complexidade computacional, tempo de processa-mento e precis˜ao, s˜ao eles: (i) equa¸c˜ao normal, (ii) decomposi¸c˜ao em valores singulares (SVD), (iii) pseudo-inversa Moore-Penrose e (iv) decomposi-¸c˜ao QR. ´E importante ressaltar que o trabalho

(2)

n˜ao apresenta conclus˜ao alguma relacionada `a in-fluˆencia do m´etodo de invers˜ao com a capacidade de generaliza¸c˜ao ou abordagem multiobjetivo.

Apesar de simplificar o processo de apren-dizagem, a escolha do n´umero de neurˆonios da camada escondida ainda continua sendo um pro-blema aberto. Em (Lan et al., 2010) ´e apresentado um m´etodo que seleciona o subconjunto de neurˆ o-nios que possuam maior correla¸c˜ao com o mape-amento entrada-sa´ıda apresentado durante a fase de treinamento. Os neurˆonios com menor corre-la¸c˜ao s˜ao descartados. J´a em (Mart´ınez-Mart´ınez et al., 2011) o n´umero de neurˆonios ´e determinado a partir da regulariza¸c˜ao l 1 e l 2 (conhecida como regulariza¸c˜ao Elastic-net ). Nesse caso, dois parˆ a-metros de regulariza¸c˜ao s˜ao necess´arios, sendo o primeiro para o termo linear (l 1) e o segundo para o n˜ao linear (l 2), atrav´es da norma euclidiana. A regulariza¸c˜ao do termo linear ´e obtida atrav´es do m´etodo de pontos interiores.

Em ambos os trabalhos, ´e poss´ıvel se observar o enorme esfor¸co computacional necess´ario para se obter o n´umero de neurˆonios ´otimo. O presente trabalho demonstra que ´e poss´ıvel se encontrar o n´umero de neurˆonios adequado para uma SLFNN de forma que seja fact´ıvel controlar a complexi-dade da m´aquina, medida atrav´es da norma dos pesos de sa´ıda, e o risco emp´ırico, medido atrav´es da raiz quadrada do erro quadr´atico m´edio (Root-Mean-Square Error - RMSE).

Dessa forma, o objetivo do presente trabalho ´e propor um m´etodo de determina¸c˜ao de n´umero de neurˆonios da camada oculta de uma ELM de forma a controlar, ao mesmo tempo, a complexi-dade e erro. Para isto ser´a utilizada a Decom-posi¸c˜ao em Valores Singulares Truncada (Trunca-ted Singular Value Decomposition - TSVD). Con-forme discutido em (Vieira et al., 2008), a apren-dizagem de m´aquina ´e um problema multiobjetivo onde deve existir um balan¸co entre o risco emp´ı-rico e a complexidade. Dessa forma, um conjunto de solu¸c˜oes, chamado fronteira Pareto ´Otimo, ´e desejado.

O restante do trabalho est´a organizado como se segue: a Se¸c˜ao 2 apresenta os principais ele-mentos relacionados `a ELM e sua rela¸c˜ao com a SVD. Posteriormente, na Se¸c˜ao 3 ´e apresentado o m´etodo proposto para determina¸c˜ao do n´umero ´

otimo de neurˆonios da camada oculta para uma ELM. O desempenho do m´etodo proposto ´e avali-ado na Se¸c˜ao 4. Finalmente, na Se¸c˜ao 5 s˜ao apre-sentadas as discuss˜oes e trabalhos futuros.

2 M´aquina de aprendizagem extrema -ELM

Considere um conjunto de N exemplos distintos na forma (xi, ti) onde xi = [xi1, xi2, . . . , xin]0 ∈

Rn s˜ao as entradas de um sistema real, com i = 1, 2, ...N , o s´ımbolo ap´ostrofo (0)

signi-fica a transposi¸c˜ao do vetor ou matriz, e ti =

[ti1, ti2, . . . , tim]0 ∈ Rm s˜ao as respostas reais (ou

desejadas) do sistema ou ambiente que se deseja aprender. Considere ainda h como o n´umero de neurˆonios na camada oculta e f (·) como a fun-¸

c˜ao de ativa¸c˜ao, uma rede neural de camada ´unica (SLFN) ´e modelada conforme: oi= h X j=1 βjf (x0iwj+ bj), i = 1, 2, . . . , N (1) onde oi = [oi1, oi2, . . . , oim]0 ∈ Rm s˜ao as respostas encontradas pela SLFN, wj =

[wj1, wj2, . . . , wjh]0 ∈ Rh ´e o vetor de pesos que

conecta a entrada e os neurˆonios da camada es-condida, βj= [βj1, βj2, . . . , βjm]0∈ Rms˜ao os

pe-sos que conectam a camada escondida com a sa´ıda da SLFN, e bj ´e o limiar do j-´esimo neurˆonio da

camada escondida. ´

E poss´ıvel aproximar oi de ti para todos os

N exemplos, de forma que PN

i=1kti − oik = 0,

assumindo que existem parˆametros w o suficiente, de forma que: ti= h X j=1 βjf (x0iwj+ bj), i = 1, 2, . . . , N (2)

com erro m´edio zero.

Na forma matricial compacta temos:

Hβ = T (3) onde: H =    f (x01w1+ b1) . . . f (x0Nwh+ bh) .. . . . . ... f (x01w1+ b1) . . . f (x0Nwh+ bh)   ∈ R N ×h (4) β = [β1, . . . , βh]0 e T = [t1, . . . , tN]0 (5)

Conforme mencionado, a ELM inicia aleatori-amente os valores de w e b. Dessa forma, o obje-tivo ´e avaliar o valor de β de forma que:

min

β kT − Hβkp (6)

onde p indica o tipo de norma `a ser utilizada (1, 2, ∞, . . . ). Para p = 2 o valor de β pode ser encon-trado utilizando a solu¸c˜ao por quadrados m´ınimos, conforme:

ξ = (T − Hβ)0(T − Hβ)

= T0T − T0Hβ − H0β0T + H0β0Hβ (7) Resolvendo ∂ξ∂β = 0 obt´em-se:

(3)

∂ξ ∂β = −(T 0H)0− (H0T) + (H0H + H0H)β (8a) H0Hβ = H0T (8b) β = H+T (8c)

onde a equa¸c˜ao (8b) ´e chamada de equa¸c˜ao nor-mal, H+´e a pseudoinversa de H.

´

E importante observar que a inversa de (H0H) pode n˜ao existir, uma vez que a matriz pode n˜ao ter rank completo ou alto n´umero de condiciona-mento. Nesses casos, ´e poss´ıvel realizar uma apro-xima¸c˜ao da inversa de H, sendo um dos m´etodos a SVD. A pr´oxima se¸c˜ao explicar´a, brevemente, o m´etodo para se obter a pseudoinversa.

2.1 Pseudoinversa usando SVD

Considere a matriz H ∈ RN ×h com rank H = r. Ent˜ao H pode ser fatorada como (Golub and Van Loan, 1996):

H = UΣV0 (9)

onde U ∈ RN ×N ´e uma matriz quadrada

ortonor-mal chamada vetor singular esquerdo composta pelos autovetores de (HH0), Vh×h ´e uma

ma-triz quadrada ortonormal chamada vetor singu-lar direito composto pelos autovetores de (H0H) e Σ = diag(σ1, . . . , σr) ∈ RN ×h onde σi s˜ao os

valores singulares composta pelos autovalores de (H0H) e (HH0), com σ1 ≥ σ2 ≥ . . . σr≥ 0. A Σ

´e pseudo-diagonal uma vez que pode n˜ao ser qua-drada. Existem h valores singulares caso N > h e existem N valores singulares no caso contr´ario.

Atrav´es de uma simples manipula¸c˜ao alg´ e-brica, ´e poss´ıvel se obter a pseudoinversa de H conforme:

H+= (UΣV0)+= VΣ−1U0 (10) onde Σ−1 = diag(1/σ1, . . . , 1/σr).

Conforme mencionado, a pseudoinversa de H pode n˜ao existir caso H seja singular ou mal-condicionada. Nesse caso, a pseudoinversa pode ser aproximada eliminando os valores singulares muito pequenos, como:

H+≈ V ˜Σ−1α U0 (11) onde: ˜ Σ−1α =  1/σi se σi> α

0 caso contr´ario ∀i = 1, 2, ..., r (12) onde α > 0 ´e um limiar escolhido pelo usu´ario,

˜

Σ−1α ´e a inversa de Σ baseado no parˆametro α. Este tipo de opera¸c˜ao ´e chamada de decomposi¸c˜ao em valores singulares truncado (Truncated Singu-lar Value Decomposition - TSVD), uma vez que o processo elimina os valores pequenos e mant´em os bons.

3 M´etodo proposto

O m´etodo TSVD pode ser visto como uma t´ ec-nica de redu¸c˜ao de dimens˜ao equivalente `a an´alise de componentes principais (Principal Component Analysis - PCA) (Jackson, 2003). Dessa forma, ´e poss´ıvel analisar o espa¸co gerado pela camada oculta, de forma que estejam presentes apenas as componentes principais, de forma a favorecer os crit´erios de complexidade e erro desejados.

O m´etodo sup˜oe que o espa¸co gerado pela ca-mada oculta seja inicialmente de alt´ıssima dimen-s˜ao, no entanto que algumas delas n˜ao s˜ao neces-s´arias, podendo assim serem dispensadas. Apesar de ser um m´etodo de redu¸c˜ao do espa¸co oculto, o mesmo princ´ıpio pode ser aplicado, sem perda de generaliza¸c˜ao, na forma incremento.

Em sua forma incremental, o espa¸co gerado pela camada oculta ´e de baixa dimens˜ao, e, a cada itera¸c˜ao, s˜ao acrescentados neurˆonios ocultos at´e que os crit´erios de complexidade e erro estejam equilibrados. Esta segunda abordagem, no en-tanto, n˜ao est´a contemplada no presente trabalho. A se¸c˜ao a seguir ir´a detalhar o m´etodo pro-posto.

3.1 Detalhamento do m´etodo

Considerando o caso N > h, onde existem h va-lores singulares, o m´etodo pode ser detalhado da seguinte forma: 1. [UΣV0] = svd(H) 2. Para cada i = h, h − 1, ..., 2, 1 (a) σi= 0 (b) β = V ˜Σ−1U0y (c) ye= UΣV0β (d) ri= rmse(t, ye) (e) ni = kβk2

onde ye ´e a resposta encontrada pela ELM,

rmse(·, ·) ´e a fun¸c˜ao que calcula a raiz quadrada do erro quadr´atico m´edio entre a sa´ıda desejada t e a sa´ıda calculada ye, e k·k2´e a norma euclidiana.

´

E poss´ıvel observar que o m´etodo proposto gera diversas solu¸c˜oes. O conjunto de solu¸c˜oes formado ´e chamado de solu¸c˜oes Pareto. No caso n˜ao ´e necess´ario observar as solu¸c˜oes dominadas e n˜ao dominadas, uma vez que a solu¸c˜ao desejada ´e aquela que est´a mais pr´oxima da origem.

Ao final do processo, deve ser gerada uma ma-triz na forma P = [r0, n0]. Como necessariamente os vetores r e n s˜ao formados por valores positi-vos, a matriz P tamb´em ser´a. Considerando cada linha de P como o par de solu¸c˜ao erro e norma, para selecionar a solu¸c˜ao que equilibre os crit´ e-rios, basta encontrar o ´ındice da linha Pi do qual

(4)

h∗= minh(P) (13)

onde minh(·) ´e a fun¸c˜ao que retorna o ´ındice da

linha que possui a menor norma euclidiana da ma-triz P, e h∗ ´e o n´umero de neurˆonios que favorece o equil´ıbrio entre complexidade e erro.

´

E poss´ıvel perceber tamb´em que o m´etodo proposto calcula as matrizes U e V0 apenas uma vez. Com isso ´e poss´ıvel mapear todas as solu¸c˜oes pareto, baseadas simplesmente nos valores sigula-res do espa¸co oculto.

O m´etodo proposto, por utilizar a aborda-gem TSVD ser´a chamado, daqui em diante, de Truncated-Extreme Learning Machine (T-ELM).

4 Experimentos realizados

A presente Se¸c˜ao avalia o desempenho do m´ e-todo proposto. Todas as simula¸c˜oes foram realizadas no ambiente MATLAB vers˜ao 7.12 (R2011a), executados em um Intel(R) Core(TM) i3, 2.40GHz CPU, sob o sistema operacional Ubuntu 13.10. Em todos os casos, foi utilizada a fun¸c˜ao de ativa¸c˜ao, para os neurˆonios ocul-tos, do tipo log´ıstica sigmoide na forma g(x) = 1/(1 + exp(−x)). Um caso sint´etico e 10 ben-chmarks foram escolhidos para os experimen-tos. Os benchmarks foram selecionados da base UCI Machine Learning Repository(Bache and Li-chman, 2014), para a tarefa de regress˜ao de da-dos. Todas as bases dos benchmarks tiveram sua entrada normalizada no intervalo [0, −1] (mesmo para caracter´ısticas discretas), e suas sa´ıdas nor-malizadas no intervalo [−1, 1].

Cada experimento foi executado 50 vezes, e o resultado apresentado representa a m´edia e o desvio padr˜ao.

4.1 Base artificial: aproxima¸c˜ao da fun¸c˜ao Sinc Neste experimento, o m´etodo proposto ser´a utili-zado para aproximar a fun¸c˜ao Sinc, amplamente utilizada na literatura para prop´osito de regress˜ao, na forma: ti=  sin(xi) xi xi6= 0 1 xi= 0 (14) As bases de treinamento e teste possuem 500 pontos cada uma, criados de forma aleat´oria em uma distribui¸c˜ao uniforme no intervalo [−10, 10]. Um ru´ıdo com distribui¸c˜ao normal, com m´edia 0 e variˆancia=0.1 foi adicionado em todos os pontos de sa´ıda. Para este experimento, a ELM possui, inicialmente 150 neurˆonios na camada oculta, es-colhido arbitrariamente.

As figuras de 1 a 4 apresentam o resultado do experimento para 1 realiza¸c˜ao. A figura 1 apre-senta as solu¸c˜oes Pareto encontradas. Em des-taque est˜ao a solu¸c˜ao inicial (ponto superior), a

solu¸c˜ao encontrada pelo m´etodo proposto (ponto inferior esquerdo) e a solu¸c˜ao onde h´a apenas 1 neurˆonio na camada escondida (ponto inferior di-reito). Vale a pena ressaltar que foram mapeados 150 solu¸c˜oes e o tempo gasto para a gera¸c˜ao de todas as solu¸c˜oes foi de apenas 9.03 segundos, ou seja, aproximadamente 0.06 segundos por solu¸c˜ao.

Figura 1: Solu¸c˜oes Pareto geradas. O ponto supe-rior, em destaque, representa a solu¸c˜ao encontrada para a ELM que possui 150 neurˆonios na camada escondida, o ponto inferior esquerdo, em destaque, representa a solu¸c˜ao encontrada para a ELM que possui 38 neurˆonios na camada escondida, e, final-mente, o ponto inferior direito, a solu¸c˜ao encon-trada para a ELM que possui 1 neurˆonio apenas na camada escondida.

A figura 2 apresenta a solu¸c˜ao para a ELM que possui os 150 neurˆonios na camada escondida. ´

E poss´ıvel perceber, neste caso, que o resultado encontrado est´a sobre ajustado, isto ´e, al´em do modelo o ru´ıdo tamb´em ´e aprendido, o que n˜ao ´e um efeito desejado.

Figura 2: Resultado da regress˜ao da fun¸c˜ao sinc, onde a ELM possui os 150 neurˆonios na camada escondida.

(5)

que possui os 38 neurˆonios na camada escondida (resultado encontrado pelo m´etodo proposto). ´E poss´ıvel perceber, neste caso, que o resultado en-contrado se ajusta de forma coerente com modelo, eliminando a parte que possui ru´ıdo.

Figura 3: Resultado da regress˜ao da fun¸c˜ao sinc, onde a ELM possui os 38 neurˆonios na camada escondida.

Por fim, a figura 4 apresenta a solu¸c˜ao para a ELM que possui apenas 1 neurˆonio na camada escondida. ´E poss´ıvel perceber, neste caso, que a ELM n˜ao ´e capaz de aprender nada sobre o mo-delo, uma vez que n˜ao h´a regressores no espa¸co oculto o suficiente.

Figura 4: Resultado da regress˜ao da fun¸c˜ao sinc, onde a ELM possui os 1 neurˆonio na camada es-condida.

A tabela 1 apresenta o resultado para as eta-pas de treinamento e teste para a base sint´etica. ´

E poss´ıvel perceber que o resultado encontrado pelo m´etodo proposto ´e capaz de gerar uma solu-¸

c˜ao m´edia que, tanto para a etapa de treinamento quanto para a etapa de teste, possui um RMSE e kβk2menores que a solu¸c˜ao com maior n´umero de

neurˆonios. RMSE kβk2 Treinamento Teste h = 150 0.0948(0.0272) 0.0998(0.0236) 7.64 · 1013 h∗ = 38 0.0729(0.0054) 0.0781(0.0054) 2.69 · 1013 h = 1 0.1987(0.0114) 0.2006(0.0089) 0.0848

Tabela 1: M´edia e desvio padr˜ao (entre parˆ ente-ses) para o experimento com o caso sint´etico.

4.2 Base de dados benchmarks

Foram escolhidos 10 conjuntos de dados bench-marks bem conhecidos na literatura, selecionados da base de dados UCI Machine Learning Repo-sitory (Bache and Lichman, 2014), sendo todas para o prop´osito de regress˜ao. O n´umero de ob-serva¸c˜oes e atributos de cada conjunto de dados s˜ao apresentados na tabela 2.

A fim de verificar a efic´acia do m´etodo pro-posto, o resultado encontrado ser´a comparado com os trabalhos (Mart´ınez-Mart´ınez et al., 2011) e (Lan et al., 2010). Ambos possuem o prop´ o-sito de encontrar o n´umero ´otimo de neurˆonios na camada escondida.

A tabela 3 apresenta a compara¸c˜ao entre T-ELM e Martinez et. al. (Mart´ınez-Mart´ınez et al., 2011) para a etapa de valida¸c˜ao. No tra-balho (Mart´ınez-Mart´ınez et al., 2011) s˜ao apre-sentados resultados para trˆes crit´erios de regula-riza¸c˜ao: (i) norma-l 1, (i) norma-l 2 e Elastic-net ). A compara¸c˜ao ser´a realizada contra o melhor dos trˆes resultados. Infelizmente os autores n˜ao apre-sentam resultados para todas as 10 bases de dados testadas.

A tabela 4 apresenta a compara¸c˜ao entre T-ELM e Yuan et. al. (Lan et al., 2010) para a etapa de valida¸c˜ao. Infelizmente, novamente, os autores n˜ao apresentam resultados para todas as 10 bases de dados testadas.

´

E poss´ıvel perceber que em ambos os resulta-dos (tabelas 3 e 4) que o m´etodo proposto T-ELM foi capaz de gerar melhores resultados em termos de RMSE e para, alguns casos, a estrutura obtida possui menos neurˆonios na camada escondida. Os autores, em ambos os casos, n˜ao apresentaram os dados da norma dos pesos da camada de sa´ıda, o que impossibilitou uma an´alise desse crit´erio.

5 Conclus˜oes e trabalho futuros O presente trabalho apresentou uma t´ecnica sim-ples e eficiente de sele¸c˜ao do n´umero de neurˆonios na camada oculta para redes neurais de ´unica ca-mada. A t´ecnica ´e baseada em decomposi¸c˜ao em valores singulares truncado, isto ´e, os valores sin-gulares do espa¸co gerado pela camada oculta que s˜ao considerados pequenos s˜ao removidos.

A t´ecnica ´e equivalente `a an´alise de compo-nentes principais onde apenas as compocompo-nentes de maior importˆancia s˜ao mantidas no modelo. Para o experimento foram utilizadas uma fun¸c˜ao sin-t´etica e dez fun¸c˜oes de benchmarks, obtidas da

(6)

Base de dados # Obserserva¸c˜oes # Atributos Treinamento Testing Cont´ınuos Discretos

Abalone 2, 000 2, 177 7 1 Auto price 80 79 14 1 Bank 4, 500 3, 692 8 0 California housing 8, 000 12, 460 8 0 Census (house 8L) 10, 000 12, 784 8 0 Computer activity 4, 000 4, 192 8 0 Delta ailerons 3, 000 4, 19 6 0 Delta elevators 4, 000 5, 517 6 0 Servo 80 87 0 4 Triazines 100 86 60 0

Tabela 2: Especifica¸c˜ao das bases de benchmark.

Base de dados T-ELM Martinez et. al. 2011

h∗ RMSE h∗ RMSE Abalone 99 0.0746(0.0001) 21 0.6499(0.003) Auto price 78 0.0065(0.0001) 21 0.3572(0.036) Bank 58 0.0415(0.0006) - -California housing 93 0.1183(0.0004) 400 0.5071(0.004) Census (house 8L) 70 0.0103(0.0026) 202 0.6048(0.003) Computer activity 98 0.0062(−) 253 0.1905(0.004) Delta ailerons 103 0.0339(−) 40 0.5289(0.003) Delta elevators 109 0.0156(−) 100 0.6036(0.002) Servo 70 0.0082(0.0031) - -Triazines 98 0.0381(−) 2 1.0281(0.023)

Tabela 3: Compara¸c˜ao do RMSE entre T-ELM and Martinez et. al. Valores de desvio padr˜ao inferiores `

a 0.0001 foram desprezados.

Base de dados T-ELM Yuan et. al. 2010

h∗ RMSE h∗ RMSE Abalone 99 0.0746(0.0001) 20 0.0771(0.0014) Auto price 78 0.0065(0.0001) - -Bank 58 0.0415(0.0006) 85 0.0442(0.0009) California housing 93 0.1183(0.0004) 38 0.1337(0.0019) Census (house 8L) 70 0.0103(0.0026) 89 0.0685(0.0031) Computer activity 98 0.0062(−) - -Delta ailerons 103 0.0339(−) 13 0.0394(0.0007) Delta elevators 109 0.0156(−) 11 0.0537(0.0005) Servo 70 0.0082(0.0031) 16 0.1214(0.0177) Triazines 98 0.0381(−) -

-Tabela 4: Compara¸c˜ao do RMSE entre T-ELM and Yuan et. al. Valores de desvio padr˜ao inferiores `a 0.0001 foram desprezados.

UCI Machine Learning Repository (Bache and Li-chman, 2014), sendo todas para o prop´osito de re-gress˜ao.

Durante os experimentos foi poss´ıvel observar que o m´etodo proposto foi capaz de selecionar o n´umero de neurˆonios h∗de forma que tanto o cri-t´erio de risco emp´ırico RMSE quanto o crit´erio de complexidade, medida pela norma dos pesos da camada de sa´ıda kβk2 foram mantidos sob

con-trole.

Pode-se perceber que o m´etodo T-ELM ´e um m´etodo de baixa complexidade computacional ca-paz de atender de forma multiobjetivo o problema de treinamento de uma rede SLFNN.

Como trabalho futuro pretendido, destaca-se a demonstra¸c˜ao formal que o m´etodo T-ELM ´e capaz de gerar o espa¸co de m´ınima norma e erro em conjunto, isto ´e, que a solu¸c˜ao encontrada pelo m´etodo ´e Pareto ´otimo dominante.

Agradecimentos

Os autores gostariam de agradecer a CAPES, CNPq e FAPEMIG pela ajuda financeira.

Referˆencias

Bache, K. and Lichman, M. (2014). UCI Ma-chine Learning Repository. http://archive. ics.uci.edu/ml.

Cybenko, G. (1989). Approximation by super-positions of a sigmoidal function, Mathema-tics of Control, Signals, and Systems (MCSS) 2(4): 303–314.

Funahashi, K. (1989). On the Approximate Re-alization of Continuous Mappings by Neural Networks, Neural Network 2(3): 183–192. Golub, G. and Van Loan, C. (1996). Matrix

Computations, Johns Hopkins Studies in the Mathematical Sciences, Johns Hopkins Uni-versity Press.

Horata, P., Chiewchanwattana, S. and Sunat, K. (2011). A comparative study of pseudo-inverse computing for the extreme learning machine classifier, 3rd International Confe-rence on Data Mining and Intelligent In-formation Technology Applications (ICMiA), pp. 40 – 45.

Huang, G.-B. and Babri, H. A. (1998). Upper bounds on the number of hidden neurons in feedforward networks with arbitrary bounded nonlinear activation functions., IEEE Tran-sactions on Neural Networks 9(1): 224–229. Huang, G.-B., Wang, D. and Lan, Y. (2011).

Ex-treme learning machines: a survey, Interna-tional Journal of Machine Learning and Cy-bernetics 2(2): 107–122.

(7)

Huang, G.-B., Zhou, H., Ding, X. and Zhang, R. (2012). Extreme Learning Machine for Re-gression and Multiclass Classification., IEEE Transactions on Systems, Man, and Cyber-netics, Part B 42(2): 513–529.

Huang, G.-B., Zhu, Q.-Y. and Siew, C.-K. (2004). Extreme learning machine: a new learning scheme of feedforward neural networks, Neu-ral Networks, 2004. Proceedings. 2004 IEEE International Joint Conference on, Vol. 2, pp. 985–990.

Huang, G.-B., Zhu, Q.-Y. and Siew, C.-K. (2006). Extreme learning machine: Theory and ap-plications, Neurocomputing 70(1-3): 489–501. Jackson, J. (2003). A User’s Guide to Principal Components, Wiley Series in Probability and Statistics, Wiley.

Lan, Y., Soh, Y. C. and Huang, G.-B. (2010). Constructive Hidden Nodes Selection of Ex-treme Learning Machine for Regression, Neu-rocomput. 73(16-18): 3191–3199.

Liang, N., Saratchandran, P., Huang, G. and Sun-dararajan, N. (2006). Classification of men-tal tasks from EEG signals using extreme le-arning machine, INTERNATIONAL JOUR-NAL OF NEURAL SYSTEMS 16(1): 29–38. Liu, D., Zhang, H. and Hu, S. (2008). Neural networks: Algorithms and applications, Neu-rocomputing 71: 471–473.

Mart´ınez-Mart´ınez, J. M., Escandell-Montero, P., Soria-Olivas, E., Mart´ın-Guerrero, J. D., Magdalena-Benedito, R. and G´omez-Sanchis, J. (2011). Regularized extreme learning ma-chine for regression problems, Neurocompu-ting 74(17): 3716–3721.

Mateo, F. and Lendasse, A. (2008). A variable selection approach based on the Delta Test for Extreme Learning Machine models, Euro-pean Symposium on Time Series Prediction. Rajesh, R. and Parkash, J. S. (2011). Extreme le-arning machine - A review and State-of-art, Internationa Journal of Wisdom Based Com-puting 1(1): 35–49.

Singh, R. and Balasundaram, S. (2007). Appli-cation of Extreme Learning Machine Method for Time Series Analysis, International Jour-nal of Intelligente Technology 2(4): 256–262. Vieira, D. A. G., Takahashi, R. H. C., Palade, V., Vasconcelos, J. A. and Caminhas, W. M. (2008). The Q-Norm Complexity Measure and the Minimum Gradient Method: A Novel

Approach to the Machine Learning Structu-ral Risk Minimization Problem, IEEE Tran-sactions on Neural Networks 19(8): 1415– 1430.

Referências

Documentos relacionados

TABELA 4 – Atividades acompanhadas e/ou desenvolvidas em Clínica Reprodutiva durante o Estágio Curricular Supervisionado em Medicina Veterinária na Empresa LAB

Com relação ao fluxo de umidade, observou-se de modo geral, que o fluxo médio da AMZ e NEB fornece maior parte de vapor d’água na borda leste, sugerindo que

• Scollegare sempre la presa di alimentazione prima di installare, tagliare o modificare le componenti • Srotolare perfettamente la striscia luminosa prima di collegare ad una

Na presente pesquisa, tem-se como objetivo interpretar os critérios do processo de certificação adotados pelo selo ambiental do IRGA, caracterizar o perfil da

A razão pela qual existem dois sinais de controle de feedback idênticas é que a ação de controle é dividida entre dois atuadores e, devido à simetria, os mesmos ganhos

A função tradicional das autarquias locais é, fundamentalmente, colocar à disposição dos utentes, serviços de utilidade pública. Os serviços públicos autárquicos são, de

Nossos resultados encontraram valores mais altos em todas as faixas de classificação de capacidade funcional quando comparados aos de Cooper e do FRIEND.. Esses valores

Em 2010, a Companhia fortaleceu sua posição de liderança no mercado doméstico através da r, também apoiada (i) na manutenção de sua estratégia comercial; (ii) no