• Nenhum resultado encontrado

Fun¸c˜oes de ativa¸c˜ao hiperb´olicas adaptativas

Existe um paradoxo inerente ao uso das fun¸c˜oes de ativa¸c˜ao param´etricas propostas neste trabalho, sobretudo no que tange ao tempo de treinamento da rede. Por um lado, fun¸c˜oes de ativa¸c˜ao com uma escolha de parˆametros adequadas podem ser

Figura 3.7: Compara¸c˜ao do gradiente minguante entre as fun¸c˜oes SH-ReLU e Softplus, com τ = 1. −10 −8 −6 −4 −2 0 x 0.0 0.2 0.4 0.6 0.8 f (x ) ReLU Softplus SH-ReLU

(a) Compara¸c˜ao das fun¸c˜oes ReLU, Softplus

e SH-ReLU. −20 −15 −10 −5 0 5 x 10−1 100 101 102 103 104 105 106 Raz ˜ao Raz˜ao φ(x, τ)/σ(x) (b) Raz˜ao φ(x,ρ)σ(x) .

capazes de atingir a convergˆencia em menos ´epocas, e at´e mesmo com um resultado melhor. Por outro lado, faz-se necess´ario uma calibra¸c˜ao de tais parˆametros, o que invariavelmente exige avalia¸c˜ao de diferentes combina¸c˜oes.

Esta avalia¸c˜ao das diferentes combina¸c˜oes pode ser feita atrav´es de t´ecnicas de busca exaustiva, como o grid search, ou at´e mesmo atrav´es de t´ecnicas de com- puta¸c˜ao evolucion´aria. Seja qual for a alternativa para avalia¸c˜ao das diferentes combina¸c˜oes de parˆametros, ser´a necess´ario um tempo t˜ao grande para isso, que tornar´a o argumento de convergˆencia mais r´apida ilus´orio do ponto de vista pr´atico. Tamb´em pode-se lan¸car um olhar sobre o tunning dos parˆametros exclusiva- mente na perspectiva de melhor qualidade nos resultados, de forma que n˜ao haja a problem´atica do paradoxo citado acima. Portanto, ´e poss´ıvel realizarmos um ajuste dos parˆametros a fim de atingirmos uma capacidade superior de generaliza¸c˜ao da rede neural. Embora seja uma alternativa fact´ıvel para uso pr´atico das fun¸c˜oes param´etricas propostas, ainda assim haver´a um grande overhead que n˜ao pode ser ignorado. Assim, passamos a tratar de uma alternativa interessante que possa ate- nuar estas quest˜oes.

Cabe notar tamb´em que a an´alise do impacto dos parˆametros no cross entropy, acur´acia e quantidade de ´epocas revelou uma faixa favor´avel (se¸c˜oes 4.3.1 e 4.3.2), a qual n˜ao necessariamente ´e a mesma para outros data sets e/ou arquitetura de rede. Tal problem´atica revela assim a dificuldade do uso destas fun¸c˜oes hiperb´olicas propostas do ponto de vista pr´atico.

Entretanto, como vimos na Se¸c˜ao 2.3, ´e poss´ıvel realizarmos o aprendizado de parˆametros da fun¸c˜ao de ativa¸c˜ao atrav´es do algoritmo backpropagation, isto ´e, altera-se progressivamente os parˆametros, conforme realiza-se o treinamento da rede. Esta abordagem ´e interessante por permitir que um ajuste fino seja feito sem exigir testes exaustivos com as in´umeras combina¸c˜oes poss´ıveis. Na literatura

citada (AGOSTINELLI et al., 2015, HE et al., 2015, JIN et al., 2015, SCARDA- PANE et al., 2016, TROTTIER et al., 2016), diversas fun¸c˜oes adaptativas foram propostas a fim de serem utilizadas em conjunto com esta abordagem.

Podemos portanto nos valer desta t´ecnica para realizar o aprendizado dos parˆametros das fun¸c˜oes de ativa¸c˜ao hiperb´olicas propostas neste trabalho, de forma a contornar a complexa problam´atica da escolha dos parˆametros. Com isso, ser´a poss´ıvel gozarmos das vantagens de uma boa configura¸c˜ao de parˆametros, dispen- sando a custosa avalia¸c˜ao exaustiva. Finalmente, nomeamos nossas novas fun¸c˜oes, que se utilizam da t´ecnica adaptativa para realizar o aprendizado de seus parˆametros, os quais s˜ao discriminados juntamente.

Hiperb´olica adaptativa: ρ

Bi-hiperb´olica sim´etrica adaptativa: λ e τ Bi-hiperb´olica assim´etrica adaptativa: λ, τ1 e τ2

Cap´ıtulo 4

Avalia¸c˜ao experimental

Neste cap´ıtulo faremos a avalia¸c˜ao experimental de todas as fun¸c˜oes de ativa¸c˜ao propostas no presente trabalho, sendo a organiza¸c˜ao deste cap´ıtulo como segue: primeiro descreveremos os experimentos a serem realizados com seus objetivos indi- viduais; logo ap´os, a metodologia utilizada para para validar a proposta, descrevendo o dataset utilizado, configura¸c˜oes do experimento e m´etricas; por fim, apresentare- mos os resultados obtidos e faremos uma discuss˜ao das quest˜oes mais pertinentes observadas.

4.1

Objetivos dos experimentos

Primeiramente, ser˜ao feitas compara¸c˜oes das vers˜oes orginais das fun¸c˜oes hiperb´olica e bi-hiperb´olica com suas vers˜oes escaladas. Al´em disso, ser˜ao comparadas as fun¸c˜oes escaladas com algumas das fun¸c˜oes de ativa¸c˜ao mais convencionais: log´ıstica, tangente hiperb´olica e ReLU. Ap´os isso, avaliaremos as fun¸c˜oes hiperb´olica e bi- hiperb´olica escaladas, juntamente com a suaviza¸c˜ao hiperb´olica da ReLU, utlizando- se a abordagem adaptativa.

Para uma melhor organiza¸c˜ao do texto, nomeamos os experimentos de I a VII, cujos objetivos individuais s˜ao disciminados abaixo:

Experimento I Comparar o desempenho da fun¸c˜ao de ativa¸c˜ao hiperb´olica com a vers˜ao escalada apresentada neste trabalho.

Experimento II Comparar o desempenho da fun¸c˜ao de ativa¸c˜ao bi-hiperb´olica com a vers˜ao escalada apresentada neste trabalho.

Experimento III Comparar o desempenho da fun¸c˜ao de ativa¸c˜ao hiperb´olica es- calada proposta neste trabalho com as fun¸c˜oes de ativa¸c˜ao log´ıstica, tangente hiperb´olica e ReLU.

Experimento IV Comparar o desempenho da fun¸c˜ao de ativa¸c˜ao bi-hiperb´olica escalada proposta neste trabalho com as fun¸c˜oes de ativa¸c˜ao log´ıstica, tangente hiperb´olica e ReLU.

Experimento V Comparar o desempenho das fun¸c˜oes de ativa¸c˜ao hiperb´olicas adaptativas proposta neste trabalho com outras fun¸c˜oes param´etricas e/ou adaptativas da literatura recente, al´em de fun¸c˜oes tradicionais como a ReLU. Experimento VI Comparar o desempenho da fun¸c˜ao de ativa¸c˜ao bi-hiperb´olicas adaptativas com outras fun¸c˜oes param´etricas e/ou adaptativas da literatura recente, com limite reduzido de ´epocas e quantidade de camadas ocultas. Experimento VII Comparar o tempo m´edio gasto em cada ´epoca das fun¸c˜oes

hiperb´olicas em rela¸c˜ao a fun¸c˜oes tradicionais.

Documentos relacionados