Fun¸cões de ativa¸cão hiperbólicas adaptativas

Existe um paradoxo inerente ao uso das fun¸cões de ativa¸cão paramétricas propostas neste trabalho, sobretudo no que tange ao tempo de treinamento da rede. Por um lado, fun¸cões de ativa¸cão com uma escolha de parâmetros adequadas podem ser

Figura 3.7: Compara¸c˜ao do gradiente minguante entre as fun¸c˜oes SH-ReLU e Softplus, com τ = 1. −10 −8 −6 −4 −2 0 x 0.0 0.2 0.4 0.6 0.8 f (x ) ReLU Softplus SH-ReLU

(a) Compara¸c˜ao das fun¸c˜oes ReLU, Softplus

e SH-ReLU. −20 −15 −10 −5 0 5 x 10−1 100 101 102 103 104 105 106 Raz ão Razão φ(x, τ)/σ(x) (b) Razão φ(x,ρ)_σ(x) .

capazes de atingir a convergência em menos épocas, e até mesmo com um resultado melhor. Por outro lado, faz-se necessário uma calibra¸cão de tais parâmetros, o que invariavelmente exige avalia¸cão de diferentes combina¸cões.

Esta avalia¸cão das diferentes combina¸cões pode ser feita através de técnicas de busca exaustiva, como o grid search, ou até mesmo através de técnicas de com- puta¸cão evolucionária. Seja qual for a alternativa para avalia¸cão das diferentes combina¸cões de parâmetros, será necessário um tempo tão grande para isso, que tornará o argumento de convergência mais rápida ilusório do ponto de vista prático. Também pode-se lan¸car um olhar sobre o tunning dos parâmetros exclusiva- mente na perspectiva de melhor qualidade nos resultados, de forma que não haja a problemática do paradoxo citado acima. Portanto, é poss´ıvel realizarmos um ajuste dos parâmetros a fim de atingirmos uma capacidade superior de generaliza¸cão da rede neural. Embora seja uma alternativa fact´ıvel para uso prático das fun¸cões paramétricas propostas, ainda assim haverá um grande overhead que não pode ser ignorado. Assim, passamos a tratar de uma alternativa interessante que possa ate- nuar estas questões.

Cabe notar também que a análise do impacto dos parâmetros no cross entropy, acurácia e quantidade de épocas revelou uma faixa favorável (se¸cões 4.3.1 e 4.3.2), a qual não necessariamente é a mesma para outros data sets e/ou arquitetura de rede. Tal problemática revela assim a dificuldade do uso destas fun¸cões hiperbólicas propostas do ponto de vista prático.

Entretanto, como vimos na Se¸cão 2.3, é poss´ıvel realizarmos o aprendizado de parâmetros da fun¸cão de ativa¸cão através do algoritmo backpropagation, isto é, altera-se progressivamente os parâmetros, conforme realiza-se o treinamento da rede. Esta abordagem é interessante por permitir que um ajuste fino seja feito sem exigir testes exaustivos com as inúmeras combina¸cões poss´ıveis. Na literatura

citada (AGOSTINELLI et al., 2015, HE et al., 2015, JIN et al., 2015, SCARDA- PANE et al., 2016, TROTTIER et al., 2016), diversas fun¸c˜oes adaptativas foram propostas a fim de serem utilizadas em conjunto com esta abordagem.

Podemos portanto nos valer desta técnica para realizar o aprendizado dos parâmetros das fun¸cões de ativa¸cão hiperbólicas propostas neste trabalho, de forma a contornar a complexa problamática da escolha dos parâmetros. Com isso, será poss´ıvel gozarmos das vantagens de uma boa configura¸cão de parâmetros, dispen- sando a custosa avalia¸cão exaustiva. Finalmente, nomeamos nossas novas fun¸cões, que se utilizam da técnica adaptativa para realizar o aprendizado de seus parâmetros, os quais são discriminados juntamente.

Hiperb´olica adaptativa: ρ

Bi-hiperbólica simétrica adaptativa: λ e τ Bi-hiperbólica assimétrica adaptativa: λ, τ1 e τ2

Cap´ıtulo 4

Avalia¸c˜ao experimental

Neste cap´ıtulo faremos a avalia¸cão experimental de todas as fun¸cões de ativa¸cão propostas no presente trabalho, sendo a organiza¸cão deste cap´ıtulo como segue: primeiro descreveremos os experimentos a serem realizados com seus objetivos individuais; logo após, a metodologia utilizada para para validar a proposta, descrevendo o dataset utilizado, configura¸cões do experimento e métricas; por fim, apresentare- mos os resultados obtidos e faremos uma discussão das questões mais pertinentes observadas.

4.1 Objetivos dos experimentos

Primeiramente, serão feitas compara¸cões das versões orginais das fun¸cões hiperbólica e bi-hiperbólica com suas versões escaladas. Além disso, serão comparadas as fun¸cões escaladas com algumas das fun¸cões de ativa¸cão mais convencionais: log´ıstica, tangente hiperbólica e ReLU. Após isso, avaliaremos as fun¸cões hiperbólica e bi- hiperbólica escaladas, juntamente com a suaviza¸cão hiperbólica da ReLU, utlizando- se a abordagem adaptativa.

Para uma melhor organiza¸c˜ao do texto, nomeamos os experimentos de I a VII, cujos objetivos individuais s˜ao disciminados abaixo:

Experimento I Comparar o desempenho da fun¸cão de ativa¸cão hiperbólica com a versão escalada apresentada neste trabalho.

Experimento II Comparar o desempenho da fun¸cão de ativa¸cão bi-hiperbólica com a versão escalada apresentada neste trabalho.

Experimento III Comparar o desempenho da fun¸cão de ativa¸cão hiperbólica escalada proposta neste trabalho com as fun¸cões de ativa¸cão log´ıstica, tangente hiperbólica e ReLU.

Experimento IV Comparar o desempenho da fun¸cão de ativa¸cão bi-hiperbólica escalada proposta neste trabalho com as fun¸cões de ativa¸cão log´ıstica, tangente hiperbólica e ReLU.

Experimento V Comparar o desempenho das fun¸cões de ativa¸cão hiperbólicas adaptativas proposta neste trabalho com outras fun¸cões paramétricas e/ou adaptativas da literatura recente, além de fun¸cões tradicionais como a ReLU. Experimento VI Comparar o desempenho da fun¸cão de ativa¸cão bi-hiperbólicas adaptativas com outras fun¸cões paramétricas e/ou adaptativas da literatura recente, com limite reduzido de épocas e quantidade de camadas ocultas. Experimento VII Comparar o tempo médio gasto em cada época das fun¸cões

hiperbólicas em rela¸cão a fun¸cões tradicionais.

No documento Publicações do PESC Funções de Ativação Hiperbólicas em Redes Neurais (páginas 37-41)