• Nenhum resultado encontrado

FUNC ¸ ˜ OES DE ATIVAC ¸ ˜ AO PARA FEEDFORWARD PERCEPTRONS

Nesta sec¸˜ao ser˜ao abordadas trˆes func¸˜oes de ativac¸˜ao pertencentes ao ambiente multicamadas, a sigm´oide, ReLu e softmax.

Ao tratar de perceptrons prim´arios como o modelo de McCulloch–Pitts, tem-se func¸˜oes que transmitem sinais de entrada praticamente inalterados, representando uma transformada linear (PATTERSON; GIBSON, 2017). Diferentemente das transformadas lineares, as func¸˜oes de ativac¸˜ao em FeedForward perceptrons trabalham com valores reais diversos para gerar aprendizado, transformando a n˜ao linearidade em algo compreens´ıvel (BUDUMA; LACASCIO, 2017).

Em redes MLP, a func¸˜ao de ativac¸˜ao mais frequentemente utilizada ´e a sigm´oide, tamb´em denominada sigm´oide log´ıstica (CHOW; CHO, 2007; GOODFELLOW et al., 2016). Como todas as transformac¸˜oes log´ısticas, a sigm´oide consegue reduzir valores extremos em

dados sem a necessidade de removˆe-los, ou seja, converte vari´aveis independentes com alcance quase tendendo ao infinito em probabilidades simples no intervalo entre 0 e 1 (PATTERSON; GIBSON, 2017). Intuitivamente, quando o modelo l´ogico ´e muito pequeno, a sa´ıda l´ogica do neurˆonio ´e muito pr´oxima de 0. Por outro lado, ao assumir um modelo l´ogico muito grande, a sa´ıda l´ogica do neurˆonio ´e pr´oxima de 1 (BUDUMA; LACASCIO, 2017). Isso remete `a insensibilidade que a func¸˜ao assume em relac¸˜ao a pequenas mudanc¸as em seus valores de entrada (GOODFELLOW et al., 2016). Esse comportamento gera um gr´afico em forma de “S” como mostrado na Figura 11. A definic¸˜ao da func¸˜ao sigm´oide ´e dada pela Equac¸˜ao 5, onde zrepresenta os valores reais de entrada (BUDUMA; LACASCIO, 2017).

f(z) = 1

1 + e−z (5)

Embora muito utilizada, a func¸˜ao sigm´oide possui desvantagens que acabam desencorajando seu uso. A saturac¸˜ao generalizada para valores altos e baixos nas unidades sigmoidais torna o aprendizado baseado em gradientes custoso. Entretanto, caso sejam utilizadas func¸˜oes de custo para remover a saturac¸˜ao na camada de sa´ıda, o aprendizado por gradiente se torna poss´ıvel. Essas func¸˜oes s˜ao mais apropriadas para redes recorrentes, modelos probabil´ısticos e auto decodificadores pois, apesar dos problemas de saturac¸˜ao, utilizam recursos que descartam o uso de func¸˜oes de ativac¸˜ao linear por partes (GOODFELLOW et al., 2016).

Figura 11 – Gr´afico da func¸˜ao sigm´oide log´ıstica. Fonte: (PATTERSON; GIBSON, 2017)

Outro modelo de n˜ao linearidade ´e descrito pela func¸˜ao ReLu (do inglˆes restricted linear unit neuron), neurˆonio de unidade linear restrita (BUDUMA; LACASCIO, 2017). Essa

transformac¸˜ao se torna mais interessante, pois a ativac¸˜ao do n´o s´o ocorre se o valor de entrada estiver acima de uma determinada quantidade limitante. Em n´umeros, caso esse valor esteja abaixo de zero, a sa´ıda assume sempre valor 0. No ponto em que os valores ultrapassam um certo limite, a sa´ıda acaba gerando uma relac¸˜ao linear com a vari´avel dependente. Essa configurac¸˜ao estabelece a Equac¸˜ao 6 para a func¸˜ao ReLu (PATTERSON; GIBSON, 2017). Seu comportamento ´e demonstrado na Figura 12.

f(z) = max(0, z) (6)

Figura 12 – Gr´afico do comportamento da func¸˜ao ReLu. Fonte: (PATTERSON; GIBSON, 2017).

Segundo Patterson e Gibson (2017) as unidades lineares retificadas s˜ao o atual estado da arte pois provaram-se eficientes para diferentes aplicac¸˜oes. S˜ao f´aceis de otimizar devido `a semelhanc¸a com as unidades lineares. Tal como mostrado no gr´afico da Figura 12, metade de seu dom´ınio ´e 0, fazendo com que o resultado de derivadas atrav´es da func¸˜ao de retificac¸˜ao permanec¸a grande e consistente sempre que a unidade estiver ativa. Matematicamente, na operac¸˜ao de retificac¸˜ao, a segunda derivada ´e 0 em quase toda parcela, recebendo 1 nos lugares ativos da unidade. Essa caracter´ıstica induz a importˆancia da direc¸˜ao do gradiente na utilidade ao aprendizado da rede (GOODFELLOW et al., 2016).

uma desvantagem em relac¸˜ao ao aprendizado. Em exemplos nos quais sua ativac¸˜ao ´e zero, a aprendizagem por meio de gradientes se torna nula. Existem algumas generalizac¸˜oes que capacitam as unidades lineares retificadoras a receber gradiente em todo lugar. Tanto as ReLu propriamente ditas, como suas generalizac¸˜oes s˜ao baseadas no princ´ıpio de que os modelos s˜ao mais facilmente otimizados quando o comportamento se aproxima do linear.

A ´ultima func¸˜ao de ativac¸˜ao abordada nesta sec¸˜ao ´e a chamada func¸˜ao softmax. A softmax pode ser considerada como um tipo de func¸˜ao sigm´oide, por´em, ´e muito utilizada em redes neurais com o prop´osito de resolver problemas de classificac¸˜ao (BUDUMA; LACASCIO, 2017). Como referido anteriormente, a func¸˜ao sigm´oide realiza a classificac¸˜ao das entradas no neurˆonio em duas classes distintas. Entretanto, para problemas maiores, apenas duas classes n˜ao s˜ao suficientes. A func¸˜ao softmax transforma as sa´ıdas de cada classe em valores entre 0 e 1, dividindo pelo somat´orio de sa´ıdas. Esse procedimento desmascara a principal caracter´ıstica dessa func¸˜ao: trabalhar com vetores de probabilidade para um valor de entrada associando-o `a uma determinada sa´ıda. ´E definida pela Equac¸˜ao 7, onde i representa o ´ındice do neurˆonio de sa´ıda e j os ´ındices de todos os neurˆonios de um n´ıvel (GOODFELLOW et al., 2016; PATTERSON; GIBSON, 2017).

so f tmax(x)i=

e(xi)

∑nj=1e(xj)

(7)

Como exemplo num´erico, considera-se o vetor de sa´ıdas [1,2, 0,9, 0,75]. Ao aplicar a func¸˜ao softmax, tem-se como vetor resultado [0.42, 0.31, 0.27]. Esse vetor resultante pode, ent˜ao, ser usado como probabilidades para definir a qual classe pertence cada valor de entrada (ACADEMY, 2018).

A escolha de uma func¸˜ao de ativac¸˜ao depende ´unica e exclusivamente do problema a ser resolvido por uma rede neural. Em resumo, saber que a sigm´oide e suas ramificac¸˜oes, juntamente com a softmax resolvem problemas de classificac¸˜ao e que a func¸˜ao ReLu ´e usada na camada oculta do escopo neural, fornece uma orientac¸˜ao sobre onde e como aplicar essas func¸˜oes.

Documentos relacionados