• Nenhum resultado encontrado

Em Silva, Spatti e Flauzino (2010) neurônios artificiais são definidos como modelos simplificados dos neurônios biológicos, inspirados a partir da análise da geração e propagação de impulsos elétricos pela membrana celular dos neurônios proposto por Hodgkin e Huxley (1952).

Neurônios artificiais são em geral não-lineares, sua saída é contínua e realizam fun- ções simples, como coletar os valores de todas as suas entradas e misturá-los de acordo com sua função operacional e produzir uma resposta levando em consideração sua função de ativação (SILVA; SPATTI; FLAUZINO, 2010). O primeiro neurônio artificial foi concebido por McCul- loch e Pitts (1943), o qual tratava-se de uma simplificação do que se conhecia na época a respeito do funcionamento dos neurônios biológicos (BRAGA; CARVALHO; LUDERMIR, 2007).

A Figura 1 mostra um dentre os diversos modelos de neurônio artificial existentes, denominado neurônio 𝑘, que é largamente usado como base para projetos de RNAs. Nela é possível ver as entradas do neurônio, os pesos de cada entrada, a função que combina as entradas, a função de ativação e a saída.

Figura 1 – Modelo de neurônio artificial

x

1

y

k

b

k

x

2

...

x

n

w

k1

w

k2

...

w

kn

φ

Saída Função de ativação Junção aditiva Pesos sinápticos Sinais de entrada vk

Fonte: Adaptado de Haykin (2001).

O conjunto de entradas do neurônio 𝑘, também conhecido como elos de conexões, é definido por x(𝑛𝑘) = {𝑥1, 𝑥2, 𝑥3, . . . , 𝑥𝑛}, onde 𝑛 é o número total de entradas do neurônio 𝑛𝑘. Cada entrada 𝑥𝑖 ∈ x(𝑛𝑘) é ponderada por um peso sináptico 𝑤𝑘𝑖 associado, o qual é multiplicado pelo valor recebido na entrada. Na Figura 1 é possível ver que o valor da entrada 𝑥1 é aplicado ao peso sináptico 𝑤𝑘1 e o sinal correspondente é passado à junção aditiva.

Por sua vez, a Junção Aditiva (ou Combinador Linear) é responsável por somar todos os valores recebidos das entradas ponderadas pelos seus respectivos pesos sinápticos.

O neurônio 𝑘 possui ainda um valor de bias, também chamado de entrada de polarização ou ainda limiar de ativação, definido como 𝑏𝑘. Esse valor é acrescido na soma obtida pela Junção Aditiva, podendo assumir tanto valores positivos quanto negativos. O mais comum é utilizar 𝑏𝑘 = 1. Este também pode ser interpretado como mais um peso do neurônio.

Após a adição do bias, o valor 𝑣𝑘é submetido a função de ativação 𝜙(·). Esta, por sua vez, restringe a amplitude do resultado a um valor finito e insere um grau de não-linearidade à saída do neurônio. Tal amplitude é comumente definida como um intervalo unitário [0, 1] ou ainda [−1, 1].

Pode-se então definir matematicamente o neurônio artificial 𝑘 pela Equação 4.1

𝑦𝑘 = 𝜙 (︃[︃ 𝑛 ∑︁ 𝑖=1 𝑥𝑖𝑤𝑘𝑖 ]︃ + 𝑏𝑘 )︃ (4.1)

em que 𝑥1, 𝑥2, . . ., 𝑥𝑛 são os sinais de entrada, 𝑤𝑘1, 𝑤𝑘2, . . ., 𝑤𝑘𝑛são os pesos sinápticos, 𝑏𝑘é o bias, 𝜙(·) é a função de ativação e 𝑦𝑘é o valor de saída do neurônio 𝑘.

4.1.1 Tipos de Função de Ativação

Silva, Spatti e Flauzino (2010) definem a função de ativação como sendo responsável por limitar a saída do neurônio dentro de um intervalo de valores razoáveis a serem assumidos pela sua própria imagem funcional. Imagine um problema de classificação em que uma rede neural é usada para classificar amostras em duas classes: a função de ativação transforma a saída numérica do Combinador Linear em números que representam essas duas classes (por exemplo 0 ou 1).

Essas funções são divididas em dois grupos: parcialmente diferenciáveis e totalmente diferenciáveis. O primeiro grupo compreende as funções em que pelo menos um ponto não possui derivada de primeira ordem definida. As três principais são: degrau, degrau bipolar e rampa simétrica. A Equação 4.2 descreve a função degrau. Nela a saída numérica da rede é convertida para uma saída binária. Valores maiores ou iguais a 0 assumem o valor de 1 e, caso contrário, 0.

𝜙(𝑢) = {︃

1, se 𝑢 ≥ 0

0, se 𝑢 < 0 (4.2)

O Gráfico 5 ilustra a representação gráfica da função degrau. Nele é claro ver seu com- portamento binário.

Outra função de ativação parcialmente diferenciável é a degrau bipolar, também cha- mada de função sinal. Os valores provenientes dela são valores unitários positivos ou negativos, ou ainda valores nulos. Deste modo, se o valor for menor que 0 a função retornará o valor −1, ou 1, em caso contrário. Se o valor for exatamente 0 a saída é reproduzida. A Equação 4.3 descreve

Gráfico 5 – Função de ativação degrau.

Fonte: (SILVA; SPATTI; FLAUZINO, 2010).

o funcionamento dessa função.

𝜙(𝑢) = ⎧ ⎪ ⎨ ⎪ ⎩ 1, se 𝑢 > 0 0, se 𝑢 = 0 −1, se 𝑢 < 0 (4.3)

Quando aplicada em problemas de classificação, a função degrau bipolar pode ser al- terada para retornar apenas valores unitários positivos ou negativos. O Gráfico 6 ilustra este comportamento.

Gráfico 6 – Função de ativação degrau bipolar.

Fonte: (SILVA; SPATTI; FLAUZINO, 2010).

A última função de ativação parcialmente diferenciável é a rampa simétrica. Para esta é necessário definir um intervalo [−𝑎, 𝑎]. Se o limiar de ativação estiver dentro desse intervalo não é feita qualquer modificação em seu valor. Caso contrário ele deve ser alterado para o valor

mais próximo dentro do intervalo [−𝑎, 𝑎]. A Equação 4.4 apresenta sua definição matemática. 𝜙(𝑢) = ⎧ ⎪ ⎨ ⎪ ⎩ 𝑎, se 𝑢 > 𝑎 𝑢, se − 𝑎 ≤ 𝑢 ≤ 𝑎 −𝑎, se 𝑢 < −𝑎 (4.4)

O Gráfico 7 mostra o comportamento da função. Gráfico 7 – Função de ativação rampa simétrica

Fonte: (SILVA; SPATTI; FLAUZINO, 2010).

Em contrapartida das funções parcialmente diferenciáveis, o segundo grupo de funções de ativação, chamadas de funções totalmente diferenciáveis, compreende aquelas em que as derivadas de primeira ordem existem e são conhecidas para todos os pontos do seu domínio. As duas funções desse tipo que mais são utilizadas no contexto neural são a logística e tangente hiperbólica.

A função logística produz sempre valores reais compreendidos entre o intervalo de 0 e 1, sendo definida pela Equação 4.5

𝜙(𝑢) = 1

1 + 𝑒−𝛽𝑢 (4.5)

em que 𝛽 é um valor real previamente definido, associado ao nível de inclinação na função em relação ao seu ponto de inflexão. O papel realizado por 𝛽 fica mais evidente ao analisar o Gráfico 8.

Pelo Gráfico 8 verifica-se o formato geométrico da função logística em que, quanto maior for o valor assumido por 𝛽 (tendendo ao infinito), mais o comportamento da função se assemelhará com o da função degrau. Entretanto vale ressaltar que diferentemente da última, que não é diferenciável em todos os pontos, a função logística possui derivada de primeira ordem em todos os pontos do seu domínio.

Gráfico 8 – Função de ativação logistica.

Fonte: (SILVA; SPATTI; FLAUZINO, 2010).

No mesmo grupo das funções totalmente diferenciáveis, a segunda função é a Tangente Hiperbólica, tendo uma curva similar a da função logística suas saídas estão compreendidas no intervalo [−1, 1] sendo definida pela Equação 4.6.

𝜙(𝑢) = 1 − 𝑒 −𝛽𝑢

1 + 𝑒−𝛽𝑢 (4.6)

Aqui novamente o parâmetro 𝛽 está associado à inclinação da curva em relação a seu ponto de inflexão, tal comportamento é mais evidente ao observar o Gráfico 9 que apresenta a curva da função Tangente Hiperbólica.

Gráfico 9 – Função de ativação Tangente Hiperbólica.

Fonte: (SILVA; SPATTI; FLAUZINO, 2010).

Assim como ocorre para a função logística, analisando o Gráfico 9 nota-se que quanto maior for o valor de 𝛽 maior será a inclinação da função, de modo que para valores muito eleva- dos de 𝛽 o comportamento da função tangente hiperbólica se assemelhará ao da função degrau bipolar.

Documentos relacionados