Fundamentos - Estudo e implementação de redes neurais e algoritmos genéticos para resolução de

aprendizado que utiliza o método do gradiente descendente de minimiza¸cão. Essa regra ficou conhecida como regra Delta ou Widrow-Hoff e é também bastante utilizada atualmente [38,41,42].

Em 1958, Rosenblatt demonstrou a rede neural perceptron que apresentavam sinapses ajus- táveis que podiam ser treinadas para reconhecimento de certos tipos de padrões. Rosenblatt descreveu uma topologia de RNA, estruturas de liga¸cões entre os neurônios e, o mais importante, propôs um algoritmo para treinar a rede para executar determinados tipos de fun¸cões. A rede descrita por Rosenblatt possui 3 camadas, uma camada que recebe os dados de entrada, uma camada intermediária com pesos ajustáveis e uma camada de sa´ıda de dados. A rede perceptron ´

e capaz de atuar como um classificador de padr˜oes [38, 42].

Apesar do grande interesse inicial pelo estudo das RNAs, na década de 1970, esse interesse diminuiu drasticamente. Isso aconteceu devido ao trabalho de Minsky e Papert em 1969. Eles mostraram que as redes perceptron não eram capaz de realizar tarefas consideradas simples. Por exemplo, as redes perceptron não eram capazes de detectar paridade, conectividade e simetria, que são problemas não-linearmente separáveis. A cr´ıtica de Minsky e Papert residia no fato do problema do crescimento explosivo, tanto de espa¸co ocupado como do tempo requerido para a solu¸cão de problemas complexos. Além disso, eles argumentaram que não existia um algoritmo que garantisse convergência para redes perceptron com mais de uma camada. Atualmente, os argumentos de Minsk e Papert podem ser vistos como bastante pessimistas já que hoje as redes neurais são capazes de resolver problemas não-linearmente separáveis e não sofrem do problema do crescimento explosivo [42].

O campo das redes neurais se tornou novamente de interesse dos pesquisados a partir da década de 1980. Em 1982, Hopfield publicou um artigo que chamou a aten¸cão para as propriedades associativas das RNAs. Hopfield mostrou a rela¸cão entre redes recorrentes auto- associativas e sistemas f´ısicos. Anos mais tarde pesquisadores desenvolveram o algoritmo de treinamento back-propagation, retro-propaga¸cão. O que mostrou que as ideias de Minsk e Papert eram na realidade muito pessimista e que redes neurais podem aprender até mesmo problemas considerados complexos. O que também ajudou no ressurgimento do interesse nas redes neurais foi o desenvolvimento de computadores mais potentes [38, 42].

Atualmente, diversos pesquisadores continuam interessados em desenvolver trabalhos rela- cionados as redes neurais. O foco atual é o desenvolvimento de técnicas de aprendizagem que convirjam mais rápido [42]. Além disso, também há a tentativa de implementar as redes neurais diretamente no n´ıvel de hardware [42]. Não obstante, existe a tentativa de solucionar diversos problemas atuais pela utiliza¸cão desse tipo de rede. Portanto, as redes neurais continuam sendo uma área promissora para pesquisa e desenvolvimento de novas tecnologias.

3.3 Fundamentos

3.3.1 Um framework para representa¸c˜ao distribu´ıda

Uma rede neural artificial consiste de um conjunto de unidades de processamento simples que se comunicam enviando sinais entre si por um grande n´umero de conex˜oes ponderadas [7].

Um conjunto de unidades de processamento ou nós, neurônios ou células;

Um estado de ativa¸cão yk para cada unidade, que é equivalente a sa´ıda da unidade; Conexões entre as unidades. Geralmente cada conexão é definida por um peso wjk que

determina o efeito do sinal;

Uma regra de propaga¸c˜ao, que determina a entrada efetiva sk de uma unidade em rela¸c˜ao `

as v´arias entradas externas;

Uma fun¸cão de ativa¸cão, também chamada de fun¸cão de transferência, Fk, que determina o novo n´ıvel de ativa¸cão baseado na entrada efetiva e na ativa¸cão atual;

Uma entrada externa, chamada de bias ou offset, θk, para cada unidade; Um m´etodo para reunir informa¸c˜ao, a regra de treinamento;

Um ambiente dentro do qual o sistema precisa operar, provendo sinais de entrada e sinais de erro.

A Figura 3.2 ilustra os aspectos discutidos acima em uma RNA.

Figura 3.2: Componentes de uma Rede Neural Artificial, adaptado de [7].

3.3.2 N´os de processamento

Cada nó realiza um trabalho simples: receber uma entrada de seus vizinhos ou de uma fonte externa e usá-la para calcular um sinal de sa´ıda que irá se propagar para outras unidades. Uma segunda tarefa é o ajuste de pesos. O sistema é inerentemente paralelo, porque muitos nós podem operar ao mesmo tempo [7].

Faz-se necessário distinguir três tipos de nós: nós de entradas, que recebem dados de fora da rede, nós de sa´ıda que enviam dados para fora da rede e nós escondidos cujas entradas e sa´ıdas permanecem dentro da rede. [7].

Durante a opera¸cão da rede, os nós podem ser atualizados de forma sincronizada ou não sincronizada. Na atualiza¸cão sincronizada todos os nós atualizam suas ativa¸cões de forma

3.3. Fundamentos 25

simultânea. Na atualiza¸cão não sincronizada, cada nó tem uma probabilidade de atualizar sua ativa¸cão durante um certo tempo, geralmente apenas um nó será capaz de consegui isso durante esse tempo [7].

3.3.3 Conex˜oes entre n´os

Na maioria dos casos assume-se que cada nó provê uma contribui¸cão positiva a entrada do nó conectado a ele. A entrada total do nó k é simplesmente a soma ponderada das sa´ıdas de cada nó conectado mais o bias ou offset θk [7]:

sk(t) = X

wjk(t)yj(t) + θk(t). (3.1)

Uma contribui¸cão positiva de wjk é considerada uma excita¸cão e uma contribui¸cão negativa de wjk é considerada uma inibi¸cão. Em alguns casos mais complexos, regras para combinar entradas são usadas fazendo-se uma distin¸cão entre entradas excitatórias e inibitórias. Os nós que utilizam a regra de propaga¸cão 3.1 são chamados de nós sigma [7].

Existe uma regra diferente de propaga¸c˜ao, chamada de sigma-pi:

sk(t) = X j wjk(t) Y m yjm(t) + θk(t). (3.2)

Geralmente, os yjm s˜ao ponderados antes da multiplica¸c˜ao [7].

3.3.4 Ativa¸c˜ao e regras de sa´ıda

Faz-se necessário, a utiliza¸cão de uma regra que determine o efeito da entrada total na ativa¸cão do nó. É necessário, uma fun¸cão Fk que tome a entrada total sk(t) e a ativa¸cão atual yk(t) e produza um novo valor de ativa¸cão para o nó k [7]:

yk(t + 1) = Fk(yk(t), sk(t)). (3.3) Geralmente, a fun¸cão de ativa¸cão é uma fun¸cão não-decrescente da entrada total da unidade:

yk(t + 1) = Fk(sk(t)) = Fk(sk(t)) = Fk( X

wjk(t)yj(t) + θk(t)), (3.4)

embora uma fun¸cão de ativa¸cão não seja restrita a fun¸cões não-decrescentes. Alguns exemplos de fun¸cões de ativa¸cões usadas em redes neurais são mostradas na Figura 3.3. A fun¸cão sigmoide ´

e um tipo comum de fun¸c˜ao de ativa¸c˜ao usada em redes neurais:

yk= F (sk) = 1

1 + e−sk. (3.5)

Em algumas aplica¸cões a tangente hiperbólica é utilizada, produzindo valores de sa´ıda entre -1 e +1 [7].

Figura 3.3: Exemplos de fun¸cões de ativa¸cão: (a) fun¸cão sgn, (b) fun¸cão semi-linear, (c) fun¸cão sigmoide. Adaptado de [7].

Em alguns casos, a sa´ıda do nó pode ser uma fun¸cão estocástica da entrada total do nó. Nesse caso, a ativa¸cão não é determinada de forma determ´ıstica pela entrada do neurônio, mas a entrada do nó determina a probabilidade p do neurônio atingir um valor alto de excita¸cão:

p(yk ← 1) = 1 1 + e−skT

, (3.6)

onde T é um parâmetro que determina a inclina¸cão da fun¸cão de probabilidade [7].

3.3.5 Topologias de redes

A topologia de uma RNA está associada com seu padrão de conexões entre os nós e a propaga¸cão dos dados. Existem dois tipos principais de topologia [7]:

Redes feed-forward, onde o fluxo de dados dos nós de entrada para os nós de sa´ıda é estritamente direto. O processamento de dados pode se estender a várias camadas de nós, mas nenhuma conexão de realimenta¸cão está presente.

Redes recorrentes que contém conexões de realimenta¸cão. Ao contrário das redes do tipo feed-forward, as propriedades dinâmicas desta rede são importantes. Em alguns casos, os valores de ativa¸cão dos nós sofrem um processo de relaxa¸cão tal que a rede evolui para um estado estável em que não há mais varia¸cões nas ativa¸cões.

3.3.6 Treinamento de redes neurais artificiais

Uma rede neural precisa ser configurada para que a aplica¸cão de um conjunto de entradas produza um conjunto de sa´ıdas desejadas. Existem vários métodos para configurar o peso das conexões. Uma maneira é configurar os pesos explicitamente, usando conhecimentos a priori. Outra maneira é treinar e ensinar padrões à rede deixando que os pesos mudem de acordo com uma regra de treinamento.

Paradigmas de aprendizagem

Existem dois tipos de aprendizagem [7]:

Aprendizagem supervisionada na qual a rede é treinada utilizando-se entradas e padrões de sa´ıda fornecidos. Os pares de entrada e sa´ıda podem ser fornecidos por uma fonte externa, ou pelo sistema que contém a rede.

No documento Estudo e implementação de redes neurais e algoritmos genéticos para resolução de cinemática inversa de um manipulador robótico com 5 graus de liberdade (páginas 41-45)