Trabalhando com a retro-propaga¸c˜ ao - Algoritmo de retro-propaga¸c˜ ao

3.5 Algoritmo de retro-propaga¸c˜ ao

3.5.3 Trabalhando com a retro-propaga¸c˜ ao

A aplica¸c˜ao da regra delta envolve duas fases. Na primeira fase uma entrada ´e propagada para frente pela rede para computar os valores yp

o de cada nó de sa´ıda. Essa sa´ıda é comparada com o valor desejado do, resultando em um sinal de erro δop para cada nó de sa´ıda. Na segunda fase, o sinal de erro é passado pela rede de trás para frente de tal forma que seja poss´ıvel determinar as mudan¸cas nos pesos da rede [7].

Ajustes de pesos com fun¸cão de ativa¸cão sigmóide

Os resultados da se¸cão anterior podem ser resumidos em três equa¸cões [7]:

O peso de uma conexão é ajustado por uma quantidade proporcional ao produto de um sinal de erro δ, para um nó k recebendo uma entrada e uma sa´ıda do nó j enviando esse sinal ao longo da conexão:

∆pwjk = γδ p ky

j. (3.24)

Se o nó é um nó de sa´ıda, o sinal de erro será dado por δp_o = (dp_o− yp

o)F 0

(sp_o). (3.25)

Para o caso de uma fun¸c˜ao de ativa¸c˜ao F do tipo sigmoide, tem-se:

yp = F (Sp) = 1

A derivada ser´a igual a F0(sp) = ∂ ∂Sp 1 1 + esp = 1 (1 + e−sp )2(−e −sp ) = 1 (1 + e−sp ) e−sp (1 + e−sP ) = yp_{(1 − y}p_). (3.27)

Portanto, o sinal de erro para um n´o de sa´ıda pode ser escrito como: δ_op = (dp_o− yp o)y p o(1 − y p o). (3.28)

O sinal de erro para um nó escondido é determinado recursivamente em termos termos dos sinais de erros dos nós diretamente conectados a eles. Para a fun¸cão de ativa¸cão sigmóide:

δ_hp = F0(sp_h) No X o=1 δ_opwho = y p h(1 − y p h) No X o=1 δ_opwho. (3.29)

Taxa de aprendizagem e momento

O aprendizado de uma rede requer mudan¸cas nos pesos proporcionais a ∂EP_{/∂w. O gradiente} descendente requer passos infinitesimais. A taxa de aprendizagem γ é uma constante de aprendizado. Para fins práticos, escolhe-se uma taxa de aprendizado que seja a maior poss´ıvel afim de evitar oscila¸cões. Um caminho para evitar oscila¸cões com um γ grande, é fazer mudan¸cas nos pesos dependendo das mudan¸cas passadas pela adi¸cão de um momento [7]:

∆wjk(t + 1) = γδkpy p

j + α∆wjk(t), (3.30)

onde t indexa a apresenta¸cão numérica e α é uma constante que determina o efeito das mudan¸cas de peso anteriores.

Quando não se usa momentos, leva um tempo maior para que o m´ınimo seja atingido com uma taxa de aprendizagem baixa, por outro lado, se forem usadas taxas de aprendizagem muito altas, o m´ınimo nunca será atingido devido as oscila¸cões. Ao adicionar-se o momento, o m´ınimo poderá ser atingido mais rápido [7].

Aprendizagem por padr˜oes

Embora, teoricamente, o algoritmo de retro-propaga¸cão realize o gradiente descendente do erro total somente se os pesos tenham sidos ajustados depois de um conjunto completo de padrões, geralmente a regra de aprendizagem é aplicada para cada padrão separadamente. Por exemplo, se um padrão p é aplicado, Ep _´_{e calculado e os pesos s˜}_{ao adaptados. Existem indica¸c˜}_oes emp´ıricas que isso resulta em uma convergência mais rápida. Outro exemplo, quando usa-se a mesma sequência para treinamento, a rede pode se ater mais nos primeiros padrões. Esse problema pode ser superado pela utiliza¸cão de um método de treinamento por permuta [7].

Cap´ıtulo 4

Algoritmos Gen´eticos

Neste cap´ıtulo é apresentada a teoria dos algoritmos genéticos. O cap´ıtulo está dividido em introdu¸cão, histórico, terminologia, funcionamento e fundamenta¸cão teórica dos algoritmos genéticos.

4.1 Introdu¸c˜ao

Os mecanismos da evolu¸cão aparentam ser adequados para a resolu¸cão de muitos problemas computacionais. Em alguns problemas faz-se necessário uma busca em um número grande de poss´ıveis solu¸cões. Já em outros, é necessário que o programa seja adaptativo, ou seja, é necessário que o programa continue funcionando bem, mesmo que o ambiente esteja em constante mudan¸ca. Além desses, também existem problemas em que é necessário que o programa seja inovativo afim de se obter uma solu¸cão nova e original, como no caso de uma nova descoberta cient´ıfica. Esses vários tipos de problemas fizeram com que os pesquisadores buscassem solu¸cões do tipo bottom-up em que um conjunto de regras simples podem fazer com que comportamentos inteligentes emerjam [43, 44].

A evolu¸cão é um método de busca com uma enorme quantidade de poss´ıveis solu¸cões. Na Biologia, o conjunto de possibilidades é o conjunto das poss´ıveis sequências genéticas e as solu¸cões desejadas são os organismos mais adaptados. A evolu¸cão também pode ser vista como um meio de encontrar solu¸cões inovadores para problemas complexos. Visto por esse lado, os mecanismos de evolu¸cão podem inspirar métodos de busca computacionais. Além disso, a evolu¸cão é um método de busca massivamente paralelo: ao invés de trabalhar com uma espécie por vez, a evolu¸cão testa e modifica milhões de espécies em paralelo. Por fim, as regras da evolu¸cão são simples: espécies evoluem por meio de uma varia¸cão randômica, seguida pela sele¸cão natural em que o mais adaptados tendem a sobreviver e reproduzir. Apesar de simples, essas regras são responsáveis pela grande variedade e complexidade da vida na terra [43, 44].

Portanto, pode-se dizer que os algoritmos genéticos tem como objetivo a realiza¸cão de buscas, por exemplo: busca de uma solu¸cão numérica, busca do significado de uma expressão lingu´ıstica, busca de uma previsão de carga ou busca de qualquer outro elemento que tenha significado em uma determinada circunstância. Esse tipo de algoritmo é uma técnica de busca extremamente eficiente no seu objetivo de varrer o espa¸co de solu¸cões e encontrar solu¸cões próximas da solu¸cão ´

otima. Em outras palavras, os algoritmos genéticos são técnicas heur´ısticas de otimiza¸cão global

baseados nos mecanismos de sele¸c˜ao natural e gen´etica [8].

Nos algoritmos genéticos, popula¸cões de indiv´ıduos são criadas e submetidas aos operadores genéticos: sele¸cão, crossover e muta¸cão. Estes operadores utilizam uma caracteriza¸cão da qualidade de cada indiv´ıduo como solu¸cão do problema em questão e vão gerar um processo de evolu¸cão natural destes indiv´ıduos, que eventualmente gerará um indiv´ıduo que caracterizará uma boa solu¸cão para o problema [8].

Vale ressaltar que a evolu¸cão natural não é um processo dirigido à obten¸cão da solu¸cão ´

otima. Na verdade, o processo simplesmente consiste em fazer competir uma série de indiv´ıduos e pelo processo de sobrevivência do mais apto, os melhores indiv´ıduos tendem a sobreviver. Um algoritmo genético tem o mesmo comportamento que a evolu¸cão natural: a competi¸cão entre os indiv´ıduos é que determina as solu¸cões obtidas. Eventualmente, devido à sobrevivência do mais apto, os melhores indiv´ıduos prevalecerão [8].

4.2 Hist´orico

Durante os anos de 1950 e 1960, muitos cientistas da computa¸cão come¸caram a estudar sistemas evolucionários com a ideia de que a evolu¸cão poderia ser usada como uma ferramenta de otimiza¸cão em problemas de engenharia. A ideia era evoluir uma popula¸cão de solu¸cões candidatas de um dado problema usando operadores inspirados pela genética e sele¸cão natural [43].

Nos anos de 1960, Rechenberg introduziu as estratégias evolutivas, um método que ele usou em uma otimiza¸cão real. Schwegel desenvolveu ainda mais essa ideia. A área de estratégias evolutivas continuou como uma área de pesquisa com o desenvolvimento independente do campo dos algoritmos genéticos. Em 1966, Fogel, Owens e Walsh desenvolveram a programa¸cão evolutiva, uma técnica em que as solu¸cões candidatas de uma dada tarefa são representadas como máquinas de estado finito cujos estados são evolu´ıdos de forma aleatória e, então, são selecionadas os mais adaptados. Estratégias evolutivas, programa¸cão evolutiva e algoritmos genéticos juntos formam o campo da computa¸cão evolutiva [43].

Muitos outros trabalharam durante os anos de 1950 e 1960 no desenvolvimento de algoritmos inspirados na evolu¸cão para otimiza¸cão e aprendizagem de máquina. Box (1957), Friedman (1959), Bledsoe (1961), Bremermann (1962) e Reed, Toombs e Baricelli (1967) são alguns exemplos. Além deles, biólogos usaram computadores para simular a evolu¸cão cujos os resultados seriam usados em experimentos controlados. Nos primeiros dias dos computadores eletrônicos, os pesquisadores definitivamente tinha interesse na computa¸cão evolutiva [43].

Por fim, os algoritmos genéticos como conhecidos atualmente foram desenvolvidos por John Holland na década de 1960. A ideia de Holland era estudar formalmente os fenômenos da adapta¸cão e implementar em um sistema computacional. O livro de Holland de 1975 intitulado Adaptation in Natural and Artificial Systems apresentava os algoritmos genéticos como uma abstra¸cão da evolu¸cão biológica originando-se ferramentas para a utiliza¸cão da adapta¸cão em sistemas computacionais. O algoritmo genético de Holland consiste em mover uma popula¸cão de cromossomos para uma nova popula¸cão usando um tipo de sele¸cão natural junto com os operadores genéticos de crossover, muta¸cão e inversão. A grande inova¸cão de Holland foi a introdu¸cão de um algoritmo baseado em popula¸cões com crossover, inversões e muta¸cões. Além

No documento Estudo e implementação de redes neurais e algoritmos genéticos para resolução de cinemática inversa de um manipulador robótico com 5 graus de liberdade (páginas 49-53)