Algoritmos de Aprendizado

(1)

Algoritmos de Aprendizado

Algoritmos de Aprendizado •Regra de Hebb

•Perceptron

•Delta Rule (Least Mean Square)

•Multi-Layer Perceptrons (Back Propagation)

•Hopfield

•Competitive Learning •Radial Basis Function

Multi

Multi--Layer PerceptronsLayer Perceptrons

• Redes de apenas uma camadauma camada só

representam funções linearmentelinearmente separáveis

(2)

Multi

• Redes de apenas uma camada só representam funções linearmente separáveis

• Redes de múltiplas camadasmúltiplas camadas

solucionam essa restrição

Multi

Rede de 3 camadas: 5 / 5 / 3 / 4

(3)

Multi

• Redes de apenas uma camada só representam funções linearmente separáveis

• Redes de múltiplas camadas

solucionam essa restrição

• O desenvolvimento do algoritmo BackBack

Propagation

Propagation foi um dos motivos para o ressurgimentoressurgimento da área de RedesRedes

Neurais

Back Propagation

• O grande desafiodesafio foi achar um algoritmo

de aprendizado para a atualização dosatualização dos

pesos

(4)

• O grande desafiodesafio foi achar um algoritmo

de aprendizado para a atualização dosatualização dos

pesos

pesos das camadas intermediárias.

• Idéia Central:

– Os erroserros dos elementos processadores da

camada de saída

camada de saída (conhecidos pelo treinamentotreinamento supervisionado

supervisionado) são retro-propagadosretro-propagados para as

camadas intermediárias camadas intermediárias Back Propagation Back Propagation Padrão de Entrada: vetor X x₁ x₂ x_i s_j net_j w_j1 w_j2 w_ji Bias = θ_j +1

(5)

•

• Características Básicas:Características Básicas:

•

(6)

•

– Regra de Propagação net_j = Σ x_i.w_ji+ θ_j – Função de Ativação Função NNãão-Linearo-Linear,

diferenci

diferenciáávelvel em todos os pontos.

•

diferenci

diferenciáávelvel em todos os pontos. – Topologia MMúúltiplasltiplas camadas.

(7)

•

diferenci

– Algoritmo de Aprendizado Supervisionado

•

diferenci

– Algoritmo de Aprendizado Supervisionado – Valores de Entrada/Saída Binários e/ou

(8)

Back Propagation Back Propagation Topologia: Topologia: PE₁ Camadas Escondidas Camada Camada de Saída de Saída Entrada Entrada PE_m PEk PEj PEi PE1 PE₁ PE₁ Processo de Aprendizado Processo de Aprendizado • Processo de minimizaçãominimização do erro

quadrático pelo método do GradienteGradiente

Descendente

Descendente ∆w_ji = -η δE

(9)

Processo de Aprendizado

Processo de Aprendizado • Processo de minimizaçãominimização do erro

quadrático pelo método do GradienteGradiente

Descendente

Descendente ∆w_ji = -η δE

δw_ji

• Cada peso peso sinsináápticoptico i i do elemento processador jj é atualizado

proporcionalmente ao negativo danegativo da

derivada parcial do erro

derivada parcial do erro deste

processador com relação ao peso.

Processo de Aprendizado Onde o erro quadrático do processador j

referente ao padrão p é definido como:

• Ep_j = 1 (tp_j - sp_j)2 2

• tp_j= valor desejado de saída do padrão p para o processador j da camada de saída

• sp_j = estado de ativação do processador j da camada de saída ao se apresentar o padrão p

(10)

Processo de Aprendizado Na verdade, deve-se minimizarminimizaro erro de

todos os processadores

todos os processadores da camada de saída, para todos os padrõestodos os padrões

Usa-se o EE_SSE_SSE SSum of um of SSquared quared EErrorsrrors

E

E_SSE_SSE SSum of um of SSquared quared EErrorsrrors • E_SSE = 1 Σ_p Σ_j (t_pj - s_pj)2

2

• t_pj= valor desejado de saída do padrão p para o processador j da camada de saída

• s_pj = estado de ativação do processador j da camada de saída quando apresentado o padrão p

(11)

Cálculo de Cálculo de

∆

w

_ji_ji ∆w_ji = -η δE_p δw_ji Cálculo de Cálculo de

∆

w

_ji_ji ∆w_ji = -η δE_p = - η δE_p δnet_j δw_jiδnet_jδw_ji

(12)

Cálculo de

∆

w

_ji_ji ∆w_ji = -η δE_p = - η δE_p δnet_j δw_jiδnet_jδw_ji e e_j_j e_j = - δE_p δnet_j Cálculo de Cálculo de

∆

w

_ji_ji ∆w_ji = -η δE_p = - η δE_p δnet_j δw_jiδnet_jδw_ji net_j = Σ s_i.w_ji+ θ_j e_j = - δE_p δnet_j e e_j_j

(13)

Cálculo de

∆

w

_ji_ji ∆w_ji = -η δE_p = - η δE_p δnet_j δw_jiδnet_jδw_ji net_j = Σ s_i.w_ji+ θ_j e e_j_j s s_i_i e_j = - δE_p δnet_j Cálculo de Cálculo de

∆

w

_ji_ji ∆w_ji = -η δE_p = - η δE_p δnet_j δw_jiδnet_jδw_ji

net_j = Σ s_i.w_ji+ θ_j

∆w_ji = η . ee_j_j . ss_i_i e_j = - δE_p

(14)

Cálculo de

Cálculo de ee_j_j

Cálculo de

(15)

Cálculo de

e_j = -δE_p δnet_j

Depende da camada à qual o processador jj pertence:

Cálculo de Cálculo de ee_j_j δE_p= δE_p . δs_j δnet_jδs_j δnet_j e_j = -δE_p δnet_j

(16)

Cálculo de Cálculo de ee_j_j δE_p= δE_p . δs_j δnet_jδs_j δnet_j s_j = F(net_j) e_j = -δE_p δnet_j

F

(17)

F F’’((netnet_j_j)) Cálculo de Cálculo de ee_j_j δE_p= δE_p . δs_j δnet_jδs_j δnet_j s_j = F(net_j) e_j = -δE_p δnet_j

F

F’’((netnet_j_j)) Se j ∈ Camada de Saída ☺

(18)

Cálculo de Cálculo de ee_j_j j j ∈∈Camada de SaCamada de Saíídada δE_p= δE_p . δs_j δnet_jδs_j δnet_j sj = F(netj) ej = -δEp δnet_j F F’’((netnet_j_j)) E Ep_p==ΣΣjj 1 ( 1 (ttjj - - s sjj))2 2 2 2 Cálculo de Cálculo de ee_j_j j j ∈∈Camada de SaCamada de Saíídada δE_p= δE_p . δs_j δnet_jδs_j δnet_j s_j = F(net_j) e_j = -δE_p δnet_j F F’’((netnet_jj)) E E_p_p==ΣΣ_j_j 1 ( 1 (tt_j_j - - s s_j_j))2 2 2 2 [[ 2 . 2 . 1 (1 (tt_j_j - - s s_j_j).(-1)]).(-1)] 2 2

(19)

Cálculo de Cálculo de ee_j_j j j ∈∈Camada de SaCamada de Saíídada δE_p= δE_p . δs_j δnet_jδs_j δnet_j sj = F(netj) ej = -δEp δnet_j F F’’((netnet_j_j)) E Ep_p==ΣΣjj 1 ( 1 (ttjj - - s sjj))2 2 2 2 [[ 2 . 2 . 1 (1 (tt_j_j - - s s_j_j).(-1)]).(-1)] 2 2

e_j== - - [ [ --((tt_j_j - - s s_j_j) ] ) ] . . FF’’((netnet_j_j))= = (t_j - s_j) F’(net_j)

Cálculo de

j

j ∈∈Camada EscondidaCamada Escondida

δE_p= δE_p . δs_j δnet_jδs_j δnet_j s_j = F(net_j) e_j = -δE_p δnet_j F F’’((netnet_jj)) E E_p_p = f( = f(s_j) = ?) = ?

(20)

• Pelo aprendizado supervisionadoaprendizado supervisionado, só se conhece o erro na camada de saerro na camada de saíídada((ee_k_k)); • Erro na saída ((ee_k_k)) é função do potencialpotencial

interno

interno do processador ((netnet_k_k););

• O net_k depende dos estados de ativaestados de ativaçãçãoo dos processadores da camada anterior ((ss_j_j) ) e dos pesos das conexões ((ww_kj_kj););

• Portanto, ss_j_j de uma camada escondida afeta, em maior ou menor grau

em maior ou menor grau, o erro de todos os processadores da camada subsequente.

Cálculo de

j

F(net) Processador j j da camada escondida PE₁ PE2 PE_k w_1j w_2j w_kj e₁ Cálculo de Cálculo de ee_j_j j

s_j s_j

s_j

e₂

(21)

Cálculo de

j

δE_p= δE_p . δs_j δnet_jδs_j δnet_j sj = F(netj) ej = -δEp δnet_j F F’’((netnet_j_j)) δ E E_p_p = = δ [ 1 Σ_k (t_k - s_k)2_] δs_j δs_j 2 Cálculo de Cálculo de ee_j_j j

δE_p= δE_p . δs_j δnet_jδs_j δnet_j s_j = F(net_j) e_j = -δE_p δnet_j F F’’((netnet_jj)) δ E E_p_p = = δ [ 1 Σ_k (t_k - s_k)2_] δs_j δsj 2 = 2. 1 [ Σ_k (t_k - s_k) ] .(-1). δs_k 2 δs_j

(22)

Cálculo de

j

δE_p= δE_p . δs_j δnet_jδs_j δnet_j sj = F(netj) ej = -δEp δnet_j F F’’((netnet_j_j)) δ E E_p_p = = δ [ 1 Σ_k (t_k - s_k)2_] δs_j δs_j 2 = 2. 1 [ Σ_k (t_k - s_k) ] .(-1). δs_k 2 δs_j

= - [ Σk (tk - sk) ] . FF’’((netnetkk) . ) . δδnetnetkk

δδssjj

Cálculo de

j

δδssjj

(23)

Cálculo de

j

δE_p= δE_p . δs_j δnet_jδs_j δnet_j sj = F(netj) ej = -δEp δnet_j F F’’((netnet_j_j)) δ E E_p_p = = δ [ 1 Σ_k (t_k - s_k)2_] δs_j δs_j 2 = 2. 1 [ Σ_k (t_k - s_k) ] .(-1). δs_k 2 δs_j

= - [ Σk (tk - sk) ] . FF’’((netnetkk) . ) . δδnetnetkk δδssjj e_j= - {- = - {- Σ_ke_k. . ww_kj_kj} . F} . F’’((netnet_j_j)) Cálculo de Cálculo de ee_j_j j

δδssjj

(24)

Processo de Aprendizado • Em resumo, após o cálculo da derivada,

tem-se:

–∆w_ji= η.s_i.e_j

Onde:

s_i valor de entrada recebido pela conexão ii

e_j valor calculado do erro do processador jj

Cálculo do Erro (

(25)

Cálculo do Erro ( Cálculo do Erro (ee_j_j)) Processador j pertence à Processador j pertence à Camada de Saída Camada de Saída:: Cálculo do Erro ( Cálculo do Erro (ee_j_j)) Processador j pertence à Processador j pertence à Camada de Saída Camada de Saída:: e_j = (t_j - s_j). δ F(net) δ net

(26)

Cálculo do Erro ( Cálculo do Erro (ee_j_j)) Processador j pertence à Processador j pertence à Camada de Saída Camada de Saída:: e_j = (t_j - s_j). δ F(net) δ net F(net) wji s s_i_i saída:ss_j_j Processador j j da camada de saída Valor desejado de saída: ttjj Cálculo do Erro ( Cálculo do Erro (ee_j_j)) Processador j pertence à Processador j pertence à Camada Escondida Camada Escondida::

(27)

Cálculo do Erro ( Cálculo do Erro (ee_j_j)) Processador j pertence à Processador j pertence à Camada Escondida Camada Escondida:: e_j = (Σ e_k.w_kj).δ F(net) δ net Cálculo do Erro ( Cálculo do Erro (ee_j_j)) Processador j pertence à Processador j pertence à Camada Escondida Camada Escondida:: e_j = (Σ e_k.w_kj).δ F(net) δ net F(net) w_ji s s_i_i Processador j j da camada escondida PE1 PE₂ PEk w_1j w_2j w_kj e₁ e₂ e_k

(28)

Processo

Processo de de AprendizadoAprendizado

O algoritmo Back Propagation tem portanto

duas fases, para cada padrão apresentado:

Processo

–

–Feed-Forward Feed-Forward as entradasentradas se propagam pela rede, da camada de entrada até a

(29)

Processo

–

–FeedFeed--Forward Forward as entradasentradas se propagam pela rede, da camada de entrada até a

camada de saída. –

–FeedFeed--BackwardBackward oserros se propagamerros na diredireção contrção contráária ao fluxo de dadosria ao fluxo de dados, indo da camada de saída até a primeira camada escondida.

Processo de Aprendizado Fase 1: Feed-Forward

PE₁

2 Camadas Escondidas CamadaCamada

de Saída de Saída Entrada Entrada PE_m PE PE1 PE₁ Valor de entrada Fluxo de Dados Fluxo de Dados

(30)

Processo de Aprendizado Processo de Aprendizado PE₁ Camada Camada de Saída de Saída Entrada Entrada PE_m PEk PEi PE1 PE₁ Valor de entrada Fase 1: Feed-Forward 2 Camadas Escondidas Fluxo de Dados Fluxo de Dados Processo de Aprendizado Processo de Aprendizado PE₁ Camada Camada de Saída de Saída Entrada Entrada PE_m PE PE1 PE₁ Valor de entrada Fase 1: Feed-Forward 2 Camadas Escondidas Fluxo de Dados Fluxo de Dados

(31)

Processo de Aprendizado Processo de Aprendizado PE₁ Camada Camada de Saída de Saída Entrada Entrada PE_m PEk PEi PE1 PE₁ Valor de entrada Fase 1: Feed-Forward 2 Camadas Escondidas Fluxo de Dados Fluxo de Dados Processo de Aprendizado Processo de Aprendizado PE1 PE_m PE_k PE_i PE₁ PE1 Valor alvo Fase 2: Feed-Backward

Cálculo do erro da camada de saída

s s_m_m s s₂2 s s₁₁ t t_mm t t₂₂ t t₁1 Fluxo de Erros Fluxo de Erros

(32)

Processo de Aprendizado Processo de Aprendizado PE1 PEm PE_k PE_i PE₁ PE1 Fase 2: Feed-Backward

Atualização dos pesos da camada de saída

s s_m_m s s₂2 s s₁₁ t t_mm t t₂₂ t t₁1 em e₁ e1 e1 e₁ e_m e_mem w w₂₁₂₁ w w_mk_mk w w₁₁₁₁ w wm1_m1 ∆w_mk= η.sk.em ∆w_mk= η.s_k.e_m Fluxo de Erros Fluxo de Erros Processo de Aprendizado Processo de Aprendizado PE1 PE_m PE_k PE_i PE₁ PE1 Fase 2: Feed-Backward

Cálculo do erro da 2° camada escondida

s s_m_m s s₂2 s s₁₁ t t_mm t t₂₂ t t₁1 em e₁ e₁ e1 e₁ e_m e_mem w w₂₁₂₁ w w_mkmk w w₁₁₁₁ w wm1_m1 Fluxo de Erros Fluxo de Erros

(33)

Processo de Aprendizado Processo de Aprendizado PE1 PEm PE_k PE_i PE₁ PE1 Fase 2: Feed-Backward

Atualização dos pesos da 2° camada escondida

∆w_ki= η.si.ek ∆ ∆ww_ki_ki= = ηη.s.s_i_i..ee_k_k e₁ ek ek e_k ek e₁ e₁ e1 w w_ki_ki w w₃₁₃₁ w wk1_k1 w w21₂₁ w w₁₁11 Fluxo de Erros Fluxo de Erros Processo de Aprendizado Processo de Aprendizado PE1 PE_m PE_k PE_i PE₁ PE1 Fase 2: Feed-Backward

Cálculo do erro da 1° camada escondida

e₁ ek ek e_k ek e₁ e₁ e1 w w_ki_ki w w₃₁₃₁ w wk1_k1 w w₂₁₂₁ w w₁₁11 Fluxo de Erros Fluxo de Erros

(34)

Processo de Aprendizado Processo de Aprendizado PE₁ PE_m PEk PE_j PE₁ PE₁ Fase 2: Feed-Backward

Atualização dos pesos da 1° camada escondida

∆w_ji= η.s_i.e_j ∆ ∆ww_ji_ji= = ηη.s.s_i_i..ee_j_j e_j ej e_j ej e1 e₁ e₁ e₁ Fluxo de Erros Fluxo de Erros w w_j3_j3 w w_ji_ji w w_j2_j2wwj1j1 Processo de Aprendizado Processo de Aprendizado Este procedimento de aprendizado é

repetido

repetido diversas vezesdiversas vezes, até que, para

todos os processadores da camada de todos os processadores da camada de saída

saída e para todos os padrões detodos os padrões de treinamento

treinamento, o , erro erro seja menor do que o especificado.

(35)

Algoritmo de Aprendizado

Inicialização

Inicialização::

pesos iniciados com valores aleatórios e pequenos ((||ww|≤|≤0.1)0.1)

Inicialização

Treinamento:

Loop até que o erroerro de cada processador de saída seja ≤≤tolertolerâânciancia, para todos os padrões do conjunto de treinamento.

(36)

Inicialização

Treinamento:

Aplica-se um padrpadrãão de entrada o de entrada XXi_i com o respectivo vetor devetor de sa saíída da YYi_i desejado. desejado Algoritmo de Aprendizado Algoritmo de Aprendizado Inicialização Inicialização::

Treinamento:

Aplica-se um padrpadrãão de entrada o de entrada XXi_i com o respectivo vetor devetor de sa

saíída da YYi_i desejado. desejado

Calcula-se as sasaíídasdas dos processadores, começando da primeira camada escondida até a camada de saída.

(37)

Inicialização

Treinamento:

Calcula-se oerroerro para cada processador da camada de saída. Se

erro

erro ≤≤tolertolerâânciancia, para todos os processadores, volta ao passovolta ao passo .

Inicialização

Treinamento:

erro

Atualiza os pesos

Atualiza os pesos de cada processador, começando pela camada

(38)

Inicialização

Treinamento:

erro

Atualiza os pesos

Atualiza os pesos de cada processador, começando pela camada

de saída, até a primeira camada escondida. Volta ao passo

Avaliação do Algoritmo

Avaliação do Algoritmo • Foi demonstrado (Cybenko 1989) que a

Multi

Multi--Layer PerceptronLayer Perceptron é um Aproximador

Aproximador UniversalUniversal, isto é, pode

(39)

Avaliação do Algoritmo

Avaliação do Algoritmo • Foi demonstrado (Cybenko 1989) que a

Multi

Multi--Layer PerceptronLayer Perceptron é um Aproximador

Aproximador UniversalUniversal, isto é, pode

representar qualquer função.

• O BP é o algoritmo de Redes Neuraisalgoritmo mais utilizado

mais utilizado em aplicações práticas

de previsãoprevisão, classificaçãoclassificação e

reconhecimento de padrões

reconhecimento de padrões em geral.

Capacidade das

Capacidade das Multi Multi--LayerLayer Perceptrons

(40)

Capacidade das MLP

Mostrou-se que 2 camadas escondidas são suficientes para representar regiões derepresentar

qualquer tipo.

Cybenko 88 ⇒ “Continuos valued neural networks with

two hidden layers are sufficient”, Technical report,

Departmento of Computer Science, Tufts University, 1988. Lippmann 87 ⇒ “An Introduction to Computing with Neural

Networks”, ASSP Magazine, pp. 4-22, April 1987.

Capacidade das MLP Capacidade das MLP AND AND OR OR

(41)

Capacidade das MLP Demonstrou-se que as Multi-Layer

Perceptrons com uma camada escondida

são AproximadoresAproximadores Universais Universais

Capacidade das MLP Demonstrou-se que as Multi-Layer

Perceptrons com uma camada escondida

são AproximadoresAproximadores Universais Universais (funções contínuas)..

capacidade de aproximar, com precisão

arbitrária, essencialmente qualquer

mapeamento contcontíínuonuo do hipercubo [-1, +1] no intervalo (-1, +1).

Cybenko 89 ⇒ “Approximation by superpositions of a Sigmoidal Function”, Mathematics of Control, Signals and

(42)

BP /

BP / Aproximador Aproximador UniversalUniversal

Teorema de kolmogorov:

Qualquer mapeamento f(x) contínuo de uma entrada

p-dimensional (p ≥ 2) em uma saída m-dimensional

pode ser implementado exatamente por uma rede de p

entradas, com uma camada escondida de 2p+1 processadores e m processadores de saída.

BP /

Teorema de kolmogorov:

Qualquer mapeamento f(x) contínuo de uma entrada

p-dimensional (p ≥ 2) em uma saída m-dimensional

pode ser implementado exatamente por uma rede de p

entradas, com uma camada escondida de 2p+1 processadores e m processadores de saída.

(43)

BP /

⇒Verificou-se que o erro decresce na ordem de , conforme o número NN de padrões aumenta. ) / 1 ( N O BP /

⇒Verificou-se que o erro decresce na ordem de , conforme o número NN de padrões aumenta.

⇒Verificou-se também que o erro decresce

na ordem de em função do número MM de processadores escondidos.

) / 1 ( N O ) / 1 ( M O

(44)

BP /

⇒Verificou-se que o erro decresce na ordem de , conforme o número NN de padrões aumenta.

⇒Verificou-se também que o erro decresce

na ordem de em função do número MM de processadores escondidos. ⇒“Rule of Thumb”

onde N= # de padrões;

M = # de processadores escondidos;

p = dimensão da entrada (Mp ≈ # de parâmetros); ε = erro mínimo desejado.

) / 1 ( N O ) / 1 ( M O ) / (Mp ε O N > BP /

(45)

BP /

⇒Por que se utiliza mais de uma camada? ⇒A declaração que se necessita de um

número “suficientemente grande” de

processadores na camada escondida.

BP /

⇒Quando f(x) a ser aproximada é não

(46)

BP /

⇒Quando f(x) a ser aproximada é não

contínua.

⇒O número de processadores na camada única pode tender a infinito.

BP /

⇒Por que se utiliza mais de uma camada?

Rede com duas camadas escondidas

Rede com uma camada escondida

(47)

BP /

⇒

⇒Problema de múltiplas camadasProblema de múltiplas camadas intermediárias

intermediárias:

⇒cada vez que o erro medido é retro-propagado para a camada anterior, ele se torna menos precisomenos preciso.