REDES NEURAIS ARTIFICIAIS Rede Neural Perceptron

(1)

REDES NEURAIS ARTIFICIAIS Rede Neural Perceptron

 T

1

X1

X2

W0

W1

W2

(2)

Consiste num único neurônio com peso ajustável e bias

1.2 Rede de alimentação direta

a2

a5 1

a1 W1,3

W2,3

W2,4

3

4

5

2

W1,4

(3)

Vetor de saída : y = (y1) = (a5)

Vetor de entrada x = (x1, x2) = (a1, a2)

a5 = g(w3,5 a3 + w4,5 a4) , mas {a3 = g(w1,3 a1 + w2,3 a2)

{a4 = g(w1,4 a1 + w2,4 a2)

(4)

1.2 Unidade de Redes Neurais

X0 = 1

 g ai

Função

de

entrada

Função de

ativação Saída

W0

W1

W2

yj aj

(5)

 Função de entrada (soma ponderada das entradas) (ini)

ini = X0 W0,i + X1 W1,i + x2 w2,i + … XnWn,i

ini = _Σ Wj,i Xj

 Função de ativação (degrau/limiar):

- _{Entrada “co}rretas_”=> unidade ativa (valores menor 1)

(6)

Essa avaliação é feita pelo cálculo da função de ativação aplicada a função de entrada ().

ai = g(ini) = g(_ΣWj,i Xj )

Exemplos:

a)Função de Limiar b) Função signóide

g(x) {x>0, g=1

{x<0, g=0

(7)

2. Perceptron

- Redes neurais de alimentação direta de única camada

- Representam apenas funções linearmente separáveis.

3. Aprendizagem

Aprendizagem de redes neurais tem a função de ajustar os pesos da rede para minimizar alguma medida de erro.

Err = Y – hw(x)

(8)

 Análise do erro

- A média clássica para estimativa do erro:

- Soma dos erros quadráticos:

E = ½ Err² = ½ (y _– hw (x))²

em que { y = valor real

{ hw (x) = g (∑ Wj Xj)

hw(x)

wj

(9)

- Análise da influência de variação de erro sobre a variação do peso.            Err² 2 1 Wj Wj

E _{= Err}







      WjXj g y Wj Err Err

Wj , mas Wj

 _{y = 0, pois y = C}te

Err Wj

E  

 _x

_

_

       

 g



WjXj

Wj = -Err . g’(in) . Xj

Como o gradiaente aponta o sentido de maior crescimento, como quero minimizar o erro devo inverter o sinal do gradiente:

Wj(n+1)  Wj(n) + Err. g’(in) . Xj

Para melhor domínio no refino dos pesos, acrescenta-se  (taxa de

treinamento)

(10)

Para função de ativação signóide : g’(in)  g(1-g)

Para função de ativação de Limiar  _{desconsidera g’(in), pois não há derivada}

em X=0 (descontinua)

(11)

 Treinamento

Ex1: Distinção de atletas por modalidade de esportes:

Atleta Futebol F1

Pelé X

Zico x

Senna X

Piquet x

(12)

Entradas Saida

X1 X2 Y

Padrão 1 0 0 0

Padrão 2 0 1 0

Padrão 3 1 0 1

(13)

Mantendo a rede

Função de ativação Limiar

Sigma: in= 1 Wo + X1W1 + X2W2

Condições iniciais: W= { Wo, W1, W2} = {0 , 0 , 0}

Taxa de aprendizado  1

∑ g (in) 0

1

W0

W1

W2

1

X1

(14)

1º - apresentação (epochs) (n=1)

Entrada 1 Calculo da saída:

Erro = Y _– d = 0 , saída correta

In = 1.0 + 0.0 + 0.0 = 0

G(in){in > 0, g = 1

{ in  0, g = 0

g (0) = 0  d = 0

 g

1

0

d

Δw

(15)

Entrada 2

In = 1.0 + 0.0 + 1.0 = 0

g(in) = g(0) = 0  d = 0

Erro = y _– d = 0 _– 0 = 0

Wi =  . Erro . Xi = 0

 g

0

1

0

d 0

1

Δw

(16)

Entrada 3

Wi =  . Erro . Xi  Win+1 = Win + Win Wo = 1 . 1 . 1 = 1  Wo= 0 + 1 = 1

W₁ = 1 . 1 . 1 = 1  W₁1 = 0 + 1 = 1

W₂ = 1 . 1 . 0 = 0  W₂2 = 0 + 0 = 0

In = 1.0 + 0.0 + 1.0 = 0

g(in) = g(0) = 0  d = 0

Erro = y _– d = 1 _– 0 = 1

 g

1

0

d 0

1

Δw

(17)

Entrada 4

In = 1.1 + 1.1 + 1.0 = 2

g(in) = g(2) = 1  d = 1

Erro = y _– d = 1 _– 1 = 0 Wi = 0

 g

1

0

d 1

1

Δw

(18)

2º - Apresentação

Entrada 1

Wo = 1 . (-1) . 1 = -1  Wo2 = 1 - 1 = 0

W₁ = 1 . (-1) . 0 = 0  W₁1 = 1 - 0 = 1

W₂ = 1 . (-1) . 0 = 0  W₂2 = 0 - 0 = 0

In = 1.1 + 0.1 + 0.0 = 1

g(in) = g(1) = 1  d = 1

Erro = y _– d = 0 _– 1 = -1

 g

0

1

0

d 1

1

Δw

(19)

Entrada 2

In = 1.0 + 0.1 + 1.0 = 0

g(in) = g(0) = 0  d = 0

Erro = 0 _– 0 = 0

Wi =  . 0 . Xi = 0

 g

0

1

0

d 0

1

Δw

(20)

Entrada 3

In = 1.0 + 1.1 + 0.0 = 1

g(in) = g(1) = 1  d = 1

Erro = 1 _– 1 = 0

Wi =  . 0 . Xi = 0

 g

1

0

1

0

d 0

1

Δw

(21)

Entrada 4

Houve Convergência!

 Wj Xj = 0  Hiperplano de Separação = Separação linear

1 . Wo + X1W1 + X2W2 = 0

X2 = -

2 0 1 . 2 W1

W W X

W 



In = 1.0 + 1.1 + 1.0 = 1

g(in) = g(1) = 1  d = 1

Erro = 1 _– 1 = 0

Wi =  . 0 . Xi = 0

 g

1

0

d 0

1

Δw

(22)

Ex2: Treinamento da função união (OU)

X1 X2 Y

0 0 0

0 1 1

1 0 1

1 1 1

 g

X1

X2

w1

w2

d w0

1

Δw

(23)

Pesos : Wo = ( Wo , W1 , W2 ) = ( 0 , 0 , 0 )

Soma : 2_{= in = 1 . Wo + X}

1W1 + X2W2 J = 0

Função de ativação : Limiar: g(in) {in > 0, g = 1

{ in  0, g = 0

(24)

1º Apresentação (Epochs)

- Entrada 1

0 0 0 0 0 0 0 0 0 2 2 1 2 1 1 1 1 1                  

W

o o o o o o o o o  g

In = 1.0 + 0.0 + 0.0 = 0

g(in) = g(0) = 0  d = 0

Erro = y _– d = 0 _– 0 = 0

Wi = 0, Wi = . Erro .

(25)

- Entrada 2

Win=  . Erro . Xi  Win+1 = Win + Win Wo = 1 . 1 . 1 = 1  Wo= 0 + 1 = 1

W₁ = 1 . 1 . 0 = 0  W₁1 = 0 + 0 = 0

W₂ = 1 . 1 . 1 = 1  W₂1 = 0 + 1 = 1

 g In = 1.0 + 0.0 + 1.0 = 0

g(in) = g(0) = 0  d = 0

Erro = y – d = 1 – 0 = 1 0

1

0

d 0

1

Δw

(26)

Entrada 3

In = 1.1 + 1.0 + 1.0 = 1

g(in) = g(1) = 1  d = 1

Erro = y – d = 1 – 1 = 0

Wi = . 0 . Xi = 0

 g 1

0

1

d 1

1

Δw

(27)

Entrada 4

In = 1.1 + 1.0 + 1.1 = 2

g(in) = g(2) = 1  d = 1

Erro = y – d = 1 – 1 = 0

Wi =  . 0 . Xi = 0

 g 1

1

0

1

d 1

1

Δw

(28)

2º Apresentação

- Entrada 1

Wo = 1 . (-1) . 1 = -1  Wo= 1 + (-1) = 0

W₁ = 1 . (-1) . 0 = 0  W₁1 = 0 + 0 = 0

W₂ = 1 . (-1) . 0 = 0  W₂1 = 1 + 0 = 1

In = 1.1 + 0.0 + 0.1 = 1

g(in) = g(1) = 1  d = 1

Erro = y _– d = 0 _– 1 = -1  g

0

1

d 1

1

ΔWi

(29)

- Entrada 2

In = 1.0 + 0.0 + 1.1 = 1

g(in) = g(1) = 1  d = 1

Erro = y _– d = 1 _– 1 = 0

Wi =  . 0 . Xi = 0

 g 0

1

0

1

d 0

1

ΔWi

(30)

- Entrada 3

Wo = 1 . 1 . 1 = 1  Wo= 0 + 1 = 1

W₁ = 1 . 1 . 1 = 1  W₁1 = 0 + 1 = 1

W₂ = 1 . 1 . 0 = 0  W₂1 = 1 + 0 = 1

In = 1.0 + 1.0 + 0.1 = 0

g(in) = g(0) = 0  d = 0

Erro = y _– d = 1 _– 0 = 1  g

1

0

1

d 0

1

ΔWi

(31)

- Entrada 4

In = 1.1 + 1.1 + 1.1 = 3

g(in) = g(3) = 1  d = 1

Erro = y _– d = 1 _– 1 = 0

Wi =  . 0 . Xi = 0

 g 1

1

d 1

1

ΔWi

(32)

- Entrada 1

Wo = 1 . (-1) . 1 = -1  Wo= 1 + (-1) = 0

W₁ = 1 . (-1) . 0 = 0  W₁1 = 1

W₂ = 1 . (-1) . 0 = 0  W₂1 = 1

In=1.1 + 0.1+ 0.1 =1

g(in) = g(1) = 1  d = 1

Erro = 0 _– 1 = -1  g

0

1

d 1

1

ΔWi

(33)

- Entrada 2

In = 1.0 + 0.1 + 1.1 = 1

g(in) = g(1) = 1  d = 1

Erro = y – d = 1 – 1 = 0

Wi = 0

 g 0

1

d 0

1

ΔWi

(34)

- Entrada 3

In = 1.0 + 1.1 + 0.1 = 1

g(in) = g(1) = 1  d = 1

Erro = y – d = 1 – 1 = 0

Wi = 0

 g 1

0

1

d 0

1

ΔWi

(35)

Entrada 4

In = 1.0 + 1.1 + 1.1 = 2

g(in) = g(2) = 1  d = 1

Erro = y – d = 1 – 1 = 0

Wi = 0

 g 1

1

d 0

1

ΔWi

(36)

- Entrada 1

In = 1.0 + 0.1 + 0.1 = 0

g(in) = g(0) = 0 _{d = 0}

Erro = y – d = 0 –_{0 = 0}

Wi = 0

 g 0

0

1

d 0

1

ΔWi

(37)

- Entrada 2

In = 1.0 + 0.1 + 1.1 = 1

g(in) = g(1) = 1  d = 1

Erro = y _– d = 1 _– 1 = 0

Wi = 0

 g 0

1

d 0

1

ΔWi

(38)

- Entrada 3

In = 1.0 + 1.1 + 0.1 = 1

g(in) = g(1) = 1  d = 1

Erro = 0

Wi = 0

 g 1

0

1

d 0

1

ΔWi

(39)

- Entrada 4

OBTEVE A CONVERGÊNCIA

In = 1.0 + 1.1 + 1.1 = 2

g(in) = g(2) = 1  d = 1

Erro = y – d = 1 – 1 = 0

Wi = 0

 g 1

1

d 0

1

ΔWi

(40)

Exemplo de Treinamento da função união (OU)

- Pesos: W = ( W1 , W2 , W3 ) = ( 0 , 0 , 0 )

- Função somatória :  Wj Xj = in = 1 . Wo + X1W1 + X2W2

J = 0

- Função de ativação (diferente do exemplo anterior): g(in) {in < 0, g(in) = 0 { in  0, g(in) = 1

- Erro = Y – d  Wi =  . Erro . Xi Taxa de Aprendizado () = 1

X1 X2 Y

0 0 0 0 1 1 1 0 1 1 1 1

 g X1

X2

W1

W2

d W0

1

ΔWi

(41)

1º Apresentação (epoch)

- Entrada 1

Win=  . Erro . Xi  Wi1 = Wi0 + Wi

Wo = 1 . (-1) . 1 = -1  Wo1 = 0 + (-1) = -1

W₁ = 1 . (-1) . 0 = 0  W₁1 = 0 + 0 = 0

W₂ = 1 . (-1) . 0 = 0  W₂1 = 0 + 0 = 0

In = 1.0 + 0.0 + 0.0 = 0

g(in) = g(0) = 1  d = 1

Erro = y – d = 0 – 1 = -1  g

0

d 0

1

ΔWi

(42)

- Entrada 2

Wo = 1 . 1 . 1 = 1  Wo= (-1) + 1 = 0

W₁ = 1 . 1 . 0 = 0  W₁1 = 0

W₂ = 1 . 1 . 1 = 1  W₂1 = 0 + 1 = 1

In = 1.-1 + 0.0 + 1.0 = -1

g(in) = g(-1) = 0  d = 0

Erro = y _– d = 1 _– 0 = 1  g

0

1

0

d -1

1

ΔWi

(43)

- Entrada 3

In = 1.0 + 1.0 + 0.0 = 0

g(in) = g(0) = 1 _{d = 1}

Erro = y _– d = 1 _–_{1 = 0}

Wi =. 0 . Xi = 0

 g 1

0

1

d 0

1

ΔWi

(44)

- Entrada 4

In = 1.0 +1.0 + 1.1 = 1

g(in) = g(1) = 1  d = 1

Erro = y – d = 1 – 1 = 0

Wi = 0

 g 1

1

0

1

d 0

1

ΔWi

(45)

- Entrada 1

Wo = 1 . (-1) . 1 = -1  Wo= 0 + (-1) = -1

W₁ = 1 . (-1) . 0 = 0  W₁1 = 0

W₂ = 1 . (-1) . 0 = 1  W₂1 = 1

In = 1.0 + 0.0 + 0.1 = 0

g(in) = g(0) = 1  d = 1

Erro = 0 – 1 = -1  g

0

1

d 0

1

ΔWi

(46)

- Entrada 2

In = -1 + 0 + 1 = 0

g(in) = g(0) = 1  d = 1

Erro = 1 _– 1 = 0  Wi = 0

 g 0

1

0

1

d -1

1

ΔWi

(47)

- Entrada 3

Wo = 1 . 1 . 1 = 1  Wo= -1 + 1 = 0

W₁ = 1 . 1 . 1 = 1  W₁1 = 0 + 1 = 1

W₂ = 1 . 1 . 0 = 0  W₂1 = 1 + 0 = 1

In = -1 + 0 + 0 = -1

g(in) = g(-1) = 0  d = 0

Erro = 1 _– 0 = 1  g

1

0

1

d -1

1

ΔWi

(48)

- Entrada 4

In = 0 + 1 + 1 = 2

g(in) = g(2) = 1  d = 1

Erro = 1 – 1 = 0  Wi = 0

 g 1

1

d 0

1

ΔWi

(49)

- Entrada 1

Wo = 1 . (-1) . 1 = -1  Wo= 0 + (-1) = -1

W₁ = 1 . (-1) . 0 = 0  W₁1 = 1 + 0 = 0

W₂ = 1 . (-1) . 0 = 1  W₂1 = 1 + 0 = 0

In = 0 + 0 + 0 = 0

g(in) = g(0) = 1  d = 1

Erro = 0 _– 1 = -1  g

0

1

d 0

1

ΔWi

(50)

- Entrada 2

In = -1 + 0 + 1 = 0

g(in) = g(0) = 1  d = 1

Erro = 1 _– 1 = 0  Wi = 0

 g 1

0

1

d 0

1

ΔWi

(51)

- Entrada 3

- Entrada 4

In = -1 + 1 + 0 = 0

g(in) = g(0) = 1  d = 1

Erro = 1 _– 1 = 0  Wi = 0

 g

In = -1 + 1 + 1 = 1

g(in) = g(0) = 1  d = 1

Erro = 1 – 1 = 0  Wi = 0

 g 0

1

d -1

1

ΔWi

y 1 1

1

d -1

1

ΔWi

(52)

- Entrada 1

Convergência!

In = -1 + 0 + 0 = -1

g(in) = g(-1) = 0  d = 0

Erro = 0 _– 0 = 0  Wi = 0

 g 0

0

1

d -1

1

ΔWi

(53)

Análise da Fronteira de decisão (Hiperplano de separação)

² Wj Xj = in = 1 . Wo + X1W1 + X2W2 J = 0

X2 = -

2 0 1 1 . 2 W1

W W X

W 



X2 = 1 1

1 1 1 1

1

    

(54)

- Função não linearmente separável (XOR) ou _– exclusivo:

Não há hiperplano de separação. Logo não converge. Realize o teste no MatLab!

X1 X2 Y

0 0 0

1 0 1

0 1 1

(55)

REDE PERCEPTRON DE MÚLTIPLOS COMANDOS (MLP)

Apredizagem: Back Propagation Learning (Retropopagação)

ai wji

aj

ak

wk,j

Unidades de Entrada (k)

Unidades ocultas (j)

(56)

- Comandos de saída: Wji  Wj,i + . aj . i

Em que, i = Erroi . g’(ini)

- Atualização dos pesos para a camada oculta:

Wk,j  Wk,j + . ak .



j , em que

(57)

Análise de erro:

- Soma dos erros Quadráticos

E =





i ai Yi ) ( 2 1 ²

 Aplicando a derivada direcional em relação aos pesos Wj,i, temos:





      _     



i ai Yi i Wj i Wj E 2 . , . 2 1

, =









Wj i

ini g ai Yi i Wj ai ai Yi , ) ( , 2 2          =





_         



j ai i Wj i Wj gi ai

Yi . , .

,

polinômio



Yi ai



g ini aj aj i i

Wj

E __ _ __ _

(58)

 Aplicando a derivada direcional para obter a gradiente sobre os pesos Wk,j que conectam a camada de entrada e a camada oculta.

E =





i ai Yi ) ( 2 1 ²

Todos dependem do peso Wk,j

      



                      

i i j

aj i Wj j Wk ini g ai Yi j Wk ini g ai Yi j Wk ai ai Yi j Wk E . , . , ). ( ' . , ) ( , . 1 . 2 2 ,

mas Wj,i = Cte, Wk,j≠Wj,i e aj = g(inj) = g(

_

k

j Wk, .

. a_k ) =





         i k ak j Wk g j Wk i Wj

i . , .

, . , . . polinômio = 



 i i Wj i. ,

(59)

ADALINE (Adaptive Linear Element)

- Pesos ajustados em função do erro.

- Único comando de pesos ajustáveis.

(60)

Considerações:

(i) Um neurônio de saída

(ii) Função de ativação Linear  g w

wij

wpj

X0

X2

X1

X3

i

 g

j

Erro j (k)

yj (k)

(61)

-Função Soma:

inj =





p

o j

(62)

-Função de transferência:

g(in j) = inj =



 p o j Xi j Wi, .

dj = g(inj)











 





 

j Yj dj J yj inj

j Erro

E 2 2 ( ) 2

(63)

-



Yj dj





Yj dj

  

Yj dj



dj

dj E

j       

   





. 1

2 2 2

1 2

- g

 

inj Xj

Wij Wij dj      



         o

j Wij Xi WojXo W jXi WijXi WpjXp

inj inj

g( ) . 1 1 ... ...

-



Yj dj



Xi

(64)

Como o ajuste é feito na direção contrária ao gradiente,

Wj E k

Wij

    

 ( )



)

(

)

.(

)

1 (

k

Wij

k

Wij

k

Wj









Xi

dj

Yj

k

Wij

k

(65)

REDE PERCEPTRON DE MÚLTIPLO COMANDOS (MPL) Aprendizagem: Back Propagation Leaninng

f

g g

g

y1

yk

yl

wij wjk

xp

xi

(66)

Cálculo do erro: Ek = dk _– Yk (1)

- 



K k

E

E . 2

2 1

(2) - Yk = g(Vk) (4)

-_{Yk =}





m

o j

Yj

(67)

Aplicando a derivada parcial (nos neurônios da camada de saída): Wjw yk Vk Yk Yk ek ek E Wjk E            .

. (6)

Cálculo de

ek

E



: k l

k e e

e e

ek ek

E _ _ _ _ _

     ) ... ... ( 2

1 2 2 2

1 (7)

- Cálculo

Yk ek  

: ( ) 1

      Yk Yk dk Yk ek (8)

- Cálculo

Vk Yk

 

: (g(Vk)) g'(Vk)

(68)

-_Cálculo

Wjk Vk 



: _



 

  

 m

j WjkYj Yj

Wjk Wjk

Vk

0. . ) (

(10)

- _ek _g _Vk _Yj

Wjk E

) ( ' .   

(69)

Como quero reduzir o valor de E, usa-se o sinal negativo, que indica a decida do gradiente.



ek g Vk Yj



ek g Vk Yj Wjk

E

Wjk     . '( ) . . '( ).

   

 ₍₁₁₎

- Cálculo de

Yk E 

  _:

- _ek _g _Vk _k

Vk Yk Yk ek ek E Vk

E __ _ __

         

 . . .( 1). '( )

(12)

(70)

- Neurônio Oculto:

-_{Yj = g(Vj) (13)}

-_{Vj =}



 p o j Xi Wij.

. ₍₁₄₎

-Wij Vj Yj Vk Vk Yk Yk ek ek E Wij E              . .

-_Cálculo

Yj Vk

 

: WjkYj Wjk

Yj Yj Vk m o j             



 .

-_Cálculo

Vj Yj  

:



g(Vj)



g'(Vj)

(71)

-_Cálculo

Wij Vj 



: Wij Xi Xi

Wij Wij Vj p j            

_

0 . -



     l k jk

k W g Vj

Xi Wij E 1 ) ( ' . . .



Wji = Wji +  . aj.



i

j = Erri. g’(ini)

Wkj = Wkj +  . ak . j

(72)

- Função não linearmente superável (XOR) ou-exclusivo:

X1 X2 Y

0 0 0

1 0 1

0 1 1

(73)

- Pesos: Wij = (W11, W12, W21, W22) = (0, 0, 0, 0)

- Wjk = (W11,W21) = (0,0)

∑ g

x1

wij _w_jk

y1

x2

i=1

i=2

(74)

- Função Somatório

- inj =





2

0

.

j

Xi

Wij _{ink =}





2

0

.

j

Yi

Wij

- Função de ativação (função linear)

- g(in) = p.in , em que p = 1

(75)

(76)

1º Apresentação (epoch)

- Entrada 1

Erro

x1

d3

x2

W12

0

Y3

W21

W11

W22

0

Y2

Y1

W3

Wc 1

2

3

0 0

(77)

Erro = Y3 - d3 = 0  k = Erro . g’(in3) = 0.p = 0

In1 = X1W11 + X2W21 = 0 + 0 = 0

In2 = X1+W12 + X2W22 = 0 + 0 = 0

g(in1) = P in1 = 1 . 0 = 0  Y1 = 0

g(in2) = P in2 = 1 . 0 = 0  Y2 = 0

in3 = Y1W3 + Y2W6 = 0.0 + 0.0 = 0

(78)

- Entrada 2

In1 = 1.0 + 0.0 = 0  g(in1) = p in1 = 1.0 = 0  Y1 = 0

In2 = 1.0 + 0.0 = 0  g(in1) = p 0 = 1.0 = 0  Y2 = 0

In3 = 0.0 + 0.0 = 0  g(in3) = 0  Y3 = 0

Erro = d3 – y3 = 1 – 0 = 1  k = Erro g’(in3) = 1 (p=1)

x1

d3

x2

0

Y3 0

0

1

Y2

Y1

0

0 1

2

3

1 0

i j

(79)

W5 = W5 + W5 = W5 +  . k . Y1 = 0 + 1.1.0 = 0

W6 = W6 + W6 = W6 +  . k . Y2 = 0 + 1.1.0 = 0

(80)

FUNÇÕES IMPORTANTES NO MATLAB - Training function:

Traingd = Gradient descent backpropagation.

- Adaption learning function:

(81)

- Transfer Function:

Logsig= log sigmoid transfer function: px

e

x

f

_





1

1 )

(

Purelin= linear transfer function:

f

(

x

)



p

.

x

Tansig= hyperbolic tangent sigmoid transfer function: px

x p

e e x

f _



  

1 1 ) (