• Nenhum resultado encontrado

MULTI-LAYER PERCEPTRON

N/A
N/A
Protected

Academic year: 2021

Share "MULTI-LAYER PERCEPTRON"

Copied!
21
0
0

Texto

(1)

• Redes de apenas uma camada só representam funções linearmente separáveis

• Redes de múltiplas camadas solucionam essa restrição • O desenvolvimento do algoritmo Back-Propagation foi

um dos motivos para o ressurgimento da área de redes neurais

MULTI-LAYER PERCEPTRON

• O grande desafio foi achar um algoritmo de aprendizado para atualizar dos pesos das camadas intermediarias • Idéia Central

os erros dos elementos processadores da camada de saída (conhecidos pelo treinamento supervisionado) são

(2)

MODELO BÁSICO DO NEURÔNIO ARTIFICIAL Padrão de entrada vetor X xi yi

MULTI-LAYER PERCEPTRON

Rede de 3 camadas 5/5/3/4

(3)

- Regra de propagação

- Função de ativação: Função não-linear diferenciável

em todos os pontos;

- Topologia: Múltiplas camadas;

- Algoritmo de Aprendizado: Supervisionado;

- Valor de Entrada/Saída: Binários e/ou Contínuos.

+

=

i i ij i j

x

w

y

θ

PROCESSO DE APRENDIZADO

• Processo de minimização do erro quadrático pelo método do Gradiente Descendente ij ij

w

E

w

=

η

• Cada peso sináptico i do elemento processador j é atualizado proporcionalmente ao negativo da derivada

(4)

PROCESSO DE APRENDIZADO

Onde o erro quadrático do processador j é definido como:

(

)

2

2

1

j j j

t

x

E

=

• tj– valor desejado de saída para o processador j da camada de saída

• xj– estado de ativação do processador j da camada de saída

PROCESSO DE APRENDIZADO

Na verdade, deve-se minimizar o erro de todos os processadores da camada de saída, para padrões p

(

)

2 1 2 1

= − = N j j j p t x E

• tj– valor desejado de saída do padrão p para o processador

j da camada de saída

• xj– estado de ativação do processador j da camada de saída quando apresentado o padrão p

(5)

Calcula

∆∆∆∆

wij j p j

y

E

e

=

y

j

=

x

i

w

ij

+

θ

j i j ij

e

x

w

=

η

ij j j p ij p ij

w

y

y

E

w

E

w

=

=

η

η

PROCESSO DE APRENDIZADO

Calcula ej j j j p j p j

y

x

x

E

y

E

e

=

=

( )

j j

F

y

x

=

( )

y

j

Se j∈Camada de Saída Se j∉Camada de Saída

(6)

PROCESSO DE APRENDIZADO

j j j p j p j

y

x

x

E

y

E

e

=

=

( )

j j

F

y

x

=

( )

y

j

Calcula ej, j ∈∈∈∈Camada de Saída

(

)

− = j j j p t x E 2 2 1

(

)

( )

1 2 1 2× × tjxj

(

)

[

j j

]

( ) (

j j j

) ( )

j j

t

x

F

y

t

x

F

y

e

=

×

´

=

´

PROCESSO DE APRENDIZADO

Calcula ej, j ∈∈∈∈Camada Escondida

j j j p j p j

y

x

x

E

y

E

e

=

=

( )

j j

F

y

x

=

( )

y

j

?

=

p

E

(7)

Calcula ej, j ∈∈∈∈Camada Escondida

• Pelo aprendizado supervisionado, só se conhece o erro na camada de saída;

• Erro na saída é função do potencial interno do processador (yk)

• O ykdepende dos estados de ativação dos processadores da camada anterior (xj) e dos pesos das conexões (wij);

• Portanto, xjde uma camada escondida afeta, em maior ou menor grau, o erro de todos os processadores da camada subsequente.

PROCESSO DE APRENDIZADO

Calcula de ej, j ∈∈∈∈Camada Escondida

PE1 Processador j da Camada escondida e1 e2 ek wj1 wj2 wjk x1 x2 xk PE2 PEk

(8)

( )

( )

( )

( )

( )

(

( )

)

( ) (

)

=

=

=

=





=

=

=

=

k jk k j k jk k k j k j k k k k j k j k k j k j k k k j j k k j j j j p j p j

w

e

y

F

w

y

F

d

y

F

x

y

y

x

d

y

F

x

x

d

y

F

x

x

d

x

y

F

y

F

d

x

y

x

x

E

y

E

e

'

'

'

'

'

2

1

'

'

2

1

2 2 Obs.: dk= tk- xk

PROCESSO DE APRENDIZADO

• Em resumo, após o cálculo da derivada, tem-se

i j ij

e

x

w

=

η

Onde

xi– valor de entrada recebido pela conexão i

(9)

Processador j pertence à Camada de Saída:

(

j j

) ( )

j j

t

x

F

y

e

=

´

PEj Saída xj Valor desejado de saída tj xi w ij

PROCESSO DE APRENDIZADO

Processador j pertence à Camada Escondida:

PE1 Processador j da Camada escondida e1 e2 ek wj1 wj2 wjk PE2 PEk

( ) (

)

=

j k jk j

F

y

e

w

e

'

(10)

O algoritmo Back-Propagation tem portanto duas fases, para cada padrão apresentado

- Feedforward - as entradas se propagam, pela rede, da camada de entrada para a camada de saída

- Feedback - os erros se propagam, na direção contraria ao

fluxo de dados, indo da camada de saída até a primeira

camada escondida

PROCESSO DE APRENDIZADO

PROCESSO DE APRENDIZADO

Ilustração

Fase 1: Feed-Forward

Fluxo de Dados

..

.

..

.

..

.

(11)

Ilustração

Fase 1: Feed-Forward Fluxo de Dados

Entrada Camadas Escondidas Saída

..

.

..

.

..

.

PROCESSO DE APRENDIZADO

Ilustração

Fase 1: Feed-Forward

Fluxo de Dados

Entrada Camadas Escondidas Saída

..

.

..

.

..

.

(12)

PROCESSO DE APRENDIZADO

Ilustração

Fase 1: Feed-Forward

Fluxo de Dados

Entrada Camadas Escondidas Saída

..

.

..

.

..

.

PROCESSO DE APRENDIZADO

Ilustração

Fase 1: Feed-Backward

Fluxo de Erros

..

.

..

.

..

.

t1 x1 t2 x2 t3 x3 Cálculo do erro da camada de saída

(13)

Ilustração

Fase 1: Feed-Backward

Fluxo de Erros

Entrada Camadas Escondidas Saída

..

.

..

.

..

.

t1 x1 t2 x2 t3 x3 tm xm m k km xe w =η ∆

Atualização dos pesos da camada de saída

e1 e1 e1 em em em Pk Pm wkm

PROCESSO DE APRENDIZADO

Ilustração

Fase 1: Feed-Backward

Fluxo de Erros

Entrada Camadas Escondidas Saída

..

.

..

.

..

.

t1 x1 t2 x2 t3 x3 tm xm

( )

Cálculo do erro da 2ocamada escondida

e1 e1 e1 em em em Pk Pm wkm

(14)

PROCESSO DE APRENDIZADO

Ilustração

Fase 1: Feed-Backward

Fluxo de Erros

Entrada Camadas Escondidas Saída

..

.

..

.

..

.

t1 x1 t2 x2 t3 x3 tm xm k j jk xe w =η ∆

Atualização dos pesos da 2ocamada escondida

e1 e1 e1 ek ek ek Pk Pm wkm Pj e1 ek

PROCESSO DE APRENDIZADO

Ilustração

Fase 1: Feed-Backward

Fluxo de Erros

..

.

..

.

..

.

t1 x1 t2 x2 t3 x3 Cálculo do erro da 1ocamada escondida

e1 e1 e1 ek ek P k wjk e1 ek

(15)

Ilustração

Fase 1: Feed-Backward

Fluxo de Erros

Entrada Camadas Escondidas Saída

..

.

..

.

..

.

t1 x1 t2 x2 t3 x3 tm xm j n nj xe w =η ∆

Atualização dos pesos da 1ocamada escondida

e1 e1 e1 ej ej ej Pk Pm wkm Pj e1 ej

ALGORITMO

Este procedimento de aprendizado é repetido diversas

vezes, até que para todos processadores de camada de

saída e para todos padrões de treinamento, o erro seja

(16)

ALGORITMO

Inicialização

pesos iniciados com valores aleatórios e pequenos (|wij| < 0.1)

Treinamento

loop até que o erro de cada processador de saída seja <= tolerância para todos os padrões de conjunto de treinamento

1) Aplica se um padrão de entrada xie seu respectivo vetor de saída tidesejado;

2) calcule se as saídas dos processadores, começando da primeira camada escondida até a camada de saída;

3) calcule se o erro para cada processador da camada de saída, se erro <= tolerância, para todos os processadores, volta para 1) 4) atualiza os pesos de cada processador, começando pela camada

de saída, até a camada de entrada; 5) volta ao passo 1).

DICAS PARA BP

O uso da função de ativação simétrica geralmente acelera o treinamento

(17)

• Os pesos devem ser inicializados com valores

uniformemente distribuídos

• A ordem de apresentação dos padrões de

treinamento deve ser alterada a cada época

- ordem aleatória

• Todos os neurônios devem aprender na mesma

taxa

DICAS PARA BP

O processo de aprendizado pode ser visto como um problema de curve fitting ou interporação

(18)

EXEMPLO

Camada de Entrada Camada Escondida Camada de Saída x1 x2 PE1 PE2 PE3 +1 +1 1 01

w

1 02

w

1 11

w

1 12

w

1 21

w

1 22

w

2 03

w

2 13

w

2 23

w

b0 b1

Entrada: (x1= 1, x2= 0) Saída Desejada: t3= 1

Pesos iniciais: wij(0) = 0 Taxa de Aprendizagem:

η

= 0.5

( )

( )

i i

y

y

F

+

=

exp

1

1

Função de Ativação:

Derivada da Função de Ativação:

( )

[

exp

( )

( )

]

'

y

y

i

F

=

(19)

(

) ( )

( )

=

=

+

=

k jk k j j j j j j j i ij ij

w

e

y

F

e

y

F

x

t

e

e

x

w

w

'

'

η

Camada de Saída Camada Escondida Algoritmo de Aprendizado:

Primeiro Circulo de Treinamento:

b1= 1 y1= 1×0 + 1×0 +0×0 = 0 x1= 0.5 y2= 1×0 + 1×0 +0×0 = 0 x2= 0.5 y3= 1×0 + 0.5×0 +0.5×0 = 0 x3= 0.5 Então, t3- x3= 1 - 0.5 = 0.5 e3= 0.5 ×0.25 = 0.125

0313

.

0

125

.

0

5

.

0

5

.

0

0

2 13

=

+

×

×

=

w

0313

.

0

125

.

0

5

.

0

5

.

0

0

2 23

=

+

×

×

=

w

0625

.

0

125

.

0

1

5

.

0

0

2 03

=

+

×

×

=

w

EXEMPLO

(20)

Primeiro Circulo de Treinamento (cont.):

0004875

.

0

25

.

0

0039

.

0

1

5

.

0

0

1 11

=

+

×

×

×

=

w

e1= 0.125 ×0.0313 = 0.0039 e2= 0.125 ×0.0313 = 0.0039

0004875

.

0

25

.

0

0039

.

0

1

5

.

0

0

1 12

=

+

×

×

×

=

w

0004875

.

0

25

.

0

0039

.

0

1

5

.

0

0

1 02

=

+

×

×

×

=

w

0004875

.

0

25

.

0

0039

.

0

1

5

.

0

0

1 01

=

+

×

×

×

=

w

0

25

.

0

0039

.

0

0

5

.

0

0

1 21

=

+

×

×

×

=

w

0

25

.

0

0039

.

0

0

5

.

0

0

1 22

=

+

×

×

×

=

w

EXEMPLO

PROBLEMA XOR

x1 x2 +1 +1 +1 +1 +1 -1.5 -0.5 +1 -0.5 -2 +1 PE1 PE2 PE3

(21)

Saída = 0 (0, 0) (1, 0) (1, 1) (0, 1) Saída = 1 x1 x2 (0, 0) (1, 0) (1, 1) (0, 1) Saída = 0 x1 x2 Saída = 1

Borda de decisão construída pelo 1aneurônio escondido

Borda de decisão construída pelo 2aneurônio escondido

PROBLEMA XOR

(0, 0) (1, 0) (1, 1) (0, 1) Saída = 1 x1 x2 Saída = 0

Borda de decisão construída pela rede completa

Saída = 0

Referências

Documentos relacionados

Examinamos as demonstrações financeiras individuais da Klabin S/A (“Companhia”), que compreendem o balanço patrimonial em 31 de dezembro de 2016 e as respectivas demonstrações

CONCLUSÕES E PROPOSTAS PARA TRABALHOS FUTUROS Nesta dissertação, foi apresentada uma avaliação do desempenho das funções de proteção aplicadas em transformadores de potência,

variáveis “potência de UV irradiada” e pH , quando a variável [CN - ]0 está em seu nível inferior e a variável “razão molar [H2O2]:[CN - ]” estão em seu nível superior

As pontas de contato retas e retificadas em paralelo ajustam o micrômetro mais rápida e precisamente do que as pontas de contato esféricas encontradas em micrômetros disponíveis

Código Descrição Atributo Saldo Anterior D/C Débito Crédito Saldo Final D/C. Este demonstrativo apresenta os dados consolidados da(s)

lhe o raciocínio, fazê-lo perceber as várias facetas de um problema, é ensiná-lo a con- siderar as coisas de outros pontos de vista, a levar em conta os argumentos alheios. A

Corporate Control and Policies Page 12 UNIVERSIDAD DE PIURA UNIVERSIDAD DEL PACÍFICO UNIVERSIDAD ESAN UNIVERSIDAD NACIONAL AGRARIA LA MOLINA UNIVERSIDAD NACIONAL

O produto a ser ofertado pela MultiFit Gourmet será um tipo de alimentação voltada para pessoas que fazem musculação, que precisam se alimentar de maneira