• Nenhum resultado encontrado

Aprendizado em RNAs do tipo MLP Multi Layer Percetron através do algoritmo Error Back Propagation

N/A
N/A
Protected

Academic year: 2021

Share "Aprendizado em RNAs do tipo MLP Multi Layer Percetron através do algoritmo Error Back Propagation"

Copied!
35
0
0

Texto

(1)

6 ©Prof. Emilio Del Moral – EPUSP

Aprendizado em RNAs do

tipo MLP – Multi Layer

Percetron – através do

algoritmo Error Back

Propagation

7

© Prof. Emilio Del Moral Hernandez

Como escolhemos

os valores dos

diversos w´s ?

(2)

8

8 © Prof. Emilio Del Moral Hernandez

9

(3)

10 ©Prof. Emilio Del Moral – EPUSP

O que devemos mirar quando exploramos o espaço de pesos W buscando que a RNA seja um bom modelo?

Devemos mirar Maximização da aderência = Minimo Eqm possível

Aderência do modelo aos pares (X,y) empíricos

valor do Eqm 100% aderente baixa aderência

W

Eqm(W) As Setas Verdes

Indicam Situações que Devem ser Procuradas

Será que temos apenas um mínimo??

11

O que devemos buscar quando exploramos o espaço de pesos W buscando que a RNA seja um bom modelo?

Devemos buscar Maximização da aderência = Minimo Eqm possível

Aderência do modelo aos pares (X,y) empíricos

valor do Eqm 100% aderente baixa aderência

W

Eqm(W) As Setas Verdes

Indicam Situações que Devem ser Procuradas

(4)

12

12 © Prof. Emilio Del Moral Hernandez

Conjunto de treino em arquiteturas supervisionadas (ex.

clássico: MLP com Error Back Propagation)

X

y

RNA

X

y

rede

A computação desejada da rede pode ser definida

simplesmente através de amostras / exemplos do comportamento requerido Conjunto de M Amostras (X; y )

Aprendizado: Espaço de pesos W é explorado visando aproximar ao máximo a computação da

rede da computação desejada

   M yrede X W y M Eqm 1 2 ) ) , ( ( 1    

_

. Eqm

W

Sistema Físico, Econômico, Biológico ... S ... em loop ... 13

(5)

14

14

Avisos que detalhei na aula de 19 de março

© Prof. Emilio Del Moral Hernandez

15

© Prof. Emilio Del Moral Hernandez

Parte da lousa da aula de 19 de março

(6)

16 ©Prof. Emilio Del Moral – EPUSP

Deduzindo as Equações do

Aprendizado em RNAs do

tipo MLP – Multi Layer

Percetron – com o algoritmo

Error Back Propagation

(Gradiente Descendente)

17

© Prof. Emilio Del Moral Hernandez

Parte da lousa da aula de 19 de março

(7)

18

18 © Prof. Emilio Del Moral Hernandez

Tarefa para desenvolvimento próprio e entrega até a

aula de 4ª f. da Semana Santa +1(dia 4/abril)

 No grafo detalhado de uma rede 3-3-1 como o da aula, identifique o peso sináptico

“wmeu” da primeira camada definido pelo último dígito do seu NUSP como segue:

 Último digito 1: w1A ; 2: w1B ; 3: w1C ; 4: w2A ; 5: w2B; 6: w2C ; 7: w3A ; 8: w3B; 9: w3C ; 0: w1A  Assumindo 100 exemplares de treino (M=100), identifique o exemplar de treino

“µmeu” associado ao 2oe 3odígitos de seu NUSP como segue:

 Se 2oe 3odígitos são 0 e 1, µ = 01, se 2oe 3odígitos são 0 e 2, µ = 02,

se 2oe 3osão 0 e 3, µ = 03 … se 4 e 1, µ = 41 … e assim por diante

 a) Fixando a entrada X da rede no exemplar empírico µ , ou seja X = Xµe usando

como alvo (target) empírico y = yµ , e visando o cálculo do gradiente do erro

quadrático, necessário ao algoritmo de gradiente descendente (EBP – error back propagation), deduza com detalhe a expressão analítica da derivada parcial do erro quadrático do “seu” exemplar µmeucom relação ao “seu” peso sináptico wmeu, ou seja,

calcule ( ∂Eqµ_meu/ ∂ w

meu ) ; revise seus conceitos de derivada parcial e use a regra

da cadeia na sua dedução.

 b) Agora empregue a formula analítica obtida em a) para um (Xµ_meu, yµ_meu) empírico

com valores razoáveis ao seu sistema regressor (já criado por você nas atividades de aula): defina valores numéricos e unidades das 4 grandezas envolvidas no cálculo, x1µ, x2µ, x3µ, e yµ , e chegue ao valor numérico de ( ∂Eqµ_meu/ ∂ wmeu)

 c) Especifique o que teve que assumir em a e b (por não definido no enunciado).

Enunciado c/ ligeira modificação em aula (para o seu melhor aprendizado)

21 ©Prof. Emilio Del Moral – EPUSP

sistema a modelar RNA Tabela de amostras (X ; y) Eqm = (modelo do sistema)

O treinamento mira minimizar o

Eqm

das

amostras (X ; y) de treino. (exclusivamente!)

(8)

22 ©Prof. Emilio Del Moral – EPUSP

Um Exemplo Ilustrativo

para o Conceito de

Conjunto de

Treinamento e dos M

pares (X,y)…

23 ©Prof. Emilio Del Moral – EPUSP

Exemplo de regressão multivariada para

estimação contínua usando MLP

 O valor do y contínuo ... neste exemplo corresponde ao volume de consumo

futuro num dado tipo de produto “A” a ser ofertado pela empresa a um cliente corrente já consumidor de outros produtos da empresa (“B” e “C”), volume esse previsto com base em várias medidas quantitativas que caracterizam tal indivíduo. ... Assim, y = Consumo do Produto A = F(x1,x2, x3, x4, x5).

 Consideremos 4 variáveis de entrada no modelo preditivo neural, ou seja,

temos 5 medidas em X:

– x1: Idade do indivíduo – x2: Renda mensal do indivíduo

– x3: Volume de clicks do indivído no website de exibição de produtos

oferecidos pela empresa

– x4: Volume de consumo desse cliente observado para outro Produto B

da mesma empresa

– x5: Volume de consumo desse cliente Produto C da mesma empresa

Problema: desenvolver uma MLP para regressão contínua multivariada que

permita estimar esse volume de consumo futuro y com base no conhecimento dos X e numa base de dados de aprendizado com esses dados X e y para 350 já clientes de universo populacional similar ao do novo consumidor potencial.

(9)

24 ©Prof. Emilio Del Moral – EPUSP

Exemplo de dados empíricos tabulados em Excel ...

Cliente

(

) Idade (x1) Renda (x2) Clics (x3) Produto B (xConsumo do 4) Produto C (xConsumo do 5) Produto A (y)Consumo do

1 50 78 302 958 136 9800 2 65 128 186 985 196 8760 3 57 150 221 1093 35 520 ... ... ... ... ... ... ... M-2 16 19 51 707 131 11640 M-1 30 75 7 29 78 9640 M 19 47 116 285 124 5320 25 ©Prof. Emilio Del Moral – EPUSP

Equivalente em txt Para uso do MBP

Equivalent em .txt, em formato apropriado para o ambiente Multiple Back Propagation ...

(10)

30 ©Prof. Emilio Del Moral – EPUSP

A estratégia de Aprendizado para o MLP

mais conhecida:

Error Back Propagation (EBP)

= Propagação Reversa de Erro

= Método do Gradiente personalizado

ao Eqm(W) do MLP

31 ©Prof. Emilio Del Moral – EPUSP

Mas entendamos PRIMEIRO

o que é o método numérico do

gradiente ascendente /

gradiente descendente

genérico,

que pode ser aplicado tanto para se

chegar paulatinamente ao máximo de

uma função quanto para se chegar ao

mínimo de uma função

(ascendente / descendente)

(11)

32 ©Prof. Emilio Del Moral – EPUSP

Chamada oral sobre a lição de casa: estudar / reestudar os conceitos e a parte operacional de derivadas parciais, do vetor Gradiente, e da regra da cadeia ...

Derivadas parciais (que são as componentes do

gradiente):

ex: http://en.wikipedia.org/wiki/Partial_derivative

Vetor Gradiente, útil ao método do máximo declive:

ex: http://en.wikipedia.org/wiki/Gradient

Regra da cadeia, necessária ao cálculo de derivadas

quando há encadeamento de funções:

ex: http://en.wikipedia.org/wiki/Chain_rule

∂f(a,b,c)/∂a ∂f(a,b,c)/∂b ∂f(a,b,c)/∂c

(∂Eqm(W)/∂w1, ∂Eqm(W)/∂w2 , ∂Eqm(W)/∂w3 , ... )

∂f( g( h(a) ) )/∂a = ∂f/∂g . ∂g/∂h . ∂h/∂a

_

. Eqm

W

33 ©Prof. Emilio Del Moral – EPUSP

Derivada parcial- ilustração p/ função de 2 variáveis apenas

(12)

34 ©Prof. Emilio Del Moral – EPUSP

A visual model of the partial derivative

Derivada parcial- ilustração p/ função de 2 variáveis apenas

35 ©Prof. Emilio Del Moral – EPUSP

A visual model of the partial derivative with respect to y. mais ilustrações p/ a derivada parcial em função de 2 variáveis

(13)

36 ©Prof. Emilio Del Moral – EPUSP

Formação do vetor gradiente a partir de duas derivadas parciais

A visual model of the partial derivative

37 ©Prof. Emilio Del Moral – EPUSP

http://en.wikipedia.org/wiki/Gradient

... O vetor gradiente indica a direção ascendente e seu módulo a magnitude de crescimento da função escalar – ilustração p/ função de 2 variáveis apenas

(14)

38 ©Prof. Emilio Del Moral – EPUSP

Aprendizado do MLP por

Error Back Propagation ...

Chegando às fórmulas das

derivadas parciais, necessárias

à Bússola do Gradiente

Gradiente de Eqm no espaço de pesos = (∂Eqm(W)/∂w1, ∂Eqm(W)/∂w2 , ∂Eqm(W)/∂w3 , ... )

_

. Eqm

W

39 ©Prof. Emilio Del Moral – EPUSP

W#0 Eqm#0 GradEqm(W#0) DeltaW#0 =

- n.GradEqm(W#0) W#1 ( = W#0 + DeltaW#0) Eqm#1 ( < Eqm#0) GradEqm(W#1) DeltaW#1 = - n.GradEqm(W#1) W#2 ( = W#1 + DeltaW#1) Eqm#2 ( < Eqm#1) GradEqm(W#2) DeltaW#2 = - n.GradEqm(W#2) W#3 ( = W#2 + DeltaW#2) Eqm#3 ( < Eqm#2) GradEqm(W#3) DeltaW#3 = - n.GradEqm(W#3) W#4

( = W#3 + DeltaW#3) ( < Eqm#3)Eqm#4

GradEqm(W#4) DeltaW#4 =

- n.GradEqm(W#4)

... ... ... ...

W#k

( = W#k-1 + DeltaW#k-1) ( < Eqm#k-1)Eqm#k

GradEqm(W#k) DeltaW#k =

- n.GradEqm(W#4)

... ... ... ...

(15)

40 ©Prof. Emilio Del Moral – EPUSP

A estratégia do EBP / Gradiente Descendente no

aprendizado do MLP

W

Eqm(W)

erro do mapeamento Xyrede

em aproximar f “M amostrada”, representada por {(X; y )}. W#0 Eqm#0 W#1 Eqm#1 ( < Eqm#0 ) W#2 Eqm#2 ( < Eqm#1 ) W#3 Eqm#3 ( < Eqm#2 ) W#4 ∇ Quero chegar ao W que leve ao Menor Eqm 42 ©Prof. Emilio Del Moral – EPUSP

Este gráfico é denso e toca

em muitos aspectos

interrelacionados …

revisitemos alguns desses

aspectos isoladamente com

focos específicos nessas

revisitas, assim teremos

gráficos algo mais simples de

(16)

43 ©Prof. Emilio Del Moral – EPUSP

A estratégia do EBP / Gradiente Descendente no

aprendizado do MLP

W

Eqm(W)

erro do mapeamento Xyrede

em aproximar f “M amostrada”,

representada por {(X; y )}.

W#0

W#1W#2W#3W#4

44 ©Prof. Emilio Del Moral – EPUSP

Foco na evolução dos w´s com as iterações ...

W

Eqm(W)

W#0

W#1W#2W#3W#4

(17)

45 ©Prof. Emilio Del Moral – EPUSP

W

Eqm(W)

Foco nos diferentes DeltaW de cada iteração ...

A bússola do gradiente descendente (que define o vetor DeltaW) é reavaliada a cada iteração -η .∇Eqm 46 ©Prof. Emilio Del Moral – EPUSP

W

Eqm(W)

Foco na evolução do Eqm com as iterações ...

Por construção, o Eqm decresce

a cada iteração

(18)

47 ©Prof. Emilio Del Moral – EPUSP

Eqm(#)

Plotando a evolução do Eqm com as iterações ...

Por construção, Eqm decresce a cada iteração, até estabilização em ponto de mínimo # da iteração #1 #2 #3 #4 #0 ... #5 #6 48 ©Prof. Emilio Del Moral – EPUSP

Como o que estamos aprendendo no domínio de equações analíticas se relaciona com o exercitado no ambiente MBP?

(19)

49 ©Prof. Emilio Del Moral – EPUSP

Gráfico fornecido pelo ambiente MBP da evolução do Eqm com o número de repetidos usos da “bússola do gradiente descendente”: isto conecta o MBP com o gráfico apresentado no slide anterior

Gráfico mostrando as primeiras 47 iterações do processo de refinamentos sucessivos do modelo ...

Nota: o RMS do eixo vertical deste gráfico significa Root Mean Square, e é a raiz quadrada do nosso conhecido Eqm 50 ©Prof. Emilio Del Moral – EPUSP

Gráfico fornecido pelo ambiente MBP da evolução do Eqm com o número de repetidos usos da “bússola do gradiente descendente”: isto conecta o MBP com o gráfico apresentado no slide anterior

Gráfico mostrando as primeiras 47 iterações do processo de refinamentos sucessivos do modelo ... O erro é baixo ao final, pois os pesos vão sendo paulatinamente melhorados

Nota: o RMS do eixo vertical deste gráfico significa Root Mean Square, e é a raiz quadrada do nosso conhecido Eqm Fase 1: Treino da Rede / Calibração dos Pesos

O erro é alto de início, pois os pesos w são aleatórios e não otimizados

(20)

51 ©Prof. Emilio Del Moral – EPUSP

O Ciclo completo da modelagem:

0) Formalização do problema, mapeamento quantitativo em um modelo neural inicial e ... 0b) coleta de pares empíricos (X,y)

1) Fase de TREINO da RNA (MLP): com conhecimento dos X e dos y, que são ambos usados na calibração do modelo

2) Fase de TESTE / Caracterização da qualidade da RNA para generalizar: temos novos pares X e y, com y guardado “na gaveta”, usado apenas para avaliação, não para re-calibração. É como um ensaio de uso final do modelo, com possibilidade de medir a sua qualidade com o y que foi guardado na gaveta.

[Fase de refinamentos da RNA, dados e modelo, em ciclos, desde 0] 3) Fase de USO FINAL da RNA, com y efetivamente não conhecido, e estimado com conhecimento dos X + uso do modelo calibrado.

.... Diferenças e semelhanças entre 1, 2 e 3

76 ©Prof. Emilio Del Moral – EPUSP

Aprendizado do MLP por

Error Back Propagation ...

Chegando às fórmulas das

derivadas parciais, necessárias

à Bússola do Gradiente

Gradiente de Eqm no espaço de pesos = (∂Eqm(W)/∂w1, ∂Eqm(W)/∂w2 , ∂Eqm(W)/∂w3 , ... )

_

. Eqm

W

(21)

77 ©Prof. Emilio Del Moral – EPUSP

Relembrando o que está por trás de um desenho como o que segue ...

79 ©Prof. Emilio Del Moral – EPUSP

x1 x2 x3 1 fA fB fC 1 yrede(X) yA(X) yB(X) X

(22)

80 ©Prof. Emilio Del Moral – EPUSP

x1 x2 x3 1 fA fB fC 1 yrede(X,W) yA(X,W) yB(X,W) X 83 ©Prof. Emilio Del Moral – EPUSP

x1 x2 x3 1 fA fB fC 1 yrede(X,W) yA(X,W) yB(X,W) X yrede(X,W) = fC(wAC. yA(X,W) + wBC. yB(X,W) + w0C) yrede(X,W) = fC(wAC. fA(w1A.x1+ w2A.x2+ ... + w0A ) + wBC. fB(w1B.x1+ w2B.x2+ ... + w0B) + w0C)

(23)

84 ©Prof. Emilio Del Moral – EPUSP

x1 x2 x3 1 fA fB fC 1 yrede(X,W) yA(X,W) yB(X,W) yalvo(X) - (.)2 Eq(X,W) X Eq (X,W) = [yrede(X,W) - yalvo(X)]2 85 ©Prof. Emilio Del Moral – EPUSP

Grafo de cálculos detalhado Para um MLP “3-3-1”

(24)

86 ©Prof. Emilio Del Moral – EPUSP

Chamada oral sobre a lição de casa: estudar / reestudar os conceitos e a parte operacional de derivadas parciais, do vetor Gradiente ...

Derivadas parciais (que são as componentes do

gradiente):

ex: http://en.wikipedia.org/wiki/Partial_derivative

Vetor Gradiente, útil ao método do máximo declive:

ex: http://en.wikipedia.org/wiki/Gradient

∂f(a,b,c)/∂a ∂f(a,b,c)/∂b ∂f(a,b,c)/∂c

(∂Eqm(W)/∂w1, ∂Eqm(W)/∂w2 , ∂Eqm(W)/∂w3 , ... )

W

. Eqm

_

87 ©Prof. Emilio Del Moral – EPUSP

Invertamos o operador

gradiente e a somatória

.

.. afinal, gradiente é uma derivada, e a derivada de um soma de várias funções é igual à soma das derivadas individuais de cada componente da soma:

Grad(Eqm) =

Grad( Σ

Eq

μ

) / M

(25)

88 ©Prof. Emilio Del Moral – EPUSP

Note que a inversão do gradiente com a somatória nada mais é que usar de forma repetida – e em separado para cada dimensão

do vetor Grad( ΣEqμ) – a seguinte

propriedade simples e sua velha conhecida ...

d(f1(x)+f2(x)) / dx = df1(x)/dx + df2(x)/dx

89 ©Prof. Emilio Del Moral – EPUSP

x1 x2 x3 1 fA fB fC 1 yrede(X,W-,w1A) yA(X,W-,w1A) yB(X,W-) yalvo(X) - (.)2 Eq(X,W-,w 1A) X P/ obtermos a derivada parcial com relação a w1A,

apenas ele variará; os demais pesos w passam a ser contantes (fixos)

(26)

90 ©Prof. Emilio Del Moral – EPUSP

x1 x2 x3 1 fA fB fC 1 yrede(X,W-,w1A) yA(X,W-,w1A) yB(X,W-) yalvo(X) - (.)2 Eq(X,W-,w 1A) X

em verde, a única variável w1A;

em preto, os elementos constantes

91 ©Prof. Emilio Del Moral – EPUSP

x1 x2 x3 1 fA fB fC 1 yrede(X,W-,w1A ) yA(X,W-,w1A) yB(X,W-) yalvo(X) - (.)2 Eq(X,W-,w 1A) X

a cadeia de cálculos desdew1A ... até ... Eq

(27)

93 ©Prof. Emilio Del Moral – EPUSP

x1 x2 x3 1 fA fB fC 1 yrede(X,W-,w1A) yA(X,W-,w1A) yB(X,W-) yalvo(X) - (.)2 Eq(X,W-,w 1A) X w1A Eq soma com (wBCyB + w0C) função fC diferença com yalvo(X) quadrado

produto por x1 soma com (w2Ax2 + w3Ax3 + w0A) função fA produto por wAC

a cadeia de cálculos desdew1A ... até ... Eq

94 ©Prof. Emilio Del Moral – EPUSP

Note que aqui temos uma cadeia com muitos estágios que levam da váriável w1A, à variável Eqμ, e para a qual podemos

calcular a derivada da saída (Eqμ) com relação à entrada

(w1A) aplicando de forma repetida a seguinte propriedade

simples e sua velha conhecida ...

d(f1(f2(x)) / dx = df1(x)/df2. df2(x)/dx

..., ou seja, calculando isoladamente o valor da derivada para cada estágio da cadeia, e finalizando o cálculo de derivada de

ponta a ponta nessa cadeia toda através do produto dos diversos valores de cada estágio.

(28)

95 ©Prof. Emilio Del Moral – EPUSP

x1 x2 x3 1 fA fB fC 1 yrede(X,W-,w1A) yA(X,W-,w1A) yB(X,W-) yalvo(X) - (.)2 Eq(X,W-,w 1A) X e o valor de Eq / w1A= ??? w1A Eq soma com (wBCyB + w0C) função fC diferença com yalvo(X) quadrado

produto por x1 soma com (w2Ax2 + w3Ax3 + w0A) função fA produto por wAC

( x1 ) ( fA) ( w

AC )

( fC) ( 2 vezes erro )

96 ©Prof. Emilio Del Moral – EPUSP

x1 x2 x3 1 fA fB fC 1 yrede(X,W-,w1A) yA(X,W-,w1A) yB(X,W-) yalvo(X) - (.)2 Eq(X,W,w1A ) X w1A Eq soma com (wBCyB + w0C) função fC diferença com yalvo(X) quadrado

produto por x1 soma com (w2Ax2 + w3Ax3 + w0A) função fA produto por wAC

( x1 ) ( fA) ( w AC ) ( fC) Eq / w1A= ( x1 ) . ( fA’ ) . ( wAC ) . . ( fC’ ) . ( 2 vezes erro) e o valor de Eq / w1A= ??? ( 2 vezes erro )

(29)

98 ©Prof. Emilio Del Moral – EPUSP

Avisos que detalhei na aula de 02 de abril

A nossa P1 ocorrerá no horário de aula de PSI3471 e na semana de P1 (de E&S), como no calendário divulgado no início do semestre; mais precisamente, ocorrerá no dia 16 de abril, 2ª feira às 7:30 (com duração prevista de 90 mins). 99 ©Prof. Emilio Del Moral – EPUSP

Avisos que comentei na aula de 02 de abril

(30)

101 ©Prof. Emilio Del Moral – EPUSP

Lembretes ....

Na maioria dos slides anteriores, onde aparece X, leia-se

X, não incluído para não complicar demais os desenhos

 ... similarmente, onde aparece yalvo, leia-se yalvo. Idem

para os Eq, leia-se Eq

Nos itens de cadeia de derivadas ( fA’ ) e( fC’ ) , atenção

para os valores dos argumentos, que devem ser os

mesmos de fA e fC na cadeia original que leva w1A a Eq.

... lembrando ... na cadeia original tinhamos ...

–para fC:fC(wAC. fA(w1A.x1+ w2A.x2+ w0A) + wBC. fB(w1B.x1+ w2B.x2+ w0B) + w0C)

–para fA:fA(w1A.x1+ w2A.x2+ w0A)

Similarmente, para o bloco “quadrado”, cuja derivada é a

função “2 vezes erro”, o argumento é [yrede(X,W) - yalvo(X)]

102 ©Prof. Emilio Del Moral – EPUSP

Lembretes ....

O mesmo que foi feito para w1Adeve ser feito agora para

os demais 10 pesos: w2A,w3A, w0A,w1B,w2B,w3B,w0B,wAC,wBC ,e w

0C !

Assim compomos um gradiente de 11 dimensões, com

as derivadas de Eqcom relação aos 11 diferentes

pesos w: GradW (Eq)

Essas 11 fórmulas devem ser aplicadas repetidamente

aos M exemplares numéricos de Xe y

alvo, calculando M

gradientes!

Com eles, se obtém o gradiente médio dos M pares

empíricos: GradW (Eqm) = [ΣGradW (Eq)] / M

(31)

103 ©Prof. Emilio Del Moral – EPUSP

Método do Gradiente Aplicado aos nossos MLPs: a partir de um W#0, temos aproximações sucessivas ao Eqm mínimo, por repetidos pequenos passos DeltaW, sempre contrários ao gradiente ...

“Chute” um W inicial para o “Wcorrente”, ou “W melhor até agora”

Em loop até obter Eqm zero, ou baixo o suficiente, ou estável:

– Determine o vetor gradiente do Eqm, nesse espaço de Ws

– Em loop varrendo todos os M exemplos (Xμ;yμ),

Calcule o gradiente de Eqμassociado a um exemplo μ, e vá varrendo μe

somando os gradientes de cada Eqμ, para compor o vetor gradiente de Eqm, assim que sair deste loop em μ;

Cada cálculo como esse, envolve primeiro calcular os argumentos de cada

tangente hiperbólica e depois usar esses argumentos na regra da cadeia das derivadas necessárias

– Dê um passo Delta W nesse espaço, com direção e magnitude dados

por –*vetor gradiente médio para os M Exemplos (Xμ;yμ) de treino

104 ©Prof. Emilio Del Moral – EPUSP

O que devemos mirar quando exploramos o espaço de pesos W buscando que a RNA seja um bom modelo?

Devemos mirar Maximização da aderência = Minimo Eqm possível

Aderência do modelo aos pares (X,y) empíricos

valor do Eqm 100% aderente baixa aderência

W

Eqm(W) As Setas Verdes

Indicam Situações que Devem ser Procuradas

Será que temos apenas um mínimo??

(32)

107 ©Prof. Emilio Del Moral – EPUSP

O Ciclo completo da modelagem:

0) Formalização do problema, mapeamento quantitativo em um modelo neural inicial e ... 0b) coleta de pares empíricos (X,y)

1) Fase de TREINO da RNA (MLP): com conhecimento dos X e dos y, que são ambos usados na calibração do modelo

2) Fase de TESTE / Caracterização da qualidade da RNA para generalizar: temos novos pares X e y, com y guardado “na gaveta”, usado apenas para avaliação, não para re-calibração. É como um ensaio de uso final do modelo, com possibilidade de medir a sua qualidade com o y que foi guardado na gaveta.

[Fase de refinamentos da RNA, dados e modelo, em ciclos, desde 0] 3) Fase de USO FINAL da RNA, com y efetivamente não conhecido, e estimado com conhecimento dos X + uso do modelo calibrado.

.... Diferenças e semelhanças entre 1, 2 e 3

108 ©Prof. Emilio Del Moral – EPUSP

Modelagem de um sistema por função de mapeamento X -> y (a RNA como regressor contínuo não linear multivariável)

X

y

RNA

X

y

rede

Assumimos que a variável y do sistema a modelar é uma função (normalmente desconhecida e possivelmente não linear) de diversas outras variáveis desse mesmo sistema

A RNA , para ser um bom modelo do sistema, deve reproduzir essa relação entre X e y, tão bem quanto possível

sistema a modelar

y ... do mundo analógico (contínuo)

(33)

109 ©Prof. Emilio Del Moral – EPUSP

Anos de vida (“y” contínuo) Anos de educação formal (x3) Número de filhos Dias de Férias / ano Volume de bens familiares (x2) Grau de periculosidade da atividade (x1) Frequência em eventos sociais Frequência em eventos artísticos

Um hipotético universo de variáveis

inter-dependentes, passível de modelagem/ens

110 ©Prof. Emilio Del Moral – EPUSP

A função y(X) “a descobrir”, num caso geral

de função contínua y(X) ....

xo xi y +1.0 0.0 -1.0

X

y

(.... VALORES CONTÍNUOS!!!)

- ESTIMADOR ;

- MODELAGEM POR

MAPEAMENTO Xy

X

S

S: sistema regido por função F genérica, y=F(X) (ou y=F(X) + erro “pequeno”)

comportamento do sistema a modelar (ou então, comportamento “padrão ouro”)

(34)

111 ©Prof. Emilio Del Moral – EPUSP

RNAs como reconhecedor / detetor de padrões

...

X

X é padrão notável? Sim ( ) Não ( )y ... responde à seguinte pergunta:

RNA

X

y

rede

...

+1 ( ) versus - 1 ( )

... ou alternativamente: yrede... 0.5 ( ) versus- 0.5 ( )

... ou alternativamente: ... yrede> 0 ( ) versusyrede< 0 ( )

sistema a modelar

y ... é do universo discreto / binário (SIM versus NÃO), y não é analógico

112 ©Prof. Emilio Del Moral – EPUSP Saldo Bancário médio (x1) Contribuinte significativo de impostos Salário Médio (x4) Medida de confiabilidade de crédito do indivíduo segundo

agência XYZ (x2) Consumidor que honra(rá) crédito solicitado (“y” binário”) Micro-empreendedor de sucesso

Um hipotético universo de variáveis

inter-dependentes, passível de modelagem/ens

Consumidor Influenciável

por propaganda

(35)

113 ©Prof. Emilio Del Moral – EPUSP

Caso de classificação binária /

reconhecimento de padrões, será do tipo ...

X

y (... restrita a

valores +1 e –1)

CLASSIFICADOR;

RECONHECEDOR DE

PADRÕES NOTÁVEIS

sistema a modelar xo xi y +1.0 0.0 -1.0

X

comportamento do sistema a modelar (decisor ”perfeito” – ou decisor “padrão ouro”)

(classe A)

(classe B)

Referências

Documentos relacionados

Grande parte das professoras revela que apenas vê o PPP da unidade como um instrumento burocrático a ser entregue para a Secretaria de Educação no início do ano e não o utiliza

F I G U R E 1   Schematic representation of the experiment undertaken to test different routes of oestradiol benzoate administration for cervical dilation prior to

É muito comum observar nas empresas, nacionais em geral, em suas estruturas de planejamento e controle de operações da cadeia de suprimentos, estruturas

A DHL poderá subscrever um seguro para a cobertura do valor do Envio em caso de perda ou dano sofrido pelo mesmo, desde que o Remetente instrua a DHL por escrito, preenchendo a

Water and wastewater treatment produces a signi ficant amount of methane and nitrous oxide, so reducing these emissions is one of the principal challenges for sanitation companies

Mensagem que usamos para falar ao Arduino que deve ficar parado nessa linha do código durante.

Utilizando a Teoria de Estabilidade Linear é apresentada a dedução da equação de Orr-Sommerfeld para um fluido viscoelástico do tipo Giesekus, juntamente com as equações dos