RNAs, Classificação de Padrões e Motivação Geométrica. Conteúdo

(1)

Tópico 6: RNAs, Classificação de Padrões e Motivação Geométrica ₁

RNAs, Classificação de Padrões e Motivação Geométrica

Conteúdo

1. O problema do OU-exclusivo... 2

2. Um problema mais geral de mapeamento não-linear... 10

3. Mapeamentos não-lineares genéricos... 14

4. Redes neurais multicamadas e suas extensões... 18

5. Treinamento Supervisionado: Motivação Geométrica... 27

5.1 Vetor em 2D... 27

5.2 Vetor em >2D... 28

5.3 Comparação entre vetores: produto interno... 28

5.4 Projeção de um vetor na direção de um outro vetor... 29

5.5 Soma e subtração de vetores... 29

5.6 Treinamento supervisionado de um neurônio tipo perceptron, com função de ativação tipo sinal: Interpretação Geométrica... 30

5.7 Busca iterativa do mínimo de uma função via gradiente descendente... 35

5.8 Aplicação do gradiente descendente ao caso do perceptron... 36

5.9 Obtenção da direção de maior decrescimento da função... 38

IA353 – Profs. Fernando Von Zuben & Leandro N. de Castro DCA/FEEC/Unicamp 1. O problema do OU-exclusivo

• Considere os pontos (0,0),(0,1),(1,0) e (1,1) no plano ℜ2, conforme apresentado na Figura 1. O objetivo é determinar uma rede com duas entradas xi∈ {0,1}

(i=1,2), e uma saída y ∈ {0,1} de maneira que:    = ⇒ = = ⇒ = 1 (0,1) ou ) 0 , 1 ( ) , ( 0 (1,1) ou ) 0 , 0 ( ) , ( y x x y x x 2 1 2 1 1 x 2 x (0,0) (0,1) (1,0) (1,1) y = 0 y = 1

(2)

DCA/FEEC/Unicamp

Tópico 6: RNAs, Classificação de Padrões e Motivação Geométrica ₃

• Inicialmente será analisado o comportamento de um neurônio tipo perceptron

(veja figura 2) no processo de solução do problema exposto acima. A saída y pode ser representada na forma:

y = g(w1x1 + w2x2 + w0) onde    < ≥ 0 se 0 = ) g( 0 se 1 = ) g( u u u u x x w w w 0 1 2 1 2 y g u 1

Figura 2 – Neurônio tipo perceptron, com duas entradas (mais a polarização) • Para qualquer valor dos parâmetros w0 , w1 e w2, a função g(u) separa o espaço de

entradas em duas regiões, sendo que a curva de separação é uma linha reta.

IA353 – Profs. Fernando Von Zuben & Leandro N. de Castro DCA/FEEC/Unicamp

Figura 3 – Mapeamento de entrada-saída para o perceptron da figura 2, com w0 = −6, w1 = 4 e w2 = 3 -5 0 5 -5 0 5 0 0.5 1 x1 x2

(3)

Tópico 6: RNAs, Classificação de Padrões e Motivação Geométrica ₅

• No problema do OU-exclusivo (figura 1), pode-se constatar que não existe uma única linha reta divisória de forma que os pontos (0,0) e (1,1) se posicionem de um lado enquanto que (0,1) e (1,0) permaneçam do outro lado da linha.

• Logo, pode-se imediatamente concluir que um neurônio tipo perceptron não

apresenta grau de liberdade suficiente para resolver o problema proposto, o que foi corretamente constatado por Minsky & Papert, em 1969.

• No entanto, esses autores também acreditavam que não havia razão para supor que redes multicamadas pudessem conduzir a uma solução para o problema proposto. Esta hipótese só foi definitivamente rejeitada com o desenvolvimento do algoritmo de retro-propagação (back-propagation), já nos anos 80, o qual permite o ajuste automático de pesos para redes neurais multicamadas, arquitetura necessária para a realização de mapeamentos não-lineares, como será verificado mais adiante.

• Considere o problema de mapeamento de uma rede neural tipo perceptron, com

uma camada intermediária (veja figura 4), aplicada ao problema do OU-exclusivo.

z z w w w 0 1 2 1 2 y g 1 g g x x 1 2 w 10 w 11 w₁₂ w₂₀ w₂₁ w 22 1

Figura 4 - Perceptron com uma camada intermediária.

• A camada de entrada fornece um vetor de entrada (x1,x2) para a camada

intermediária, enquanto que a camada intermediária produz duas saídas z1=sgn(w10+w11x1+w12x2) e z2=sgn(w20+w21x1+w22x2). Na camada de saída, o sinal

(4)

DCA/FEEC/Unicamp

Tópico 6: RNAs, Classificação de Padrões e Motivação Geométrica ₇

• Surge uma questão: existem parâmetros wij (i=1,2; j=0,1,2) e wk (k = 0,1,2) tais

que y = 0 para as entradas (0,0) e (1,1) e y = 1 para as entradas (1,0) e (0,1)? • As saídas da primeira camada (z1 e z2) podem ser consideradas como variáveis

intermediárias utilizadas na geração da saída y.

• Do que já foi visto a respeito de um neurônio tipo perceptron, sabe-se que existem pesos w1j (j=0,1,2) tais que (veja curva de separação L1 na figura 5(a)):

(0,1) produza z1 = 1

(0,0),(1,0),(1,1) produza z1 = 0.

• De forma similar, existem pesos w2j (j=0,1,2) tais que (veja curva de separação L2

na figura 2.5(a)):

(0,1),(0,0),(1,1) produza z2 = 1

(1,0) produza z2 = 0

IA353 – Profs. Fernando Von Zuben & Leandro N. de Castro DCA/FEEC/Unicamp 1 x 2 x (0,0) (1,0) (0,1) (1,1) (a) 1 z 2 z (0,0) (0,1) (1,1) (b) L₂ L 1 L3

Figura 5 - Realização da função OU-exclusivo

• Essa discussão mostra que existem pesos wij (i=1,2; j=0,1,2) tais que a entrada

(0,1) resulte em z1 = 1, z2 = 1, e a entrada (1,0) resulte em z1 = 0, z2 = 0, enquanto

que (0,0) e (1,1) produzam z1 = 0, z2 = 1. Já que (0,0) e (1,1) podem ser separados

linearmente de (0,1), como mostrado na figura 5(b) pela curva de separação L3,

pode-se concluir que a função booleana desejada pode ser obtida utilizando-se perceptrons em cascata, ou seja, uma rede com uma camada intermediária.

(5)

Tópico 6: RNAs, Classificação de Padrões e Motivação Geométrica ₉

• Isto é possível devido à transformação do espaço de entrada (x1,x2), onde os

padrões não são linearmente separáveis, no espaço (z1,z2), onde os padrões são

linearmente separáveis.

• Em reconhecimento de padrões é bem conhecido que quando classes de padrões

podem ser separadas utilizando-se uma função discriminante não-linear, o problema pode ser transformado em um espaço de dimensão maior onde os padrões são linearmente separáveis.

• Por exemplo, se a curva a0+a1u1+a2u2+a3u1u2 = 0 no espaço (u1,u2) separa duas

classes de padrões, então um hiperplano (uma superfície linear) no espaço tridimensional (u1,u2,u1u2) pode também separá-los. Esta foi a propriedade

explorada na solução do problema do OU-exclusivo.

• Obviamente, existem problemas de classificação muito mais “complexos” que o OU-exclusivo, não apenas por envolverem mais dimensões ou padrões, mas também por considerarem classes disjuntas.

IA353 – Profs. Fernando Von Zuben & Leandro N. de Castro DCA/FEEC/Unicamp 2. Um problema mais geral de mapeamento não-linear

• Considere, agora, um problema mais geral de classificação de padrões em um

espaço de dimensão finita. Com base na figura 6, assume-se que a região triangular (conjunto A) corresponde a uma classe 1, enquanto que o complemento desta região (conjunto B) corresponde a uma classe 2. O objetivo é determinar os pesos de uma rede neural cuja saída é 1 (simbolizando a classe 1) quando a entrada (x1,x2) ∈ A e 0 (simbolizando a classe 2) quando (x1,x2) ∈ B.

1 x 2 x B A

(6)

DCA/FEEC/Unicamp

Tópico 6: RNAs, Classificação de Padrões e Motivação Geométrica ₁₁

• Partindo das conclusões extraídas da seção anterior, é possível afirmar que cada um dos três segmentos de reta que delimitam a região A pode ser representado por um neurônio tipo perceptron. Tomando-se a função booleana AND das saídas destes três perceptrons, a saída y pode ser feita 1 quando (x1,x2) ∈ A e 0 quando

(x1,x2) ∈ B. A estrutura desta rede é apresentada na figura 7.

g g x x 1 2 w₁₀ w 11 w₁₂ w 20 w 21 w₂₂ 1 g w 30 w 31 w₃₂ AND y

Figura 7 - Estrutura da rede para a solução do problema da figura 6

• A mesma abordagem pode ser estendida para casos em que o conjunto A é

limitado por um polígono convexo. O número de neurônios necessários antes do conectivo AND é, neste caso, igual ao número de lados do polígono.

• Se A1, A2 e A3 são conjuntos disjuntos (desconexos), cada qual limitado por um

polígono convexo e o conjunto A = A1∪A2∪A3 corresponde à classe 1 e o

complemento de A (conjunto B) corresponde à classe 2, a mesma abordagem descrita acima pode ser utilizada para reconhecer as duas classes. Neste caso, três redes idênticas àquela apresentada na Figura 7 são utilizadas. As saídas y1, y2 e y3

das três redes são tomadas como entrada de uma função booleana OR, cuja saída é 1 (simbolizando classe 1) quando (x1,x2) ∈ A e 0 (simbolizando classe 2) quando

(x1,x2) ∈ B.

• Com base nos resultados obtidos acima, e levando-se em conta que as funções booleanas AND e OR podem ser executadas através de um único neurônio do tipo perceptron, conclui-se que um perceptron com duas camadas intermediárias pode

(7)

Tópico 6: RNAs, Classificação de Padrões e Motivação Geométrica ₁₃

executar a tarefa de reconhecer elementos de conjuntos desconexos quando os conjuntos são limitados por segmentos lineares.

• Situações mais gerais, onde as regiões não são convexas podem também ser

adequadamente mapeadas utilizando-se um perceptron com uma camada intermediária, já que qualquer região não-convexa pode ser representada como uma união de regiões convexas.

• No entanto, a seleção automática dos pesos para redes com múltiplas camadas não é uma tarefa elementar. A principal dificuldade provém da natureza descontínua da função de ativação g utilizada (função sinal).

• Uma solução para este problema será proposta quando for apresentado o algoritmo de treinamento para redes neurais multicamadas, denominado algoritmo de retro-propagação, o qual requer que a função de ativação dos neurônios seja diferenciável, ao menos até 1a ordem.

IA353 – Profs. Fernando Von Zuben & Leandro N. de Castro DCA/FEEC/Unicamp 3. Mapeamentos não-lineares genéricos

• Na seção anterior, verificou-se que redes neurais de três camadas, compostas por unidades processadoras com função de ativação do tipo sinal, são capazes de discriminar classes representadas por uma seqüência de segmentos lineares.

• No entanto, muitos são os exemplos de classes que não podem ser adequadamente descritas por seqüências de segmentos lineares e, portanto, não podem ser discriminadas por este tipo de rede neural.

• Por exemplo, considere o problema de classificação de padrões pertencentes a duas classes distintas, separáveis por uma circunferência, conforme apresentado na figura 8.

• Se for utilizada uma rede neural com função de ativação do tipo sinal, a melhor solução que pode ser obtida é uma aproximação da circunferência por trechos de segmento de reta.

(8)

DCA/FEEC/Unicamp

Tópico 6: RNAs, Classificação de Padrões e Motivação Geométrica ₁₅

1 x 2 x

B

A

Figura 8 - Padrões separáveis por uma circunferência

• A estrutura da rede neural é a mesma apresentada na figura 7, sendo que quanto maior o número de neurônios na primeira camada (camada de entrada), melhor será a aproximação. Esta relação é indesejável, pois cria uma dependência assintótica (com taxas de convergência muito baixas) entre a dimensão da rede e a capacidade de classificação.

• A conclusão que se pode extrair é que, no caso das redes neurais em camadas já apresentadas, funções de ativação lineares por partes, como é o caso da função sinal, vão conduzir a mapeamentos lineares por partes.

• Portanto, existe aparentemente uma correspondência muito forte entre o tipo de não-linearidade da função de ativação e a capacidade de mapeamento de redes neurais artificiais para cada tipo de problema.

• Se esta correspondência se aplicar a todos os tipos de função de ativação, fica bastante comprometida a utilização de redes neurais em problemas genéricos de mapeamento, pois passa a ser necessário conhecer exatamente a característica do mapeamento para que se possa definir a função de ativação a ser utilizada, ou seja, é preciso aplicar a solução do problema na composição da rede neural que, em princípio, iria solucionar o problema.

• Felizmente, requisitos mínimos podem ser impostos às funções de ativação, de tal forma a garantir a existência de solução, independente do problema de aplicação.

(9)

Tópico 6: RNAs, Classificação de Padrões e Motivação Geométrica ₁₇

• Devido à estruturação da rede em camadas, o processamento dos sinais pela rede faz com que os sinais de saída sejam uma composição particular de funções de ativação, as quais devem atender a um conjunto mínimo de propriedades para conferir à rede neural o que se denomina de capacidade de aproximação universal de mapeamentos não-lineares contínuos, definidos em regiões compactas do espaço de aproximação.

• Tomando por base métodos de aproximação universal para funções não-lineares, como séries de Taylor (composição de funções polinomiais) e séries de Fourier (composição de funções trigonométricas), não deve surpreender o fato de que redes neurais, cujas funções de ativação são dotadas de algum tipo particular de não-linearidade contínua, sejam capazes de realizar qualquer tipo de mapeamento multidimensional contínuo em regiões compactas do espaço de aproximação. • Embora não estejamos mais restritos ao caso de problemas de classificação de

padrões, estes continuam a representar uma das principais aplicações.

IA353 – Profs. Fernando Von Zuben & Leandro N. de Castro DCA/FEEC/Unicamp 4. Redes neurais multicamadas e suas extensões

• Nesta seção, vamos apresentar um exemplo ilustrativo de como é o processo de aproximação de mapeamentos não-lineares contínuos utilizando redes neurais multicamadas (apresentaremos apenas o caso de uma camada intermediária), dotadas de função de ativação sigmoidal (portanto, uma função diferenciável). • Já vimos que diferentes expressões para a função de ativação sigmoidal g(.) podem

ser escolhidas.

• Já vimos também que é recomendável que o(s) neurônio(s) da camada de saída

tenham funções de ativação do tipo identidade. Neste caso, considerando p neurônios na única camada intermediária, a função de transferência da rede neural

pode ser dada na forma:

∑

(

)

= + + = p n n n ng b x a c c y 1

0 , onde x é o vetor de entrada e y

(10)

DCA/FEEC/Unicamp

Tópico 6: RNAs, Classificação de Padrões e Motivação Geométrica ₁₉

a b 1 1 x g u 1 y g u y c c c 0 2 1 y 1 2 2 1 1 a b 2 2 1 x

(

)

(

)

    ⇒ + + + + = sigmóide da amplitude : c sigmóide da inclinação : b x eixo no to deslocamen : a 2 2 2 1 1 1 0 c g bx a c g b x a c y

Figura 9 - Rede neural multicamada e sua função de transferência

• Isto significa que a rede neural com uma camada intermediária realiza um

mapeamento que é dado por uma série truncada, tendo a função de ativação g(.) como função básica (função-base).

• É possível então comparar este mapeamento com aquele realizado por uma série

de Fourier truncada, dada na forma:

∑

(

)

= + + = p n n n nw x a c c y 1 0 0 cos .

• Se tomarmos g(.) como sendo cos(.), deduz-se que a rede neural com uma camada intermediária se transforma em uma série de Fourier generalizada, pelo fato de permitir também o ajuste da freqüência da função cos(.).

• As freqüências na série de Fourier são fixas (múltiplos da freqüência fundamental

w0) pois o ajuste deste termo representa uma operação não-linear, sem solução na

forma fechada (requer processos iterativos de solução).

• Como g(.) pode assumir outras formas, além da função cos(.), muitas outras possíveis extensões podem ser consideradas.

(11)

Tópico 6: RNAs, Classificação de Padrões e Motivação Geométrica ₂₁

Exemplo: Forma “construtiva” de aproximação de um mapeamento não-linear

1 1 1 1 1 1 a b c d e

( )

(

)

(

)

(

)

(

)

(

)

_, bias e d c b a c a x b g c a x b g c a x b g c a x b g c a x b g c f w =₁₁ +₁ +₂₂ +₂ +₃₃ +₃ +₄₄ +₄ +₅₅ +₅ + ₀

IA353 – Profs. Fernando Von Zuben & Leandro N. de Castro DCA/FEEC/Unicamp a b e c a+b a+b+c+d a+b+c+d+e bias a+b+c d a+b+c+d+e+bias

(12)

DCA/FEEC/Unicamp

Tópico 6: RNAs, Classificação de Padrões e Motivação Geométrica ₂₃

Exemplo 2: Considere a mesma rede do exemplo anterior (só que agora com 2 entradas).

• Pesos da rede neural treinada: camada intermediária

-0.2000893971 -0.7005190801 0.3969922184 -0.1000386326 0.6960626246 0.7001816852 0.1001586041 0.1986002882 -0.2999619530 0.2986911223 -0.3000639814 0.8002220985 0.4937240042 0.5000542722 0.8951501213

(13)

Tópico 6: RNAs, Classificação de Padrões e Motivação Geométrica ₂₅

• Pesos da rede neural treinada: camada de saída

0.99989340388393 0.79971888341317 0.90007841696146 0.38564988369799 0.79996881679466 0.71442550587375

(14)

DCA/FEEC/Unicamp

Tópico 6: RNAs, Classificação de Padrões e Motivação Geométrica ₂₇ 5. Treinamento Supervisionado: Motivação Geométrica

5.1 Vetor em 2D

o grandeza que tem magnitude e direção; o ponto no sistema de coordenadas cartesianas;

o lista ordenada de números que correspondem às projeções do vetor em cada eixo de coordenadas. x1 x2 v1 v2 θ v (v1,v2)

(

θ

)

= v₂, v

(

v1,v2

)

= v

[

]

T v v1 2 = v ∈ℜ2

( )

2 2 2 1 2 1 2 v v T ₌ ₊ = v v v

IA353 – Profs. Fernando Von Zuben & Leandro N. de Castro DCA/FEEC/Unicamp 5.2 Vetor em >2D

• Lista ordenada de números que correspondem às projeções do vetor em cada eixo de coordenadas.

[

]

T n v v v1 2 = v ∈ℜn

( )

∑

= = = n i i T v 1 2 2 1 2 v v v

5.3 Comparação entre vetores: produto interno

        = θ ⇒ θ ⋅ ⋅ = =

∑

= 2 2 2 2 1 ) cos( ) cos( w w v v w v w v T n i i i T w v θ v w w v θ w v θ 0 > w vT vTw=0 vTw<0

(15)

Tópico 6: RNAs, Classificação de Padrões e Motivação Geométrica ₂₉ 5.4 Projeção de um vetor na direção de um outro vetor

θ v w vw w w v v w T v = ₂cos(θ)= Se w ₂ =1⇒v_w = vTw

5.5 Soma e subtração de vetores

x1 x2 w v v u w = u + v z u −v −v z = u − v

IA353 – Profs. Fernando Von Zuben & Leandro N. de Castro DCA/FEEC/Unicamp 5.6 Treinamento supervisionado de um neurônio tipo perceptron, com função de ativação tipo sinal: Interpretação Geométrica

+

w1 w2 φ x2 x1 x0 = −1 u g(u) u y

Y Hipótese (sem perda de generalidade): φ,w₁,w₂ >0 φ − + = x1w1 x2w2 u    < ≥ = = 0 se 0 0 se 1 ) sgn( u u u y Y Ponto crítico: u = 0

(16)

DCA/FEEC/Unicamp

Tópico 6: RNAs, Classificação de Padrões e Motivação Geométrica ₃₁

Y Lugar geométrico dos pontos críticos:

1 2 1 2 1 2 2 1 1 w x w w x w x w x + =φ⇒ =− + φ x2 x1 φ w2 φ w1 x1w1+x2w2 < φ y = 0 x1w1+x2w2 > φ y = 1 x1w1+x2w2 = φ Y 2 2 2 2 1 1 w w w xT = x w +x w = x_w =φ⇒x_w = φ

IA353 – Profs. Fernando Von Zuben & Leandro N. de Castro DCA/FEEC/Unicamp xw θ w x φ w xw θ w x φ w xw θ w x φ w 2 2 2 φ > ⇒ φ > x w w w T x 2 φ < ⇒ φ < x w w w T x 2 φ < ⇒ φ < x w w w T x 2

(17)

Tópico 6: RNAs, Classificação de Padrões e Motivação Geométrica ₃₃ 5.6.1 Regra de ajuste de pesos

Caso 1

Y padrão de entrada: x

Y saída desejada: yd = 1 ⇒ ud≥ 0

Y saída obtida: y = 0 ⇒ u < 0

Y solução: rotacionar w no sentido de apontar mais na direção de x Y regra: w′= w+αx

Caso 2

Y padrão de entrada: x

Y saída desejada: yd = 0 ⇒ ud < 0

Y saída obtida: y = 1 ⇒ u ≥ 0

Y solução: rotacionar w no sentido de apontar menos na direção de x Y regra: w′= w−αx x w′ w αx θ > 90o w w′ x −αx θ < 90o

• Juntando em uma única regra: regra delta ou regra do perceptron

(

)

x w w′= +α y_d − y ou

(

)

x w w′= −α y− y_d

• Tomando o conjunto de padrões de entrada/saída na forma:

x1 x2 yd

◊ ◊ ◊

então, a apresentação de todos estes padrões (formando um ciclo de treinamento), ordenados aleatoriamente a cada ciclo de treinamento, com a aplicação da regra delta a cada apresentação de um padrão, vai levar ao comportamento desejado (assumindo padrões linearmente separáveis).

(18)

DCA/FEEC/Unicamp

Tópico 6: RNAs, Classificação de Padrões e Motivação Geométrica ₃₅ 5.7 Busca iterativa do mínimo de uma função via gradiente descendente ∆y P ∆x slope = ∆y ∆x x y ∆y P ∆x δy

• Para valores pequenos de ∆x: x x

x y y y ⋅∆ = ⋅∆ ∆ ∆ = ∆ ≅ δ slope

• Sendo δy≅slope⋅∆x, e tendo por objetivo minimizar a função, o problema se transforma em escolher um valor para ∆x que sempre produza δy < 0.

• Tomando α > 0 suficientemente pequeno (para garantir δy ≅∆y), uma escolha para ∆x pode ser:

slope ⋅ α − = ∆x que conduz a

(

slope

)

2 <0 α − ≅ δy

• O valor de slope depende de x, de modo que a aplicação iterativa de

slope ⋅ α − =

∆x , para cada valor de x, vai conduzir ao mínimo x* da função.

5.8 Aplicação do gradiente descendente ao caso do perceptron

• Considerações necessárias para permitir uma comparação com os resultados

apresentados anteriormente:

Y tomar uma função de ativação diferenciável;

(19)

Tópico 6: RNAs, Classificação de Padrões e Motivação Geométrica ₃₇

+

w1 w2 x2 x1 u g(u) u y = x1w1+x2w2

• O critério de desempenho (função-erro a ser minimizada) pode ser dado na forma:

(

) (

)

2 2 1 2 1 ( , ) 2 1 ,w y w w y_d w J = −

• Aplicando a regra de ajuste do gradiente descendente resulta:

i i w i i w J w w w i ∂ ∂ α − = ⋅ α − = ′ slope , i = 1,2

• A derivada da função-erro em relação a wi, i=1,2, assume a forma:

(

)

(

)

(

d

)

i i d d i i x y y w y y y y y w w J − = ∂ ∂ − =     ₋ ∂ ∂ = ∂ ∂ 2 2 1

que leva à regra de ajuste como segue:

(

d

)

i

i w y y x

w′= −α⋅ −

• Fazendo w=

[

w₁ w₂

]

T e x=

[

x₁ x₂

]

T, chega-se à mesma expressão deduzida a partir de motivações geométricas (seção 6):

(

)

x

w

w′= −α⋅ y− y_d

5.9 Obtenção da direção de maior decrescimento da função

• Para w ∈ℜp e J(w): ℜp→ℜ, mostre que a direção oposta ao gradiente é a direção de maior decrescimento da função J(⋅).

Demonstração

Y Para qualquer direção d ∈ℜp, com 1

2 =

d , a derivada direcional de J(w) na

direção dada por d é: D

( )

J,d lim J

(

w d

) ( )

J w J(w)Td

0 λ =∇ − λ + = → λ

Y Seja γ o ângulo entre os vetores ∇J(w) e d, então:

( )

J,d =∇J(w) d= ∇J(w)2⋅ d2⋅cos(γ)≥− ∇J(w)2⋅ d2

(20)

DCA/FEEC/Unicamp

Tópico 6: RNAs, Classificação de Padrões e Motivação Geométrica ₃₉

Y Como 1 2 = d , resulta: D

( )

J,d ≥− ∇J(w) ₂ ⇒∇J(w)Td≥− ∇J(w)₂ Y Para 2 ) ( ) ( w w d J J ∇ ∇ −

= , resulta D

( )

J,d =−∇J(w)₂, indicando que esta escolha para d minimiza D

( )

J,d , pois é a direção de maior decrescimento da função J(⋅).