ISCTE/FCUL - Mestrado Matemática Financeira. Aula de Janeiro de 2009 Ano lectivo: 2008/2009. Diana Aldea Mendes

(1)

ISCTE/FCUL - Mestrado Matem´atica Financeira Aula 4

15 de Janeiro de 2009 Ano lectivo: 2008/2009 Diana Aldea Mendes

Departamento de M´etodos Quantitativos, IBS - ISCTE Business School Gab. 207 AA, diana.mendes@iscte.pt, http://iscte.pt/˜deam

(2)

Optimiza¸

c˜

ao multi-dimensional

- M´etodos gradiente (gradiente descendente, gradiente conjugado) - M´etodos de Newton e quase-Newton

- M´etodo de Powell (non-gradiente search)

(3)

Nota-se que:

- Os computadores não podem encontrar todas as solu¸cões - Os computadores não podem provar a ausência de solu¸cões - Os computadores não podem provar a existência de solu¸cões

- Os computadores n˜ao podem provar a unicidade de uma solu¸c˜ao

(4)

min x_∈D f (

x

) ←→ ∇f (

x

) =

0

, ∇ 2_f ₍

_x

_{) definida positiva}

x

_∈

_R

n, f _{: D ⊂}

_R

n _→

_R

(1) f (

x

) fun¸c˜ao objectivo (2) ∇f (

x

) = " ∂f ∂x_i # i=1,...,n vector gradiente (3)

(derivadas parciais de primeira ordem) (4) ∇2f (

x

) = H (x) = " ∂2f ∂x_i∂x_j # i,j=1,...,n matriz Hessiana (5) (derivadas parciais de segunda ordem) (6)

(5)

• A formula¸cão do problema de m´ınimo é muito simples, mas, apesar disto, não existe um algoritmo perfeito. A arte de minimizar fun¸cões não-lineares consta em saber qual é o método à utilizar e como determinar se o método escolhido converge para a solu¸cão correcta. Em geral

- Utilizamos m´etodos iterativos que calculam uma sequˆencia de pontos x₀, x₁_{, ... ∈}

R

n tal que f ¡x_k+1¢ < f (x_k_{) . O algoritmo termina quando ∇f (x}_k) < ε para ε pr´e-definido

- Se f ´e fortemente convexa, isto ´_{e, ∃ m > 0 tal que ∇}2f (

x

_{) >> mI, ∀}

x

_∈

_R

n, ent˜ao existe um crit´erio de paragem definido por

(6)

• Classifica¸cão dos métodos de optimiza¸cão não-condicionada multidimen-sional

- M´_{etodos anal´ıticos: resolver ∇f (}

x

) =

0

analiticamente

- Métodos directos: precisam só a computa¸cão de f (x) em cada passo (Powell ou DogLeg, Nelder-Mead)

- M´etodos gradiente: requerem a computa¸c˜_{ao de ∇f (}

x

) e f (

x

) em cada passo (gradiente descendente, gradiente conjugado)

- M´etodos de segunda ordem: requerem a computa¸c˜_{ao de ∇}2f (

x

_{) , ∇f (}

x

) e f (

x

) em cada passo (Newton e quase-Newton)

(7)

M´

etodo de Powell

- Requere apenas o cálculo de f (x) . Necessita de um grande número de avalia¸cões da fun¸cão objectivo, o que aumenta o custo computacional

- Idéia básica: considerar um número elevado de vectores x e calcular o f (x) associado. O vector correspondente ao menor valor f (x) será considerado como o valor óptimo x.

- Melhor: seja x₀ o ponto que aproxima inicialmente o minimizante de f (x) . O pr´oximo valor do minimizante, o ponto x₁, obtem-se procurando sucessiva-mente um minimizante de f ao longo de cada um dos vectores da base can´onica {e1, ..., en} de

R

n. Este processo gera a sequˆencia de pontos

(8)

Ao longo de cada um dos vectores da base canónica, a fun¸cão f torna ser só de uma variável. Assim, minimizar f signifique aplicar os métodos de optimiza¸cão unidimensional sobre intervalos onde a fun¸cão é unimodal. O ponto x₁ é deter-minado como sendo o ponto em qual o m´ınimo de f ocorre ao longo do vector P_N _{− P}₀. Como o vector P_N _{− P}₀ é considerado ser uma direçcão de inves-tiga¸cão viável, vai substituir um dos vectores direçcão para a próxima iterada. A itera¸cão é repetida para gerar uma sequˆ_{encia de pontos {x}_k_}_k≥0 .

Algoritmo 1. P₀ = x_i

2. Para k = 1, ..., n encontre o valor de γ_k que minimiza f (P₀ + γ_kU_k) e escolha

(9)

3. i = i + 1

4. U_j = U_j+1 _{para j = 1, ..., n − 1. Seja}

Un = Pn − P0

5. Encontre o valor γ que minimiza f (P₀ + γU_n) . Escolha x_i = P₀ + γUn

6. Repetir os passos (1)-(5). onde

(10)

Exemplo: Seja f (x, y) = cos x + sin y e seja x₀ = (5.5, 2) . Determine os pontos x₁ e x₂. 0 5 10 15 0 5 10 15 -2 -1 0 1 2 2 4 6 8 10 12 14 2 4 6 8 10 12 14

(11)

Seja U = " 1 0 0 1 # e P₀ = x₀ = (5.5, 2) . Para i = 1, a fun¸c˜ao f (P₀ + γ₁U₁) = f ((5.5, 2) + γ₁ (1, 0)) = cos (5.5 + γ₁)+sin 2 tem um m´ınimo em γ₁ _{= −2.3584. Logo P}₁ = (3.1415, 2) .

Para i = 2, a fun¸c˜ao f (P₁ + γ₂U₂) = f ((3.1415, 2) + γ₂ (0, 1)) = cos (3.1415)+ sin (2 + γ₂) tem um m´ınimo em γ₂ = 2.7123. Logo P₂ = (3.1415, 4.7123) .Seja agora U₂T = (P₂ _{− P}₀)T e U = " 0 −2.3584 1 2.7123 # .

(12)

A fun¸c˜ao

f (P₀ + γU₂_{) = f ((5.5, 2) + γ (−2.3584, 2.7123))}

= cos (5.5 − 2.3584γ) + sin (2 + 2.7123γ) tem um m´ınimo em γ = 0.9816. Logo x₁ = (3.1848, 4.6626) .

Seja P₀ = x₁. Quando i = 1, a fun¸c˜ao

f (P₀ + γ₁U₁) = f ((3.1848, 4.6626) + γ₁ (0, 1)) = cos (3.1848) + sin (4.6626 + γ₁) tem um m´ınimo em γ₁ = 0.0497. Logo P₁ = (3.1484, 4.7123) . Quando i = 2, a fun¸c˜ao

f (P₁ + γ₂U₂) = f ((3.1848, 4.7123) + γ₂ _{(−2.3584, 2.7123))}

(13)

tem um m´ınimo em γ₂ = 0.0078. Logo P₂ = (3.1662, 4.7337) . Seja U₂T = (P₂ _{− P}₀)T e U = " −2.3584 −0.0185 2.7123 0.0710 # . A fun¸c˜ao f (P₀ + γU₂_{) = f ((3.1848, 4.6626) + γ (−0.0185, 0.0710))} = cos (3.1848 − 0.0185γ) + sin (4.6626 + 0.0710γ) tem um m´ınimo em γ = 0.8035. Logo x₂ = (3.1698, 4.7197) .

(14)

M´

etodos gradiente ou m´

etodos descendentes

Minimiza¸cão ao longo de uma direçcão - Problema geral

Minimizar uma fun¸cão real de n variáveis reais, f , onde: f é regular, o seu gradiente g = ∇f é conhecido e é dada um direçcão descendente u.

Uma direçcão u diz-se descendente para a fun¸cão f em x se uTf0 (x) < 0. - Consideram-se itera¸cões de forma

x_k+1 = x_k + λ_ku_k,

onde u_k é a direçcão descendente investigada e λ_k é o comprimento de passo obtido por uma procura unidimensional (faz decrescer a fun¸cão f ). Em todos

(15)

os métodos consideremos que f x_k+1 < f (x_k) , (descending condition) o que obriga a convergência para um ponto de m´ınimo, caso existe. O algoritmo ter-mina quando satisfaz o cr´ıterio de paragem. Tem convergência linear e portanto é um algoritmo bastante lento.

Problema: Dada uma fun¸c˜ao f (x) , x = (x₁, ..., xn) ∈

R

n, um ponto inicial

x₀ _∈

_R

n e uma direc¸c˜ao u = (u₁, ..., un) ∈

R

n, como minimizar a fun¸c˜ao f ao

longo da direc¸c˜ao u?

Resposta: Come¸camos com um ponto inicial x₀ e procuramos um novo ponto x = x₀ + λ∗u

tal que a fun¸c˜ao

(16)

é minimizada quando λ = λ∗. Nesta situa¸cão F (λ) é uma fun¸cão só de uma variável (λ).

• Como escolher a direc¸c˜ao descendente:

• Nos métodos do gradiente conjugado não linear, a direçcão de investiga¸cão é de forma

u_k _{= −g}_k + β_ku_k−1

ou seja h_k _{= −∇f (x}_k) = g_k, onde o escalar β_k é escolhido de tal maneira que o método reduz-se ao método linear dos gradientes conjugados, quando a fun¸cão é quadrática e a linha de investiga¸cão é exacta.

(17)

• Uma outra classe de métodos define a linha (direçcão) de investiga¸cão por u_k _{= −B}_k−1g_k

onde B_k ´_{e uma matriz regular (|B}_k_{| 6= 0) e sim´etrica (b}_ij = b_ji). Casos especiais s˜ao dados quando

B_k = I the steepest descent method

B_k _{= ∇}2f (x_k) = H (f (x_k)) o m´etodo de Newton.

• Os métodos quase-Newton ou métricos variáveis são também deste tipo, mas neste caso B_k depende ainda de B_k−1 e de x_k−1.

Matlab: m-file opt steep.m

(18)

Minimiza¸cão ao longo de uma direçcão - exemplo

Seja f (x) = f (x₁, x₂) = 1 + x₁ _{− x}₂ + x2₁ + 2x2₂. Minimize f na direc¸c˜ao u _{= (−2, 1) para o ponto inicial x}₀ = (0, 0) .

Definimos a linha de investiga¸c˜ao

x = x₀ _{+ λu = (0, 0) + λ (−2, 1) = (−2λ, λ)} e a nova fun¸c˜ao F, isto ´e

F (λ) = f (x₀ _{+ λu) = f (−2λ, λ) = 1 − 3λ + 6λ}2. O minimizante de F (λ) ´e obtido de F0 (λ) = 0, isto ´e

(19)

e como F00 (λ∗) = 12 > 0, temos que λ∗ = 1₄ ´e um m´ınimo.

Tem-se ent˜ao que x∗ = x₀ + λ∗u = ³₋1₂, 1₄´ ´e o m´ınimo de f (x) ao longo da linha x = x₀ + λu.

Mais, podemos mostrar que x∗ é o m´ınimo global da fun¸cão f (x) . Escrevendo f (x) = f (x₁, x₂) = 1 + x₁ _{− x}₂ + x2₁ + 2x2₂ = µ x₁ + 1 2 ¶2 + 2 µ x₂ ₋ 1 4 ¶2 + 5 8 a última fun¸cão tem curvas de n´ıvel (contorno) definidas por elipses centradas no ponto de m´ınimo x∗ = ³₋1₂, 1₄´. Observa-se que o m´ınimo ao longo da direçcão

(20)

x = x₀ + λu passa pelo centro ³₋1₂, 1₄´. 0 5 10 15 20 25 0 10 20 30 0 100 200 300 400 Fun¸co f (x₁, x₂) = 1 + x₁ _{− x}₂ + x2₁ + 2x2₂

(21)

M´

etodo do gradiente conjugado (Fletcher-Reeves)

A introdu¸cão do método do gradiente conjugado por Fletcher-Reeves nos anos 1960 conduz a possibilidade de optimizar problemas não lineares de larga es-cala, pois só são precissos O (n) opera¸cões por itera¸cão e pouco espa¸co para armazenagem. São métodos simples e bastante fáceis de implementar. São su-periores aos métodos que não utilizam informa¸cão sobre o gradiente, mas são inferiores aos métodos de tipo Newton.

Considerando uma equa¸cão da forma f (x) = 0, é claro que f (x) = 0 sse f(x)f (x) = 0. Logo, se existirem, os zeros de f, são os pontos de m´ınimo absoluto de f2.

(22)

De forma semelhante, no caso de fun¸cões com várias variáveis, usando a norma euclidiana, obtemos:

F_{(x) = 0 <=> ||F (x)||}2 = 0 <=> F (x).F (x) = 0

e, se existirem, as solu¸c˜oes de F (x) = 0 s˜ao os pontos de m´ınimo absoluto de f(x) = F (x).F (x).

Seja A uma matriz sim´etrica e definida positiva, e consideremos uma forma quadr´atica auxiliar:

f _{(x) = a − b}Tx + 1 2x

T_Ax

que transforma vectores em números reais. Como a forma é quadrática, há apenas um vector que minimiza f e é exactamente o ponto cr´ıtico, ou seja, a

(23)

solu¸c˜ao de f0(x) = 0, e neste caso, f0(x) = 1

2(A

T

+ A)x − b = Ax − b.

Assim, se encontrarmos o ponto de m´ınimo, ele ser´a solu¸c˜ao do sistema linear Ax = b.

Consideramos métodos iterativos de optimiza¸cão de tipo investiga¸cão de linha, ou seja:

x_n+1 = x_n + a_nh_n

de forma que haja uma direc¸c˜ao descendente, ou seja, f (x_n+1) < f (xn). O

(24)

M´etodo do Gradiente

No caso do método do gradiente (ou declive máximo - steepest descent), a direçcão de descida escolhida é

hn = −∇f(xn) = b − Axn,

e neste caso (de sistemas lineares) ´e tamb´em designado por res´ıduo.

Resta encontrar o valor an que minimiza f , de entre os poss´ıveis valores xn+ahn.

Encontramos o ponto de m´ınimo, derivando f (nesses pontos) em ordem a a, ou seja, d da (f (xn + ahn)) = f 0_(x_n _{+ ah}_n_).h_n = (b − A(xn + ahn)).hn = h .h _{− aAh} .h

(25)

Assim, o valor m´ınimo an ser´a obtido com o zero da derivada,

h_n.h_n _{− a}_nA h_n.h_n = 0 <=> a_n = hn.hn A hn.hn

.

Em conclusão, dado um vector inicial x₀, o método do gradiente resume-se à itera¸cão

x_n+1 = x_n + a_nhn = xn + hn.hn

hn.A hn

hn com hn = b − Axn

Um crit´erio de paragem consiste em exigir que ||hn||2 = hn.hn < ε

(26)

Método das Direçcões Conjugadas

Come¸camos por definir direçcões conjugadas: Um conjunto de direçc˜_{oes {h}₁, h₂_{, ...}} diz-se conjugado com respeito a uma matriz A simétrica e definida positiva se

hT_i Ah_j _{= 0 para qualquer i 6= j.}

Com este produto interno, dois vectores dizem-se A-ortogonais se < h_i, h_j > A = h_i.Ah_j = hT_i Ah_j = 0, como sinónimo diz-se que as direçcões h_i e h_j são conjugadas.

Seja N a dimensão da matriz A e sejam h₁, h₂, ..., h_N direçcões conjugadas, que constituem uma base A-ortogonal em

_R

N. Se considerarmos hn como direc¸c˜oes

de descida, temos a itera¸c˜ao

(27)

e queremos agora encontrar o valor a_n que minimiza f , de entre os poss´ıveis valores x_n + ah_n.

De forma, semelhante, podemos obter an = rn.hn

hn. A hn

, com r_n _{= b − Ax}_n e portanto o método de direçcões conjugadas é

x_n+1 = xn + rn.hn

hn. A hn

hn

Teorema: Um método de direçcões conjugadas atinge a solu¸cão ao fim de N itera¸cões.

(28)

M´etodo dos Gradientes Conjugados

Consideramos agora o caso particular do método das direçcões conjugadas, em que elas são obtidas através do gradiente. Recordamos que no caso linear o gradiente é dado pelo res´ıduo rn = b − Axn.

Através de um processo de ortogonaliza¸cão (ou melhor, A-ortogonaliza¸cão) de Gram-Schmidt, através dos sucessivos res´ıduos (gradientes) podemos construir as direçcões h_n que serão conjugadas (A-ortogonais).

Assim, podemos resumir o M´etodo dos Gradientes Conjugados, 1. Dado x₀ definimos h₀ = r₀ _{= b − Ax}₀ ,

(29)

2. Definimos x_n+1 = xn + anhn com a_n = rn.hn hn. A hn 3. Definimos r_n+1 = rn − anAhn e h_n+1 = r_n+1 + b_nhn, com bn = rn+1.rn+1 rn.rn .

4. Regressamos ao 2o passo, at´e que sejam efectuados N passos.

Nota: Apesar de termos dito que o método atinge a solu¸cão exacta ao fim de N passos, um mau condicionamento da matriz poderá impedir que a solu¸cão seja efectivamente obtida. Nesse caso há que utilizar um critério de paragem, por exemplo, exigindo que o res´ıduo seja suficientemente pequeno.

(30)

(a). M´etodo de Fletcher-Reeves (1964) bn = rn+1.rn+1

r_n.r_n =

f0 (x_n+1)T f0 (x_n+1) f0 (xn)T f0 (xn)

onde x_prev ´e a iterada pr´evia.

(b). M´etodo de Polak-Ribi`ere (1971) b_n = (rn+1 − rn) .rn+1 rn.rn = ¡ f0 (x_n+1_{) − f}0 (x_n)¢T f0 (x_n+1) f0 (xn)T f0 (xn)

(31)

(32)

Em Matlab o programa mincg.m está baseado neste método de optimiza¸cão. [res, noiter]=mincg(f, derf, ftau, x, tol)

onde f é a fun¸cão a optimizar, derf são as derivadas paciais de 1a ordem da fun¸cão (gradiente), ftau represente o método de investiga¸cão de linhas, x a condi¸cão inicial e tol a tolerância permitida.

De forma alternativa tem-se o m-file opt conjg.m

[xo,fo] = opt conjg(f,x0,TolX,TolFun,alpha0,MaxIter,KC)

Exemplo: Seja A = " 2 ₋₁ −1 2 # .

(33)

Determine os vectores pr´oprios de A e motra que s˜ao A-conjugados.

Primeira vez determinam-se os valores pr´oprios, isto ´_{e |A − λI| = 0 ⇐⇒ λ}₁ = 1 e λ₂ = 3. Logo (A − λI) v = _{0 ⇐⇒} " 2 − 1 −1 −1 2 − 1 # " v₁ v₂ # = " 0 0 # ⇐⇒ v1 = ³v₁1, v₂1´ = ³v₁1, v₁1´ = v₁1 _{(1, 1) , ∀v}₁1 _∈

_R

⇐⇒ " 2 − 3 −1 −1 2 − 3 # " v₁ v₂ # = " 0 0 # ⇐⇒ v2 = ³v₁2, v₂2´ = ³v₁2_{, −v}₁2´ = v₁2 _{(1, −1) , ∀v}₁2 _∈

_R

(34)

Agora ³ v1´T Av2 = h 1 1 i " 2 ₋₁ −1 2 # " 1 −1 # = 0

Exemplo: Aplicando o método das direçcões conjugadas, minimiza a seguinte fun¸cão quadrática min_x₁_,x₂_∈R f (x₁, x₂) = 1₂xT_{Ax − b}Tx + c, onde

A = " 2 ₋₁ −1 2 # , b = " 3 8 # , c = 5 e x₀ = " 0 0 # .

Calculamos os vectores conjugados de A (exemplo anterior) h₀ = (1, 1) e h₁ = (1, −1).

(35)

Agora r₀ _{= b − Ax}₀ = " 3 8 # − " 2 ₋₁ −1 2 # " 0 0 # = " 3 8 # 6= 0 a₀ = r T 0 h0 hT₀ Ah₀ = 11 2 x₁ = x₀ + a₀h₀ = h 11₂ 11₂ iT r₁ _{= b − Ax}₁ = " 3 8 # − " 2 ₋₁ −1 2 # " ₁₁ 2 11 2 # = " −5₂ 5 2 # a₁ = r T 1 h1 hT₁ Ah₁ = 5 6 x₂ = x₁ + a₁h₁ = " ₁₁ 2 11 2 # − " ₅ 6 5 6 # = " ₁₄ 3 14 3 # " # " # " # " #

(36)

Exemplo: Aplicando o método do gradiente conjugado (Fletcher-Reeves), min-imiza a seguinte fun¸cão quadrática

min

x₁,x₂_∈R f (x1, x2) = x 2

1 − x1x2 + 3x22,

onde o ponto inicial ´e x₀ = (1, 2) . Calculamos o vector gradiente

∇f (x) = f0 (x) = " 2x₁ _{− x}₂ −x1 + 6x2 # logo f0 (x₀) = " 0 11 # e r₀ = h₀ = " 0 11 #

(37)

Agora x₁ = x₀ + a₀h₀ = h 1 1₆ iT e f0 (x₁) = " ₁₁ 6 0 # b₁ = f0 (x1) T _f₀ _(x 1) f0 (x₀)T f0 (x₀) = 1 36 h₁ = f0 (x₁) + b₁h₀ = " ₁₁ 6 −11₃₆ # x₂ = x₁ + a₁h₁ = " 0 0 # .

Exemplo: Determinar um m´ınimo local da fun¸c˜ao

(38)

-4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 0 5 10 15 20 0 5 10 15 20 -80 -60 -40 -20 0 20 Fun¸c˜ao f801.m >> x1=mincg(’f801’,’f801pd’,’ftau2cg’, x0, 0.000005)

(39)

> number of iter= 6, > Solution 2.7468 -2.9035 >> x=-4:0.1:4;y=-4:0.1:4; [X,Y]=meshgrid(x,y);

>> z=0.5.*(X.ˆ4-16.*X.ˆ2+5.*X)+0.5.*(Y.ˆ4-16.*Y.ˆ2+5.*Y);

>> x1=[0 1.691 -2.560 -2.909 -2.903 -2.903]; y1=[0.5 -2.948 -3.210 -2.893 -2.903 -2.903];

>> figure; axis([-4 4 -4 4 -80 20]); contour(-4:0.1:4, -4:0.1:4, z,15) >> hold on; plot(x1,y1,x1,y1,’o’)

(40)

M´

etodo de Newton

O m´etodo de Newton inic´ıa uma classe importante de algoritmos que, para serem aplicados, requerem a computa¸c˜ao do vector gradiente

g _{= ∇f (x) =} ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ∂f ∂x₁ (x) ... ∂f ∂xn (x) ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ , _{onde f : D ⊂}

_R

n _→

_R

e x = (x₁, ..., xn)

(41)

e da matriz Hessiana H _{(f (x)) = ∇}2f (x) = ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ∂2f ∂x2₁ (x) ∂2f ∂x₁∂x₂ (x) ... ∂2f ∂x₁∂xn (x) ∂2f ∂x₂∂x₁ (x) ∂2f ∂x2₂ (x) ... ∂2f ∂x₂∂xn (x) ... ... . . . ... ∂2f ∂xn∂x1 (x) ∂ 2_f ∂xn∂x2 (x) ... ∂ 2_f ∂x2_n (x) ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ .

Teorema: Suponhamos que f : D ⊂

R

n →

R

´e duas vezes diferenci´avel e x∗ _∈

_R

n satisfaz

(42)

2. ∇2f (x∗) é definida positiva (em particular, não-singular) 3. ∇2f é Lipschitz cont´ınua numa vizinhan¸ca do ponto x∗.

Então x∗ é um m´ınimo local de f e para qualquer x₀ suficientemente próximo de x∗, o método de Newton define uma sequência que converge (local) quadrati-camente para x∗.

Nota: O m´etodo ainda converge se a matriz Hessiana ´e semidefinida positiva e singular.

O método de Newton determina um modelo quadrático para a fun¸cão objectivo em torno da iterada corrente x_k definida por

(43)

Na versão básica do método de Newton, a próxima iterada é obtida a partir do minimizante de q_k. Quando a matriz Hessiana é definida positiva, o modelo quadrático tem um único minimizante que pode ser obtido resolvendo o seguinte sistema sim´_{etrico (n × n)}

∇2f (x_k) h_k _{= −∇f (x}_k_{) ⇔ h}_k _{= −} ³_∇2f (x_k)´−1 _{∇f (x}_k) Agora, a nova iterada vai ser

x_k+1 = x_k + h_k = x_k ₋ ³_∇2f (x_k)´−1_{∇f (x}_k)

Como já referido a convergência (local) é garantida se o ponto de partida é suficientemente próximo de um minimizante local x∗. O critério de paragem é dado por α2 ≤ ε onde α (x) = µ ∇Tf (x) ³_∇2f (x)´−1 _{∇f (x)} ¶_1/2 = kx − x∗k

(44)

Figura 1: Método de Newton. Caso (a), convergência imediata para p m´ınimo (1 iterada) e caso (b) convergência ao fim de 10 iteradas.

(45)

O algoritmo de Newton se funciona bem, funciona muito bem. Com tudo isto não é o método ideal, pois requere a computa¸cão da matriz hessiana em cada iterada, também como a resolu¸cão do sistema linear que envolve a hessiana. Falha facilmente se a matriz hessiana não é definida positiva ou regular.

Nestes casos (quando a matriz hessiana não é definida positiva ou regular) convém substituir a matriz Hessiana H por uma nova matriz ˆH = H + E. O método de Levenberg-Marquardt pode ser utilizado com sucesso, fazendo a substitui¸cão: ˆH = H + γI, com I matriz identidade. O papel de γ é manter a matriz H definida positiva.

Matlab: m-file newtons.m

(46)

Exemplo: Minimizar a fun¸c˜ao f (x) = f (x₁, x₂) = 1 2x 2 1 Ã x2₁ 6 + 1 ! + x₂ arctan x₂ ₋ 1 2 ln ³ x2₂ + 1´. 0 10 20 30 0 5 10 15 20 250 10 20 30 40 50 60 70

(47)

Precisamos do gradiente e da matriz Hessiana ∇f (x) = ⎡ ⎢ ⎢ ⎢ ⎣ x3₁ 3 + x1 arctan x₂ ⎤ ⎥ ⎥ ⎥ ⎦ e ∇f (x) = ⎡ ⎢ ⎣ x2₁ + 1 0 0 1 1 + x2₂ ⎤ ⎥ ⎦

A tabela seguinte dá os resultados de itera¸cão quando x₀ = (1, 0.7) . Há con-vergência local quadrática.

(48)

Mudando a condi¸cão inicial, nomeadamente x₀ = (1, 2) , o método de Newton comporta-se muito mal (não há convergência global), como pode ser visto na próxima tabela

Na maioria dos casos, o método básico de Newton não converge e para se obter bons resultados é preciso modificar o algoritmo. Basicamente, há dois métodos para modificar o algoritmo de Newton em ordem a obter convergência:

(49)

1. Abordagem baseada numa investiga¸cão de linhas (direçcões) (modifica a direçcão da linha de investiga¸cão para obter uma outra direçcão descendent para f )

2. Abordagem baseada numa região de confian¸ca (utiliza a fun¸cão quadrática original, mas condiciona-se que a nova iterada pertencer a uma vizinhan¸ca da iterada corrente)

Estas técnicas são adequadas se o número de variáveis da fun¸cão objectivo não é muito elevado e se a matriz Hessiana é acess´ıvel e fácil de calcular. Os algoritmos ficam não-alterados se a matriz Hessiana vem substitu´ıda por uma boa aprox-ima¸cão sua. Existem dois tipos de métodos que aproximam a matriz Hessiana, nomeadamente: Aproxima¸cões com diferen¸cas e Métodos quase-Newton

(50)

M´

etodos Quase-Newton ou m´

etodos m´

etricos vari´

aveis

Podem ser utilizados quando a matriz Hessiana é dif´ıcil de calcular ou demora muito tempo para ser avaliada. Este método constrói gradualmente uma matriz Hessiana aproximada utilizando informa¸cões a partir do gradiente avaliado para quase todas as iteradas anteriores visitadas pelo algoritmo. Consta de dois passos fundamentais

- Determina¸cão de uma direçcão de investiga¸cão - Escolha do método de investiga¸cão da linha

Dada a iterada corrente x_k e a matriz Hessiana aproximada B_k em x_k, a solu¸c˜ao do sistema linear

(51)

gera uma direçcão h_k. A próxima iterada encontra-se fazendo uma investiga¸cão linear sobre h_k e considerando

x_k+1 = x_k + α_kh_k,

onde o comprimentos de passo α_k satisfaz as condi¸c˜oes de Wolfe, isto ´e, f (x_k + α_kh_k_{) ≤ f (x}_k) + σ₁α_k_∇Tf (x_k) h_k

∇Tf (x_k + α_kh_k) h_k _{≤ σ}₂_∇Tf (x_k) h_k onde 0 < σ₁ < σ₂ < 1.

Para obter a aproxima¸cão B_k+1 a partir de B_k é precisso considerar o Teorema Fundamental de Cálculo Integral. Se definimos

s_k = x_k+1 _{− x}_k

(52)

ent˜ao (Z ₁ 0 ∇ 2_f _(x k + tsk) dt )

m´edia da Hessiana sobre o segmento [x_k,x_k+s_k]

s_k = y_k.

A partir dessa observa¸cão podemos obter a aproxima¸cão B_k+1 imitando o com-portamento da matriz ∇2f e considerando a condi¸cão de quase-Newton

B_k+1s_k = y_k.

Ao fim de cada passo a aproxima¸cão da matriz Hessiana vem actualizada. A mais comum (e utilizada) fam´ılia de actualiza¸cões consideradas no método de quase-Newton (para determina¸cão da direçcão de investiga¸cão) é a de Broyden de rang 2, isto é B_k+1 = B_k ₋ Bksk (Bksk) T T + y_ky_kT T + φk[s T k Bksk]vkvkT,

(53)

onde φ_k _{∈ [0, 1] e v}_k = " y_k y_kTs_k − B_ks_k sT_k B_ks_k # .

Para φ_k = 0 tem-se a actualiza¸c˜ao de Broyden-Fletcher-Goldfarb-Shanno (BFGS) e para φ_k = 1 tem-se a actualiza¸c˜ao de Davidon-Fletcher-Powell (DFP).

Aplicando qualquer uma dessas actualiza¸cões a matriz Hessiana aproximada per-manence definida positiva e portanto a direçcão de procura é sempre uma di-reçcão descendente. São algoritmos que convergem rapidamente e evitam a computa¸cão das derivadas de segunda ordem.

(54)

Matlab

fminunc é o m-file que determine extremos livres de uma fun¸cão real de várias variáveis reais.

>> x=fminunc(’fname’,x0)

Inicia em x₀ e tenta encontrar o m´ınimo local x da fun¸c˜ao ’fname’ (definida como m-file tamb´em)

Exemplo

(55)

> f = -0.2750 ...

> f = -2.0000

Optimization terminated: relative infinity-norm of gradient less than options.TolFun. x = 3.1416 4.7124

Para minimizar esta fun¸cão já com o gradiente dado modificamos a fun¸cão como a seguir (indicando no comando fminunc que o gradiente está dispon´ıvel utilizando OPTIONS)

(56)

>>x = fminunc(’fname’, x0, options);

>> options=optimset(’GradObj’,’on’); x0=[2 3] >> [x,fval]=fminunc(’dﬀdi’, x0, options)

Optimization terminated: first-order optimality less than OPTIONS.TolFun, and no negative/zero curvature detected in trust region model.

x = 3.1416 10.9956 fval = -2

(57)

M´

etodo dos m´ınimos quadrados (problema n˜

ao-linear)

Consideremos, de novo, um conjunto de pontos x₀, ..., xn a que est˜ao associados,

respectivamente, os valores f (x₀), ..., f (xn). Temos que considerar agora uma

classe de fun¸c˜oes, entre as quais vamos tentar encontrar a que ”melhor aproxima” aquele conjunto de valores, nos pontos dados. Vamos concentrar em fun¸c˜oes da forma:

g(x) = a₀f₀(x) + ... + a_mf_m(x)

em que f₀, ..., fm são fun¸cões base (linearmente independentes), e são

conheci-das.

Neste caso, apenas teremos que determinar os parˆametros a₀, ..., an, de forma

(58)

ent˜ao sentido introduzir a distˆ_{ancia ||f − g|| em que} ||u||2 = n X i=0 u2 (x_i) a que est´a associada o produto interno

< u, v >=

n

X

i=0

u (x_i) v (x_i) .

A norma e o produto interno est˜ao bem definidos para fun¸c˜oes que assumem quaisquer valores nos pontos x₀, ..., xn.

Pretende-se pois encontrar os parˆametros a₀, ..., an que minimizem a distˆancia

entre f e g , isto ´e:

(59)

Para obtermos esse m´ınimo, come¸camos por procurar os valores a₀, ..., am tais

que todas as derivadas parciais de Q sejam nulas, isto ´e: ∂Q

∂a_j(a0, ..., am) = 0, para j = 0, ..., m.

Calculamos a derivada parcial, usando as propriedades de deriva¸c˜ao do produto interno: ∂Q ∂a_j = ∂ ∂a_j < f − g, f − g >= * ∂ ∂a_j (f − g) , f − g + + * f − g, ∂ ∂a_j (f − g) + = 2 * f − g, ∂ ∂a_j (f − g) + = −2 * f − g, ∂ ∂a_jg + . Por outro lado

∂g ∂a =

∂

(60)

e assim obtemos, para cada j de 0 at´e m: D_{f − g, φ}_jE = 0

Podemos ainda substituir a express˜ao de g e obtemos um sistema linear:

n

X

i=0

a_i < φ_i, φ_j >=< f, φ_j > para cada j = 0, ..., m designado por sistema normal.

Teorema: Se as fun¸c˜oes base φ₀, ..., φ_m forem linearmente independentes, a matriz do sistema normal ´e definida positiva.

Observa¸c˜oes:

1) A matriz Hessiana de Q coincide justamente com a matriz do sistema normal. Fica assim justificado que a solu¸c˜ao do sistema normal, tratando-se de um ponto

(61)

cr´ıtico de Q, e como a matriz Hessiana ´e definida positiva, seja o m´ınimo do funcional Q.

2) Como a matriz é simétrica e definida positiva, um método apropriado para resolver o sistema normal é o método de Cholesky.

Mais geral: Seja f :

_R

n _→

_R

m, _{com m ≥ n. Objectivo: minimizar kf (x)k , ou} equivalente, encontrar um x∗, tal que x∗ = min_x _{{F (x)} onde}

F (x) = 1 2 m X i=1 (f_i (x))2 = 1 2 kf (x)k 2 ₌ 1 2f T _{(x) f (x) .}

Os problemas dos m´ınimos quadrados podem ser resolvidos pelos métodos usuais de optimiza¸cão ou pelos métodos dos m´ınimos quadrados que se tornam mais efficientes

(62)

Temos F0 (x) = J (x)T f (x) e F00 (x) = J (x)T J (x) + m X i=1 f_i (x) f_i00 (x) . M´etodo de Levenberg-Marquardt

O passo h_lm ´e definido por ³JTJ + μI´h_lm _{= −J}Tf.

A principal dificuldade em implementar este algoritmo consta em encontrar uma estratégia efectiva para controlar o tamanho de μ em cada itera¸cão de tal forma que será eficiente para um conjunto grande de problemas. O método utilizado neste algoritmo consta na medi¸cão da não linearidade relativa de f (x) utilizando uma soma linear de quadrados. Não procura explicitamente a direçcão de inves-tiga¸cão o que torna o algoritmo bastante rápido e exacto.

(63)

Algoritmo

Iniciar k = 0; υ = 2; x = x₀; A = J (x)T J (x) ; g = J (x)T f (x) found = _(kgk_∞ _{≤ ε}₁_{) ; μ = τ max {a}_ii_}

while (not found) e (k < k_max)

k = k + 1; resolver (A + μI) h_lm _{= −g} if khlmk ≤ ε2 (kxk + ε2)

found = true // else

xnew = x + h_lm; ρ = F (x) − F (xnew) L_{(0) − L (h}_lm) if ρ > 0 x = xnew; A = J (x)T J (x) ; g = J (x)T f (x) found = _(kgk_∞ _{≤ ε}₁) μ = μ maxn_{1/3, 1 − (2ρ − 1)}3o ; υ = 2 else μ = μν; ν = 2ν

(64)

Matlab Optimization Toolbox - lsqnonlin.m >> x=lsqnonlin(fun,x0)

>> function F = lsqDi(x,a)

>> F = [ 2*x(1) - exp(a*x(1)) -x(1) - exp(a*x(2)) x(1) - x(2) ]; >> a = -1; x = lsqnonlin(@(x) lsqDi(x,a),[1;1])

Optimization terminated: relative function value changing by less than OP-TIONS.TolFun.

(65)

x = 0.2983 0.6960 0 5 10 15 20 0 20 40 60 -80 -60 -40 -20 0 20 Fun¸c˜ao lsqDi.m