Algoritmo de treinamento rede-neural avan¸cado

3.4 Escalamento no m´ etodo de Levenberg-Marquardt

3.4.1 Algoritmo de treinamento rede-neural avan¸cado

Esta técnica foi introduzida por Zhou e Si [28], e visa uma melhor implementa¸cão para os problemas de redes neurais. Para o problema de quadrados m´ınimos não linear, esta técnica visa tanto a acelera¸cão do método aplicado a problemas mal escalados quanto a solu¸cão do subproblema de quadrados m´ınimos linear. Para tal, utilizam-se decomposi¸cões matriciais espec´ıficas, diminuindo o custo computacional e memória requeridas.

Primeiramente, consideramos o problema de Gauss-Newton, dado em (2.9), por

min

d∈Rn

2kRk+ Jkdk

onde a solu¸c˜ao satisfaz o sistema (2.10),

J_kTJk d = −JkTRk.

Então, fixada itera¸cão, se Jk tem posto incompleto consideramos a decomposi¸cão de JkTJk

dada por

(JkP1)T(JkP1) = UTDU (3.33)

como abordado em (1.2), onde P1 ∈ Rn×n´e uma matriz de pivoteamento, U ∈ Rn×n´e uma

matriz triangular superior com diagonal unit´_{aria, e D ∈ R}n×n _´_{e diagonal de elementos}

n˜_{ao negativos. Tomemos ainda b ∈ R}n _satisfazendo

(JkP1)TRk= UTb (3.34)

Note que a computa¸cão de b é relativamente fácil, já que se resume na solu¸cão de um sistema triangular.

O sistema (2.10) pode ser reescrito como J_kTJkd = −JkTRk P₁TJ_kTJkd = −P1TJkTRk P₁TJ_kTJkP1P1−1d = −P T 1 J T kRk (JkP1)T(JkP1) ed = −(JkP1)TRk UTDUd = −Ue Tb (3.35) onde ed = P₁−1d.

Como U ´e invers´ıvel, podemos escrever o sistema de maneira equivalente por

DU ed = −b (3.36)

Como D não tem posto completo, consideraremos as parti¸cões matriciais de dimensões adequadas para multiplica¸cão dadas por

D = D1 0 0 0 ! , U = U1 U2 0 U3 ! , ed = de1 e d2 ! e b = b1 b2 ! (3.37)

onde D1 ∈ Rr×r ´e uma matriz diagonal n˜ao singular e r o posto de Jk, como vimos

em (1.2). De (3.37) e (3.36) temos que b2 = 0, e como h´a uma equivalˆencia entre os

sistemas (3.36) e o sistema (2.10), que sempre tem solu¸cão, então conclu´ımos que existe b cumprindo (3.34) com b2 = 0. Além disso, de (3.37) e (3.36) temos que ed satisfaz

D1(U1de₁+ U₂de₂) = −b₁. (3.38)

Desta forma, podemos tomar ed2 = 0 obtendo ent˜ao

d1 = −U1−1D −1 1 b1

Tal solu¸cão considera que na k-ésima itera¸cão a informa¸cão de maior influência para o sistema está contida em U1, já que usualmente U2é dependente de U1, e portanto podemos

descartar tal informa¸c˜ao tomando ed2 = 0.

Infelizmente, a convergência desta técnica é afetada quando o problema é muito não linear ou o res´ıduo é muito grande. Assim, consideramos o método de Levenberg-Marquardt associado ao sistema (3.35), dado por,

min e d∈Rn 1 2kU T_{DU e}_{d + U}T_bk2 s.a kS edk ≤ ∆

minimiza¸c˜ao cumpre

(UTDU + µSTS) ed = −UTb

para algum valor de µ ≤ 0. Tomando S como a matriz identidade, temos a formula¸cão clássica de Levenberg-Marquardt, porém no desenvolvimento da teoria de redes neurais notou-se que para o problema acima as restri¸cões elipsoidais são mais eficazes que restri¸cões hiperesféricas, e portanto Zhou e Si [28] propõem a utiliza¸cão de S = U , obtendo assim o sistema

(UTDU + µUTU ) ed = −UTb UT (DU + µU ) ed = −UTb

(DU + µU ) ed = −b. (3.39) Utilizando (3.37) em (3.39) obtemos (D1+ µI) U1 (D1+ µI) U2 0 µU3 ! e d1 e d2 ! = − b1 0 ! . (3.40)

Temos então a solu¸cão do problema de minimiza¸cão dado por ( e d1 = −U1−1(D1+ µI) −1 b1 e d2 = 0 . (3.41)

Segundo Zhou e Si [28], esta forma de atualiza¸cão da dire¸cão d revelou boas propriedades de convergência, exceto quando o posto de Jk é muito pequeno, e portanto muita

informa¸cão seria perdida a cada itera¸cão, o que induziu a apresenta¸cão de um procedi- mento adicional para atualiza¸cão de ed2. Considerando a expressão (3.38), conclu´ımos que

há uma dependência entre as variáveis ed1 e ed2, então mantendo a forma de atualiza¸cão de

d1 dada em (3.41), podemos obter uma express˜ao para ed2, cumprindo a seguinte equa¸c˜ao

D1U2de2 = (D1(D1+ µI)−1− I)b1. (3.42)

E f´acil verificar que (D1(D1+ µI)−1− I) = −µ(D1+ µI)−1, e portanto

D1U2de2 = −µ(D1+ µI)−1b1.

Agora, consideremos a decomposi¸c˜ao ortogonal

D1U2P2 = QR,

onde P2 ∈ R(n−r)×(n−r) ´e uma matriz de pivoteamento por colunas, Q ∈ Rr×r ´e uma

diagonal dispostos na ordem decrescente. Seja h ∈ Rr tal que

µ(D1+ µI)−1b1 = Qh,

e portanto a equa¸c˜ao (3.42) pode ser reescrita como

D1U2de₂ = −µ(D₁+ µI)−1b₁ D1U2P2P2−1de₂ = −µ(D₁+ µI)−1b₁

QR bd2 = −Qh,

onde bd2 = P2−1de₂. Como Q ´e invers´ıvel, temos que

R bd2 = −h.

Se R n˜ao tem posto completo, considerar as decomposi¸c˜oes

R = R1 R2 0 0 ! , bd2 = b d21 b d22 ! e h = h1 h2 ! ,

onde R1 tem o mesmo posto de R, bd21 e bd22 s˜ao blocos do vetor bd2 e h1 e h2 s˜ao blocos

do vetor h, de forma que as multiplica¸c˜oes fa¸cam sentido. Temos assim que

R1db₂₁+ R₂db₂₂ = −h₁.

Tomaremos bd22= 0, e portanto

R1db21= −h1.

Considerando D2 uma matriz diagonal cujo i-ésimo elemento é o quadrado do i-ésimo

elemento da diagonal de R1, podemos multiplicar em ambos os lados da equa¸c˜ao por

1D2 obtendo

RT₁D2R1db₂₁= −RT₁D₂h₁,

e resolveremos bd21 impondo uma regi˜ao de confian¸ca, mediante a restri¸c˜ao kM bd21k ≤ b∆,

sendo a solu¸c˜ao dada por

RT₁D2R1+ ϑMTM

d21= −RT1Dh1,

para algum valor de ϑ ≥ 0. Tomando M = R1 obtemos

RT₁ (D2+ ϑI) R1db₂₁ = −RT₁D₂h₁,

e temos ent˜ao a seguinte solu¸c˜ao para d21,

d21= −R−11 (D2+ ϑI) −1

Zhou e Si [28] afirmam que tal forma de atualiza¸cão tem melhores propriedades de convergência, pois traz mais informa¸cões da parte singular de Jk em rela¸cão à atualiza¸cão

apresentada em (3.41).

3.4.2 Proposta de extens˜ao: M´etodo CG-LM

Utilizando ideias semelhantes à técnica apresentada na última subse¸cão, nosso objetivo consiste em desenvolver uma técnica de resolu¸cão para o Método de Levenberg-Marquardt aplicados à problemas mal escalados, utilizando a decomposi¸cão matricial pautada em dire¸cões conjugadas, apresentada na subse¸cão 1.1.4 .

Consideremos o problema de Levenberg-Marquardt escalado

min d∈Rn 1 2kJ T kd + Rkk2 s.a kSkdk ≤ ∆ , (3.44)

para algum valor de ∆ > 0. Assim, pelos Teoremas 1.17 e 1.18, a solu¸cão do problema está caracterizada através do sistema linear

(J_kTJk+ λSkTSk)d = −JkTRk (3.45)

para algum valor de λ ≥ 0. Utilizando a decomposi¸c˜ao matricial pautada em dire¸c˜oes conjugadas, temos que

P_kTJ_kTJkPk= Dk

onde P tem os vetores gradientes conjugados de JT kJk, e

Dk =

D1k 0

0 0 !

com D1k matriz diagonal, onde os elementos da diagonal s˜ao da forma dii = pTiJkTJkpi.

Assim, temos que

J_kTJk = P_k−TDkP_k−1. (3.46)

Utilizando (3.46) e (3.45), obtemos

(P_k−TDP_k−1+ λS_kTSk)d = −JkTRk.

Seja b tal que P_k−Tb = −JT

kRk, isto ´e, b = −PkTJkTRk, obtendo assim

(P_k−TDP_k−1+ λS_kTSk)d = Pk−Tb.

Desta maneira, podemos tomar Sk = P_k−1, e portanto a dire¸c˜ao d deve satisfazer

(P_k−TDkPk−1+ λP −T k P −1 k )d = P −T k b,

ou de maneira equivalente

(Dk+ λI)Pk−1d = b.

Considerando ed = P_k−1d e reescrevendo o sistema em blocos, obtemos

D1k+ λI 0 0 λI ! e d1 e d2 ! = b1 b2 ! e portando e d = de1 e d2 ! = (D1k+ λI) −1_b 1 1 λb2 ! . (3.47)

Dada a solu¸cão em (3.47), é fácil voltar à defini¸cão de d, pois

d = Pkd.e

Vejamos o algoritmo da t´ecnica a seguir.

Algoritmo 9 : M´etodo CG-LM

Dados x0 ∈ Rn e a sequência de parâmetros λk, solu¸cões das raizes seculares associadas

ao problema, defina k = 0. Fa¸ca Compute a decomposi¸c˜ao PT kJkTJkPk = Dk; b = −P_kTJ_kTRk; e d =(D1k+ λkI) −1_b 1 1 λkb2 ; d = Pkd;e xk+1 = xk+ d; k = k + 1; fim

Note que o algoritmo n˜ao necessita da inversa de Pk, mas apenas da computa¸c˜ao da

pr´opria decomposi¸c˜ao PT

kJkTJkPk = Dk, tornando o algoritmo mais barato em rela¸c˜ao ao

que a teoria aparentemente apresenta. ´

E poss´ıvel provar a convergência de nosso método a partir da convergência do método de Região de Confian¸ca, como veremos no próximo teorema.

Teorema 3.6. Seja R ∈ C1_{, e suponhamos que a sequˆ}_{encia (x}

k) gerada pelo m´etodo

proposto cumpra:

(1) ∇f Lipschitz, com f (x) = 1₂kR(x)k2_.

(2) ∃c > 0 tal que c ≤ pαk

min, ∀k ∈ N, onde αkmin ´e o menor autovalor de SkTSk.

(3) As Jacobianas s˜ao uniformemente limitadas, isto ´e, ∃µ > 0 tal que kJkk ≤ µ

Nestas condi¸c˜oes, temos que a sequˆencia gerada (xk) gerada pelo Algoritmo 9 cumpre

lim

k→∞∇f (xk) = 0.

Em outras palavras, nosso método converge globalmente para solu¸cão do problema. Demonstra¸cão. Provaremos a convergência a partir da convergência do método de região de confian¸ca. Para isso, nosso primeiro passo é provar que o problema de Levenberg- Marquardt pode ser reescrito como um problema da teoria Clássica de Região de Con- fian¸ca. Nosso intuito é resolver a cada itera¸cão k,

min mk(d) s.a kSkdk ≤ ∆ , (3.48) onde mk(d) = 1 2kJ T kd + Rkk = 1 2R T kRk+ dTJkTRk+ 1 2d T_JT kJkd.

Analisemos o termo kSkdk. Pelo quociente de Rayleigh, temos que

αk_mindTd ≤ dTS_kTSkd ≤ αkmaxd T_d.

Utilizando a primeira desigualdade, temos que q

αk

minkdk ≤ kSkdk ≤ ∆.

Pela hip´otese (2), temos que

ckdk ≤√αminkdk ≤ kSkdk ≤ ∆.

Desta forma, definindo a norma

kdkc= ckdk,

temos que kdkc≤ ∆. Assim, resolver (3.48) equivale a resolver

min mk(d)

s.a kdkc≤ ∆

sendo este um problema clássico de região de confian¸ca. Como o método de região de confian¸ca independe da norma utilizada, estamos assegurados da convergência de nosso método através da convergência do método de Região de Confian¸ca, desde que estejamos em suas hipóteses. Provemos que de fato todas as hipóteses da convergência do método de Região de Confian¸ca, apresentada no Teorema 1.19, são verificadas.

H1 : A fun¸cão f é de classe C1, por ser a composi¸cão de fun¸cões de classe C1. Além disso, ∇f é Lipschitz pela hipótese (1).

H2 : J´a foi provado que resolver o problema (3.48) equivale a resolver o sistema linear

(J_kTJk+ λkSkTSk)d = −JkTRk,

para algum valor de λ ≥ 0. Estamos supondo ser poss´ıvel encontrar tal λ, e nossa teoria encontra de fato a solu¸cão deste sistema linear, então sendo a solu¸cão exata do problema de minimiza¸cão (3.48), é trivial que satisfaz a desigualdade (1.13). H3 : Também é verificado trivialmente, já que tomamos a solu¸cão exata de (3.48). H4 : Temos que

kBkkc = kJkTJkkc≤ ckJkk2,

e pela hip´otese (3) temos que

kBkk ≤ ckJkk2 ≤ cµ2 = β ∀k ∈ N.

H5 : f ´e limitada inferiormente por 0, e portanto ´_{e limitada em N = {x ∈ R}n : f (x) ≤ f (x0)}.

Desta forma, estamos nas hipóteses da convergência do método de Região de Confian¸ca, e portanto temos a convergência global de nosso método, como quer´ıamos demonstrar.

3.4.3 Experimentos num´ericos

Nossa objetivo para esta subse¸cão é discorrer acerca do desempenho computacional das técnicas abordadas nesta se¸cão. Continuaremos utilizando o banco de problemas proposto por Moré, Garbow e Hillstrom [16]. Antes de apresentar o perfil de desempenho dos algoritmos, discorreremos acerca da computa¸cão dos vetores A-conjugados exigidos na técnica CG-LM.

Notamos que na computa¸cão dos vetores A-conjugados é poss´ıvel utilizar a informa¸cão obtida das itera¸cões anteriores, de forma a construir um algoritmo mais barato computacionalmente, como apresentamos agora.

Algoritmo 10 : Obten¸c˜ao dos vetores A-conjugados Dada matriz A sim´etrica semidefinida positiva com posto(A) = r e {v1, v2, . . . , vr} base de Im(A).

Defina p1 = v1;

aux = pT₁A; Aux = p1_aux.paux₁.

De i = 2 : r fa¸ca pi = (I − Aux)vi;

aux = pT i A;

Aux = Aux + pi_aux.paux_i.

Fim

Agora, a fim de fazermos a compara¸cão de desempenho das técnicas, denominaremos a técnica de escalamento clássico definido em (3.31) e resolvido por decomposi¸cão de Cholesky por E1, utilizando a = 1. A mesma técnica resolvida por gradientes conjugados será denotada por E2. A técnica proposta por Zhou e Si apresentada em (3.41) será denotada por E3, enquanto que a apresentada em (3.43) será denotada por E4. Todas estas técnicas utilizarão o parâmetro λ proposto em P 9. Já nossa proposta de resolu¸cão, apresentada pelo Algoritmo 9, será denotada por E5, utilizando o parâmetro λ proposto em P7. Lembrando que os parâmetros P7 e P9 encontram-se na subse¸cão 3.1. Assim, analisemos o desempenho dos algoritmos relativamente ao tempo e número de itera¸cões, como mostra a seguir.

Figura 3.9: Perfil de desempenho dos algoritmos E1 a E5 em fun¸c˜ao do tempo. Escala de eficiˆencia.

Figura 3.10: Perfil de desempenho dos algoritmos E1 a E5 em fun¸c˜ao do tempo. Escala de robustez.

Figura 3.11: Perfil de desempenho dos algoritmos E1 a E5 em fun¸cão do número de itera¸cões. Escala de eficiência.

Figura 3.12: Perfil de desempenho dos algoritmos E1 a E5 em fun¸cão do número de itera¸cões. Escala de robustez.

Podemos notar nos resultados acima que, relativamente ao tempo, o método CG-LM (E5) resolveu 18% dos problemas mais rapidamente, enquanto que o mais eficiente resolveu 27% dos problemas de forma mais veloz. Já no quesito robustez, o método CG-LM obteve o melhor resultado, tendo resolvido um total de 90% dos problemas. Os métodos E3 e E4 resolveram 88% dos problemas.

Através da análise dos perfis de desempenho, pode-se notar que nossa proposta de extensão se mostrou a mais robusta, tanto relativamente ao tempo quando ao número de itera¸cões do algoritmo. Cabe salientar que desde que haja uma maneira eficiente para o cálculo de uma base para imagem e uma base para o núcleo de JT

kJk, nossa

proposta apresenta um baixo custo computacional, não envolvendo solu¸cões de sistemas nem inversas de matrizes, exceto a inversa de uma matriz diagonal. Podemos assim concluir que a aplica¸cão de nossa proposta é uma boa escolha para o método de Levenberg- Marquardt para problemas mal escalados.

O foco deste trabalho consistiu no estudo do Problema de Quadrados M´ınimos N˜ao Linear, onde dada uma fun¸c˜_{ao R : R}n_{→ R}m_{, o objetivo ´}_{e resolver o problema}

min x∈Rn 1 2kR(x)k 2 .

Tal problema tem grande aplicabilidade em casos reais, sendo utilizado em ciências expe- rimentais como a F´ısica, Biologia, Economia, entre outras. Para abordagem deste tema, introduzimos conceitos clássicos de Otimiza¸cão e Álgebra Linear, além da introdu¸cão ao Problema de Quadrados M´ınimos.

Para o Problema de Quadrados M´ınimos, abordamos em primeiro momento o caso linear, e posteriormente os métodos clássicos de resolu¸cão do caso não linear, sendo tais o Método de Newton e Método de Gauss-Newton. Após esta introdu¸cão de conceitos, discorremos sobre o método de Levenberg-Marquardt, sendo este o foco principal de nossos estudos.

Desenvolvido por Levenberg [11] e aprimorado por Marquardt [13], o método de Levenberg-Marquardt alia o baixo custo computacional do método de Gauss-Newton, porém o supera relativamente à boa defini¸cão de seus iterandos, que estão sempre bem definidos independente do problema.

Nossa primeira contribui¸cão consistiu na apresenta¸cão de um novo parâmetro de dam- ping para o Método de Levenberg-Marquardt, comparando-o computacionalmente com os parâmetros já existentes na literatura. Obtivemos bons resultados para nossa proposta quando comparada com os parâmetros definidos sem a análise do coeficiente de redu¸cão relativa, tendo um desempenho competitivo quando comparado com os parâmetros que usam tal análise.

Em seguida, fizemos uma revisão do método de Levenberg-Marquardt visto como um método de região de confian¸ca, sendo tal abordagem feita por [15] e revisitada por [8]. Abordamos também o método de Levenberg-Marquardt sem derivadas, utilizando o método de diferen¸cas finitas, tratado em [2]. Nesta se¸cão vimos que a utiliza¸cão de diferen¸cas finitas mantém as propriedades de convergência, sob determinadas hipóteses.

A última se¸cão do trabalho tratou do método de Levenberg-Marquardt para problemas mal-escalados. Discorremos acerca da técnica criada por Zhou e Si [28], que utiliza decomposi¸cões matriciais para resolver o sistema de Levenberg-Marquardt para problemas

mal-escalados de maneira mais eficaz. Após essa abordagem, utilizando ideias análogas, introduzimos uma proposta de resolu¸cão do mesmo problema, porém utilizando a decomposi¸cão matricial pautada em dire¸cões conjugadas, exposta por [27]. Sendo esta a segunda contribui¸cão do trabalho, expusemos experimentos numéricos comparando algumas técnicas existentes na literatura com nossa proposta de extensão. Após os testes, verificamos que nosso método é competitivo aos demais existentes na literatura, sendo uma boa op¸cão para resolu¸cão do Problema de Quadrados M´ınimos mal escalado.

Nossa primeira proposta para trabalhos futuros consiste em buscar melhorias para o M´etodo de Levenberg-Marquardt aplicado a problemas mal escalados, encontrando uma forma eficiente para a resolu¸c˜ao do subproblema

J_kTJk+ λSTS dk= JkTRk,

explorando as caracter´ısticas do sistema, como a simetria. Desde que (J (xk)TJ (xk) +

λkSTS) seja simétrica definida positiva, a adapta¸cão do método de gradientes conjuga-

dos especifica para este problema pode trazer bons resultados num´ericos, principalmente quando associada ao uso de um pr´e-condicionador.

Além desta vertente, podemos abordar a resolu¸cão de problemas de grande porte, buscando outras aproxima¸cões da matriz Jacobiana sem a utiliza¸cão de derivadas e de custo de armazenamento mais baixo, conflitando com o método mais básico abordado no trabalho, de diferen¸cas finitas.

Há ainda uma abordagem do método de Levenberg-Marquardt que não teve destaque em nosso trabalho, e que poderiam ser abordados posteriormente. O tópico consiste na constru¸cão de algoritmos utilizando o método de Levenberg-Marquardt para o problema de Quadrados M´ınimos Não Lineares sob restri¸cões, isto é,

min 1₂||R(x)||2

s.a cE(x) = 0

cI(x) ≤ 0

, (3.49)

onde E e I s˜ao os conjuntos de ´ındices das restri¸c˜oes de igualdade e desigualdade, respec- tivamente. Um exemplo desta abordagem encontra-se em [14].

A. Quociente de Rayleigh

Dada uma matriz A ∈ Rn×n _sim´_{etrica e um vetor x ∈ R}m_{, o quociente de Rayleigh ´}_e

definido por

xT_Ax

xT_x .

Sua importância está na rela¸cão com os autovalores de A, como vemos no teorema a seguir.

Teorema .7. Seja A ∈ Rn×n uma matriz sim´etrica, de autovalores λ1 ≤ · · · ≤ λn. Nestas

condi¸c˜oes, λ1 = min xT_Ax xT_x : x ∈ R n_{\ {0}} λn= max xT_Ax xT_x : x ∈ R n_{\ {0}}

Demonstra¸c˜ao. Provaremos a primeira igualdade, sendo a prova da segunda an´aloga. Denotemos por σ(B) o conjunto dos autovalores da matriz B. Desta forma, temos que

σ(λ1I − A) = {0, λ1− λ2, . . . , λ1− λn}

e portanto λ1I − A ´e semidefinida negativa, isto ´e, para todo x ∈ Rn\ {0} temos

xT(λ1I − A)x

xT_x ≤ 0.

Distribuindo os termos da express˜ao acima temos que

λ1 ≤

xT_Ax

xT_x .

Por outro lado, tomando z autovalor de A associado `a λ1, temos min x∈Rn_\{0} xT_Ax xT_x ≤ zT_Az zT_z = z T_(λ 1z) zT_z = λ1,

provando assim o desejado.

B. Banco de Dados MGH

Quando nosso objetivo consiste na análise de desempenho de ou mais algoritmos, aplicá-los a uma fun¸cão espec´ıfica pode não ser muito conclusivo, e portanto faz-se ne- cessário um banco de fun¸cões para realizar os testes. Dentre os muitos bancos de fun¸cões expressos na literatura, o escolhido para nosso trabalho foi o banco de fun¸cões desenvolvido por Moré, Garbow e Hillstrom [16], composto por 35 fun¸cões Rj : Rn → Rm, tendo

seus códigos dispon´ıveis através da página

http : //www.mat.univie.ac.at/∼neum/glopt/test.html#test unconstr

A implementa¸cão de cada fun¸cão tem quatro dados de entrada: a dimensão n do espa¸co de dom´ınio da fun¸cão, a dimens˜_{ao m do contradom´ınio, o ponto x ∈ R}n onde será calculada e um parâmetro opt ∈ {1, 2, 3}. Caso opt = 1, a fun¸cão fornece um vetor f vec ∈ Rm onde f vec = R(x) = (r1(x), r2(x), ..., rm(x))T. Se opt = 2, a fun¸cão fornece a

Jacobiana J de R, isto é, uma matriz onde sua i-ésima linha é dada por ∇ri(x)T. Caso

opt = 3, são fornecidos o vetor f vec e a matriz J . Em nosso contexto de quadrados m´ınimos não linear, nosso objetivo consiste em utilizar este banco e minimizar as fun¸cões

f (x) = 1 2kR(x)k 2 = 1 2f vec T f vec = 1 2 m X i=1 (ri(x))2 ! ,

sendo o gradiente de f dado por

∇f (x) =

i=1

ri(x)∇ri(x) = JTf vec.

Para algumas fun¸cões, as dimensões n e m são fixas, enquanto que para outras fun¸cões o próprio usuário pode definir as dimensões segundo algumas restri¸cões. Além disso, o banco de fun¸cões também fornece um ponto inicial para cada fun¸cão, sendo o utilizado como ponto inicial dos algoritmos tratados neste trabalho. Mostremos agora dois exemplos de fun¸cões deste banco.

Exemplo: (1) Fun¸c˜ao de Rosenbrock (a) n = 2 , m = 2;

(b) r1(x) = 10(x2 − x21)

r2(x) = 1 − x1;

Exemplo: (28) Fun¸c˜ao do Valor limite discreto (a) n vari´avel, m = n;

(b) ri(x) = xi+ hh(1 − ti)Pi_j=1tj(xj + tj+ 1)3+ tiPn_j=i+1(1 − tj)(xj+ tj + 1)3 i 2 onde h = _n+11 , ti = ih e x0 = xn+1 = 0; (c) (x0)j = (ξj) onde ξj = tj(tj − 1).

C. Perfil de Desempenho

Introduzido em 2002 por Dolan e Moré [6], o perfil de desempenho (performance profile) tem como proposta a compara¸cão de vários algoritmos quando aplicados a um conjunto de problemas. Seja S o conjunto dos ns algoritmos que queremos comparar e

seja P o conjunto dos np problemas testes que pretendemos resolver. Utilizaremos uma

medida de compara¸cão, como por exemplo o tempo computacional utilizado na resolu¸cão do problema, o número de itera¸cões, o número de avalia¸cões de fun¸cões, dentre outras. Seja mp,s a quantidade da medida m que o algoritmo s utilizou para resolver o problema

p. Tamb´em definimos a raz˜ao de desempenho, rp,s, dada por

rp,s =

mp,s

min{mp,s: s ∈ S}

Note que rp,s≥ 1, quaisquer que sejam p ∈ P e s ∈ S.

Definamos

ρs(t) =

card({p ∈ P : rp,s ≤ t})

como a fra¸cão do conjunto de todos os problemas testes resolvida pelo programa s com uma razão de desempenho menor ou igual a t. Note que a fun¸cão ρs : R → [0, 1] é não

decrescente. Tomando ρs(1), obtemos exatamente a fra¸c˜ao do conjunto de problemas em

que o programa s cumpriu mp,s= min{mp,s: s ∈ S}, isto ´e, a fra¸c˜ao em que o algoritmo

s obteve melhor desempenho em rela¸c˜ao aos outros.

Definamos um parˆametro real rM arbitrariamente grande, de forma que rM > rp,s,

∀p ∈ P, ∀s ∈ S tal que s resolveu p, e definamos assim rp,s = rM para os problemas p que

n˜ao foram resolvidos por s. Desta forma ρs(rM) = 1.

Tra¸caremos o gr´afico do perfil de desempenho em certo intervalo [1, tM], onde tM ´e um

n´umero real escolhido de forma a capturar o comportamento do programa. No caso de [1, tM] ser grande, podemos tra¸car o gr´afico do perfil de desempenho em escala logar´ıtmica,

considerando

ρs(t) =

card({p ∈ P : log₂(rp,s) ≤ t})

e tomando o intervalo de plotagem como [0, tM], j´a que rp,s ≥ 1 nos assegura que

log₂(rp,s) ≥ 0. Em s´ıntese, para t = 0 estaremos verificando a eficiˆencia dos algorit-

mos, isto é, teremos a fra¸cão de problemas que cada algoritmo resolveu em menor medida de compara¸cão. Já para t próximo de tM, estaremos verificando a fra¸cão de problemas

que cada algoritmo resolveu, independente da medida de compara¸c˜ao, sendo tal fra¸c˜ao interpretada como a robustez do algoritmo.

[1] Bj¨orck, A. Numerical methods for least squares problems . Philadelphia, SIAM, 1996. [2] Brown, K. M. e Dennis Jr., J. E. “Derivative free analogues of the Levenberg- Marquardt and Gauss algorithms for nonlinear least squares approximation”. Nu- merische Mathematik 18.4 (1971): 289-297.

[3] Conn, A. R.; Gould, N.I.M.; e Toint, P.L. Trust-Region methods, MPS-SIAM Series on Optimization, SIAM, Philadelphia, 2000.

[4] Davies, M. e Whitting, I.J. “A modified form of Levenberg’s correction”. Em Nume- rical Methods for Nonlinear Optimization, F. A. Lootsma (ed.) London, Academic Press, 1972, pp. 191–201.

[5] Dennis J. E. e Schnabel R.B. Numerical Methods for Unconstrained Optimization and Nonlinear Equations. SIAM, Philadelphia, PA, 1996.

[6] Dolan, E. D. e Mor´e, J. J. “Benchmarking optimization software with performance profiles”. Math. Programming (Ser. A) 91, 1981, pp. 201–213.

[7] Fan, J. e Yuan, Y. “On the convergence of the a new Levenberg-Marquardt method”. Technical Report, AMSS, Chinese Academy of Sciences, Beijing, China, 2001. [8] Gardenghi, J. L. C. e Santos, S.A. “Sistemas n˜ao lineares via regi˜ao de confian¸ca: o

algoritmo de Levenberg-Marquardt”. Campinas: UNICAMP, 2011. 45. Relat´orio de

No documento UNIVERSIDADE FEDERAL DO PARANÁ Kléber Aderaldo Benatti. O Método de Levenberg-Marquardt para o Problema de Quadrados Mínimos não Linear (páginas 89-108)