• Nenhum resultado encontrado

Um algoritmo de regiões de confiança baseado em trajetória central e sua utilização em método de filtro

N/A
N/A
Protected

Academic year: 2021

Share "Um algoritmo de regiões de confiança baseado em trajetória central e sua utilização em método de filtro"

Copied!
81
0
0

Texto

(1)

Computac

¸˜

ao Cient´ıfica

Um Algoritmo de Regi˜

oes de Confian¸

ca

Baseado em Trajet´

oria Central e sua

Utiliza¸

ao em M´

etodo de Filtro

Ana Maria Basei

(2)

Computac

¸˜

ao Cient´ıfica

Um Algoritmo de Regi˜

oes de Confian¸

ca

Baseado em Trajet´

oria Central e sua

Utiliza¸

ao em M´

etodo de Filtro

Disserta¸c˜ao apresentada ao Curso de P´os Gradua¸c˜ao em Matem´atica e Computa¸c˜ao Cient´ıfica, do Centro de Ciˆencias F´ısicas e Matem´aticas da Universidade Federal de Santa Catarina, para obten¸c˜ao do grau de Mestre em Matem´atica, com ´Area de Concentra¸c˜ao em Matem´atica Aplicada.

Ana Maria Basei Florian´opolis

(3)

baseado em trajet´

oria central e sua

utiliza¸c˜

ao em m´

etodos de filtro

por

Ana Maria Basei

Esta Disserta¸c˜ao foi julgada para a obten¸c˜ao do T´ıtulo de “Mestre”, ´

Area de Concentra¸c˜ao em Matem´atica Aplicada, e aprovada em sua forma final pelo Curso de P´os-Gradua¸c˜ao em Matem´atica e

Computa¸c˜ao Cientifica.

Cl´ovis Caesar Gonzaga Coordenador

Comiss˜ao Examinadora

Prof. Dr. Cl´ovis Caesar Gonzaga (UFSC-Orientador)

Prof. Dr. Carlos Humes Junior (USP)

Prof. Dr. M´ario C´esar Zambaldi (UFSC)

Prof. Dr. Juliano de Bem Francisco (UFSC)

Florian´

opolis, abril de 2007.

(4)

`a minha querida irm˜a Fernanda e ao meu amor Paulo.

(5)

A Deus pela vida, sa´ude, paz, prote¸c˜ao, e principalmente pela fam´ılia ma-ravilhosa, amigos e pessoas queridas que coloca em minha vida.

Aos meus amados pais pelo amor verdadeiro e incondicional. Agrade¸co ao carinho, zelo e apoio que os torna meu porto seguro. Pelas longas conversas, conselhos e palavras de confian¸ca e motiva¸c˜ao. Ao meu pai agrade¸co em especial ao maior exemplo que deixou de persistˆencia, otimismo e coragem. A minha m˜ae agrade¸co ao exemplo de luta, trabalho, perseveran¸ca e coragem.

A minha querida irm˜a e amiga Fernanda, pelo amor, pelos momentos ale-gres e divertidos que passamos juntas e ainda pela sua presen¸ca nos momentos de dificuldade.

Ao meu amor Paulo H. Bermejo pelo carinho, cuidados, pelos momentos de alegria e apoio nas horas dif´ıceis e principalmente por ser meu maior incentivador, sempre acreditando em mim e fazendo parte da minha vida.

As minhas tias Zaira e Adelaide pela torcida e por se fazerem presentes em momentos importantes e aos demais familiares e amigos queridos.

Aos colegas do mestrado, em especial a amizade de Diane, Fabiana, Jo˜ao, Luciane e Priscila, pelos momentos agrad´aveis que compartilhamos e pelo compa-nheirismo nos momentos dif´ıceis.

Aos colegas Ismael, Gilberto e Rafael pelo apoio e companheirismo.

Agrade¸co aos professores membros da banca por dedicarem seu tempo a avalia¸c˜ao do trabalho contribuindo no aprimoramento da vers˜ao final.

Agrade¸co ao professor Igor e demais professores do mestrado pelo conhe-cimento transmitido. Ao professor Gustavo A.T.F. da Costa pela orienta¸c˜ao no est´agio de docˆencia.

(6)

atende na secretaria da p´os gradua¸c˜ao. Ao CNPQ pelo suporte financeiro.

E finalmente agrade¸co em especial ao professor Cl´ovis Gonzaga pela sua orienta¸c˜ao e pela forma paciente, s´abia e carinhosa como me atendeu durante a realiza¸c˜ao do trabalho. Acredito que sua inteligˆencia, sua paix˜ao pela matem´atica, a forma como ensina e conduz suas aulas, al´em do seu cora¸c˜ao enorme e humildade s˜ao algumas das suas virtudes que despertam admira¸c˜ao em todos alunos que tem a oportunidade de trabalhar com ele.

(7)

A utiliza¸c˜ao do m´etodo de regi˜ao de confian¸ca ´e muito frequente em pro-blemas de otimiza¸c˜ao, j´a que precisamos minimizar modelos de fun¸c˜oes. Temos m´etodos que utilizam regi˜oes com formato de bolas euclidianas e m´etodos que utili-zam regi˜oes com formato de caixas. Na presen¸ca de restri¸c˜oes lineares, a utiliza¸c˜ao de um ou outro pode apresentar desvantagens. Neste trabalho apresentamos um algoritmo de regi˜ao de confian¸ca baseado em trajet´oria central. ´E um m´etodo in-termedi´ario entre os citados acima. No m´etodo apresentado as regi˜oes de confian¸ca s˜ao conjuntos de n´ıvel da fun¸c˜ao barreira logar´ıtmica, e evoluem continuamente de pequenas bolas euclidianas tendendo `a caixa completa. Este algoritmo ´e utilizado em seguida em um algorimo de filtro para resolver um problema de otimiza¸c˜ao com formato bem geral de restri¸c˜oes de igualdade e vari´aveis n˜ao negativas.

(8)

Trust region methods are frequently used in Optimization, whenever we need to minimize function models. We have methods based on regions shaped as Euclidean balls and methods based on box shaped regions. In the presence of linear equality constraints each of these shapes has its disadvantages. In this work we present a trust region method based on the central path. This method is in a way intermediate between the other two. Its trust regions are level sets of the logarithmic barrier function, and evolve continuously from small Euclidean balls towards the whole box. This algorithm is then used in a filter method for solving general optimization problems with equality constraints and non-negative variables.

(9)

Lista de Figuras x

Introdu¸c˜ao 1

1 Introdu¸c˜ao: 1

2 Regi˜ao de Confian¸ca 6

2.1 Algoritmos com Regi˜ao de Confian¸ca . . . 7

2.2 Regi˜ao de confian¸ca e a busca de Armijo . . . 10

2.2.1 Busca de Armijo . . . 11

2.3 Convergˆencia global . . . 12

2.4 O problema quadr´atico e as duas trajet´orias: Trajet´oria de Levenberg-Marquardt e a Trajet´oria Central . . . 14

2.5 Trajet´oria ´Otima para regi˜oes tipo caixa . . . 19

2.6 Compara¸c˜ao entre os m´etodos . . . 23

2.7 Generaliza¸c˜ao . . . 26

2.8 Algoritmos de regi˜oes de confian¸ca definidas pela barreira . . . 27

3 M´etodos de Pontos Interiores Primais-Duais 31 3.1 Revis˜ao de conceitos . . . 31

3.1.1 Trajet´oria Primal-Dual . . . 32

3.1.2 Proximidade e Vizinhan¸cas da Trajet´oria Central . . . 34

3.2 Algoritmos: . . . 36

3.3 Algoritmo de passo mais longo . . . 38

(10)

Negativas . . . 42 4.2 Programa¸c˜ao Quadr´atica Sequencial,

Restaura¸c˜ao Inexata e um M´etodo de Filtro . . . 45 4.2.1 A Fase de Restaura¸c˜ao ou Fase de Viabilidade . . . 50 4.2.2 Fase de Otimalidade . . . 51 5 Utiliza¸c˜ao do Algoritmo de Regi˜ao de Confian¸ca no M´etodo de

Filtro 55

5.1 Fase de otimalidade . . . 56 5.2 O algoritmo . . . 56 5.2.1 O centro anal´ıtico do conjunto formado pelas restri¸c˜oes . . . 57 5.2.2 Formato primal de programa¸c˜ao quadr´atica . . . 61

Considera¸c˜oes Finais 65

Referˆencias 67

(11)

2.1 Ponto de Cauchy. . . 13

2.2 Ponto de Cauchy . . . 13

2.3 Regi˜oes de confian¸ca e trajet´orias. . . 26

2.4 Regioes de confian¸ca e trajet´orias no caso geral. . . 28

2.5 Uma itera¸c˜ao do algoritmo . . . 29

3.1 Compara¸c˜ao das vizinhan¸cas da trajet´oria central . . . 36

3.2 Passo mais longo . . . 39

4.1 Constru¸c˜ao do par (fk, hk) . . . 46

4.2 Uma itera¸c˜ao do m´etodo de filtro . . . 47

4.3 Uma itera¸c˜ao f e o filtro para a pr´oxima itera¸c˜ao . . . 49

4.4 Uma itera¸c˜ao h e o filtro para a pr´oxima itera¸c˜ao . . . 50

5.1 Constru¸c˜ao da caixa [l, u]. . . 60

5.2 Minimiza¸c˜ao em uma caixa maior . . . 64

(12)

Introdu¸c˜

ao:

Considere o seguinte problema de programa¸c˜ao n˜ao linear:

minimizar f (x) sujeito a c(x) = 0

x≥ 0

(1.1)

em que f : Rn → R, c : Rn→ Rm s˜ao fun¸c˜oes de classe C2 com m≤ n. Esse formato

´e bastante geral, uma vez que restri¸c˜oes de desigualdades podem ser reduzidas a igualdades com a introdu¸c˜ao de vari´aveis de folga.

Na resolu¸c˜ao de um problema restrito como o acima dois objetivos devem ser alcan¸cados: otimalidade e viabilidade. Estes dois normalmente s˜ao conflitantes e podem ser tratados de forma independente, ´e o caso dos m´etodos de restaura¸c˜ao inexata. Neste m´etodos, introduzidos por Mart´ınez e Pilotta [21] uma itera¸c˜ao ´e composta por duas fases, chamadas fase de restaura¸c˜ao e fase de otimalidade. Na fase de restaura¸c˜ao, a partir de um determinado ponto, possivelmente n˜ao-vi´avel, ´e determinado um ponto intermedi´ario z tal que a inviabilidade tenha sido “suficien-temente”reduzida. Na fase de otimalidade ´e feita uma minimiza¸c˜ao aproximada de uma fun¸c˜ao quadr´atica (que geralmente ´e um modelo quadr´atico da fun¸c˜ao objetivo ou de um Lagrangiano) sujeita a uma variedade linear e a uma regi˜ao de confian¸ca de raio ∆ centrada em z. Quando for obtido um ponto que reduza f (·), deve-se decidir se o ponto melhora a otimalidade sem piorar muito a viabilidade. Para esta an´alise pode-se usar uma fun¸c˜ao de m´erito ou filtros.

(13)

Neste trabalho vamos supor que o problema (1.1) seja resolvido com o al-goritmo de filtro proposto em [13]. ´E um algoritmo globalmente convergente que usa as id´eias de restaura¸c˜ao inexata. Cada itera¸c˜ao ´e composta pelas duas fases mencionadas. Supondo que a fase de restaura¸c˜ao esteja resolvida vamos estudar a fase de otimalidade. Portanto, o problema a ser resolvido ´e o de minimiza¸c˜ao de uma fun¸c˜ao quadr´atica restrita a uma variedade afim, uma regi˜ao de confian¸ca, ao primeiro ortante e a restri¸c˜ao do filtro. Vamos supor ainda que a fun¸c˜ao quadr´atica a ser minimizada ´e convexa.

A regi˜ao de confian¸ca pode ter formato de uma bola euclidiana centrada do ponto z (ponto de restaura¸c˜ao) ou de uma caixa com centro geom´etrico z, de-pendendo da norma utilizada. Um m´etodo que usa bolas euclidianas ´e eficiente e convergente, e a presen¸ca de restri¸c˜oes lineares afeta pouco seu custo computacional. Entretanto usa regi˜oes pequenas e ´e pouco aplic´avel a problemas com restri¸c˜oes. J´a os m´etodos que usam caixas s˜ao mais atraentes, pois elas s˜ao bem maiores do que bolas euclidianas e problemas com restri¸c˜oes de caixas s˜ao muito comuns. No en-tanto, a presen¸ca de restri¸c˜oes lineares eleva seu custo computacional, porque cada itera¸c˜ao deve resolver um problema de programa¸c˜ao quadr´atica geral.

No cap´ıtulo 2, no contexto de otimiza¸c˜ao irrestrita, apresentamos um m´etodo intermedi´ario, com regi˜oes de confian¸ca que evoluem continuamente de pequenas bo-las e tendem a uma caixa completa. As regi˜oes s˜ao definidas pela fun¸c˜ao barreira logar´ıtmica e a minimiza¸c˜ao da quadr´atica ´e feita atrav´es de uma busca curvil´ınea tipo Armijo sobre a trajet´oria central da caixa.

Para fazer esta busca usamos um m´etodo de pontos interiores. Um pouco da teoria de m´etodos de pontos interiores ´e apresentada no cap´ıtulo 3, com destaque para o algoritmo do passo mais longo, que foi o algoritmo escolhido para seguir a trajet´oria central. Ainda neste cap´ıtulo, apresentamos o teorema elaborado na tese de Behling [1] que fornece o primeiro par primal-dual vi´avel para iniciar o algoritmo. O cap´ıtulo 4, ´e dedicado ao problema (1.1). Apresentamos hip´oteses e defini¸c˜oes gerais necess´arias no estudo de (1.1) al´em de uma breve descri¸c˜ao do m´etodo de filtro. Em seguida formulamos o problema onde aplicaremos o algoritmo de regi˜ao de confian¸ca proposto no cap´ıtulo 2.

(14)

Finalmente no cap´ıtulo 5 apresentamos o algoritmo utilizado na fase de otimalidade do m´etodo de filtro. Ele ´e composto de duas etapas: a constru¸c˜ao da caixa, que deve ser a interse¸c˜ao da regi˜ao onde o modelo ´e confi´avel e o primeiro ortante. A outra etapa corresponde a busca de Armijo que avan¸ca na trajet´oria at´e que uma das restri¸c˜oes seja violada: a confiabilidade no modelo usado, a positividade ou a restri¸c˜ao do filtro.

(15)

Nota¸c˜oes

Apresentamos aqui algumas nota¸c˜oes usadas no trabalho:

Os vetores colunas e as matrizes ser˜ao denotados respectivamente por letras min´usculas e mai´usculas. Os ´ındices inferiores dos vetores representam as compo-nentes do vetor. A letra e denota o vetor coluna cujas compocompo-nentes s˜ao iguais a um com dimens˜ao explicitada no contexto.

Sejam os vetores x, s ∈ Rn as nota¸c˜oes x−1, x· s, xs e x

s s˜ao usadas para

representar vetores com componentes x−1i , xisi e xsii, i = 1, . . . , n.

Quando v e w s˜ao vetores, a nota¸c˜ao v≤ w significar´a sempre vi ≤ wi para

todas as suas coordenadas. Quando falamos da caixa l ≤ x ≤ u, entendemos o conjunto dos x∈ Rn tais que l

i ≤ xi ≤ ui.

Dado um vetor x, a letra mai´uscula X representa uma matriz diagonal formada pelas componentes do vetor x.

Para uma referˆencia futura, aqui est´a uma lista dos principais s´ımbolos utilizados no texto:

k · k : denota uma norma qualquer em Rn. N(A) : n´ucleo de uma matriz A.

∆ : raio da regi˜ao de confian¸ca

D∆ ={d ∈ Rn| kdk ≤ ∆} : regi˜ao de confian¸ca

B={d ∈ Rn| kdk ≤ ∆} : regi˜ao de confian¸ca com a norma 2

qµ(·) : soma de duas fun¸c˜oes quadr´aticas: a fun¸c˜ao quadr´atica objetivo e a fun¸c˜ao kx2k

2

V={x ∈ Rn| − e ≤ x ≤ e}

V◦ ={x ∈ Rn| − e < x < e}

p(·) : fun¸c˜ao barreira logar´ıtmica

pµ(·) : soma de duas fun¸c˜oes quadr´aticas: a fun¸c˜ao quadr´atica objetivo e a fun¸c˜ao

p(·)

VK={x ∈ V| p(x) ≤ K} Vv :={x ∈ Rn | − v ≤ x ≤ v}

Vv :={x ∈ Rn | − v < x < v}

pv(·) : fun¸c˜ao barreira logar´ıtmica definida em ◦

Vv Bv

(16)

Vv

K={x ∈ Vv | pv(x)− pv(0)≤ K}

c : gradiente da fun¸c˜ao f aplicado em um ponto x A(x) : Jacobiana da fun¸c˜ao g(·)

Γ = {(x, s) ∈ R2n

+ | Ax = b, −Hx + s + ATy = c, para algum y ∈ Rm} : conjunto

dos pares primais duais vi´aveis

Γ◦ ={(x, s) ∈ Γ | x, s > 0} : o conjunto de pares primais duais interiores

[l, u] ={x ∈ Rn | l ≤ x ≤ u} z : ponto de restaura¸c˜ao Regi˜ao proibida em R2, F k ={(f, h) | f ≥ fi, h≥ hi} Regi˜ao proibida em Rn, F k ={x ∈ Rn | f(x) ≥ fi, h(x)≥ hi} Filtro tempor´ario, ¯Fk

Conjunto de pontos proibidos em Rn associado ao filtro tempor´ario, ¯F k

(17)

Regi˜

ao de Confian¸ca

As primeiras se¸c˜oes deste cap´ıtulo tratam do m´etodo de regi˜ao de confian¸ca aplicado a um problema de minimiza¸c˜ao irrestrita, que ´e a abordagem cl´assica deste m´etodo. Nas se¸c˜oes seguintes introduzimos o problema quadr´atico que deve ser re-solvido a cada itera¸c˜ao do algoritmo de regi˜ao de confian¸ca. Inicialmente estudamos o caso em que a regi˜ao de confian¸ca ´e a bola euclidiana e a partir da´ı apresentamos a trajet´oria de Levenberg-Marquardt. Em seguida estudamos o caso da restri¸c˜ao ser uma caixa. Fixamos o tamanho desta caixa e definimos as regi˜oes de confian¸ca como conjuntos de n´ıvel da fun¸c˜ao barreira logar´ıtmica associada a esta caixa. De-finimos a trajet´oria central na caixa como a trajet´oria ´otima dos minimizadores da quadr´atica restrita aos conjuntos de n´ıvel da barreira. Mostramos algumas rela¸c˜oes entre as diferentes regi˜oes de confian¸ca e na ´ultima se¸c˜ao enunciamos um algoritmo de minimiza¸c˜ao conceitual para problemas irrestritos. O m´etodo resultante baseia-se em algoritmos de trajet´oria central para programa¸c˜ao quadr´atica, que n˜ao ser˜ao es-tudados neste cap´ıtulo: estudaremos algoritmos primais-duais, descritos no cap´ıtulo 3 em um contexto mais geral.

Na abordagem cl´assica de regi˜ao de confian¸ca o problema a ser resolvido ´e o de minimiza¸c˜ao irrestrita de uma fun¸c˜ao , ou seja,

minimizar f (x)

sujeito a x∈ Rn. (2.1)

com f : Rn → R duplamente continuamente diferenci´avel.

(18)

Um m´etodo de regi˜ao de confian¸ca ´e um processo iterativo que gera uma seq¨uencia (xk)

k∈N cujos pontos de acumula¸c˜ao devem ser minimizadores de f . Cada

itera¸c˜ao k define uma regi˜ao ao redor do ponto xk onde o modelo quadr´atico seja

uma representa¸c˜ao adequada da fun¸c˜ao objetivo e em seguida minimiza o modelo nesta regi˜ao. Se a solu¸c˜ao ¯d obtida n˜ao ´e aceita por determinado crit´erio, o tamanho da regi˜ao ´e reduzido e ´e feita nova minimiza¸c˜ao.

A id´eia de construir esta regi˜ao de confian¸ca no modelo quadr´atico foi pro-posta por Levenberg em 1944 [18] e Marquardt em 1963 [19] mediante estudos de problemas de m´ınimos quadrados. Em 1966, a aplica¸c˜ao do m´etodo de regi˜ao de confian¸ca foi sugerida por Goldef, Quandt e Trotter [33]. Powell [27] foi o primeiro a estabelecer a convergˆencia quadr´atica dos m´etodos de regi˜ao de confian¸ca.

2.1

Algoritmos com Regi˜

ao de Confian¸ca

Considere k ∈ N e xk ∈ Rn o ponto corrente. O modelo quadr´atico da

varia¸c˜ao da fun¸c˜ao objetivo em torno de xk ´e dado por:

d∈ Rn 7→ mk(d) =∇f(xk)Td + 1 2d T Bkd,

em que Bk uma matriz que pode ser uma aproxima¸c˜ao da Hessiana ∇2f (xk) ou

qualquer outra matriz sim´etrica que satisfa¸ca

kBkk ≤ β

para algum β > 0 independente de k. Como

f (xk+ d) = f (xk) +∇f(xk )Td + 1 2d T ∇2f (xk + td)d,

para algum t∈ [0, 1], e como mk(d) = ∇f(xk)Td + O(kdk2), a diferen¸ca entre mk(d)

e f (xk+ d)−f(xk) ´e limitada por O(kdk2), e ent˜ao o erro da aproxima¸c˜ao ´e pequeno

quando d ´e pequeno. Na pr´atica, a abordagem de regi˜ao confian¸ca ´e muito geral pois precisamos exigir muito pouco de Bk, apenas simetria e limita¸c˜ao uniforme no

(19)

´ındice k.

No caso em que Bk = ∇2f (xk) o algoritmo obtido ´e chamado m´etodo de

Newton para regi˜ao de confian¸ca.

Como o modelo quadr´atico s´o aproxima bem a fun¸c˜ao em uma vizinhan¸ca do ponto xk define-se o conjunto D

∆ chamado regi˜ao de confian¸ca:

D∆={d ∈ Rn| kdk ≤ ∆},

com ∆ o raio da bola e k · k uma norma qualquer em Rn.

Desta forma a cada itera¸c˜ao k do m´etodo de regi˜ao de confian¸ca formulamos o sub-problema:

minimizar mk(d)

sujeito a kdk ≤ ∆. (2.2) Este problema tem solu¸c˜ao ´unica, sempre que n˜ao ocorra o “caso dif´ıcil”, descrito em Nocedal [25] e comentado a seguir. Supondo que a solu¸c˜ao de (2.2) seja ´unica , esta ´e o passo de regi˜ao de confian¸ca e ser´a denotada por d(xk, ∆), com

dependˆencia de ∆ j´a que ao alterarmos o raio ∆ a dire¸c˜ao do passo ´e alterada. O ponto ¯x = xk+ d(xk, ∆) seria uma boa aproxima¸c˜ao do minimizador de f na regi˜ao

D∆.

Al´em do seu tamanho outra caracter´ıstica importante da regi˜ao ´e seu for-mato que depende da norma utilizada. Ao usarmos a norma ℓ∞, D∆ ´e uma caixa

de arestas de comprimento 2∆. O formato de caixa se destaca em rela¸c˜ao `a bola euclidiana pelo seu tamanho em rela¸c˜ao a ela. Al´em disso, em problemas restritos o formato da regi˜ao de confian¸ca pode ser definido de maneira a adaptar-se `as res-tri¸c˜oes do problema. Assim em problema com resres-tri¸c˜oes do tipo caixa pode-se usar a norma ℓ∞.

No entanto a minimiza¸c˜ao na caixa ´e mais dif´ıcil do que a minimiza¸c˜ao na bola. M´etodos de regi˜ao de confian¸ca do tipo caixa foram estudados e implementados pela equipe de Otimiza¸c˜ao da UNICAMP no Brasil, coordenada por J. M. Mart´ınez [23].

(20)

Neste trabalho pretendemos estudar a minimiza¸c˜ao em caixas sujeita ainda a uma variedade linear, o que torna o problema mais complexo; um problema geral de programa¸c˜ao quadr´atica com restri¸c˜oes n˜ao lineares.

Para simplificar, iniciamos o estudo com regi˜oes esf´ericas e c´ubicas, que ser˜ao posteriormente generalizadas para regi˜oes elipsoidais e caixas quaisquer.

O algoritmo

Considere xk o ponto corrente tal que

∇f(xk)

6= 0 e d(xk, ∆) a solu¸c˜ao do

sub-problema (2.2) formulado na k-´esima itera¸c˜ao. O crit´erio usualmente estabele-cido para avaliar a solu¸c˜ao d(xk, ∆) ´e baseado nas defini¸c˜oes a seguir,

• Redu¸c˜ao prevista pelo modelo: pred(xk, ∆) =

−mk(d(xk, ∆)) > 0.

• Redu¸c˜ao efetiva da fun¸c˜ao:

ared(xk, ∆) = f (xk)− f(xk+ d(xk, ∆)).

• A rela¸c˜ao entre as duas redu¸c˜oes, na k-´esima itera¸c˜ao ´e dada por

ρ = ared pred.

O valor de ρ informa se o modelo quadr´atico representa bem a fun¸c˜ao na regi˜ao D∆. A condi¸c˜ao de aceita¸c˜ao do passo pode ser escrita como

ared≥ α pred ou seja ρ ≥ α.

Em implementa¸c˜oes ´e usual estabelecer α = 10−4. Para an´alise pode-se fazer

α = 0.25, por exemplo [25].

Podemos observar que como d(xk, ∆) ´e obtido minimizando o modelo m k

em uma regi˜ao que inclui a dire¸c˜ao d = 0, a redu¸c˜ao prevista sempre ser´a positiva. Desta forma se ρ ´e negativo, f (x + d(xk, ∆)) ´e maior do que o valor corrente f (xk)

(21)

Apresentamos a seguir o algoritmo de regi˜ao de confian¸ca. Algoritmo 2.1.1 Regi˜ao de confian¸ca

Dados: x0 ∈ Rn, β, α∈ (0, 1) fixos e ∆ > 0. ( Por exemplo, α = 0.25, β = 0.25 )

k = 0 enquanto k∇f(xk)k 6= 0 Construa o modelo d7→ mk(d) = ∇f(xk) T d +1 2d TB kd. repita

Calcule d = d(xk, ∆), solu¸c˜ao de:

minimizar mk(h) sujeito a khk ≤ ∆. ared = f (xk)− f(xk+ d) pred =−mk(d) ρ = ared/pred Se ρ < α , fa¸ca ∆ = β∆. At´e que ρ≥ α xk+1 = xk+ d. k = k + 1 Fim.

A defini¸c˜ao do raio ∆ inicial em cada itera¸c˜ao pode ser feita da seguinte forma: para evitar raios demasiadamente pequenos “herdados” da itera¸c˜ao anterior, ∆ ´e tomado maior que um valor m´ınimo fixado ∆min. Al´em disso, pode-se considerar

o sucesso da itera¸c˜ao anterior. Se ρ for pr´oximo de 1 (ρ > 0.75), o modelo ´e bom e pode-se expandir a regi˜ao de confian¸ca. Se ρ for pr´oximo de zero (ρ < 0.25) ent˜ao a regi˜ao deve ser reduzida na pr´oxima itera¸c˜ao. Se ρ for positivo mas n˜ao pr´oximo de zero (0.25 < ρ < 0.75) o raio permanece inalterado.

2.2

Regi˜

ao de confian¸ca e a busca de Armijo

A seguir descreveremos brevemente a popular busca unidirecional de Armijo para em seguida apresentarmos a rela¸c˜ao entre este m´etodo e o m´etodo de regi˜ao de

(22)

confian¸ca.

2.2.1

Busca de Armijo

Considere o problema de minimiza¸c˜ao de uma fun¸c˜ao f : Rn → R de classe

C2 a partir de um ponto xk ∈ Rn e uma dire¸c˜ao d ∈ Rn. O m´etodo de busca de Armijo visa uma boa redu¸c˜ao da fun¸c˜ao na dire¸c˜ao d, n˜ao tenta resolver o problema proposto.

Dados xk, d e ¯∆ o algoritmo busca λ∈ [0, ¯∆] tal que f (xk+ λd) < f (xk).

A condi¸c˜ao que determina se a redu¸c˜ao ´e suficiente ´e a seguinte desigualdade

f (xk+ λd)

≤ f(xk) + ηλ

∇f(xk)Td, (2.3)

para alguma constante η∈ (0, 1).

A desigualdade (2.3) ´e chamada a “condi¸c˜ao de Armijo”.

O algoritmo que determina λ ´e simples. Inicia com λ = ¯∆ e reduz λ at´e encontrar um ponto aceit´avel.

Algoritmo 2.2.1 Busca de Armijo

Dados: x, d, ¯∆ e f′(x, d) =∇f(x)Td, η, β ∈ (0, 1), por exemplo η = β = 0, 5.

λ = ¯∆

enquanto f (x + λd) > f (x) + ηλf′(x, d)

λ = βλ fim

´

E poss´ıvel melhorar o algoritmo permitindo que λ aumente quando λ = ¯∆ ´e aceit´avel, mas isso raramente ´e feito.

Regi˜ao de Confian¸ca com modelo linear e Armijo

Vamos supor que em vez do modelo quadr´atico no m´etodo de regi˜ao de confian¸ca usemos o modelo linear, ou seja, Bk = 0.

(23)

Assim o modelo mk em torno do ponto xk ´e dado por

mk(d) =∇f(xk)Td.

Como o modelo ´e linear o ponto que minimiza o modelo na regi˜ao de raio λ ´e o ponto xk+ λh onde h = ∇f(x

k)

k∇f(xk)k, ou equivalentemente, d(x

k, ∆) = λh. O

m´etodo de regi˜ao de confian¸ca exige que seja satisfeita a condi¸c˜ao ared d(xk, λ)

α pred d(xk, λ), que pode ser reescrita como

f (xk+ λd)

≤ f(xk) + αλ

∇f(xk)Td,

que ´e exatamente a condi¸c˜ao de Armijo (2.3). Ou seja, para o caso do modelo linear o m´etodo de regi˜ao de confian¸ca coincide com a busca de Armijo.

2.3

Convergˆ

encia global

Nos m´etodos de regi˜ao de confian¸ca, apesar de estarmos procurando a solu¸c˜ao ´otima do sub-problema (2.2), ´e suficiente para se ter convergˆencia global que a cada itera¸c˜ao k, o ponto xk+1 = xk + d(xk, ∆

k) esteja dentro da regi˜ao de

confian¸ca e que forne¸ca uma redu¸c˜ao suficiente no modelo. Esta redu¸c˜ao pode ser quantificada em termos do ponto de Cauchy denotado na k-´esima itera¸c˜ao por dc

k e

definido a seguir.

O ponto de Cauchy ´e definido como minimizador de mk ao longo da dire¸c˜ao

oposta ao gradiente ∇f(xk) na regi˜ao de confian¸ca D

∆. Dependendo da curvatura

do modelo pode estar no interior ou na fronteira da regi˜ao de confian¸ca, como mostra figura 2.1.

(24)

0 0 1 1 0 0 1 1 xk ponto de Cauchy

(a) minimizador do modelo convexo interior `a regi˜ao

xk

ponto de Cauchy

(b) minimizador do modelo convexo exterior `a regi˜ao

0 0 1 1 0 0 1 1 xk ponto de Cauchy (c) minimizador do mo-delo indefinido interior `a regi˜ao

Figura 2.1: Ponto de Cauchy.

O ponto de Cauchy ´e expresso por dc

k =−αc∆

∇f(xk)

k∇f(xk)k com α

c = 1 quando

o minimizador esta na fronteira e

αc = k∇f(xk)k3

∇f(xk)TB

k∇f(xk)

quando o minimizador for interior a regi˜ao, veja [25].

A figura 2.2 mostra o ponto de Cauchy numa itera¸c˜ao k. As elipses re-presentam as curvas de n´ıvel do modelo mk(·). A ´area hachurada corresponde ao

conjunto de pontos que satisfazem −mk(d(xk))≥ −mk(dck)).

xk

x f( )xk

c k

Figura 2.2: Ponto de Cauchy

Uma estimativa para a redu¸c˜ao obtida no modelo m com uma solu¸c˜ao apro-ximada d(xk, ∆) ´e:

(25)

−mk(d(xk, ∆))≥ c1 k∇f(xk)k min  ∆,k∇f(x k)k kBkk  (2.4) onde c1 ∈ [0, 1) ´e uma constante. Esta estimativa considera que a redu¸c˜ao obtida

no modelo ´e proporcional ao tamanho do passo e ao gradiente.

O ponto de Cauchy satisfaz (2.4) com c1 = 1/2. Este resultado esta

demons-trado em [25].

Toda solu¸c˜ao aproximada d(xk, ∆

k) que proporcione uma redu¸c˜ao no modelo

igual ou superior `a redu¸c˜ao obtida com o ponto de Cauchy, mk(d(xk, ∆k))≤ mk(dkc)

satisfaz (2.4) com c1 = 1/2.

2.4

O problema quadr´

atico e as duas trajet´

orias:

Trajet´

oria de Levenberg-Marquardt e a

Tra-jet´

oria Central

Esta ´e a se¸c˜ao principal deste cap´ıtulo, onde definimos as duas trajet´orias: a trajet´oria de Levenberg-Marquardt e a trajet´oria central. Isto ser´a feito a partir do estudo do sub-problema quadr´atico a ser resolvido na k-´esima itera¸c˜ao do m´etodo de regi˜ao de confian¸ca: minimizar mk(d) =∇f(xk)Td + 1 2d TB kd sujeito a kdk ≤ ∆. (2.5)

Como a fun¸c˜ao mk(·) ´e cont´ınua e D∆={d ∈ Rn| kdk ≤ ∆} ´e um conjunto

fechado e limitado garantimos que este problema sempre tem solu¸c˜ao.

O estudo ´e feito de forma independente das demais se¸c˜oes deste cap´ıtulo usando a nota¸c˜ao comum em problemas de otimiza¸c˜ao com fun¸c˜ao objetivo quadr´atica

x∈ Rn 7→ q(x) = cTx +1 2x

T

(26)

Temos como hip´otese H sim´etrica semidefinida positiva.

No problema (2.5) q representa a varia¸c˜ao do modelo quadr´atido de f em um ponto xk.

O problema a ser estudado ´e

minimizar cTx +1 2x T Hx sujeito a kxk ≤ ∆ (2.6)

Trajet´oria de Levenberg-Marquardt

A trajet´oria de Levenberg-Marquardt surge do estudo do problema (2.6) utilizando a restri¸c˜ao de bola euclidiana, que denotamos por

B={x ∈ Rn | kxk

2 ≤ ∆}.

Consideremos o seguinte problema irrestrito:

Consideremos os seguintes problemas restrito e irrestrito:

(P∆) minimizar q(x) sujeito a kxk ≤ ∆ (P Qµ) minimizar qµ(x) = q(x) + µkxk 2 2 x∈ Rn , µ ≥ 0.

O teorema a seguir relaciona (P∆) e (P Qµ). Este teorema ´e demonstrado em v´arias

referˆencias, por exemplo [25]. Para o nosso tratamento ficar completo, fazemos a demonstra¸c˜ao para o caso convexo, que ´e mais simples.

Teorema 2.4.1 ¯x ´e solu¸c˜ao de (P∆) se e s´o se existe µ ≥ 0 tal que ¯x ´e ´unica

(27)

Prova: (⇒) Suponhamos ∆ > 0 e ¯x solu¸c˜ao de (P∆). Logo existe µ≥ 0 tal que

(H + µI)¯x = −c (2.7)

µ(∆− k¯xk) = 0 (2.8)

k¯xk ≤ ∆ (2.9)

µ≥ 0. (2.10)

A condi¸c˜ao (2.8) significa ou ¯x ´e minimizador global de q(·) e k¯xk ≤ ∆ (caso µ = 0) ou k¯xk = ∆.

O segundo caso ocorre quando a restri¸c˜ao k¯xk ≤ ∆ ´e ativa e µ > 0.

Como para µ > 0 ¯x satisfaz (2.7), que ´e a condi¸c˜ao necess´aria de otimalidade de (P Qµ) e (H + µI) ´e definida positiva, segue que ¯x ´e solu¸c˜ao de (P Qµ) com

k¯xk = ∆.

(⇐) Por outro lado, dado µ > 0 definimos xµ o (´unico) minimizador de qµ(·) e

∆µ =kxµk, satisfazendo ∀x ∈ Rn , q(x) +µ 2kxk 2 ≤ q(x) +µ 2kxµk 2.

A desigualdade vale em particular parakxk ≤ ∆µ, x6= xµ:

q(x) > q(xµ) + µ 2(kxµk 2 − kxk2) = q(xµ) + µ 2(∆ 2 µ− kxk2), ou seja , q(x) > q(xµ).

Portanto xµ ´e solu¸c˜ao ´unica de (P∆) com ∆ = ∆µ 2

De acordo com o teorema para resolver (P∆) quando o ponto de Newton

n˜ao ´e vi´avel ou n˜ao existe pode-se usar (P Qµ): devemos encontrar µ > 0 tal que a

solu¸c˜ao xµ encontrada para (P Qµ) satisfa¸ca kxµk = ∆. Isso ´e feito por tentativas:

(28)

xµ e kxµk ´e dada pelo seguinte teorema:

Teorema 2.4.2 Consideremos os pontos xµ1, xµ2 para 0 < µ1 < µ2. Temoskxµ2k ≤

kxµ1k.

Prova: Como xµi minimiza qµi, i = 1, 2

q(xµ1) + µ1kxµ1k2 ≤ q(xµ2) + µ1kxµ2k2 e q(xµ2) + µ2kxµ2k2 ≤ q(xµ1) + µ2kxµ1k2. Subtraindo (µ2 − µ1)kxµ1k 2 ≥ (µ2 − µ1)kxµ2k 2 e como (µ2 − µ1) > 0 kxµ1k 2 ≥ kx µ2k 2. 2 Portanto quando µ decresce os pontos xµ correspondem a solu¸c˜oes de (P∆)

para raios ∆ crescentes. Para problemas de grande porte existem m´etodos muito eficientes computacionalmente para resolver (P∆) de forma aproximada, como

Dog-Leg e o m´etodo de Steinhaug, [25].

Notemos que para cada µ ∈ (0, +∞) existe uma ´unica solu¸c˜ao xµ. Os

pontos xµ descrevem a curva

µ∈ (0, +∞) 7→ χ(µ) := argminnq(x) +µ 2kxµk

2o,

chamada caminho de Levenberg-Marquardt.

Por constru¸c˜ao, esta trajet´oria coincide com a trajet´oria ∆∈ [0, +∞) → d∆

(29)

Busca curvil´ınea. Da discuss˜ao acima conclu´ımos que o passo de regi˜ao de con-fian¸ca ´e o resultado de uma busca sobre a trajet´oria de Levenberg-Marquardt, com a mesma formula¸c˜ao do m´etodo de Armijo, substituindo o modelo quadr´atico pelo linear .

Caso dif´ıcil. Definimos λ1, λ2, . . . , λn autovalores de H em ordem crescente e

v1, v2, . . . , vnautovetores correspondentes. O caso dif´ıcil ocorre quando −λ1 = µ, ou

seja, (H + µI) ´e semidefinida positiva, e o vetor c ´e ortogonal ao subespa¸co gerado pelos autovetores associados a λ1 = −µ. Neste caso o problema (P Qµ) tem uma

variedade linear de minimizadores que s˜ao solu¸c˜oes de (H + µI)x =−c. Se µ > −λ1,

ent˜ao a solu¸c˜ao ´e ´unica e podemos definir o caminho de Levenberg-Marquardt para µ >−λ1. Neste trabalho estamos supondo λ1 > 0.

O lema a seguir mostra que para µ→ +∞, xµ tende a um passo na dire¸c˜ao

de Cauchy.

Lema 1 : Para µ→ +∞, temos que ∆ → 0 e xµ kxµk →

−c

kck (dire¸c˜ao de Cauchy). Prova: Para qualquer µ > 0, temos que xµ satisfaz

(H + µI)xµ=−c

ou

µxµ=−c − Hxµ.

Pelo teorema anterior, xµ ´e limitado. O lado direito ´e limitado. Ent˜ao

µxµ ´e limitado. Concluimos que lim

µ→+∞xµ = 0, limµ→+∞Hxµ = 0 e limµ→+∞µxµ = −c.

Dividindo por µkxµk e tomando limite para

xµ kxµk =− c µkxµk− Hxµ µkxµk , temos lim µ→+∞ xµ kxµk = c kck. 2

(30)

2.5

Trajet´

oria ´

Otima para regi˜

oes tipo caixa

A trajet´oria central ser´a definida a partir do problema (2.6) com a norma ℓ∞, (PB) minimizar cTx + 1 2x T Hx sujeito a kxk∞≤ ∆ (2.11)

Como j´a comentamos o interesse neste problema esta no fato de que D∆=

{x ∈ Rn| −∆e ≤ x ≤ ∆e} tem o formato que se adapta a problemas com restri¸c˜oes

do tipo caixa, muito comuns em problemas pr´aticos, e al´em disso, tem tamanho maior do que a bola euclidiana.

No algoritmo de regi˜ao de confian¸ca cl´assico cada itera¸c˜ao determina um minimizador do modelo em uma regi˜ao onde se sup˜oe que este ´e confi´avel; caso n˜ao o seja confi´avel deve-se reduzir o tamanho da regi˜ao e determinar novo minimizador. No caso de caixas, o problema de minimiza¸c˜ao a ser resolvido ´e um problema de programa¸c˜ao quadr´atica geral.

Temos ent˜ao dois m´etodos: um com bolas euclidianas que ´e eficiente e con-vergente, mas usa regi˜oes pequenas e ´e pouco aplic´avel a problemas com restri¸c˜oes. Um algoritmo ideal ´e uma busca curvil´ınea ao longo da Trajet´oria de Levenberg. A presen¸ca de restri¸c˜oes lineares afeta pouco a sua implementa¸c˜ao. Temos um m´etodo baseado em caixas, com alto custo computacional porque cada itera¸c˜ao deve resolver um problema de programa¸c˜ao quadr´atica geral. Vamos desenvolver um m´etodo in-termedi´ario, com regi˜oes de confian¸ca que evoluem continuamente de pequenas bolas e tendem `a caixa completa: as regi˜oes s˜ao definidas pela fun¸c˜ao barreira logar´ıtmica.

Fun¸c˜ao Barreira Logar´ıtmica

Considere uma caixa fixa dada por kxk∞ ≤ ∆. Nesta se¸c˜ao vamos usar

∆ = 1 e as seguintes nota¸c˜oes:

(31)

em que e = [1, 1, . . . , 1].

A fun¸c˜ao barreira logar´ıtmica associada a caixa V ´e definida por

x∈ V◦ 7→ p(x) = −1 2 n X i=1 log(xi + 1) + log(1− xi).

Por outro lado p(x) = −1 2log

n

Y

i=1

(xi + 1)(1− xi). Da´ı conclui-se que se

o valor de alguma das restri¸c˜oes estiver pr´oximo de um, ou seja, x pr´oximo da fronteira da caixa V, o produt´orio fica pr´oximo de zero e conseq¨uentemente p(x) cresce indefinidamente, fato que motiva o seu nome de barreira. Foi usada pela primeira vez em otimiza¸c˜ao por Frisch [10] em 1955.

Centro Anal´ıtico. Vimos que ao nos aproximarmos internamente da fronteira de V, p cresce indefinidamente. Como V ´e limitado, conclu´ımos que a fun¸c˜ao p possui minimizador no interior da caixa. De fato, as derivadas de p(x) s˜ao:

[∇p(x)]i =− 1 xi+ 1 + 1 1− xi , ∇2p(x) = diag  1 (xi+ 1)2 + 1 (1− xi)2  > I,

e conclu´ımos que ∇2p(x) ´e definida positiva e tem como ´unico minimizador o ponto

x = 0, uma vez que ∇p(0) = 0.

O ponto que minimiza p foi definido por Sonnevend [31] como o centro anal´ıtico de V.

Trajet´oria Central

Dado µ > 0, define-se a fun¸c˜ao penalizada associada a (PB) por

x∈ V→ pµ(x) = q(x) + µp(x)

e o problema penalizado como

(P Pµ)

minimizar pµ(x)

sujeito a x∈ V◦.

(32)

fronteira do conjunto compacto V e 2p

µ(x) = H + µ∇2p(x) > H + µI > 0.

Portanto existe ´unico ponto xµ que resolve (2.5) e xµ ´e chamado ponto central. O

mapeamento ponto conjunto

µ∈ R++ 7→ χ(µ) := argmin {pµ(x) | x ∈ V◦}

define a curva denominada de trajet´oria central .

Vamos mostrar que o problema (P Qµ) est´a relacionado com o seguinte

problema restrito:

(PK)

minimizar q(x) sujeito a p(x)≤ K, K∈ R.

Teorema 2.5.1 Suponha que q(·) ´e convexa e xK solu¸c˜ao de (PK). Ent˜ao xK ´e

solu¸c˜ao de (PK) se e s´o se existe µ≥ 0 tal que xK´e solu¸c˜ao de (2.5) com p(x) = K.

Prova: (⇒) Suponha que xK´e solu¸c˜ao de (PK) ent˜ao existe µ≥ 0 tal que

∇q(xK) + µ∇p(xK) = 0

µ(K− p(xK)) = 0

p(xK) ≤ K

µ ≥ 0

A condi¸c˜ao µ(K− p(xK)) = 0 significa ou xK´e minimizador global de q e

p(xK) ≤ K (caso µ = 0) ou p(xK) = K. O segundo caso ocorre quando a restri¸c˜ao

p(xK)≤ K ´e ativa e µ > 0.

Observemos que para µ > 0, xK satisfaz a primeira condi¸c˜ao de KKT, que

coincide com a condi¸c˜ao necess´aria de otimalidade para (P Pµ). Como H +µ∇2p(xK)

´e definida positiva segue que xK´e solu¸c˜ao ´unica de (P Pµ).

(⇐) Por outro lado, considere µ > 0 e xµo (´unico) minimizador de pµ(·), satisfazendo

(33)

A desigualdade vale em particular para x tal que p(x)≤ p(xµ) = K, x6= xµ:

q(x) > q(xµ) + µ(p(xµ)− p(x)) = q(xµ) +

µ

2(K− p(x)) q(x) > q(xµ).

Portanto xµ ´e minimizador ´unico de q no conjunto {x ∈ V◦ | p(x) ≤ K}. 2

De acordo com o teorema, se um ponto xµpertence a trajet´oria central, xµ´e

solu¸c˜ao do problema quadr´atico restrito ao conjunto VK={x ∈ V◦| p(x) ≤ K} para

algum K ∈ R}. Portanto ao percorrermos a trajet´oria central estamos resolvendo problemas restritos aos conjuntos VKpara valores diferentes de K.

O teorema a seguir determina como ocorre a varia¸c˜ao de p(xµ) = K ao

variarmos µ.

Teorema 2.5.2 Consideremos os pontos xµ1, xµ2 para µ1 < µ2 < +∞ solu¸c˜oes dos

problemas penalizados (P Pµ). Temos que p(xµ1) = K1 < K2 = p(xµ2).

Prova: Como xµ1 ´e solu¸c˜ao de (P Pµ1)

q(xµ1) + µ1p(xµ1) < q(xµ2) + µ1p(xµ2).

Da mesma forma, como xµ2 ´e solu¸c˜ao de (P Pµ2)

q(xµ1) + µ2p(xµ1) > q(xµ2) + µ2p(xµ2).

Subtraindo as duas desigualdades obtemos

(µ1 − µ2)p(xµ1) < (µ1 − µ2)p(xµ2).

Como (µ1 − µ2) > 0 segue que

(34)

Ou K1 < K2. 2

2.6

Compara¸c˜

ao entre os m´

etodos

No caso de regi˜oes de confian¸ca do tipo B∆ uma itera¸c˜ao do algoritmo faz

uma busca na trajet´oria de Levenberg-Marquardt: se o modelo n˜ao ´e confi´avel reduz ∆ (ou aumenta-se µ) at´e o modelo ser confi´avel. No caso de regi˜oes tipo caixa, vamos seguir a trajet´oria central a partir do centro anal´ıtico que coincide com o ponto a partir do qual o modelo foi constru´ıdo e percorrer a trajet´oria (aumentando e reduzindo µ) at´e o modelo deixar de ser confi´avel. Desta forma as regi˜oes de confian¸ca s˜ao os conjuntos VK. Na se¸c˜ao 2.8 escrevemos um algoritmo completo,

incluindo a escolha do tamanho das caixas.

Os conjuntos B∆ e VK

Nesta se¸c˜ao apresentamos dois lemas importantes que relacionam os con-juntos B∆ e VKe caracterizam o comportamento entre as duas trajet´orias.

Esses dois lemas foram formulados a partir do estudo da rela¸c˜ao entre as fun¸c˜oes: p(x) e kxk

2

2 .

Considere x∈ V. Temos que p(x) = −1 2

n

X

i=1

log(xi+ 1) + log(1− xi). Vamos

expandir cada parcela em s´erie de Taylor: definimos para i = 1, ...n

pi(xi) =−

1

2log(xi+ 1) + log(1− xi). Sabemos que para|xi| < 1,

log(1 + xi) = xi− x2 i 2 + x3 i 3 − . . . .

Portanto a expans˜ao de p em torno de 0 em cada componente ´e dada por :

pi(xi) = x2i 2 + x4i 4 + x6i 6 +·· ≥ x2i 2 (2.12)

(35)

e p(x) = kxk 2 2 2 + kxk4 4 4 + kxk6 6 6 + . . .≥ kxk2 2 2 (2.13)

Podemos obter a express˜ao para a derivada p′

i(xi),

p′i(xi) = xi+ x3i + x5i +··,

∇p(x) = x + x2+ x3+ . . . ; e a segunda derivada para cada i,

p′′i(xi) = 1 + 3x2i + 5x5i +·· > 1 + 3x2i > 1 para todo xi 6= 0. (2.14)

Ao definirmos X = diag(x) obtemos

∇2p(x) = I + 3X2+ 5X5+ . . . > I + 3X2 > 1 para x 6= 0. Conclu´ımos de (2.13) que p(x) kxk

2

2 , para todo x ∈ V

.

Por (2.12) p cresce mais do que kxk

2

2 perto de zero.

De (2.14) conclu´ımos que pr´oximo de zero a hessiana ´e pr´oxima da identidade.

Lema 2 Consideremos ∆ > 0. Para K≤ ∆

2

2 , V⊂ B∆. Prova: Consideremos x ∈ Rn tal que x ∈ V

K. Temos que p(x) ≤ K ≤

∆2

2 . Como kxk2

2 ≤ p(x) segue que kxk ≤ ∆. Logo x ∈ B∆. 2 Lema 3 Consideremos x∈ Rn tal que kxk ≤ 1

2. Ent˜ao kxk2 2 2 ≤ p(x) ≤ 7 6 kxk2 2 2 Se ∆ 1 2, ent˜ao para K = ∆2 2 e ∆ ′ =r 6 7∆ B⊃ VK⊃ B ∆′

(36)

Prova: Ao expandirmos a fun¸c˜ao p em s´erie de Taylor obtemos que a i-´esima componente de p(x) ´e dada por:

pi(xi) = x2 i 2 + x4 i 4 + x6 i 6 +·· ≤ x2 i 2 + x4 i 4 (1 + x 2 i + x4i +· · ·). Como |xi| < 1, pi(xi)≤ x2 i 2 + x4 i 4 1 (1− x2 i) ≤ x 2 i 2 + x4 i 4  1 1− kxk2 ∞  . Logo p(x)≤ kxk 2 2 2 + kxk4 4 4  1 1− kxk2 ∞  e comokxk4

4 ≤ kxk22 para x tal que kxk∞< 1,

p(x) kxk 2 2 2  1 + kxk 2 2 2(1− kxk2 ∞)  . Parakxk ≤ 1 2 temos p(x) 7 6 kxk2 2 2 , por outro lado, de acordo com (2.13)

p(x) kxk

2 2

2 .

A segunda afirma¸c˜ao do lema segue diretamente da primeira, pelo racioc´ınio

usado no lema 2. 2

Conclu´ımos que quando ∆ ´e pequeno e K = ∆

2

2 as regi˜oes B∆ e VK s˜ao muito semelhantes. `A medida que ∆ cresce elas se afastam, com VK tendendo `a

(37)

Figura 2.3: Regi˜oes de confian¸ca e trajet´orias.

2.7

Generaliza¸c˜

ao

Vamos considerar o problema de regi˜ao de confian¸ca em caixas gerais:

Vv ={x ∈ Rn | − v ≤ x ≤ v}, com v ∈ Rn

++, e interior ◦

Vv. Definimos V = diag(v) e a fun¸c˜ao barreira para Vv,

−v < x < v 7→ pv(x) =− 1 2 n X i=1 log(vi− xi) + log(vi+ xi).

Vamos definir tamb´em as regi˜oes elipsoidais (elips´oides de Dikin) para ∆ > 0. Bv ∆ ={x ∈ Rn | kV−1xk ≤ ∆} e as regi˜oes para K > 0 VvK={x ∈ Vv | pv(x)− pv(0)≤ K}. Note que B∆= Be∆ e VK= VeK.

(38)

Lema 4 Nas condi¸c˜oes acima, temos: (i) x ∈ Vv se e s´o se k¯xk∞≤ 1 (ii) x∈ Bv ∆ se e s´o se ¯x∈ B∆ (iii) ( ∀x ∈V◦v) p v(x)− pv(0) = p(¯x). (iv) x∈ Vv Kse e s´o se ¯x∈ VK (v) x∗ minimiza q(x) em Bv ∆ se e s´o se ¯x∗ minimiza q(V ¯x) em B∆ (vi) x∗ minimiza q(x) + µp v(x) em Vv se e s´o se ¯x∗ minimiza q(V ¯x) + µp(x) em V.

Prova: (i) e (ii) s˜ao triviais. (iii) Para x V◦v, log(v

i− xi) = log vi + log  1xi vi  . Somando, pv(x) =− 1 2 " 2 n X i=1 log vi+ + n X 1=1 log(1− ¯xi) + n X i=1 log(1 + ¯xi) # . O resultado segue de pv(x)(0) =−Pni=1log vi.

(iv), (v) e (vi) seguem trivialmente de (i) a (iii) por mudan¸ca de vari´aveis. 2

Conclus˜ao

Para o m´etodo de regi˜oes de confian¸ca tradicional, as regi˜oes Bv

∆ s˜ao os

elips´oides de Dikin associados ao centro da caixa. Para o m´etodo de regi˜ao de con-fian¸ca definidas por pv, basta fazer uma busca curvil´ınea sobre a trajet´oria central,

o que ´e equivalente a fazer uma mudan¸ca de escala e seguir a trajet´oria definida por kxk∞≤ 1.

2.8

Algoritmos de regi˜

oes de confian¸ca definidas

pela barreira

Vamos descrever uma itera¸c˜ao do algoritmo, usando caixas definidas por kdk∞ ≤ ∆. A itera¸c˜ao faz uma busca do tipo Armijo sobre a trajet´oria central

(39)

Figura 2.4: Regioes de confian¸ca e trajet´orias no caso geral.

na caixa, reduzindo o parˆametro µ enquanto µ > ε e ared(dµ) > αpred(dµ), com

α = 0.5, (por exemplo) e ε uma precis˜ao para o algoritmo de trajet´oria. ´

E necess´ario discutir dois pontos:

(i) O algoritmo de trajet´oria central: usaremos m´etodos primais-duais, discutidos no cap´ıtulo 3.

(ii) A inicializa¸c˜ao do algoritmo: este ´e um ponto muito delicado, que foi resolvido na tese de R. Behling [1] e ser´a descrito no cap´ıtulo seguinte. Vimos que os conjuntos B∆ e VK s˜ao muito semelhantes para um raio ∆ menor ou igual a

2. Desta forma ´e natural que um ponto inicial para seguir a trajet´oria central possa ser dado pela solu¸c˜ao dµ do problema de regi˜ao de confian¸ca usando

B. Resultado surpreendente ´e obtido na tese de R. Behling. Prova-se que o µ associado a dµ na trajet´oria de Levenberg- Marquardt ´e o µ associado ao

ponto da trajet´oria central xµ pr´oximo de dµ.

Notemos ainda que como dµ ´e obtido de um problema de regi˜ao de confian¸ca

pode ocorrer que ared(dµ) < αpred(dµ). Neste caso ∆ ´e reduzido e faz-se o

m´etodo tradicional de regi˜ao de confian¸ca.

Apresentamos a seguir uma itera¸c˜ao do algoritmo de regi˜ao de confian¸ca.

Algoritmo 2.8.1 Regi˜ao de confian¸ca baseado na fun¸c˜ao barreira

Dados: x0 ∈ Rn, α

∈ (0, 1) fixo , ε e ∆ > 0 ( Por exemplo, α = 0.25, ∆ = 1.) k = 0

(40)

enquanto k∇f(xk)k 6= 0 Construa o modelo d7→ mk(d) = ∇f(xk) T d +1 2d TH kd. Calcule dµ = argmin  mk(d) | kdk ≤ ∆ 2  e obtenha µ0 multiplicador de Lagrange se ared(dµ)≤ αpred(dµ)

siga a trajet´oria de Levenberg-Marquardt para µ ∈ (µ0, +∞)

sen˜ao

siga a trajet´oria central com µ < µ0 at´e encontrar um ponto d µ

com ared(dµ)≤ αpred(dµ) ou µ≤ ε

k = k + 1 Fim.

A figura 2.5 ilustra uma itera¸c˜ao do algoritmo. A trajet´oria de Levenberg-Marquardt est´a em vermelho e a trajet´oria central est´a em azul. Para um raio menor ou igual a 1/2 as trajet´orias s˜ao muito parecidas. Determinamos um ponto inicial na trajet´oria de Levenberg-Marquardt, se o modelo for confi´avel neste ponto abandonamos esta e seguimos a central. Podemos dizer que no algoritmo de regi˜ao de confian¸ca proposto seguimos uma trajet´oria h´ıbrida.

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2

(41)

Determina¸c˜ao de ∆ para a itera¸c˜ao seguinte: seja d aceito.

• Se ared(d) > βpred(d), com β ∈ (α, 1), (por exemplo, β = 0.75) aumentar ∆ com ∆ = 2kdk

• Sen˜ao, fazer ∆ = min{∆, γkdk∞}, com γ > 1 (por exemplo, γ = 1.5.)

No caso de uma caixa qualquer [l, u] ={x ∈ Rn | l ≤ x ≤ u}, definimos

o vetor v = u− l

2 e V = diag(v). Com a mudan¸ca de escala x = V ¯z aplicamos o lema anterior. Deve-se minimizar m(V ¯z) na bola {¯z ∈ Rn |¯z ≤ ∆/2} ou seguir a

trajet´oria (Levenberg-Marquardt ou central) na caixa [−e, e].

Restri¸c˜oes lineares. Suponhamos que restri¸c˜oes de igualdade Ax = b, A∈ Rm×n

de posto completo com m < n sejam adicionadas ao problema irrestrito (2.1). Neste caso, o problema de regi˜ao de confian¸ca em torno de um ponto xk tal que Axk = b

(42)

etodos de Pontos Interiores

Primais-Duais

Como o algoritmo de regi˜ao de confian¸ca proposto nesta disserta¸c˜ao deve se-guir a trajet´oria central, o objetivo neste cap´ıtulo ´e apresentar um algoritmo primal-dual que gera pontos em uma vizinhan¸ca da trajet´oria, possibilitando a busca a ser feita no algoritmo 2.8.1.

Al´em do algoritmo, enunciamos o resultado obtido na disserta¸c˜ao de Behling [1], j´a introduzido na cap´ıtulo 2.

Antes de apresentarmos o algoritmo vamos revisar na primeira se¸c˜ao alguns conceitos sobre a teoria primal dual de pontos interiores, com base em Gonzaga [14] e nos livros de S.Wright [32], de Bonnans e outros [4], Nocedal e Wright [25].

3.1

Revis˜

ao de conceitos

O formato padr˜ao para o problema a ser resolvido neste cap´ıtulo ´e o pro-blema geral de programa¸c˜ao quadr´atica convexa com restri¸c˜oes lineares:

minimizar cTx +1 2x THx sujeito a Ax = b x≥ 0 (3.1)

(43)

com x, c∈ Rn, b ∈ Rm, A ∈ Rm×n e H ∈ Rn×n uma matriz sim´etrica semi-definida

positiva. Vamos supor que A tem posto completo.

3.1.1

Trajet´

oria Primal-Dual

A condi¸c˜ao necess´aria e suficiente de otimalidade (KKT) para o problema ´e: −Hx + AT y + s = c (3.2) Ax = b (3.3) x s = 0 (3.4) x, s≥ 0, (3.5)

em que x s denota o produto componente a componente dos vetores.

Para resolver (3.1) devemos encontrar (x, s, y) que resolvem as condi¸c˜oes de KKT. A dificuldade est´a em resolver (3.4), j´a que este ´e um problema combinat´orio. Obteremos um problema mais simples se relaxarmos a complementariedade fazendo para µ > 0 xisi = µ, i = 1, . . . n. −Hx + ATy + s = c (3.6) Ax = b (3.7) x s = µe (3.8) x, s > 0. (3.9)

O m´etodo primal-dual resolve aproximadamente as condi¸c˜oes de KKT re-laxadas. Com isso elimina-se o problema combinat´orio e as desigualdades passam a ser x, s > 0, definindo um conjunto aberto.

(44)

central associado ao parˆametro µ. Variando µ define-se a curva

C={(xµ, sµ, yµ)| µ > 0}, chamada trajet´oria central.

Para caracterizar um ponto central primal-dual ´e suficiente especificar (xµ, sµ),

uma vez que y ´e univocamente determinado por (3.6) com A de posto completo. Daqui em diante falaremos em solu¸c˜oes primais-duais (x, s). O ponto xµ´e chamado

parte primal, sµ ´e chamada parte dual, e o par (xµ, sµ) ´e chamado par primal dual.

Quando µ tende a zero a solu¸c˜ao do sistema de KKT relaxado tende a uma solu¸c˜ao do sistema de KKT exato, satisfazendo (3.4).

O lema a seguir relaciona a trajet´oria central primal dual com a trajet´oria primal definida no cap´ıtulo 2.

Lema 5 Dado µ > 0, xµ ´e um ponto central primal de (3.1) associado a µ se e s´o

se (xµ, sµ) ´e ponto central primal-dual associado a µ.

Ou seja, um ponto xµda trajet´oria central primal associado a um determinado µ > 0

´e a parte primal xµ do ponto central associado ao mesmo µ.

Vamos denotar por Γ o conjunto dos pares primais duais vi´aveis

Γ ={(x, s) ∈ R2n+ | Ax = b, −Hx + s + ATy = c, para algum y ∈ Rm} (3.10) e por Γ◦ o conjunto de pares primais duais interiores

(45)

3.1.2

Proximidade e

Vizinhan¸cas da Trajet´

oria Central

Os algoritmos de pontos interiores seguem a trajet´oria central ou alguma vizinhan¸ca dela. Dado µ > 0, queremos encontrar (x, s) tal que x s = µe. Podemos avaliar o desvio desta condi¸c˜ao por uma medida de proximidade.

Defini¸c˜ao 3.1.1 Dados um ponto (x, s) ∈ Γ◦ e µ > 0, a proximidade de (x, s) ao

ponto (xµ, sµ) ´e definida por

δ(x, s, µ) = x s µ − e .

Uma proximidade δ(x, s, µ) < α, com α∈ (0, 0.5) indica que (x, s) est´a pr´oximo ao ponto central associado a µ.

Frequentemente s˜ao dados x e s e procura-se um valor de µ tal que δ(x, s, µ) seja pequeno. Assim, dado (x, s)∈ Γo define-se a seguinte medida de proximidade

δ(x, s) = min µ>0 x s µ − e . (3.12)

A solu¸c˜ao deste problema resulta em

µ∗(x, s) = kx sk

2

xTs . (3.13)

Por´em, o valor de µ mais utilizado, muito pr´oximo deste, ´e dado pelo mini-mizador de δ(x, s) := min µ>0kx s − µek, dado por µ(x, s) = x Ts n . (3.14)

Em programa¸c˜ao linear e quadr´atica nµ(x, s) ´e o valor do gap de dualidade e em particular, em um ponto central, x s = µe, µ = xT

s n .

(46)

Isto justifica os algoritmos de trajet´oria central, que geram seq¨uˆencias (xk, sk, µk)

com µk→ 0.

Vizinhan¸cas da Trajet´oria Central

Dado α ∈ (0, 1), a vizinhan¸ca N(α) da trajet´oria central ´e definida pelo conjunto:

N(α) ={(x, s) ∈ Γ| δ(x, s, µ) ≤ α, para algum µ > 0}.

Vamos descrever um algoritmo que segue a trajet´oria central gerando pares primais-duais em N(α) para um dado α, por exemplo α = 0.5. Existem outras medidas de proximidade que geram vizinhan¸cas maiores:

δ(x, s, µ)∞ = x s µ − e ∞ e δ(x, s, µ)−∞= x s µ − e −∞ ,

com kyk−∞= max{|yi| : yi ≤ 0}. Apesar da nota¸c˜ao, k · k−∞ n˜ao ´e uma norma.

A vizinhan¸ca “menos infinito” ´e definida por

N−∞(α) ={(x, s) ∈ Γ◦ | δ(x, s, µ)−∞ ≤ α para algum µ > 0.} (3.15)

Para valores pequenos de (1− α) (um valor comum ´e 10−3), N

−∞ pode

englobar quase toda regi˜ao Γ◦. Desta maneira podemos redefinir N como

N−∞(α) ={(x, s) ∈ Γ◦ |

x s

µ ≥ (1 − α)e, µ > 0}.

Assim N−∞ ´e um conjunto muito maior do que N2. Mas em geral a teoria

de convergˆencia com N−∞ ´e muito mais complicada. A figura 3.1 ilustra as trˆes

(47)

C N2

N−∞

N∞

Figura 3.1: Compara¸c˜ao das vizinhan¸cas da trajet´oria central

3.2

Algoritmos:

Cada itera¸c˜ao de um algoritmo vi´avel primal-dual da trajet´oria central parte de um ponto (xk, sk, yk)

∈ Γ◦ e de um parˆametro µ > 0 satisfazendo uma medida

de proximidade δ(xk, sk, µk)≤ α para algum α fixo. Dado um parˆametro σ ∈ (0, 1)

o algoritmo faz itera¸c˜oes de Newton para encontrar aproximadamente o ponto da trajet´oria associado a σµ.

Passo de Newton

Vamos definir F (·) uma fun¸c˜ao vetorial definida pelas condi¸c˜oes de KKT relaxadas F (x, s, y) =      −Hx + ATy + s− c Ax− b XSe− σµe      (3.16)

para y ∈ Rm, x, s ∈ Rn, S e X denotam as matrizes cujas diagonais s˜ao dadas

pelos vetores s e x, respectivamente.

Vamos dar um passo de Newton para para a resolu¸c˜ao de F (x, s, y)=0 su-pondo que estamos saindo de um ponto (x, s, y) tal que (x, s) ∈ V. Para isso

(48)

precisamos resolver a equa¸c˜ao F′(x, s, y)(dx, ds, dy) = −F (x, s, y). (3.17) Temos que −F (x, s, y) =      0 0 σµe− XSe      ,

pois temos como hip´otese (x, s, y)∈ Γ◦. Substituindo em (3.17) obtemos em formato

matricial      −H I AT A 0 0 S X 0           dx ds dy      =      0 0 σµe− XSe      . (3.18)

A solu¸c˜ao (∆x, ∆s, ∆y) do sistema ´e o passo de Newton.

A itera¸c˜ao termina com uma busca ao longo da dire¸c˜ao de Newton tal que o novo ponto (xγ, sγ, yγ) := (x + γ∆x, s + γ∆s, y + γ∆y) perten¸ca a uma determinada

vizinhan¸ca da trajet´oria central, ou seja, satisfa¸ca δγ(xγ, sγ)≤ α, com

δγ(xγ, sγ) = xγsγ µγ − e , com µγ = xT γsγ n (3.19)

Os diversos algoritmos primais-duais de trajet´oria central diferem no c´alculo do passo γ, na escolha de σ a cada itera¸c˜ao, na forma de obter a dire¸c˜ao (dx, ds, dy)

e na vizinhan¸ca N(α) na qual os pontos devem permanecer.

A eficiˆencia dos algoritmos est´a baseada no seguinte teorema.

Teorema 3.2.1 Dados (x, s) ∈ Γ◦ e µ+ > 0 tais que δ(x, s, µ+) = δ < 1, seja

(x+, s+) o resultado de um passo de Newton para 3.18 a partir de (x, s). Ent˜ao

δ(x+, s+, µ+) 1

8 δ2

1− δ. Em particular, se δ ≤ 0.5, ent˜ao δ(x

+, s+, µ+)≤ δ2.

A demonstra¸c˜ao est´a feita em detalhes em [4]. Isto mostra que o passo de Newton ´e muito eficiente em uma ampla regi˜ao.

(49)

3.3

Algoritmo de passo mais longo

Existe uma vasta literatura sobre o passo primal-dual. A quest˜ao central ´e a escolha de σ: σ pequeno for¸ca um passo longo, mas o passo de Newton pode n˜ao ser aceit´avel; σ pr´oximo de 1 faz uma “centraliza¸c˜ao”, aproximando o ponto da trajet´oria central sem avan¸car.

Sabemos que o passo de Newton ´e eficiente se todos os pontos estiverem em uma regi˜ao “pr´oxima” da trajet´oria central. O m´etodo exposto adiante calcula a cada itera¸c˜ao o passo de Newton mais longo poss´ıvel, tal que o novo ponto permane¸ca em uma vizinhan¸ca da trajet´oria central.

No algoritmo de passo mais longo s˜ao calculadas separadamente, a partir de (x, s, y), duas dire¸c˜oes extremas dc, da∈ R2n+m: dc ´e a solu¸c˜ao do sistema (3.18)

quando σ = 1, chamada dire¸c˜ao de centraliza¸c˜ao; da ´e a solu¸c˜ao de (3.18) quando

σ = 0, chamada solu¸c˜ao afim-escala, da;

σ = 0 : (xa, sa, ya) = (xk, sk, yk) + da (3.20)

e

σ = 1 : (xa, sa, ya) = (xk, sk, yk) + dc (3.21)

A dire¸c˜ao de Newton que seria obtida resolvendo o passo de Newton para σ∈ [0, 1] ´e uma combina¸c˜ao convexa destas dire¸c˜oes, dada por

d = (dx, ds, dy) = σdc+ (1− σ)da. (3.22)

O valor de σ deve ser tal que o novo ponto (x+, s+, y+) permane¸ca em uma

vizinhan¸ca da trajet´oria central, mas determine o maior passo poss´ıvel nesta regi˜ao. Por exemplo, ao escolhermos a vizinhan¸ca N2(0.5), σ deve satisfazer

(σxc + (1− σ)xa)(σsc+ (1− σ)sa) σµ − e 2 = 0.5. (3.23)

(50)

resolvˆe-la escolhemos σ ∈ [0, 1) real: caso tenha mais de uma raiz em (0, 1) tomamos a menor. Se n˜ao existir raiz real, o passo de Newton completo com σ = 0 ´e aceito e o problema ´e f´acil.

Definimos (xk+1, sk+1, yk+1) := (x, s, y) + σ dc+ (1− σ) da e µk+1 := σµ. E

´e feita nova itera¸c˜ao.

A figura 3.2 ilustra uma itera¸c˜ao do m´etodo do passo mais longo.

C dxc

dxa

(xk, sk, yk)

(xk+1, sk+1, yk+1)

Figura 3.2: Passo mais longo O algoritmo possui a estrutura que se segue: Algoritmo 3.3.1 Algoritmo do Passo mais longo Dados: Dados: (x0, s0, y0)∈ N

2(0.5) e µ0 > 0 tais que δ(x0, s0, µ0)≤ 0.5.

k = 0 Repita

x := xk; s := sk; y := yk; µ = µk.

Calcule a dire¸c˜ao afim-escala da resolvendo o sistema (3.18) para σ = 0.

Calcule a dire¸c˜ao afim-escala dc resolvendo o sistema (3.18) para σ = 1.

Encontre σ solu¸c˜ao de (3.23).

Defina o novo ponto: (xk+1, sk+1, yk+1) := (x, s, y) + σ dc+ (1− σ) da.

µk+1 := σµ

(51)

At´e a convergˆencia

O algoritmo descrito nesta se¸c˜ao foi desenvolvido por Mcshane [24] e es-tudado por Gonzaga [14] e Gonzaga e Bonnans [15]. Para detalhes e teoria, ver [14].

Par vi´avel inicial. Para utilizar o algoritmo ´e necess´ario conhecer um par primal-dual (x0, s0) vi´avel inicial, pr´oximo `a trajet´oria central. Se o centro anal´ıtico existe

e ´e conhecido, este problema foi resolvido na tese de mestrado de Behling [1]. Supondo inicialmente que o centro anal´ıtico do conjunto

{x ∈ Rn

|Ax = b, x ≥ 0}

´e o ponto e, Behling considera o problema de regi˜ao de confian¸ca em torno de e :

minimizar q(e + d) sujeito a Ad = 0

kdk2 ≤ ∆.

(3.24)

Considere dµ solu¸c˜ao de (3.24) com ∆ = kdµk e µ > 0 o multiplicador de

Lagrange associado a restri¸c˜ao da bola. Behling mostra que s = µ(e− dµ) ´e folga

dual vi´avel para x = e + dµ, ou seja, (x, s) ´e par dual vi´avel.

O teorema formulado ´e o seguinte:

Teorema 3.3.1 : Seja dµ uma dire¸c˜ao tal que Adµ= 0 e dµµ =−P (∇f(e + dµ)).

Ent˜ao s = µ(e− dµ) ´e folga dual vi´avel.

Mostra-se ainda que sekdµk2 ≤

1 √

2 ent˜ao δ(x, s, µ)≤ 1 2. Ou seja, para µ suficientemente grande tal que kdµk2 ≤

1 √

2 o ponto x = e + dµ na trajet´oria de Levenberg- Marquardt de (3.24) determina o par primal-dual vi´avel x = e + dµ, s = µ(e− dµ) tal que (x, s) ∈ N2(0.5).

O resultado para centro anal´ıtico qualquer segue por uma mudan¸ca de es-cala. Suponha que o centro anal´ıtico primal ´e θ∈ Rn. Fazendo a mudan¸ca de escala

¯

(52)

acima fornece uma dire¸c˜ao ¯d. O par primal-dual associado ser´a (θ(e+ ¯d), θ−1(e− ¯d)).

Note que a dire¸c˜ao θ ¯d ´e o resultado do problema de regi˜ao de confian¸ca no elips´oide definido por kd/θk ≤ 1/2.

Um m´etodo de busca de (x, s), j´a adaptado para um centro anal´ıtico x = θ qualquer esta descrito em [1]. Ele parte de um valor de µ inicial positivo, e segue a trajet´oria de Levenberg-Marquardt aumentando µ at´e que o ponto esteja na regi˜ao de raio ∆/2, isto ´e, na regi˜ao correspondente ao elips´oide{x ∈ Rn| k(x−θ)/θk ≤ ∆/2}.

Em nosso algoritmo no cap´ıtulo anterior, supusemos que est´a dispon´ıvel um algoritmo para encontrar um minimizador do modelo quadr´atico em uma bola de raio menor ou igual a 1/2 (com a devida mudan¸ca de escala). Essa minimiza¸c˜ao, pelo teorema acima, fornece um par primal-dual vi´avel associado ao valor de µ obtido no problema de regi˜ao de confian¸ca, que ser´a usado como ponto inicial para o algoritmo de trajet´oria central.

(53)

Programa¸c˜

ao Quadr´

atica

Seq¨

uencial e Filtros

Os dois cap´ıtulos anteriores descrevem o algoritmo de regi˜ao de confian¸ca proposto nesta disserta¸c˜ao. J´a este cap´ıtulo e o pr´oximo s˜ao dedicados exclusiva-mente a utiliza¸c˜ao do algoritmo de regi˜ao de confian¸ca no m´etodo de filtro proposto por Gonzaga, Karas e Vanti em [13] para a resolu¸c˜ao de um problema de pro-grama¸c˜ao n˜ao linear com com formato geral.

Neste cap´ıtulo apresentamos o problema de programa¸c˜ao n˜ao linear a ser resolvido, algumas defini¸c˜oes e hip´oteses gerais e finalmente descrevemos brevemente o m´etodo de filtro.

A aplica¸c˜ao do algoritmo de regi˜ao de confian¸ca no m´etodo de filtro est´a descrita no cap´ıtulo 5.

4.1

Programa¸c˜

ao N˜

ao Linear com Restri¸c˜

oes de

Igualdade e Vari´

aveis n˜

ao Negativas

O problema de programa¸c˜ao n˜ao linear estudado possui restri¸c˜oes de igual-dades e vari´aveis n˜ao negativas:

(54)

(P )

minimizar f (x) sujeito a g(x) = 0

x≥ 0.

com f : Rn→ R e g : Rn→ Rm. Vamos supor ambas de classe C2 e m≤ n. Como j´a

comentamos o interesse neste formato esta no fato de que problemas com restri¸c˜oes de desigualdades podem ser transformadas em restri¸c˜oes de igualdade com inclus˜ao de vari´aveis de folga.

Apresentamos a seguir as principais defini¸c˜oes e hip´oteses.

Denotamos a matriz Jacobiana da fun¸c˜ao g aplicada ao ponto x∈ Rn por

A(x) com

AT(x) = [

∇g1(x),· · · , ∇gm(x)].

Fun¸c˜ao Lagrangiano. A fun¸c˜ao Lagrangiano associado ao problema (P ) ´e definida por

(x, λ, s)∈ Rn

× Rm

× Rn

+ → L(x, λ, s) = f(x) + λTg(x)− sTx.

Sua derivada ´e dada por

∇xL(x, λ, s) =∇f(x) + AT(x)λ− s.

Para estabelecermos as condi¸c˜oes de Karush-Kuhn-Tucker vamos assumir que vale a condi¸c˜ao de qualifica¸c˜ao de Mangassarian-Fromovitz (CQMF):

Um ponto x∈ Rn vi´avel para (P ) satisfaz CQMF se e s´o se

(i) A matriz A(x) tem posto completo

(ii) Existe uma dire¸c˜ao d ∈ N(A(x)) tal que dI(x) > 0, em que I(x) = {i =

1, . . . , n | xi = 0} ´e o conjunto ativo em x.

(55)

(P ) e satisfaz a CQMF, ent˜ao existem ¯λ ∈ Rm e ¯s∈ Rn tais que ∇f(¯x) + A(¯x)Tλ¯ − ¯s = 0 (4.1) c(¯x) = 0 (4.2) ¯ x¯s = 0 (4.3) ¯ x, ¯s≥ 0 (4.4)

Al´em disso para toda dire¸c˜ao d∈ Rn tal que A(¯x)Td = 0 e d

I(x)= 0,

dT∇xxL(¯x, ¯λ, ¯s)d≥ 0.

Condi¸c˜ao Suficiente de Otimalidade. Suponha que em um ponto ¯x ∈ Rn s˜ao

satisfeitas as condi¸c˜oes de KKT com multiplicadores ¯λ, ¯s. Suponha tamb´em que ¯x satisfaz CQMF e al´em disso

∀d ∈ N(A(¯x)) com dI(x) = 0, dT∇xxL(¯x, ¯λ, ¯s)d > 0.

Ent˜ao ¯x ´e solu¸c˜ao ´otima de (P ).

Pontos interiores. Em nosso algoritmo vamos exigir que

xk > 0, k = 0, 1, . . . .

Vamos ainda definir a fun¸c˜ao inviabilidade:

Medida de inviabilidade. A inviabilidade ´e medida por

x∈ Rn

++ → h(x) := kg(x)k,

em que k · k ´e uma norma qualquer em Rn. Usaremos a norma euclidiana.

Na pr´oxima se¸c˜ao descrevemos o m´etodo de Programa¸c˜ao Quadr´atica Se-quencial (PQS) e o algoritmo de filtro.

Referências

Documentos relacionados

Este dado diz respeito ao número total de contentores do sistema de resíduos urbanos indiferenciados, não sendo considerados os contentores de recolha

Assim, além de suas cinco dimensões não poderem ser mensuradas simultaneamente, já que fazem mais ou menos sentido dependendo do momento da mensuração, seu nível de

Para disciplinar o processo de desenvolvimento, a Engenharia de Usabilidade, também conceituada e descrita neste capítulo, descreve os métodos estruturados, a

O artigo 2, intitulado “Tecnologias de Informação e Comunicação (TIC): Estar fora da família, estando dentro de casa”, foi resultado da realização de uma pesquisa de

psicológicos, sociais e ambientais. Assim podemos observar que é de extrema importância a QV e a PS andarem juntas, pois não adianta ter uma meta de promoção de saúde se

II - os docentes efetivos, com regime de trabalho de 20 (vinte) horas semanais, terão sua carga horária alocada, preferencialmente, para ministrar aulas, sendo o mínimo de 8 (oito)

• The definition of the concept of the project’s area of indirect influence should consider the area affected by changes in economic, social and environmental dynamics induced

Considere-se, por exemplo, uma joint venture cujo capital é constituído por dois sócios, cada um participando com cinqüenta por cento do empreendimento, e com duas linhas de negócio