Um algoritmo de regiões de confiança baseado em trajetória central e sua utilização em método de filtro

(1)

Computac

¸˜

ao Cient´ıfica

Um Algoritmo de Regi˜

oes de Confian¸

ca

Baseado em Trajet´

oria Central e sua

Utiliza¸

c˜

ao em M´

etodo de Filtro

Ana Maria Basei

(2)

Computac

¸˜

ao Cient´ıfica

Um Algoritmo de Regi˜

oes de Confian¸

ca

Baseado em Trajet´

oria Central e sua

Utiliza¸

c˜

ao em M´

etodo de Filtro

Disserta¸cão apresentada ao Curso de Pós Gradua¸cão em Matemática e Computa¸cão Cient´ıfica, do Centro de Ciências F´ısicas e Matemáticas da Universidade Federal de Santa Catarina, para obten¸cão do grau de Mestre em Matemática, com Área de Concentra¸cão em Matemática Aplicada.

Ana Maria Basei Florian´opolis

(3)

baseado em trajet´

oria central e sua

utiliza¸c˜

ao em m´

etodos de filtro

por

Ana Maria Basei

Esta Disserta¸c˜ao foi julgada para a obten¸c˜ao do T´ıtulo de “Mestre”, ´

Area de Concentra¸cão em Matemática Aplicada, e aprovada em sua forma final pelo Curso de Pós-Gradua¸cão em Matemática e

Computa¸c˜ao Cientifica.

Cl´ovis Caesar Gonzaga Coordenador

Comiss˜ao Examinadora

Prof. Dr. Cl´ovis Caesar Gonzaga (UFSC-Orientador)

Prof. Dr. Carlos Humes Junior (USP)

Prof. Dr. M´ario C´esar Zambaldi (UFSC)

Prof. Dr. Juliano de Bem Francisco (UFSC)

Florian´

opolis, abril de 2007.

(4)

`a minha querida irm˜a Fernanda e ao meu amor Paulo.

(5)

A Deus pela vida, sa´ude, paz, prote¸c˜ao, e principalmente pela fam´ılia ma-ravilhosa, amigos e pessoas queridas que coloca em minha vida.

Aos meus amados pais pelo amor verdadeiro e incondicional. Agrade¸co ao carinho, zelo e apoio que os torna meu porto seguro. Pelas longas conversas, conselhos e palavras de confian¸ca e motiva¸cão. Ao meu pai agrade¸co em especial ao maior exemplo que deixou de persistência, otimismo e coragem. A minha mãe agrade¸co ao exemplo de luta, trabalho, perseveran¸ca e coragem.

A minha querida irm˜a e amiga Fernanda, pelo amor, pelos momentos ale-gres e divertidos que passamos juntas e ainda pela sua presen¸ca nos momentos de dificuldade.

Ao meu amor Paulo H. Bermejo pelo carinho, cuidados, pelos momentos de alegria e apoio nas horas dif´ıceis e principalmente por ser meu maior incentivador, sempre acreditando em mim e fazendo parte da minha vida.

As minhas tias Zaira e Adelaide pela torcida e por se fazerem presentes em momentos importantes e aos demais familiares e amigos queridos.

Aos colegas do mestrado, em especial a amizade de Diane, Fabiana, Jo˜ao, Luciane e Priscila, pelos momentos agrad´aveis que compartilhamos e pelo compa-nheirismo nos momentos dif´ıceis.

Aos colegas Ismael, Gilberto e Rafael pelo apoio e companheirismo.

Agrade¸co aos professores membros da banca por dedicarem seu tempo a avalia¸c˜ao do trabalho contribuindo no aprimoramento da vers˜ao final.

Agrade¸co ao professor Igor e demais professores do mestrado pelo conhe-cimento transmitido. Ao professor Gustavo A.T.F. da Costa pela orienta¸cão no estágio de docência.

(6)

atende na secretaria da p´os gradua¸c˜ao. Ao CNPQ pelo suporte financeiro.

E finalmente agrade¸co em especial ao professor Clóvis Gonzaga pela sua orienta¸cão e pela forma paciente, sábia e carinhosa como me atendeu durante a realiza¸cão do trabalho. Acredito que sua inteligência, sua paixão pela matemática, a forma como ensina e conduz suas aulas, além do seu cora¸cão enorme e humildade são algumas das suas virtudes que despertam admira¸cão em todos alunos que tem a oportunidade de trabalhar com ele.

(7)

A utiliza¸cão do método de região de confian¸ca é muito frequente em pro-blemas de otimiza¸cão, já que precisamos minimizar modelos de fun¸cões. Temos métodos que utilizam regiões com formato de bolas euclidianas e métodos que utili-zam regiões com formato de caixas. Na presen¸ca de restri¸cões lineares, a utiliza¸cão de um ou outro pode apresentar desvantagens. Neste trabalho apresentamos um algoritmo de região de confian¸ca baseado em trajetória central. É um método in-termediário entre os citados acima. No método apresentado as regiões de confian¸ca são conjuntos de n´ıvel da fun¸cão barreira logar´ıtmica, e evoluem continuamente de pequenas bolas euclidianas tendendo à caixa completa. Este algoritmo é utilizado em seguida em um algorimo de filtro para resolver um problema de otimiza¸cão com formato bem geral de restri¸cões de igualdade e variáveis não negativas.

(8)

Trust region methods are frequently used in Optimization, whenever we need to minimize function models. We have methods based on regions shaped as Euclidean balls and methods based on box shaped regions. In the presence of linear equality constraints each of these shapes has its disadvantages. In this work we present a trust region method based on the central path. This method is in a way intermediate between the other two. Its trust regions are level sets of the logarithmic barrier function, and evolve continuously from small Euclidean balls towards the whole box. This algorithm is then used in a filter method for solving general optimization problems with equality constraints and non-negative variables.

(9)

Lista de Figuras x

Introdu¸c˜ao 1

1 Introdu¸c˜ao: 1

2 Regi˜ao de Confian¸ca 6

2.1 Algoritmos com Regi˜ao de Confian¸ca . . . 7

2.2 Regi˜ao de confian¸ca e a busca de Armijo . . . 10

2.2.1 Busca de Armijo . . . 11

2.3 Convergˆencia global . . . 12

2.4 O problema quadrático e as duas trajetórias: Trajetória de Levenberg-Marquardt e a Trajetória Central . . . 14

2.5 Trajetória Ótima para regiões tipo caixa . . . 19

2.6 Compara¸c˜ao entre os m´etodos . . . 23

2.7 Generaliza¸c˜ao . . . 26

2.8 Algoritmos de regi˜oes de confian¸ca definidas pela barreira . . . 27

3 M´etodos de Pontos Interiores Primais-Duais 31 3.1 Revis˜ao de conceitos . . . 31

3.1.1 Trajet´oria Primal-Dual . . . 32

3.1.2 Proximidade e Vizinhan¸cas da Trajet´oria Central . . . 34

3.2 Algoritmos: . . . 36

3.3 Algoritmo de passo mais longo . . . 38

(10)

Negativas . . . 42 4.2 Programa¸c˜ao Quadr´atica Sequencial,

Restaura¸cão Inexata e um Método de Filtro . . . 45 4.2.1 A Fase de Restaura¸cão ou Fase de Viabilidade . . . 50 4.2.2 Fase de Otimalidade . . . 51 5 Utiliza¸cão do Algoritmo de Região de Confian¸ca no Método de

Filtro 55

5.1 Fase de otimalidade . . . 56 5.2 O algoritmo . . . 56 5.2.1 O centro anal´ıtico do conjunto formado pelas restri¸cões . . . 57 5.2.2 Formato primal de programa¸cão quadrática . . . 61

Considera¸c˜oes Finais 65

Referˆencias 67

(11)

2.1 Ponto de Cauchy. . . 13

2.2 Ponto de Cauchy . . . 13

2.3 Regi˜oes de confian¸ca e trajet´orias. . . 26

2.4 Regioes de confian¸ca e trajet´orias no caso geral. . . 28

2.5 Uma itera¸c˜ao do algoritmo . . . 29

3.1 Compara¸c˜ao das vizinhan¸cas da trajet´oria central . . . 36

3.2 Passo mais longo . . . 39

4.1 Constru¸c˜ao do par (fk_{, h}k_{) . . . 46}

4.2 Uma itera¸c˜ao do m´etodo de filtro . . . 47

4.3 Uma itera¸cão f e o filtro para a próxima itera¸cão . . . 49

4.4 Uma itera¸cão h e o filtro para a próxima itera¸cão . . . 50

5.1 Constru¸c˜ao da caixa [l, u]. . . 60

5.2 Minimiza¸c˜ao em uma caixa maior . . . 64

(12)

Introdu¸c˜

ao:

Considere o seguinte problema de programa¸c˜ao n˜ao linear:

minimizar f (x) sujeito a c(x) = 0

x_{≥ 0}

(1.1)

em que f : Rn _{→ R, c : R}n_{→ R}m _{s˜ao fun¸c˜oes de classe C}2 _{com m}_{≤ n. Esse formato}

é bastante geral, uma vez que restri¸cões de desigualdades podem ser reduzidas a igualdades com a introdu¸cão de variáveis de folga.

Na resolu¸cão de um problema restrito como o acima dois objetivos devem ser alcan¸cados: otimalidade e viabilidade. Estes dois normalmente são conflitantes e podem ser tratados de forma independente, é o caso dos métodos de restaura¸cão inexata. Neste métodos, introduzidos por Mart´ınez e Pilotta [21] uma itera¸cão é composta por duas fases, chamadas fase de restaura¸cão e fase de otimalidade. Na fase de restaura¸cão, a partir de um determinado ponto, possivelmente não-viável, é determinado um ponto intermediário z tal que a inviabilidade tenha sido “suficien-temente”reduzida. Na fase de otimalidade é feita uma minimiza¸cão aproximada de uma fun¸cão quadrática (que geralmente é um modelo quadrático da fun¸cão objetivo ou de um Lagrangiano) sujeita a uma variedade linear e a uma região de confian¸ca de raio ∆ centrada em z. Quando for obtido um ponto que reduza f (_{·), deve-se} decidir se o ponto melhora a otimalidade sem piorar muito a viabilidade. Para esta análise pode-se usar uma fun¸cão de mérito ou filtros.

(13)

Neste trabalho vamos supor que o problema (1.1) seja resolvido com o al-goritmo de filtro proposto em [13]. É um algoritmo globalmente convergente que usa as idéias de restaura¸cão inexata. Cada itera¸cão é composta pelas duas fases mencionadas. Supondo que a fase de restaura¸cão esteja resolvida vamos estudar a fase de otimalidade. Portanto, o problema a ser resolvido é o de minimiza¸cão de uma fun¸cão quadrática restrita a uma variedade afim, uma região de confian¸ca, ao primeiro ortante e a restri¸cão do filtro. Vamos supor ainda que a fun¸cão quadrática a ser minimizada é convexa.

A região de confian¸ca pode ter formato de uma bola euclidiana centrada do ponto z (ponto de restaura¸cão) ou de uma caixa com centro geométrico z, de-pendendo da norma utilizada. Um método que usa bolas euclidianas é eficiente e convergente, e a presen¸ca de restri¸cões lineares afeta pouco seu custo computacional. Entretanto usa regiões pequenas e é pouco aplicável a problemas com restri¸cões. Já os métodos que usam caixas são mais atraentes, pois elas são bem maiores do que bolas euclidianas e problemas com restri¸cões de caixas são muito comuns. No en-tanto, a presen¸ca de restri¸cões lineares eleva seu custo computacional, porque cada itera¸cão deve resolver um problema de programa¸cão quadrática geral.

No cap´ıtulo 2, no contexto de otimiza¸cão irrestrita, apresentamos um método intermediário, com regiões de confian¸ca que evoluem continuamente de pequenas bo-las e tendem a uma caixa completa. As regiões são definidas pela fun¸cão barreira logar´ıtmica e a minimiza¸cão da quadrática é feita através de uma busca curvil´ınea tipo Armijo sobre a trajetória central da caixa.

Para fazer esta busca usamos um método de pontos interiores. Um pouco da teoria de métodos de pontos interiores é apresentada no cap´ıtulo 3, com destaque para o algoritmo do passo mais longo, que foi o algoritmo escolhido para seguir a trajetória central. Ainda neste cap´ıtulo, apresentamos o teorema elaborado na tese de Behling [1] que fornece o primeiro par primal-dual viável para iniciar o algoritmo. O cap´ıtulo 4, é dedicado ao problema (1.1). Apresentamos hipóteses e defini¸cões gerais necessárias no estudo de (1.1) além de uma breve descri¸cão do método de filtro. Em seguida formulamos o problema onde aplicaremos o algoritmo de região de confian¸ca proposto no cap´ıtulo 2.

(14)

Finalmente no cap´ıtulo 5 apresentamos o algoritmo utilizado na fase de otimalidade do método de filtro. Ele é composto de duas etapas: a constru¸cão da caixa, que deve ser a interse¸cão da região onde o modelo é confiável e o primeiro ortante. A outra etapa corresponde a busca de Armijo que avan¸ca na trajetória até que uma das restri¸cões seja violada: a confiabilidade no modelo usado, a positividade ou a restri¸cão do filtro.

(15)

Nota¸c˜oes

Apresentamos aqui algumas nota¸c˜oes usadas no trabalho:

Os vetores colunas e as matrizes serão denotados respectivamente por letras minúsculas e maiúsculas. Os ´ındices inferiores dos vetores representam as compo-nentes do vetor. A letra e denota o vetor coluna cujas compocompo-nentes são iguais a um com dimensão explicitada no contexto.

Sejam os vetores x, s _{∈ R}n _{as nota¸c˜oes x}−1_{, x}_{· s, xs e} x

s s˜ao usadas para

representar vetores com componentes x−1i , xisi e x_s_ii, i = 1, . . . , n.

Quando v e w são vetores, a nota¸cão v_{≤ w significará sempre v}i ≤ wi para

todas as suas coordenadas. Quando falamos da caixa l _{≤ x ≤ u, entendemos o} conjunto dos x_{∈ R}n _{tais que l}

i ≤ xi ≤ ui.

Dado um vetor x, a letra mai´uscula X representa uma matriz diagonal formada pelas componentes do vetor x.

Para uma referˆencia futura, aqui est´a uma lista dos principais s´ımbolos utilizados no texto:

k · k : denota uma norma qualquer em Rn_{. N(A) : n´}_{ucleo de uma matriz A.}

∆ : raio da regi˜ao de confian¸ca

D∆ ={d ∈ Rn| kdk ≤ ∆} : regi˜ao de confian¸ca

B_∆₌_{{d ∈ R}n_{| kdk ≤ ∆} : regi˜ao de confian¸ca com a norma 2}

qµ(·) : soma de duas fun¸cões quadráticas: a fun¸cão quadrática objetivo e a fun¸cão kx2_k

2

V₌_{{x ∈ R}n_{| − e ≤ x ≤ e}}

V◦ ₌_{{x ∈ R}n_{| − e < x < e}}

p(_{·) : fun¸c˜ao barreira logar´ıtmica}

pµ(·) : soma de duas fun¸cões quadráticas: a fun¸cão quadrática objetivo e a fun¸cão

p(_·)

V_K₌_{{x ∈ V}◦ _{| p(x) ≤ K}} Vv _:=_{{x ∈ R}n _{| − v ≤ x ≤ v}}

◦

Vv _:=_{{x ∈ R}n _{| − v < x < v}}

pv(·) : fun¸c˜ao barreira logar´ıtmica definida em ◦

Vv Bv

(16)

Vv

K={x ∈ Vv | pv(x)− pv(0)≤ K}

c : gradiente da fun¸c˜ao f aplicado em um ponto x A(x) : Jacobiana da fun¸c˜ao g(_·)

Γ = {(x, s) ∈ R2n

+ | Ax = b, −Hx + s + ATy = c, para algum y ∈ Rm} : conjunto

dos pares primais duais vi´aveis

Γ◦ ₌_{{(x, s) ∈ Γ | x, s > 0} : o conjunto de pares primais duais interiores}

[l, u] =_{{x ∈ R}n _{| l ≤ x ≤ u}} z : ponto de restaura¸cão Região proibida em R2_{, F} k ={(f, h) | f ≥ fi, h≥ hi} Região proibida em Rn_{, F} k ={x ∈ Rn | f(x) ≥ fi, h(x)≥ hi} Filtro temporário, ¯Fk

Conjunto de pontos proibidos em Rn _{associado ao filtro tempor´ario, ¯}_F k

(17)

Regi˜

ao de Confian¸ca

As primeiras se¸cões deste cap´ıtulo tratam do método de região de confian¸ca aplicado a um problema de minimiza¸cão irrestrita, que é a abordagem clássica deste método. Nas se¸cões seguintes introduzimos o problema quadrático que deve ser re-solvido a cada itera¸cão do algoritmo de região de confian¸ca. Inicialmente estudamos o caso em que a região de confian¸ca é a bola euclidiana e a partir da´ı apresentamos a trajetória de Levenberg-Marquardt. Em seguida estudamos o caso da restri¸cão ser uma caixa. Fixamos o tamanho desta caixa e definimos as regiões de confian¸ca como conjuntos de n´ıvel da fun¸cão barreira logar´ıtmica associada a esta caixa. De-finimos a trajetória central na caixa como a trajetória ótima dos minimizadores da quadrática restrita aos conjuntos de n´ıvel da barreira. Mostramos algumas rela¸cões entre as diferentes regiões de confian¸ca e na última se¸cão enunciamos um algoritmo de minimiza¸cão conceitual para problemas irrestritos. O método resultante baseia-se em algoritmos de trajetória central para programa¸cão quadrática, que não serão es-tudados neste cap´ıtulo: estudaremos algoritmos primais-duais, descritos no cap´ıtulo 3 em um contexto mais geral.

Na abordagem clássica de região de confian¸ca o problema a ser resolvido é o de minimiza¸cão irrestrita de uma fun¸cão , ou seja,

minimizar f (x)

sujeito a x_{∈ R}n_. (2.1)

com f : Rn _{→ R duplamente continuamente diferenci´avel.}

(18)

Um método de região de confian¸ca é um processo iterativo que gera uma seqüencia (xk₎

k∈N cujos pontos de acumula¸c˜ao devem ser minimizadores de f . Cada

itera¸cão k define uma região ao redor do ponto xk _{onde o modelo quadrático seja}

uma representa¸cão adequada da fun¸cão objetivo e em seguida minimiza o modelo nesta região. Se a solu¸cão ¯d obtida não é aceita por determinado critério, o tamanho da região é reduzido e é feita nova minimiza¸cão.

A idéia de construir esta região de confian¸ca no modelo quadrático foi pro-posta por Levenberg em 1944 [18] e Marquardt em 1963 [19] mediante estudos de problemas de m´ınimos quadrados. Em 1966, a aplica¸cão do método de região de confian¸ca foi sugerida por Goldef, Quandt e Trotter [33]. Powell [27] foi o primeiro a estabelecer a convergência quadrática dos métodos de região de confian¸ca.

2.1 Algoritmos com Regi˜

ao de Confian¸ca

Considere k ∈ N e xk _{∈ R}n _{o ponto corrente. O modelo quadr´atico da}

varia¸cão da fun¸cão objetivo em torno de xk _{é dado por:}

d∈ Rn 7→ mk(d) =∇f(xk)Td + 1 2d T Bkd,

em que Bk uma matriz que pode ser uma aproxima¸c˜ao da Hessiana ∇2f (xk) ou

qualquer outra matriz sim´etrica que satisfa¸ca

kBkk ≤ β

para algum β > 0 independente de k. Como

f (xk+ d) = f (xk) +∇f(xk )Td + 1 2d T ∇2_{f (x}k + td)d,

para algum t_{∈ [0, 1], e como m}k(d) = ∇f(xk)Td + O(kdk2), a diferen¸ca entre mk(d)

e f (xk_{+ d)}_−f(xk_{) é limitada por O(}_kdk2_{), e então o erro da aproxima¸cão é pequeno}

quando d é pequeno. Na prática, a abordagem de região confian¸ca é muito geral pois precisamos exigir muito pouco de Bk, apenas simetria e limita¸cão uniforme no

(19)

´ındice k.

No caso em que Bk = ∇2f (xk) o algoritmo obtido ´e chamado m´etodo de

Newton para regi˜ao de confian¸ca.

Como o modelo quadrático só aproxima bem a fun¸cão em uma vizinhan¸ca do ponto xk _{define-se o conjunto D}

∆ chamado regi˜ao de confian¸ca:

D∆={d ∈ Rn| kdk ≤ ∆},

com ∆ o raio da bola e k · k uma norma qualquer em Rn_.

Desta forma a cada itera¸cão k do método de região de confian¸ca formulamos o sub-problema:

minimizar mk(d)

sujeito a _{kdk ≤ ∆.} (2.2) Este problema tem solu¸cão única, sempre que não ocorra o “caso dif´ıcil”, descrito em Nocedal [25] e comentado a seguir. Supondo que a solu¸cão de (2.2) seja única , esta é o passo de região de confian¸ca e será denotada por d(xk_{, ∆), com}

dependência de ∆ já que ao alterarmos o raio ∆ a dire¸cão do passo é alterada. O ponto ¯x = xk_{+ d(x}k_{, ∆) seria uma boa aproxima¸cão do minimizador de f na região}

D∆.

Além do seu tamanho outra caracter´ıstica importante da região é seu for-mato que depende da norma utilizada. Ao usarmos a norma ℓ∞, D∆ é uma caixa

de arestas de comprimento 2∆. O formato de caixa se destaca em rela¸cão à bola euclidiana pelo seu tamanho em rela¸cão a ela. Além disso, em problemas restritos o formato da região de confian¸ca pode ser definido de maneira a adaptar-se às res-tri¸cões do problema. Assim em problema com resres-tri¸cões do tipo caixa pode-se usar a norma ℓ∞.

No entanto a minimiza¸cão na caixa é mais dif´ıcil do que a minimiza¸cão na bola. Métodos de região de confian¸ca do tipo caixa foram estudados e implementados pela equipe de Otimiza¸cão da UNICAMP no Brasil, coordenada por J. M. Mart´ınez [23].

(20)

Neste trabalho pretendemos estudar a minimiza¸cão em caixas sujeita ainda a uma variedade linear, o que torna o problema mais complexo; um problema geral de programa¸cão quadrática com restri¸cões não lineares.

Para simplificar, iniciamos o estudo com regiões esféricas e cúbicas, que serão posteriormente generalizadas para regiões elipsoidais e caixas quaisquer.

O algoritmo

Considere xk _{o ponto corrente tal que}

∇f(xk₎

6= 0 e d(xk_{, ∆) a solu¸c˜ao do}

sub-problema (2.2) formulado na k-ésima itera¸cão. O critério usualmente estabele-cido para avaliar a solu¸cão d(xk_{, ∆) é baseado nas defini¸cões a seguir,}

• Redu¸c˜ao prevista pelo modelo: pred(xk_{, ∆) =}

−mk(d(xk, ∆)) > 0.

• Redu¸c˜ao efetiva da fun¸c˜ao:

ared(xk_{, ∆) = f (x}k₎_{− f(x}k_{+ d(x}k_{, ∆)).}

• A rela¸cão entre as duas redu¸cões, na k-ésima itera¸cão é dada por

ρ = ared pred.

O valor de ρ informa se o modelo quadrático representa bem a fun¸cão na região D∆. A condi¸cão de aceita¸cão do passo pode ser escrita como

ared≥ α pred ou seja ρ ≥ α.

Em implementa¸cões é usual estabelecer α = 10−4_{. Para análise pode-se fazer}

α = 0.25, por exemplo [25].

Podemos observar que como d(xk_{, ∆) ´e obtido minimizando o modelo m} k

em uma região que inclui a dire¸cão d = 0, a redu¸cão prevista sempre será positiva. Desta forma se ρ é negativo, f (x + d(xk_{, ∆)) é maior do que o valor corrente f (x}k₎

(21)

Apresentamos a seguir o algoritmo de regi˜ao de confian¸ca. Algoritmo 2.1.1 Regi˜ao de confian¸ca

Dados: x0 _{∈ R}n_{, β, α}_{∈ (0, 1) fixos e ∆ > 0. ( Por exemplo, α = 0.25, β = 0.25 )}

k = 0 enquanto _k∇f(xk₎_{k 6= 0} Construa o modelo d_{7→ m}k(d) = ∇f(xk) T d +1 2d T_B kd. repita

Calcule d = d(xk_{, ∆), solu¸c˜ao de:}

minimizar mk(h) sujeito a khk ≤ ∆. ared = f (xk₎_{− f(x}k_{+ d)} pred =−mk(d) ρ = ared/pred Se ρ < α , fa¸ca ∆ = β∆. At´e que ρ_{≥ α} xk+1 _{= x}k_{+ d.} k = k + 1 Fim.

A defini¸cão do raio ∆ inicial em cada itera¸cão pode ser feita da seguinte forma: para evitar raios demasiadamente pequenos “herdados” da itera¸cão anterior, ∆ é tomado maior que um valor m´ınimo fixado ∆min. Além disso, pode-se considerar

o sucesso da itera¸cão anterior. Se ρ for próximo de 1 (ρ > 0.75), o modelo é bom e pode-se expandir a região de confian¸ca. Se ρ for próximo de zero (ρ < 0.25) então a região deve ser reduzida na próxima itera¸cão. Se ρ for positivo mas não próximo de zero (0.25 < ρ < 0.75) o raio permanece inalterado.

2.2 Regi˜

ao de confian¸ca e a busca de Armijo

A seguir descreveremos brevemente a popular busca unidirecional de Armijo para em seguida apresentarmos a rela¸cão entre este método e o método de região de

(22)

confian¸ca.

2.2.1 Busca de Armijo

Considere o problema de minimiza¸c˜ao de uma fun¸c˜ao f : Rn _{→ R de classe}

C2 _{a partir de um ponto x}k _{∈ R}n _{e uma dire¸cão d} _{∈ R}n_{. O método de busca de} Armijo visa uma boa redu¸cão da fun¸cão na dire¸cão d, não tenta resolver o problema proposto.

Dados xk_{, d e ¯}_{∆ o algoritmo busca λ}_{∈ [0, ¯}_{∆] tal que f (x}k_{+ λd) < f (x}k_).

A condi¸cão que determina se a redu¸cão é suficiente é a seguinte desigualdade

f (xk_{+ λd)}

≤ f(xk_{) + ηλ}

∇f(xk₎T_d, _(2.3)

para alguma constante η_{∈ (0, 1).}

A desigualdade (2.3) ´e chamada a “condi¸c˜ao de Armijo”.

O algoritmo que determina λ é simples. Inicia com λ = ¯∆ e reduz λ até encontrar um ponto aceitável.

Algoritmo 2.2.1 Busca de Armijo

Dados: x, d, ¯∆ e f′_{(x, d) =}_∇f(x)T_{d, η, β} _{∈ (0, 1), por exemplo η = β = 0, 5.}

λ = ¯∆

enquanto f (x + λd) > f (x) + ηλf′_{(x, d)}

λ = βλ fim

´

E poss´ıvel melhorar o algoritmo permitindo que λ aumente quando λ = ¯∆ é aceitável, mas isso raramente é feito.

Regi˜ao de Confian¸ca com modelo linear e Armijo

Vamos supor que em vez do modelo quadrático no método de região de confian¸ca usemos o modelo linear, ou seja, Bk = 0.

(23)

Assim o modelo mk em torno do ponto xk ´e dado por

mk(d) =∇f(xk)Td.

Como o modelo é linear o ponto que minimiza o modelo na região de raio λ é o ponto xk_{+ λh onde h =}₋ ∇f(x

k₎

k∇f(xk₎_k, ou equivalentemente, d(x

k_{, ∆) = λh. O}

método de região de confian¸ca exige que seja satisfeita a condi¸cão ared d(xk_{, λ)} _≥

α pred d(xk_{, λ), que pode ser reescrita como}

f (xk_{+ λd)}

≤ f(xk_{) + αλ}

∇f(xk₎T_d,

que é exatamente a condi¸cão de Armijo (2.3). Ou seja, para o caso do modelo linear o método de região de confian¸ca coincide com a busca de Armijo.

2.3 Convergˆ

encia global

Nos métodos de região de confian¸ca, apesar de estarmos procurando a solu¸cão ótima do sub-problema (2.2), é suficiente para se ter convergência global que a cada itera¸cão k, o ponto xk+1 _{= x}k _{+ d(x}k_{, ∆}

k) esteja dentro da regi˜ao de

confian¸ca e que forne¸ca uma redu¸cão suficiente no modelo. Esta redu¸cão pode ser quantificada em termos do ponto de Cauchy denotado na k-ésima itera¸cão por dc

k e

definido a seguir.

O ponto de Cauchy ´e definido como minimizador de mk ao longo da dire¸c˜ao

oposta ao gradiente _∇f(xk_{) na regi˜ao de confian¸ca D}

∆. Dependendo da curvatura

do modelo pode estar no interior ou na fronteira da regi˜ao de confian¸ca, como mostra figura 2.1.

(24)

0 0 1 1 0 0 1 1 xk ponto de Cauchy

(a) minimizador do modelo convexo interior `a regi˜ao

xk

ponto de Cauchy

(b) minimizador do modelo convexo exterior `a regi˜ao

0 0 1 1 0 0 1 1 xk ponto de Cauchy (c) minimizador do mo-delo indefinido interior `a regi˜ao

Figura 2.1: Ponto de Cauchy.

O ponto de Cauchy ´e expresso por dc

k =−αc∆

∇f(xk₎

k∇f(xk₎_k com α

c _{= 1 quando}

o minimizador esta na fronteira e

αc ₌ k∇f(xk)k3

∇f(xk₎T_B

k∇f(xk)

quando o minimizador for interior a regi˜ao, veja [25].

A figura 2.2 mostra o ponto de Cauchy numa itera¸c˜ao k. As elipses re-presentam as curvas de n´ıvel do modelo mk(·). A ´area hachurada corresponde ao

conjunto de pontos que satisfazem _−mk(d(xk))≥ −mk(dck)).

xk

x f( )xk

c k

Figura 2.2: Ponto de Cauchy

Uma estimativa para a redu¸cão obtida no modelo m com uma solu¸cão apro-ximada d(xk_{, ∆) é:}

(25)

−mk(d(xk, ∆))≥ c1 k∇f(xk)k min ∆,k∇f(x k₎_k kBkk (2.4) onde c1 ∈ [0, 1) ´e uma constante. Esta estimativa considera que a redu¸c˜ao obtida

no modelo ´e proporcional ao tamanho do passo e ao gradiente.

O ponto de Cauchy satisfaz (2.4) com c1 = 1/2. Este resultado esta

demons-trado em [25].

Toda solu¸c˜ao aproximada d(xk_{, ∆}

k) que proporcione uma redu¸c˜ao no modelo

igual ou superior `a redu¸c˜ao obtida com o ponto de Cauchy, mk(d(xk, ∆k))≤ mk(dkc)

satisfaz (2.4) com c1 = 1/2.

2.4 O problema quadr´

atico e as duas trajet´

orias:

Trajet´

oria de Levenberg-Marquardt e a

Tra-jet´

oria Central

Esta é a se¸cão principal deste cap´ıtulo, onde definimos as duas trajetórias: a trajetória de Levenberg-Marquardt e a trajetória central. Isto será feito a partir do estudo do sub-problema quadrático a ser resolvido na k-ésima itera¸cão do método de região de confian¸ca: minimizar mk(d) =∇f(xk)Td + 1 2d T_B kd sujeito a _{kdk ≤ ∆.} (2.5)

Como a fun¸cão mk(·) é cont´ınua e D∆={d ∈ Rn| kdk ≤ ∆} é um conjunto

fechado e limitado garantimos que este problema sempre tem solu¸c˜ao.

O estudo é feito de forma independente das demais se¸cões deste cap´ıtulo usando a nota¸cão comum em problemas de otimiza¸cão com fun¸cão objetivo quadrática

x_{∈ R}n _{7→ q(x) = c}Tx +1 2x

T

(26)

Temos como hip´otese H sim´etrica semidefinida positiva.

No problema (2.5) q representa a varia¸c˜ao do modelo quadr´atido de f em um ponto xk.

O problema a ser estudado ´e

minimizar cT_{x +}1 2x T Hx sujeito a _{kxk ≤ ∆} (2.6)

Trajet´oria de Levenberg-Marquardt

A trajet´oria de Levenberg-Marquardt surge do estudo do problema (2.6) utilizando a restri¸c˜ao de bola euclidiana, que denotamos por

B_∆₌_{{x ∈ R}n _{| kxk}

2 ≤ ∆}.

Consideremos o seguinte problema irrestrito:

Consideremos os seguintes problemas restrito e irrestrito:

(P∆) minimizar q(x) sujeito a _{kxk ≤ ∆} (P Qµ) minimizar qµ(x) = q(x) + µkxk 2 2 x_{∈ R}n , µ ≥ 0.

O teorema a seguir relaciona (P∆) e (P Qµ). Este teorema ´e demonstrado em v´arias

referências, por exemplo [25]. Para o nosso tratamento ficar completo, fazemos a demonstra¸cão para o caso convexo, que é mais simples.

Teorema 2.4.1 ¯x é solu¸cão de (P∆) se e só se existe µ ≥ 0 tal que ¯x é única

(27)

Prova: (_{⇒) Suponhamos ∆ > 0 e ¯x solu¸c˜ao de (P}∆). Logo existe µ≥ 0 tal que

(H + µI)¯x = _−c (2.7)

µ(∆− k¯xk) = 0 (2.8)

k¯xk ≤ ∆ (2.9)

µ_{≥ 0.} (2.10)

A condi¸c˜ao (2.8) significa ou ¯x ´e minimizador global de q(·) e k¯xk ≤ ∆ (caso µ = 0) ou _{k¯xk = ∆.}

O segundo caso ocorre quando a restri¸c˜ao k¯xk ≤ ∆ ´e ativa e µ > 0.

Como para µ > 0 ¯x satisfaz (2.7), que é a condi¸cão necessária de otimalidade de (P Qµ) e (H + µI) é definida positiva, segue que ¯x é solu¸cão de (P Qµ) com

k¯xk = ∆.

(⇐) Por outro lado, dado µ > 0 definimos xµ o (´unico) minimizador de qµ(·) e

∆µ =kxµk, satisfazendo ∀x ∈ Rn , q(x) +µ 2kxk 2 _{≤ q(x) +}µ 2kxµk 2_.

A desigualdade vale em particular parakxk ≤ ∆µ, x6= xµ:

q(x) > q(xµ) + µ 2(kxµk 2 − kxk2) = q(xµ) + µ 2(∆ 2 µ− kxk2), ou seja , q(x) > q(xµ).

Portanto xµ é solu¸cão única de (P∆) com ∆ = ∆µ 2

De acordo com o teorema para resolver (P∆) quando o ponto de Newton

não é viável ou não existe pode-se usar (P Qµ): devemos encontrar µ > 0 tal que a

solu¸c˜ao xµ encontrada para (P Qµ) satisfa¸ca kxµk = ∆. Isso ´e feito por tentativas:

(28)

xµ e kxµk ´e dada pelo seguinte teorema:

Teorema 2.4.2 Consideremos os pontos xµ₁, xµ₂ para 0 < µ1 < µ2. Temoskxµ₂k ≤

kxµ1k.

Prova: Como xµi minimiza qµi, i = 1, 2

q(xµ₁) + µ1kxµ₁k2 ≤ q(xµ₂) + µ1kxµ₂k2 e q(xµ₂) + µ2kxµ₂k2 ≤ q(xµ₁) + µ2kxµ₁k2. Subtraindo (µ2 − µ1)kxµ1k 2 ≥ (µ2 − µ1)kxµ2k 2 e como (µ2 − µ1) > 0 kxµ1k 2 _{≥ kx} µ2k 2_. 2 Portanto quando µ decresce os pontos xµ correspondem a solu¸c˜oes de (P∆)

para raios ∆ crescentes. Para problemas de grande porte existem m´etodos muito eficientes computacionalmente para resolver (P∆) de forma aproximada, como

Dog-Leg e o m´etodo de Steinhaug, [25].

Notemos que para cada µ _{∈ (0, +∞) existe uma ´unica solu¸c˜ao x}µ. Os

pontos xµ descrevem a curva

µ∈ (0, +∞) 7→ χ(µ) := argminnq(x) +µ 2kxµk

2o_,

chamada caminho de Levenberg-Marquardt.

Por constru¸cão, esta trajetória coincide com a trajetória ∆∈ [0, +∞) → d∆

(29)

Busca curvil´ınea. Da discussão acima conclu´ımos que o passo de região de con-fian¸ca é o resultado de uma busca sobre a trajetória de Levenberg-Marquardt, com a mesma formula¸cão do método de Armijo, substituindo o modelo quadrático pelo linear .

Caso dif´ıcil. Definimos λ1, λ2, . . . , λn autovalores de H em ordem crescente e

v1, v2, . . . , vnautovetores correspondentes. O caso dif´ıcil ocorre quando −λ1 = µ, ou

seja, (H + µI) ´e semidefinida positiva, e o vetor c ´e ortogonal ao subespa¸co gerado pelos autovetores associados a λ1 = −µ. Neste caso o problema (P Qµ) tem uma

variedade linear de minimizadores que s˜ao solu¸c˜oes de (H + µI)x =_{−c. Se µ > −λ}1,

então a solu¸cão é única e podemos definir o caminho de Levenberg-Marquardt para µ >_−λ1. Neste trabalho estamos supondo λ1 > 0.

O lema a seguir mostra que para µ_{→ +∞, x}µ tende a um passo na dire¸c˜ao

de Cauchy.

Lema 1 : Para µ_{→ +∞, temos que ∆ → 0 e} xµ kxµk →

−c

kck (dire¸c˜ao de Cauchy). Prova: Para qualquer µ > 0, temos que xµ satisfaz

(H + µI)xµ=−c

ou

µxµ=−c − Hxµ.

Pelo teorema anterior, xµ é limitado. O lado direito é limitado. Então

µxµ ´e limitado. Concluimos que lim

µ→+∞xµ = 0, limµ→+∞Hxµ = 0 e limµ→+∞µxµ = −c.

Dividindo por µ_kxµk e tomando limite para

xµ kxµk =− c µ_kxµk− Hxµ µ_kxµk , temos lim µ→+∞ xµ kxµk =₋ c kck. 2

(30)

2.5 Trajet´

oria ´

Otima para regi˜

oes tipo caixa

A trajet´oria central ser´a definida a partir do problema (2.6) com a norma ℓ∞, (PB) minimizar cT_{x +} 1 2x T Hx sujeito a _kxk∞≤ ∆ (2.11)

Como j´a comentamos o interesse neste problema esta no fato de que D∆=

{x ∈ Rn_{| −∆e ≤ x ≤ ∆e} tem o formato que se adapta a problemas com restri¸c˜oes}

do tipo caixa, muito comuns em problemas pr´aticos, e al´em disso, tem tamanho maior do que a bola euclidiana.

No algoritmo de região de confian¸ca clássico cada itera¸cão determina um minimizador do modelo em uma região onde se supõe que este é confiável; caso não o seja confiável deve-se reduzir o tamanho da região e determinar novo minimizador. No caso de caixas, o problema de minimiza¸cão a ser resolvido é um problema de programa¸cão quadrática geral.

Temos então dois métodos: um com bolas euclidianas que é eficiente e con-vergente, mas usa regiões pequenas e é pouco aplicável a problemas com restri¸cões. Um algoritmo ideal é uma busca curvil´ınea ao longo da Trajetória de Levenberg. A presen¸ca de restri¸cões lineares afeta pouco a sua implementa¸cão. Temos um método baseado em caixas, com alto custo computacional porque cada itera¸cão deve resolver um problema de programa¸cão quadrática geral. Vamos desenvolver um método in-termediário, com regiões de confian¸ca que evoluem continuamente de pequenas bolas e tendem à caixa completa: as regiões são definidas pela fun¸cão barreira logar´ıtmica.

Fun¸c˜ao Barreira Logar´ıtmica

Considere uma caixa fixa dada por _kxk∞ ≤ ∆. Nesta se¸c˜ao vamos usar

∆ = 1 e as seguintes nota¸c˜oes:

(31)

em que e = [1, 1, . . . , 1].

A fun¸c˜ao barreira logar´ıtmica associada a caixa V ´e definida por

x∈ V◦ _{7→ p(x) = −}1 2 n X i=1 log(xi + 1) + log(1− xi).

Por outro lado p(x) = −1 2log

n

Y

i=1

(xi + 1)(1− xi). Da´ı conclui-se que se

o valor de alguma das restri¸cões estiver próximo de um, ou seja, x próximo da fronteira da caixa V, o produtório fica próximo de zero e conseqüentemente p(x) cresce indefinidamente, fato que motiva o seu nome de barreira. Foi usada pela primeira vez em otimiza¸cão por Frisch [10] em 1955.

Centro Anal´ıtico. Vimos que ao nos aproximarmos internamente da fronteira de V_{, p cresce indefinidamente. Como V é limitado, conclu´ımos que a fun¸cão p possui} minimizador no interior da caixa. De fato, as derivadas de p(x) são:

[∇p(x)]i =− 1 xi+ 1 + 1 1− xi , ∇2_{p(x) = diag} 1 (xi+ 1)2 + 1 (1− xi)2 > I,

e conclu´ımos que ∇2_{p(x) ´e definida positiva e tem como ´}_{unico minimizador o ponto}

x = 0, uma vez que _{∇p(0) = 0.}

O ponto que minimiza p foi definido por Sonnevend [31] como o centro anal´ıtico de V.

Trajet´oria Central

Dado µ > 0, define-se a fun¸c˜ao penalizada associada a (PB) por

x_{∈ V}◦ _{→ p}µ(x) = q(x) + µp(x)

e o problema penalizado como

(P Pµ)

minimizar pµ(x)

sujeito a x∈ V◦_.

(32)

fronteira do conjunto compacto V e _∇2_p

µ(x) = H + µ∇2p(x) > H + µI > 0.

Portanto existe ´unico ponto xµ que resolve (2.5) e xµ ´e chamado ponto central. O

mapeamento ponto conjunto

µ_{∈ R}++ 7→ χ(µ) := argmin {pµ(x) | x ∈ V◦}

define a curva denominada de trajet´oria central .

Vamos mostrar que o problema (P Qµ) est´a relacionado com o seguinte

problema restrito:

(PK)

minimizar q(x) sujeito a p(x)≤ K, K_{∈ R.}

Teorema 2.5.1 Suponha que q(·) é convexa e xK solu¸cão de (PK). Então xK é

solu¸cão de (PK) se e só se existe µ≥ 0 tal que xKé solu¸cão de (2.5) com p(x) = K.

Prova: (_{⇒) Suponha que x}Ké solu¸cão de (PK) então existe µ≥ 0 tal que

∇q(xK) + µ∇p(xK) = 0

µ(K_{− p(x}K)) = 0

p(xK) ≤ K

µ _{≥ 0}

A condi¸c˜ao µ(K_{− p(x}K)) = 0 significa ou xK´e minimizador global de q e

p(xK) ≤ K (caso µ = 0) ou p(xK) = K. O segundo caso ocorre quando a restri¸c˜ao

p(xK)≤ K ´e ativa e µ > 0.

Observemos que para µ > 0, xK satisfaz a primeira condi¸c˜ao de KKT, que

coincide com a condi¸c˜ao necess´aria de otimalidade para (P Pµ). Como H +µ∇2p(xK)

é definida positiva segue que xKé solu¸cão única de (P Pµ).

(⇐) Por outro lado, considere µ > 0 e xµo (´unico) minimizador de pµ(·), satisfazendo

(33)

A desigualdade vale em particular para x tal que p(x)≤ p(xµ) = K, x6= xµ:

q(x) > q(xµ) + µ(p(xµ)− p(x)) = q(xµ) +

µ

2(K− p(x)) q(x) > q(xµ).

Portanto xµ ´e minimizador ´unico de q no conjunto {x ∈ V◦ | p(x) ≤ K}. 2

De acordo com o teorema, se um ponto xµpertence a trajet´oria central, xµ´e

solu¸c˜ao do problema quadr´atico restrito ao conjunto VK={x ∈ V◦| p(x) ≤ K} para

algum K _{∈ R}. Portanto ao percorrermos a trajet´oria central estamos resolvendo} problemas restritos aos conjuntos VKpara valores diferentes de K.

O teorema a seguir determina como ocorre a varia¸c˜ao de p(xµ) = K ao

variarmos µ.

Teorema 2.5.2 Consideremos os pontos xµ1, xµ2 para µ1 < µ2 < +∞ solu¸c˜oes dos

problemas penalizados (P Pµ). Temos que p(xµ1) = K1 < K2 = p(xµ2).

Prova: Como xµ1 ´e solu¸c˜ao de (P Pµ1)

q(xµ1) + µ1p(xµ1) < q(xµ2) + µ1p(xµ2).

Da mesma forma, como xµ2 ´e solu¸c˜ao de (P Pµ2)

q(xµ₁) + µ2p(xµ₁) > q(xµ₂) + µ2p(xµ₂).

Subtraindo as duas desigualdades obtemos

(µ1 − µ2)p(xµ1) < (µ1 − µ2)p(xµ2).

Como (µ1 − µ2) > 0 segue que

(34)

Ou K1 < K2. 2

2.6 Compara¸c˜

ao entre os m´

etodos

No caso de regi˜oes de confian¸ca do tipo B∆ uma itera¸c˜ao do algoritmo faz

uma busca na trajetória de Levenberg-Marquardt: se o modelo não é confiável reduz ∆ (ou aumenta-se µ) até o modelo ser confiável. No caso de regiões tipo caixa, vamos seguir a trajetória central a partir do centro anal´ıtico que coincide com o ponto a partir do qual o modelo foi constru´ıdo e percorrer a trajetória (aumentando e reduzindo µ) até o modelo deixar de ser confiável. Desta forma as regiões de confian¸ca são os conjuntos VK. Na se¸cão 2.8 escrevemos um algoritmo completo,

incluindo a escolha do tamanho das caixas.

Os conjuntos B∆ e VK

Nesta se¸c˜ao apresentamos dois lemas importantes que relacionam os con-juntos B∆ e VKe caracterizam o comportamento entre as duas trajet´orias.

Esses dois lemas foram formulados a partir do estudo da rela¸c˜ao entre as fun¸c˜oes: p(x) e kxk

2

2 .

Considere x_{∈ V. Temos que p(x) = −}1 2

n

X

i=1

log(xi+ 1) + log(1− xi). Vamos

expandir cada parcela em s´erie de Taylor: definimos para i = 1, ...n

pi(xi) =−

1

2log(xi+ 1) + log(1− xi). Sabemos que para_|xi| < 1,

log(1 + xi) = xi− x2 i 2 + x3 i 3 − . . . .

Portanto a expans˜ao de p em torno de 0 em cada componente ´e dada por :

pi(xi) = x2i 2 + x4i 4 + x6i 6 +·· ≥ x2i 2 (2.12)

(35)

e p(x) = kxk 2 2 2 + kxk4 4 4 + kxk6 6 6 + . . .≥ kxk2 2 2 (2.13)

Podemos obter a express˜ao para a derivada p′

i(xi),

p′i(xi) = xi+ x3i + x5i +··,

∇p(x) = x + x2+ x3+ . . . ; e a segunda derivada para cada i,

p′′i(xi) = 1 + 3x2i + 5x5i +·· > 1 + 3x2i > 1 para todo xi 6= 0. (2.14)

Ao definirmos X = diag(x) obtemos

∇2p(x) = I + 3X2+ 5X5+ . . . > I + 3X2 > 1 para x _{6= 0.} Conclu´ımos de (2.13) que p(x)_≥ kxk

2

2 , para todo x ∈ V

◦_.

Por (2.12) p cresce mais do que kxk

2

2 perto de zero.

De (2.14) conclu´ımos que próximo de zero a hessiana é próxima da identidade.

Lema 2 Consideremos ∆ > 0. Para K≤ ∆

2

2 , V⊂ B∆. Prova: Consideremos x _{∈ R}n _{tal que x} _{∈ V}

K. Temos que p(x) ≤ K ≤

∆2

2 . Como kxk2

2 ≤ p(x) segue que kxk ≤ ∆. Logo x ∈ B∆. 2 Lema 3 Consideremos x_{∈ R}n _{tal que} _{kxk ≤} 1

2. Ent˜ao kxk2 2 2 ≤ p(x) ≤ 7 6 kxk2 2 2 Se ∆_≤ 1 2, ent˜ao para K = ∆2 2 e ∆ ′ =r 6 7∆ B_∆_{⊃ V}_K_{⊃ B} ∆′

(36)

Prova: Ao expandirmos a fun¸cão p em série de Taylor obtemos que a i-ésima componente de p(x) é dada por:

pi(xi) = x2 i 2 + x4 i 4 + x6 i 6 +·· ≤ x2 i 2 + x4 i 4 (1 + x 2 i + x4i +· · ·). Como _|xi| < 1, pi(xi)≤ x2 i 2 + x4 i 4 1 (1_{− x}2 i) ≤ x 2 i 2 + x4 i 4 1 1_{− kxk}2 ∞ . Logo p(x)≤ kxk 2 2 2 + kxk4 4 4 1 1_{− kxk}2 ∞ e comokxk4

4 ≤ kxk22 para x tal que kxk∞< 1,

p(x) _≤ kxk 2 2 2 1 + kxk 2 2 2(1_{− kxk}2 ∞) . Parakxk ≤ 1 2 temos p(x)_≤ 7 6 kxk2 2 2 , por outro lado, de acordo com (2.13)

p(x)_≥ kxk

2 2

2 .

A segunda afirma¸c˜ao do lema segue diretamente da primeira, pelo racioc´ınio

usado no lema 2. 2

Conclu´ımos que quando ∆ ´e pequeno e K = ∆

2

2 as regiões B∆ e VK são muito semelhantes. À medida que ∆ cresce elas se afastam, com VK tendendo à

(37)

Figura 2.3: Regi˜oes de confian¸ca e trajet´orias.

2.7 Generaliza¸c˜

ao

Vamos considerar o problema de regi˜ao de confian¸ca em caixas gerais:

Vv ₌_{{x ∈ R}n _{| − v ≤ x ≤ v}, com v ∈ R}n

++, e interior ◦

Vv_. Definimos V = diag(v) e a fun¸c˜ao barreira para Vv_,

−v < x < v 7→ pv(x) =− 1 2 n X i=1 log(vi− xi) + log(vi+ xi).

Vamos definir também as regiões elipsoidais (elipsóides de Dikin) para ∆ > 0. Bv ∆ ={x ∈ Rn | kV−1xk ≤ ∆} e as regiões para K > 0 Vv_K₌_{{x ∈ V}v _{| p}_v_(x)_{− p}_v₍₀₎_{≤ K}.} Note que B∆= Be∆ e VK= VeK.

(38)

Lema 4 Nas condi¸cões acima, temos: (i) x _{∈ V}v _{se e só se} k¯xk∞≤ 1 (ii) x_{∈ B}v ∆ se e só se ¯x∈ B∆ (iii) ( _{∀x ∈}V◦v_{) p} v(x)− pv(0) = p(¯x). (iv) x∈ Vv Kse e só se ¯x∈ VK (v) x∗ _{minimiza q(x) em B}v ∆ se e só se ¯x∗ minimiza q(V ¯x) em B∆ (vi) x∗ _{minimiza q(x) + µp} v(x) em Vv se e só se ¯x∗ minimiza q(V ¯x) + µp(x) em V_.

Prova: (i) e (ii) s˜ao triviais. (iii) Para x_∈ V◦v_{, log(v}

i− xi) = log vi + log 1₋xi vi . Somando, pv(x) =− 1 2 " 2 n X i=1 log vi+ + n X 1=1 log(1_{− ¯}xi) + n X i=1 log(1 + ¯xi) # . O resultado segue de pv(x)(0) =−Pn_i=1log vi.

(iv), (v) e (vi) seguem trivialmente de (i) a (iii) por mudan¸ca de vari´aveis. 2

Conclus˜ao

Para o método de regiões de confian¸ca tradicional, as regiões Bv

∆ s˜ao os

elipsóides de Dikin associados ao centro da caixa. Para o método de região de con-fian¸ca definidas por pv, basta fazer uma busca curvil´ınea sobre a trajetória central,

o que ´e equivalente a fazer uma mudan¸ca de escala e seguir a trajet´oria definida por kxk∞≤ 1.

2.8 Algoritmos de regi˜

oes de confian¸ca definidas

pela barreira

Vamos descrever uma itera¸cão do algoritmo, usando caixas definidas por kdk∞ ≤ ∆. A itera¸cão faz uma busca do tipo Armijo sobre a trajetória central

(39)

Figura 2.4: Regioes de confian¸ca e trajet´orias no caso geral.

na caixa, reduzindo o parˆametro µ enquanto µ > ε e ared(dµ) > αpred(dµ), com

α = 0.5, (por exemplo) e ε uma precis˜ao para o algoritmo de trajet´oria. ´

E necess´ario discutir dois pontos:

(i) O algoritmo de trajet´oria central: usaremos m´etodos primais-duais, discutidos no cap´ıtulo 3.

(ii) A inicializa¸cão do algoritmo: este é um ponto muito delicado, que foi resolvido na tese de R. Behling [1] e será descrito no cap´ıtulo seguinte. Vimos que os conjuntos B∆ e VK são muito semelhantes para um raio ∆ menor ou igual a

∆

2. Desta forma é natural que um ponto inicial para seguir a trajetória central possa ser dado pela solu¸cão dµ do problema de região de confian¸ca usando

B_∆_{. Resultado surpreendente é obtido na tese de R. Behling. Prova-se que o} µ associado a dµ na trajetória de Levenberg- Marquardt é o µ associado ao

ponto da trajet´oria central xµ pr´oximo de dµ.

Notemos ainda que como dµ ´e obtido de um problema de regi˜ao de confian¸ca

pode ocorrer que ared(dµ) < αpred(dµ). Neste caso ∆ ´e reduzido e faz-se o

m´etodo tradicional de regi˜ao de confian¸ca.

Apresentamos a seguir uma itera¸c˜ao do algoritmo de regi˜ao de confian¸ca.

Algoritmo 2.8.1 Regi˜ao de confian¸ca baseado na fun¸c˜ao barreira

Dados: x0 _{∈ R}n_{, α}

∈ (0, 1) fixo , ε e ∆ > 0 ( Por exemplo, α = 0.25, ∆ = 1.) k = 0

(40)

enquanto _k∇f(xk₎_{k 6= 0} Construa o modelo d7→ mk(d) = ∇f(xk) T d +1 2d T_H kd. Calcule dµ = argmin mk(d) | kdk ≤ ∆ 2 e obtenha µ0 _{multiplicador de} Lagrange se ared(dµ)≤ αpred(dµ)

siga a trajet´oria de Levenberg-Marquardt para µ ∈ (µ0_{, +}_∞)

sen˜ao

siga a trajet´oria central com µ < µ0 _{at´e encontrar um ponto d} µ

com ared(dµ)≤ αpred(dµ) ou µ≤ ε

k = k + 1 Fim.

A figura 2.5 ilustra uma itera¸cão do algoritmo. A trajetória de Levenberg-Marquardt está em vermelho e a trajetória central está em azul. Para um raio menor ou igual a 1/2 as trajetórias são muito parecidas. Determinamos um ponto inicial na trajetória de Levenberg-Marquardt, se o modelo for confiável neste ponto abandonamos esta e seguimos a central. Podemos dizer que no algoritmo de região de confian¸ca proposto seguimos uma trajetória h´ıbrida.

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2

(41)

Determina¸c˜ao de ∆ para a itera¸c˜ao seguinte: seja d aceito.

• Se ared(d) > βpred(d), com β ∈ (α, 1), (por exemplo, β = 0.75) aumentar ∆ com ∆ = 2_kdk∞

• Sen˜ao, fazer ∆ = min{∆, γkdk∞}, com γ > 1 (por exemplo, γ = 1.5.)

No caso de uma caixa qualquer [l, u] =_{{x ∈ R}n _{| l ≤ x ≤ u}, definimos}

o vetor v = u− l

2 e V = diag(v). Com a mudan¸ca de escala x = V ¯z aplicamos o lema anterior. Deve-se minimizar m(V ¯z) na bola _{{¯z ∈ R}n _{|¯z ≤ ∆/2} ou seguir a}

trajet´oria (Levenberg-Marquardt ou central) na caixa [−e, e].

Restri¸c˜oes lineares. Suponhamos que restri¸c˜oes de igualdade Ax = b, A∈ Rm×n

de posto completo com m < n sejam adicionadas ao problema irrestrito (2.1). Neste caso, o problema de regi˜ao de confian¸ca em torno de um ponto xk _{tal que Ax}k _{= b}

(42)

M´

etodos de Pontos Interiores

Primais-Duais

Como o algoritmo de região de confian¸ca proposto nesta disserta¸cão deve se-guir a trajetória central, o objetivo neste cap´ıtulo é apresentar um algoritmo primal-dual que gera pontos em uma vizinhan¸ca da trajetória, possibilitando a busca a ser feita no algoritmo 2.8.1.

Além do algoritmo, enunciamos o resultado obtido na disserta¸cão de Behling [1], já introduzido na cap´ıtulo 2.

Antes de apresentarmos o algoritmo vamos revisar na primeira se¸c˜ao alguns conceitos sobre a teoria primal dual de pontos interiores, com base em Gonzaga [14] e nos livros de S.Wright [32], de Bonnans e outros [4], Nocedal e Wright [25].

3.1 Revis˜

ao de conceitos

O formato padrão para o problema a ser resolvido neste cap´ıtulo é o pro-blema geral de programa¸cão quadrática convexa com restri¸cões lineares:

minimizar cT_{x +}1 2x T_Hx sujeito a Ax = b x≥ 0 (3.1)

(43)

com x, c_{∈ R}n_{, b} _{∈ R}m_{, A} _{∈ R}m×n _{e H} _{∈ R}n×n _{uma matriz sim´etrica semi-definida}

positiva. Vamos supor que A tem posto completo.

3.1.1 Trajet´

oria Primal-Dual

A condi¸cão necessária e suficiente de otimalidade (KKT) para o problema é: −Hx + AT y + s = c (3.2) Ax = b (3.3) x s = 0 (3.4) x, s≥ 0, (3.5)

em que x s denota o produto componente a componente dos vetores.

Para resolver (3.1) devemos encontrar (x, s, y) que resolvem as condi¸cões de KKT. A dificuldade está em resolver (3.4), já que este é um problema combinatório. Obteremos um problema mais simples se relaxarmos a complementariedade fazendo para µ > 0 xisi = µ, i = 1, . . . n. −Hx + AT_{y + s = c} _(3.6) Ax = b (3.7) x s = µe (3.8) x, s > 0. (3.9)

O método primal-dual resolve aproximadamente as condi¸cões de KKT re-laxadas. Com isso elimina-se o problema combinatório e as desigualdades passam a ser x, s > 0, definindo um conjunto aberto.

(44)

central associado ao parˆametro µ. Variando µ define-se a curva

C₌_{(x_µ_{, s}_µ_{, y}_µ₎_{| µ > 0},} chamada trajet´oria central.

Para caracterizar um ponto central primal-dual ´e suficiente especificar (xµ, sµ),

uma vez que y é univocamente determinado por (3.6) com A de posto completo. Daqui em diante falaremos em solu¸cões primais-duais (x, s). O ponto xµé chamado

parte primal, sµ ´e chamada parte dual, e o par (xµ, sµ) ´e chamado par primal dual.

Quando µ tende a zero a solu¸c˜ao do sistema de KKT relaxado tende a uma solu¸c˜ao do sistema de KKT exato, satisfazendo (3.4).

O lema a seguir relaciona a trajet´oria central primal dual com a trajet´oria primal definida no cap´ıtulo 2.

Lema 5 Dado µ > 0, xµ ´e um ponto central primal de (3.1) associado a µ se e s´o

se (xµ, sµ) ´e ponto central primal-dual associado a µ.

Ou seja, um ponto xµda trajet´oria central primal associado a um determinado µ > 0

´e a parte primal xµ do ponto central associado ao mesmo µ.

Vamos denotar por Γ o conjunto dos pares primais duais vi´aveis

Γ =_{{(x, s) ∈ R}2n₊ _{| Ax = b, −Hx + s + A}Ty = c, para algum y _{∈ R}m_{} (3.10)} e por Γ◦ _{o conjunto de pares primais duais interiores}

(45)

3.1.2 Proximidade e

Vizinhan¸cas da Trajet´

oria Central

Os algoritmos de pontos interiores seguem a trajet´oria central ou alguma vizinhan¸ca dela. Dado µ > 0, queremos encontrar (x, s) tal que x s = µe. Podemos avaliar o desvio desta condi¸c˜ao por uma medida de proximidade.

Defini¸c˜ao 3.1.1 Dados um ponto (x, s) ∈ Γ◦ _{e µ > 0, a proximidade de (x, s) ao}

ponto (xµ, sµ) ´e definida por

δ(x, s, µ) = x s µ − e .

Uma proximidade δ(x, s, µ) < α, com α∈ (0, 0.5) indica que (x, s) est´a pr´oximo ao ponto central associado a µ.

Frequentemente s˜ao dados x e s e procura-se um valor de µ tal que δ(x, s, µ) seja pequeno. Assim, dado (x, s)_{∈ Γ}o _{define-se a seguinte medida de proximidade}

δ(x, s) = min µ>0 x s µ − e . (3.12)

A solu¸c˜ao deste problema resulta em

µ∗(x, s) = kx sk

2

xT_s . (3.13)

Porém, o valor de µ mais utilizado, muito próximo deste, é dado pelo mini-mizador de δ(x, s) := min µ>0kx s − µek, dado por µ(x, s) = x T_s n . (3.14)

Em programa¸cão linear e quadrática nµ(x, s) é o valor do gap de dualidade e em particular, em um ponto central, x s = µe, µ = xT

s n .

(46)

Isto justifica os algoritmos de trajetória central, que geram seqüências (xk_{, s}k_{, µ}k₎

com µk_{→ 0.}

Vizinhan¸cas da Trajet´oria Central

Dado α ∈ (0, 1), a vizinhan¸ca N(α) da trajet´oria central ´e definida pelo conjunto:

N(α) =_{{(x, s) ∈ Γ}◦ _{| δ(x, s, µ) ≤ α, para algum µ > 0}.}

Vamos descrever um algoritmo que segue a trajet´oria central gerando pares primais-duais em N(α) para um dado α, por exemplo α = 0.5. Existem outras medidas de proximidade que geram vizinhan¸cas maiores:

δ(x, s, µ)∞ = x s µ − e ∞ e δ(x, s, µ)−∞= x s µ − e −∞ ,

com _kyk−∞= max{|yi| : yi ≤ 0}. Apesar da nota¸cão, k · k−∞ não é uma norma.

A vizinhan¸ca “menos infinito” ´e definida por

N−∞(α) ={(x, s) ∈ Γ◦ | δ(x, s, µ)−∞ ≤ α para algum µ > 0.} (3.15)

Para valores pequenos de (1_{− α) (um valor comum ´e 10}−3_{), N}

−∞ pode

englobar quase toda regi˜ao Γ◦_{. Desta maneira podemos redefinir N como}

N−∞(α) ={(x, s) ∈ Γ◦ |

x s

µ ≥ (1 − α)e, µ > 0}.

Assim N−∞ ´e um conjunto muito maior do que N2. Mas em geral a teoria

de convergência com N−∞ é muito mais complicada. A figura 3.1 ilustra as três

(47)

C N2

N−∞

N∞

Figura 3.1: Compara¸c˜ao das vizinhan¸cas da trajet´oria central

3.2 Algoritmos:

Cada itera¸cão de um algoritmo viável primal-dual da trajetória central parte de um ponto (xk_{, s}k_{, y}k₎

∈ Γ◦ _{e de um parˆametro µ > 0 satisfazendo uma medida}

de proximidade δ(xk_{, s}k_{, µ}k₎_{≤ α para algum α fixo. Dado um parˆametro σ ∈ (0, 1)}

o algoritmo faz itera¸c˜oes de Newton para encontrar aproximadamente o ponto da trajet´oria associado a σµ.

Passo de Newton

Vamos definir F (_{·) uma fun¸c˜ao vetorial definida pelas condi¸c˜oes de KKT} relaxadas F (x, s, y) =      −Hx + AT_{y + s}_{− c} Ax− b XSe_{− σµe}      (3.16)

para y _{∈ R}m_{, x, s} _{∈ R}n_{, S e X denotam as matrizes cujas diagonais s˜ao dadas}

pelos vetores s e x, respectivamente.

Vamos dar um passo de Newton para para a resolu¸c˜ao de F (x, s, y)=0 su-pondo que estamos saindo de um ponto (x, s, y) tal que (x, s) _{∈ V}◦_{. Para isso}

(48)

precisamos resolver a equa¸c˜ao F′(x, s, y)(dx, ds, dy) = −F (x, s, y). (3.17) Temos que −F (x, s, y) =      0 0 σµe− XSe      ,

pois temos como hip´otese (x, s, y)∈ Γ◦_{. Substituindo em (3.17) obtemos em formato}

matricial      −H I AT A 0 0 S X 0           dx ds dy      =      0 0 σµe− XSe      . (3.18)

A solu¸c˜ao (∆x, ∆s, ∆y) do sistema ´e o passo de Newton.

A itera¸c˜ao termina com uma busca ao longo da dire¸c˜ao de Newton tal que o novo ponto (xγ, sγ, yγ) := (x + γ∆x, s + γ∆s, y + γ∆y) perten¸ca a uma determinada

vizinhan¸ca da trajet´oria central, ou seja, satisfa¸ca δγ(xγ, sγ)≤ α, com

δγ(xγ, sγ) = xγsγ µγ − e , com µγ = xT γsγ n (3.19)

Os diversos algoritmos primais-duais de trajetória central diferem no cálculo do passo γ, na escolha de σ a cada itera¸cão, na forma de obter a dire¸cão (dx, ds, dy)

e na vizinhan¸ca N(α) na qual os pontos devem permanecer.

A eficiˆencia dos algoritmos est´a baseada no seguinte teorema.

Teorema 3.2.1 Dados (x, s) ∈ Γ◦ _{e µ}+ _{> 0 tais que δ(x, s, µ}+_{) = δ < 1, seja}

(x+_{, s}+_{) o resultado de um passo de Newton para 3.18 a partir de (x, s). Ent˜ao}

δ(x+_{, s}+_{, µ}+₎_≤ _√1

8 δ2

1_{− δ}. Em particular, se δ ≤ 0.5, ent˜ao δ(x

+_{, s}+_{, µ}+₎_{≤ δ}2_.

A demonstra¸cão está feita em detalhes em [4]. Isto mostra que o passo de Newton é muito eficiente em uma ampla região.

(49)

3.3 Algoritmo de passo mais longo

Existe uma vasta literatura sobre o passo primal-dual. A questão central é a escolha de σ: σ pequeno for¸ca um passo longo, mas o passo de Newton pode não ser aceitável; σ próximo de 1 faz uma “centraliza¸cão”, aproximando o ponto da trajetória central sem avan¸car.

Sabemos que o passo de Newton é eficiente se todos os pontos estiverem em uma região “próxima” da trajetória central. O método exposto adiante calcula a cada itera¸cão o passo de Newton mais longo poss´ıvel, tal que o novo ponto permane¸ca em uma vizinhan¸ca da trajetória central.

No algoritmo de passo mais longo são calculadas separadamente, a partir de (x, s, y), duas dire¸cões extremas dc_{, d}a_{∈ R}2n+m_{: d}c _{é a solu¸cão do sistema (3.18)}

quando σ = 1, chamada dire¸cão de centraliza¸cão; da _{é a solu¸cão de (3.18) quando}

σ = 0, chamada solu¸c˜ao afim-escala, da_;

σ = 0 : (xa_{, s}a_{, y}a_{) = (x}k_{, s}k_{, y}k_{) + d}a _(3.20)

e

σ = 1 : (xa_{, s}a_{, y}a_{) = (x}k_{, s}k_{, y}k_{) + d}c _(3.21)

A dire¸cão de Newton que seria obtida resolvendo o passo de Newton para σ∈ [0, 1] é uma combina¸cão convexa destas dire¸cões, dada por

d = (dx, ds, dy) = σdc+ (1− σ)da. (3.22)

O valor de σ deve ser tal que o novo ponto (x+_{, s}+_{, y}+_{) permane¸ca em uma}

vizinhan¸ca da trajet´oria central, mas determine o maior passo poss´ıvel nesta regi˜ao. Por exemplo, ao escolhermos a vizinhan¸ca N2(0.5), σ deve satisfazer

(σxc _{+ (1}_{− σ)x}a_)(σsc_{+ (1}_{− σ)s}a₎ σµ − e 2 = 0.5. (3.23)

(50)

resolvê-la escolhemos σ _{∈ [0, 1) real: caso tenha mais de uma raiz em (0, 1) tomamos} a menor. Se não existir raiz real, o passo de Newton completo com σ = 0 é aceito e o problema é fácil.

Definimos (xk+1_{, s}k+1_{, y}k+1_{) := (x, s, y) + σ d}c_{+ (1}_{− σ) d}a _{e µ}k+1 _{:= σµ. E}

´e feita nova itera¸c˜ao.

A figura 3.2 ilustra uma itera¸c˜ao do m´etodo do passo mais longo.

C dxc

dxa

(xk_{, s}k_{, y}k₎

(xk+1_{, s}k+1_{, y}k+1₎

Figura 3.2: Passo mais longo O algoritmo possui a estrutura que se segue: Algoritmo 3.3.1 Algoritmo do Passo mais longo Dados: Dados: (x0_{, s}0_{, y}0₎_{∈ N}

2(0.5) e µ0 > 0 tais que δ(x0, s0, µ0)≤ 0.5.

k = 0 Repita

x := xk_{; s := s}k_{; y := y}k_{; µ = µ}k_.

Calcule a dire¸c˜ao afim-escala da _{resolvendo o sistema (3.18) para σ = 0.}

Calcule a dire¸c˜ao afim-escala dc _{resolvendo o sistema (3.18) para σ = 1.}

Encontre σ solu¸c˜ao de (3.23).

Defina o novo ponto: (xk+1_{, s}k+1_{, y}k+1_{) := (x, s, y) + σ d}c_{+ (1}_{− σ) d}a_.

µk+1 _{:= σµ}

(51)

At´e a convergˆencia

O algoritmo descrito nesta se¸c˜ao foi desenvolvido por Mcshane [24] e es-tudado por Gonzaga [14] e Gonzaga e Bonnans [15]. Para detalhes e teoria, ver [14].

Par viável inicial. Para utilizar o algoritmo é necessário conhecer um par primal-dual (x0_{, s}0_{) viável inicial, próximo à trajetória central. Se o centro anal´ıtico existe}

e ´e conhecido, este problema foi resolvido na tese de mestrado de Behling [1]. Supondo inicialmente que o centro anal´ıtico do conjunto

{x ∈ Rn

|Ax = b, x ≥ 0}

´e o ponto e, Behling considera o problema de regi˜ao de confian¸ca em torno de e :

minimizar q(e + d) sujeito a Ad = 0

kdk2 ≤ ∆.

(3.24)

Considere dµ solu¸c˜ao de (3.24) com ∆ = kdµk e µ > 0 o multiplicador de

Lagrange associado a restri¸c˜ao da bola. Behling mostra que s = µ(e_{− d}µ) ´e folga

dual viável para x = e + dµ, ou seja, (x, s) é par dual viável.

O teorema formulado ´e o seguinte:

Teorema 3.3.1 : Seja dµ uma dire¸c˜ao tal que Adµ= 0 e dµµ =−P (∇f(e + dµ)).

Então s = µ(e_{− d}µ) é folga dual viável.

Mostra-se ainda que sekdµk2 ≤

1 √

2 ent˜ao δ(x, s, µ)≤ 1 2. Ou seja, para µ suficientemente grande tal que kdµk2 ≤

1 √

2 o ponto x = e + dµ na trajet´oria de Levenberg- Marquardt de (3.24) determina o par primal-dual vi´avel x = e + dµ, s = µ(e− dµ) tal que (x, s) ∈ N2(0.5).

O resultado para centro anal´ıtico qualquer segue por uma mudan¸ca de es-cala. Suponha que o centro anal´ıtico primal ´e θ∈ Rn_{. Fazendo a mudan¸ca de escala}

¯

(52)

acima fornece uma dire¸c˜ao ¯d. O par primal-dual associado ser´a (θ(e+ ¯d), θ−1_(e_{− ¯}_d)).

Note que a dire¸cão θ ¯d é o resultado do problema de região de confian¸ca no elipsóide definido por _{kd/θk ≤ 1/2.}

Um método de busca de (x, s), já adaptado para um centro anal´ıtico x = θ qualquer esta descrito em [1]. Ele parte de um valor de µ inicial positivo, e segue a trajetória de Levenberg-Marquardt aumentando µ até que o ponto esteja na região de raio ∆/2, isto é, na região correspondente ao elipsóide_{{x ∈ R}n_{| k(x−θ)/θk ≤ ∆/2}.}

Em nosso algoritmo no cap´ıtulo anterior, supusemos que está dispon´ıvel um algoritmo para encontrar um minimizador do modelo quadrático em uma bola de raio menor ou igual a 1/2 (com a devida mudan¸ca de escala). Essa minimiza¸cão, pelo teorema acima, fornece um par primal-dual viável associado ao valor de µ obtido no problema de região de confian¸ca, que será usado como ponto inicial para o algoritmo de trajetória central.

(53)

Programa¸c˜

ao Quadr´

atica

Seq¨

uencial e Filtros

Os dois cap´ıtulos anteriores descrevem o algoritmo de região de confian¸ca proposto nesta disserta¸cão. Já este cap´ıtulo e o próximo são dedicados exclusiva-mente a utiliza¸cão do algoritmo de região de confian¸ca no método de filtro proposto por Gonzaga, Karas e Vanti em [13] para a resolu¸cão de um problema de pro-grama¸cão não linear com com formato geral.

Neste cap´ıtulo apresentamos o problema de programa¸cão não linear a ser resolvido, algumas defini¸cões e hipóteses gerais e finalmente descrevemos brevemente o método de filtro.

A aplica¸cão do algoritmo de região de confian¸ca no método de filtro está descrita no cap´ıtulo 5.

4.1 Programa¸c˜

ao N˜

ao Linear com Restri¸c˜

oes de

Igualdade e Vari´

aveis n˜

ao Negativas

O problema de programa¸cão não linear estudado possui restri¸cões de igual-dades e variáveis não negativas:

(54)

(P )

minimizar f (x) sujeito a g(x) = 0

x≥ 0.

com f : Rn_{→ R e g : R}n_{→ R}m_{. Vamos supor ambas de classe C}2 _{e m}_{≤ n. Como j´a}

comentamos o interesse neste formato esta no fato de que problemas com restri¸cões de desigualdades podem ser transformadas em restri¸cões de igualdade com inclusão de variáveis de folga.

Apresentamos a seguir as principais defini¸c˜oes e hip´oteses.

Denotamos a matriz Jacobiana da fun¸c˜ao g aplicada ao ponto x_{∈ R}n _por

A(x) com

AT_{(x) = [}

∇g1(x),· · · , ∇gm(x)].

Fun¸cão Lagrangiano. A fun¸cão Lagrangiano associado ao problema (P ) é definida por

(x, λ, s)_{∈ R}n

× Rm

× Rn

+ → L(x, λ, s) = f(x) + λTg(x)− sTx.

Sua derivada ´e dada por

∇xL(x, λ, s) =∇f(x) + AT(x)λ− s.

Para estabelecermos as condi¸cões de Karush-Kuhn-Tucker vamos assumir que vale a condi¸cão de qualifica¸cão de Mangassarian-Fromovitz (CQMF):

Um ponto x_{∈ R}n _{vi´avel para (P ) satisfaz CQMF se e s´o se}

(i) A matriz A(x) tem posto completo

(ii) Existe uma dire¸c˜ao d _{∈ N(A(x)) tal que d}I(x) > 0, em que I(x) = {i =

1, . . . , n | xi = 0} ´e o conjunto ativo em x.

(55)

(P ) e satisfaz a CQMF, ent˜ao existem ¯λ _{∈ R}m _{e ¯}_s_{∈ R}n _{tais que} ∇f(¯x) + A(¯x)T_λ_¯ − ¯s = 0 (4.1) c(¯x) = 0 (4.2) ¯ x¯s = 0 (4.3) ¯ x, ¯s_{≥ 0} (4.4)

Al´em disso para toda dire¸c˜ao d∈ Rn _{tal que A(¯}_x)T_{d = 0 e d}

I(x)= 0,

dT∇xxL(¯x, ¯λ, ¯s)d≥ 0.

Condi¸c˜ao Suficiente de Otimalidade. Suponha que em um ponto ¯x _{∈ R}n _s˜ao

satisfeitas as condi¸cões de KKT com multiplicadores ¯λ, ¯s. Suponha também que ¯x satisfaz CQMF e além disso

∀d ∈ N(A(¯x)) com dI(x) = 0, dT∇xxL(¯x, ¯λ, ¯s)d > 0.

Então ¯x é solu¸cão ótima de (P ).

Pontos interiores. Em nosso algoritmo vamos exigir que

xk _{> 0, k = 0, 1, . . . .}

Vamos ainda definir a fun¸c˜ao inviabilidade:

Medida de inviabilidade. A inviabilidade ´e medida por

x_{∈ R}n

++ → h(x) := kg(x)k,

em que _{k · k ´e uma norma qualquer em R}n_{. Usaremos a norma euclidiana.}

Na próxima se¸cão descrevemos o método de Programa¸cão Quadrática Se-quencial (PQS) e o algoritmo de filtro.