DISSERTAÇÃO DE MESTRADO
MÉTODOS DERIVATIVE-FREE PARA
RESOLVER UM PROBLEMA DE
PROGRAMAÇÃO NÃO LINEAR COM
RESTRIÇÕES LINEARES
Tulio Emiro López Erazo Aluno
Prof. Dra. Véra Lucia da Rocha Lopes Orientadora
DMA - IMECC - UNICAMP Dezembro de 2007
À meus pais Franco Tulio (in memorian) e Dolores Sofía.
Agradeço a minha orientadora pela paciência e conança; a UNICAMP pela oportunidade de estudar em ela; ao equipe de professores da Pós-Graduação em Matemática Aplicada da UNICAMP por todos os conhecimentos que puseram ao interior de minha testa; à banca examinadora por ler esta dis-sertação e pelas sugestões dadas, que muito contribuíram para melhoria dela; Agradeço especialmente a meus padres, Franco T. López e Dolores S. Era-zo, a meus irmãos e em geral a toda minha família por o grande apoio dado desde Colombia nas horas difíceis; Agradeço também a minha esposa, Liliana Jiménez Urrea, por su gram apoio e companhia em mi estadia no Brasil; Agradeço a todos meus amigos no Brasil, os quais estiveram sempre presentes, e na fase nal muito me estimularam na elaboração deste trabalho, especialmente a Cristiano Torezzan e sua esposa Gláucia. Não posso esque-cer de agradeesque-cer a Maribel del Carmen Diaz que foi um apoio constante em minha estadia no Brasil. Por último agradeço a Deus e a Virgem santíssima, os únicos seres que em todo momento cam de nosso lado.
CONTEÚDO
Introdução 1
Símbolos usados 5
1 Conceitos fundamentais em otimização 6
2 Método de Lewis-Torczon 14
2.1 Introdução . . . 14
2.2 Denições preliminares . . . 14
2.3 Busca padrão em minimização irrestrita . . . 17
2.4 Solução do problema (1) . . . 18
2.5 O método de Lewis-Torczon . . . 19
2.6 O algoritmo . . . 21
3 Método de Lucidi-Sciandrone-Tseng 22 3.1 Introdução . . . 22
3.2 Estimativa das restrições ativas . . . 22
3.3 Direções de busca . . . 24
3.4 Um primeiro resultado de convergência . . . 30
3.5 Um segundo resultado de convergência . . . 32
3.6 O método de Lucidi-Sciandrone-Tseng, sob a condição 1 . . . 33
3.7 O algoritmo, sob a condição 1 . . . 33
3.7.1 O procedimento Expansão do passo . . . 34
4.1.2 Aumento ou decréscimo do passo ∆k . . . 37
4.2 Método de Lucidi-Sciandrone-Tseng . . . 37
4.2.1 Cálculo de um conjunto de índices de restrições -ativas 38 4.2.2 Cálculo da matriz Ak. . . 38
4.2.3 Obtenção de um conjunto de direções Dk que satisfaz a condição 1 . . . 39
4.2.4 Cálculo do passo máximo . . . 40
4.2.5 Expansão do passo . . . 45 5 Testes numéricos 47 5.1 Método de Lucidi-Sciandrone-Tseng . . . 47 5.1.1 Escolha de parâmetros . . . 47 5.1.2 Critério de parada . . . 48 5.2 Método de Lewis-Torczon . . . 48 5.2.1 Escolha de parâmetros . . . 48 5.2.2 Critério de parada . . . 48 5.3 Resultados de alguns problemas da coleção Hock-Schittkowski 53
Conclusões 61
Referências 63
INDICE DE TABELAS
5.1 Solução dos problemas (5.1) e (5.2). . . 51 5.2 Problemas com restrições de desigualdade e/ou de caixa. . . . 55 5.3 Porcentagem das iterações e das avaliações da função f feitas
pelo método de Lucidi-Sciandrone-Tseng respeito do método de Lewis-Torczon. . . 56 5.4 Resultados reportados em [5]. . . 57 5.5 Outros problemas com restrições de desigualdade. . . 57 5.6 Porcentagem das iterações e das avaliações da função f feitas
pelo método de Lucidi-Sciandrone-Tseng respeito do método de Lewis-Torczon. . . 57 5.7 Problemas com restrições de desigualdade e/ou de caixa e/ou
de igualdade. . . 59 5.8 Porcentagem das iterações e das avaliações da função f feitas
pelo método de Lucidi-Sciandrone-Tseng respeito do método de Lewis-Torczon. . . 59
1.1 Exemplos de cones em <2. . . 10
1.2 Exemplos de cones gerados em <2. . . 11
1.3 Exemplos de cones polares em <2. . . 12
1.4 Exemplos de cones normais em <2. . . 13
1.5 Exemplos de cones tangentes em <2. . . 13
2.1 Região factível em <2, com restrições de desigualdade. . . 15
2.2 Região factível e pontos factíveis em <2. . . 16
2.3 Padrão de direções coordenadas em <2. . . 18
2.4 (a) Pk= Dk=d1k, d2k , e (b) Pk= {±ei: i = 1, · · · , n}. . . . 20
3.1 Região factível do exemplo (3.3.1). . . 26
3.2 Conjunto TA(xk;k)(xk)do exemplo 3.1 . . . 28
4.1 Passo αk com restrições de desigualdade em <2. . . 41
4.2 Passo αk com gi ativa no ponto xk. . . 42
4.3 Passo αk com gi não ativa no ponto xk. . . 43
4.4 Passo αk com restrições de igualdade em <2. . . 44
4.5 Passo αk com restrições de desigualdade e igualdade em <2. . 44
5.1 Solução gráca do problema (5.1) com os métodos de Lucidi-Sciandrone-Tseng e Lewis-Torczon. . . 50
5.2 Solução gráca do problema (5.2) com os métodos de Lucidi-Sciandrone-Tseng e Lewis-Torczon. . . 52
5.3 Solução do problema HS005 com os métodos de Lucidi-Sciandrone-Tseng e Lewis-Torczon, iniciando no ponto x0 = (−1, 2.5). . . 58
5.4 Solução do problema HS005 com os métodos de Lucidi-Sciandrone-Tseng e Lewis-Torczon, iniciando no ponto x0 = (1.5, 0.5). . . 60
No presente trabalho estudamos métodos numéricos que resolvem um pro-blema de programação não linear com restrições lineares de desigualdade e de igualdade, os quais não fazem uso explícito do gradiente da função obje-tivo nem tampouco de aproximações ao mesmo. Um método de decréscimo suciente e um método de decréscimo simples são estudados. O primeiro, procura melhores valores para a função objetivo ao longo de um conjunto de direções, as quais geram positivamente o cone poliedral convexo no ponto at-ual. O segundo método procura melhorar o valor da função objetivo ao longo de um conjunto de direções, as quais, dependendo do ponto atual, ou geram positivamente todo o espaço <n, ou geram positivamente o cone poliedral
convexo em tal ponto. Algoritmos dos métodos, comentários das implemen-tações feitas e testes numéricos de tais implemenimplemen-tações com problemas da coleção Hock-Schittkowski são feitos ao nal do trabalho.
ABSTRACT
In the present work we study numerical methods that solve a problem of non-linear programming with non-linear inequality and equality constraints, which do not make explicit use either neither of the gradient of the objective func-tion nor approaches to the same one. A method of sucient decrease and a method of simple decrease are studied. The rst one, looks for better values for the objective function throughout a set of directions, which posi-tively generate the convex polyhedral cone in the current point. The second method looks for to improve the value of the objective function throughout a set of directions, which, depending on the current point, either generates positively the whole spaces, or positively generates the convex polyhedral cone in this point. Algorithms of the methods, commentaries of the imple-mentations done and numerical tests of such impleimple-mentations with problems of the Hock-Schittkowski collection are made at the end of the work.
O objetivo da presente dissertação é estudar a solução de um problema de otimização não linear com restrições lineares, o qual pode ser formulado da seguinte forma: minimizar f(x) sujeita a gi(x) ≤ 0, ∀i ∈ I h`(x) = 0, ∀` ∈ E, (1) onde I = {1, . . . , m} ⊆ N, E = {m + 1, . . . , m + p} ⊆ N e f : <n → <
(n ≥ 1) é uma função continuamente diferenciável em <n. Além disso, as-sumimos que as funções gi : <n → < e h` : <n → < são lineares para todo
i ∈ I e todo ` ∈ E.
Problemas da forma (1) aparecem em diferentes áreas, como ciências, engenharias e no mundo dos negócios. Em ciências físicas, muitos princípios ótimos têm sido enunciados descrevendo fenômenos naturais nos campos de ótica e mecânica clássica. O campo da estatística trata diferentes objetivos tais como máxima probabilidade, mínima perda. Enquanto no campo dos negócios, fala-se por exemplo de máximo benefício, mínimo custo, máximo uso de recursos, mínimo esforço, máxima eciência. Até aqui poderíamos falar que os objetivos mencionados são propostos pelo homem em sua ne-cessidade por obter algum benefício. Além disso, a natureza por si mesma também otimiza. Os sistemas físicos, por exemplo, tendem a um estado de mínima energia, as moléculas em um sistema químico isolado reagem umas com outras até que a energia potencial total de seus elétrons seja minimizada
e os raios de luz seguem trajetórias que minimizam o tempo decorrido [10]. Em qualquer campo no qual estejamos imersos onde apresenta-se uma tomada de decisões, devemos primeiro identicar algum "objetivo", tal como os apresentados acima. Tal objetivo pode ser benefício, tempo, energia poten-cial, ou qualquer quantidade ou combinação de quantidades que possam ser representadas por um único número. Tais objetivos podem, ou não, depen-der de diferentes características do sistema, as quais são chamadas variáveis, e estas, ao mesmo tempo, podem ou não ter que cumprir um conjunto de condições gerais às quais chamamos restrições. No caso em que as variáveis tenham que cumprir pelo menos uma restrição, falamos de um problema res-trito; caso contrário, falamos de um problema irrestrito. Na simbologia do problema (1) modelamos um problema restrito, no qual identicamos um objetivo, simbolizado por f(x), um conjunto de características que identi-cam o sistema, simbolizado por x e um conjunto de restrições que devem ser satisfeitas pelas características do sistema, as quais simbolizamos com gi(x) ≤ 0, com i ∈ I e h`(x) = 0, com ` ∈ E.
Solucionar um problema de otimização como o apresentado em (1), con-siste em encontrar um conjunto de características x, que satisfaz o conjunto de condições: gi(x) ≤ 0, com i ∈ I e h`(x) = 0, com ` ∈ E, que forneça o
melhor valor da função objetivo.
Em geral, não existe um conjunto de regras que permitam modelar facil-mente um problema na forma (1), uma vez que identicar o objetivo pro-posto, as características do problema e as condições que tais características devem satisfazer, pode não ser uma tarefa fácil. Entretanto, uma vez mode-lado o problema na forma (1), existem diferentes métodos numéricos e não numéricos, muito ecientes, que permitem obter sua solução ótima.
A solução de um problema como o apresentado em (1) já foi tratada há vários séculos, tendo como ferramenta principal as primeiras derivadas da função f. Lembremos que quando a função f é duas vezes continuamente diferenciável no ponto x∗, o gradiente da função f em x∗, conjuntamente
com os gradientes das restrições no mesmo ponto constituem ferramentas principais para determinar quando o ponto x∗ é candidato a ser solução do
problema (1), o que equivale a dizer, quando x∗ é um ponto K.K.T. do
pro-blema (1). Esta ferramenta está relacionada com dois resultados conhecidos como: condições necessárias de primeira ordem ([7], pp. 328, [1], pp. 316) e condições necessárias de segunda ordem ([7], pp. 343, [1], pp. 316), os quais
consiste em determinar se um ponto K.K.T. x∗ do problema (1) é solução do
mesmo. A resposta a esta pergunta se tem a partir do resultado conhecido com o nome de condições sucientes de segunda ordem ([7], pp. 345, [1], pp. 320), com o qual, a partir da matriz Hessiana da função Lagrangiana, é possível determinar se um ponto K.K.T. x∗ resolve o problema (1).
O primeiro objetivo desta dissertação é estudar alguns métodos numé-ricos existentes para resolver o problema (1), supondo que o gradiente da função f não pode ser usado, seja porque não esteja disponível, ou sim-plesmente porque é de difícil cálculo. Não obstante, assumiremos que este gradiente existe, por razões teóricas.
A motivação para estudar métodos numéricos que solucionem o problema (1) sob as circunstâncias aqui mencionadas, está na alta demanda existente por tais ferramentas. Em casos típicos, f(x) é muito cara para ser calcu-lada e seu gradiente não é avaliável ou, f(x) é o resultado de alguma medida física, química ou econômica, ou mais corriqueiramente, porque é o resultado de algum processo de simulação possivelmente muito extenso.
A comunidade matemática, há mais de 40 anos, tenta encontrar métodos numéricos que permitam resolver esses tipos de problemas, ou seja, resolver problemas como o apresentado em (1) quando não temos disponível o gra-diente da função f. Hoje em dia, existem muitos métodos que tentam dar uma solução para estes problemas. Autores como: Stefano Lucidi [5], Marco Sciandrone [5], Paul Tseng [5], Robert Michael Lewis [4], Virginia Torczon [4], Jerrold H. May [6], Michael J. D. Powell [8], entre outros, são conheci-dos na comunidade da Matemática aplicada e da Otimização, por tentarem desenvolver métodos numéricos ecientes que permitam resolver tais proble-mas.
No ano 2000, aparece publicado um método proposto por Robert Michael Lewis1 e Virginia Torczon2 [4] para resolver o problema (1), que não faz uso
das derivadas da função f. O método desenvolvido escolhe um conjunto
1R. M. Lewis: Department of Mathematics College of William & Mary P.O. Box 8795
Williamsburg, VA 23187-8795. Oce, Jones Hall 124. E-mail, buckaroo@math.wm.edu
2V. Torczon: College of William & Mary Department of Computer Science P.O. Box
8795 Williamsburg, VA 23187-8795. E-mail, va@cs.wm.edu
padrão de direções de busca em uma vizinhança do ponto atual, ao longo das quais pode encontrar pontos factíveis que melhorem o valor de f. O método exige decréscimo simples do valor da função f. O segundo objetivo do presente trabalho, consiste em implementar em Matlab o algoritmo pro-posto por Lewis e Torczon e realizar testes numéricos com alguns problemas apresentados em [2] e [9]. No capítulo 2 descrevemos, em forma geral, o método proposto em [4] e no capítulo 4 apresentamos alguns detalhes ao interior da implementação do algoritmo. Os resultados obtidos com tal im-plementação são apresentados no capítulo 5.
No ano 2002, Marco Sciandrone3, Stefano Lucidi4 e Paul Tseng5
publi-caram um artigo intitulado Objetive-Derivative-Free methods for constrained optimization [5], no qual apresentam dois métodos para resolver o problema (1) com E = ∅ e para um conjunto de restrições de desigualdades gerais, os quais não fazem uso do gradiente da função f. Diferentemente do método proposto por Robert Michael Lewis e Virginia Torczon [4], os métodos pro-postos por Stefano Lucidi, Marco Sciandrone e Paul Tseng exigem decréscimo suciente da função f. Ao nal os autores mostram uma série de testes reazados com a implementação do método 2, para problemas com restrições li-neares. Nosso terceiro objetivo no presente trabalho, consiste em adequar o método 1 proposto por Stefano Lucidi, Marco Sciandrone e Paul Tseng para resolver o problema (1), quando o conjunto E 6= ∅. Para tanto, mostramos como alguns resultados de [5] podem ser adaptados para este caso. Além disso, implementamos em Matlab o algoritmo do método 1, adaptando-o para o caso quando E 6= ∅ e realizamos testes numéricos com alguns pro-blemas de [2] e [9]. No capítulo 3 descrevemos, em forma geral, o método para resolver o problema (1) com as adaptações feitas e no capítulo 4 apre-sentamos detalhes gerais ao interior da implementação do algoritmo. Os resultados obtidos com a implementação são apresentados no capítulo 5. Além disso, no capítulo 5 comparamos os resultados obtidos com os métodos correspondentes.
3M. Sciandrone: Istituto di Analisi dei Sistemi ed Informatica "Antonio Ruberti- CNR
Viale Manzoni, 30 00185 Roma - Italy. E-mail, sciandro@iasi.rm.cnr.it
4S. Lucidi: Dipartimento di Informatica e Sistemistica Universita' di Roma "La
Sapienza"Via Ariosto n.25, 00185 Roma, Italia. Email, lucidi@dis.uniroma1.it
5P. Tseng: Department of Mathematics, Box 354350 University of Washington Seattle,
WA 98195-4350. Email, tseng.@math.washington.edu
Listamos a seguir uma série de símbolos usados no decorrer do presente trabalho.
X Os símbolos N, Z, Q e < representam respectivamente os conjuntos dos números Naturais, Inteiros, Racionais e Reais.
X Para representar números reais usamos letras em minúsculas tais como: y, z ou letras do alfabeto grego em minúsculas tais como α, β, γ. X Os símbolos x, xk, xjk, y
j
k representam vetores em <n.
X Os símbolos I, J, E, I, J representam subconjuntos de números Na-turais.
X Os símbolos X, D, Y , K representam subconjuntos de pontos de <n, X Os símbolos u, v , w e em geral letras em negrito representam vetores
coluna em <n.
X O i-ésimo vetor canônico é representado por ei.
X As matrizes, as representaremos com letras maiúsculas. As letras mais usadas são: A, B, Q, R. O símbolo A ∈ Rm×n signica que A é uma
matriz de entradas reais, com m linhas e n colunas. X O símbolo k.k simbolizara a norma euclidiana em <n.
X Simbolizamos a bola aberta euclidiana Bδ(x0) = {x ∈ <n: kx − x0k < δ},
onde x0∈ <n e δ > 0.
CAPÍTULO 1
CONCEITOS
FUNDAMENTAIS EM
OTIMIZAÇÃO
Neste capítulo apresentamos alguns elementos conceituais que consideramos importantes no estudo de qualquer problema de otimização e que em conse-qüência, são importantes no desenvolvimento do presente trabalho.
Denição 1.0.1 (Algoritmo bem denido). Um algoritmo é considerado bem denido, se a solução é obtida de forma correta depois de um número nito de passos.
Denição 1.0.2 (Métodos Derivative-Free). Um método Derivative-Free é um método iterativo usado para resolver um problema de otimização o qual não faz uso do gradiente da função f.
Observação 1.0.1. Dentre todos os métodos Derivative-Free conhecidos encontramos os métodos de busca direta, os quais, além de não fazer uso explícito do gradiente da função f, não fazem uso de aproximações do mesmo, nem tampouco de aproximações da função f, por exemplo com polinômios interpolantes. Estes métodos determinam entre um conjunto de valores da função f em possíveis soluções, qual é o melhor valor, comparado com um valor de f considerado já como melhor, e conseqüentemente determinam a melhor solução do problema. A estratégia consiste em fazer comparações
de cada um destes valores com o melhor valor obtido até o momento. Esta estratégia não necessita avaliar a função f em todas as soluções possíveis, desde que no momento no qual encontra-se um valor melhor, a solução nova é denida e um novo conjunto de valores é obtido [3].
Denição 1.0.3 (Conjunto convexo). Um conjunto X ⊆ <n é convexo se,
para cada par de pontos x1, x2 ∈ X e cada número real α, 0 ≤ α ≤ 1, o
ponto αx1+ (1 − α)x2∈ X.
Denição 1.0.4 (Função de várias variáveis). Uma função de várias variá-veis (ou função escalar) é uma função denida do conjunto D ⊆ <n no o
conjunto dos números reais (<), tal que para cada ponto x ∈ D existe um único número real z tal que z = f(x).
Denição 1.0.5 (Gradiente de uma função de várias variáveis). Seja f uma função diferenciável de várias variáveis e x ∈ D. O gradiente de f no ponto xé um vetor em <n denido da seguinte forma:
∇f (x) = ∂f ∂x1 ... ∂f ∂xn , onde o símbolo ∂f
∂xi representa a derivada parcial de f no ponto x com
respeito à variável xi, para todo i = 1, · · · , n.
Dada uma função de várias variáveis f, associamos a f um problema de otimização restrito da seguinte forma:
minimizar f(x)
sujeita a x ∈ X , (1.1)
onde assumimos que X ⊆ <n é um conjunto não vazio e convexo. X é
chamado conjunto factível (ou região factível).
Solucionar o problema (1.1) consiste em encontrar um ponto x∗ ∈ X, que
minimize a função f. Tal ponto é chamado minimizador de f em X ou sim-plesmente solução do problema (1.1). Um minimizador pode ser de quatro tipos diferentes.
Denição 1.0.6 (Minimizador local). Seja f : X → <. Um ponto x∗ ∈ X,
CAPÍTULO 1. CONCEITOS FUNDAMENTAIS EM OTIMIZAÇÃO 8 f (x∗) ≤ f (x),
∀x ∈ X, tal que kx − x∗k < .
Denição 1.0.7 (Minimizador local estrito). Seja f : X → <. Um ponto x∗ ∈ X, é um minimizador local estrito de f sobre X se existe > 0 tal que
f (x∗) < f (x), ∀x ∈ X com x 6= x∗, tal que kx − x∗k < .
Denição 1.0.8 (Minimizador global). Seja f : X → <. Um ponto x∗ ∈ X,
é um minimizador global de f sobre X se
f (x∗) ≤ f (x), ∀x ∈ X.
Denição 1.0.9 (Minimizador global estrito). Seja f : X → <. Um ponto x∗ ∈ X, é um minimizador global estrito de f sobre X se
f (x∗) < f (x), ∀x ∈ X com x 6= x∗.
Proposição 1.0.1 (Condição de otimalidade). Se x∗ é um mínimo local de
f sobre X, então
∇f (x∗)T(x − x∗) ≥ 0 ∀x ∈ X. (1.2) Denição 1.0.10 (Ponto estacionário). Um ponto x∗que satisfaz a condição
de otimalidade (1.2) chama-se ponto estacionário do problema (1.1).
Observação 1.0.2. Se o conjunto X tem uma forma particular denida por igualdades e/ou desigualdades, o problema (1.1) pode ser escrito na forma seguinte:
minimizar f(x)
sujeita a gi(x) ≤ 0, ∀i ∈ I = {1, . . . , m} ⊆ N
hj(x) = 0, ∀j ∈ J = {1, . . . , p} ⊆ N,
(1.3) onde gi : <n → < e hj : <n → < para todo i ∈ I e todo j ∈ J . Neste caso
temos que o conjunto factível X esta denido da forma seguinte: X = {x ∈ <n: gi(x) ≤ 0, ∀i ∈ I e hj(x) = 0, ∀j ∈ J }.
Denição 1.0.11 (Conjunto de índices de restrições ativas). Denimos o conjunto de índices das restrições ativas no ponto x ∈ X da forma seguinte:
A(x) ∪ J , onde A(x) = {i ∈ I : gi(x) = 0}.
Denição 1.0.12 (Ponto regular). Sejam gi e hj, funções continuamente
diferenciáveis em <n para todo i ∈ I e todo j ∈ J . Um ponto x ∈ X
chama-se regular se os gradientes ∇gi(x) e ∇hj(x), formam um conjunto
linearmente independente para todo i ∈ A(x) e todo j ∈ J .
Teorema 1.0.2 (Condições necessárias de primeira ordem para o problema (1.3)). Seja x∗ um minimizador local do problema (1.3), onde as funções
f, gi e hj são continuamente diferenciáveis para todo i ∈ I e todo j ∈ J .
Assumamos que x∗ é um ponto regular. Então existem únicos vetores de
multiplicadores de Lagrange λ∗= (λ∗1, · · · , λ∗m), µ∗= µ∗1, · · · , µ∗p, tais que: 1. ∇xL (x∗, λ∗, µ∗) = 0, onde L(x, λ, µ) = f(x)+ m P i=1 λigi(x)+ p P j=1 µjhj(x). 2. λi ≥ 0, ∀i = 1, . . . , m. 3. λi = 0, ∀i /∈ A(x∗).
As condições 1, 2 e 3 são chamadas Condições Karush-Kunh-Tucker, ou simplesmente Condições K.K.T. do problema (1.3) ([1], pp. 316).
Demonstração. A demonstração do teorema (1.0.2) pode ser vista em [1], pp. 316-317.
Teorema 1.0.3 (Condições necessárias de segunda ordem para o problema (1.3)). Sejam f, gi e hj funções duas vezes continuamente diferenciáveis
para todo i ∈ I e todo j ∈ J . Se x∗, λ∗ e µ∗ satisfazem as condições K.K.T.
do problema (1.3), então
yT∇2xxL(x∗, λ∗, µ∗)y ≥ 0, (1.4) para todo y ∈ <n tal que ∇h
j(x∗)Ty = 0, para todo j ∈ J , ∇gi(x∗)Ty = 0,
para todo i ∈ A(x∗) ([1], pp. 316).
Demonstração. A demonstração do teorema (1.0.3) pode ser vista em [1], pp. 316-317.
CAPÍTULO 1. CONCEITOS FUNDAMENTAIS EM OTIMIZAÇÃO 10 Teorema 1.0.4 (Condições sucientes de segunda ordem para o problema (1.3)). Assumamos que f, gi e hj são funções duas vezes continuamente
diferenciáveis para todo i ∈ I e todo j ∈ J e sejam x∗, λ∗ e µ∗ satisfazendo
as condições K.K.T. do problema (1.3). Então, se yT∇2
xxL(x∗, λ∗)y > 0para
todo y 6= 0 tal que ∇hj(x∗)Ty = 0, para todo j ∈ J , ∇gi(x∗)Ty = 0, para
todo i ∈ A(x∗), então o ponto x∗ é um minimizador local estrito do problema
(1.3) ([1], pp. 320).
Demonstração. A demonstração do teorema (1.0.4) pode ser vista em [1], pp. 320.
Denição 1.0.13 (Cone). Um cone em <n é um subconjunto K de <n tal
que:
αx ∈ K, ∀x ∈ K e ∀α > 0. Na gura (1.1) podemos ver desenhos de cones em <2.
(a) (b)
(c) (d)
Denição 1.0.14 (Cone gerado). Seja D = d1, · · · , dr ⊂ <num conjunto
nito. Denimos o cone gerado por D da forma seguinte: cone {D} =d1β1+ · · · + drβr: β1, · · · , βr≥ 0
. Na gura (1.2) podemos ver desenhos de cones gerados em <2.
(a) (b)
(c) (d)
Figura 1.2. Exemplos de cones gerados em <2.
Denição 1.0.15 (Cone polar). Dado um cone K, o cone polar de K, denotado por Ko, dene-se da forma seguinte:
Ko =y ∈ <n: yTx ≤ 0, ∀x ∈ K .
Na gura (1.3) podemos ver desenhos de cones polares em <2.
Denição 1.0.16 (Cone normal). Dado um conjunto convexo e fechado X e um ponto x da fronteira do conjunto X, o cone normal ao conjunto X no ponto x, denota-se NX(x), dene-se da forma seguinte:
CAPÍTULO 1. CONCEITOS FUNDAMENTAIS EM OTIMIZAÇÃO 12
(a) (b)
(c) (d)
Figura 1.3. Exemplos de cones polares em <2.
Na gura (1.4) podemos ver desenhos de cones normais em <2.
Denição 1.0.17 (Cone tangente). Dado um conjunto convexo e fechado Xe um ponto x da fronteira do conjunto X, o cone tangente ao conjunto X no ponto x, nota-se TX(x), dene-se da forma seguinte:
TX(x) = NXo(x).
Na gura (1.5) podemos ver desenhos de cones tangentes a conjuntos fecha-dos e convexos em <2.
Denição 1.0.18 (Ponto de acumulação). Sejam A ⊆ <n e a ∈ <n.
Dize-mos que a é um ponto de acumulação do conjunto A se, para todo > 0, B(a, )contém pontos do conjunto A diferentes de a.
(a) (b)
(c) (d)
Figura 1.4. Exemplos de cones normais em <2.
(a) (b)
(c) (d)
CAPÍTULO 2
MÉTODO DE
LEWIS-TORCZON
2.1 Introdução
Neste capítulo apresentamos um método iterativo que soluciona o problema (1), o qual não faz uso do gradiente da função f e nem tampouco de aproxi-mações ao mesmo. O método dene em cada iteração um conjunto padrão de direções de busca no ponto atual e procura melhores valores para f, ao longo de alguma delas, sustentado em um critério de decréscimo simples. Observação 2.1.1. O problema (1) pode ser considerado como um caso particular do problema (1.3), já que as funções gi e h` no problema (1) são
lineares, para todo i ∈ I e todo ` ∈ E. Neste caso, denotaremos o conjunto factível X como Ω. Na Figura (2.1) mostramos um conjunto factível Ω com restrições de desigualdade em <2.
Antes de iniciar com os detalhes centrais do método de Lewis-Torczon, apre-sentamos a seguir denições básicas relacionadas ao método e ao método de Lucidi-Sciandrone-Tseng o qual apresentamos no próximo capítulo.
2.2 Denições preliminares
Denição 2.2.1 (Cone poliedral convexo). Sejam x ∈ Ω e I ⊆ (I ∪ E) um subconjunto de índices. Denimos o cone poliedral convexo no ponto x da
Figura 2.1. Região factível em <2, com restrições de desigualdade.
forma seguinte:
TI(x) = {d ∈ <n: ∇gi(x)Td ≤ 0, ∀i ∈ I ∩ I, ∇h`(x)Td = 0, ∀` ∈ I ∩ E}.
Observação 2.2.1. No problema que estamos resolvendo, o cone TI(x)é o
mesmo que o cone tangente de Ω no ponto x.
Denição 2.2.2. Para cada ponto x ∈ Ω denimos o cone de primeira ordem de variações factíveis da forma seguinte:
T (x) = TA(x)∪E(x).
Observação 2.2.2. Tendo em conta a denição (1.0.11) e a observação (2.1.1), o conjunto A(x) ∪ E é o conjunto de índices de restrições ativas do problema (1), onde A(x) = {i ∈ I : gi(x) = 0}.
Tendo em conta as denições (1.0.10) e (2.2.2), podemos redenir um ponto estacionário como segue.
Denição 2.2.3 (Ponto estacionário). Um ponto ¯x ∈ Ω é um ponto esta-cionário do problema (1) se satisfaz à seguinte condição de otimalidade de primeira ordem:
∇f (¯x)Td ≥ 0, ∀d ∈ T (¯x). (2.1) Denição 2.2.4. Para qualquer x ∈ Ω e qualquer escalar > 0, denimos o conjunto de índices das restrições -ativas no ponto x da forma seguinte:
CAPÍTULO 2. MÉTODO DE LEWIS-TORCZON 16 e o cone de primeira ordem de variações -factíveis,
T (x; ) = TA(x;)(x).
Observação 2.2.3. O conjunto A(x) ∪ E ⊆ A(x; ), pois se i ∈ A(x) ∪ E, então, ou i ∈ E e conseqüentemente i ∈ A(x; ) ou i ∈ A(x), com o qual temos que gi(x) = 0e portanto gi(x) + ≥ 0, donde i ∈ A(x; ).
Como conseqüência temos que o cone TA(x;)(x) ⊆ TA(x)∪E(x).
Exemplo 2.2.1. Na gura (2.2) mostramos um conjunto factível Ω em <2,
denido como:
Ω =x ∈ <2 : g
1(x) ≤ 0, g2(x) ≤ 0, −g3(x) ≤ 0
.
Figura 2.2. Região factível e pontos factíveis em <2.
Neste caso temos que I = {1, 2, 3} e E = ∅. Além disso temos 4 pontos factíveis sobre a fronteira de Ω e um ponto factível fora da fronteira de Ω. De acordo com a gura (2.2), podemos dizer o seguinte:
X A(x1) = ∅;
X A(x2) = {1};
X A(x3) = {2, 3};
X A(x4) = {1, 3};
X A(x1; ) = ∅, para todo > 0 tal que
< min{|g1(x1)| , |g2(x1)| , |g3(x1)|};
X A(x1; ) = {1, 2, 3}, para todo > 0 tal que
≥ max{|g1(x1)| , |g2(x1)| , |g3(x1)|};
X A(x2; ) = {1}, para todo > 0 tal que < min {|g2(x2)| , |g3(x2)|};
X A(x3; ) = {2, 3}, para todo > 0 tal que < {|g1(x3)|};
X A(x3; ) = {1, 2, 3}, para todo > 0 tal que ≥ {|g1(x3)|}.
X A(x4; ) = {1, 3}, para todo > 0 tal que < |g2(x4)|;
X A(x5; ) = {1, 2, 3}, para todo > 0 tal que ≥ max {|g1(x5)| , |g3(x5)|};
X A(x5; ) = {2}, para todo > 0 tal que < min {|g1(x5)| , |g3(x5)|};
Antes de apresentar o método de Lewis-Torczon [4] para resolver o pro-blema (1), lembraremos rapidamente o método de busca padrão, usado para resolver o problema irrestrito:
minimizar f(x)
x ∈ <n , (2.2)
onde f : <n → <(n ≥ 1) é uma função continuamente diferenciável em <n
[4, 11].
2.3 Busca padrão em minimização irrestrita
Denição 2.3.1 (Padrão de direções no caso irrestrito). Um padrão de pon-tos P em <n consiste em um conjunto de pontos em <n que gera
positiva-mente o espaço <n.
Um exemplo de um padrão de pontos está denido pelas coordenadas carte-sianas. Em <2 temos P = {e
1, −e1, e2, −e2}, ver gura (2.3). Em geral, em
<ntemos: P = {±e
i, i = 1, · · · , n} .
O método de busca padrão [4, 11] para resolver o problema (2.2) consiste em: a partir de, um ponto xk ∈ <n, um tamanho de passo ∆k > 0 e um
padrão de pontos P = di∈ <n, com i = 1, · · · , p em uma vizinhança do
ponto xk, fazemos comparações do valor da função f nos pontos que denem
CAPÍTULO 2. MÉTODO DE LEWIS-TORCZON 18
Figura 2.3. Padrão de direções coordenadas em <2.
decréscimo simples da função f. A partir de tal direção, denimos o próximo ponto xk+1. Seja x+= xk+ ∆kdi, com i = 1, · · · , p. Avaliamos a função f
no ponto x+ até que i = p ou até que seja satisfeita a seguinte condição de
decréscimo simples:
f (x+) < f (xk), para algum i.
Se f(x+) ≥ f (xk) para todo i = 1, · · · , p (fracasso na iteração), denimos
∆k+1 = ∆kθk, com 0 < θk< 1e fazemos xk+1 = xk. Caso contrário (sucesso
na iteração), fazemos xk+1 = x+ e ∆k+1= ∆k.
2.4 Solução do problema (1)
Agora podemos estudar o Método de Lewis-Torczon [4], usado para resolver o problema (1). Se o ponto xk∈ Ωnão é um ponto estacionário do problema
(1), devemos ter ao menos uma direção d de descida factível dentro de um conjunto padrão de direções Pkem <n. Não obstante, não é suciente ter tal
direção com as características mencionadas. Ela tem que ser tal que, ao longo dela, seja possível dar um passo sucientemente grande, para evitar que o novo ponto xk+1que muito perto do ponto atual xk. É claro que denir um
conjunto padrão de direções Pk da mesma forma como foi denido no caso
irrestrito não é possível já que, além de ter decréscimo simples da função f, devemos ter factibilidade do novo ponto xk+1. Logo, devemos denir
um conjunto padrão de direções Pk em uma vizinhançã do ponto xk que
contenha ao menos uma direção que gere decréscimo simples da função f e que mantenha a factibilidade do novo ponto xk+1.
Denição 2.4.1 (Padrão de direções no caso restrito). Sejam > 0 e xk∈ Ω.
seguinte: Pk = Dk, se A(xk; ) 6= ∅ {±ei : i = 1, · · · , n} , se A(xk; ) = ∅ , (2.3)
onde Dk = [Γk 0]e Γk é denido na proposição a seguir. O vetor 0 ∈ <n
garante que o conjunto Pk contem ao menos uma direção factível no ponto
xk, quando A(xk; ) 6= ∅. O conjunto de índices A(xk; ) foi denido na
denição (2.2.4).
Proposição 2.4.1. Suponha que para xk∈ Ω e k > 0, a matriz
Ak = [∇gi(xk) . . . ∇h`(xk)], com i ∈ (A(xk, k) − E)e ` ∈ E
tem colunas linearmente independentes. Sejam u1 k, . . . , u
sk
k vetores tais que:
Cone{u1k, . . . , usk
k } = N (Atk), e
os vetores v1 k, . . . , v
tk
k , são obtidos pela normalização das colunas da matriz
Ak(AtkAk)−1.
Então, o conjunto Γk= {u1k, . . . , uskk, vk1, · · · , vktk, −v1k, . . . , −vktk} gera o cone
poliedral convexo (denição 2.2.1) no ponto xk.
A proposição (2.4.1) pode ser vista em sua versão original, conjuntamente com sua demonstração em [4], pp. 925-926.
Observação 2.4.1. Esta escolha do conjunto Pk permite que, quando o
ponto xk ∈ Ω está perto da fronteira da região factível Ω (A(xk; ) 6= ∅),
o padrão Pk gere positivamente o cone polar ao cone tangente à região Ω
no ponto xk e portanto temos pelo menos uma direção de descida factível
dependendo do passo ∆k. A gura (2.4)(a) mostra um exemplo em <2, neste
caso. E quando xkestá longe da fronteira da região factível Ω (A(xk; ) = ∅),
podemos mover-nos livremente em qualquer direção coordenada obtendo ao mesmo tempo descida e factibilidade, dependendo do passo ∆k. A gura
(2.4)(b) mostra um exemplo em <2, neste caso.
2.5 O método de Lewis-Torczon
Descrevemos a seguir o Método de Lewis-Torczon (ver [4], pág. 922) que em cada iteração determina um conjunto padrão Pk de direções factíveis e
um tamanho de passo ∆k que possa ser dado em alguma das direções que
CAPÍTULO 2. MÉTODO DE LEWIS-TORCZON 20
(a) (b)
Figura 2.4. (a) Pk= Dk =d1k, d2k
, e (b) P
k= {±ei: i = 1, · · · , n}.
das direções de forma tal que a função f tenha decréscimo simples em seu valor.
Assumindo que estamos na k-ésima iteração, o método inicia tal ite-ração com um ponto factível xk, com valor da função objetivo f(xk), com
um tamanho de passo ∆k > 0, e com um conjunto padrão Pk de direções
factíveis satisfazendo a denição (2.4.1). Lembramos que o parâmetro > 0 é constante para toda iteração. O método avalia a função f no ponto x+=
xk+ ∆kdjk, onde djk ∈ Pk, com j = 1, · · · , pk. Tendo em conta o valor de
f nos pontos xk e x+ e a fatibilidade o não do ponto x+, determinamos se
temos sucesso ou fracasso na k-ésima iteração, de acordo com as cosiderações seguintes.
X Se o ponto x+ ∈ Ω (ponto factível) e se f(x+) < f (xk) para algum
j = 1, · · · , pk (otimalidade), terminamos a k-ésima iteração e fazemos
xk+1 = x+, ∆k+1 = λk∆k, com λk > 1 (aumentamos o tamanho do
passo) e calculamos um novo conjunto padrão Pk+1de direções factíveis
satisfazendo a denição (2.4.1). Neste casso dizemos que temos sucesso na iteração.
X Se o ponto x+ ∈ Ω (ponto factível) mas f(x+) ≥ f (xk) para todo
j = 1, · · · , pk, terminamos a k-ésima iteração e fazemos xk+1 = xk,
∆k+1 = θk∆k com 0 < θk < 1 (reduzimos o tamanho do passo) e
Pk+1 = Pk. Neste casso dizemos que temos fracasso na iteração.
terminamos a k-ésima iteração e fazemos xk+1 = xk, ∆k+1 = θk∆k
com 0 < θk < 1(reduzimos o tamanho do passo) e Pk+1 = Pk. Neste
casso dizemos que temos fracasso na iteração.
Observação 2.5.1. Ficamos na k-ésima iteração enquanto f(x+) ≥ f (xk)
e 1 ≤ j ≤ pk. Enquanto que denimos um novo ponto x+ enquanto x+ =
xk+ ∆kdjk∈ Ω/ .
Observação 2.5.2. O problema (1) pode ser escrito na forma seguinte: minimizar f(x)
sujeita a v ≤ Ax ≤ u , (2.4)
onde A ∈ <(m+p)×n, v, u ∈ <m+p, e v ≤ u.
O método de Lewis-Torczon tem resultados de convergência que dizem sob que condições o método converge para um ponto estacionário do problema (1). Hipóteses sobre a matriz A e sobre o padrão Pk, entre outras, garantem
convergência do método. Os detalhes completos acerca dos resultados podem ser vistos em [4], pp. 925-926.
2.6 O algoritmo
O algoritmo para resolver o problema (1) é o seguinte. Dados de entrada.
x0∈ Ω, ∆0 > 0, > 0.
Passo 1. Fazer k = 0. Passo 2. Avaliar f(xk).
Passo 3. Determinar um conjunto padrão de direções Pk.
Passo 4. Minimizar sobre o conjunto Pk.
Passo 4.1. Fazer j = 1 Passo 4.2. Fazer sk= ∆kdjk e x+= xk+ sk. Se x+∈ Ω e f(x+) < f (xk): fazer xk+1 = x+, ∆k= λk∆k com λk> 1, k = k + 1e voltar ao passo 2. Se ((x+∈ Ω ∧ f (x+) ≥ f (xk)) ∨ (x+ ∈ Ω))/ :
Se j < pk, fazer j = j + 1 e voltar ao passo 4.2.
Se j = pk fazer ∆k= θk∆k com 0 < θk< 1,
k = k + 1e voltar ao passo 4. Passo 5. Fazer x = xk
CAPÍTULO 3
MÉTODO DE
LUCIDI-SCIANDRONE-TSENG
3.1 Introdução
Neste capítulo apresentamos a teoria envolvida no novo método para resolver o problema (1), o qual não faz uso da derivada da função f. É bom men-cionar que o desenvolvimento do método envolve três grandes aspectos: a procura de uma matriz de posto completo tal que suas colunas correspondem aos gradientes das restrições quase ativas no ponto atual, a procura de um conjunto de direções satisfazendo certa condição e o cálculo de um passo a ser dado ao longo de uma direção de descida.
A seguir se impõe uma condição adicional que deve ser satisfeita pela função f.
Suposição 1. inf
x∈Ωf (x) > −∞.
De acordo com a suposição (1), a função objetivo tem que ser limitada infe-riormente.
3.2 Estimativa das restrições ativas
A seguinte proposição descreve uma propriedade do conjunto de índices A(x; ) (denição 2.2.4), como uma aproximação do conjunto de índices
A(¯x) ∪ E quando o ponto x está perto do ponto ¯x.
Proposição 3.2.1. Seja {xk}k∈N uma seqüência de pontos em Ω que
con-verge para algum ¯x ∈ Ω. Então, existe um escalar ¯ > 0, que depende só de ¯
x, tal que, para cada escalar ∈ (0, ¯] existe um número natural k para o
qual A(xk; ) = A(¯x) ∪ E para todo k ≥ k.
Demonstração. Seja N(¯x) = {i ∈ I : gi(¯x) < 0}. logo
N (¯x) ∩ (A(¯x)) = φ. Denamos ¯ da seguinte forma:
¯ = 1 3i∈N (¯minx)−gi(¯x), se N(¯x) 6= ∅ 1, em outro caso
Logo, para todo > 0 tal que ≤ ¯, temos que: 0 < < 2 < 3 ≤ min
i∈N (¯x)
−gi(¯x) ≤ −gi(¯x), ∀i ∈ N(¯x),
2 < 3 ≤ −gi(¯x), ∀i ∈ N(¯x). (3.1)
Agora, como gi é contínua para todo i ∈ I, então existe um escalar δ > 0
tal que:
−gi(¯x) − < −gi(x) < −gi(¯x) + , para todo x ∈ Bδ(¯x).
Portanto, temos que:
− < −gi(x) + gi(¯x) < , ∀x ∈ Bδ(¯x)
o que equivale a dizer que
|gi(¯x) − gi(x)| < , ∀x ∈ Bδ(¯x).
Então,
max
i∈I |−gi(x) + gi(¯x)| < , ∀x ∈ Bδ(¯x). (3.2)
Por hipótese, {xk} → ¯x, logo, para δ existe k ∈ N tal que:
xk∈ Bδ(¯x), ∀k > k. (3.3)
Fixando k > k, de (3.1) e (3.2), temos que:
CAPÍTULO 3. MÉTODO DE LUCIDI-SCIANDRONE-TSENG 24 logo
gi(xk) + < 0, ∀i ∈ N(¯x).
Assim,
i /∈ A(xk; ) e i /∈ A(¯x). (3.4) Agora, de (3.2) temos que
gi(xk) − gi(¯x) > −, ∀xk∈ Bδ(¯x).
Logo, ∀i ∈ (A(¯x)),
gi(xk) + ≥ 0,
donde,
i ∈ A(xk; ). (3.5)
Logo, de (3.4) e (3.5), A(xk; ) = A(¯x) ∪ E, ∀k > k. Do que vimos
anterior-mente, se tem que A(xk; ) = A(¯x) ∪ E para todo k ≥ k.
3.3 Direções de busca
Nesta seção se discute acerca da escolha de um conjunto de direções de busca. Tal conjunto deve ser tal que, caminhando ao longo de alguma direção no conjunto, tenhamos factibilidade do novo ponto e decréscimo suciente da função f, quando não se tenha alcançado um ponto estacionário do problema. Tal conjunto é escolhido de forma que gere o cone de primeira ordem de variações factíveis T (x) (denição 2.2.2). Assim, é possível caracterizar um ponto estacionário do problema (1) como segue:
Proposição 3.3.1. Um ponto ¯x ∈ Ω é um ponto estacionário do problema (1) se e somente se
∇f (¯x)Tdj ≥ 0, ∀j = 1, . . . , r, onde as direções dj são tais que:
T (¯x) = Coned1, . . . , dr .
Demonstração. Seja dj uma de tais direções. Logo, dj ∈ T (¯x). Como ¯x é
um ponto estacionário do problema (1), então,
∇f (¯x)Td ≥ 0, ∀d ∈ T (¯x). (3.6) Em particular, a desigualdade (3.6) se verica para dj, logo:
∇f (¯x)Tdj ≥ 0.
Consideremos agora d ∈ T (¯x). Logo, existem escalares não negativos β1, · · · , βr
tais que
d = β1d1+ . . . + βrdr.
Por hipótese, ∇f(¯x)Tdj ≥ 0, para todo j = 1, . . . , r, logo,
∇f (¯x)Td = β1∇f (¯x)Td1+ . . . + βr∇f (¯x)Tdr≥ 0, isto é, ¯x é um ponto estacionário do problema (1)
Observação 3.3.1. A partir das proposições (3.2.1) e (3.3.1) é possível obter caracterizações especiais para o conjunto de direções de busca.
X A proposição (3.2.1) dá uma estimativa para o conjunto de índices das restrições ativas num ponto ¯x ∈ Ω, isto é:
A(¯x) ∪ E = A(x; ),
para um ponto x perto do ponto ¯x e um escalar > 0 conveniente. Logo, temos uma estimativa para o cone poliedral convexo no ponto ¯x:
TA(¯x)∪E(¯x) = TA(x;)(x),
para um ponto x perto do ponto ¯x e um escalar > 0 conveniente. X A proposição (3.3.1) dá uma caracterização para um ponto estacionário
¯
xdo problema (1) através de um conjunto de direções d1, . . . , dr que gere o cone poliedral convexo no ponto ¯x, TA(¯x)∪E(¯x).
Logo, devemos escolher um conjunto D de direções de busca no ponto x ∈ Ω tal que:
ConeD ∩ TA(x;)(x) = TA(x;)(x).
É possível escolher esse conjunto D satisfazendo uma condição particular. Condição 1. Dados xk ∈ Ω e k> 0, o conjunto de direções de busca
Dk= n djk, j = 1, . . . , rko, com d j k = 1,
CAPÍTULO 3. MÉTODO DE LUCIDI-SCIANDRONE-TSENG 26 satisfaz:
X {rk} é uniformemente limitada
X Cone {Dk} = T (xk; k).
Exemplo 3.3.1. Sejam n = 2, I = {1, 2}, E = ∅, xk= (0, 1), g1(x1, x2) =
−x1 e g2(x1, x2) = x1− x2. Encontremos um conjunto Dk de direções de
busca que satisfaça a condição 1. A Figura (3.1) mostra as funções restrições g1 e g2 e a região factível Ω.
Figura 3.1. Região factível do exemplo (3.3.1). Seja k> 0. Por denição temos que:
A(xk; k) = E ∪ {i ∈ I : gi(xk) + k ≥ 0}e TA(xk;k)(xk) = d ∈ <2 : ∇g i(xk)Td ≤ 0, ∀i ∈ (A(xk; k) − E)e ∇h`(xk)Td = 0, ∀` ∈ E . Dado que E = ∅, temos:
A(xk; k) = {i ∈ I : gi(xk) + k≥ 0}e TA(xk;k)(xk) =d ∈ < 2 : ∇g i(xk)Td ≤ 0, ∀i ∈ A(xk; k) . Agora, g1(xk) + k= 0 + k= k> 0 e g2(xk) + k= −1 + k≥ 0, ∀k ≥ 1
Logo, A(xk; k) = ( {1} , se 0 < k< 1 {1, 2} , se k≥ 1 e TA(xk;k)(xk) = ( d ∈ <2: ∇g1(xk)Td ≤ 0 , se 0 < k< 1 d ∈ <2: ∇g 1(xk)Td ≤ 0, ∇g2(xk)Td ≤ 0 , se k≥ 1 .
Pelo tanto, se 0 < k< 1, então,
TA(xk;k)(xk) = d = d1 d2 : (−1, 0) d1 d2 ≤ 0 , e, se k≥ 1, então, TA(xk;k)(xk) = d = d1 d2 : (−1, 0) d1 d2 ≤ 0 e (1, −1) d1 d2 ≤ 0 . X O conjunto TA(xk;k)(xk), com 0 < k< 1, é gerado, por exemplo, pelo
conjunto: Dk = 0 1 , 0 −1 ,√1 2 1 −1 .
Assim, Dk satisfaz a condição 1, ∀k> 0, com 0 < k< 1, (ver gura
(3.2) (a)).
X O conjunto TA(xk;k)(xk), com k ≥ 1, é gerado, por exemplo, pelo
conjunto: Dk= 0 1 ,√1 2 1 1 .
Logo, Dk satisfaz a condição 1, ∀k≥ 1, (ver gura (3.2) (b)).
Em geral não é fácil construir conjuntos D de direções de busca que satis-façam a condição 1. Para o método proposto é importante obter tais conjun-tos, pois junto com outras hipóteses, tal método tem propriedades desejáveis de convergência.
CAPÍTULO 3. MÉTODO DE LUCIDI-SCIANDRONE-TSENG 28
(a) (b)
Figura 3.2. Conjunto TA(xk;k)(xk)do exemplo 3.1
No caso em que os gradientes das restrições -ativas sejam linearmente independentes no ponto xk, a seguinte proposição sugere uma forma simples
de encontrar conjuntos de direções Dk que satisfaçam a condição 1, ([4], pp.
934, [5], pp. 42).
Proposição 3.3.2. Suponha que para xk∈ Ω e k > 0, a matriz
Ak = [∇gi(xk) . . . ∇h`(xk)], com i ∈ (A(xk, k) − E)e ` ∈ E
tem colunas linearmente independentes. Sejam u1 k, . . . , u
sk
k vetores tais que:
Cone{u1k, . . . , usk k } = N (A t k), e os vetores v1 k, . . . , v tk
k , são obtidos pela normalização das colunas da matriz
Ak(AtkAk)−1. Então, o conjunto Dk= {u1k, . . . , u sk k , −v1k, . . . , −v tk k } satisfaz a condição 1.
Exemplo 3.3.2. Usar a proposição (3.3.2) para encontrar um conjunto de direções Dk que satisfaz a condição 1, para os dados fornecidos no exemplo
(3.3.1).
1. Para k > 0, com 0 < k < 1, temos que A (xk; k) = {1}. Logo a
matriz Ak é denida da seguinte forma:
Ak= −1 0 .
Fazendo algumas contas, é possível vericar que uma base para o subes-paço N(At k) é: β∗N (At k) = 0 1 . Logo denimos, u1 k = 0 1
. Da mesma forma, é possível vericar que: Ak AtkAk −1 = −1 0 . Logo v1 k= −1 0
. Portanto, o conjunto Dk denido como:
Dk=u1k, −vk1 = 0 1 , 1 0 satisfaz a condição 1.
2. Para k ≥ 1 temos que o conjunto de índices de restrições -ativas no
ponto xké: A (xk; k) = {1, 2}. Logo a matriz Akestá dada da seguinte
forma: Ak= −1 1 0 −1 .
Fazendo algumas contas, é possível vericar que N(AT
k) = {0} e, em
conseqüência, β∗ N (At
k)
= ∅.
Da mesma forma, é possível vericar que: Ak AtkAk −1 = −1 0 −1 −1 . Logo, denindo os vetores v1
k= 0 −1 e v2 k = √12 −1 −1 temos que o conjunto Dk denido como:
Dk=−vk1, −vk2 = 0 1 ,√1 2 1 1 satisfaz a condição 1.
CAPÍTULO 3. MÉTODO DE LUCIDI-SCIANDRONE-TSENG 30
3.4 Um primeiro resultado de convergência
A problema seguinte, estabelece uma condição suciente para determinar que o ponto ¯x é um ponto estacionário do problema (1). Em particular, uma das hipóteses que devem ser satisfeitas é que o conjunto de direções de busca Dk no ponto atual xk deve satisfazer a condição 1. Logo, avaliando a
função f ao longo de direções dj
k ∈ Dk, é possível determinar se o ponto xk
é um ponto estacionário do problema (1) ou se a direção dj
k é uma direção
de descida factível.
Proposição 3.4.1. Sejam {xk}k∈Numa seqüência de pontos em Ω e {Dk}k∈N
com Dk = {d1k, . . . , d rk
k } uma seqüência de conjuntos de direções que
satis-fazem a condição 1com k→ 0. Suponha que {xk}K converge para um ponto
¯
x para algum conjunto innito K ⊆ N, e que lim k→∞,k∈Kmaxj∈Jk n minn0, ∇f (xk)Tdjk oo = 0, (3.7) onde Jk= {1, . . . , rk}.
Então ¯x é um ponto estacionário do problema (1).
Demonstração. Suponhamos que ¯x não é um ponto estacionário do pro-blema (1). Logo existe uma direção ¯d ∈ TA(¯x;k)(¯x) tal que:
∇f (¯x)Td < 0.¯ (3.8)
Por hipótese {xk}K → ¯x, donde, para todo ∗ > 0 existe um natural N tal
que kxk− ¯xk < ∗, sempre que k > N.
Agora, Dk é o conjunto de direções de busca no ponto xk, que satisfaz a
condição 1 com k → 0 para cada k ∈ K; Logo, {Dk}k∈K → ¯D, onde ¯D é o
conjunto de direções de busca no ponto ¯x, com ¯D =d¯1, · · · , ¯dr .
Dado que rk é uniformemente limitado, existem: um conjunto nito J ⊆ N,
um conjunto innito K1⊆ K e uma direção ¯dj ∈ <n, com j ∈ J tais que:
Jk= J ∀k ∈ K1 e lim k→∞,k∈K1
djk= ¯dj, ∀j ∈ J. (3.9) Por hipótese Dk satisfaz a condição 1 com k → 0. Então, pela proposição
(3.2.1), A (xk; k) ⊆ A (¯x) ∪ E para todo k sucientemente grande. Logo
TA(¯x)∪E(xk) ⊆ TA(xk;k)(xk) = Cone {Dk} = Cone
n djko
j∈Jk
. (3.10)
Por outro lado, dado que as funções restrições do problema (1) são li-neares, temos que
dist TA(¯x)(xk) , TA(¯x)(¯x) → 0 ⇔ (T (xk) → T (¯x)), quando k → ∞. (3.11)
Logo, dado que ¯d ∈ TA(¯x;k)(¯x)e que {T (xk)} → T (¯x), temos que ¯d ∈
T (xk) para k sucientemente grande. Logo, por (3.10) tem-se que ¯d ∈
Cone n djk o j∈Jk e conseqüentemente, ¯ d = P j∈Jk βjdjk, para alguns βj ≥ 0. Além disso, ndjk o → ¯dj, logo ¯d = P j∈Jk
βjd¯j para k sucientemente grande. Portanto ∇f (¯x)Td = ∇f (¯¯ x)T P j∈Jk βjd¯j ! = P j∈Jk βj∇f (¯x)Td¯j = P j∈Jk βj∇f lim k→∞xk T lim k→∞d j k . Agora, como o operador ∇f é contínuo, então:
∇f (¯x)Td =¯ P j∈Jk βj lim k→∞∇f (xk) T dj k.
Por hipótese tem-se que: lim k→∞,k∈Kmaxj∈Jk n minn0, ∇f (xk)Tdjk oo = 0, logo ∇f (xk)T djk≥ 0 para k sucientemente grande. Assim
∇f (¯x)Td =¯ P j∈Jk βj lim k→∞∇f (xk) T dj k≥ 0,
o que contradiz o suposto (3.8).
A hipótese (3.7) da proposição (3.4.1) é satisfeita, garantindo que, para cada direção dj
k∈ Dk, existe um escalar positivo ξ j
k tal que
CAPÍTULO 3. MÉTODO DE LUCIDI-SCIANDRONE-TSENG 32 comnξkjo→ 0 e lim
ξ→0 o(ξ)
ξ = 0.
Para levar em conta trocas de xk ao longo das diferentes direções djk,
subs-tituímos o ponto xk pelo ponto xjk que deve satisfazer:
n x j k− xk o → 0. Isto gera uma nova condição que deve ser satisfeita:
f (xjk+ ξkjdkj) ≥ f (xjk) − o(ξkj). (3.12) Além do anterior, devemos garantir que o novo ponto xj
k+ ξ j kd
j
k seja factível,
ou seja, que a seguinte condição seja satisfeita: gi(xjk+ ξkjdjk) ≤ 0, ∀i ∈ I e h`(xjk+ ξ j kd j k) = 0, ∀` ∈ E. (3.13) Usando o teorema de Taylor, é possível escrever a condição (3.13) da seguinte forma: gi(xjk) + ξ j k∇gi(xjk)Td j k≤ 0, ∀i ∈ I e h`(xjk) + ξkj∇h`(xjk)Tdjk= 0, ∀` ∈ E. (3.14) A seguinte proposição formaliza a discussão feita até aqui, em relação à existência do escalar ξj
k, que faz verdadeiras as condições (3.12) e (3.14).
3.5 Um segundo resultado de convergência
Proposição 3.5.1. Sejam {xk}k∈Numa seqüência de pontos em Ω e {Dk}k∈N
com Dk = {d1k, . . . , d rk
k } uma seqüência de conjuntos de direções e suponha
que sejam satisfeitas as seguintes condições:
1. os conjuntos Dk satisfazem a condição 1 com k→ 0;
2. {xk}k∈K → ¯x para algum conjunto innito K ⊆ N e, para cada k ∈ K
e cada j ∈ Jk, onde Jk = {1, · · · , rk}, existe um ponto xjk ∈ Ω e um
escalar ξj
k > 0, que além de satisfazer as condições (3.12) e (3.14),
satisfaz também lim k→∞,k∈Kmaxj∈Jk n ξkjo= 0, (3.15) lim k→∞,k∈Kmaxj∈Jk xk− x j k = 0, (3.16) onde lim ξ→0 o(ξ) ξ = 0.
Então ¯x é um ponto estacionário do problema (1).
Demonstração. A demonstração pode ser vista em [5], pp.47-48, tendo em conta que esta é feita em geral para restrições de desigualdade, onde as respectivas funções podem ser lineares ou não lineares.
3.6 O método de Lucidi-Sciandrone-Tseng, sob a
condição 1
A seguir descrevemos o método que, em cada iteração determina um con-junto de direções factíveis Dk que satisfazem a condição 1, e que tenta dar
um passo suciente de descida ao longo de alguma daquelas direções. Assumindo que estamos na k-ésima iteração, o método inicia tal iteração com um ponto factível xk, com valor da função objetivo f(xk), um tamanho
de passo αk, um parâmetro k > 0 e determina um conjunto de direções
de busca factíveis Dk que satisfaz a condição (1). Imediatamente, o método
avalia a função f no ponto xj k+αd
j
k(possível novo ponto), com j = 1, · · · , rk,
onde rk é o número de direções no conjunto Dk, xjk = xk, djk ∈ Dk e α =
min { ¯α, α}, onde ¯α é o maior passo que se pode dar na direção djk, de forma tal que se mantenha a factibilidade do possível novo ponto e α = αk. Se
temos decréscimo suciente da função f ao mudar do ponto atual xj k ao
ponto xj k+ αd
j
k, então o método tenta dar um passo melhor ao longo desta
direção. Se tal condição de decréscimo suciente não é satisfeita, então o tamanho de passo α é diminuído por uma fração θα ∈ (0, 1)e o ponto xknão
é mudado. No caso em que se tenha decréscimo suciente com o máximo passo possível ¯α, então termina a iteração atual, obtendo um novo ponto factível xk+1 = xjk+ ¯αd
j
ke atualizando os parâmetros k+1= k e αk+1= ¯α.
De outra forma, uma nova direção dj+1
k do conjunto Dké testada, e se fazem
xj+1k = xjk, αk+1 = αke se diminui o parâmetro kpor uma fração θ∈ (0, 1),
para obter k+1= θk.
3.7 O algoritmo, sob a condição 1
De acordo com o método apresentado em (3.6), o algoritmo para resolver o problema (1) é o seguinte.
CAPÍTULO 3. MÉTODO DE LUCIDI-SCIANDRONE-TSENG 34 Dados de entrada.
k = 0, x0∈ Ω, α0 > 0, 0> 0, γ > 0, θα∈ (0, 1), θ∈ (0, 1).
Passo 1. Escolher um conjunto Dk que satisfaça a condição 1.
Dk=d1k, . . . , drkk
.
Passo 2. Minimizar sobre o Cone {Dk}.
Passo 2.1. Inicialização. Fazer j = 1, xj
k= xk, α j k= αk.
Passo 2.2. Cálculo do tamanho do passo inicial. Calcular o máximo tamanho do passo ¯αj
k tal que gi(xjk) + ¯αjk∇gi(xjk)djk) ≤ 0, ∀i ∈ I e h`(xjk) + ¯αjk∇h`(xjk)djk) = 0, ∀` ∈ E. Fazer αj k= min n ¯ αjk, αjko.
Passo 2.3. Teste sobre a direção de busca. Se αj k> 0 e f(y j k) ≤ f (x j k) − γ(α j k) 2, calcular αj+1 k e x j+1 k pelo
procedimento Expansão do passo. Caso contrário, fazer xj+1
k = x j k e α j+1 k = θαα j k.
Passo 2.4. Teste sobre as restrições ativas. Se αj+1
k = ¯α j
k, fazer k+1 = k, e ir ao passo 3.
Passo 2.5. Teste sobre a minimização no Cone{Dk}.
Se j < rk, fazer j = j + 1 e ir ao passo 2.2.
Caso contrário, fazer k+1= θk e ir ao passo 3.
Passo 3. Encontrar xk+1∈ Ω tal que f(xk+1) ≤ f (xj+1k ).
Fazer αk+1 = αj+1k , k = k + 1, e ir ao passo 1.
3.7.1 O procedimento Expansão do passo
Dados de entrada. ¯ αjk, αjk, yjk, xjk, djk, γ > 0, ω ∈ (0, 1). Passo 1. Fazer α = αj k, x = y j k.
Passo 2. Fazer ˜α = minnα¯jk,ωαo e ˜x = xjk+ ˜αdjk. Se α = ¯αj k ou f(˜x) > f(x j k) − γ ˜α2), fazer α j+1 k = α, x j+1 k = x, sair.
Passo 3. Fazer α = ˜α, x = ˜x, e ir ao passo 2.
A proposição a seguir garante que o algoritmo (3.7.1), além de gerar seqüências de pontos factíveis, decresce o valor da função objetivo f em cada iteração, e que o tamanho do passo e a distância entre dois pontos consecutivos tende para 0.
Proposição 3.7.1. Sejam {(xk, k)}e
xjk, αjk, ¯αjk, αjk, djk
1≤j≤erk
seqüên-cias geradas pelo algoritmo (3.7.1). Então, sob a suposição (1),
1. a seqüência {xk} está bem denida;
2. a seqüência {f(xk)} é decrescente e cada ponto de acumulação de
se-qüência {xk} pertence ao conjunto Ω;
3. lim k→∞1≤j≤emaxrk n αjko= 0 e lim k→∞1≤j≤emaxrk xk− x j k = 0.
Demonstração. A demonstração pode ser vista em [5], pp. 50-52, tendo em conta que esta é feita em geral para restrições de desigualdade, onde as respectivas funções podem ser lineares ou não lineares.
A proposição a seguir garante que o algoritmo (3.7.1) gera uma seqüência de pontos que converge para a solução do problema (1). A demonstração pode ser vista em [5], pp. 52-53.
Proposição 3.7.2. Sob a suposição (1), se {xk} é a seqüência gerada pelo
algoritmo (3.7.1) e {xk} é limitada, então existe ao menos um ponto de
CAPÍTULO 4
COMENTÁRIOS GERAIS
ACERCA DAS
IMPLEMENTAÇÕES
Neste capítulo vamos mostrar de que forma foram implementadas partes importantes de cada um dos algoritmos (2.6) e (3.7.1), como por exemplo, no método de Lucidi-Sciandrone-Tseng, a forma como obtemos um conjunto de direções Dk que satisfaz a condição 1; a forma como é obtido o passo αk
de tal forma que o novo ponto seja factível ou a forma como é expandido o passo αk ao longo de uma direção particular dk, de tal forma que se tenha
decréscimo suciente da função f e factibilidade do novo ponto, etc. No método de Lewis-Torczon, consideramos importante a forma como é denido um conjunto padrão de direções de busca Pk, como também a forma como é
diminuído ou aumentado o passo ∆k dependendo das circunstâncias.
4.1 Método de Lewis-Torczon
Assumimos que na k-ésima iteração temos: um ponto factível xk, um
con-junto de direções padrão Pk e um tamanho de passo ∆k. Além disso, e
independente da iteração, temos > 0.
4.1.1 Obtenção de um conjunto padrão de direções Pk
De acordo com a denição (2.4.1), o conjunto padrão de direções Pkdepende
da distância entre o ponto xk e a fronteira do conjunto factível Ω. Aqui, a
constante joga um papel importante na determinação do conjunto Pk.
X Se o conjunto A(xk; ) = ∅ou seja, se o ponto xkestá longe da fronteira
da região factível, o conjunto Pk é denido simplesmente como:
Pk= {±ei: ∀i = 1, · · · , n}.
X Se o conjunto A(xk; ) 6= ∅ou seja, se o ponto xkestá perto da fronteira
da região factível, a construção do conjunto Pk depende do conjunto
de índices A(xk; ). Tal conjunto é denido em (4.2.1), só que fazemos
k = para todo k. Agora, a partir de tal conjunto de índices,
obte-mos a matriz Ak, denida na denição (2.2.4), da mesma forma como
é obtida na subsecção (4.2.2). A seguir, construimos o conjunto Pk
usando o mesmo procedimento usado na subsecção (4.2.3) com relação à fatoração da matriz Ak, a obtenção dos vetores uik, com i = 1, · · · , sk
e a obtenção dos vetores vj
k, com j = 1, · · · , tk. Mais o conjunto Pk é
construído da seguinte forma: Pk = {u1k, . . . , u sk k , v1k, . . . , v tk k , −vk1, . . . , −v tk k }.
4.1.2 Aumento ou decréscimo do passo ∆k
Dependendo das circunstâncias, precisaremos aumentar ou diminuir o tama-nho do passo ∆k. Para isto usamos as constantes λk no caso que precisemos
aumentar o valor de ∆k ou θk no caso que precisemos diminuir o valor ∆k.
Nestes casos usamos sempre as mesmas constantes, independentemente de k: λk= 2 e θk = 0.5.
4.2 Método de Lucidi-Sciandrone-Tseng
Assumimos que na k-ésima iteração temos um ponto factível xk, um conjunto
de direções Dk, um tamanho de passo αk, um valor para , k e constantes
CAPÍTULO 4. COMENTÁRIOS GERAIS DAS IMPLEMENTAÇÕES 38
4.2.1 Cálculo de um conjunto de índices de restrições -ativas
O conjunto de índices A(xk, k) 6= φ, (denição (2.2.4)), é denido de tal
forma que a correspondente matriz Ak seja de posto coluna completo,
(pro-posição (3.3.2)). Em conseqüência, dim (A (xk, k)) ≤ n. Além disso, se o
problema (1) tem restrições de igualdade h`= 0, com ` = m + 1, · · · , m + p,
tal conjunto deve conter os subíndices `, com ` = m+1, · · · , m+p. Agora, se o problema (1) tem restrições de desigualdade gi ≤ 0, com i = 1, · · · , m, tal
conjunto contém os subíndices para os quais se satisfaz a condição gi(x)+k≥
0. A rotina luscst_indices realiza esta tarefa ao interior do algoritmo. Como comentário adicional, podemos mencionar que, no momento que precisar vericar a condição gi(x) + k≥ 0, realizamos a comparação gi(x) + k≥ tol,
e usamos tol = 10−10. Procedimento índices Dados de entrada: xk, k, n, m, p. Dados de saída: Ik. Passo 1. Fazer Ik = φe j = 1. Passo 2. Se p ≥ 1.
Passo 2.1. Para i = 1, · · · , p, fazer Ik= [i, Ik].
Passo 3. Fazer lon = longitud (Ik).
Passo 4. Se m ≥ 1.
Passo 4.1. Em quanto lon ≤ n e gj(xk) + k≥ 0 e j ≤ m.
Passo 4.1.1. fazer Ik = [j, Ik].
Passo 4.1.2. fazer lon = longitud (Ik).
Passo 4.1.3. fazer j = j + 1.
4.2.2 Cálculo da matriz Ak
De acordo com (4.2.1), o conjunto A(xk, k) está intimamente relacionado
com a matriz Ak. Isto é, dado A(xk, k), a j-ésima coluna da matriz Ak
cor-responde ao gradiente da j-ésima restrição do problema (1), assumindo que as restrições tem uma ordem pré-denida e j ∈ A(xk, k). Se a matriz Ak
não é de posto coluna completo, então um novo conjunto de índices A(xk, k)
é calculado, a partir de um decréscimo do valor de k pelo fator θ.
Procedimento matriz
Dados de entrada: xk, A(xk, k), m, p.
Passo 1. Fazer Ak= [ ].
Passo 2. Fazer lon = longitud (A(xk, k)).
Passo 3. Se p ≥ 1.
Passo 3.1. Para i = 1, · · · , p, fazer Ak= [∇hl(xk), Ak].
Passo 4. Se m ≥ 1.
Passo 4.1. Para j = p + 1, · · · , p + m, fazer Ak= [∇gj(xk), Ak].
Passo 5. Fazer k = posto (Ak).
Passo 6. Se k = lon, fazer bandera = true.
Em casso contrário, fazer bandera = false
4.2.3 Obtenção de um conjunto de direções Dk que satisfaz
a condição 1
A partir da matriz Ak, obtida em (4.2.2), obtemos o conjunto de direções
Dk, o qual deve satisfazer a condição 1. Este conjunto é obtido a partir da
proposição (3.3.2), segundo a qual, um conjunto Dk satisfazendo a condição
1 é obtido da seguinte forma:
Dk = {u1k, . . . , u sk k , −vk1, . . . , −v tk k }, onde o conjunto Uk= {u1k, . . . , uskk},
gera o cone N(AT
k) e o conjunto
{v1 k, . . . , v
tk
k },
é formado com as colunas normalizadas da matriz Ak(ATkAk)−1. Para
en-contrar o conjunto β∗ N (At
k) usamos a fatoração QR da matriz Ak. Isto é:
Ak= QkRk = ˆ Qk... ˜Qk ˆ Rk · · · ˜ 0k , (4.1)
onde a matriz ˆQk∈ <n×mk, é tal que suas colunas formam uma base
ortonor-mal β∗
Im(Ak) para o espaço Im(Ak), e a matriz ˜Qk∈ <
n×(n−mk) forma uma
base ortonormal β∗ N (At
k) para o espaço N(A
t
k). A matriz ˆRk ∈ <mk ×mk é
triangular superior, invertível, e a matriz ˜0k∈ <(n−mk)×mk. Logo, as colunas
da matriz ˜Qk, junto com o negativo das mesmas colunas são as candidatas
CAPÍTULO 4. COMENTÁRIOS GERAIS DAS IMPLEMENTAÇÕES 40 Observação 4.2.1. Para calcular a matriz Ak(AtkAk)−1 temos em conta o
seguinte: a partir da igualdade (4.1), é possível escrever tal matriz de uma forma mas simples.
Ak(AtkAk)−1 = ˆ Qk... ˜Qk ˆ Rk · · · ˜ 0k ˆ Qk... ˜Qk ˆ Rk · · · ˜ 0k t ˆ Qk... ˜Qk ˆ Rk · · · ˜ 0k −1 = ˆ Qk... ˜Qk ˆ Rk · · · ˜ 0k ˆRktQˆtkQˆkRˆk −1 = ˆ Qk... ˜Qk ˆ Rk · · · ˜ 0k ˆRktRˆk −1 = ˆQkRˆk ˆR−1k Rˆ −t k = ˆQk ˆRkRˆ−1k ˆR−tk = ˆQkRˆ−tk .
Dado que a matriz ˆRk é triangular superior invertível, a matriz ˆRtké
triangu-lar inferior invertível. Logo para realizar o cálculo da matriz ˆRk−t resolvemos n-sistemas lineares da forma ˆRktbi = ei onde bi é a i-ésima coluna da matriz
ˆ
R−tk e ei é o i-ésimo vetor canônico.
4.2.4 Cálculo do passo máximo
Calcular o passo máximo αk que podemos caminhar na direção dk, onde
dk ∈ Dk, tal que o novo ponto xk+1 = xk + αkdk seja factível é muito
importante no interior do método. Isto é conseguido calculando αk tal que
as restrições impostas sobre x no problema (1) sejam satisfeitas no ponto xk+1. Ou seja, encontramos αk tal que:
gi(xk+1) = gi(xk+ αkdk) ≤ 0, ∀i = 1, · · · , m, (4.2)
e
h`(xk+1) = h`(xk+ αkdk) = 0, ∀` = m + 1, · · · , m + p. (4.3)
As condições (4.2) e (4.3) podem ser rescritas como:
αk∇h`(xk)Tdk= 0, ∀` = m + 1, · · · , m + p. (4.5)
Para encontrar αk, analisamos três possíveis casos:
1. o problema (1) tem só restrições de desigualdade. Um exemplo de con-junto factível em <2, é apresentado na gura (4.1). Neste caso temos
Figura 4.1. Passo αk com restrições de desigualdade em <2.
que αk deve satisfazer só a condição (4.4); não obstante, diferentes
situações podem apresentar-se e são analisadas a seguir:
i. a restrição gi é ativa no ponto xk e a direção dk é perpendicular
ao gradiente da restrição gi no ponto xk. Isto é, gi(xk) = 0 e
∇gi(xk)Tdk = 0. A gura (4.2)(a) ilustra tal situação. Logo, a
direção dk está sobre a restrição gi e podemos caminhar sobre tal
restrição sem perda de factibilidade. Isto é,
gi(xk) + αk∇gi(xk)Tdk≤ 0 ⇔ αk≥ 0.
ii. A restrição gi é ativa no ponto xke a direção dk forma um ângulo
β, 0 ≤ β < π/2, com o gradiente da restrição gi no ponto xk.
Isto é, gi(xk) = 0 e ∇gi(xk)Tdk>0. A gura (4.2)(b) ilustra tal
situação. Logo, não é possível caminhar na direção dk. Isto é,
gi(xk) + αk∇gi(xk)Tdk≤ 0 ⇔ αk≤ 0.
iii. A restrição gi é ativa no ponto xk, e a direção dkforma um ângulo
β, π/2 < β ≤ π, com o gradiente da restrição gi no ponto xk.
Isto é, gi(xk) = 0 e ∇gi(xk)Tdk<0. A gura (4.2)(c) ilustra tal