• Nenhum resultado encontrado

Condições de Óptimo do Problema de Variáveis Contínuas

nuas

As condições de óptimo2 são condições matemáticas que caracterizam o ponto óptimo de um

problema. Considere-se novamente o problema de minimização da função f (x) (Eq. 2.1). Define- se a existência de um mínimo local (i.e. mínimo relativo) no ponto x∗, no domínio R, se o valor de f (x) é mínimo numa dada vizinhança δ de x, isto é,

x− x < δ ⇒ f(x)≤ f(x) . (2.4)

Se a desigualdade for estrita (i.e. f (x) < f (x)) então o mínimo local designa-se de estrito ou isolado. A função-objectivo tem um mínimo global ou absoluto no ponto x se a equação 2.4 for válida para todo o domínio R, isto é, para qualquer valor de δ > 0. Este mínimo designa-se de mínimo global estrito ou único se a desigualdade for estrita. Assim, mostra-se que um mínimo local é testado numa vizinhança limitada, ao passo que um mínimo global tem de satisfazer as con- dições apresentadas em todo o domínio admissível. Uma função-objectivo pode ter vários mínimos globais, desde que tenha o mesmo valor em todos eles. O mesmo se passa com os mínimos locais, na sua respectiva vizinhança. Estas definições não conduzem directamente aos mínimos (locais ou globais), mas podem ser usadas para definir condições ou critérios de óptimo que caracteri- zem mínimos locais. Note-se que, em contrapartida, estas definições não podem ser usadas para estabelecer condições para mínimos globais, que requerem o conhecimento do comportamento da função-objectivo em todo o domínio admissível. No caso de variáveis discretas, estas definições são particularmente úteis, visto existir apenas um número finito de pontos a analisar.

Concretamente, as condições de óptimo podem ser divididas em duas categorias: necessárias e suficientes. As primeiras têm forçosamente de ser satisfeitas para que um ponto seja candidato a mínimo da função. Os pontos que satisfazem as condições necessárias são chamados de pontos estacionários. Estes pontos não correspondem necessariamente a mínimos de f (x), sendo apenas pontos óptimos se as condições suficientes forem satisfeitas. Se as condições suficientes não forem satisfeitas num ponto estacionário não é possível concluir se o ponto é óptimo ou não. Nas sec- ções seguintes faz-se uma breve descrição das condições necessárias e suficientes, primeiro para o problema não-restringido (ou não-constrangido) e depois para o caso geral restringido. Estas são utilizadas de duas formas: (i) como base para desenvolver métodos numéricos para a procura de pontos óptimos e (ii) como ferramenta de verificação de critérios de óptimo e critérios de paragem em algoritmos iterativos [Arora 2007a].

2.3.1

Problema Não-Restringido

Sem restrições, o problema apresentado resume-se à minimização da função-objectivo, f (x). As condições para que x seja um ponto de mínimo de f (x) são obtidas a partir da análise do com- portamento local da função no ponto x, isto é, recorrendo à expansão da função com a série de Taylor [Quarteroni et al. 2000]. Estabelece-se a condição necessária de primeira ordem como: se x é um ponto de mínimo local da função-objectivo f (x), então o gradiente da função nesse ponto deve ser nulo, i.e. ∂f /∂xi= 0, i = 1, . . . , n. Por sua vez, a condição necessária de segunda ordem

define-se como: se x é um ponto de mínimo local da função-objectivo f (x), então a sua matriz hessiana, H =  2f ∂xi∂xj  , (2.5)

2É comum na terminologia designar as condições de óptimo como condições de optimalidade. O termo opti- malidade, palavra não-dicionarizada e consagrada pelo uso na escrita científica acerca da temática de optimização, corresponde à integração do anglicismo e posterior aportuguesamento do termo inglês optimality.

Condições de Óptimo do Problema de Variáveis Contínuas

deve ser positiva semidefinida3

em x∗. A condição suficiente de segunda ordem, por sua vez,

define-se como: se a matriz hessiana H(x∗) for positiva definida4

, então o ponto estacionário x∗

corresponde a um mínimo local isolado da função. Qualquer ponto x∗ que satisfaça as condições

necessárias é um ponto estacionário. Se um ponto estacionário não for um ponto de mínimo nem de máximo, então corresponde a um ponto de inflexão.

Em suma, num problema de optimização não-restringida, numa aproximação local compara-se um dado ponto com a sua vizinhança, obtendo-se um mínimo relativo ou local de uma função suave quando o gradiente se anula e a matriz hessiana é definida positiva. Estas condições são necessárias e suficientes para a obtenção de um mínimo local. Se uma função for convexa, estas condições garantem ainda que este mínimo local seja também mínimo global do problema.

Note-se ainda que as condições apresentadas baseiam-se nas derivadas de f (x) e não no valor da função. Assim, constatação essencial em inúmeras aplicações, o ponto mínimo não sofre alteração se uma constante for adicionada à função ou se esta for transformada por uma constante escalar. Nestes casos, altera-se apenas o valor da função no ponto óptimo. Este comportamento é de extrema importância para a normalização das funções envolvidas, como se verá ao longo deste trabalho, assim como para a utilização de alguns métodos de optimização.

2.3.2

Problema Restringido

Um problema de optimização pode ter um ponto óptimo sem restrições activas, o que corresponde ao problema não-restringido e às correspondentes condições de óptimo. Este cenário, no entanto, é pouco comum. As condições de óptimo do problema não-restringido são, na realidade, um caso especial das condições para o problema restringido. Estas podem ser expressas de várias formas equivalentes, sendo as mais comuns as condições de Karush-Kuhn-Tucker (KKT) [Luenberger e Ye 2008]. Para considerar estas condições é antes necessário estabelecer o conceito de ponto regular. Um ponto x é um ponto regular do domínio admissível R se a função-objectivo é contínua e os gradientes de todas as restrições activas são linearmente independentes nesse ponto. O número de vectores linearmente independentes não pode ser superior ao número de variáveis n, isto é, à dimensão de cada vector. Assim, o número total de restrições activas não pode ser superior ao número de variáveis no ponto regular. Definem-se então as condições necessárias de Karush-Kuhn- Tucker. Seja o lagrangiano do problema P definido como

L(x, λ) = f (x) + λTg(x) , (2.6)

onde λ é um vector de multiplicadores de Lagrange para as restrições g. Sejam x∗ um ponto

de mínimo local de f (x) e as restrições activas em x∗ linearmente independentes, isto é, seja x∗

regular. Existem então multiplicadores de Lagrange λ∗

i (únicos) tais que

∇L(x∗) = ∇f (x) + λ∗T∇g(x) = 0 , (2.7)

λ∗

igi(x∗) = 0, i= (p + 1), · · · , m , (2.8)

λ∗

i ≥0, i= (p + 1), · · · , m . (2.9)

∇L(x∗) é uma matriz de dimensão n×m. A equação 2.7 (condições de estacionariedade) mostra que

o lagrangiano é estacionário relativamente a x quando o seu gradiente é nulo. A equação 2.8 mostra que, no ponto de mínimo, ou o multiplicador de Lagrange λ∗

i é nulo ou a restrição gié activa. Esta

equação define a condição de complementaridade ou folgas complementares, e identifica restrições activas e inactivas. A inequação 2.9, por sua vez, define as condições de viabilidade dual e mostra que os multiplicadores de Lagrange das restrições de desigualdade devem ser não-negativos. Note- -se que as condições de viabilidade primal correspondem às próprias restrições do problema (vd. Eq. 2.1). A equação 2.7 tem n variáveis e m multiplicadores de Lagrange, resultando num total de

3

Uma matriz A∈ IRn×ndiz-se semidefinida positiva se

∀ x ∈ IRn

\{0}, xTAx ≥ 0. 4

Uma matriz A∈ IRn×n

diz-se definida positiva se∀ x ∈ IRn

\{0}, xT Ax > 0.

Condições de Óptimo do Problema de Variáveis Contínuas

n+ m incógnitas. Existem também n + m equações, com n equações na expressão 2.7, p restrições de igualdade e m − p equações na expressão 2.8. As condições necessárias KKT de primeira ordem correspondem assim a um sistema de equações, usualmente não-linear. A equação 2.7 pode ainda ser reescrita como

−∇f(x∗) = λ∗T∇g(x) . (2.10)

Dado um problema de minimização sujeito a restrições de igualdade, com funções suaves, uma condição necessária no ponto óptimo é que o gradiente da função seja ortogonal ao plano tangente da superfície de restrição. Isto é equivalente a ter o gradiente da função paralelo ao gradiente da restrição. Se o ponto for regular, então o plano tangente tem uma representação simples em termos dos gradientes das funções de restrição e a condição pode ser expressa em termos de multiplicadores de Lagrange. As condições de desigualdade são processadas com a verificação de quais estão activas numa solução. Uma desigualdade activa passa a comportar-se como uma restrição de igualdade, excepto pelo facto de ser associada a um multiplicador de Lagrange que não pode ser negativo devido à interpretação de sensibilidade dos multiplicadores. Salienta-se assim o significado físico da condição de gradiente 2.10. Assim, num ponto de mínimo, a direcção de gradiente com declive máximo, ou seja, o simétrico do gradiente da função-objectivo, é paralela à combinação linear dos gradientes das restrições activas. Os multiplicadores de Lagrange são os factores escalares desta combinação linear e traduzem a influência ponderada de cada uma das restrições no processo de optimização e no ponto óptimo [Arora 2007a]. Note-se que se o ponto x∗ não for regular, as

restantes condições KKT podem ou não ser verificadas.

Apesar de não serem utilizadas neste trabalho, pode recorrer-se ainda às condições necessárias de segunda ordem para distinguir pontos óptimos de outros pontos regulares. Estas condições recorrem a matrizes hessianas das funções. Note-se ainda que as condições necessárias para pro- blemas convexos podem ser expressas sem derivadas, sendo neste caso denominadas condições de ordem zero.

2.3.3

Convexidade e Questões Adicionais

Em muitos casos, a conclusão a retirar de um processo de optimização é que o ponto óptimo encontrado é apenas um óptimo local. Um óptimo global pode ser determinado por procura exaustiva de todo o domínio admissível ou provando que o problema é convexo, sendo que ambos os procedimentos são computacionalmente exigentes. Se o problema for convexo, então um óptimo local é também um óptimo global e as condições KKT necessárias de primeira ordem são também suficientes [Arora 2007a]. Assim, um problema é convexo se a função f (x) for convexa no domínio admissível R. Um conjunto de pontos é dito convexo se e só se para qualquer dois pontos do domínio todo o segmento que une os dois pontos pertence também ao domínio. Verifica-se que igualdades e desigualdades lineares definem sempre um domínio admissível convexo. Igualdades não-lineares, em contrapartida, definem sempre domínios admissíveis não-convexos. Este tipo de análise, no entanto, é normalmente complexo de utilizar, pelo que são necessários métodos mais expeditos para verificar a convexidade de um domínio. Neste sentido, verifica-se que se todas as funções que definem um domínio admissível forem convexas, então este é também convexo. Por sua vez, uma função é convexa se e só se a sua matriz hessiana é pelo menos semidefinida positiva em todo o domínio. Se uma função gi for convexa, o domínio definido por gi≤ ei é também convexo,

para qualquer constante ei. Note-se que esta é uma condição suficiente, mas não necessária, sendo

possível uma função gi não-convexa conduzir ainda assim a um domínio convexo [Arora 2004].

É também importante salientar que os valores óptimos dos multiplicadores de Lagrange repre- sentam a importância relativa das restrições respectivas sobre a função-objectivo. Para além disto, em aplicações práticas, é comum afectar a função-objectivo e as restrições de um factor de escala para evitar instabilidades numéricas, sendo importante verificar a sua relação com os multiplicado- res de Lagrange. Considere-se um problema em que os valores-limite das restrições são zero. Seja ei uma pequena variação no segundo termo da restrição gi. A perturbação no ponto óptimo será

Métodos de Optimização

função de um vector e, com x = x(e) e f = f (e). Como resultados destas funções implícitas de e surgem as derivadas implícitas ∂e∂f

i e o conceito de sensibilidade a variações nas restrições.

Assim, sejam x um ponto regular e λ∗i os multiplicadores de Lagrange que satisfazem as condições de KKT necessárias e suficientes para que x seja um ponto de mínimo. Se para cada gi(x) = 0,

com i > p, se tiver λ∗i > 0, então a solução do problema modificado é uma função continuamente diferenciável de e numa dada vizinhança de e = 0 e

∂f (x(0)) ∂ei =−λ

i, i = 1, . . . , m . (2.11)

Se estas condições não se verificarem, a derivada implícita expressa na equação 2.11 pode ainda assim existir, apenas não se garante a sua existência. Esta equação permite estimar o custo de uma determinada alteração no segundo termo da restrição i. O termo de primeira ordem da série de Taylor da função-objectivo no ponto ei é dado por

f (ei) = f (0) +∂f (0)

∂ei ei, (2.12)

onde f (0) é o valor da função-objectivo com ei = 0. Recorrendo à equação 2.11 pode obter-se a variação da função-objectivo, Δf , como

Δf = f (ei)− f(0) = −λ∗iei. (2.13)

Mostra-se assim que o multiplicador de Lagrange associado a uma restrição do tipo≤ deve ser não- -negativo [Arora 2007a]. Esta afirmação pode ilustrar-se relaxando uma restrição de desigualdade gi ≤ 0 com ei > 0, expandindo o domínio admissível do problema. Neste caso, o valor mínimo da função-objectivo devia reduzir-se ainda mais ou manter-se inalterado, se com a alteração a restrição deixasse de ser activa. No entanto, de acordo com a expressão 2.13, se λi ≤ 0 esta

alteração resultaria num aumento do valor da função-objectivo (Δf > 0).

A necessidade de normalizar a função-objectivo é comum em diversos problemas, procedendo- -se usualmente à sua multiplicação por uma constante positiva. Apesar de esta alteração não modificar o ponto óptimo, altera os multiplicadores de Lagrange para todas as restrições. Usando as condições definidas na expressão 2.7, mostra-se que todos os multiplicadores de Lagrange são também multiplicados pelo mesmo factor. Seja λ∗i o multiplicador associado à restrição gi no

problema original. Seja também a função-objectivo actualizada como f= αf , com α > 0. O novo multiplicador de Lagrange da condição gi no ponto óptimo passa a ser λ∗i = αλ∗i, i = 1, . . . , m.

Na prática, é usualmente útil normalizar também todas as restrições, especialmente por se tornar complicado verificar quais as restrições mais severamente violadas sem normalização. Esta questão é particularmente relevante se as restrições envolverem a avaliação de grandezas físicas, que podem diferir de diversas ordens de grandeza e têm forçosamente de ser normalizadas para poderem ser comparadas. Esta normalização é efectuada, à semelhança do referido anteriormente para a função-objectivo, multiplicando as restrições por constantes positivas que as enquadrem numa mesma escala numérica. Estas alterações não modificam o ponto óptimo ou a função-objectivo, afectando apenas cada um dos multiplicadores de Lagrange. Recorrendo novamente à expressão 2.7 verifica-se que o multiplicador de uma restrição i é dividido pelo mesmo factor de escala. Assim, o multiplicador associado à nova restrição gi = βigi no ponto óptimo é definido por λ∗i = λ∗i/βi, i = 1, . . . , m.