• Nenhum resultado encontrado

(1)Math-Net.Ru Общероссийский математический портал M

N/A
N/A
Protected

Academic year: 2023

Share "(1)Math-Net.Ru Общероссийский математический портал M"

Copied!
24
0
0

Texto

(1)

Math-Net.Ru

Общероссийский математический портал

M. М. Голишников, А. Ф. Измаилов, Ньютоновские методы для задач услов- ной оптимизации с нерегулярными ограничениями, Ж. вычисл. матем. и матем. физ., 2006, том 46, номер 8, 1369–1391

Использование Общероссийского математического портала Math-Net.Ru подразумевает, что вы прочи- тали и согласны с пользовательским соглашением

http://www.mathnet.ru/rus/agreement Параметры загрузки:

IP: 139.59.245.186

6 ноября 2022 г., 11:23:14

(2)

ЖУРНАЛ ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ И МАТЕМАТИЧЕСКОЙ ФИЗИКИ, 2006, том 46, № 8, с. 1369-1391

УДК 519.658А

НЬЮТОНОВСКИЕ МЕТОДЫ ДЛЯ З А Д А Ч УСЛОВНОЙ ОПТИМИЗАЦИИ С НЕРЕГУЛЯРНЫМИ ОГРАНИЧЕНИЯМИ

1

)

© 2006 г. M. М. Голишников, А. Ф. Измаилов

(119992 Москва, Ленинские горы, МГУ, ф-т ВМиК) e-mail: golishnikov@rambler.ru;izmaf@ccas.ru

Поступила в редакцию 28.02.2006 г.

Обсуждаются важнейшие классы ньютоновских методов решения задач условной оптимиза­

ции: методы последовательного квадратичного программирования, методы активного мно­

жества и полугладкие методы Ньютона для систем Каруша-Куна-Таккера. Основное внима­

ние уделено поведению этих методов и их специальных модификаций при ослабленных (или вовсе отсутствующих) требованиях регулярности ограничений. Рассматриваются приложе­

ния к задачам оптимизации с комплементарными ограничениями. Библ. 49.

Ключевые слова: задача условной оптимизации, ньютоновские методы, последовательное квадратичное программирование, методы активного множества, полугладкие методы Нью­

тона, регулярность ограничений.

1. ВВЕДЕНИЕ. НЬЮТОНОВСКИЕ МЕТОДЫ УСЛОВНОЙ ОПТИМИЗАЦИИ Рассматривается задача математического программирования

Дх) — m i n , F(JC) = 0, G(JC)<0, (1.1) г д е / : Rn —R - гладкая функция, a F : R" —- R1 и G : Rn —- Rm - гладкие отображения. Речь

в данной статье идет о ньютоновских методах решения задачи (1.1), а точнее - о локальной схо­

димости и скорости сходимости таких методов при ослабленных (или вовсе отсутствующих) тре­

бованиях регулярности ограничений.

Напомним, что точка x e Rn называется стационарной точкой задачи (1.1), если существуют такие X G R1 и Д e Rm, что тройка (x, X, Д) удовлетворяет системе Каруша-Куна-Таккера (ККТ) задачи (1.1):

^ ( х Д , | и ) = 0, F(x) = 0, ц > 0 , G(x)<09 (ц, G(x)) = 0. (1.2) Здесь L ^ x R ' x FT — R,

L(x, X, JLL) = f(x) + <X, F(x)) + G(x)) (1.3) есть функция Лагранжа задачи (1.1). При этом X и Д называются множителями Лагранжа, от­

вечающими стационарной точке х. Множество пар (X, Д ) таких множителей будем обозначать через М(х); очевидно, это множество является полиэдром.

Как хорошо известно, при выполнении в точке х тех или иных условий регулярности ограни­

чений (см. разд. 2) ее локальная оптимальность в задаче (1.1) влечет стационарность. Стационар­

ность локального решения часто имеет место и при нарушении условий регулярности, однако, как будет показано ниже, даже в этом случае эффективное численное отыскание таких решений весьма проблематично и требует специальных подходов. Вместе с тем случаи возможного нару­

шения условий регулярности ограничений в последнее время привлекают большое внимание специалистов (см. [1]—[19]). Этот интерес объясняется тем, что в некоторых важных классах за­

дач нерегулярность ограничений возникает естественным образом. Сюда относятся задачи оп-

Работа выполнена при финансовой поддержке Р Ф Ф И (код проекта 04-01-00341) и грантов президента Р Ф для госу­

дарственной поддержки ведущих научных ш к о л (код проекта НШ-9344.2006.1) и молодых российских ученых - докторов наук (код проекта МД-2723.2005.1).

(3)

1370 ГОЛИШНИКОВ, ИЗМАИЛОВ

тимизации с комплементарными ограничениями МРСС (от английского Mathematical program with complementarity constraints) (см. [20]-[28], а также [29, § 4.3]), так называемые задачи опти­

мизации с исчезающими ограничениями (см. [30]), а также некоторые классы задач большой размерности, ограничения которых имеют тенденцию оказываться нерегулярными или "почти"

(численно) нерегулярными в решении.

Важнейшее место среди ньютоновских методов решения задачи (1.1) занимают так называе­

мые методы последовательного квадратичного программирования SQP (от английского Se­

quential quadratic programming). Эти методы генерируют траекторию {JC*} С R" следующим обра­

зом: по текущему приближению х* очередное приближение хк + 1 ищется как локальное решение (или как стационарная точка) задачи квадратичного программирования

</(**), х-хк) + ^(Нк(х-/), х-хк) — min, (1.4) F(xk) + F(xk)(x-xk) = 0, G(xk) + G(xk)(x-xK)<0, (1.5) где Нк - симметрическая п х n-матрица, которая в некотором смысле аппроксимирует —- (х, А,

дх Д ) при к — • ©о. Например, можно полагать

Н

к

= ^(/Д*У), (1.6)

дх

если параллельно с прямой траекторией {х*} генерировать двойственную траекторию {(А*, ц*)}, например, следующим образом: по текущим Хк и [ik очередная парак+1, \ik+l) определяется как пара множителей Лагранжа, отвечающих стационарной точке хк+1 задачи (1.4), (1.5). Заметим, однако, что для обеспечения локальной сверхлинейной сходимости метода аппроксимировать

d2L - d2L -

—- (*, А, Д ) в смысле предельного соотношенияк} — • —- (х, А, Д ) — • ©о) вовсе не обя-

дх дх зательно, а с практической точки зрения может быть даже нежелательно (детали см. в [31,

§ 4.4]). Тем не менее в рамках локального анализа всюду далее (за исключением особо оговорен­

ных случаев) будет удобно считать, что Нк выбирается именно согласно (1.6).

Другой важный класс методов составляют методы активного множества AS (от английского Active-set), в основе которых лежит идея идентификации множества Дх) = {/= 1 , 2 , . m \ Gt(x) = 0}

индексов активных в точке х ограничений-неравенств и применения ньютоновских методов к задаче оптимизации с ограничениями-равенствами

Дх) — m i n , F(x) = 0, Gm(x) = 0, (1.7)

где для вектора z e Rm и множества / с {1, 2,..., m} через ц обозначается вектор с компонентами Zfj ie LO способах идентификации множества Дх ) см. ниже разд. 2, а также [31, § 4.6]. Заметим, что точка х является решением задачи (1.7), причем если эта точка была стационарной в задаче (1.1) с множителями Ä и Д, то она является таковой и в задаче (1.7) с множителями А и Д/ (^ . За­

дача (1.7) в определенном смысле проще, чем (1.1), и допускает специальные методы решения (см. [31, § 4.3]). Например, система ККТ для задачи с ограничениями-равенствами есть система уравнений Лагранжа и, соответственно, к ней может применяться богатый арсенал ньютонов­

ских методов решения систем нелинейных уравнений (см. [32]).

Наконец, в последнее время все большее внимание уделяется ньютоновским методам реше­

ния системы ККТ (1.2), а точнее - переформулировок (1.2) в виде системы уравнений. Последнее можно сделать многими способами. Для произвольной функции дополнительности, т.е. функции

\|/ : R X R —^ IR, удовлетворяющей условию

у(а,Ь) = 0<=>я>0, Ь > 0 , ab = 0,

последние три соотношения в (1.2) эквивалентным образом переписываются в виде \|/(ц, -G(x)) = 0.

Здесь и далее в подобных ситуациях функция \|/ применяется покомпонентно, т.е. \|/((i, -G(x)) =

(4)

НЬЮТОНОВСКИЕ МЕТОДЫ ДЛЯ ЗАДАЧ УСЛОВНОЙ ОПТИМИЗАЦИИ 1371

= (y(iLu-Gi(x)),..., \|/(|UW, -Gm{x))). В настоящее время наиболее часто используемыми функциями дополнительности являются функция естественной невязки \|/(я, b) = min {а, è}, a также функция Фишера-Бурмейстера \\f(a, b) - Ja2 + b2 -a-b. Заметим, что обе эти функции не являются глад­

кими и поэтому к системе

& с Д , д ) = 0, F(x) = О, \\f(\i,-G(x)) = 0 (1.8) ох

должны применяться не традиционные ньютоновские методы, а их обобщения на негладкий слу­

чай - так называемые полугладкие методы Ньютона SNM (от английского Semismooth Newton method). Существуют также и гладкие функции дополнительности, например \|/(а, Ъ) = lab - - (min {0, а + Ь})2, но их использование связано с проблемами другого рода (подробности см. в [31,

§ 4.5]).

В разд. 2 обсуждаются слабейшие из известных на сегодняшний день условий, гарантирующих локальную сходимость со сверхлинейной скоростью методов рассмотренных классов. Разд. 3 по­

священ специальным модификациям методов SQP и AS, разработанным для повышения эффек­

тивности этих методов в случае нарушения в искомом решении тех или иных условий регуляр­

ности ограничений. В разд. 4 речь идет о теоретическом и практическом опыте применения нью­

тоновских методов общего назначения к МРСС. Наконец, разд. 5 содержит набор примеров, иллюстрирующих различные факты из предыдущих разделов.

2. УСЛОВИЯ ЛОКАЛЬНОЙ СВЕРХЛИНЕЙНОЙ СХОДИМОСТИ НЬЮТОНОВСКИХ МЕТОДОВ

Локальное поведение методов ньютоновского типа для задачи (1.1) обычно исследуют пред­

полагая выполнение в искомом локальном решении х этой задачи тех или иных условий регу­

лярности ограничений и достаточных условий второго порядка.

Важнейшим условием регулярности ограничений является условие Мангасариана-Фромови- ца MFCQ (от английского Mangasarian-Fromovitz constraint qualification):

rankF(Jc) = /, e kerF(Jc) : G\{x)(x)\ < 0. (2.1)

Выполнение MFCQ в стационарной точке x задачи (1.1) равносильно ограниченности полиэдра М(х ). Единственности множителей Лагранжа это условие, вообще говоря, не гарантирует. Ком­

бинация MFCQ и требование единственности отвечающих х множителей Лагранжа X и Д назы­

вается строгим условием регулярности Мангасариана-Фромовица SMFCQ (от английского Strict Mangasarian-Fromovitz constraint qualification). Это условие можно записать в виде

rank

f F(x) ^

V G/+( J t , P ) ( - * ) y

Э | е ktvF(x) : G\+{-x^{~x)l = 0, G)oi3ttlL)(x)l<09 г д е / Д х , Д ) = {i'e 1(х)\ Д, > 0 } , /0( х , Д ) = / ( x ) V+( x , Д ) .

Условием регулярности более сильным, чем SMFCQ, является условие линейной независимо­

сти LICQ (от английского Linear independence constraint qualification) ( F(x) \

rank = / + |/(Jc)|. (2.2)

\GI(x)(x)J

Для (X, Д ) G M(x) достаточное условие второго порядка SOSC (от английского Second-order sufficient condition) имеет вид

l^(xX№,Êj>0

VÇe С(х)\{0}, (2.3)

(5)

1372 ГОЛИШНИКОВ, ИЗМАИЛОВ где

С(х) = tie kerF(Jt) I G'm(x)$<09 < / ' ( * U> < 0 } есть критический конус задачи (1.1) в точке х. Более сильное условие

(^(х, X, Д)С, ^ > 0 E (kerF(x) n G ;+ № Д )( 3 с ) ) \ { 0 } (2.4) называется сильным достаточным условием второго порядка SSOSC (от английского Strong sec­

ond-order sufficient condition).

Локальная сходимость методов SQP со сверхлинейной скоростью (в прямодвойственных пе­

ременных) может быть доказана при выполнении SMFCQ и SOSC. Этот результат был получен в [33] (см. также [29, § 4.5]). При этом предполагается, что в качестве очередного прямодвой- ственного приближения (xk+\Xk+l,\xk+l) берется ближайшее (или, во всяком случае, достаточно близкое) к (JC*, Хк, |LL*) решение системы ККТ задачи (1.4), (1.5) (в данных предположениях реше­

ние этой системы может не быть единственным). Последнее требование, конечно, нельзя на­

звать абсолютно конструктивным, но стремление к его выполнению может быть реализовано в используемых методах решения итерационных задач квадратичного программирования (1.4), (1.5).

Аналогичные локальные свойства SNM доказываются в существенно более сильных предпо­

ложениях, а именно при выполнении LICQ и SSOSC (см. [31, § 4.5]). Вместе с тем на итерации SNM приходится решать лишь одну систему линейных уравнений, а не задачу квадратичного программирования, как для методов SQP. Каждый из этих двух подходов имеет и другие сравни­

тельные достоинства и недостатки.

Что касается методов AS, теоретически обоснованные современные процедуры идентифика­

ции активных индексов используют вычислимые оценки расстояния до множества {x } х М(х) (см. [31, § 4.6]). Одна из наиболее тонких известных оценок такого рода вытекает из результатов работ [4], [11], а именно: если для некоторой пары (X,, Д ) G М(х ) выполнено SOSC (2.3), то най­

дется число о 0 такое, что

||JC - jc|| + dist((A, ц), М(х)) < ср(х, X, ц) (2.5) для всех (JC, X, \ï) e Rn x R1 x Rm достаточно близких к (x, X, Д ). Здесь dist(z, S) = inf ||z - s\\ - pac-

SG S

стояние от точки z до множества S, р : Rn x R xRm —• R,

p(x,X,[i) = fx(x9 X, Ц) + | | F ( J C ) | | + | | \ | / ( | L I , - G ( X ) ) | | (2.6)

называется оценивающей функцией, a \|/-упоминавшаяся выше функция естественной невязки. За­

метим, что p(jc, Х9 ц) есть не что иное, как невязка системы ККТ, записанной в виде (1.8). Как было показано в [34] (см. также [31, предложение 4.6.1 ]), при выполнении (2.5) и при любом 9 G (0,1 ) мно­

жество

Ю = { i = 1,2,...,m I ( p ( j c A ^ ) )e> - G , . ( j c ) } (2.7) совпадает с /(х ) для всех (JC, X, \i) G X R1 x Rm9 достаточно близких к (x, X, Д ).

Далее, для обеспечения локальной сходимости со сверхлинейной скоростью ньютоновских методов для системы Лагранжа задачи (1.7) производная оператора этой системы в ее решении (je, X, Д/(*)) должна быть не вырождена. Для этого, в свою очередь, необходимым является LICQ, а достаточным - комбинация LICQ и достаточного условия второго порядка оптимально­

сти точки х в задаче (1.7), которое выполняется автоматически при выполнении SOSC (2.3). Та­

ким образом, требуемые свойства описанного класса методов AS полностью обоснованы при выполнении LICQ и SOSC.

Заметим, правда, что на практике (в существующих программных продуктах) часто исполь­

зуются методы AS другого рода, в частности основанные на эвристических способах идентифи­

кации активных индексов.

(6)

Таким образом, локальная сходимость со сверхлинейной скоростью методов рассмотренных классов предполагает выполнение в искомом решении условий регулярности ограничений, при­

чем таких, которые подразумевают единственность множителей Лагранжа. Случаям нарушения условий регулярности посвящены оставшиеся разделы статьи.

В завершение этого раздела отметим, что, помимо сложности вспомогательных задач и усло­

вий, гарантирующих локальную сходимость со сверхлинейной скоростью, существуют другие важные практические характеристики ньютоновских методов, такие как существование квази­

ньютоновских версий (с менее трудоемкими итерациями), приспособленность к глобализации сходимости и др.

3. НЬЮТОНОВСКИЕ МЕТОДЫ В НЕРЕГУЛЯРНОМ СЛУЧАЕ

Настоящий раздел содержит обзор и обсуждение известных модификаций ньютоновских ме­

тодов, ориентированных на случай нарушения тех или иных условий регулярности ограничений задачи (1.1). При этом речь идет только о тех методах и подходах, которые, с одной стороны, теоретически обоснованы, а с другой стороны, по мнению авторов, могут представлять практи­

ческую ценность.

Указанные модификации методов SQP первоначально разрабатывались для задач оптимиза­

ции только с ограничениями-неравенствами. Точнее, эти разработки предполагали выполнение MFCQ (2.1) и, в частности, неприменимы в случае нерегулярности ограничений-равенств, т.е. в случае нарушения условия rankF(x ) = /. Временно будем считать, что в задаче (1.1) ограничений- равенств нет.

В [2] был предложен стабилизированный метод SQP, генерирующий траекторию { (x*, \ik)} с с Ш" x IRm следующим образом: по текущему приближению (х*, \ik) очередное приближение (х* + \ \ 1к + !) ищется как решение линейно-квадратичной минимаксной задачи

( i к, к\ , 1 / 32L/ к к., к, Д , max ( / (x ), х - х } + -( —^(х , |l )(х - x ) , х - х ) +

»е Ш : \ ' (3.1)

+ <щ G(xk) + G\xk){x - /)> - y1|Li - rf j — min,

где ск > 0 - параметр стабилизации. Точнее, хк+1 ищется как локальное решение задачи (3.1), а цк+\_ как единственная реализация максимума в (3.1) прих = х* + \ Позднее в [10] было показано, что такая итерационная подзадача равносильна задаче квадратичного программирования

< Я Л х - *к> + ^ 0 ( * * > - А х - * j + у MI2 — min, (3.2)

G(xk) + G'(x*)(x - xk) - ck(\i -\iK)<0 (3.3)

(при ök = 0 задача (3.2), (3.3) превращается в итерационную подзадачу (1.4), (1.5) метода SQP с матрицей Нк выбираемой согласно (1.6)). Предложенный в [2] выбор ак в определенном смысле эквивалентен следующему: ак = р(х*, \1к) (см. (2.6), где зависимость от А, и второе слагаемое в пра­

вой части в данном случае следует опустить).

Локальная сходимость со сверхлинейной скоростью описанного метода к точке (х, Д ) при не­

котором Д G М(Х) доказана в [2] при выполнении MFCQ (2.1), условия строгой дополнительно­

сти, состоящего в том, что

0 (3.4) хотя бы для одного Д е М(х) (где опущена отсутствующая компонента X пары множителей

Лагранжа), а также SOSC (2.3) для всех Д е М(х) (в определении (1.3) функции Лагранжа зави­

симость от X и второе слагаемое в правой части в данном случае следует опустить). Заметим, что при выполнении условия строгой дополнительности имеет место равенство С(х) = kerG/( j e )(x).

Прямая начальная точка х° должна быть достаточно близка к x, а двойственная начальная точка

0 > 0 — к некоторому подмножеству точек полиэдра Ж(х), достаточно удаленных от его отно-

(7)

сительной границы (и, в частности, удовлетворяющих > 0). Кроме того, как и для обычного метода SQP, в качестве очередного приближения должно выбираться решение (xfe + \ \ik+1) зада­

чи (3.2), (3.3), достаточно близкое к (х*, [ik).

В [2] также содержится анализ влияния ошибок округления, который особенно важен для ме­

тодов стабилизации, характерной особенностью которых является неизбежное ухудшение обу­

словленности итерационных подзадач по мере приближения к решению.

Стабилизированный метод SQP был мотивирован работой [7], где было показано, что пря- модвойственные методы внутренней точки сходятся сверхлинейно в сформулированных выше предположениях.

Дальнейшее развитие подход из [2] получил в [15], где снимаются присутствующие в [2] усло­

вие строгой дополнительности и специальные требования на двойственное начальное прибли­

жение. По-прежнему предполагается выполнение MFCQ (2.1) и SOSC (2.3) для всех Д G Ж(х)- Заметим, что критический конус рассматриваемой задачи в точке х можно записать в виде

С(х) = tte kevG\+rx)(x) \ G\QCX)(X)^<0}.

В этих предположениях, во-первых, предлагается процедура идентификации множеств /+(*) = U /+( * , Д ) , /0(х) = /(х)\/+(х)

Д е М(х)

(легко видеть, что условие строгой дополнительности равносильно равенству /0(х ) = 0). Проце­

дура использует оценку расстояния (2.5) (в которой нужно опустить отсутствующие зависимости от À, и которая в данных предположениях справедлива при некотором о 0 для всех (х, ц) G Ш" X [Rm, достаточно близких к {x } х М(х)) и требует решения некоторого количества (от 0 до |/(х)|) вспомогательных задач линейного программирования. Далее, решение еще одной вспомогатель­

ной задачи линейного программирования, также использующей оценку (2.5), позволяет полу­

чить по имеющимся хк и [ik "улучшенное" двойственное приближение Д* G Rm, которое близко к Ж(х), но достаточно удалено от относительной границы этого полиэдра.

Во-вторых, использование указанной процедуры на шаге инициализации стабилизированно­

го метода SQP и, соответственно, замена (1° на Д° позволяет получить алгоритм, обладающий сходимостью со сверхлинейной скоростью из любого начального приближения (х°, ц0), достаточ­

но близкого к {x } х М(х ). Заметим, правда, что речь здесь идет о сходимости со сверхлинейной скоростью прямодвойственной траектории {(x*, \ik)} к множеству {x } х М(х) (в смысле сходи­

мости к нулю со сверхлинейной скоростью последовательности {||х* - x || + dist(|uA, М(х ))}), а, во­

обще говоря, не к точке этого множества. Заметим также, что в этом анализе отсутствует сколь­

ко-нибудь конструктивное правило выбора на каждой итерации подходящего решения подзада­

чи (3.2), (3.3); утверждается лишь что подходящее решение существует.

Метод, предложенный в [5], использует для получения очередного прямого приближения хк+1 подзадачу метода SQP, а вот двойственные приближения пересчитываются с помощью другой вспомогательной выпуклой задачи квадратичного программирования. Точнее, перед началом процесса полагается Д° = Для текущих хк и Д* очередное прямое приближение х *+ 1 ищется как ближайшее к JC4 решение задачи (1.4), (1.5) с матрицей

Нк = ^ ( х \ Д * ) . (3.5)

Эх

Затем ищется решение задачи (1.4), (1.5) при Нк = Е и некоторый отвечающий этому решению множитель Лагранжа Д *+ 1.

Заметим, что данный метод не является методом стабилизации: никакого стремящегося к ну-

~ к

лю параметра стабилизации здесь нет. Однако, во-первых, задача определения |1 тем более ста­

новится все хуже обусловленной по мере приближения хк к решению. Во-вторых, условия, гаран­

тирующие локальную сходимость траектории {(х*, Д* )} к множеству {x } х М(х ) со сверхлиней-

(8)

ной скоростью, для этого метода еще сильнее, чем для стабилизированного метода SQP.

А именно, в [5] нужные свойства сходимости из любого начального приближения доста­

точно близкого к {x } х М(х), доказаны при выполнении не только MFCQ (2.1) и SOSC (2.3) для всех Д G М(Х), НО И при дополнительном предположении постоянства величины rankG/+ ( j e )(x) вблизи х и при еще одном требовании, которое в [5] было названо условием слабой дополни­

тельности:

im(G)+rx^(x))T = im(G)+{x)(x))T \/Д G М(х)

(при выполнении условия строгой дополнительности это условие действительно выполняется автоматически).

В работе [14] вводится и анализируется класс неточных методов SQP, в которых вместо (1.4), (1.5) используется следующая возмущенная задача квадратичного программирования:

G(xk) + G{xk){x - хк) + Ък < О, (3.7) где ак e R" и Ък e R™ - параметры возмущения. Показано, что при выполнении MFCQ (2.1) и

SOSC (2.3) для всех Д G М(х) справедливо следующее: существуют числа с1 > О и с2 > 0 такие, что если точка (**, ц*) достаточно близка к {x } x М(х), а и \\Ьк\\ достаточно малы, то задача (3.6), (3.7) имеет такое локальное решение \ что для любого отвечающего ему множителя Лагранжа \ik+1 справедлива оценка

+dist(|i*+ 1,il(jc))^c1(||jc*-jc|| + 1И1 + (3.8)

причем для всякой стационарной точки 1 задачи (3.6), (3.7) и всякого отвечающего ей множи­

теля Лагранжа \ 1к +\ удовлетворяющих (3.8), справедлива оценка

|/

+1

- х\\ + dist(n

A +

\ М(х)) < с

2

(\х - х« Ы

+

' - А + U - xï + И + И)• (3.9)

Ясно, что при конкретных ак и М, соответствующим образом согласованных с величиной

||лг* - x II + dist(|j*, М(х )), (3.9) как раз и будет давать оценку скорости сходимости соответствующего неточного метода SQP (а точнее - скорости сходимости к нулю последовательности {||х* - jt|| + +

dist(n*,

М(х))}).

Пусть точка (дс*, \1к) достаточно близка к {x } x М ), ак+ \ \ik+1) является локальным реше­

нием задачи (3.2), (3.3), причем величина + 1 - дг*|| достаточно мала. Тогда если для каждого к положить ак = 0, b)k = -а^(|И^+ 1 - |ij ), b\хл,m}\ik = 0, где 1к - множество индексов активных огра­

ничений задачи (3.2), (3.3) в точке (х*+ \ JLL^1), то точка хк+1 является стационарной точкой зада­

чи (3.6), (3.7), а |Д* + 1 - отвечающим ей множителем Лагранжа. Это позволяет интерпретировать стабилизированный метод SQP из [2] как частный случай неточного метода SQP. В частности, если взять ак = (р(хк, \1к))Т при фиксированном x G (0, 1), то можно показать, что при выполнении SSOSC (2.4) для всех fi е 1 ( 1 ) справедлива оценка \\\1к + 1 - \1к\\ = 0(11** - x || + dist(^, М ))). От­

сюда следует, что = 0((\\J^- Х\\ + dist(|i*, М )))1 + т) , и оценки (2.5) и (3.9) дают сверхлинейную скорость сходимости к нулю последовательности { ||JC* - x \\ + dist(|U*, М{х ))}.

Метод из [5] в принятых там предположениях также может быть интерпретирован как неточ­

ный метод SQP при ак = 0 и некотором Ък e Rm таком, что \\Ьк\\ = Офа - х ||2). Более того, произволь­

ный множитель Лагранжа \ik+ \ отвечающий решению дс*+ 1 задачи (1.4), (1.5) с матрицей из (3.5), удовлетворяет оценке 1 - Д* || = 0(||дс* - х ||). Отсюда и из (3.9), где нужно положить ц* = Д*, вы­

текает оценка ||дг*+1 - jc|| + dist(ji*+ 1, М(х)) = 0(\\хк - х||2). Кроме того, можно показать, что dist( Д*, М(х )) = <9(||дг* - x II). Последние две оценки дают сверхлинейную скорость сходимости к

(9)

нулю последовательности {||дс* - x \\ + dist(Д , М(х ))} (подчеркнем, что вычисляется в данном ме­

тоде именно траектория {Д*}, а не { | Д * } ; последняя используется только в анализе).

Кроме того, в [14] обсуждается следующий вопрос. Нередко профессиональные реализации методов SQP (такие, как SNOPT [35]) демонстрируют высокую эффективность и в случае нару­

шения условий регулярности ограничений (правда, это наблюдение едва ли относится к задачам, в которых присутствуют нерегулярные ограничения-равенства и которые не обладают при этом какой-либо специальной структурой). В [14] с помощью введенного класса неточных методов SQP предлагается некоторое объяснение этого явления. В частности, утверждается, что суще­

ственную роль здесь играет использование последнего рабочего множества индексов ограниче­

ний задачи квадратичного программирования (1.4), (1.5), полученного на предыдущей итерации, в качестве начального рабочего множества на следующей итерации ("горячий старт"; подразу­

мевается, что задачи квадратичного программирования решаются одним из методов AS, см., на­

пример, [31, § 7.3]). Другой важный момент состоит в том, что используемый алгоритм решения задач квадратичного программирования допускает некоторое нарушение ограничений с номера­

ми, не входящими в рабочее множество. В [14] эти и другие тонкости существующих реализаций методов SQP формализуются в новом алгоритме, обладающем локальной сходимостью к мно­

жеству {x } х М(х ) со сверхлинейной скоростью при выполнении MFCQ (2.1), SOSC (2.3) для всех Д G М(х), а также некоторых дополнительных предположений.

Однако выполнение SOSC (2.3) для всех Д G М(х) - весьма обременительное требование.

Его можно заменить значительно более естественным требованием, состояпцш в выполнении SOSC (2.3) при некотором Д G М(Х), если считать, что двойственная начальная точка близка именно к такому множителю Д. Данное понимание локального характера результатов о сходи­

мости было принято в [3], где, правда, вместо SOSC (2.3) предполагается выполненным SSOSC (2.4). Это предположение позволило доказать результат, из которого следует локальная сходимость со сверхлинейной скоростью (правда, тоже лишь в смысле сходимости к множеству {x } х М(х ) и без конструктивного правила выбора подходящего из решений подзадачи (3.2), (3.3)) стабилизиро­

ванного SQP, в котором полагается ck = (р(х*, \ik))x при фиксированном x G (0,1). При этом не ис­

пользуется ни MFCQ, ни условие строгой дополнительности, ни какие-либо вспомогательные процедуры "улучшения" двойственных приближений. Заметим, что в этих предположениях, не включающих в себя какие-либо требования регулярности ограничений, постановка без ограни­

чений-равенств уже не сужает общности, поскольку равенство F(x) = 0 можно безо всякого ущерба заменить двумя неравенствами F(x) < О, -F(x) < 0.

В [11] предложена общая схема анализа локального поведения для весьма широкого класса итерационных процессов ньютоновского типа для обобщенных уравнений. В частности, эта схе­

ма применима к стабилизированному методу SQP и позволяет повторить для него результат, ра­

нее полученный в [3] другими средствами, и, более того, усилить этот результат в том смысле, что здесь речь идет о сходимости к точке множества {x } х М(х ) и что правило выбора подходя­

щего решения подзадачи (3.2), (3.3) является стандартным для методов типа SQP (требуется до­

статочная близостьк+ \ \1к+1) к (дс*, \1к)).

Следующий шаг в развитии ньютоновских методов для задач с нерегулярными ограничения­

ми должен был состоять в замене SSOSC значительно более слабым условием SOSC. Реализация этого шага потребовала других подходов, а именно привлечения идей методов AS. Будем теперь говорить о задаче оптимизации, в которой могут присутствовать как ограничения-неравенства, так и ограничения-равенства. Впрочем, в силу указанных выше причин, последние можно было бы опустить, поскольку обсуждаемые далее методы не связаны с какими-либо условиями регу­

лярности ограничений.

Подход, предложенный в [17], состоит в следующем. Сначала применением формулы (2.7) при х = х°,Х = Х° и ц = |и° идентифицируется множество 1(х ). Затем система Лагранжа задачи (1.7) заменяется регуляризованной системой. Подчеркнем, что разработанные ранее подходы к отыс­

канию особых решений систем нелинейных уравнений [36], [37] оказываются неприменимыми в данном контексте по принципиальным причинам (не выполняются условия регулярности, требую­

щиеся для обоснования этих подходов) и поэтому применяется специальная схема регуляризации.

Для простоты изложения этой схемы, в основе которой лежат идеи из [1] (см. также [36, § 4.3]), бу-

(10)

дем считать, что ограничений-неравенств в задаче (1.1) нет изначально. Тогда система Лагранжа имеет вид

dL/

дх (x, X) = 0, F(x) = О (3.10)

(в определении (1.3) функции Лагранжа зависимость от ц и последнее слагаемое в правой части в данном случае следует опустить). Вычисляется аппроксимация П ортопроектора П на (imF(x))1- Для этого снова используется оценка расстояния (2.5), а также сингулярное разложе­

ние матрицы F(x°) (что, конечно, весьма трудоемко, но в рамках локального алгоритма делать это требуется лишь один раз, на шаге инициализации). Система (3.10) заменяется системой

dL-(x,X) = 0, F(x) + Tl(X-X0) = 0,

дх (3.11)

к которой применяются методы ньютоновского типа с начальной точкой (х°, Х°). При достаточ­

ной близости этой точки к (x, X ) и при выполнении SOSC (2.3) существует единственное (вблизи (x, X)) решение системы (3.11), причем это решение имеет вид (x, À, ) при некотором X е М(х) (где опущена отсутствующая компонента Д пары множителей Лагранжа), причем оператор си­

стемы (3.11) имеет в этом решении невырожденную производную.

Таким образом, достаточным для локальной сходимости со сверхлинейной скоростью (к точ­

ке вида (x, X, Д), где пара ( 1 , (1)G I ß ' x R ' " близка к множеству М(х)) методов данного класса является SOSC, что слабее, чем соответствующие требования для всех рассмотренных выше ме­

тодов. Еще раз подчеркнем, что никакие условия регулярности ограничений здесь не использу­

ются, не говоря уже об условии строгой дополнительности.

В [16] содержится способ глобализации сходимости метода из [17] в случае отсутствия в зада­

че (1.1) ограничений-неравенств. Недостатками этого способа являются его ориентированность на поиск стационарных точек (а не решений) задачи (1.1), а также необходимость вычислять ап­

проксимацию П проектора П на каждом шаге.

Упомянем работу [10], где было предложено идентифицировать множество индексов I такое, что /+(х, Д) с / с /(х) хотя бы для одного Д G М(х), и применять стабилизированный метод Ньютона к системе Лагранжа задачи (1.7), в которой Дх) заменяется на / . Однако процедура идентификации множества / в этой работе весьма примитивна; в частности, она не использует никаких оценок расстояния до множества {x } x М( х ). Это приводит к тому, что условия, в ко­

торых доказывается локальная сходимость со сверхлинейной скоростью метода из [10], вновь оказываются весьма обременительными. А именно, предполагается выполненным условие

3 | e k e r F ( i ) : G ;( j E )( J c ) | < 0 ,

которое отличается от (2.1) отсутствием требования регулярности ограничений-равенств и ко­

торое в [10] называется слабым MFCQ, и SSOSC (2.4) для всех Д G М(Х).

Наконец, в [19] используется та же самая процедура идентификации множества 1(х), что и в [17], но вместо регуляризации системы Лагранжа задачи (1.7) к этой системе, как и в [10], приме­

няется стабилизированный метод Ньютона. Для изложения последнего снова будем считать, что ограничений-неравенств в задаче (1.1) нет изначально. Тогда стабилизированный метод Ньюто­

на для системы Лагранжа (он же - стабилизированный метод SQP в случае задачи без ограниче-

п I

ний-неравенств) генерирует траекторию {(х\ Хк)} с IR X Ш следующим образом: по текущему приближению (х*, Хк) очередное приближениек+к+х) ищется как решение системы линей­

ных уравнений

— (х Д ) ( F ( x )) Эх

F ( / ) Х-Хк

( \ дЬ, к *к,

д х ( х Л ) F(xk)

(3.12)

(11)

где ок > О - параметр стабилизации (при ак = 0 система (3.12) превращается в итерационное урав­

нение обычного метода Ньютона для системы Лагранжа). В [19] предлагается брать ск = p(jr, Xk) (см. (2.6), где зависимость от |и и последнее слагаемое в данном случае следует опустить).

Как и для метода из [17], локальная сверхлинейная сходимость данного метода доказывается при выполнении SOSC (2.3). Кроме того, в [19] предложена система тестов для проверки пра­

вильности идентификации множества 1(х), позволяющая совмещать локальный алгоритм с ра­

зумными "внешними стратегиями", что, в принципе, должно приводить к глобально сходящимся алгоритмам с улучшенными свойствами в случае нерегулярности ограничений в решении. Такая приспособленность к глобализации является преимуществом данного метода перед подходом из [17], как и отсутствие необходимости вычислять аппроксимацию П проектора П . Оба подхода требуют решения одной системы линейных уравнений на итерации, однако, в свою очередь, пре­

имуществом подхода из [17] является то, что для него эта система не становится все ближе к вы­

рожденной по мере приближения к решению. Неизбежное ухудшение обусловленности итера­

ционных подзадач - уже отмечавшееся выше характерное свойство всех методов стабилизации.

Насколько критическим окажется это негативное свойство на практике, можно будет судить лишь на основании серьезного вычислительного опыта (см. также анализ влияния ошибок округления в [2], [19]).

Что касается дальнейшего развития изложенных выше результатов, то наиболее важной представляется проблема эффективной глобализации сходимости описанных локальных подхо­

дов (стабилизированного метода SQP, а также методов из [17], [19]) и, соответственно, создание на этой основе алгоритмов, пригодных для практического использования. Основная сложность здесь состоит в том, что специальные локальные методы следует, по-видимому, реализовывать как "добавки" к хорошо зарекомендовавшим себя традиционным глобально сходящимся ньюто­

новским алгоритмам, причем эти добавки должны вступать в игру лишь в случае необходимости, при обнаружении косвенных признаков недостатка регулярности, и не должны "мешать" тради­

ционным алгоритмам в противном случае. В частности, использование таких "добавок" не долж­

но приводить к качественному удорожанию итерации традиционного алгоритма. Существенную проблему при этом может представлять обсуждавшийся в [18] эффект притяжения метода Нью­

тона к критическим множителям Лагранжа.

Далее обсудим использование в данном контексте одного известного технического приема, который будем обозначать ЕМ (от английского Elastic mode). Идея этого приема состоит в ослаб­

лении ограничений в исходной задаче за счет введения дополнительной переменной и соответ­

ствующего штрафного слагаемого в целевую функцию:

fix) + at — - min, -te < F(x) < te, G(x) <te, t> 0, (3.13) где о > 0 - параметр штрафа, e - вектор с единичными компонентами соответствующей размер­

ности (см., например, [31, задача 5.4.3]). Задаче (3.13) отвечает следующая аппроксимирующая задача квадратичного программирования:

</'(/), х - хк) + at + ^(Нк(х - хк), х - хк) — min, (3.14)

-te < F{xh) + F(JC*)(JC-JC*) < te, G{xk) + G\xk)(x-xk) <te, t>0 (3.15) (ср. с (1.4), (1.5)). Существуют и другие варианты ЕМ, например использующие свою перемен­

ную для каждого ограничения-неравенства в (3.13) вместо единой переменной t. Основное пред­

назначение ЕМ состоит в том, что этот прием позволяет иметь дело с возможной несовместно­

стью подзадач, аппроксимирующих (1.1) (и, в частности, задач, допустимые множества которых получаются линеаризацией ограничений в (1.1)), что при нарушении MFCQ становится актуаль­

ным даже локально. Ограничения задач (3.13) и (3.14), (3.15) всегда совместны.

ЕМ может использоваться не постоянно, а инициироваться в случае необходимости. Напри­

мер, в SNOPT (см. [35]) ЕМ инициируется в случае несовместности текущей квадратичной подза­

дачи либо в случае превышения текущим приближением к множителю некоторого задаваемого пользователем уровня. Заметим, однако, что практический выбор подходящего значения пара­

метра штрафа (которое должно превосходить некоторую границу, определяемую через нормы элементов множества М(х)) - всегда весьма непростая задача, причем дело осложняется тем, что всякий раз этот выбор должен быть осуществлен до решения аппроксимирующей подзадачи

Referências

Documentos relacionados

Так же, как и в предыдущих расчётах для факультетов социально-гумани- тарного и естественнонаучного направления, прогнозные величины доходов группы факультетов из бывших институтов при