• Nenhum resultado encontrado

(1)Math-Net.Ru Общероссийский математический портал А

N/A
N/A
Protected

Academic year: 2023

Share "(1)Math-Net.Ru Общероссийский математический портал А"

Copied!
15
0
0

Texto

(1)

Math-Net.Ru

Общероссийский математический портал

А. И. Пропой, Задачи оптимизации и обучения для нело- кального поиска в возбудимых средах. II. Задача обучения, Автомат. и телемех. , 1997, выпуск 3, 68–81

Использование Общероссийского математического портала Math-Net.Ru подра- зумевает, что вы прочитали и согласны с пользовательским соглашением http://www.mathnet.ru/rus/agreement

Параметры загрузки:

IP: 118.70.116.132

6 ноября 2022 г., 01:41:42

(2)

Автоматика и телемеханика, N9. 3, 1997

12. Kurzhanski А.В., ValyiL Ellipsoidal techniques for dynamic systems: control synthesis for uncertain systems / / Dynamics and Control. 1992. N° 2. P. 87-111.

13. Корноушенко E.K. Интервальные покоординатные оценки для множеств достижи­

мых состояний линейной стационарной системы / / А и Т . 1980. N° 5. С. 12-22;

N° 12. С. 10-17.

14. Розенфельд Б.А. Многомерные пространства. М.: Наука, 1966.

15. Пшеничный Б.Н. Выпуклый анализ и экстремальные задачи. М.: Наука, 1980.

Поступила в редакцию 25.05.95

УДК 517.977

© 1997 г. А . И. ПРОПОЙ, д-р техн. наук ( И н с т и т у т системного анализа Р А Н , Москва) ЗАДАЧИ ОПТИМИЗАЦИИ И ОБУЧЕНИЯ ДЛЯ НЕЛОКАЛЬНОГО ПОИСКА В ВОЗБУДИМЫХ СРЕДАХ.

П. ЗАДАЧА ОБУЧЕНИЯ

Рассматривается лроцесс поиска минимума функции в метрическом про­

странстве, который естественным образом реализуется в возбудимой среде. В этой части работы изучена задача обучения, ставящая своей целью согласова­

ние метрики поискового пространства и геометрических свойств оптимизируе­

мой функции.

1. Введение

В [1] рассматривалась задача минимизации функции в метрическом простран­

стве и была показана связь этой задачи с процессом нелокального поиска в возбуди­

мых средах. В [2] были сформулированы две основные задачи нелокального поиска в возбудимых средах: задача оптимизации, в которой определяется направление спус­

ка для текущего состояния в пределах заданного "обзора" - шара фиксированного радиуса в текущей метрике поискового пространства, и двойственная ей задача, в которой максимизируется "обзор" (в рассматривавшемся случае - радиус шара) в пределах заданного уровня изменения значений функции.

Метрика поискового пространства (возбудимой среды) при этом считалась фик­

сированной, но было отмечено, что эффективность процесса нелокального поиска существенно зависит о т того, насколько она согласована с геометрическими харак­

теристиками целевой функции.

В настоящей работе рассматривается задача обучения, ставящая своей целью согласование этих характеристик. Показано, каким условиям должна удовлетво­

рять метрика, которая обеспечивает наикратчайший спуск из текущего состояния в ближайший к нему минимум оптимизируемой функции.

(3)

2. Постановка задачи

Рассматривается задача минимизации функции Ф : X —> R на множестве X (1) Ы{Ф(х)\хЕХ}.

Предполагается, что) d) - (полное) метрическое пространство, d (ж, z) - рас­

стояние между точками ж и г и з Х ; функция Ф полунепрерывна и ограничена снизу, а для любой точки х £ X Ф(г - х) —> оо, если с£(ж,з) —> оо, т.е. минимум в (1) достигается.

Пусть х £ X - текущее состояние. Рассмотрим задачу (2) 8 и р { г | | Ф ( я ? ) - Ф ( « ) | ^ а , а > 0 , Уz : d(x,z) ^ г}.

Смысл задачи (2) состоит в том, что игрок, выбирающий z, стремится уйти из точки х как можно дальше (по метрике d), но в пределах заданного разброса качества Ф (например, внешнего требования к точности оптимизации Ф).

Геометрически задача (2) состоит в определении максимального радиуса шара Dr(x) = {z j d(x^z) ^ г } с заданным центром ж, который можно поместить в "коль­

це" { ^ | Ф ( * ) - Ф ( * ) | < а } .

В зависимости о т поведения функции Ф в окрестности точки х задача (2) может быть сведена к одной из двух задач

(3) mp{r\$(z) *Z Ф(х) - а, Уz : d(x,z) ^ г}, (4) 8ир{г|Ф(г) ^ Ф ( ж ) + а, V ? : d(x, z) ^ г } .

Введем множества уровня функции Ф (5) Да( ж ) = { ^ | Ф ( ж ) - Ф ( ^ ) ^ а } , где 0 < а ^ Ф(ж) - inf Ф.

Тогда задача (3) может быть переписана в виде (6) sup{r | z £ Dr(x)\ Dr(x) П Ra (x) = 0 } , а задача (4) - в виде

(7) sup{r I z £ Пг(х), Dr(x) П (M \ R-a(x)) = 0 } ,

т.е. в задаче (6) радиус шара Dr(x) можно увеличивать до тех пор, пока он не коснется (с внешней стороны) заданного множества уровня Ra(x); соответственно, в задаче (7) радиус шара можно увеличивать до тех пор, пока он не коснется (с внутренней стороны) границы множества уровня R^a(x) = {z | Ф(г) ^ Ф(ж) + а}.

Предложение 1. Задача (3) (или (б)) эквивалентна задаче нахождения рас­

стояния от точки х до множества Ra (ж), т.е.

(8) M{d(x,z)\z£ Ra(x)} = s\ip{r\z£Dr(x)i Dra(x) = 0}>

а задача (4) (или (7)) эквивалентна задаче нахождения расстояния от точки х до множества М\Я_а(ж), т.е.

(9) mf{d(x,z)\zEM\R-a(x)} = sup{r\z£Dr(x)) Д.,_а(ж) = 0 } , где

Dra(x) = Dr(x) П Да (ж),

А-.-аОО = Dr(x) П (М \ R-a(x)).

АО'

(4)

З а м е ч а н и е 1. По конструкции множества Ra(x) точка х всегда лежит вне этого множества при 0 < а ^ Ф(х) - inf Ф (аналогично, х 0 М \ Д _а( ж ) ) .

Поэтому для любых х и а, 0 < а ^ Ф(ж) - inf Ф, задача нахождения расстояния от точки х до множества Ra (ж) имеет смысл и всегда существуют значения г > О, для которых Dra(x) = 0 . /

Замечание 2. Функция г(а, ж) = й(ж,з*(а)), г(0) = 0, где z*(a) - решение задачи (3), определяющая расстояние от точки х до множества Ra (ж), непрерывна по а для одноэкстремальных функций и может иметь разрывы для тех значений а, которые соответствуют локальным минимумам Ф.

З а м е ч а н и е 3. Эквивалентность этих задач не означает совпадения их реше­

ний: решением задачи (3) будут любые точки z) для которых d(x,z) = г*, где г* - решение задачи (3), а решением задачи нахождения расстояния от х до Ra (ж) (левой задачи в (8)) будет лишь точка касания множеств Dr^(x) и Ra (ж).

Задача (3) и ее связь с задачей оптимизации, определяющей направление спуска в нелокальном поиске, рассматривалась в [2]. Из анализа этих задач видно, что свойства нелокального поиска существенно зависят от выбора метрики d, точнее, от ее близости к геометрическим характеристикам оптимизируемой функции Ф. За­

дачи, связанные с согласованием метрики d с геометрическими характеристиками функции Ф будем называть задачами обучения.

3. Двойственная задача Рассмотрим задачу оптимизации, изученную в [2]:

(10) s\ip№(x)-$(z)\zEDr(x)} = a(r)x), которую можно рассматривать как двойственную к (3).

Решением этой задачи является точка касания z+ множеств Dr^(x) и ЯаДж), где а* = а (г*, х) = Ф(х) — Ф(з*), г* = d (ж, z*) ^ г.

Эта точка определяет направление спуска из точки х :'у+ = z+ — х. .

Обозначим через ж* = ж* (х) ближайший к х минимум Ф. Точка ж* удовлетворяет условию Ф(ж*) = \п{{Ф(г) \d(x^,z) ^ г } для всех г, 0 ^ г ^ d(sc,x*), или а (г, ж) =

— Ф(ж) — Ф(ж*) для этих значений г (см. также предложение 1 в [2]).

Свойства функции а (г, х) даются следующим предложением

Предложение 2. Функция а (г) = а (г, ж), г ^ 0, определенная в (10), удовле­

творяет условиям:

1) 0 < а (г, ж) ^ Ф(ж) - inf Ф, а(0) = .0;

2) а (г, ж) - непрерывная функция г, г ^ 0, если Ф непрерывна на Х\

3) а (г, ж) - неубывающая функция г при всех ж Е X, Ф(ж) ф inf Ф;

4) а (г, ж) - возрастающая функция г при 0 ^ г ^ й(ж, ж*), если ближайший к ж минимум ж* функции Ф изолирован и х ф х*.

С задачами (10) и (3) связана функция (11) »А( * , * ) = Ф ( * ) - Ф ( * ) - А < * ( * , * ) . .

являющаяся частью функции Лагранжа задачи (10), А ^ 0 - множитель Лагранжа, Аг = а.

Отметим, что соответствующая функция для двойственной задачи (3) имеет вид V^Л(xiz) = d(x,z)-p[Ф(x)-Ф(z)]

и переходит в (11), если — р = А- 1 (ср. с [3]).

(5)

Множество

(12) вх{х) = {г\Ф(х)-Ф(г)-\<1(х,г)2 0}

выделяет точки графика Ф лучшие, чем (Ф(ж),ж) [2].

Граница этого множества задается системой уравнений Ф(х) - Ф(г) = а

(13) d(x,z) = r Хг = а.

Система (13) определяет также точку касания множества Dr(x) и Ra (х) (и мно­

жества G\(x) С А-(ж), Хг = а), причем в зависимости от того, решается задача (10) или задача (3), в (13) фиксируется величина г или а.

Рассмотрим задачу

(14) s u p { *A( s , * ) I M * > * ) ^ 0 > * е х } , где функция 1Ф\(х)г) определена в (11).

Предложение 3. 1) Если 0 < а ^ Ф(х) — inf Ф, то всегда найдутся значения X > 0, Л = Л (ж), для которых множества {z\^\(x)z) > 0} и {г\1Фх(х) Z) < 0} не пусты. Для этих значений X решение задачи (14) z* ф х существует, при этом ФА(ж,*,) = 0.-

2) Задачи (3), (10) и (14) эквивалентны в том смысле, что если (г*, А*) - ре- шение задачи (10), d ( s , 3 * ) $С г (А* - множитель Лагранжа), то z* - решение (14)

<«> - ^ ^ ^

а еслм (2;*,р*) - решение задачи (3) (/i* - множитель Лагранжа), то z* - реше­

ние (14) при А* = — / i "1, d.(jc,2*) = —a/v-

Обратно, если z* - решение (14) G W яакого-гао А > 0, т о г* - решение (10) при с/(ж, г*) ^ г, Ad (ж, z*) = Ф(ж) — Ф^*), и z+ - решение (3) при Ас? (ж, z+) = а.

Необходимое условие на выбор А, Аг = а.: G\(x) ф {ж}. В этом случае существу­

ют состояния (Ф(з), 2 ) , лучшие чем (Ф(ж), ж). При этом величина А может быть как меньше, так и больше единицы. Если А < 1, то приращение функции Ф по напра­

влению у = z — ж меньше расстояния между точками z и ж для (текущей) метрики d (соответственно, если А > 1, то это приращение больше расстояния d(x,z)). Поэто­

му в первом случае, чтобы неравенство в (12) выделяло точки (Ф(г), z), лучшие чем (Ф(ж),ж), эту метрику (d) нужно уменьшить (Ad) в направлении у, а во втором - увеличить.

Однако, если величина А будет "слишком" мала, то для итеративного процесса жп_|_1 = ж„ + £{%п — хп), где zn - точка касания множеств Dr(xn) и Ra ( жп) , или в общем случае для процессов

/л/у\ е Dra(xn)) (lb)

жп +1 G G\(xn)y

Dra(x) = Dr(x) П Ra (x) С Gx(x), Xr = a,

точность локализации минимума Ф и скорость сходимости будут невысокими. Со­

ответственно, при больших значениях параметра А процесс поиска может остано­

виться, не доходя до минимальной точки (см. также [4]).

(6)

Таким образом, необходимо стремиться к тому, чтобы для каждой точки ж по­

искового пространства существовала траектория спуска хп(х), для которой соблю­

далось бы равенство Ф(х) — Ф(ж„) = Ас? (ж, хп). Очевидно, для произвольных Ф и d выбором постоянной А этого достичь нельзя и нужно менять метрику d.

4. Предварительные построения

В дальнейшем нам понадобятся некоторые геометрические свойства метрик и функций. Напомним определение метрики.

Расстоянием, или метрикой, d на множестве X называется вещественная функ­

ция на X х X , которая для любых ж, z £ X удовлетворяет условиям (17) d(x,z) = Q<$x = Z]

(18) d(x, z) = d(z,ж) (симметричность):

(19) d (ж*, x) ^ d (ж*, 2) + d (z, x) (неравенство треугольника).

Если в неравенстве треугольника положить х = ж*, то. из свойств (17) и (18) следует, что

(20) > 0 . "

Используются также несимметричные метрики, т.е. удовлетворяющие услови­

ям (20), (17) и (19).

Пусть Ф - некоторая функция на X. Фиксируем произвольную точку х £ X]

Ф(ж) ф inf Ф, и определим для функции Ф множество уровня Ra (ж), 0 ^ а ^ Ф(ж) — - i n f Ф (5).

В общем случае множество Ra (х) является объединением связных компонент (21) / ? „ ( * ) = у Л1(*)> K(x)f]Ri(X) = 0, %фз,

где множества R%a (ж) уже нельзя представить в виде (21). Разбиение (21) зависит о т уровня а, а изменение структуры разбиения определяется локальными максимумами или минимумами Ф. Обозначим компоненту разбиения (21), содержащую точку ж, через (ж). Каждая точка z 6 R® (х) может быть соединена с ж (непрерывной) кривой^ целиком лежащей в (ж) (а любые другие точки zf £ Ra (ж) не обладают этим свойством).

Для заданной метрики d определим функцию (22) Ф*(z) = d(x*\z)) z£X,

где ж* - некоторая точка X.

Предложение 4. Функция Ф*(г) неотрицательна, растет на всем простран­

стве X и имеет изолированный минимум, равный нулю, при z = ж*.

Отметим, что любая одноэкстремальная функция Ф, не имеющая области посто­

янных значений, может быть представлена в виде (22):

Ф = ±d(x*iz) + ai z£X.

Определение 1.. Функция Ф растет на множестве D, если

1) R'a = Ra (ж) П D, inf{Ф | z £ D] ^ а ^ Б и р { Ф | z £ D} - связные множества;

2) R'ai

с

К2, аг > а2;

3) Ф(з) ф const для любой открытой области D' из D.

(7)

Здесь и далее предполагается, что D - область (открытое связное подмножество) вХ.

Определение 2. Точка ж* - (локальный) минимум Ф, если inf{Ф(г) \ z £

£ Dr(x*)} = Ф(ж*) для всех О < г ^ г. Аналогично, ж* - (локальный) максимум Ф, если $ир{Ф(г)\г £ Dq(x*)} = Ф(ж*) для всех 0 < q ^ q. ж* - ближайший к х*

минимум Ф (ж* - ближайший к ж* максимум Ф), если г = f = d(ж*, ж*).

Очевидно, функция Ф растет на множестве D = Д . ( а . ) Л Д . ( * * ) , г = <*(»., а?*)-

О п р е д е л е н и е 3. Фуикцшг Ф воспроизводима на множестве £), D С X, если существует точка ж* £ X и метрика d, такие, что

(23) d(x<чz) = Ф(z)-Ф(x«), z£D.

Определение 4. Функция Ф воспроизводима на множестве D из множества R, если существует метрика d такая, что

(24) Ы{4{х^)\хеЯ} = Ф)-а9 z£D, где а - некоторая постоянная.

Экстремальная задача в (24) определяет расстояние d(z)R) от точки z до мно­

жества R. С другой стороны, граница множества уровня функции d(z) R) является огибающей множеств Д-(ж), х £ R.

Предложение 5. Если R - связное множество, то воспроизведения функции из множества R (24) или из точки ж* € R (23) эквивалентны.

Предложение 6. Функция Ф воспроизводима на множестве D тогда и толь- ко тогда, когда она растет на этом множестве.

Из предложения б следует, что если функция Ф воспроизводима на множестве Д то это множество не содержит точек максимумов или областей постоянных значе­

ний Ф.

5. Задача обучения

Процесс нелокального поиска состоит из двух основных этапов: обучения и опти­

мизации.

На этапе обучения текущая метрика dn модифицируется в новую: dn —• dn+i>

исходя из геометрических свойств функции Ф в окрестности текущего состояния хп. На этапе оптимизации для найденной в результате решения задачи обучения мет­

рики 4 + 1 и фиксированных значений параметров ( An, rn, an) , Anrn =• ап, решается задача выбора направления движения и осуществляется сдвиг текущего состояния хп в новое, лучшее состояние: ж„ —• жп+1.

Поставим две связанные задачи:

- какова должна быть метрика d для конкретной функции Ф (и текущего состо­

яния ж)?

- каким образом можно менять метрику поискового пространства?

Оставшаяся часть этой работы будет посвящена рассмотрению первой задачи.

Рассмотрим вначале "идеальный" случай. Фиксируем некоторую точку ж* £ X и изучим задачу минимизации функции Ф*(;г) = d(x*}z), где d - фиксированная метрика.

Пусть ж0 ф х*. Рассмотрим два процесса: жо -+ х - * ж* (прямой) и ж* -+ хо (обратный). Здесь ж - некоторая промежуточная точка, d(x0) ж) < d(xo, ж*).

7 Q

(8)

Запишем неравенство треугольника для прямого процесса (25) d(x0iz)^d(zQix) + d(x3z).

В частности, (25) верно для всех z Е Dr(x), г > 0:

d(x0,z) ^ d(x0ix) + r, или

(26) r = sup{d(x0)z)-d(x<i)x)\zeDr(x)}.

Аналогично, из неравенства d(x0,x) ^ d(x0iz) + d(x,z) следует, что

(27) г = s\iv{d(xo)x)-d(x0,z)\zeDr(x)}.

Объединяя (26) и (27), получим, что

(28) r = s\ip{\d(x0)x)-d(x0)z)\\zeDr(x)}.

Условия (26) характеризуют точку касания 2/(г;жо) шара Dr(x) и (изнутри) сферы {z | d(xo, z) = ^(жо, ж) + г } (переднего фронта волны возбуждения из точки хо).

Условия (27) характеризуют точку касания zj,(r;xo) шара Dr(x) и (снаружи) сферы {z | d (жо, я) = d (жо, ж) — г } (заднего фронта волны возбуждения из точки жо).

Определение 5. Точка з/(г;жо) = г(г, ж), г > 0 - продолжение дуги геоде­

зической д(хо, ж) метрического пространства (X, d), соединяющей точки хо и х, если zj(r\жо) - решение задачи (26).

Точка zi(r]Xo) — z(—r,x) Е <7(жо,ж); 0 ^ г ^ б?(жо,ж); если ^ ( г ; ж о ) - решение задачи (27).

З а м е ч а н и е 4. В дифференциальной геометрии метрика определяется локаль­

но, на касательном расслоении поискового пространства, а функция расстояния d(x,z) между двумя точками ж и z из X вычисляется через длину касательного вектора. Соответственно, определение геодезической следует из понятия аффинной связности (кривая, вдоль которой касательный вектор переносится параллельно), либо из понятия метрики (кривая, реализующая наименьшее расстояние между дву­

мя точками). В настоящей работе рассматривается глобальная геометрия поисково­

го пространства, определяемая функцией расстояния d, соответственно определяется и понятие геодезической. Если рассматривать "элементарный" шар в касательном пространстве, то можно показать, что определение 5 совпадает с традиционным понятием геодезической.

З а м е ч а н и е 5. Полагая, z — ж-fry, d(ж,y) — 1, г —> 0, получим из (26) уравне­

ние Гамильтона-Якоби, определяющее распространение фронта волны возбуждения в возбудимой среде [1].

В соответствии с предложениями 1, 3 задача (26) эквивалентна задаче i n f { d ^ , z) I d ^ o , z) — d(xo, ж) ^ a} = a, a > 0,

а задача (27) эквивалентна задаче

i n f { d ^ , z) I d(xo, ж) — d ^ o , z) ^ a } = a, a > 0.

(9)

Объединяя эти две задачи, получим, что (ср. с (2)):

s\ip{r\\d(x0)z)-d(x0,x)\^a, VzEDr{x)} = a, а > 0.

Рассмотрим теперь обратный процесс ж* - » х0. Для него также справедливы соотношения типа (26)—(28).

В частности,

(29) r = sup№*{x)-^*(z)\ze Dr{x)}, или

Ф*(ж) - Ф*(гь) = d(x,zb) = г.

Здесь учтено обозначение (22), zb = zb(r\ж*) - решение задачи (29) для обратного процесса ж* —> ж0, определяющее точку касания шара Д.(ж) и (снаружи) сферы { 2 ; | с!(ж*, z) = с?(ж*, ж) - г} (заднего фронта волны возбуждения из точки ж*).

Пусть теперь д(хо,х+) - дуга геодезической, соединяющая две произвольные точ­

ки жо и ж* из X , и пусть ж Е у(а?оэ я*).

Очевидно, в этом случае Zb(r;x*) = Zf(r]Xo)t 2/(г; ж*) = 2&( г ; ж0) ,

где 2/(г, ж*) - решение задачи (26) при ж0 = ж*.

Таким образом, точка касания з/(г;жо) шара Dr(x) и сферы { г | й ( ж о , г ) =

= й(ж0,ж) + г} (переднего фронта волны возбуждения из точки жо) является точ­

кой касания этого же шара и сферы {z\d(x*3z) = d(x*,x) - г} (заднего фронта волны возбуждения из точки ж*); при этом встречные фронты возбуждения (т.е. из жо и ж*) будут также касаться в этой точке.

В результате приходим к следующему утверждению.^

Предложение 7. Пусть у(жр,ж*) - дуга геодезической Метрического про­

странства ( X , d), соединяющая произвольные точки жо и х* из X . Тогдф, для лю­

бых точек х, z Е #(жо, ж*) справедливы равенства (30) d(x0,z)-d(x0,x) = d(x,z))

с?(ж*, ж) - <2(ж*, z) = d(z, ж),

которые переходят в строгие неравенства, если ж, z у(жо, ж*).

Эти условия вместе с экстремальными задачами (26)-(29) определяют наикрат­

чайший спуск из произвольной точки ж0 в точку минимума ж* функции (22) ("иде­

альный" случай).

Вернемся теперь к общей задаче (1). Рассмотрим функцию (31) Ъ{x)z) = Ф(x)-Ф(z)-d(x,z).

Метрику d в (31) можно всегда выбрать таким образом, чтобы множество (32) С(ж0) = {z | Ф(ж0, z) > 0, ж0} ,

определяющее направление спуска из точки жо, было не пусто (если только Ф(жо) ф ф inf Ф).

Однако для эффективного процесса поиска (33) хп + 1 G G ( xn) , 11 = 0 , 1 , 2 , . . . ,

(10)

желательно, чтобы метрика d была такова, чтобы это множество было как мож­

но больше вытянуто вдоль дуги геодезической (в какой-то метрике), соединяющей точки ж о и ж*.

В идеале С(ж0) = д(х0,х*) (предложение 7), и процесс (33) будет определять наикратчайший спуск из ж0 в точку ж* минимума Ф. Однако такой идеальный спуск жо —* ж* для произвольных функций Ф может существовать не из любых точек жо, а, как видно из раздела 4, зависит от того, на каком множестве воспроизводима функция Ф.

Рассмотрим задачу

(34) 8 и р { Ф ( ж0, г ) | Ф ( ж о , ^ К О } , {*.<*}

где функция Ф определена в (31). При фиксированной метрике d решение (34) опре­

деляет границу множества перспективных направлений спуска из точки жо (32).

Выбором метрики d = d$ это множество можно сузить до кривой, определяющей наикратчайший путь (в этой метрике) из точки жо до ближайшего к жо миниму­

ма Ф.

Т е о р е м а . Пусть жо - произвольная точка поискового пространства X, Существует метрика d = пространства X, независящая от выбора жо, для которой следующие предложения равносильны:

1) множество перспективных точек G(XQ) (32) вырождается в дугу геодезиче­

ской #(жо,ж*) метрического пространства (X,d), соединяющую точку XQ и точку ж* ближайшего минимума Ф:

4^)-Hz)-d(xiz) = 0 ж,2е0(жо,ж*)>

(35)

Ф(ж) - Ф(г) - d(x1z) < О, ж,г 0 0(жб,я*);

2) расстояние от точки ж Е д{хо,х*) д° множества Ra (ж) (5) равно а и опре­

деляется точкой z(a\ ж) Е д(хо, ж*):

(36) mt{d(z,z)\ze Ra(x)} = d(x,z(a]x)) = a]

3) наибольшее уменьшение целевой функции на множестве Dr(x) = {z\d(x,z) ^ г } , жЕ$0со,ж*),

равно г и достигается в точке z(r;x) Е д(хо,х*):

(37) зир{Ф(ж) - Ф(*) | z Е Dr(x)} = Ф(ж) - Ф(*(г; ж)) = г.

Конструктивное доказательство теоремы дано в приложении, а ее обсуждение - в следующем разделе.

6. Обсуждение

1. Геометрически условия (35)-(37) означают, что в пространстве X = X х R воронка

С(Ф(ж), ж) = { ( a , z)EX\a- Ф(ж) + d (ж, z) ^ о }

(11)

(конус, если d - метрика Минковского) с вершиной в точке (Ф(ж),ж) касается над- графика Ф по некоторой кривой (геодезической пространства ( X , d)), соединяющей точку (Ф(ж),ж) и точку (ближайшего) минимума (Ф(ж*),ж*) функции Ф (ее проек­

ция на X - это д(х,х+))) для остальных точек пространства X воронка С(Ф(ж),ж) расположена ниже epi Ф.

В пространстве X эти условия означают, что множества уровня Ra (х) функ­

ции Ф должны касаться множеств уровня {z | d (ж0, z) ^ d(x0l х) -f а} в точках z Е Е д{хо,х*) (встречные "фронты волн возбуждения"). Шары Dr(x) с центрами в точках х Е </(ао> я*) (достаточно малого радиуса г) также будут касаться этих мно­

жеств в точках z Е д(хо, х*).

2. В соответствии с предложением 7 условия теоремы должны быть дополнены условиями

d(xo,z) - d(x0rx) = d(x,z), z E g(x0i ж, ж*), й ( ж0, з ) -d ( s0, ж ) < z £ ^(ж0, ж, ж*),

или экстремальной задачей (26), означающими, в соответствии с определением 5, что точка z является продолжением геодезической д(хо,х).

3. Подчеркнем важность требования независимости метрики от начальной точки XQ (ЭТО ВИДНО из рассмотрения обратного процесса в доказательстве). Без этого требования условия теоремы метрику определяют, вообще говоря, неоднозначно.

Например, если Ф - положительно определенная квадратичная формах миниму­

мом в х+, т о в качестве d$ могла бы быть использована любая риманова метрика, для которой эллипсоиды вытянуты вдоль лучей хо — ж* и, следовательно, зависят от направления у — XQ — ж* и текущей точки жо (вблизи ж*).

4. В работе рассматривался случай, когда метрика точно приближает (воспро­

изводит) оптимизируемую функцию на некотором множестве. Если функция Ф од- ноэкстремальна ^и не равна постоянной для любой области из X), т о существу­

ет метрика d®, которая воспроизводит Ф на всем пространстве X. В этом случае наикратчайший спуск в точку минимума Ф может быть построен из любой точки поискового пространства X.

Если функция многоэкстремальна и имеет, наряду с (одним) выраженным мини­

мумом, множество локальных экстремумов, т о естественно ставить задачу о прибли­

женном воспроизведении Ф метрикой d = d<$. В этом случае такая метрика служит сглаженной моделью экстремальных свойств Ф на некотором множестве и обеспе­

чивает наикратчайший спуск в выраженный минимум Ф. Точность аппроксимации определяется выбором параметров а, г или А, Аг = а.

Наконец, если функция Ф многоэкстремальна и имеет множество выраженных минимумов, т о для ее воспроизведения требуется пакет метрик и (несвязное) мно­

жество точек активации.

5. Доказательство теоремы конструктивно и позволяет, в частности, построить процесс нелокального поиска минимума Ф, являющийся обобщением метода обрат­

ного распространения ошибки в многослойных нейросетях. В этом процессе при прямом движении осуществляется спуск в фиксированной (текущей) метрике, а при обратном движении (отражении) метрика модифицируется в соответствии с геоме­

трическими свойствами Ф в окрестности текущего состояния (подробнее см. третью часть этой работы).

6. Процесс нелокального поиска можно строить и локально, в касательном про­

странстве Тх (замечание 4). Структура поиска для каждого касательного простран­

ства ТХ1 х Е X , остается той же: активация процесса возбуждения из точки ж в фиксированной метрике и ее модификация при сравнении прямого и отраженно­

го сигналов. При этом в касательном пространстве можно использовать метрики Минковского, положительно однородные по направлениям. В этом случае процесс

77

(12)

модификации метрики будет сводиться к растяжению (сжатию) касательного про­

странства в направлении (прошлого) движения.

7. В процессе нелокального поиска реализуются две цели: стремление уйти из текущего состояния как можно дальше (по метрике d), с тем, чтобы найти лучшее, и стремление найти такое, оптимальное состояние (по "метрике" Ф), чтобы остаться в нем.

В эволюции (которую можно рассматривать как движение с перманентным поис­

ком оптимума [3]) выделению двух целей нелокального поиска соответствует разде­

ление движущих сил эволюции на два пола (соответственно, мужского и женского).

Этот процесс можно формализовать как игру [2], или как векторную оптимиза­

цию. В последнем случае фиксируется конус предпочтения и процесс нелокального поиска сводится к нахождению состояний, наилучших в смысле этого конуса предпо­

чтения [5, 2]. При этом точки минимумов принципиально не могут быть точно выде­

лены (это означало бы бесконечную скорость активации в окрестностях таких точек) и можно говорить лишь об уровне Е* > inf Ф и множестве D* С {z | Ф(г) ^ Е*}.

ПРИЛОЖЕНИЕ Док аз ательство предложения 1. Пусть г* - решение (3), тогда г* ^

^ d (ж, z) для всех z Е М \ Да (ж) или г* ^ d(x,z) для всех z Е Да( ж ) . Точка 2* Е Да (ж), d(x,z+) = г*, будет, очевидно определять расстояние от точки х до Да W .

Пусть, обратно, (г*,г*) - решение левой задачи (9), т.е. г* = d(x;z*) d(x,z) для всех z Е М \ Ra (ж). Тогда г* ^ d (ж, z) для всех z Е М \ Да (ж).

Аналогично доказывается эквивалентность задачи (4) и левой задачи (9).

Д о к а з а т е л ь с т в о предложения 2. Свойства 1)-4) следуют из определе­

ния функции а (г) = а (г; х).

Действительно, пусть ж - некоторая точка X и пусть ж* — ж* (ж) - ближайший к ж изолированный минимум Ф: а (г, ж*) = Ф(ж) — Ф(ж*). Тогда при каждом г, О < г ^ d(x, ж*) решение задачи (10) единственно и функция а (г) строго возрастает.

При увеличении т , г > с/(ж,ж*), решением задачи (10) будет оставаться точка ж* т.е. а (г) •= Ф(ж) — Ф(ж*) до тех пор, пока Ф(ж) — Ф(^) ^ Ф(ж) — Ф(ж*), т.е. при с?(ж,ж*) < г ^ ri, где величина г\ определяется условиями

Ф ( ж ) - Ф ( г ) = Ф(ж)-Ф(ж*), d(x,z) = г1 5

после чего функция а (г) опять начнет расти, если найдутся точки ж, для которых Ф(ж) - Ф(г) > Ф(ж) - Ф(ж*).

Доказ ательство предложения 3. Следует из доказательства предложе­

ния 5 в [2] и замечания 1 в настоящей работе.

Д о к а з а т е л ь с т в о предложения 4. Свойства функции Ф* прямо следуют из свойств (17)—(20) метрики d. Докажем только возрастание Ф* на X. Предполо­

жим, что множество Dr[x*) = {z\d(x*,z) ^ г } несвязно, т.е. Dr(x*) — D\ U D^]

D} П D? = 0 .

Пусть ж* E Dl, z E dD,l, ж E dD^. Из неравенства треугольника (19) следует, что существует точка, z Е d D], такая, что d (ж*, ж) = d (ж*, z) + d (z, ж), или г = г + +d(z, ж), т.е. d(z, ж) = 0. Но z Е 3 D * , а ж Е dD*, что противоречит (17). Включе­

ние Д.(ж*) С Д-Дж*), г\ > г, также следует из неравенства треугольника (19), а из (19) и (17) - условие 3 определения 1.

Д о к а з а т е л ь с т в о предложения 5. Если Д = {ж*}, т о (24) переходит в (23) с a = Ф(ж*).

(13)

С другой стороны, если R - связное множество, то, в соответствии с предложе­

нием 4, оно допускает представление R= {z\d{x^z) ^ г}, где d - некоторая метрика. Положим

do(x}z) = d(x)z)) хфх*, x^zeX, d0(x*,z) = d{x^,z), г E Д ( ж * ) = Д,

d0(x*iz) = mf{d(x1z)\xeDr(x*)} + r) Д ( ж « ) .

Покажем, что d0 удовлетворяет аксиомам метрики. Действительно, из нера­

венства треугольника для точек z Е Д.(ж*), х G Д ( ж * ) следует, что d{x^)z) ^

^ <2(ж*,ж) + d(xyz), или сГ(ж*, 2 ) - г = inf{d(a?., г ) | ж Е Д ( ж * ) } -

Остальные аксиомы очевидны, и, следовательно, d0 - искомая метрика.

Д о к а з а т е л ь с т в о предложения 6. Пусть Ф - растет на Д т.е. ее мно­

жества уровня Ra удовлетворяют условиям определения 1. Обозначим

<f>(x*) = M{<f>(z)\zED}, Ф(z*)=.вvp(z)\zeD}.

Определим метрику d и соответствующее семейство вложенных шаров Д ( ж о ) ,

&?(ж0,ж*) ^ г ^ d(x0,x*) так, чтобы Д.(ж0) П D = Ra Г\ D, г - г(а). (Если минимум Ф на D достигается в единственной точке ж*, то можно положить хо = а?*.) Очевидно, d - искомая метрика.

Обратное утверждение следует из предложения 4.

Док аз ательство теоремы. Пусть хо - произвольная точка X. Рассмо­

трим вначале прямой процесс XQ —> х.

Предположим, что искомая метрика найдена для точек z Е Д ( ж о ) , 0 ^ t ^ I.

Соответствующую геодезическую обозначим через xt = g(t,xo), XQ — <7(0,жо), ж =

= 0(Мо).

Построим продолжение этого процесса. Для этого выберем положительное число т и решим задачу

(П.1) 8ир{Ф(ж) - Ф^) | z Е Д-(ж)}.

Возможны случаи.

1) При всех 0 < т ^ г, г = т(ж), решение zr задачи (П.1) совпадает с решением задачи (26), г = т.

В этом случае zT = g(t+ т, жо), 0 < г ^ г - продолжение геодезической (в найденной ранее метрике), а решение задачи (П.1) достигается на границе шара Д-(ж) : d(x)zr) = т.

Так как zT - решение (П.1), то, в соответствии с предложением 3, существует Ат = [Ф(х) - Ф ( гт) ] / г , что Ф(ж) - Ф(?т) = \Td(x,zT).

Для каждого г, 0 < г ^ г, положим ^'(ж,^) = Атс?(ж,;г), если d(x,z) = г. Оче­

видно, что функция с?' - метрика и для этой новой метрики условия теоремы будут выполнены при всех 0 < г ^ т.

Вариантом построения искомой метрики является следующая схема. Пусть 0 <

< т\ < i~2 < • • • < TN = т - конечное разбиение интервала [0, г]. Для каждого г,

% = 1,..., JV", решим задачу (П.1)

вир{Ф(^) - Ф(;г) | d (zt, z) < n ) , ZQ = ж, Zi = zTi.

79

(14)

Пусть z,-+i - решение этой задачи. Положим А,- =(Я|*) —Ф(г«+1)]Л| и определим новую функцию расстояния как

<?(x,z) = mf j ^ A i d ( z ; , ^ + i ) | z0 - х , zN = * j .

Отметим, что для метрик Минковского, положительно однородных по направле­

ниям у = z — x, переход d —> d' эквивалентен растяжению (Ат > 1) или сжатию (Ат < 1) касательного пространства (равномерно по всем направлениям у — z — х или только по выделенному ут = zr — ж; в любом случае точка касания, определяемая решением задач (П.1) и (26) не меняется).

2) Пусть теперь решение zT = ж* задачи (П.1) достигается внутри шара DT{x) : d(x,x+) < т, т.е. ж* - (локальный) минимум Ф.

По-прежнему будем считать, что ж* является и решением задачи (26) при г =

= d(x,x*) = г*, г* < г, т.е. ж* - продолжение геодезической: ж* — <7(£*,жо), t* =

= t + r..

Покажем, что далее эту геодезическую нельзя продолжить, не нарушая условий теоремы.

Действительно, пусть z\ — g{t\, жо), t\ > t*.

Тогда, очевидно, существует точка z2 = ^(^2,жо), t2 < 2*, такая, что Ф(^х) = .

= Ф ( ^ ) > Ф(ж«). Так как для этих точек d{x,z2) < d(x^zi)) а Ф»(ж) — Ф ( ^ ) = Ф(ж) —

—Ф(^г), т о неравенство треугольника (35) может быть выполнено только тогда, когда z\ = z2 = ж*.

Итак, геодезическая g(t, XQ) может быть продолжена без нарушения условий тео­

ремы только до ближайшего к Жо минимума Ф : ж* = g(t*, ж0).

3) Решения задач (П.1) и (26), г = т, не совпадают. В этом случае из точки ж = £(£,жо) можно идти либо в направлении г/ — z'T — ж, где z'T - решение (26), г — т (т.е. продолжать геодезическую #(£, жо) в найденной ранее метрике), либо в направлении у — zr ж, где zr - решение (П.1).

Рассмотрим второй случай. Повторяя предыдущие рассуждения, получим, что может быть построена кривая /(жо,ж*), соединяющая точку жо и ближайший к жо минимум Ф, для которой выполнены условия теоремы (35)-(37). Однако в этом случае полученная кривая уже не будет геодезической в найденной ранее метрике.

(Кривая /(жо, ж*) определяет градиентный спуск в этой метрике из точки жо в ж*.) Для того, чтобы ее модифицировать и, следовательно, найти наикратчайший путь жо —» ж*, рассмотрим обратный процесс ж* —» ж, где ж - любая, заранее нефик­

сированная точка Х} х ф ж*.

Так же, как и при прямом движении, процесс модификации метрики будем стро­

ить по индукции. Обозначим через8(x*) (связную) компоненту множества уровня {z | Ф(я) ^ Ф(ж*) + s, s ^ 0 } , содержащую (локальный) минимум ж*.

В соответствии с предложениями 5 и 6 функция Ф воспроизводима в окрестности ж*, т.е. существуют метрика d = d$ и число s > 0 такие, что d(b(z*,z) = Ф(,г)—Ф(ж*),

Для продолжения этой метрики рассмотрим задачу (24):

(П.2) mf{d(x,z)\xeR°s(x*)1 d(x,z)^r).

Решение этой задачи обозначим через d(z;s).

Будем искать такую метрику в (П.2), чтобы она удовлетворяла условию (п.з) < * ( * ; * ) = Ф ( * ) - Ф ( Ж * ) - * ,

*ед2

+ г

(*.)-

Возможны два случая.

(15)

Автоматика и телемеханика, N9. 3, 1997

1) Множество R®+T(x+) не содержит точек (локальных) максимумов Ф. В этом случае из предложения 6 следует, что существует метрика d = удовлетворяю­

щая (П.2), (П.З), т.е. метрика d<$ может быть продолжена на множество R®+r(x*):

= *'(*)-*(*.). zeR°s+r(x*).

2) Множество R°8+T(x*) содержит точку максимума Ф. В этом случае метрика d$

может быть продолжена лишь до (ближайшего) максимума ж* ; г ^ г = с£(ж*, ж*).

Если обратный процесс модификации метрики осуществляется для спуска из фиксированной точки ж о, то его естественно строить лишь для некоторого подмно­

жества D С Д2+ Т(ж*), включающего жо-

Повторяя теперь рассуждения доказательства предложения 7 получим, что най­

денная метрика удовлетворяет всем условиям теоремы.

СПИСОК ЛИТЕРАТУРЫ

1. Пропой А. И. Модели возбудимых сред / / АиТ. 1995. Ш 6. С. 117-126.

2. Пропой А. И. Задачи оптимизации и обучения для нелокального поиска в возбуди­

мых средах. I / / АиТ. 1996. N° 1. С. 57-66.

3. Пропой А. И. К теории нелокального поиска. I / / АиТ. 1995. №. 2. С. 44-52.

4. Обен Ж.-П., Экланд И. Прикладной нелинейный анализ. М.: Мир, 1988.

5. Экланд И., Темам Р. Выпуклый анализ и вариационные проблемы. М.: Мир, 1979.

Поступила в редакцию 27.12.95

У Д К 519.718.2

© 1997 г. В. Л. Х А Р И Т О Н О В , д-р физ.-мат. наук (Санкт-Петербургский государственный университет),

Д . Х И Н Р И Ч С Е Н (Бременский университет)

О ВЫПУКЛЫХ НАПРАВЛЕНИЯХ ДЛЯ УСТОЙЧИВЫХ ПОЛИНОМОВ Исследуется задача: при каких условиях устойчивость двух полиномов вле­

чет устойчивость всех полиномов, заключенных "между" ними.

Дана новая характеристика выпуклых направлений в терминах поведения корней однопараметрического семейства полиномов. Введено понятие выпук­

лых направлений для фиксированного полинома. Дан графический тест для проверки этого свойства.

1. Введение

Хорошо известно, что множество устойчивых полиномов не является выпуклым.

Этот факт является камнем преткновения для анализа робастной устойчивости.

Тем не менее, оно обладает свойствами, которые можно интерпретировать как не­

который аналог выпуклости [1, 2].

Referências

Documentos relacionados

Для подробного изучения данных вопросов обратимся к доктрине уголовного права, в которой содержится позиция, согласно которой в случае если виновный при совершении кражи не смог