Math-Net.Ru
Общероссийский математический портал
А. Б. Пиуновский, Задача выпуклого программирования с линейными ограничениями, Ж. вычисл. матем. и матем.
физ., 1994, том 34, номер 4, 545–553
Использование Общероссийского математического портала Math-Net.Ru подра- зумевает, что вы прочитали и согласны с пользовательским соглашением http://www.mathnet.ru/rus/agreement
Параметры загрузки:
IP: 139.59.245.186
6 ноября 2022 г., 05:58:23
ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ И МАТЕМАТИЧЕСКОЙ Ф И З И К И
Том 34, 1994 № 4
УДК 519.853.3
© 1994 г. А. Б. ПИУНОВСКИЙ (Москва)
ЗАДАЧА ВЫПУКЛОГО ПРОГРАММИРОВАНИЯ С ЛИНЕЙНЫМИ ОГРАНИЧЕНИЯМИ
Рассмотрена задача выпуклого программирования в абстрактном линейном простран
стве, и доказана ее принципиальная алгоритмическая разрешимость при некоторых дополнительных ограничениях. Показано, что предложенные методы могут быть полез
ными для решения задач стохастического оптимального управления.
§ 1. Вспомогательные результаты и постановка задачи
Пусть X — линейное пространство, В — его выпуклое подмножество. Рассмот
рим задачу математического программирования
(1.1) F(x)-*inm, xGB,
(1.2) Нп(х) < 0, п = 1 , 2 , . . . , N,
где F, Нл — выпуклые функционалы со значениями на R1 U {+<»}.
У с л о в и е 1. Существует такая точка х G В , что Нп(х) < 0, п = 1, 2, . . . , N (условие Слейтера).
В дальнейшем условие 1 считается выполненным; нам будет удобно считать, что оно выполнено* также в случае В & 0 .
Необходимые и достаточные условия оптимальности точки х* G В дает из
вестная теорема Куна — Таккера [1], [2].
Т е о р е м а 1. Для оптимальности точки х* G В, удовлетворяющей не
равенствам (1.2), необходимо и достаточно существования покомпонентно неотрицательного вектора у* для которого выполнено одно из следу
ющих двух эквивалентных утверждений:
1) пара (я*, у*) является седловой точкой функции Лагранжа
L (х, y) = F (х) .+ 2 yJT, (*) : L (**, у) < L < * * , . / ) < L (*, у*);
2) Цх*> у*) = min Цх, у*) и выполнено условие дополняющей нежесткости
хев
2
уГя. (Х*) = 0.п=\
546 А. Б. Пиуновский
Вектор у* G R + обладает указанными свойствами тогда и только тогда, когда —у* G Эср(О) — элемент субдифференциала функции возмущения ф(у) = inf {Fix): xGB, Нп(х) < уп, п = I, 2 , Л } в нуле.
Важную роль играет (см. [2])
Т е о р е м а 2. Пусть ф(0) > — с о и функционалы Нп(х) ограничены на В, п = 1, 2, . . . , N. Тогда имеем следующее:
1) функция возмущения ф(у) всюду больше, чем — <», непрерывна в нуле и субдифференцируема в нуле;
2) —у* G Эф(0) тогда и только тогда, когда / б Е + , G (у*) = sup G (у), где G (у) = inf L (х, у);
3) справедливо соотношение двойственности:
inf sup L(x, у) = sup infL(x, у ) .
*£в хев
Наиболее хорошо изучен случай, когда X — конечномерное евклидово про
странство. При этом предположении построено большое количество конструк
тивных алгоритмов поиска седловой точки функции Лагранжа (см., например, [3 ]), известны пакеты прикладных программ для ЭВМ и т. д. В течение последних лет получены алгоритмы (итеративного типа и др.) для случая, когда X — гильбертово пространство [4 ], [5 ]. Однако какие-либо результаты относительно конструктивных способов решения задачи ( 1 . 1 ) , (1.2) в произвольных линейных пространствах X автору не известны. Настоящая статья посвящена решению этой проблемы в случае, когда дополнительно выполняются следующие условия.
У с л о в и е 2. I. X — Линейное топологическое пространство, В — компакт.
2. Функционалы Нп(х) линейны и непрерывны при п= 1, 2, . . . , N; функ
ционал F ограничен и полунепрерывен снизу на В .
3. Известен конструктивный алгоритм решения безусловной задачи Q(x) = \)F (х) + J,kfln (х) -* min, х G В,
где (KQ > О, X,, . . . : , KN) G RN+L — произвольный вектор.
Относительно п. 3 можно сказать следующее. Если X — нормированное про
странство, то иногда задачу Q(x) -* min можно решить, перебирая точки, в которых производная (Фреше или Гато) Q'(x) обращается в нулевой функ
ционал. Кроме того, большой класс задач, в которых выполнен п. 3, дает тео
рия стохастического оптимального управления; этой области приложений посвя
щен § 3.
Л е м м а 1. Пусть выполнено условие 2, Q(x) — некоторая фиксированная функция из п. 3 условия 2, Вх = (х G В: Q (х) = inf Q(x)} С В. Тогда условие 2 выполнено также и для Вх.
Д о к а з а т е л ь с т в о . Поскольку множество Вх замкнуто, оно является ком
пактом. Надо проверить лишь п. 3. Пусть Q — произвольная функция соответ
ствующего вида; гк -*> 0 — произвольная положительная последовательность;
хк — решение задачи Q(x) + £kQ(x) -*> min, х G В. Алгоритм построения хк при любом к известен по условию. Выберем из {хк} сходящуюся в В подпоследова-
Задача выпуклого программирования 547
тельность {х} и покажем, что предельная точка х* = lim хк является решением задачи Q(x) -*> min, х G Вх.
Ясно, что Q(x*) < lim Q(x<) < lim \Q(x) + e, ( Q (x) - Q(*<)) ] при всех x G B.
Поэтому хФ G Bx.
Предположим, что ' для некоторых i, х G Вх справедливо неравенство Q(x) < Q(xt). Поскольку Q(x) < Q(x^ получаем Q(x) + tQ(x) < Q(x) + etQ(x^ что противоречит определению xt. Следовательно, Q(xt) < Q(x) при всех i, x G B{ ш из полунепрерывности Q вытекает, что Q (х*) < Q(x).
§ 2 . Описание алгоритма
Считаем выполненными условия 1, 2. Ясно, что при этом задача (1.1), (1.2) имеет решение и справедливы теоремы 1, 2, а также лемма 1.
Для поиска решения задачи (1.1), (1.2) воспользуемся п. 2) теоремы 1.
Первым этапом будет построение вектора - у * G д<р(0), которое легко осуществить с помощью теоремы 2. • ' -
Ш а г 1. Для любого фиксированного у GR+ значение G(y) может быть вычислено в силу п. 3 условия 2.
Ш а г 2. Поскольку функция G вогнута [2], максимизацию G(y) ~* max, у G R + , можно провести с помощью любого стандартного численного метода (например, можно использовать сочетание циклического покоординатного подъема с золотым сечением [3]).
В дальнейшем вектор у° считается известным. Положим N = { 1 , 2 , . . . , J V } ; Ni = {т У* > 0 } ; N2 = N\N,; В* - {x G В: Цх, у*) = inf 'Цх, у*)} — выпуклое мио-
хев
жество. Согласно теореме 1, искомая точка х* G В* должна удовлетворять не
равенствам (1,2) и условию дополняющей нежесткости. Будем считать, что известен алгоритм решения задачи (1.1), (1.2) при числе ограничений (1.2), меньшем N; другими словами, полный алгоритм будет рекурсивным. В качестве отдельных этапов возникнут задачи вида (1.1), (1.2), где вместо В стоит Лф, а индекс п лежит в N2. Для таких задач условие 2 выполнено в силу леммы 1, но чтобы гарантировать выполнение условия 1, предварительно нужно скоррек
тировать множество N2. Это производится с помощью шагов 3—6. Положим N2 ,= 0 .
Ш а г 3. Если N2\N2' = 0 , то перейти к шагу 6.
Ш а г 4. Выбрать произвольное т G N2\N2' и решить задачу Нт(х) -* min в классе В* при ограничениях Яя( х ) < 0, п G N2'. Если минимум равен нулю, то индекс т переводится из N2 в N, и выполняется шаг 3. Если минимум отри
цательный, то перейти к шагу 5.
Ш а г 5 . N2' = N2' U {т}; перейти к шагу 3.
Ш а г 6. Если N, = 0 , то последняя из построенных точек хф (на шаге 4) является искомой. В противном случае коррекция множества N2 закончена и следует перейти к выполнению шагов 7—10.
На шаге 4 значение минимума не может быть положительным, так как в
548 А. Б. Пиуновский
этом случае множество В* не содержало бы точек х, для которых Нп(х) < 0 при всех п Е N, т . е . исходная задача (1.1), (1.2) не имела бы решений.
- Ясно, что если N > 0, то шаг 4 хотя бы один раз будет выполнен, поэтому шаг 6 вполне корректен. Случай N, = 0 реализуется, если у* = О, N2 = N2' = N, поэтому последняя из построенных точек хф на шаге 4 действительно удовлетворяет неравенствам (1.2) и условию дополняющей нежесткости.
Для обоснования корректности шагов 3—6 необходимо убедиться, что задача шага 4 удовлетворяет условиям 1, 2. Условие 2, очевидно, выполнено в силу леммы 1. Справедливость условия 1 докажем методом полной математической индукции. При первом выполнении шага 4 имеем N2' = 0 . Пусть условие 1 справедливо на каком-то шаге работы алгоритма. Докажем его справедливость при следующем выполнении шага 4, причем в рассмотрении нуждается лишь случай, когда увеличивается класс N2\ Итак, считаем, что
min Ят( х ) < 0
x G B0, Нп (х) £ 0 , n € N2'
и будет выполняться шаг 5. Пусть х, Е В* — такая точка, что Яя(х,) < 0 при п Е N2' (предположение индукции); х2 Е В* — точка, для которой Ят( х2) < 0, Яя( х2) < 0 при п Е N2\ Положим х = ах, + (1 - а)х2 г где
' 1, если Нт (х,) < О,
0 < а < | Ят( х2) '
1ш^)
, е с л и Я"
( Х 1 ) >-°'
Теперь легко убедиться, что х G Б * и Яп(х) < 0 при п G N2' U { m } , что и требова
лось доказать. Одновременно доказано, что после окончания работы шагов 3—6 (выполняется условие шага 3) для некоторой точки х G В выполнены неравенства Яя( х ) < 0 при всех п Е N2, т. е. шаги 3—6 достигают поставленной цели.
Важным свойством набора N, является следующее: если хф — решение задачи (1.1), (1.2), то Яя (х*) = 0 для всех п Е Действительно, если уя* > 0, то это свойство вытекает из условия дополняющей нежесткости. Пусть т — индекс, переведенный в набор N, на шаге 4, и .предположим, что Ят( х * ) < 0. Но тогда
min Ят (х) < Нт (х*) < 0,
хев°, нп ( х ) < о, я ем2'
что противоречит описанию шага 4.
Ясно, что IN, U N2 = N. Если получится, что Ы2 = 0 , то все последующие рассуждения лишь очевидным образом упрощаются; & 0 согласно шагу 6.
Наша ближайшая цель — построить такую точку х Е В * , чтобы выполнялись неравенства Яя( х ) < 0 при всех п Е N2 и одновременно вектор {Я^х)} i e N l в пространстве размерности / = IN, I лежал бы в наперед заданном гипероктанте.
Зафиксируем произвольное подмножество N,+ С положим Щ = M,MN,+ и по
строим точку х Е В * , для .которой Яя( х ) < 0, п Е N2, Я , ( х ) > 0 , z E N ,+,
< 0, I Е Nr.
Для этой цели необходимы шаги 7—10.
Ш а г 7. Ввести функции
ЯДх) - я , (х), t G N+, Я, (х), | G Nf,
и положить N3 = 0 . в
Ш а г 8. Решить задачу
/ G N , \ N3
в классе х G В* при ограничениях Яя( х ) ^ 0, п G N2; Яу{х) < 0, у G N3; решение обозначается через х.
Ш а г 9. Проверить следующие условия:
а) если IN|\N3I = 1 и построенный минимум < 0 , то закончить работу;
б) если Я,(х) = 0 при всех i G N,\N3, то закончить работу.
Ш а г 10. Выбрать индекс i G N,\N3, для которого HL(x) < 0, включить его в множество N3 и перейти к шагу 8.
Прежде всего покажем, что для задачи шага 8 выполнено условие 1 (условие 2 очевидно). При N3 = 0 это вытекает из установленных выше свойств класса N2. Предположим, что на каком-то шаге 8 для некоторой точки х G 2?* выполнено Яя(х) < 0, п G N2, Hj(x) < 0, у G N3. Тогда, согласно шагу 10, для какой-то линейной комбинации точек х, х выполнены те же неравенства при п G N2, у G N3 U { i } . Следовательно, условие 1 выполняется и'при следующем обращении к шагу 8.
Напомним, что в рассматриваемом случае решение х* исходной задачи (1.1), (1.2) существует, причем х* G 2?* и Ят( х * ) = 0 для всех п G N,. Поэтому на шаге 9 а) вариант положительного значения минимума исключен. По этой же причине после выполнения шага 8 исключен случай, когда Ht (х) > 0, i G N,\1M3, и одно из этих неравенств — строгое. Следовательно, шаг 10 всегда можно выполнить.
Таким образом, с помощью шагов 7—10 можно построить набор точек X i , . . . , % G 5 * такой, что Я„(хЛ < 0 при всех к = 1, 2, . . . , К , п G N2 и векторы
Hk = {Hi (xk)}ieNl G R'удовлетворяют условиям следующей леммы.
Л е м м а 2. Предположим, что имеется такой набор векторов Hk G R7,
&= 1, 2, . . . , К, что в каждом гипероктанте лежит хотя бы один из них.
Тогда найдутся веса
Д о к а з а т е л ь с т в о . Пусть M — замкнутая выпуклая оболочка множества {Я,, . . . , Яд}, и предположим, что 0 £ М. Тогда существует непрерывный ли
нейный функционал L и число С такие, что L(0) = 0 < С, L(H) > С для всех HGM (см. [6]). Для каждого вектора et стандартного базиса в R7 либо L(e$ < Q, либо L{—e) < 0; соответствующий вектор (et или —е) включим в класс Е. Очевидно, замкнутая выпуклая оболочка Е является гипероктантом, причем для каждого вектора Я G Е-ЦН) < 0 < С, т. е. построенный гипероктант не со
держит точек из М, что противоречит условию.
550 А. Б. Пиуновский
Таким образом, существует набор весов > 0,
к=1
такой, что
2
= одля всех i Е N,. Очевидно,
для всех я Е N2. Пусть
Тогда в силу линейности и ограниченности на В* функционалов Нп имеем (2.1) V n G N2 Яя( х * ) < 0 , V i e 1ST, Я , (**) = 0, х* Е Б*.
Построение искомых весов Xf, . . , , Х£ при известных точках х,, . . . , хк эквива
лентно построению допустимого плана в задаче линейного программирования и выполняется стандартным симплекс-методом [3].
Поскольку у* = 0 для всех п Е N2, из (2.1) следует, что точка х* удовлетворяет условию дополняющей нежесткости. Кроме того, для хф выполнены условия (1.2) и L(x*, у*) = min JL(x, у*) в силу того, что х* Е В * . Таким образом, согласно п. 2) теоремы 1, построенная точка х* является решением исходной задачи (1.1),
(L2).-
З а м е ч а н и я . 1. Изложенный алгоритм корректен и приводит к цели, если выполнены условия 1, 2. Предположим, что условие 1 нарушено или просто неизвестно, справедливо ли оно.
В этом случае также можно попытаться выполнить шаги 1—10. Если попытка увенчается успехом и будет построена точка JC*, удовлетворяющая условиям (2.1), то она является решением исходной задачи, поскольку для любого х£В, удовлетворяющего неравенствам (1.2), имеем F(x) > Цх, у*) > L(x*, у*) = F(x*). Если же отдельные шаги алгоритма окажутся невыполнимыми (шаги 4, 8—10), это явится указанием на то, что условие 1 нарушено и решение задачи (1.1), (1.2) данным способом построить нельзя.
2. Пп. 1, 2 условия 2, за исключением линейности функционалов Яя, введены для того, чтобы, обеспечить существование решения исходной задачи (1.1), (1.2) и справедливость леммы 1. Если эти условия нарушены, то также можно попытаться выполнить шаги 1—10. Как и раньше, если удастся построить точку JC*, удовлетворяющую условиям (2.1), то она будет решением исходной задачи.
§ 3. Приложение к задачам стохастического оптимального управления
Рассмотрим управляемую цепь Маркова, заданную вероятностью перехода Pt(dr\s, а) на шаге f = 1, 2 , . . . , Г, где s G S — состояние в момент t — 1, а Е Л — управление в момент t; S, Л — борелевские пространства. Начальное распределение P0(ds) считается фиксированным. Стратегией управления
л = { | А , } £ = | называется последовательность условных вероятностных мер
\it{da\$Qax... другами словами, в-момент t управление, может.быть рандо
мизированным и зависеть от. предыстории. Каждая стратегия порождает вероят
ностную меру х = Р" на траекториях вида со = s0ax... aTsTy которая называется стратегической мерой. В классическом случае требуется найти стратегию л*, дающую минимальное значение функционала ожидаемых потерь
(3.1) F(JC) = E * 1 / ( 0 ) ) ] * - * min, ще
/ W a i / r ( « , . ^ + / ' ( j r )
t=\
есть заданная измеримая функция. Более подробную .формулировку задачи, методы ее решения, практические приложения и примеры можно найти в [7 ]—
[11]; вычислительные аспекты наиболее подробно изложены в [7], [9], [11].
Будем считать заданными измеримые функции т
К
(<*>) = 2
аЬ + К (*г)> п = 1, 2, . . . , ЛГ,t=\
и назовем допустимыми стратегии, удовлетворяющие неравенствам (3.2) Нп (х) = Еп [hn (со) ] < 0, я = 1 , 2 , .
Требуется построить оптимальную допустимую стратегию л*, дающую мини
мальное значение функционала (3.1). Аналогичная задача рассмотрена в [12], однако конструктивных алгоритмов построения оптимальной стратегии л* раз
работано, не было.
У с л о в и е 3. К Функции / ' , /г, Ая, Aj, п = 1, 2, . . . , N, ограничены снизу.
2, Существует такая стратегия л, что En [Ая ((о) ] < 0,; п =• 1, 2, . . . , N.
У с л о в и е 4. 1. Пространства £, Л — компакты.
2. Функции Ая, Ля, я ' - 1, 2, . . . , N, непрерывны; функции / ' , fT полунепре
рывны снизу.
3. Вероятность перехода Pt(dr\s,d) является непрерывным стохастическим ядром [7] при всех Г= 1, 2, . . . , Т. •
Установим, что при выполнений п. 1 условия 3 задача (3.1), (3,2) эквивалентна исходной задаче (1.1), (1.2). Действительно, пусть X — пространство всех ко
нечных зарядов (знакопеременных мер) [6 ] на прямом произведении Q = $ х (А х S)T; В — выпуклое [10] пространство всех стратегических вероят
ностных мер на Q. Функционалы F, Яя, n = 1, 2, . . . , N, являются линейными на В. Таким образом, сформулированная задача стохастического оптимального управления эквивалентна исходной задаче (1.1), (1.2), а при, условии 3 для нее справедливы теоремы 1 , 2 . .
Покажем, что при условиях Зг 4 выполнено условие 2, т. е. справедливы все изложенные результаты". Известно, что в этом случае Q — компакт [7 ]. Пусть Y—пространство действительных непрерывных функций на Q,
<х, у) = f у ((D) X (d(o) я
есть билинейная форма на Х*У, определяющая слабую сходимость в X:
хп х Vy G Y lim (хп, у) = (х у).
552 А. Б. Пиунрвский
Теперь X — топологическое пространство, причем В — компакт [7], [12]. П. 2 условия 2 достаточно очевиден. Остановимся подробнее на п. 3 условия 2.
Очевидно,
Q(x) = E* [ ^ M + f ^ M I
и задача Q(x) -» min, х G В, эквивалентна построению стратегии Я, дающей решение задачи
т
(3.3) Ея [ J ^ (s,_„ а,) + яг ( sr) ] min, ще
в1 (s, а) = V '( 5 , а) + J У*я ( 5 , а); = Vr (*) + 2 ( * ) •
Но задача (3.3) является стандартной для теории стохастического оптимального управления и решается с помощью метода динамического программирования
[7]—[9], причем при условиях 3 (п. 1), 4 исследуемая модель является полу
непрерывной. Рассмотрим уравнение Беллмана
(3.4) (s) = inf { d (s, a) + / ц (r) Pt (dr\s, d)l t = T, T - 1, . . . , 2, 1, с начальным условием vT(s) = #r(s). При введенных предположениях оно имеет единственное решение в классе полунепрерывных ограниченных снизу функций, которое называется функцией Беллмана, а стратегия л оптимальна тоща и только тогда, коща мера Ря сосредоточена на множестве
£>= {со : V* = 1, 2, . . . , Т 4 (s,_„ a,)+jT t* (г) Л (rfrl^i, a,) = v,_,.(*_,)}.
5
На каждом шаге *e Т, Г — 1, . . . , 2, 1 управление а, можно брать нерандо
мизированным в виде at = a,(5/-i)> где at — измеримая функция, снимающая знак inf в (3.4):
q' ( 5 , at ( 5 ) ) + / (г) Р, 5 , a, (s)) = inf { ^ (s, a ) + J v, (г) Л (dr\s, a)}.
S . l s
Таким образом, изложенный в § 2 алгоритм применим для решения задачи (3.1), (3.2). В случае конечного S вместо леммы 1 целесообразно использовать более простой способ минимизации функционала Q (х) на 2?,, основанный на методе штрафных функций.
Для каждого t= 1, 2 , . . . , Т положим
D' = { ( 5 , а) : q' (s, а) + "£ц (г) Р, (Н 5 , а) = ( 5 ) } ;
здесь и ниже функция q соответствует функции Q из леммы 1; v— отвечающая им функция Беллмана. Ясно, что теперь решение любой задачи Ея [Q (со) ] -* min, х = Р3* G Б, можно получить, решая стандартную задачу Ея [Q (со) ] -*> min, Р" G В, ще
<Г
( 5 ,а) =
я), ( s , a ) G # ' ,
7 (*) = QT (*),
553
причем функция qt полунепрерывна и ограничена снизу, поскольку множество 17 замкнуто.
Обратим внимание на одно немаловажное обстоятельство. Если ограничения (3.2) отсутствуют СА7 = 0), то в полунепрерывной модели оптимального управления (3.1) или (3.3) достаточный класс образуют нерандомизированные стратегии.
Если же N > 0, то в соответствии с § 2 решение задачи (ЗЛ), (3.2) в общем случае будет иметь вид конечной выпуклой комбинации стратегических мер, отвечающих нерандомизированным стратегиям. Можно показать, что при усло
виях 3, 4 минимально достаточное количество слагаемых в этой комбинации равно 7V+ 1.
§ 4. Заключение
Изложенный в § 2 алгоритм решения задачи очень трудоемок и, видимо, практически неприменим при N>3. Поэтому полученные результаты следует рассматривать как доказательство принципиальной алгоритмической разрешимо
сти сформулированной проблемы. Подчеркнем, что для задач стохастического оптимального управления дополнительные ограничения-неравенства раньше прак
тически не рассматривались. По-видимому, это связано с тем, что основной метод решения таких задач динамическое программирование — становится не
применимым. С другой стороны, актуальность задач с ограничениями не вызывает сомнений. В частности, при изучении многокритериальных моделей оптимизации известен следующий прием: один критерий считается главным и подлежит ми
нимизации, а на остальные накладываются ограничения сверху.
Наконец, напомним, что если X •— гильбертово или конечномерное евклидово пространство, то известны гораздо более эффективные методы решения задач математического программирования.
СПИСОК ЛИТЕРАТУРЫ.
1. Балакришнан А В. Прикладной функциональный анализ. M.: Наука, 1980.
2. Левин В. Л. Выпуклый анализ. M.: Наука, 1985.
3. Карманов В. Г. Математическое программирование. М.: Наука, 1975.
4. Гольштейн Е. Г. О сходимости градиентного метода отыскания седловых точек модифицированной функции Лагранжа//Экономика и матем. методы. 1977. Т. 13. Вып. 2. С. 322—329.
5. Бакушинский А. Б., Гончарский А. В. Итеративные методы решения некорректных задач. М.:
Наука, 1989.
6. Колмогоров А. # . , Фомин С. В. Элементы теории функций и функционального анализа. M.:
Наука, 1976.
7. Бертсекас Д., Шрив С. Стохастическое оптимальное управление. М.: Наука, 1985.
8. Хаметов В. М., Пиуновский А. Б. Новые точно решаемые примеры для управляемых цепей Маркова с дискретным временем//Кибернетика. 1991. № 3. С. 82—90.
9. Майн X , Осака С. Марковские процессы принятия решений. М.: Наука, 1977.
10. Файнберг Е. А. Управляемые марковские процессы с произвольными числовыми критерия- ми//Теория вероятностей и ее применения. 1982. № 3. С. 456—473.
11. Баранов В. В. Вычислительные методы оптимального стохастического управления//Ж. вычисл.
матем. и матем. физ. 1991. Т. 3 1 . № 5. С. 663—680.
12. Хаметов В. М., Пиуновский А. Б. Оптимальное управление случайными последовательностями при ограничениях//Матем. заметки. 1991. № 6. С. 143—145.
Поступила в редакцию 05.03.93