• Nenhum resultado encontrado

Mostramos neste cap´ıtulo que a existˆencia de um custo m´edio a longo prazo finito, como em (2.1), implica que o sistema estoc´astico S ´e assintoticamente est´avel na m´edia, i.e. E[xk]→ 0 quando k → ∞, sempre que hip´oteses usuais de

controlabilidade e observabilidade s˜ao satisfeitas. Esta no¸c˜ao de estabilidade ´e fraca no sentido de que as trajet´orias amostradas {xk} podem conter subsequˆen-

cias que divergem para infinito, veja Fig. 2.1. Isto se deve ao fato de que a sequˆencia de segundo momento {Xk} pode n˜ao ser limitada, veja Example 2.1.

Para fortalecer a no¸c˜ao de estabilidade para o sistema S , consideramos a estabilidade uniforme do segundo momento, que equivale a existˆencia de uma constante c > 0 tal que E[kxkk2] ≤ c, para cada k ≥ 0. Para obter esta no¸c˜ao,

mostramos que pelo menos uma das quatro condi¸c˜oes a seguir deve ocorrer: (i) a condi¸c˜ao na Assumption 2.2 vale (Theorem 2.3, p.35); (ii){Ak} ´e quase-peri´odica

e zk+1 = Akzk ´e uniformemente est´avel (Theorem 2.4, p.44), ou{Ak} ´e peri´odico

(Corollary 2.2, p.34); (iii) a sequˆencia{Ak} converge (Theorem 2.5, p.45); (iv) a

condi¸c˜ao de subsequˆencia na Assumption 2.3 vale e zk+1 = Akzk´e uniformemente

est´avel (Theorem 2.6, p.46);

Em todos os resultados de estabilidade deste cap´ıtulo empregamos hip´oteses de controlabilidade e observabilidade. ´E de interesse verificar se estas hip´oteses po- dem ser enfraquecidas para estabilizabilidade e detectabilidade, respectivamente. Al´em disso, consideramos no desenvolvimento a sequˆencia {Ak} como sendo de-

termin´ıstica e com dimens˜ao finita. Talvez seja poss´ıvel estender os resultados para contemplar o caso em que {Ak} ´e uma sequˆencia de matrizes aleat´orias ou

possui dimens˜ao infinita.

em problemas de controle com estrutura mais geral. De fato, seja A uma fun¸c˜ao qualquer que realiza um mapeamento do conjunto de a¸c˜oes de controle admiss´ıveis G para o espa¸co das matrizes de dimens˜ao n × n. O sistema correspondente ´e definido por

xk+1 = A(gk)xk+ wk, ∀gk ∈ G, ∀k ≥ 0. (2.67)

Suponha que o sistema em (2.67) seja estabiliz´avel, ou seja, que exista uma a¸c˜ao g ∈ G tal que os autovalores da matriz A(g) estejam contidos num c´ırculo de raio unit´ario. Pode-se ent˜ao provar que existe j+ > 0 tal que

J∗ = min {g0,g1,...} " lim sup N →∞ 1 N N −1 X k=0 E[kC(gk)xk+ wkk2] # < j+, (2.68)

no qual C ´e um mapeamento apropriado. Al´em disso, se existir uma sequˆencia de a¸c˜oes {g

0, g1∗, . . .} que minimiza (2.68) ent˜ao as condi¸c˜oes apresentadas neste

cap´ıtulo asseguram que E[x∗

k] → 0 quando k → ∞, no qual x∗k representa a

trajet´oria ´otima correspondente em (2.68). Sob condi¸c˜oes adicionais pode-se ga- rantir ainda que {E[kx

kk2]} ´e sequˆencia limitada. Portanto, os resultados deste

cap´ıtulo podem ser usados para caracterizar a estabilidade em sistemas com es- trutura de controle como em (2.67)-(2.68). A investiga¸c˜ao sobre a existˆencia de pol´ıtica ´otima estacion´aria para problemas de controle semelhantes a este ser´a desenvolvida no Cap´ıtulo 3.

Pol´ıtica estacion´aria e custo

m´edio a longo prazo

Neste cap´ıtulo, apresentamos resultados de existˆencia de pol´ıtica ´otima esta- cion´aria em problemas de custo m´edio a longo prazo.

3.1

Introdu¸c˜ao

Neste cap´ıtulo estudamos o sistema dinˆamico estoc´astico controlado, definido num espa¸co de probabilidade fixado (Ω, F,{Fk}, P ), conforme a seguir.

xk+1 = A(gk)xk+ Ewk, gk ∈ G, ∀k = 0, 1, . . . , x0 ∈ Rn, (3.1)

no qual xk e wk, k = 0, 1, . . . s˜ao processos tomando valores em Rn e Rq, respecti-

vamente. A entrada de ru´ıdo {wk} representa um processo i.i.d. com m´edia nula

e matriz de covariˆancia igual a identidade para cada k ≥ 0. Denominamos {xk}

como sendo o estado do sistema e E representa uma matriz fixada de dimens˜ao n× q. Assumimos que existe um conjunto n˜ao-vazio G denominado conjunto de controles admiss´ıveis e cada g ∈ G ´e denominado a¸c˜ao de controle.

Desejamos avaliar o comportamento de longo prazo do sistema (3.1), e para isto adotamos o custo m´edio a longo prazo definido por

J = lim sup N →∞ 1 N N −1 X k=0 E[x′ kQ(gk)xk], (3.2) 55

no qual J pode depender da condi¸c˜ao inicial x0 e E[·] ≡ E[·|F0] denota a esperan¸ca

matem´atica condicionada a F0. O operador Q ´e dado e realiza um mapeamento

de G no espa¸co de matrizes semidefinidas positivas de dimens˜ao n× n.

Assumimos que a sequˆencia de a¸c˜oes de controle{gk} a ser aplicada em (3.1)–

(3.2) ´e conhecida e mensur´avel em rela¸c˜ao a F0, e o problema de controle associado

´e o de determinar uma sequˆencia de a¸c˜oes de controle{g∗

k}, com gk∗ ∈ G, ∀k ≥ 0,

tal que o custo m´edio a longo prazo correspondente em (3.2) seja minimizado. A motiva¸c˜ao para considerarmos as a¸c˜oes de controle {gk} adaptadas a F0 ´e dada

a seguir.

Uma raz˜ao para o estudo do sistema (3.1)–(3.2) ´e que este pode ser usado para modelar o problema de controle de realimenta¸c˜ao simultˆanea (veja (Cho e Lam, 2001), (Luke et al., 1997), e (Wu e Lee, 2005) para uma breve discuss˜ao de resultados recentes). Para representar o problema usando o modelo em (3.1)– (3.2), seja g uma matriz de controle, e defina as matrizes bloco-diagonais A(g) e Q(g) conforme

A(g) = diag(A1+ B1g, . . . , AN + BNg),

Q(g) = diag(Q1+ g′R1g, . . . , QN + g′RNg),

com N ≥ 2 dado, no qual A1, . . . , AN, B1, . . . , BN, Q1, . . . , QN, R1, . . . , RN s˜ao

matrizes dadas de dimens˜oes compat´ıveis. O problema de controle de realimen- ta¸c˜ao simultˆanea ´e encontrar, se existir, uma sequˆencia de matrizes determi- n´ısticas g∗

0, g1∗, . . . que minimiza o custo m´edio a longo prazo correspondente.

Outros problemas de controle igualmente relevantes que surgem como caso particular de (3.1)-(3.2) s˜ao conhecidos como problemas de controle bilinear e sistemas chaveados, veja as referˆencias (Gr¨une, 1996), (Gr¨une e Wirth, 1999), (Mohler e Kolodziej, 1980) para mais detalhes sobre o primeiro e (Shorten et al., 2007), (Geromel e Colaneri, 2006) para o segundo. Para representar o sistema bilinear na forma em (3.1), seja G ≡ RN e tome A(g) = A

0 +PNi=1giAi, no

qual g = [g1, . . . , gN] ∈ G ´e um vetor de controle e A0, A1, . . . , AN s˜ao matrizes

dadas. Para o sistema de controle chaveado, o “sinal de chaveamento” gkpertence

ao conjunto G = {1, . . . , N} a cada instante de tempo k ≥ 0 e define A(gk) ∈

Outro importante problema de controle que pode ser escrito na forma (3.1)– (3.2) ´e o de realimenta¸c˜ao linear de sa´ıda, que ´e descrito por

xk+1 = Axk+ Buk+ Ewk, yk= Cxk, ∀k = 0, 1, . . . , x0 ∈ Rn,

no qual A, B, C, E s˜ao matrizes fixadas de dimens˜oes apropriadas,{uk} representa

a vari´avel de controle e{yk} a sa´ıda. A vari´avel de controle possui estrutura linear

de realimenta¸c˜ao de sa´ıda dada por

uk = gkyk, com gk ∈ Rp,s,∀k ≥ 0.

Uma sequˆencia de matrizes{gk} deve ser projetada de forma a minimizar o custo

m´edio a longo prazo em (3.2) tomando-se

A(gk) := A + BgkC e Q(gk) := Q + C′g′kRgkC,

no qual Q, R s˜ao matrizes sim´etricas semidefinidas positivas, e no caso em que gk = ¯g, ∀k ≥ 0, obtemos o problema cl´assico de realimenta¸c˜ao est´atica de sa´ıda

(Syrmos et al., 1997).

Seguindo estas motiva¸c˜oes, introduzimos a seguir a abordagem precisa e os objetivos deste cap´ıtulo. Da hip´otese do processo{wk}, k ≥ 0, ´e poss´ıvel mostrar

que o segundo momento do estado do sistema xk em (3.1), definido por

Xk = E[xkx′k], ∀k ≥ 0, (3.3)

satisfaz uma recorrˆencia matricial determin´ıstica (veja (3.8)), e vale a identidade E[x′kQ(gk)xk] =hXk, Q(gk)i, gk∈ G, ∀k ≥ 0,

no qual h·, ·i denota o produto interno de Frobenius. Portanto o custo m´edio a longo prazo em (3.2) ´e idˆentico a

J = lim sup N →∞ 1 N N −1 X k=0 hXk, Q(gk)i. (3.4)

O problema de controle pode ent˜ao ser reformulado conforme a seguir. Seja X um subconjunto n˜ao-vazio do conjunto de todas as matrizes sim´etricas semidefinidas

positivas de dimens˜ao n× n. Cada a¸c˜ao de controle gk ´e especificada pela fun¸c˜ao

de controle fk : X → G na forma gk = fk(Xk), para cada k ≥ 0, e a pol´ıtica f =

{f0, . . . , fk, . . .} ´e uma sequˆencia de fun¸c˜oes de controle correspondente (Bertsekas

e Shreve, 1978), (Hern´andez-Lerma e Lasserre, 1996). Seja F o conjunto de todas as pol´ıticas fact´ıveis f , e seja Fs ⊂ F o conjunto de todas as pol´ıticas estacion´arias,

de tal forma que se f ∈ Fs ent˜ao f ={f, f, . . .}. Seja J(f, X) o custo J em (3.4)

correspondente a uma dada pol´ıtica f quando X0 = X. O problema de controle

de custo m´edio a longo prazo ´e o de determinar uma pol´ıtica f∗ tal que

J(f∗, X) = inf f∈FJ(f , X), para cada X. Claramente, inf f∈FJ(f , X)≤ inff∈Fs J(f , X), para cada X, (3.5)

e a desigualdade acima motiva a quest˜ao a seguir.

(Q) Sob quais condi¸c˜oes a classe estacion´aria Fs cont´em a pol´ıtica ´otima f∗?

No contexto de Processos de Decis˜ao Markovianos, garantir a existˆencia de po- l´ıtica ´otima estacion´aria tˆem despertado bastante interesse nas ´ultimas d´ecadas conforme atestado pela grande quantidade de artigos devotados ao tema, veja por exemplo as referˆencias em (Hern´andez-Lerma e Lasserre, 1996). A investiga¸c˜ao evoluiu sempre focada na t´ecnica conhecida como “vanishing discount approach”, primeiro com as condi¸c˜oes de espa¸co de estado finito, depois com espa¸co de estado enumer´avel e por ´ultimo com espa¸co de Borel, veja (Arapostathis et al., 1993) para uma revis˜ao hist´orica. Embora os sistemas em (3.1) sujeitos a (3.2) sejam uma classe particular dos Processos de Decis˜ao Markovianos, n˜ao h´a na literatura um estudo criterioso que garanta a existˆencia de pol´ıtica ´otima estacion´aria no caso espec´ıfico em (3.1)-(3.2) e a principal contribui¸c˜ao deste cap´ıtulo ´e cobrir, ao menos parcialmente, esta lacuna.

Uma motiva¸c˜ao adicional, al´em daquela te´orica, em se garantir a existˆencia de pol´ıtica ´otima estacion´aria ´e que esta ser´a ´util na (i) aproxima¸c˜ao de solu¸c˜ao ´otima do Cap´ıtulo 4 e (ii) no m´etodo num´erico proposto no Cap´ıtulo 5.

• custo por est´agio descontado limitado, na Se¸c˜ao 3.2. • controlabilidade para origem, na Se¸c˜ao 3.2.

• convergˆencia e custo convexo, na Se¸c˜ao 3.3.

A abordagem da Se¸c˜ao 3.2 apresenta condi¸c˜oes suficientes para a t´ecnica de “va- nishing discount approach”, por´em as hip´oteses de custo por est´agio descontado limitado e controlabilidade para origem n˜ao s˜ao compar´aveis entre si, conforme os argumentos de compara¸c˜ao desenvolvidos na Se¸c˜ao 3.4. A segunda abordagem na Se¸c˜ao 3.3, entretanto, assume hip´oteses de convergˆencia e custo convexo para garantir o resultado com desenvolvimento independente da t´ecnica de “vanishing discount approach”.

As pr´oximas se¸c˜oes s˜ao dedicadas `as condi¸c˜oes que garantem a existˆencia de pol´ıtica ´otima estacion´aria para o sistema (3.1) sujeito a (3.2).

Documentos relacionados