Um Problema de Controle ´ Otimo - Introdução à Teoria de Controle e Programação Dinâmica

1.2 Exemplos

1.2.8 Um Problema de Controle ´ Otimo

Seja Ω⊂ Rn _{compacto e f : R}n_{× Ω → R}n _{uma aplica¸cão cont´ınua,} Lipschitz na primeira variável (veja Defini¸cão 259) e uniformemente na segunda. Seja7

Uad := {u : [t0, t1]→ Rm; u(t)∈ Ω q.s. em [t0, t1]}

o conjunto dos controles viáveis. Considere agora a equa¸cão de evolu¸cão das variáveis de estado

z0(t) = f (z(t), u(t)), q.s. em [t0, t1] z(t0) = z0

A teoria de equa¸cões diferenciais ordinárias garante que, para cada u∈ Uad, o problema acima possui uma única solu¸cão absolutamente cont´ınua em [t0, t1]. Nosso objetivo é encontrar um controle ¯u que minimize o funcional objetivo

J(t, z; u) := L1(z(t)) + Z t1

L(z(t), u(t)) dt,

onde as fun¸c˜oes L e L1 definem respectivamente os custos operacional e final do modelo. Suponha L_{∈ C}1_(Rn_{× Ω) e L}

1 ∈ C1(Rn).

Tal problema de controle ótimo é denominado problema com hori- zonte finito8_{. Fazemos aqui uma abordagem baseada no método dos}

7_Nota¸c˜_{ao: q.s. ´e abrevia¸c˜}_{ao de ’quase sempre’ e se refere `}_{a medida de Lebesgue}

no intervalo em quest˜ao.

8_{Note que o tempo final t}

22 [CAP. 1: INTRODUÇ ÃO multiplicadores de Lagrange (veja Exemplo 1.2.2) que nos permite encontrar algumas condi¸cões necessárias para otimalidade de uma solu¸cão (compare com os resultados do Apêndice B).

Definimos inicialmente a vari´avel adjunta (ou co-estado) λ = λ(t) e o funcional estendido

I(z, u, λ) := Z t1

[L(z, u)− λ (z0− f(z, u))] ds + L1(z(t1)). Suponha que as fun¸cões envolvidas na defini¸cão de I são suficientemente regulares e que (¯z, ¯u, ¯λ) é um m´ınimo (local) de I. Sejam ainda φi(t), i = 1, 2, 3 fun¸cões regulares com φ1(t0) = 0. Definimos então

zε := ¯z + εφ1, uε := ¯u + εφ2, λε := ¯λ + εφ3

e I(ε) := I(zε, uε, λε) ∈ R, para |ε| ’pequeno’. Logo I(ε) possui um m´ınimo local em ε = 0. Note que

(1.42) ∂I dε(ε) = Z t1 t0 · ∂h ∂zφ1+ ∂h ∂uφ2− ( ˙z ε_{− f)φ} 3− λε( ˙φ1−∂f ∂zφ1− ∂f ∂uφ2) ¸ dt + ∂g ∂z(z ε_(t 1)) φ1(t1). Integramos por partes o termo λεφ˙1 Z t1 t0 λεφ˙1dt = [λεφ1]tt10 − Z t1 t0 ˙λε_φ 1dt = λε(t1) φ1(t1)− Z t1 t0 ˙λε_φ 1dt e substituimos em (1.42), obtendo 0 = ∂I dε ¯ ¯ ¯ ¯ ε=0 = Z t1 t0 · φ1 µ ∂L ∂z(¯z, ¯u) + ¯λ ∂f ∂z(¯z, ¯u) + ˙¯λ ¶ + φ2 µ ∂L ∂u(¯z, ¯u) + ¯λ ∂f ∂u(¯z, ¯u) ¶ + φ3(− ˙¯z + f(¯z, ¯u)) ¸ dt + φ1(t1) ·_∂L 1 ∂z (¯z(t1))− ¯λ(t1) ¸ .

Tomando φ1= φ2 = 0 e φ3 arbitr´ario, obtemos a equa¸c˜ao de estado ˙¯z = f(¯z, ¯u).

[SEC. 1.2: EXEMPLOS 23 Tomando φ1 = 0 e φ2 qualquer, obtemos a condi¸c˜ao de otimalidade

∂L

∂u(¯z, ¯u) + ¯λ ∂f

∂u(¯z, ¯u) = 0.

Tomando agora φ1 qualquer com φ1(t1) = 0, obtemos a equa¸c˜ao adjunta (ou de co-estado)

˙¯λ = −∂L

∂z(¯z, ¯u) − ¯λ ∂f ∂z(¯z, ¯u).

Por fim, escolhendo φ1 qualquer com φ1(t1)6= 0, obtemos a condi¸c˜ao de contorno para a equa¸c˜ao adjunta

∂L1

∂z (¯z(t1)) − ¯λ(t1) = 0.

Definimos agora a fun¸c˜ao de Hamilton H : Rn× Rn_{× R}m _{→ R} H(z, λ, u) := _{hλ, f(z, u)i + L(z, u)}

e supomos que é poss´ıvel explicitar (através da condi¸cão de otimalidade) o controle em fun¸cão das variáveis de estado e adjunta (¯u = U (¯z, ¯λ)). Obtemos das equa¸cões de estado e adjunta o sistema hamiltoniano

(1.43)            ˙¯z = +∂H_∂λ(¯z, ¯λ, U (¯z, ¯λ)) ˙¯λ = −∂H_∂z (¯z, ¯λ, U (¯z, ¯λ)) ¯ z(t0) = z0, ¯λ(t1) = ∂L_∂z1(¯z(t1))

Note por fim que derivando H em rela¸c˜ao a u no ponto (¯z, ¯λ, ¯u) obtemos da condi¸c˜ao de otimalidade

(1.44) ∂H ∂u(¯z, ¯λ, ¯u) = ¯λ ∂f ∂u(¯z, ¯u) + ∂L ∂u(¯z, ¯u) = 0.

Isto é, H(¯z(t), ¯λ(t),_{·) : R}m _{→ R possui um m´ınimo local em u = ¯u(t), t ∈} [t0, t1]. Por este motivo, a condi¸cão de otimalidade também é conhecida como condi¸cão de m´ınimo.

As condi¸cões necessárias que procurávamos podem ser resumidas em (1.43) e (1.44), isto é, se (¯z, ¯u) é uma solu¸cão para o problema de controle ótimo, então existe λ : [t0, t1] → Rn tal que estas condi¸cões são satisfeitas.

24 EXERC´ICIOS

A análise das condi¸cões (1.43) e (1.44) é um dos principais tópicos de interesse na área de controle ótimo. A obten¸cão destas condi¸cões corresponde, no caso geral, ao teorema conhecido na literatura por princ´ıpio do máximo ou de Pontryagin (veja [PBG], [Tr], [Za]). Retornamos ao estudo das mesmas no Cap´ıtulo 10 (um caso particular pode ainda ser encontrado na Seçcão 9.5).

Exerc´ıcios

1.1. Sejam F , G : R2 _{→ R definidas por} F (x, y) := 1 2 ³ x y´ µ1 1 1 2 ¶ µ x y ¶ + y, G(x, y) := x_{− 3.} a) Utilizando o teorema de multiplicadores de Lagrange, resolva o seguinte problema de otimiza¸c˜ao:

   Minimizar F (x, y) sujeito a G(x, y) = 0

b) Calcule_{∇F (¯x, ¯y) e ∇G(¯x, ¯y), onde (¯x, ¯y) ´e a solu¸c˜ao encontrada no} item a).

1.2. Encontre a menor distˆancia (vertical) entre a par´abola y = ax2₊ bx + c e a reta y = x + d.

1.3. Um meteoro percorre a ´orbita hiperb´olica descrita por x2

a2 − y2 b2 = 1

(a Terra está na or´ıgem (0, 0)), enquanto que um satélite em órbita geoestacionária se encontra na posi¸cão (x0, y0). Encontre o ponto da órbita do meteoro de menor distância ao satélite.

1.4. Considere o seguinte modelo de investimento de capital: xk+1 = (1 + r)xk+ uk, k + 1, 2, . . .

onde xk é o capital ao final do k-ésimo ano, uk é o capital investido ao longo do ano k e r > 0 é a taxa de juros anual. Suponha que o custo de

EXERC´ICIOS ₂₅

investimento do capital ao longo dos anos k = 0, . . . , N ´e descrito pela fun¸c˜ao

C(u) := c N −1_X

k=0 u2_k,

onde u = (u0, . . . , uN). Encontre uma pol´ıtica ´otima de investimento u para N = 10, x10= 100000, r = 7.

1.5. Considere um circuito com um resistor (de resistência R) e um capacitor (de capacitância C). Sejam u(t) a tensão, y(t) a intensidade da corrente elétrica e q(t) a carga elétrica no tempo t. Temos então as seguintes hipóteses f´ısicas:

• y(t) é igual à varia¸cão temporal de q(t);

• a diferen¸ca de potencial no capacitor ´e igual a q(t)/C; • a diferen¸ca de potencial no resistor ´e igual a Ry(t);

• a lei de Kirchhoff vigora: a voltagem aplicada no circuito ´e igual ao somat´orio das diferen¸cas de potencial no circuito.

Obtenha uma equa¸c˜ao diferencial para q e resolva-a, obtendo q em fun¸c˜ao de u e q(0) = q0.

1.6. A equa¸cão diferencial (†) ¨x = εK, onde K 6= 0, descreve fenômenos da cinemática (e.g., na queda livre: ε = −1 e K = g, a constante gravitacional). A partir do sistema ˙x = v, ˙v = εK (onde x é o deslocamento e v a velocidade), obtemos a equa¸cão (_{‡) dv/dx =} (εK)/v. Resolva a equa¸cão diferencial (‡) e esboce o gráfico das solu¸cões no plano (x, v) para o caso particular ε = 1.

1.7. Considere a equa¸cão diferencial (_{†) do Exerc´ıcio 1.6 com a seguinte} estratégia de realimenta¸cão:

K = K(x) = ½

−b, x > 0 b, x < 0 .

Dada uma condi¸cão inicial (x0, v0) e uma condi¸cão final (x1, v1), encontre uma trajetória correspondente que as una.

Cap´ıtulo 2

Observabilidade

Neste cap´ıtulo analisamos o problema de adquirir informa¸cões sobre o estado presente de um sistema a partir da observa¸cão da sa´ıda do sistema em tempos passados. Conseguimos assim classificar o espa¸co de estados em componentes observáveis, não observáveis e detectáveis (para esta última é necessária uma análise do comportamento assintótico das variáveis de estado). Devido a sua simplicidade, os sistemas lineares autônomos são estudados separadamente. Na última seçcão é apresen- tada uma técnica de reconstru¸cão de estados a partir de observa¸cões. A rela¸cão existente entre os conceitos de observabilidade e controlabilidade é analisada no cap´ıtulo seguinte.

2.1 Sistemas Lineares

Considere o seguinte sistema linear de controle: (2.1)

z0 = A(t) z + B(t) u y = C(t) z

onde as variáveis possuem a seguinte interpreta¸cão: z : [t0, t1]7→ Rn : vetor das variáveis de estado;

u : [t0, t1]7→ Rm : vetor das vari´aveis de controle (entrada); y : [t0, t1]7→ Rl : vetor de observa¸c˜ao (sa´ıda).

Os operadores

[SEC. 2.1: SISTEMAS LINEARES 27 são supostos cont´ınuos em seus dom´ınios de defini¸cão. O sistema de controle linear (2.1) é denominado abreviadamente por (A, B, C). Se as fun¸cões matriciais A, B, C não dependem explicitamente do tempo, o sistema de controle é dito autônomo; caso contrário, o sistema é denominado não autônomo.

Considere inicialmente a seguinte questão: dado um sistema de controle (A, B, C), em que circunstâncias é poss´ıvel a partir do conheci- mento da entrada do sistema

u : [t0, t1]7→ Rm e de sua sa´ıda

y : [t0, t1]7→ Rl,

reconstruir o estado inicial z0 := z(t0) ∈ Rn. Uma vez conhecido o vetor z0, é poss´ıvel substituir o controle dado u na equa¸cão diferencial em (2.1) e calcular as variáveis de estado z(t) em qualquer instante de tempo t∈ [t0, t1].

Como estrat´egias de controle admiss´ıveis consideramos as fun¸c˜oes L1([t0, t1]; Rm). Conforme resultados do Cap´ıtulo A, temos que:

y(t) = C(t) ΦA(t, t0) z0 + y1(t), y1(t) =

Z t1

C(t) ΦA(t, s) B(s) u(s) ds, t∈ [t0, t1].

Note que, conhecida a entrada u, a fun¸cão y1 pode ser calculada a priori, independente do fato de conhecermos (ou não) a condi¸cão inicial z0. Portanto, a determina¸cão de z0 a partir do par (y, u) é equivalente à determina¸cão de z0 a partir da diferen¸ca y− y1, a qual corresponde à sa´ıda do sistema homogêneo

z0 = A(t) z.

Isto significa que, para estudar a determina¸c˜ao do estado inicial z0 de um sistema linear, basta concentrarmo-nos em sistemas homogˆeneos da forma:

(2.2) z0 = A(t) z, y = C(t) z,

os quais representamos pela nota¸c˜ao abreviada (A, , C). Estamos agora em condi¸c˜oes de formalizar o conceito de observabilidade, discutido no Cap´ıtulo 1.

28 [CAP. 2: OBSERVABILIDADE Defini¸cão 6. O sistema (A, , C) é denominado observável em [t0, t1] quando para toda fun¸cão z_{∈ C}1([t0, t1]; Rn) a condi¸cão

z0(t) = A(t) z(t), C(t) z(t) = 0, _{∀t ∈ [t}0, t1],

implicar em z(t0) = 0. 2

Em outras palavras, a observabilidade do sistema (A, , C) ´e equivalente ao fato da aplica¸c˜ao linear

G : Rn _{−→ C([t}0, t1]; Rn) z0 7−→ C(·) ΦA(·, t0) z0

ser injetiva. No teorema a seguir analisamos uma forma equivalente de definir a observabilidade de um sistema.

Teorema 7. As seguintes afirma¸cões são equivalentes: a) O sistema (A, , C) é observável em [t0, t1];

b) A matriz

W (t0, t1) := Z t1

ΦA(t, t0)∗C(t)∗C(t) ΦA(t, t0) dt ´e positiva definida.

Demonstra¸cão: (a) =_{⇒ (b)} Suponha que W (t0, t1) não é positiva definida. Por constru¸cão, a matriz W (t0, t1) é simétrica e, além disto, satisfaz: _{hx, W (t}0, t1)xi ≥ 0, ∀x ∈ Rn. (por quê?).

Logo, existe z0 ∈ Rn\{0} tal que hz0, W (t0, t1)z0i = 0. Definindo agora a fun¸cão z(·) := ΦA(·; t0)z0, temos que esta fun¸cão é solu¸cão do problema de valor inicial z0 = A(t)z, z(t0) = z0. Além disso, z satisfaz

Z t1 t0 |C(t) z(t)|2dt = Z t1 t0 |C(t)ΦA(t, t0)z0|2dt = Z t1 t0 hC(t)ΦA(t, t0)z0, C(t)ΦA(t, t0)z0i dt = Z t1 t0 hz0, ΦA(t, t0)∗C(t)∗C(t)ΦA(t, t0)z0i dt = hz0, W (t0, t1)z0i = 0.

Encontramos assim uma fun¸c˜ao z satisfazendo

[SEC. 2.1: SISTEMAS LINEARES 29 o que contradiz a hip´otese do sistema ser observ´avel.

(b) =_{⇒ (a) Suponha que para alguma fun¸c˜ao z tenhamos} z0(t) = A(t) z(t), C(t) z(t) = 0, ∀t ∈ [t0, t1]. Logo, temos z = Φ(_{·; t}0)z0, onde z0 := z(t0) e

hz0, W (t0, t1) z0i = Z t1

hC(t)z(t), C(t)z(t)i dt = 0. Da hip´otese de W (t0, t1) ser positiva definida, segue z0 = 0.

Os sistemas de controle lineares com matrizes invariantes no tempo (autônomos) representam um importante caso especial que é tratado no teorema a seguir. No texto que segue adotamos a nota¸cão: Dada uma matriz M , representamos por Po(M ), Ke(M ), Im(M ) respectivamente o posto, o núcleo e a imagem de M (para detalhes veja [Gan]).

Teorema 8. Seja (A, , C) um sistema de controle autˆonomo. As seguintes afirmativas s˜ao equivalentes:

a) (A, , C) é observável em [0, T ] para todo T > 0; b) (A, , C) é observável em [0, T ] para algum T > 0; c) A Matriz WT :=R₀TeA

∗_s

C∗CeAsds ´e n˜ao singular para algum T > 0; d) A Matrix WT :=R₀T eA

∗_s

C∗CeAsds ´e n˜ao singular para todo T > 0 ; e) Po(C∗_|A∗_C∗_{| . . . |(A}∗₎n−1_C∗_{) = n;} 1

f ) n−1T k=0

Ke(CAk) ={0}.

Demonstra¸c˜ao: a) =_{⇒ b) Nada a fazer.}

b) =⇒ c) Seja T > 0 escolhido de acordo com b). Tome z0 ∈ Rn e defina a fun¸c˜ao z(t) := eAt z0 para t∈ R. A identidade

hz0, WT z0i = Z T

0 |C z(s)| 2_ds

é obtida como na demonstra¸cão do Teorema 7. Esta identidade e a hipótese de observabilidade do sistema (A, , C) no intervalo [0, T ] impli- cam em z0= 0.

1_{A matriz M}

0 = (C∗|A∗C∗| . . . |(A∗)n−1C∗) ´e chamada matriz de observa¸c˜ao do

30 [CAP. 2: OBSERVABILIDADE c) =⇒ d) Seja T > 0 escolhido de acordo com c) e seja ˆT > 0. Da Identidade

hz0, W_Tˆz0i = Z _Tˆ

0 |C z(s)| 2_ds, temos quehz0, W_Tˆz0i = 0 implica em

a(t) := C eAtz0 = 0, ∀t ∈ [0, ˆT ]. Da´ı segue que

(2.3) a(k)(0) = C Akz0 = 0, k = 0, 1, . . . Portanto,

C Akskz0 = 0, k = 0, 1, . . . , s∈ [0, T ]. Esta ´ultima igualdade implica em

hz0, WT z0i = Z T 0 |C e At_z 0|2ds = Z T 0 | ∞ X k=0 1 k!CA k_sk_z 0|2ds = 0. A escolha de T implica por fim em z0 = 0.

d) =_{⇒ e) Suponha por contradi¸cão que P o(C}∗_|A∗C∗_{| . . . |(A}∗)n−1C∗) < n. Então, as n linhas da matriz n_{× nl (C}∗_|A∗_C∗_{| . . . |(A}∗₎n−1_C∗_{) são} linearmente dependentes e existe um elemento z0 ∈ Rn, z0 6= 0, satisfazendo

(2.4) z₀∗(A∗)kC∗ = 0, C Akz0 = 0 , k = 0, . . . , n− 1. Seja pA(λ) := λn+

n−1_P k=0

αkλk, o polinômio caracter´ıstico da matriz A. O teorema de Caley–Hamilton da álgebra linear nos garante que A é um zero de seu polinômio caracter´ıstico (veja [Gan] ou [So]), isto é

pA(A) := An + n−1 X k=0

αkAk = 0,

de onde conclu´ımos que

Am = n−1_X k=0

[SEC. 2.1: SISTEMAS LINEARES 31 Isto nos permite escrever2

eAt = n−1 X k=0

αk(t) Ak.

Sendo assim, temos de (2.4)

C eAtz0 = n−1 X k=0 αk(t) C Akz0 = 0, t∈ [0, T ], e portanto, hz0, WTz0i = Z T 0 |Ce At_z 0|2dt = 0, o que contradiz a hip´otese em d), pois z0 6= 0.

e)_{⇐⇒ f) De (2.4) conclu´ımos que z}0∈T Ke(CAk)⇐⇒ z∗0(Ak)∗C∗ = 0, k = 0, . . . , n_{− 1.}

f ) =_{⇒ a) Suponha que z}0 ∈ Rn ´e tal que CeAtz0 = 0, para todo t _{∈ [0, T ]. Como em (2.3), podemos concluir que CA}k_z

0 = 0 para k = 0, 1, . . .. A hip´otese em f ) implica ent˜ao que z0= 0.

Um sistema autônomo (A, , C) é portanto observável, quando for observável em [0, T ] para um T > 0 qualquer.

Exemplo 9. Consideramos um modelo para representar o movimento de um satélite artificial de massa unitária orbitando a Terra. Definindo as variáveis:

r : altura da ´orbita; ˙0 : velocidade ˆangular;

u1 : empuxo radial dos motores; u2 : empuxo tangencial dos motores; ω2 : constante gravitacional (ω2 = g); o sistema de equa¸cões que descreve o fenômeno é: (2.5) ½ ¨ r = ˙02r − ω2_r−2 _{+ u} 1 ¨ 0 = _{−2˙0 ˙rr}−2 _{+ r}−1_u₂ 2_{Verifique que α} k(t) = n−1_P j=0 tj j! + ∞ P j=n tjα(j)_k j! .

32 [CAP. 2: OBSERVABILIDADE Note que a solu¸cão deste sistema para u1 = u2 = 0 é dada por r(t) = 1 e 0(t) = ωt. Portanto, ao definirmos as variáveis normalizadas

z1 := r− 1, z2 := z10= ˙r, z3 := 0− ωt, z4 := z30 = ˙0− ω, estamos estudando perturba¸cões desta solu¸cão, a qual representa a órbita livre (controle u = 0) do satélite. Reescrevendo o sistema a partir das novas variáveis z1, . . . , z4, temos

(2.6)              z10 = z2 z20 = (z4+ ω)2(z1+ 1) − ω 2 (z1+ 1)2 + u1 z30 = z4 z40 = −2(z4_z+ ω)z2 1+ 1 + u2 z1+ 1 Linearizando agora o sistema (2.6) no ponto

z1 = z2 = z3 = z4 = u1 = u2 = 0, obtemos o novo sistema

z0 = A z + B u, onde as matrizes A e B s˜ao dadas por:

A =     0 1 0 0 3ω2 0 0 2ω 0 0 0 1 0 _{−2ω 0} 0     e B =     0 0 1 0 0 0 0 1     .

Se supomos que tanto varia¸cões no raio da órbita, quanto no ângulo podem ser medidas, então as variáveis z1 e z3 são conhecidas. Nesse caso, o vetor de observa¸cão y satisfaz:

y = C z onde C = µ 1 0 0 0 0 0 1 0 ¶ .

A matriz de observa¸c˜ao, dada por M0 := (C∗| . . . |(A∗)n−1C∗), se escreve neste caso como

M0=     1 0 0 0 _{∗ . . . ∗} 0 0 1 0 ∗ . . . ∗ 0 1 0 0 _{∗ . . . ∗} 0 0 0 1 _{∗ . . . ∗}    

Temos assim que a condi¸c˜ao Po(M0) = 4 = n ´e verificada, garantindo a

[SEC. 2.2: SUBESPAÇ O NÃO OBSERVÁVEL 33

No documento Introdução à Teoria de Controle e Programação Dinâmica (páginas 35-47)