• Nenhum resultado encontrado

No contexto clássico de identificação de sistemas, escolhe-se uma estrutura de mo- delos parametrizada M para representar a relação entrada-saída do processo. O vetor de parâmetros é denotado por θ ∈ Rnt e, então, M(θ) representa um modelo específico

dentro desta estrutura (PILLONETTO et al., 2014). Para modelos de processos discretos, lineares e invariantes no tempo, como aquele que é o foco de estudo nesta dissertação e descrito em (1), uma estrutura genérica é dada por:

y(t,θ) = G(q,θ)u(t) + H(q,θ)w(t), (143) onde G(q,θ) e H(q,θ) são as matrizes de transferência, semelhantes às descritas no Ca- pítulo 2, mas agora parametrizadas pelo vetor θ. A expansão de G(q,θ) e H(q,θ) no operador de atraso no tempo q−1resulta na resposta ao impulso destes sistemas:

G(q,θ) = ∞ X k=0 gk(θ)q−k (144) H(q,θ) = I + ∞ X k=1 hk(θ)q−k, (145)

com gk(θ) e hk(θ) ∈ Rn×nsendo matrizes que contêm o k-ésimo coeficiente da respectiva

resposta ao impulso para cada par entrada-saída (no caso de G) ou ruído-saída (no caso de H). Se H(q,θ) é inversamente estável, então os modelos G(q,θ) e H(q,θ) são usados para se escrever o preditor ótimo (SÖDERSTRÖM; STOICA, 1989):

ˆ

y(t,θ) = H(q,θ)−1G(q,θ)u(t) + [I − H(q,θ)−1]y(t), (146) o qual é utilizado nos conhecidos algoritmos de identificação por minimização do erro de predição.

Existem diferentes formas para parametrizar os modelos G(q,θ) e H(q,θ). Neste sen- tido, as estruturas mais comuns são as do tipo FIR, ARX (AutoRegressive with eXouge- nous inputs), ARMAX (AutoRegressive Moving Average with eXogenous inputs) e OE (Output Error) (LJUNG, 1999; SÖDERSTRÖM; STOICA, 1989). Contudo, para estimar os parâmetros de estruturas do tipo ARMAX e OE por minimização de erro de predi- ção, por exemplo, deve-se resolver um problema de otimização não convexo, que pode resultar em mínimos locais e, possivelmente, em problemas mal condicionados (CHEN; OHLSSON; LJUNG, 2012).

Como alternativa, uma maneira mais simples para estimar G(q,θ) é truncar a expansão de (144) em um número finito, resultando em um modelo do tipo FIR (usualmente de alta ordem). Com isto, ao aplicar a técnica de minimização do erro de predição, obtém-se um problema de regressão linear, que possui solução mais simples. No entanto, ao estimar modelos FIR de alta ordem por esta metodologia tradicional, a covariância das estimati- vas se torna extremamente elevada, inviabilizando este tipo de identificação comparada à metodologia de minimização de erro de predição de modelos ARMAX e/ou OE. Contudo,

nos trabalhos (CHEN; OHLSSON; LJUNG, 2012; PILLONETTO et al., 2014), mostra- se que, ao adicionar regularização no problema de identificação de modelos FIR de alta ordem, é possível aprimorar as propriedades das estimativas, tornando esta metodologia mais apropriada em relação à identificação de modelos ARMAX e/ou OE. Por isto, na sequência do texto, o problema de identificação de sistemas FIR é discutido com maior detalhe.

Em estruturas do tipo FIR, a resposta ao impulso de G(q,θ), descrita em (144), tem suporte finitoe H(q,θ) é definida como H(q) = I. Portanto, a saída do sistema é expressa por y(t,θ) = m X k=0 gk(θ)u(t − k) + w(t), (147)

onde todas as respostas ao impulso foram aqui truncadas até o coeficiente m, sem perda de generalidade. Assim, escreve-se a matriz gk(θ) como:

gk(θ) =      θk11 θ12k . . . θk1n θk 21 θ22k . . . θk2n .. . ... . .. ... θk n1 θkn2 . . . θnnk      , (148)

com cada θkij representando o k-ésimo coeficiente da resposta ao impulso da entrada j para saída i.

Uma maneira mais conveniente de escrever o sistema FIR é na forma de regressão linear, ou seja:

y(t,θ) = ϕ(t)Tθ + w(t), (149)

com θ de dimensão nt = n2m e ϕ(t)T ∈ Rn×n

2m

sendo uma matriz de vetores regressores (aqui é importante não confundir com a matriz de vetores regressores do capítulo ante- rior). Mais especificamente, para deixar mais clara a notação aqui utilizada, a equação acima é expandida, mostrando o formato multivariável do sistema:

     y1(t,θ1) y2(t,θ2) .. . yn(t,θn)      =      ϕT 1(t) 0 . . . 0 0 ϕT 2(t) . . . 0 .. . ... . .. ... 0 0 . . . ϕn(t)T           θ1 θ2 .. . θn      +      w1(t) w2(t) .. . wn(t)      , (150)

onde θi ∈ Rnm e ϕi(t)T ∈ R1×nm são, respectivamente, o vetor de parâmetros e o vetor

regressor relativos à i-ésima saída. Ainda, pode-se detalhar ambos os vetores. O vetor regressor é composto por sinais de entrada atrasados, ou seja:

ϕi(t)T =ϕu1(t)T ϕu2(t)T . . . ϕun(t)T , (151)

ϕuj(t)T =uj(t) uj(t − 1) uj(t − 2) . . . uj(t − m) , (152)

com cada ϕuj(t) sendo relacionado a j-ésima entrada. O vetor de parâmetros, por sua

vez, é discriminado da seguinte forma:

θi =θi1T θTi2 . . . θTin T , (153) θij =θ0ij θ1ij θ2ij . . . θmij T , (154)

sendo, então, que cada θij está relacionado com a i-ésima saída e j-ésima entrada e o

sobrescrito denota o k-ésimo coeficiente da resposta impulsiva, como descrito logo acima. Outro modo interessante de escrever o sistema FIR, que será explorado de forma re- corrente na sequência, visto que simplifica a notação e facilita a aferição de algumas pro- priedades, é a forma vetorial, onde se acumulam todos os instantes de tempo no mesmo vetor. Assim, escreve-se:

Y = φθ + W, (155)

onde agora Y ∈ RN n e W ∈ RN ncontêm todos os vetores de saída e ruído dos instantes de tempo t = 1 até t = N , isto é:

Y =y1(1,θ1), . . . ,y1(N,θ1)|y2(1,θ2), . . . ,y2(N,θ2)| . . . |yn(1,θn), . . . ,yn(N,θn) T , (156) W =w1(1), . . . ,w1(N )|w2(1), . . . ,w2(N )| . . . |wn(1), . . . ,wn(N ) T , (157)

e a matriz de covariância do ruído W é definida como

E[W WT] = σ2w⊗ IN = Σ, (158)

com Σ ∈ RN n×N n, ⊗ denotando o produto de Kronecker e IN denotando a matriz iden-

tidade de dimensão N × N . Da forma que foi organizada, a matriz φ, que contém os vetores regressores, é estruturada como:

φ = diag(φ1, φ2, . . . , φn), (159)

com φ ∈ RN n×n2m e diag(·) simbolizando uma matriz bloco diagonal, onde cada φi é

composto por

φi =ϕi(1) ϕi(2) . . . ϕi(N )

T

, φi ∈ RN ×nm. (160)

4.1.1 O método dos mínimos quadrados ponderado - MQP

Para estimar os parâmetros do modelo FIR multivariável, a abordagem clássica de identificação consiste em minimizar o erro entre a saída observada em um experimento e a saída calculada pelo preditor ótimo (LJUNG, 1999). Uma vez que o sistema de maior interesse nesta dissertação é do tipo FIR e, portanto, pode ser escrito na forma de uma regressão linear, a estimativa de seus parâmetros pode ser calculada, em uma forma gené- rica, por meio do conhecido algoritmo dos mínimos quadrados ponderados (MQP):

ˆ θM QP = arg min θ JM QP(θ) (161) JM QP(θ) = ||Y − ˆY ||2M = ||Y − φθ|| 2 M, (162)

onde ||x||2M denota a norma quadrática xTM x, com M ∈ RN n×N n sendo uma matriz

positiva definida. Então, supondo que φTM φ é inversível, o problema de otimização

apresentado acima é convexo e possui um único mínimo, que pode ser determinado de forma analítica por:

ˆ

θM QP = (φTM φ)−1(φTM Y ). (163)

Na prática, o algoritmo mais utilizado para identificação de modelos FIR é o mínimos quadrados ordinário1, que na verdade é um caso particular do MQP. Quando a matriz de ponderação M é escolhida como a matriz identidade, então o MQP será idêntico ao MQ. Porém, por motivos que serão evidenciados na sequência do texto, aqui será estudada a versão ponderada do famoso algoritmo.

4.1.2 Propriedades da estimativa por MQP

Com o objetivo de avaliar a qualidade das estimativas, são expostas as propriedades das estimativas obtidas pelo método MQP. Para isso, suponha que o sistema real seja, de fato, um sistema FIR (ou que a hipótese realizada ao truncar a resposta ao impulso do sistema é razoável). Considere, então, que os dados de entrada e saída são tais que respeitam a seguinte relação:

y(t,θ0) = ϕ(t)Tθ0 + w(t), (164)

ou seja, existe um vetor de parâmetros ideais θ0, que se deseja estimar. Cabe ressaltar que

esta situação é análoga ao caso em que o controlador ideal pertence a classe C, estudado no capítulo anterior. A relação acima também pode ser expandida na forma vetorial, isto é:

Y = φθ0+ W. (165)

Neste contexto, a primeira propriedade de interesse a ser examinada é a polarização. Dessa forma, para verificar se ocorre polarização na estimativa, é necessário calcular o valor esperado da mesma:

E[ˆθM QP] = E[(φTM φ)−1(φTM Y )] (166)

= E[(φTM φ)−1(φTM φ)θ0] + E[(φTM φ)−1(φTM W )]. (167)

Analisando a equação (167), nota-se que o primeiro termo é igual a θ0. Além disso, pode-

se afirmar que o segundo termo é zero, uma vez que as matrizes φ e M são compostas somente por quantidades determinísticas e E[W ] = 0. Conclui-se, portanto, que:

E[ˆθM QP] = θ0, (168)

provando que a estimativa é não polarizada.

Outra propriedade fundamental das estimativas é sua covariância. Para o estimador de MQP, tem-se a seguinte relação (LJUNG, 1999):

CovM QP(M ) = E[(ˆθM QP − θ0)(ˆθM QP − θ0)T] (169)

= E[(φTM φ)−1(φTM W )][(φTM φ)−1(φTM W )]T (170) = (φTM φ)−1φTM ΣM φ(φTM φ)−1. (171) Uma observação interessante, realizada em (LJUNG, 1999), a respeito da covariância descrita acima é que se for feita a seguinte escolha: M = Σ−1 (desde que essa grandeza seja conhecida), então é possível minimizar a matriz descrita acima no seguinte sentido CovM QP(M ) ≥ CovM QP(Σ−1), ∀M > 0.

Finalmente, apresenta-se um conceito muito importante na análise de qualidade das estimativas, a matriz de Mean Square Error.

Definição 4.1. A matriz de Mean Square Error da estimativa é definida por:

M SE = E[(ˆθ − θ0)(ˆθ − θ0)T] = BiasBiasT + Cov, (172)

comBias denotando o vetor de polarização da estimativa e Cov sua matriz de covariân- cia.

A matriz de MSE, apresentada acima, é a principal medida de qualidade de uma es- timativa, visto que engloba o erro de polarização e o erro de covariância. Para o caso de identificação do modelo FIR por meio dos MQP, como não há polarização, conclui-se que

M SEM QP(M ) = CovM QP(M ). (173)

Um fato relevante, que deve ser destacado aqui, é que todas estas propriedades são válidas mesmo para uma quantidade finita de dados N , em contraste com as propriedades estudadas no capítulo anterior, onde foi considerado o caso assintótico, i.e. N → ∞. Isto ocorre pois, no caso de sistemas do tipo FIR, o vetor regressor possui somente valores da entrada e da entrada atrasada, que são grandezas determinísticas. Com isto, o próprio vetor regressor é classificado como uma grandeza determinística, tornando a análise das propriedades mais simples em relação a estruturas de modelos mais complexas.

Conforme discutido em (CHEN; OHLSSON; LJUNG, 2012), uma dificuldade que surge ao identificar sistemas FIR de alta ordem é que a covariância das estimativas au- menta de forma significativa com a ordem do modelo. Consequentemente, isto aumenta a MSE e prejudica a qualidade das estimativas. Portanto, para contrapor esta elevada covariância, os autores propõem o uso de regularização, ferramenta que adiciona uma pequenapolarização nas estimativas, mas reduz consideravelmente sua covariância. Isto posto, a próxima seção do texto demonstra a introdução de regularização no problema, assim como seus efeitos nas estimativas.