Este trabalho irá utilizar como teste modelos Não-lineares Autoregressivos com Média Móvel e com entradas Exógenas (NARMAX) (Leontaritis e Billings, 1985b). No entanto, acredita-se que os conceitos são aplicáveis a uma classe de representações de modelo muito mais ampla. Para mostrar essa caracterís- tica de maneira clara, o problema vai ser apresentado em uma forma mais geral, e de certa forma mais abstrata, como se segue.
Assuma que dados Z de um sistema S estão disponíveis. O problema de construção de um modelo caixa-preta consiste na construção de um modelo matemático M a partir dos dados Z eM deve aproximar o sistema S em al- gum sentido.
4.2.1 Identificação de sistemas como um problema de otimiza-
ção
O problema de construção de um modeloMque aproxime o sistemaS pode ser expresso como um problema de otimização. Por uma questão de argumento, as- suma que há uma função custo J(S,M) que deve ser minimizada em relação às características do modeloMcomo a estrutura e parâmetros do modelo. Por- tanto, o modelo que minimiza a referida função custo seria equivalente, no sen- tido definido por J, ao sistema, isto é,M ≡J S. A pergunta é: será queM ≡J S
garante queM ≡ S? Outra maneira de pensar o problema é perguntar: quais os tipos de função custo J(M,S) podem ser utilizadas de forma queM ≡J S implique M ≡ S na maioria das vezes? Normalmente S só é conhecida por meio dos dados disponíveisZ. Portanto, é natural redefinir a função custo como J(M,Z), como discutido a seguir.
Em princípio, faz sentido lidar comMeS na mesma função custo, uma vez que tais entidades são do mesmo tipo, ou seja, ambas são sistemas dinâmicos (embora S seja “abstrata” e M matemática). Tendo substituído S pelos dados
Z na função custo (um sistema dinâmico foi substituído por um conjunto de dados), também vai exigir a substituição de M por algum modelo dos dados ZM a fim de comparar entidades da mesma natureza. Isto é feito por meio de uma função custo.
Para ser mais específico, suponha que um subconjunto Z ∈ RN×r de dados
é tomado deZ, Z ⊂ Z. Z é assumido como sendo composto por pelo menos uma série temporal y(k), k =1, . . . , N, chamada saída, e, possivelmente, outras séries temporais exógenas u1(k), . . . , ur−1(k), k = 1, . . . , N, chamadas entradas. Se apenas uma série temporal está disponível, ela é interpretada como a saída y(k) e em tal caso Z = [y(1). . . y(N)]T. Se r = 2, então só existe uma entrada
exógena e este caso é conhecido como o caso SISO (single-input, single-output). Uma função custo prática para modelagem caixa-preta seria então J(Z, ZM),
em que Z = zT 1 zT 2 ... zT N = [ y u1 . . . ur−1] = = y(1) u1(1) . . . ur−1(1) y(2) u1(2) . . . ur−1(2) ... ... . . . ... y(N) u1(N) . . . ur−1(N) , (4.1)
ZM = ˆzT 1 ˆzT 2 ... ˆzT N = [ˆy u1 . . . ur−1] = = ˆy(1) u1(1) . . . ur−1(1) ˆy(2) u1(2) . . . ur−1(2) ... ... . . . ... ˆy(N) u1(N) . . . ur−1(N) , (4.2)
sendo que ˆy(k) = f(zk−1) é o modelo predito. Assim, finalmente, muitas téc- nicas de identificação de modelos resolvem o seguinte problema de otimização irrestrito
ˆθ=min
θ J(Z, ZM) (4.3)
onde J(Z, ZM) é escolhido como o produto internohξ, ξi, sendo ξ = y− ˆy, θ é o vetor de parâmetros deM.
4.2.2 Validação do Modelo
No contexto de identificação de sistemas, normalmente é assumido que há um con- junto separado de dados Zv, similar a Z, disponível para validação do modelo.
Para muitos modelos, os parâmetros são estimados resolvendo o problema apresentado em (4.3), para ZM obtido pela predição um passo à frente, neste caso ZM1 será usado. Um fato bem reconhecido é que as características dinâmi- cas do modelo M são difíceis de obter analisando ZM1 (Aguirre et al., 2006; Piroddi e Spinelli, 2003). Uma consequência disto é que resolvendo (4.3) pos- sivelmente não garanteM ≡ S, embora seja esperado que se chegue perto da desejável equivalência.
Como salientado na Seção 4.2.1, a idéia base é que mesmo se o modelo apro- ximar o sistema em termos de escolha de um determinado J, ou seja M ≡J S, isso não implica queM ≡ S. No entanto, existem informações importantes na predição um passo à frente (resíduos) que podem ser usadas na identificação de sistemas (Zhu et al., 2007).
que pode ser garantido é simplesmente que um conjunto de dados produzidos pelo modelo é consistente – em termos de J – para dados medidos do sistema, isto é, ZM ≡J Z, onde ZM deveria ser o mais representativo da dinâmica do
sistema possível. Normalmente, apenas alguns (por vezes apenas um) conjuntos de dados do sistema estão disponíveis para a validação do modelo (Zv) e tudo que pode ser verificado é se ZM ≡J Zv. Caso Z, Zv ou ZM não representem
a dinâmica de S ouM de forma adequada, muito pouco pode ser dito sobre a qualidade do modelo. Este problema não trivial é o cerne da validação de modelos.
Com a discussão acima em mente, no intuito de aumentar a robustez, sob um ponto de vista dinâmico, seria conveniente que, durante a etapa de otimiza- ção, a função custo J(Z, ZM) utilizasse um conjunto de dados do modelo ZM dinamicamente mais representativo do modelo do que as predições um passo à frente. Esta parece ser a motivação do uso de dados de simulação livre em alguns trabalhos recentes (Piroddi e Spinelli, 2003; Connally et al., 2007; Piroddi, 2008b).
O uso de dados de simulação livre como ZMno problema de otimização (4.3) se torna computacionalmente muito exigente e provavelmente não seria facil- mente aplicável a sistemas com expoentes de Lyapunov positivos nem modelos de séries temporais para os quais a parte determinística da saída irá normal- mente estabelecer-se em um ponto fixo na ausência de uma entrada.
4.2.3 O Problema
Assume-se que um determinado conjunto de dados Z de um sistema dinâmicoS está disponível. É também assumido que uma determinada estrutura de modelo
M, parametrizada por um vetor de parâmetros desconhecido θ∈ Rn, tenha sido
previamente definida.
Neste trabalho, o objetivo é investigar o problema de otimização (4.3) no contexto de identificação de sistemas não-lineares . Para esse fim, dois diferentes tipos de conjuntos de dados de modelos ZM serão considerados: predição um passo à frente, ZM1, e dados de simulação livre, ZMs.
Uma forma de avaliar o papel desempenhado por ZM1 e ZMs é definindo o seguinte problema de otimização bi-objetivo (que é um caso especial de proble- mas multi-objetivo (MOP))
ˆθ= arg min θ J(θ) sujeito a: θ∈ Rn, (4.4)
com J = [J1 Js ], sendoJ1 = MSE(Z, ZM1), Js = MSE(Z, ZMs) e MSE é o erro
médio quadrático. Se as funções-objetivo são conflitantes, ao invés de se chegar a uma solução, um conjunto de soluções, soluções Pareto ótimas, é obtido:
Θ={ˆθ∈ Rn : 6∃θ∈ Rn|J(θ)≤J(ˆθ), J(θ) 6=J(ˆθ)}. (4.5) Nessa formulação do problema, um extremo do conjunto Pareto é representado pela solução MQ – que minimiza J1 =MSE(Z, ZM1)– e o outro extremo é repre-
sentado pela solução obtida usando dados de simulação livre, ou seja, a solução que minimiza Js =MSE(Z, ZMS).
Portanto, o objetivo é entender os papéis de ZM1 e ZMs em problemas de estimação de parâmetros baseados ou em conjuntos Pareto ou em solução mono- objetivo, ambos obtidos por meio da computação evolucionária.
4.2.4 Metodologia
Os resultados a serem apresentados neste capítulo são obtidos por meio de al- goritmos evolucionários. Esta abordagem encontra resultados que são basica- mente independentes do conhecido estimador MQ. Este é um ponto importante que deve ser notado. Como algumas das estruturas de modelo que serão uti- lizadas são lineares-nos-parâmetros (polinômios NARX) ou pseudo-linear nos parâmetros (polinômios NARMAX ), é natural que o estimador clássico de MQ passa a ser utilizado na primeira, e o estimador de mínimos quadrados esten- dido (MQE) (Billings e Voon, 1984) passa a ser utilizado na segunda. Isto é o que se espera que acontecerá na prática de identificação de sistemas utilizando tais representações de modelo. No entanto, a fim de obter resultados que deverão ser de âmbito mais geral decidiu-se usar algoritmos evolucionários.
Além disso, o uso de AE é justificado pelo tratamento geral visado, porque eles podem ser usados para estimar parâmetros de modelos cujas estruturas não são lineares-nos-parâmetros. Além disso, embora haja inúmeras abordagens disponíveis na literatura para resolver problemas multi-objetivo, os AE parecem ser uma escolha apropriada como descrito no capítulo anterior.
Uma grande variedade de implementações de algoritmos evolucionários tem sido proposta para resolver MOPs. Neste trabalho, o algoritmo Nondominated Sorting Genetic Algorithm melhorado (NSGA-II, Alg. 8) (Deb et al., 2002) será usado para resolver o problema (4.4). Este algoritmo tem apresentado resultados satisfatórios em diversos problemas na literatura (Coello-Coello, 2006).
Para criar uma população inicial aleatória, algumas amostras são aleatoria- mente selecionadas do conjunto de dados disponível Z e o algoritmo de MQ é aplicado para encontrar os parâmetros de uma estrutura definida em um número de vezes igual ao tamanho da população.
O procedimento de seleção é implementado por meio do torneio estocás- tico. Considerando que o algoritmo foi implementado baseando-se nos AGs com código real, foi implementado o operador de cruzamento real polarizado (Takahashi et al., 2003). O operador de mutação adiciona um número aleatório com uma distribuição gaussiana de média zero e desvio padrão igual a σ às variáveis do indivíduo.
Para resolver problemas mono-objetivo, os AGs são implementados usando o procedimento de seleção estocástico universal, o cruzamento heurístico e mu- tação gaussiana.
Com o propósito de evitar modelos instáveis em simulação livre, o método de barreira foi empregado na avaliação da função custo, de forma que, ao se constatar a instabilidade de um modelo especificado por um determinado indi- víduo, este recebe uma avaliação muito ruim, fazendo com que a probabilidade de escolha desse indivíduo para a próxima geração seja muito baixa.