• Nenhum resultado encontrado

Propostas para modelagem computacional on-line de dados de séries temporais e de sistemas altamente não lineares

N/A
N/A
Protected

Academic year: 2021

Share "Propostas para modelagem computacional on-line de dados de séries temporais e de sistemas altamente não lineares"

Copied!
156
0
0

Texto

(1)

Faculdade de Engenharia Elétrica e de Computação

Elvis Omar Jara Alegria

Propostas para Modelagem Computacional

On-Line de Dados de Séries Temporais e de

Sistemas Altamente Não Lineares

Campinas

2019

(2)

Propostas para Modelagem Computacional On-Line de

Dados de Séries Temporais e de Sistemas Altamente Não

Lineares

Tese apresentada à Faculdade de Engenharia Elétrica e de Computação da Universidade Es-tadual de Campinas como parte dos requisitos exigidos para a obtenção do título de Doutor em Engenharia Elétrica, na Área de Automa-ção.

Orientador: Prof. Dr. Celso Pascoli Bottura

Este exemplar corresponde à versão final da tese defendida pelo aluno Elvis Omar Jara Alegria, e orientada pelo Prof. Dr. Celso Pascoli Bottura

Campinas

2019

(3)

Biblioteca da Área de Engenharia e Arquitetura Rose Meire da Silva - CRB 8/5974

Alegria, Elvis Omar Jara,

Al25p AlePropostas para modelagem computacional on-line de dados de séries temporais e de sistemas altamente não lineares / Elvis Omar Jara Alegria. – Campinas, SP : [s.n.], 2019.

AleOrientador: Celso Pascoli Bottura.

AleTese (doutorado) – Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação.

Ale1. Modelagem de dados. 2. Modelos não-lineares (Estatística). 3. Sistemas não-lineares. 4. Séries temporais. 5. Análise de regressão. I. Bottura, Celso Pascoli, 1938-. II. Universidade Estadual de Campinas. Faculdade de Engenharia Elétrica e de Computação. III. Título.

Informações para Biblioteca Digital

Título em outro idioma: Proposals for on-line computational modeling of highly nonlinear

time series and systems data

Palavras-chave em inglês:

Data modeling Non-linear models Time series

Regression analysis

Área de concentração: Automação Titulação: Doutor em Engenharia Elétrica Banca examinadora:

Celso Pascoli Bottura [Orientador] Luis Antonio Aguirre

Ginalber Luiz de Oliveira Serra Romis Ribeiro de Faissol Attux Mateus Giesbrecht

Data de defesa: 10-06-2019

Programa de Pós-Graduação: Engenharia Elétrica

Identificação e informações acadêmicas do(a) aluno(a)

- ORCID do autor: https://orcid.org/0000-0002-5620-7583 - Currículo Lattes do autor: http://lattes.cnpq.br/9930389879549885

(4)

Candidato: Elvis Omar Jara Alegria RA: 142357 Data da defesa: 10 de Junho de 2019

Título da tese: "Propostas para Modelagem Computacional On-Line de Dados de Séries

Temporais e de Sistemas Altamente Não Lineares".

Prof. Dr. Celso Pascoli Bottura (Presidente) Prof. Dr. Luis Antonio Aguirre

Prof. Dr. Ginalber Luiz de Oliveira Serra Prof. Dr. Romis Ribeiro de Faissol Attux Prof. Dr. Mateus Giesbrecht

A ata de defesa, com as respectivas assinaturas dos membros da Comissão Julgadora, encontra-se no SIGA (Sistema de Fluxo de Teencontra-se) e na encontra-secretaria de Pós-Graduação da Faculdade de Engenharia Elétrica e de Computação.

(5)

À minha mãe Marina, Ao meu irmão Mario, À minha irmã Lisset, À minha cidade Andahuaylas.

(6)

Esta pesquisa foi desenvolvida no Laboratório de Controle e Sistemas Inteligentes (LCSI) na Faculdade de Engenharia Elétrica e de Computação (FEEC) da UNICAMP. Varias pessoas e instituições contribuíram, direta ou indiretamente, para o desenvolvimento desta tese.

Gostaria de agradecer primeiramente ao meu orientador Celso Pascoli Bottura, pela importante guia e conselhos durante os períodos de mestrado e de doutorado. A sua ampla experiência, como impulsionador apaixonado pelo desenvolvimento da área de controle e automação no Brasil, tem me inspirado grandemente para o meu futuro acadêmico. Agradeço também a Carminha, esposa do Celso, pelos conselhos, cuidados e paciência, especialmente na época de intenso trabalho para finalizar esta tese.

Agradeço também aos professores Gilmar Barreto e Mateus Giesbrecht pelas discipli-nas fundamentais sobre modelamento de dados e também pela amizade.

Agradeço especialmente também ao professor Peter Young, da Lancaster University,

UK, pelas importantes sugestões sobre as nossas propostas de modelagem não linear de

dados, e pela cordial ajuda para ser aceito como visiting researcher no Lancaster Environment

Centre, sob a orientação do professor Wlodek Tych, a quem também agradeço muito pela

amizade, pela ajuda e pelo trabalho conjunto. Também agradeço muito aos meus colegas da

Lancaster University: David Mindham, Iain Goddard, James West, Dennis Toul e Ana Karla

Lobo, pelas sugestões e agradável amizade.

Agradeço também ao professor Joaquim Blesa, do Institut de Robòtica i Informàtica

Industrial da Universitat Politècnica de Catalunya, que juntamente com os professores Vicenç

Puig e Sebastian Tornil, me receberam como pesquisador visitante e contribuíram sugerindo uma aplicação de modelagem de dados, para um sistema hidráulico de 4 tanques, na forma MIMO.

Agradeço aos meus colegas e amigos do laboratório LCSI, pelos vários anos de agradá-vel convivência laboral acadêmica: Clarissa Lima Loureiro, Angie Forero, Marleny Charagua Javier, Rute Freitas, Yara Quilles Marinho, Letícia Sathler, Paulo Bataglin, Hugo Tanzarella Teixeira, Jean Pierre Lopez, Jorge Andres Puerto Acosta, Rafael Nunes, Guilherme Martins, Flávio Rossini, Felipe Fonseca, Alexander Robles, Iuri Monteiro e João Gonçalves.

Agradeço também aos meus professores da graduação, da Universidad Nacional de

(7)

desenvolvimento profissional na etapa da graduação.

Agradeço especialmente também a equipe de trabalho do projeto Nanosatélite de

investigación Chasqui-I do Centro de Tecnologías de Información y Comunicaciones CTIC-UNI, de Lima, Peru, com os quais compartilhei vários anos de intenso trabalho de pesquisa

interdisciplinar e de amizade.

Agradeço especialmente também à minha família, amigos em geral, professores, que ajudaram meu desenvolvimento pessoal e profissional.

Agradeço finalmente à Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES) - Código de Financiamento 001, pela bolsa de estudo durante o período de doutorado e ao Consejo Nacional de Ciencia, Tecnología e Innovación Tecnológica

(8)

é apenas uma ilusão teimosamente persistente". Albert Einstein.

(9)

Esta tese apresenta duas propostas para modelagem computacional de dados de séries tem-porais e de sistemas altamente não lineares. Cada proposta aproxima os dados a um modelo de regressão não linear, mas linear nos parâmetros, onde os parâmetros são funções desco-nhecidas que dependem de variáveis codesco-nhecidas, que chamamos regressores causais. Assim, propomos chamar estes modelos como AutoRegressivos com Parâmetros Dependentes de Re-gressores Causais (ARX-RDP). A principal dificuldade para estimar modelos ARX-RDP é que seus parâmetros podem variar muito rapidamente. A nossa primeira proposta de mo-delagem, divide o problema de estimação de parâmetros com dinâmicas muito variáveis, em subproblemas de estimação de parâmetros com dinâmicas suavizadas localmente. Deste modo, múltiplos sub-modelos locais com parâmetros suavizados, são estimados utilizando um filtro de mínimos quadrados recursivo convencional. Esta técnica está inspirada nos métodos clássicos de linearização por partes e no método de reordenamento de dados para suavizar parâmetros rápidos, de Peter Young. A segunda proposta é um método de estimação de pa-râmetros completamente On-Line, obtido como resultado de uma análise da modelagem de cada parâmetro, no domínio do seu regressor causal associado, ao invés de no domínio do tempo, como usual. Deste modo, um estimador recursivo, conformado pelo preditor causal proposto e por um corretor de mínimos quadrados convencional, é obtido. Até onde conhece-mos, todos os métodos On-Line alternativos para estimar modelos ARX-RDP, na literatura, precisam de uma etapa de estimação Off-Line prévia. Por isto denominamos esta proposta como estimador completamente On-Line. Múltiplos exemplos são apresentados para abor-dar diversos casos de modelagem de dados: Modelamento caixa-preta, modelagem MIMO, estimação de parâmetros multi-dependentes. Finalmente tratamos o controle adaptativo tipo

Proporcional-Integral-Plus de sistemas descritos por modelos ARX-RDP e apresentamos um

exemplo de aplicação.

Palavras-chaves: Identificação não linear; regressão não linear; preditor causal; séries

(10)

This thesis presents two proposals for computational modeling of highly nonlinear time series and systems data. Each proposal approximates the data to a nonlinear regression model, but linear in the parameters, where the parameters are unknown functions that depend on known variables, that we call causal regressors. We call these models as AutoRegressive with Causal Regressors Dependent Parameters (RDP). The main difficulty for estimating ARX-RDP models is that their parameters may vary very quickly. Our first proposal of modeling, divides the problem of fast variable parameters dynamics estimation, into parameter esti-mation subproblems with locally smoothed dynamics. Thus, multiple local sub-models with smoothed parameters variations are estimated using conventional recursive least squares fil-ters. This technique is inspired by classical methods of piecewise linearization and by the Peter Young’s method of data reordering of fast parameters smoothing. The second proposal is a completely On-Line parameter estimation method, obtained as a result of a data mod-eling procedure for each parameter, in the domain of its associated causal regressor, rather than in the time domain, as usual. Thus, a recursive parameter estimator, conformed by the proposed causal predictor and by a conventional least squares corrector, is obtained. As far as we know, all alternative existing On-Line methods for estimating ARX-RDP models in the literature require a previous Off-Line estimation step. This is why we call this proposal an on-line parameter estimator. Multiple examples are presented to address several cases of data modeling: black box systems, MIMO modeling, multi-dependent parameters modeling. Finally, the adaptive Proporcional-Integral-Plus control of ARX-RDP systems is treated and an application example is presented.

Keywords: Nonlinear identification; nonlinear regression; causal predictor; nonlinear time

(11)

Figura 1 – Sistema estático (a) e sistema dinâmico (b). . . 34 Figura 2 – Dados experimentais (pontos pretos) e de dois modelos de regressão linear

que podem ajustar esses dados (linhas verde e azul). . . 39 Figura 3 – Erros residuais quadráticos representados pela área dos quadrados azuis e

parâmetros do modelo de regressão simples 𝑎0 e 𝑎1. . . 41

Figura 4 – Diferença finita no caso bidimensional no 𝑘-ésimo instante. . . . 47 Figura 5 – Notação matemática de dependência causal, e de simples correspondência,

e respectivas representações gráficas. . . 53 Figura 6 – Representação causal das conexões entre as variáveis do modelo AR linear. 54 Figura 7 – Representação causal das conexões entre as variáveis do modelo ARX linear. 54 Figura 8 – Notação das dependências causais no modelo NARX ou ARX-RDP. . . . 55 Figura 9 – Diagrama do modelo ARX-RDP: g é um vetor de mapeamentos não

line-ares g = [𝑔1(.), 𝑔2(.), . . . , 𝑔𝑛(.)] entre os regressores causais 𝜑 e os parâme-tros do modelo 𝜃. . . . 58 Figura 10 – Ajuste da perda de margem suave para um SVR linear. . . 61 Figura 11 – Sinal gaussiano 𝑥𝑘, sort(𝑥𝑘), linha cinza, e reordenamento ascendente de

𝑥𝑘, linha preta. . . 67

Figura 12 – Passo 1 (da esquerda ao meio): Suavização de 𝜑1 e reordenamento de 𝜑2

de acordo com 𝒥 (𝜑1). Passo 2 (do meio à direita): i-ésimo processo de

janelamento de 𝜑2. . . . 79

Figura 13 – Exemplos de interseção de duas janelas quando 𝜑2 e 𝜑3 têm distribuições uniforme (a) e Gaussiana (b). Cada área cinza 𝑠𝑖 contém os dados de um modelo suavizado localmente. . . 80 Figura 14 – Resultados de uma iteração da estimação local de dois parâmetros usando

o filtro RLS. . . 81 Figura 15 – Processo iterativo da estimação paramétrica usando o filtro RLS. . . 82 Figura 16 – Sobreposição de janelas quando 𝜆 > 1 (esquerda) e espaços vazios entre

interseção de janelas quando 𝜆 < 1 (direita). . . . 83 Figura 17 – Parâmetros estimados (marcas azuis), parâmetros de referência (pontos

cinzas) e parametrização contínua dos resultados (linha preta tracejada). 85 Figura 18 – Resultados de teste: valores reais dos parâmetros (linha cinza), estimação

dos parâmetros usando o algoritmo proposto (linha tracejada) e usando o filtro RLS convencional (linha pontilhada). . . 86

(12)

usando o algoritmo proposto (linha tracejada) e usando o filtro RLS con-vencional (linha pontilhada). . . 86 Figura 20 – Resultados da estimação do primeiro MRDP ^𝑎(𝜑1, 𝜑2) para dois pontos de

vista diferentes (a,b). Superfície de referência (superfície cinza) e superfí-cie estimada (superfísuperfí-cie colorida). A superfísuperfí-cie de referência foi deslocada intencionalmente para facilitar a comparação dos resultados. . . 88 Figura 21 – Resultados da estimação do segundo parâmetro (linha preta) e referência

(linha cinza tracejada). . . 88 Figura 22 – Parâmetro predito usando um modelo RW no domínio do regressor 𝜑 (a), e

parâmetro predito no domínio do tempo 𝑡 (b). As predições são diferentes para os mesmos dados. . . 92 Figura 23 – Comparação da predição causal do parâmetro ^𝜃𝑘|𝑘−1mediante random walk

e integrated random walk. Cada ponto representa uma estimativa passada e a linha cinza tracejada representa a função de dependência real entre 𝜃𝑘

e 𝜑𝑘. . . 93

Figura 24 – Predição causal do parâmetro ^𝜃𝑘|𝑘−1 quando o modelo integrated random

walk é pior do que o modelo random walk. Cada ponto representa uma

estimativa passada e a linha cinza tracejada representa a função de depen-dência real entre 𝜃𝑘 e 𝜑𝑘. . . 93

Figura 25 – Análise geométrica do erro de predição causal para o caso de parâmetro IRW. . . 94 Figura 26 – Exemplo da distorção das estimativas quando os parâmetros são

modela-dos usando IRW. Para 𝜔 = 0, 95 (a) e para 𝜔 = 0, 5 (b). . . . 96 Figura 27 – Estrutura da rede neural convencional, com três neurônios, equivalente à

estrutura do modelo ARX-MRDP (6.1) . . . 106 Figura 28 – Neurônio artificial ARX-RDP. . . 107 Figura 29 – Exemplo de controlador PIP para um modelo ARX-RDP específico. . . . 111 Figura 30 – Controle adaptativo PIP para sistema ARX, quando o bloco 𝐿𝑘(𝑞−1) é

realimentado pela saída do sistema real (a) e pela saída do modelo estimado (b). . . 115 Figura 31 – Convergência recursiva das funções de mapeamento 𝜃𝑘3(𝜑3𝑘), para (1 < 𝑘 <

400). As marcas de cruz indicam as estimações dos parâmetros e as linhas tracejadas são os parâmetros de referências reais. . . 117

(13)

trização SVR usando as amostras correspondentes a 1000 < 𝑘 < 2000 (linhas pretas), parâmetros de referência (linhas cinzas tracejadas) e as suas margens de confiança (linhas cinzas) . . . 118 Figura 33 – Primeiras estimações para 50 < 𝑘 < 100 (marcas de cruzes). Suavização

(marcas quadradas) e parametrização SVR para 50 < 𝑘 < 100 (linha tracejada). . . 119 Figura 34 – Variação dos parâmetros estimados e suavizados 𝜃𝑖

𝑘, 𝑖 = 1, 2, 3, em função

do tempo, para 𝑘 < 100 (linha preta tracejada), estimação utilizando o algoritmo convencional RLS com preditor no domínio do tempo (linha ponto-tracejada) e parâmetros de referência (linha cinza tracejada) . . . 120 Figura 35 – Parâmetro estimado usando o filtro causal . . . 121 Figura 36 – Parâmetro estimado ^𝜃3(𝜑3), em função do regressor causal 𝜑3, usando o

método de suavização por partes e o método do preditor causal . . . 121 Figura 37 – Estimação do primeiro parâmetro para 1000 < 𝑘 < 2000 (marcas

circula-res) e superfície de referência real. . . 123 Figura 38 – Superfície estimada e parametrizada por (inferior) e superfície de referência

real intencionalmente deslocada por 2 unidades (superior). . . 123 Figura 39 – Processo de quatro tanques interconectados . . . 124 Figura 40 – Primeiros 400 dados amostrados dos regressores causais ℎ1, ℎ2, ℎ3, ℎ4, 𝑣1 e

𝑣2. . . . 126

Figura 41 – Resultados da estimação, com 500 dados, das dependências entre os regres-sores causais e os parâmetros (marcas quadradas cinzas), parametrização (linha tracejada) e parâmetros de referência real (pontos pretos). . . 128 Figura 42 – Parâmetros estimados no processo de validação (linha preta tracejada),

utilizando o modelo ARX-RDP estimado com 500 dados, e parâmetros de referência reais (linha cinza). . . 129 Figura 43 – Saída estimada no processo de validação (linha preta tracejada), utilizando

o modelo ARX-RDP estimado com 500 dados, e saída de referência real (linha cinza). . . 129 Figura 44 – Resultados da estimação, com 4000 dados, das dependências entre os

re-gressores causais e os parâmetros (marcas quadradas cinzas), parametri-zação das dependências (linha tracejada) e referência da dependência real (pontos pretos). . . 130 Figura 45 – Parâmetros estimados no processo de validação (linha preta tracejada),

utilizando o modelo ARX-RDP estimado com 4000 dados, e referência real (linha cinza). . . 131

(14)

o modelo ARX-RDP estimado com 4000 dados, e saída de referência real (linha cinza). . . 132 Figura 47 – Gráficos dos parâmetros estimados do modelo MIMO (marcas cinzas) e

dos parâmetros de referência reais (pontos pretos). A localização de cada gráfico está de acordo com a matriz de parâmetros desconhecidos em (7.25).136 Figura 48 – Primeiros 500 dados amostrados. . . 139 Figura 49 – Estimações das dependências entre os parâmetros do modelo e os

regres-sores causais 𝑥4, 𝑥2 e 𝑥5. . . . 142

Figura 50 – Saída estimada (acima) e erro de estimação (em baixo). . . 143 Figura 51 – Parâmetros estimados e parametrizados com funções Kernel Gaussianos

(linha cinza tracejada), parâmetros estimados e refinados (linha preta con-tinua), e parâmetros de referência reais (marcas circulares cinzas). . . 144 Figura 52 – Desempenho em malha fechada do sistema de controle adaptativo PIP

para um sinal de referência onda quadrada. . . 146 Figura 53 – Desempenho em malha fechada do sistema de controle adaptativo PIP

(15)

Tabela 1 – Características do método de Young e da nossa proposta . . . 76

Tabela 2 – Erros de estimação . . . 85

Tabela 3 – Tipos de estruturas ARX-RDP . . . 108

Tabela 4 – MSE para diferentes valores de 𝜆 . . . . 120

Tabela 5 – MSE para valores não uniformes de 𝜆𝑖, 𝑖 = 1, 2, 3, e para validação utili-zando regressores causais com covariâncias reduzidas. . . 120

Tabela 6 – Erros de estimação dos parâmetros 𝜃1 e 𝜃2 . . . . 122

Tabela 7 – Valores dos hiper parâmetros reais do sistema . . . 125

Tabela 8 – Erros MRE e MAE de estimação e de validação quando 𝑁 = 500 . . . . 130

Tabela 9 – Erros MRE e MAE de estimação e de validação quando 𝑁 = 4000 . . . . 130

Tabela 10 – Resultados dos erros de estimação das constantes ^𝑘𝑖, que definem a forma da dependência dos parâmetros, usando os métodos de preditor causal e de backfitting . . . . 132

Tabela 11 – Custos computacionais usando o Toolbox INCA e o Toolbox CAPTAIN . 133 Tabela 12 – Erros de estimação das constantes 𝑘𝑖𝑗 que definem as formas das depen-dências do modelo ARX-RDP MIMO . . . 135

Tabela 13 – Erros da saída estimada e dos parâmetros estimados . . . 135

Tabela 14 – Sinais medidos . . . 137

Tabela 15 – Coeficientes de correlação linear entre os sinais medidos e a concentração de benzeno . . . 138

Tabela 16 – Estruturas ARX-RDP candidatas . . . 140

(16)

𝐴𝑅𝑀 𝐴 Auto-Regressive with moving average 𝐴𝑅𝑋 Auto-Regressive with eXogenous inputs

𝐴𝑅𝑋 − 𝑅𝐷𝑃 ARX com parâmetros que dependem de regressores causais 𝐴𝑅𝑋 − 𝑆𝐷𝑃 Modelo ARX com parâmetros que dependem de estados 𝐺𝑅𝑊 General Random Walk

𝐼𝑅𝑊 Integrated Random Walk 𝐿𝑃 𝑉 Linear Parameter Varying 𝐿𝑆 Least Squares

𝑀 𝐼𝑀 𝑂 Multiple Input - Multiple Output 𝑀 𝐼𝑆𝑂 Multiple Input - Single Output 𝑁 𝐴𝑅𝑋 Nonlinear ARX model

𝑅𝐷𝑃 causal regressors dependent parameters 𝑅𝐿𝑆 Recursive Least Squares

𝑅𝑊 Random Walk

𝑆𝐷𝑀 State Dependent Model 𝑆𝐷𝑃 State Dependent Parameter 𝑆𝑖𝐷𝑃 Signal dependent parameter 𝑆𝐼𝑆𝑂 Single Input - Single Output 𝑆𝑅𝑊 Smoothed Random Walk

𝑆𝑇 𝐸𝑀 Science, Technology, Engineering, Mathematics. 𝑆𝑉 vetor suporte

𝑆𝑉 𝑅 Support Vector Regression 𝑇 𝑉 𝑃 Time variable parameter

(17)

1 Introdução . . . . 21

1.1 Organização da tese . . . 29

1.2 Trabalhos publicados como primeiro autor . . . 30

I

Fundamentos

32

2 Conceitos prévios . . . . 33

2.1 Algumas definições sobre sistemas e séries temporais . . . 33

2.1.1 Sistema . . . 33

2.1.1.1 Sistema estático . . . 33

2.1.1.2 Sistema dinâmico . . . 33

2.1.1.3 Sistema causal ou não antecipativo . . . 34

2.1.1.4 Sistemas linear e não linear . . . 34

2.1.1.5 Sistema variante no tempo . . . 34

2.1.1.6 Caracterização dos Sistemas pelas quantidades de entradas e saídas . . . 35

2.1.1.7 Sistemas estocástico e determinístico . . . 35

2.1.1.8 Sinais de entrada em sistemas . . . 35

2.1.1.9 Coeficiente de autocorrelação com atraso e Ruído branco . . 35

2.1.1.10 Tipos de modelos regressivos segundo a estrutura . . . 36

2.1.2 Série temporal . . . 36

2.1.3 Conceito de estado . . . 37

2.1.4 Modelos para relações de causa e efeito em sistemas dinâmicos . . . . 37

2.2 Regressão Linear . . . 38

2.3 O método dos mínimos quadrados . . . 41

2.4 Algoritmo de mínimos quadrados linear recursivo . . . 43

2.5 Discretização e linearização de funções multidimensionais mediante série de Taylor e diferenças finitas . . . 45

2.6 Modelo ARX linear não estacionário . . . 47

2.7 Modelo de regressão com passeio aleatório genérico (GRW) para estimação de TVPs . . . 48 2.7.1 Estimação dos parâmetros do modelo ARX mediante o algoritmo RLS 49 2.8 Sobre a teoria de causalidade e o enfoque causal de modelos auto-regressivos 50

(18)

RDP) . . . 56

2.9.1 O modelo ARX Não Linear . . . 56

2.10 Parametrização de funções de mapeamento . . . 58

2.10.1 Parametrização mediante soma de funções base . . . 59

2.10.2 Parametrização mediante Support Vector Regression (SVR) . . . . 60

3 Estado da arte . . . . 64

3.1 Método para construir modelos NARX usando modelos ARX convencionais . 64 3.2 Método iterativo-recursivo para estimar modelos ARX-RDP usando a técnica de backfitting e reordenamento de dados . . . 66

3.2.1 Reordenamento de dados . . . 67

3.2.2 Isolação de um parâmetro no modelo ARX-RDP . . . 68

3.2.3 Estimador Iterativo de parâmetros baseado em backfitting . . . 68

3.2.4 Algoritmo do estimador iterativo de RDP baseado em backfitting . . . 69

3.2.5 O problema do fator de esquecimento quando os dados são reordenados 70 3.2.6 Modelos ARX-RDP com regressores unitários e o problema do offset nas estimativas . . . 71

3.3 Adaptação On-Line do algoritmo de backfitting . . . 72

3.4 Algoritmo do estimador iterativo de RDP em tempo real . . . 72

II Propostas

74

4 Proposta 1: Estimador de parâmetros usando suavização por partes para mo-delos ARX-RDP . . . . 75

4.1 Proposta de algoritmo para estimação de modelos ARX-RDP . . . 76

4.1.1 Definições de funções para manipular a ordem dos vetores . . . 77

4.1.2 Passo 1: Processo de reordenamento dos dados . . . 78

4.1.3 Passo 2: Interseção de janelas no domínio não temporal . . . 78

4.1.4 Passo 3: Estimação dos parâmetros de cada modelo local . . . 80

4.2 Cálculo dos limites das janelas . . . 82

4.3 Exemplos numéricos . . . 84

4.3.1 Estimações de Modelo FIR-RDP com 3 parâmetros desconhecidos . . 84

4.3.2 Exemplo: Estimação de Modelos ARX-RDP com parâmetros de múl-tipla dependência (MRDP) . . . 87

5 Proposta 2: Estimador com preditor causal para modelos ARX-RDP . . . . . 89

(19)

gressor causal . . . 91

5.1.2 Variação do parâmetro como Integrated Random Walk (IRW) no do-mínio do regressor causal . . . 91

5.1.2.1 Análise geométrica do erro de predição causal para o caso de parâmetro IRW . . . 93

5.1.3 Modelamento combinado do parâmetro como Integrated Random Walk (IRW) e Random Walk (RW) . . . 95

5.2 Estimação recursiva dos parâmetros do modelo ARX-RDP na forma MISO . 96 5.3 Estimação de parâmetros com múltiplas dependências . . . 99

5.4 Algoritmo do estimador causal proposto . . . 101

5.5 Preditor causal para o modelo ARX-RDP tipo MIMO . . . 102

6 Propostas Adicionais Referentes aos modelos ARX-RDP . . . . 105

6.1 Representação do modelo ARX-MRDP como rede neural . . . 105

6.2 Cálculo da quantidade de estruturas ARX-RDP sem dependências múltiplas 107 6.3 Controle adaptativo tipo PIP de sistemas ARX-RDP . . . 109

6.3.1 Forma NMSS de um modelo ARX específico e seu controlador PIP . 109 6.3.2 Forma geral NMSS do modelo ARX e do seu controlador PIP . . . . 112

7 Aplicações do preditor causal para modelos regressivos não lineares RDP . . 116

7.1 Exemplo de modelo FIR-RDP com 3 parâmetros uni-dependentes . . . 116

7.1.1 Comparação do filtro causal com o filtro baseado em suavização por partes . . . 119

7.2 Exemplo de modelo ARX-RDP com multi-dependência . . . 122

7.3 Modelamento de um sistema hidráulico de quatro tanques . . . 124

7.3.1 Modelamento com estrutura ARX-RDP tipo MISO . . . 124

7.3.2 Caso 1: estimação com 500 dados . . . 127

7.3.3 Caso 2: estimação com 4000 dados . . . 128

7.3.4 Comparação dos resultados com os obtidos com o Toolbox CAPTAIN 131 7.3.5 Estimador do modelo ARX-RDP MIMO . . . 133

7.4 Representação do modelo ARX-RDP como rede neural e identificação de mo-delo ARX-RDP caixa preta . . . 136

7.4.1 Estimação de modelo ARX-RDP caixa preta . . . 136

7.4.2 Teste de estruturas ARX-RDP candidatas . . . 140

7.4.3 Estimação com o melhor modelo ARX-RDP obtido na seção 7.4.2 . . 142

7.5 Controle adaptativo tipo PIP de um sistema ARX-RDP com dois parâmetros 143 Conclusão . . . . 147

(20)
(21)

1 Introdução

A regressão é um conceito que nasce junto com o a estatística matemática. Por isso, mencionaremos brevemente as origens da estatística e os principais matemáticos que revolu-cionaram a forma de analisar os problemas de muitas áreas das ciências, de um ponto de vista estatístico, porém mais matemático e menos filosófico. A seguir, mostraremos brevemente os conceitos de regressão linear e não linear, com uma perspectiva mais geral, para finalmente apresentar o problema específico que é resolvido nesta tese.

Segundo a historia da estatística, Francis Galton foi um dos primeiros cientistas que aplicou um rigor matemático, ao invés de filosófico, na estatística, quando fez suas pesquisas na área de biologia (SALSBURG, 2001). Uma das primeiras pesquisas de Galton foi sobre a herança da inteligência, para isto coletou dados dos pais e dos filhos que na época eram considerados inteligentes pela sociedade. Como a medição da inteligência naqueles tempos não estava muito desenvolvida, ele decidiu relacionar a reputação de inteligência com carac-terísticas físicas das pessoas, mais fáceis de medir, como a altura. Para fazer estes estudos, Galton montou um laboratório biométrico em Londres, onde mediu características físicas de famílias, como a altura, o peso, a medida de ossos específicos. Com os dados coletados, tentou descobrir métodos para predizer medidas herdadas pelos filhos, sabendo as medida dos pais. Como resultado destes estudos ele descobriu o fenômeno de regressão à média. Este fenô-meno estabelece que os filhos de pais mais altos serão fenô-menos altos do que eles, similarmente os filhos de pais mais baixos, serão mais altos do que eles. Desta observação, Galton propôs a existência de uma força misteriosa que causa que a altura dos filhos tenda a se mover, desde os extremos, à média das alturas de todos os seres humanos. Galton chamou este fenômeno de retorno à média ou à mediocridade (GALTON, 1885). Este estudo da regressão à média foi generalizado depois por Fisher, de quem a seguir comentaremos um pouco mais. Estes estudos generalizados são básicos em economia, medicina, engenharia, entre outras áreas da STEM (Science, Technology, Engineering and Mathematics).

Galton também introduziu o conceito de coeficiente de correlação, que pela primeira vez mediu como duas variáveis estão relacionadas, e propôs uma fórmula matemática para calcular este coeficiente em base aos dados experimentais do seu laboratório biométrico. Um colaborador de Galton, Ronald A. Fisher é agora considerado um dos pais da estatística. Fisher é autor de muitos estudos que serviram de base para a estatística moderna, ver por exemplo: Statistical Methods for Research Workers (FISHER, 1934). Nesse trabalho, Fisher apresenta um estudo matemático aplicado a dados observados, inicialmente em um contexto

(22)

biológico, misturando a Genética Mendeliana e a Teoria da Seleção Natural. Com o decor-rer do tempo, os métodos desenvolvidos nos estudos de Fisher passaram a ser aplicados a todos os tipos de populações e agregados de indivíduos. Por exemplo, na teoria cinética dos gases. Entre as contribuições de Fisher à Estatística podemos mencionar a máxima verossi-milhança, a inferência fiducial, os desenvolvimentos de várias distribuições de amostragem, dentre outras.

Fisher generalizou os estudos da regressão à média de Galton, também adotou dele o termo regressão. Como parte da pesquisa de Fisher, importantes estudos estatísticos foram desenvolvidos, por exemplo a análise das plantações de trigo como função do ano de plantação. Neste caso o objetivo foi determinar o melhor período para replantar trigo. Assim, até a atualidade, parte importante da análise estatística de séries temporais tem sido construída com base nos trabalhos pioneiros de Fisher. Dentre elas, a regressão linear é uma das técnicas mas fundamentais da estatística e que é amplamente usada em todas as áreas da STEM. Um motivo para isto é que mediante a regressão linear podemos ter noção da relação de causa e efeito que existe entre as variáveis que conformam os dados experimentais.

A literatura sobre regressão linear sugere métodos analíticos e sistemáticos para apro-ximar linearmente uma tendência entre variáveis. Relacionando isto com os estudos iniciais de Galton, podemos dizer que neste caso, o fenômeno de regressão à média faz que os dados sejam atraídos pela linha reta que relaciona linearmente às variáveis. Em outras palavras, neste cenário a média dos dados é representada como uma linha com tendência, ao invés de um valor fixo estudado por Galton. Outra forma de interpretar uma regressão linear con-siste em considerar que as amostras se encontram deslocadas aleatoriamente da linha que representa o modelo. Idealmente, estes deslocamentos aleatórios são ajustados a um sinal Gaussiano de variância mínima.

Consideramos importante mencionar também os aportes de Karl Pearson à estatística. Ele fez contribuições muito abrangentes no desenvolvimento da estatística matemática, e a aplicou nas áreas de biologia, epidemiologia, antropometria, medicina e historia social. Ele fundou, junto com Galton a revista Biométrika. Um dos seus primeiros trabalhos, ainda com uma perspectiva filosófica, porém incluindo uma análise matemática, é (PEARSON, 1896).

A regressão linear vem sendo utilizada desde o seu descobrimento porque, além de ajudar na interpretação dos modelos, permite fazer predição do comportamento dos dados. Atualmente, o termo regressão linear, uma generalização da regressão à media de Galton, tornou-se uma técnica muito útil para modelagem de dados nas distintas áreas da STEM. Nestas últimas décadas, a literatura e a amplitude das aplicações da regressão linear fo-ram muito desenvolvidas. Nesta literatura existem importantes contribuições de autores que

(23)

analisam os modelos de regressão de muitas perspectivas diferentes. Estes estudos envolvem geralmente a forma de interpretar um modelo de regressão, o caso de regressões múltiplas, a forma de analisar a dinâmica dos parâmetros com relação à dinâmica do modelo, assim como os métodos de otimização que servem para obter o modelo linear, bem como alguns fenômenos como heterocedasticidade, sobre-ajuste do modelo ou overfitting.

Nesta tese sugerimos as referências: (INTRILIGATOR et al., 1996; PINDYCK; RU-BINFELD, 1991; VERBEEK, 2008; MADDALA, 2001; RATKOWSKY, 1983b; RATKOWSKY, 1983a; GREEN; SILVERMAN, 1994; COSTA-NETO, 2002; GRIFFITHS et al., 1993; KEN-DALL; STUART, 1973). Estas referências são textos das áreas de econometria e estatística, que em nosso ponto de vista, explicam de uma forma menos abstrata conceitos básicos para o estudo e a aplicação de regressão. A literatura de econometria, por exemplo, se caracteriza por ter grande parte do seu conteúdo focado no método de regressão linear e na sua aplicação em modelos econômicos. Por outro lado, para a perspectiva de modelagem de dados de séries temporais e de sistemas, sugerimos: (AGUIRRE, 2015; YAN; SU, 2009; LUTKEPOHL, 2013; WILLEMS, 1989; NORTON, 1988; PLACKETT, 1950; CÁCERES, 2005; BARRETO, 2002; YOUNG, 2011).

Mais recentemente, surgiu uma aparentemente nova forma de modelar dados, medi-ante técnicas chamadas de machine learning, ou de aprendizado de máquinas. Como exemplos destas técnicas, podemos mencionar dois tratamentos particulares: as redes neurais e os mo-delos difusos ou nebulosos (SERRA, 2005; DEL REAL TAMARIZ, 2005). Ao compararmos os conceitos dessa teoria com os conceitos da estatística tradicional, especialmente nos mode-los de regressão, podemos observar que o processo de ajustar dados a um modelo de regressão linear é também um processo de aprendizado de máquina. Assim também podemos observar que muitos outros termos dessas duas perspectivas se correspondem. Por exemplo, o conceito de estimação equivale ao de treinamento ou aprendizado. Os parâmetros a serem estimados correspondem aos pesos sinápticos de uma rede neural. A estrutura de um modelo corres-ponde à estrutura de uma rede. Também, os dados para estimar o modelo correscorres-pondem ao

conjunto de treinamento e os dados de validação correspondem ao conjunto de generalização

do aprendizado de máquinas. Adicionalmente podemos dizer que o fenômeno de overfitting da regressão linear corresponde ao fenômeno de sobre-treinamento das máquinas de aprendizado (SJÖBERJ et al., 1995).

Mesmo que conceitualmente as técnicas de aprendizado de máquinas sejam equivalen-tes à modelagem estatística convencional, a perspectiva e paradigmas destas são diferenequivalen-tes. Por exemplo, nos modelos de regressão linear temos interesse em que a estrutura do modelo não seja muito complexa, pois isto pode complicar a interpretação dos parâmetros do modelo. Assim, na literatura da estatística tradicional é comum estudar os critérios de informação,

(24)

usados para definir o melhor modelo considerando não somente o erro de estimação mas também o tamanho da estrutura ou quantidade de parâmetros do modelo (VARGAS, 2016). Por outro lado, no aprendizado de máquinas, as técnicas procuram aproveitar as vantagens computacionais, tanto de poder computacional como de armazenamento de memória, e isto permite, muitas vezes, desconsiderar a necessidade de um modelo simples ou de poucos parâ-metros (TEIXEIRA, 2016; HAYKIN, 2008). Uma desvantagem da maioria das máquinas de aprendizado é que, estão focadas no modelamento da saída do sistema, e não na interpretação física dos seus parâmetros internos.

As quatro áreas mencionadas acima: estatística, econometria, identificação ou mode-lagem computacional de dados, e aprendizado de máquinas, utilizam cada uma delas a sua própria terminologia para variáveis equivalentes no estudo de modelagem de dados. Nesta tese utilizaremos a terminologia da literatura de identificação, pois é a mais comum na nossa área de pesquisa. Alguns termos essenciais serão definidos no Capítulo 1. Também, como pro-postas da nossa pesquisa, dois novos conceitos são introduzidos nesta tese: Preditor causal e

Regressor causal.

Uma extensão muito útil da regressão linear é a regressão não linear. Os primeiros estudos deste tipo de regressão foram focados em modelos com não-linearidades específicas ou predefinidas. O modelo polinomial é um dos mais populares pela simplicidade de ajuste, deste se deriva uma ampla literatura sobre curvas e splines ou curvas francesas (RATKOWSKY, 1983b; CHEN; BILLINGS, 1989; GREEN; SILVERMAN, 1994; SJÖBERJ et al., 1995; MAD-DALA, 2001; AGUIRRE, 2015). Outros tipos importantes são a aproximação por funções base e a aproximação Kernel (HAYKIN, 2008). Estes modelos foram estudados individual-mente durante vários anos e só em 1972, Nielder e Wedderburn propuseram o modelo linear generalizado GLM (do inglês generalized linear model) que unifica estes modelos (NELDER; WEDDERBURN, 1972). Aqui vale a pena mencionar porque este modelo geral ainda é cha-mado de modelo linear, dado que, por definição, a saída de um sistema linear sempre varia linearmente com a variação da entrada, ou do regressor neste caso (BOTTURA, 1982a). O motivo é porque de fato a estrutura deste tipo de modelos é linear com respeito aos parâme-tros, pois a saída do modelo ainda é uma combinação linear entre parâmetros desconhecidos e funções não lineares dos regressores. Por isso, para evitar confusões, chamaremos este tipo de modelos como não lineares, mas lineares nos parâmetros (RATKOWSKY, 1983b; RAT-KOWSKY, 1983a).

Similarmente ao caso linear, o objetivo neste modelo linear generalizado é ajustar os parâmetros desconhecidos do modelo, sendo que as funções não lineares dos regressores são conhecidas e fixas. Este ajuste é normalmente feito mediante o algoritmo dos mínimos quadrados LS (do inglés: Least Squares) . A literatura sobre mínimos quadrados para estimar

(25)

modelos regressivos não lineares é bastante ampla e aplicada às mais variadas áreas científicas (NORTON, 1988; WILLEMS, 1989; YOUNG, 2011; ALEGRIA, 2015; BARRETO, 2002).

Os modelos regressivos mencionados acima supõem que os parâmetros desconhecidos são fixos. Estes modelos são chamados de modelos de parâmetros estacionários ou simples-mente de modelos invariantes no tempo. Mesmo que o algoritmo LS considere originalsimples-mente que os parâmetros do modelo são fixos, desde uma perspectiva recursiva ou On-Line, uma pequena variação temporal nos parâmetros pode ser tolerável, sempre que o algoritmo LS inclua um fator de esquecimento que faça que os dados mais antigos sejam menos ponderados do que os dados mais atuais. Assim, os parâmetros do modelo, além de convergirem aos va-lores dos parâmetros reais, conseguem se atualizar a mudanças leves ou suaves. Isto também é conhecido como acompanhamento ou tracking dos parâmetros. O métodos de LS é sensível ao grau de variação do parâmetro pois se esta variação for muito grande, o acompanhamento do parâmetro será muito lento e inexato, tendendo assim mais à média do mesmo do que ao seu valor verdadeiro (NORTON, 1988; LJUNG, 1999).

Na prática, muitas vezes os parâmetros do modelo que queremos estimar correspon-dem a variáveis físicas do sistema, que naturalmente variam lentamente, o que faz que o algoritmo LS com certo fator de esquecimento funcione em muitos casos práticos. Mas exis-tem alguns modelos mais complexos onde estes parâmetros têm uma dinâmica muito rápida, isto acontece especialmente quando a variação do parâmetro depende, por meio de uma fun-ção linear ou não linear, de alguma outra variável que varia rapidamente. Assim, Peter Young e J. Mendel apresentam pela primeira vez a idéia deste tipo de modelo com parâmetros que dependem de variáveis, as quais eles chamam de estados ou SDP (do inglês State Dependent

Parameter ) (YOUNG, 1969; MENDEL, 1969). Depois, Priestley constrói uma classe de

mo-delo não linear deste tipo, que ele chama de momo-delo dependente de estado SDM (do inglês

State Dependent Model) (PRIESTLEY, 1980). Por outro lado, R. Haber e I. Vajk também se

interessam por este tipo de modelos não lineares e renomeiam a terminologia de parâmetro que depende de estados por parâmetro que depende de sinais, ver (HABER; VAJK, 1982). Nesse artigo é tratado a modelagem de sistemas lineares com parâmetros que dependem de sinais ou Signal-Dependent Parameters, cuja nomenclatura é depois adotada por Stephen A. Billings no artigo (BILLINGS; VOON, 1986).

As referências mencionadas acima, de Priestley, de Haber e de Billings mostram me-todologias para estimar os parâmetros não lineares utilizando pontos de operação onde os parâmetros são lineares com respeito ao estado ou ao sinal. Ou seja, estes métodos separam o problema de modelagem não linear complexo em subgrupos de problemas de modelagem lineares simples. Billings chama este processo de identificação linear por partes de sistemas não lineares. A idéia geral de linearizar os modelos não lineares é um pouco mais antiga, ver

(26)

por exemplo os artigos (HOFF; ROCK, 1979; WHITE, 1971).

Pela nossa parte, a denominação deste tipo de modelos não lineares tem sido algo variável, desde o começo da nossa pesquisa do mestrado e também depois, no doutorado. Inicialmente, devido a uma forte influência de Peter Young, adotamos a denominação de mo-delo ARX-SDP em (ALEGRIA; BOTTURA, 2014; ALEGRIA, 2015; ALEGRIA et al., 2015; ALEGRIA; BOTTURA, 2015b; ALEGRIA; BOTTURA, 2015a; ALEGRIA; BOTTURA, 2016; ALEGRIA et al., 2016; ALEGRIA; BOTTURA, 2017b). No processo de publicação de todos estes artigos assim como na qualificação da proposta de tema de doutorado, recebemos várias críticas pelo uso da denominação de estado para nos referir a uma variável externa, que neste caso tem que ser medida ou conhecida, sendo que na literatura da área de Con-trole e Automação, o conceito de estado se refere a uma variável interna que geralmente é desconhecida e precisa ser estimada.

Por exemplo, diferentemente de Young ou de Priestley, Aoki (AOKI, 1987) considera que o conceito de estado de um modelo de regressão está associado aos seus parâmetros não estacionários, ao invés de aos regressores. Isto nos motivou a que, recentemente, reconside-rássemos a denominação desta variável não como estado mas como regressor de mapeamento. Isto faz sentido pelo fato de que a variável dependente da função paramétrica é um regressor, e devido à não linearidade da relação entre o parâmetro e este regressor, é representada por uma função de mapeamento desconhecida, ver (ALEGRIA; BOTTURA, 2017a; ALEGRIA; BOTTURA, 2018; ALEGRIA; BOTTURA, 2019). Esta denominação foi inspirada nos traba-lhos de Previdi (PREVIDI; LOVERA, 2001) que usa o termo regressor de escalonamento ou

scheduling, de uma perspectiva de LPV (do inglês: Linear Parameter Varying) , (PUERTO,

2019).

Nesta tese, a nossa proposta abandona o paradigma de separar o problema não linear em pontos de operação, como fizeram todos as referências mostradas acima e muitas outras mais atuais, que serão apresentadas no Capítulo 3, por um paradigma baseado em uma análise não temporal para o preditor do filtro paramétrico. É assim que decidimos propor a denominação regressor causal, para enfatizar que a análise do preditor é feita no domínio do regressor de mapeamento, por ser esta uma variável causal do parâmetro do modelo não linear.

Opcionalmente, devido à nossa recente influência pelos trabalhos de Billings (BIL-LINGS, 2013; BILLINGS; VOON, 1986), decidimos utilizar também a denominação simples e geral de sinais para nos referir às variáveis independentes nas funções que descrevem os parâmetros. Assim, chamaremos também aos modelos NARX, que queremos tratar nesta

(27)

tese, de modelos de regressão linear com parâmetros que dependem de sinais (SiDP-ARX), ou simplesmente de modelos NARX. Na seção 2.9 mostraremos que o modelo SiDP-ARX é equivalente ao modelo geral NARX, e não simplesmente um caso particular deste.

Os modelos NARX, ou SiDP-ARX se caracterizam por poderem possuir uma dinâ-mica altamente não linear e inclusive quase caótica (PRIESTLEY, 1980; YOUNG, 2011). A literatura sobre estimação deste tipo de modelos é ainda bastante recente e até onde sabe-mos, os métodos existentes estão limitados ao caso Off-Line. Existem algumas propostas de estimadores On-Line mas elas exigem um tratamento prévio do tipo Off-Line (ALEGRIA; BOTTURA, 2015b; ALEGRIA; BOTTURA, 2017b) como referência, para depois se adaptar a pequenas mudanças nas variações das funções não lineares que dominam as dinâmicas dos parâmetros.

Os métodos para estimar os parâmetros dos modelos NARX podem ser classifica-dos em dois grandes grupos. O primeiro e mais usado na literatura, consiste em diminuir a complexidade do problema pela decomposição em subproblemas mais simples. Para isto são definidos pontos de operação do sistema, e em cada um destes pontos o problema se reduz em ajustar um modelo simples onde o método de mínimos quadrados funciona. Por exemplo, Billings mostra o processo de identificação linear por partes de modelos não lineares, onde os parâmetros dependem de sinais (BILLINGS; VOON, 1986). Também, Johansen mostra como obter, para cada ponto de operação, através de regressão linear, um modelo do tipo ARMAX (JOHANSEN; FOOS, 1996; JOHANSEN; FOOS, 1995). Pelo lado do aprendizado de máqui-nas, foram propostos recentemente alguns métodos onde uma rede de funções não lineares flexíveis, como Gaussianas ou sigmoides, ajustam os pontos de operação do modelo NARX. Entre estes métodos mencionaremos os métodos baseados em perceptron multicamada (HU J. & HIRASAWA, 2002; AKESSON B. M., 2003), funções de base radial (PENG et al., 2003) e regressão por vetores suporte (TOIVONEN H. T., 2007). Também vale a pena mencionar os métodos baseados em LPV (do inglês: Linear Parameter Varying) devido a serem bas-tante utilizados na área de controle por ganho escalonado ou gain scheduling (PREVIDI; LOVERA, 2003; PUERTO, 2019).

O segundo grupo está baseado no método iterativo-recursivo usando backfitting, origi-nalmente proposto por Peter Young (YOUNG, 2011). Este método propõe uma metodologia diferente para obter os modelos NARX, pois ao invés de separar o modelo NARX em pontos de operação, isola cada parâmetro mediante um modelo equivalente uni-paramétrico ou de regressão simples. Depois se faz um reordenamento de dados, com o objetivo de reduzir a variabilidade do parâmetro. Assim, o parâmetro deste modelo equivalente é estimado medi-ante LS recursivo, para depois ser utilizado na estimação de um modelo seguinte, equivalente com respeito ao parâmetro seguinte do modelo NARX. Isto é repetido iterativamente ate que

(28)

as funções entre parâmetro e sinal se ajustem à dependência real (YOUNG, 2011; SMITH K. BEVEN; YOUNG, 2014). Algumas contribuições importantes para este método de esti-mação foram propostas em (ALEGRIA et al., 2015; ALEGRIA; BOTTURA, 2015b). Nesses artigos se sugere reconsiderar o fator de esquecimento para o caso de dados reordenados, assim as estimações melhoram especialmente nas regiões com poucos dados. O caso de modelagem caixa preta de dados, onde várias estruturas candidatas são testadas em uma aplicação real, é mostrado em (ALEGRIA et al., 2016). O caso de estrutura MIMO ARX-SDP foi proposto em (ALEGRIA; BOTTURA, 2016). Também, algumas contribuições para o caso de modelagem em tempo-real, com base em uma estimação Off-Line previa, é mostrado em (ALEGRIA; BOTTURA, 2017b).

Recentemente, propusemos um método de estimação de modelos NARX que mistura as duas perspectivas mencionadas acima. Da primeira aproveitamos a vantagem de dividir o problema em subproblemas mais simples, e da segunda aproveitamos a estratégia de suavizar as variáveis para que o filtro LS funcione. Esta suavização é feita misturando o processo de re-ordenamento de dados com intersecções de janelas retangulares, definidas pelas distribuições das variáveis de scheduling. Como resultado obtemos um método que estima os parâmetros do modelo NARX, com baixo custo computacional e com as não linearidades dos parâme-tros modeladas como funções de mapeamentos não parametrizados (ALEGRIA; BOTTURA, 2019). Vale a pena comentar que no final de 2017 mostramos este método a Peter Young em Lancaster, UK, e que ele achou a proposta interessante e sugeriu chamar este método de

strip-SDP modeling, ou modelagem SDP por tiras, devido a que quando os parâmetros são

estimados como sendo superfícies de 3 dimensões, esta superfície é conformada por tiras não lineares, ver exemplo 2 de (ALEGRIA; BOTTURA, 2019).

No mesmo ano que propusemos o método de strip-SDP modeling, como fruto de uma pesquisa paralela, desenvolvemos um novo método que, em nosso ponto de vista, resolve o problema de modelagem NARX de forma ainda mais simples e elegante, quando comparado com os atuais métodos da literatura. A nossa proposta retoma a atenção ao estimador de parâmetros baseado em mínimos quadrados (LS), classicamente usado para estimar parâme-tros não estacionários que mudam lentamente, com o objetivo de que este filtro possa estimar parâmetros que mudam rapidamente. Através desta análise descobrimos que para isso acon-tecer, o preditor do filtro precisa ser reformulado para se adaptar ao problema de estimar parâmetros que dependem de sinais que podem mudar rapidamente. Esta reformulação con-siste basicamente em mudar a referência da análise diferencial do preditor, de uma análise temporal, para uma análise no domínio dos sinais que causam as variações dos parâmetros. Esta é uma proposta muito relevante desta tese, e é explicada no capítulo 5. Assim, propõe-se

(29)

um filtro de mínimos quadrados recursivo, com preditor causal, que estima os parâmetros do modelo NARX de forma completamente On-Line. Deste modo, é fácil desenvolver a versão de filtro para modelos NARX do tipo MIMO, assim como também as versões suavizadas ou refinadas deste filtro. Vários exemplos são mostrados no capítulo 7 para sustentar a utilidade prática desta proposta.

1.1

Organização da tese

No Capítulo 1 foi mostrada a introdução desta tese. No Capítulo 2, são apresentados os conceitos prévios utilizados nesta tese, como por exemplo as definições de sistemas e séries temporais, o método de ajuste mediante regressão linear, o modelo auto-regressivo ARX e o algoritmo de mínimos quadrados recursivo. Neste Capítulo, apresentamos também o modelo não linear ARX-RDP, cujos parâmetros temos interesse de estimar nesta tese. Finalmente são apresentadas brevemente duas técnicas de parametrização ou ajuste: soma de funções base e vetores suporte. No Capítulo 3, é apresentado um resumo simples sobre o estado da arte da nossa proposta. Técnicas da literatura como a clássica linearização por partes, o método de backfitting e de Linear Parameter Varying são mostradas brevemente. No Capítulo 4, apresentamos a nossa primeira proposta para o estimar parâmetros de modelos ARX-RDP: Suavização por partes do modelo ARX-RDP. Mostramos também duas aplicações desta técnica. No Capítulo 5, apresentamos a nossa segunda e mais eficiente proposta: Regressão Causal de modelos ARX-RDP. No Capítulo 6, apresentamos algumas propostas adicionais, referentes aos modelos ARX-RDP. Finalmente, no Capítulo 7, apresentamos 5 aplicações de modelamento de parâmetros usando principalmente a proposta do Capítulo 5.

(30)

1.2

Trabalhos publicados como primeiro autor

1. Alegria, E. and Bottura, C., "Causal Regression for On-Line Identification of Highly Nonlinear Parametrically Varying Models", 2019. <submitted to journal>.

2. Alegria, E. and Bottura, C., "Data-Based Local Smoothing Technique for Parame-ters Estimation of Nonlinear ARX Models", American Control Conference (ACC), Philadelphia-US, 2019.

3. Alegria, E. and Bottura, C., "Estimação de modelo de regressão não linear com parâme-tros dependentes de regressores de mapeamento", Congresso Brasileiro de Automática (CBA), João Pessoa - Brazil, 2018.

4. Alegria, E. and Bottura, C., "Propuesta para modelar series temporales áltamente no lineales con estructuras ARX-RDP (versão em espanhol)", Jornada Peruana Internaci-onal de Investigación en Ingeniería (JP3I), Lima-Peru, 2017.

5. Alegria, E. and C. Bottura, "Real-time Identification of ARX-SDP Model Using a Rec-tangular Moving Window", 23rd IEEE International Conference on Automation and Computing (ICAC), Huddersfield, United Kingdom, 2017.

6. Alegria, E. and Teixeira, H. and Bottura, C., "Proposta para modelagem caixa-preta de um sistema estocástico não linear usando um modelo ARX-SDP e aplicação a estimação de benzeno no monitoramento da poluição urbana", Congresso Brasileiro de Automática (CBA), Vitória-Brazil,2016.

7. Alegria, E. and Bottura, C., "MIMO ARX-SDP model estimation proposal and appli-cation to a hydraulic system", IEEE Conference on Control Appliappli-cations CCA, Buenos Aires-Argentina, 2016.

8. Alegria, E. and Bottura, C., "Estimação on-line da dependência parâmetro-estado em modelos ARX-SDP", Simpósio Brasileiro de Automação Inteligente (SBAI), Natal-Brazil, 2015.

9. Alegria, E. and Bottura, C., "Off-line state-dependent parameter models identification using simple fixed interval smoothing", 12th International Conference on Informatics in Control, Automation and Robotics ICINCO, Colmar-France, 2015.

10. Alegria, E. and Teixeira, H. and Bottura, C., "State-dependent parameter models identi-fication using data transformations and support vector regression", 12th International Conference on Informatics in Control, Automation and Robotics ICINCO, Colmar-France, 2015.

(31)

11. Alegria, E., "State dependent parameters (SDP) On-line estimation for nonlinear re-gression models", Master thesis, University of Campinas, Brazil, 2015.

12. Alegria, E. and Bottura, C., "Identification of state-dependent parameter models using data transformation", XXI International Conference on Electronics, Electrical and Com-puting INTERCON, Arequipa-Peru, 2014.

(32)
(33)

2 Conceitos prévios

Na prática, o processo geral de modelagem de dados implica vários julgamentos in-tuitivos e empíricos que determinam se o modelo obtido consegue representar bem os dados reais. Estes julgamentos fazem da modelagem de dados um processo complexo, desde que não existem regras claras e analíticas que abordem todos os problemas específicos, os quais dependem muito do tipo de aplicação. Robert Pindick e Daniel Rubinfeld mostram mui-tas contribuições em casos específicos para negócios, economia, e serviços sociais em geral (PINDYCK; RUBINFELD, 1991). Uma interessante contribuição dessa referência é a que interpreta os modelos de regressão múltipla, assim como as suas principais aplicações. Neste trabalho não vamos nos aprofundar nestas várias interpretações. Nos concentraremos nos ca-sos de regressão simples e no modelo de regressão não linear específico, que mostraremos na seção 2.9. A seguir, de forma breve, apresentamos importantes definições que são utilizadas ao longo desta tese.

2.1

Algumas definições sobre sistemas e séries temporais

2.1.1

Sistema

Um sistema pode ser definido como uma coleção de componentes acoplados para desempenhar certa função (BOTTURA, 1982a). A caracterização de um sistema enfatiza as relações de causa e efeito, ou de entrada e saída existentes no ente analisado. A seguir, definições referentes a sistemas, de uma perspectiva de modelo de regressão, são apresentadas: 2.1.1.1 Sistema estático

Também conhecido como sistema instantâneo ou algébrico, é aquele onde a saída depende apenas do instante presente, ver Fig. 1(a). Por exemplo 𝑦𝑘 = 𝑎0𝑘+ 𝑎1𝑘𝑧𝑘, onde a saída

observada no 𝑘-ésimo instante depende unicamente do sinal causa 𝑧𝑘 medido neste mesmo

instante 𝑘. O sinal causa sobre o sistema da Fig. 1(a), produz um sinal efeito.

2.1.1.2 Sistema dinâmico

É aquele em que alguns dos seus aspectos variam com o tempo, ver Fig. 1(b). Se ele é contínuo ou analógico seu modelo matemático é constituído por equações diferenciais, onde pelo menos uma derivada é em relação à variável independente tempo. Se ele é discreto, seu

(34)

Figura 1 – Sistema estático (a) e sistema dinâmico (b).

modelo matemático é descrito por equações a diferenças finitas. No contexto dos modelos de regressão, isto equivale a que a resposta 𝑦𝑘 dependa de pelo menos um regressor com atraso,

por exemplo: 𝑦𝑘 = 𝑎0𝑘+ 𝑎1𝑘𝑧𝑘+ 𝑎2𝑘𝑧𝑘−1.

2.1.1.3 Sistema causal ou não antecipativo

É aquele que não depende dos estados futuros do sistema, ou seja ele não consegue antecipar medidas futuras das causas e efeitos. Todos os modelos de regressão estudados nesta tese são do tipo causal.

2.1.1.4 Sistemas linear e não linear

Sistema linear é aquele ao qual se aplica o princípio de superposição. No caso contrário o sistema é não linear. Este princípio estabelece que a resposta do sistema, ante uma com-posição de entradas, é igual à soma de respostas individuais quando cada entrada é aplicada individualmente ao sistema. Porém, nos modelos de regressão, o modelo linear de um sistema é usualmente definido pela estrutura linear com respeito aos parâmetros. Por exemplo, o modelo 𝑦𝑘 = 𝑎𝑓1(𝑧𝑘−1) + 𝑏𝑓2(𝑧𝑘−1) é considerado linear mesmo que não cumpra o princípio

de superposição, porque 𝑓1 e 𝑓2 podem ser funções não lineares que dependem do

regres-sor 𝑧. Nesta dissertação, similarmente a muitos autores, chamaremos esse tipo de modelos como não lineares, mas lineares nos parâmetros. (BILLINGS, 2013; MOSTELLER; TUKEY, 1977; GREEN; SILVERMAN, 1994). Um modelo autoregressivo, com estrutura não linear é usualmente representado de forma genérica como 𝑦𝑘 = 𝑓 (z𝑘, 𝜃𝑘, 𝜂𝑘), onde z𝑘 é o vetor de

regressores, 𝜃𝑘 é o vetor de parâmetros e 𝜂𝑘 é um ruído Gaussiano com variância conhecida.

2.1.1.5 Sistema variante no tempo

É aquele sistema onde os parâmetros do modelo mudam com o tempo, neste caso podemos representar o parâmetro variante como 𝑎𝑘, se a variação do parâmetro se

relaci-ona com a variação do tempo. Se existir dependência causal entre o parâmetro e o tempo, representaremos isto como 𝑎(𝑘).

(35)

2.1.1.6 Caracterização dos Sistemas pelas quantidades de entradas e saídas

O Sistema mais simples é o escalar, com entrada e saída únicas SISO, (do inglês Single

Input - Single Output). Similarmente, os modelos de múltiplas entradas e uma única saída são

chamados de modelos MISO (do inglês Multiple Inputs - Single Output). Finalmente temos os modelos de múltiplas entradas e múltiplas saídas, MIMO.

2.1.1.7 Sistemas estocástico e determinístico

Um sistema é estocástico quando um ou mais dos seus parâmetros é expressado de forma probabilística. Este modelo também é conhecido como modelo probabilístico. O caso contrário é conhecido como modelo determinístico (BOTTURA, 1982a).

2.1.1.8 Sinais de entrada em sistemas

Um sistema pode ser submetido a entradas do tipo determinístico, em que todas as suas realizações, em cada instante, tomam sempre um valor específico ou conhecido, as quais podem ser discretas ou contínuas. No caso contrário temos as entradas aleatórias, as quais só podem ser expressas em termos probabilísticos. Neste caso cada realização do sinal de entrada no sistema é diferente.

2.1.1.9 Coeficiente de autocorrelação com atraso e Ruído branco

Usualmente é impossível obter uma descrição completa de um processo estocástico. Por isto, apresentamos o coeficiente de autocorrelação, que é muito útil para ter uma descrição do processo para a sua modelagem. O coeficiente de autocorrelação indica quanta correlação existe entre dados próximos em uma série 𝑦𝑘 (PINDYCK; RUBINFELD, 1991). O coeficiente

de autocorrelação com atraso 𝑙 é definido assim:

𝜌𝑙 = 𝐸 [(𝑦𝑘− 𝜇𝑦)(𝑦𝑘+𝑙− 𝜇𝑦)] √︁ 𝐸 [(𝑦𝑘− 𝜇𝑦)2] 𝐸 [(𝑦𝑘+𝑙− 𝜇𝑦)2] = Cov(𝑦𝑘, 𝑦𝑘+𝑙) 𝜎𝑦𝑘𝜎𝑦𝑘+𝑙 (2.1)

𝑦𝑘 é um processo estocástico e 𝜇𝑦 é a sua média. Para um processo estacionário, as duas

variâncias do denominador da equação (2.1) são as mesmas. Isto se cumpre para todo valor de 𝑙. Deste modo, podemos reescrever o coeficiente de autocorrelação com atraso 𝑙:

𝜌𝑙 =

𝐸 [(𝑦𝑘− 𝜇𝑦)(𝑦𝑘+𝑙− 𝜇𝑦)]

𝜎2 𝑦

. (2.2)

(36)

Seja o seguinte processo estocástico:

𝑦𝑘 = 𝜀𝑘, (2.3)

onde 𝜀𝑘é uma variável aleatória distribuída independentemente com média zero. Da equação

(2.2), podemos notar que o coeficiente de autocorrelação deste processo é dado por: 𝜌0 =

1, 𝜌𝑙 = 0, para 𝑙 > 0. O processo da equação (2.3) é chamado de ruído branco, e o modelo

que melhor o estima é: ^𝑦 = 0.

2.1.1.10 Tipos de modelos regressivos segundo a estrutura

Um modelo regressivo básico é o FIR (do Inglês: Finite Impulse Response):

𝑦𝑘= 𝑛𝑢 ∑︁

𝑖=0

ℎ𝑖𝑢𝑘−𝑖+ 𝑒𝑘,

onde ℎ𝑘 é a resposta ao impulso, 𝑢𝑘 é o sinal de entrada exógena e 𝑒𝑘 é o ruido branco. A

regressão se dá em relação à entrada.

Outro modelo de regressão básico é o auto-regressivo AR, cuja dinâmica depende ape-nas de auto-regressores e de efeitos que são causados por ruído branco. Quando a estrutura considera entradas exógenas o modelo é denotado como ARX (do inglês: Auto-Regressive with

eXogenous inputs). Quando o ruído não é branco: colorido, podemos representá-lo por uma

média móvel MA (do inglês: moving average). Se a estrutura também considera regressores sobre o ruído branco, o modelo é denotado ARMA. No caso em que este tipo de modelo tam-bém considere como regressores as variáveis exógenas, temos o modelo ARMAX. Finalmente, o modelo não linear com entrada exógena e média móvel do ruído branco é denotado como NARMAX (LEONTARITIS; BILLINGS, 1984; HARVEY, 1993; MOSTELLER; TUKEY, 1977; MYERS, 2000).

2.1.2

Série temporal

Uma série temporal é um grupo de observações medidas sequencialmente ao longo do tempo (VERBEEK, 2008). A série temporal é uma realização de um processo estocástico. As medições podem ter sido feitas em intervalos uniformes, por exemplo uma série que mostra a temperatura diária de uma cidade ao longo do ano, ou não. Diferentemente dos sistemas, uma série temporal não enfatiza a relação de causa-efeito ou entre sinais de entrada e de saída. Assim, a principal característica das séries temporais é a de que são apenas sinais. Vale a pena mencionar que o estudo dos sistemas é mais comum na área de controle e automação, porém o estudo de séries temporais é mais amplo e mais antigo, por ser aplicado em variadas

(37)

áreas como: processamento de sinais, economia, demografia, ciências sociais, meteorologia, epidemiologia, etc. (LUTKEPOHL, 2013; HARVEY, 1993; AOKI, 1987).

A modelagem da dinâmica de dados de sistemas, e o modelamento dinâmico de séries temporais, com não linearidades que variam rapidamente, constituem os principais objetivos desta tese.

2.1.3

Conceito de estado

O conceito de estado é bastante geral e a sua interpretação apresenta seus próprios paradigmas, dependendo da área onde é utilizada. Nesta tese utilizamos o conceito de estado na perspectiva da área de controle e automação. Assim, definimos o estado como uma variável vetorial de dimensão finita, que descreve o estado de um sistema, como uma coleção mínima de informações necessárias para determinar a evolução futura do sistema dinâmico, dados o estado atual e as entradas a partir daquele instante (AOKI, 1987). Por exemplo, em sistemas, um estado pode ser uma variável associada a um componente que acumula energia. Em séries temporais, devido ao pouco conhecimento da natureza dos fenômenos por elas representados, um estado pode não ter nenhuma interpretação funcional, por exemplo física ou econômica. Vale a pena mencionar que, em séries temporais modeladas com modelos estruturais, os estados têm como interpretação os seus componentes: tendência, sazonalidade, cíclico, etc.

2.1.4

Modelos para relações de causa e efeito em sistemas dinâmicos

As representações de um sistema SISO por função de transferência no tempo contínuo 𝑡:

𝐻(𝑠) = 𝑌 (𝑠) 𝑈 (𝑠) = ℒ {𝑦𝑡} ℒ {𝑢𝑡} (2.4) = Σ 𝑁 𝑖=0𝑏𝑖𝑠−𝑖 Σ𝑀 𝑗=0𝑎𝑗𝑠−𝑗 , 𝑀 ≥ 𝑁 (2.5) e por função de transferência no tempo discreto 𝑘:

𝐻(𝑧) = 𝑌 (𝑧) 𝑈 (𝑧) = 𝒵 {𝑦𝑘} 𝒵 {𝑢𝑘} (2.6) = Σ 𝑁 𝑖=0𝑏𝑖𝑧−𝑖 Σ𝑀 𝑘=𝑗𝑎𝑗𝑧−𝑗 , 𝑀 ≥ 𝑁 (2.7) onde ℒ {.} é a transformada de Laplace, e 𝒵 {.} é a transformada 𝑍, envolvem a entrada ou causa 𝑢 e a saída ou efeito 𝑦, das suas transformadas respectivas, tanto para sistemas como para séries temporais.

(38)

As representações de um sistema MIMO em espaço de estado no tempo contínuo: ˙x𝑡= Ax𝑡+ Bu𝑡 (2.8) y𝑡= Cx𝑡+ Du𝑡 (2.9) e em tempo discreto: x𝑘+1 = Ax𝑘+ Bu𝑘 (2.10) y𝑘 = Cx𝑘+ Du𝑘 (2.11)

envolvem o estado x ∈ R𝑛, a causa u, o efeito y e a quádrupla de matrizes compatíveis [A, B, C, D]. Se estas forem variantes com o tempo, no caso discreto teremos:

x𝑘+1 = A𝑘x𝑘+ B𝑘u𝑘 (2.12)

y𝑘 = C𝑘x𝑘+ D𝑘u𝑘. (2.13)

2.2

Regressão Linear

Uma regressão é uma representação alternativa para relação de causa e efeito. Por exemplo se 𝑦𝑘 é uma resposta escalar, também chamada de variável dependente, e z𝑘 uma

ou mais variáveis independentes, também chamadas de variáveis explicatórias ou regressores, quer sejam entradas exógenas, com ou sem atrasos, ou valores passados da saída, o modelo de regressão linear neste caso de múltiplos regressores e uma saída MISO (do inglês Multiple

Input - Single Output) pode ser representado por:

𝑦𝑘 = z𝑇𝑘𝜃 (2.14)

em que 𝜃 é um vetor de parâmetros desconhecidos do modelo. O modelo de regressão (2.14) é chamado de linear porque a resposta do modelo é uma combinação linear dos regressores. Os fatores que multiplicam os regressores na combinação linear, os parâmetros do modelo, devem ser aproximados, ou estimados, no processo de ajuste do modelo (PINDYCK; RUBINFELD, 1991; MADDALA, 2001; GRIFFITHS et al., 1993; KENDALL; STUART, 1973). Particular-mente, quando um modelo auto-regressivo tem um único regressor, o modelo é chamado de regressão linear simples. Neste caso a reta de regressão que representa o modelo linear pode ser representada usando um plano cartesiano de duas dimensões, onde um eixo é a saída 𝑦𝑘

e o outro é o único regressor 𝑧𝑘. Neste caso a inclinação dessa reta e a sua interseção com o

Referências

Documentos relacionados

No entanto, maiores lucros com publicidade e um crescimento no uso da plataforma em smartphones e tablets não serão suficientes para o mercado se a maior rede social do mundo

Estes resultados apontam para melhor capacidade de estabelecimento inicial do siratro, apresentando maior velocidade de emergência e percentual de cobertura do solo até os 60

Entendendo, então, como posto acima, propõe-se, com este trabalho, primeiramente estudar a Lei de Busca e Apreensão para dá-la a conhecer da melhor forma, fazendo o mesmo com o

A variação do pH da fase móvel, utilizando uma coluna C8 e o fluxo de 1,2 mL/min, permitiu o ajuste do tempo de retenção do lupeol em aproximadamente 6,2 minutos contribuindo para

Este estudo tem como objetivos identificar os níveis de trauma manifestados e de estratégias de coping utilizadas pelos TEPH; caracterizar os incidentes mais

em pacientes que apresentaram essas reações fora do ambiente hospitalar e que internaram devido `a sua gravidade, e a minoria em pacientes internados que apresentaram

forficata recém-colhidas foram tratadas com escarificação mecânica, imersão em ácido sulfúrico concentrado durante 5 e 10 minutos, sementes armazenadas na geladeira (3 ± 1

A baixa taxa de desconto ao longo dos anos de produção do campo, para o cálculo da função objetivo, aliada a baixa produção de água que a locação de