• Nenhum resultado encontrado

XII Simpósio Brasileiro de Automação Inteligente (SBAI) Natal RN, 25 a 28 de outubro de 2015

N/A
N/A
Protected

Academic year: 2021

Share "XII Simpósio Brasileiro de Automação Inteligente (SBAI) Natal RN, 25 a 28 de outubro de 2015"

Copied!
6
0
0

Texto

(1)

UMA AVALIA ¸C ˜AO EMP´IRICA DE MODELOS DE PROCESSOS GAUSSIANOS PARA IDENTIFICA ¸C ˜AO ROBUSTA DE SISTEMAS DIN ˆAMICOS

C´esar Lincoln C. Mattos∗, Jos´e Daniel A. Santos, Guilherme A. Barreto∗ ∗Universidade Federal do Cear´a, Departamento de Engenharia de Teleinform´atica,

Centro de Tecnologia, Campus do Pici, Fortaleza, Cear´a, Brasil

Instituto Federal de Educa¸c˜ao, Ciˆencia e Tecnologia do Cear´a,

Departamento de Ind´ustria, Maracana´u, Cear´a, Brasil

Emails: cesarlincoln@terra.com.br, jdalencars@gmail.com, gbarreto@ufc.br

Abstract— System identification comprises a number of linear and nonlinear tools for black-box modeling of dynamical systems, with applications in several areas of engineering, control, biology and economy. However, the usual Gaussian noise assumption is not always satisfied, specially if data is corrupted by impulsive noise or outliers. Bearing this in mind, the present paper aims at evaluating how Gaussian Process (GP) models perform in system identification tasks in the presence of outliers. More specifically, we compare the performances of two existing robust GP-based regression models in experiments involving five benchmarking datasets with controlled outlier inclusion. The results indicate that, although still sensitive in some degree to the presence of outliers, the robust models are indeed able to achieve lower prediction errors in corrupted scenarios when compared to conventional GP-based approach.

Keywords— Robust system identification, Gaussian process, Approximate Bayesian inference, Adaptive and learning systems.

Resumo— Identifica¸c˜ao de sistemas consiste em diversas ferramentas lineares e n˜ao-lineares para modelagem do tipo “caixa-preta” de sistemas dinˆamicos, com aplica¸c˜oes em diversas ´areas, como engenharia, controle, biologia e economia. Entretanto, a suposi¸c˜ao convencional de ru´ıdo Gaussiano n˜ao ´e sempre satisfeita, especialmente se os dados est˜ao corrompidos por ru´ıdo impulsivo ou outliers. Nesse contexto, o presente trabalho visa avaliar o desempenho de modelos de Processos Gaussianos (PGs) em tarefas de identifica¸c˜ao de sistemas na presen¸ca de outliers. Mais especificamente, o desempenho de dois modelos de regress˜ao robusta baseados em PG j´a existentes s˜ao comparados em experimentos envolvendo cinco conjunto de dados artificiais com inclus˜ao controlada de outliers. Os resultados indicam que, apesar de ainda sens´ıveis em certo n´ıvel `a presen¸ca de outliers, os modelos robustos s˜ao capazes de obter menores erros de predi¸c˜ao nos cen´arios com contamina¸c˜ao quando comparados com a abordagem convencional de PG.

Palavras-chave— Identifica¸c˜ao robusta de sistemas, Processos Gaussianos, Inferˆencia Bayesiana aproximada, Sistemas adaptativos e de aprendizagem.

1 Introdu¸c˜ao

Processos Gaussianos (PGs) fornecem um arca-bou¸co probabil´ıstico pr´atico para o aprendizado de sistemas de aprendizagem (Rasmussen and Williams, 2006). Devido sua versatilidade, mo-delos de PG tˆem recebido consider´avel aten¸c˜ao da comunidade de aprendizagem de m´aquina, levando a aplica¸c˜oes bem sucedidas nas ´areas de classifica¸c˜ao e regress˜ao (Williams and Bar-ber, 1998), visualiza¸c˜ao de dados de alta dimensi-onalidade (Lawrence, 2004) e identifica¸c˜ao de sis-temas (Kocijan, 2005), para citar algumas.

Neste trabalho ´e de particular interesse a apli-ca¸c˜ao de modelos de PG em problemas de identi-fica¸c˜ao de sistemas dinˆamicos, tarefa em que fer-ramentas lineares e n˜ao-lineares s˜ao usadas para modelagem do tipo “caixa-preta”, na qual a iden-tifica¸c˜ao ´e feita somente a partir dos dados de en-trada e sa´ıda do sistema, sem conhecimento de detalhes sobre seu funcionamento. Entre as pri-meiras contribui¸c˜oes de modelos de PG na ´area de identifica¸c˜ao de sistemas, destaca-se o trabalho (Murray-Smith et al., 1999), que aplica tais mo-delos em dados referentes `a dinˆamica de ve´ıculos.

Desde ent˜ao, v´arias abordagens interessantes tˆem surgido na literatura, como modelos de PG com observa¸c˜oes derivativas (Solak et al., 2003), mo-delos locais de PG (Aˇzman and Kocijan, 2011), modelos evolutivos de PG (Petelin et al., 2013), e modelos de PG baseados em espa¸co de estados (Frigola et al., 2014).

As abordagens mencionadas tˆem adotado uma verossimilhan¸ca Gaussiana para o modelo de ru´ıdo. No entanto, por se tratar de uma distri-bui¸c˜ao de caudas leves, a verossimilhan¸ca Gaus-siana n˜ao ´e capaz de lidar adequadamente com ru´ıdo impulsivo (um poss´ıvel tipo de outlier ). Quando tais outliers s˜ao encontrados nos dados usados pelo modelo para estimar seus hiperparˆ a-metros, os mesmos n˜ao s˜ao determinados correta-mente. Al´em disso, por ser uma abordagem n˜ao-param´etrica1, um modelo de PG leva consigo os

dados de estima¸c˜ao quando usado para predi¸c˜ao, i.e., as amostras de estima¸c˜ao contendo outliers, assim como os hiperparˆametros erroneamente es-1Modelos n˜ao-param´etricos permitem que sua

comple-xidade aumente com a quantidade de dados observados, n˜ao possuindo um n´umero limitado de parˆametros, ao con-tr´ario de modelos param´etricos.

(2)

timados, ser˜ao usados na etapa de predi¸c˜ao. Essa caracter´ıstica pode comprometer a capacidade de generaliza¸c˜ao do modelo a novos dados.

Nesse contexto, distribui¸c˜oes de caudas pesa-das tendem a ser mais apropriapesa-das para mode-lar o ru´ıdo de observa¸c˜ao quando outliers est˜ao presentes. Tais distribui¸c˜oes s˜ao capazes de con-siderar, ou justificar, valores extremos, pois estes possuem maior probabilidade que em distribui¸c˜oes de caudas leves. Essa capacidade reduz o efeito de outliers presentes nos dados na etapa de estima-¸c˜ao. Entretanto, enquanto a inferˆencia em mode-los de PG com verossimilhan¸ca Gaussiana ´e anali-ticamente trat´avel, modelos com verossimilhan¸ca n˜ao-Gaussiana n˜ao o s˜ao, requerendo o uso de t´ec-nicas de aproxima¸c˜ao, como o m´etodo Variational Bayes (VB) (Jordan et al., 1999) e o algoritmo Expectation Propagation (EP) (Minka, 2001).

Modelos de PG para regress˜ao robusta tˆem recentemente atra´ıdo a aten¸c˜ao da comunidade de aprendizagem de m´aquina. Em (Faul and Tip-ping, 2001), o ru´ıdo impulsivo ´e modelado como sendo gerado por uma segunda distribui¸c˜ao Gaus-siana com maior variˆancia, resultando em uma mistura de Gaussianas como modelo de ru´ıdo. A inferˆencia ´e feita via VB. Em (Kuss et al., 2005), o mesmo modelo de ru´ıdo ´e escolhido, mas a in-ferˆencia segue o algoritmo EP. Em (Tipping and Lawrence, 2005), modelos de PG com verossimi-lhan¸ca t de Student s˜ao aplicados no contexto de inferˆencia variacional. A mesma verossimilhan¸ca ´e usada em (Jyl¨anki et al., 2011), mas dessa vez segue uma abordagem via aproxima¸c˜ao de La-place. A mesma abordagem ´e usada em (Berger and Rauscher, 2012) para calibrar motores a die-sel a partir de dados contaminados com outliers. Na tese de doutorado (Kuss, 2006), al´em de ser feita a revis˜ao de diversos modelos de PG para re-gress˜ao robusta, um modelo de ru´ıdo baseado na verossimilhan¸ca de Laplace ´e detalhado, seguindo uma inferˆencia via EP.

A partir do exposto, o objetivo do presente trabalho consiste em avaliar alguns dos modelos robustos de PG mencionados na tarefa de identi-fica¸c˜ao de sistemas dinˆamicos n˜ao-lineares na pre-sen¸ca de outliers. Mais especificamente, ser´a apli-cado um modelo baseado em verossimilhan¸ca de t de Student e inferˆencia via VB, como em (Tipping and Lawrence, 2005), e um modelo com verossimi-lhan¸ca de Laplace e inferˆencia via EP, de acordo com (Kuss, 2006). Tais algoritmos, inicialmente propostos para regress˜ao robusta, ter˜ao seu de-sempenho avaliado em cen´arios de identifica¸c˜ao de sistemas dinˆamicos contaminados com outliers e comparados com modelos convencionais de PG (i.e. n˜ao-robustos) que tˆem sido usados at´e ent˜ao pela literatura de identifica¸c˜ao de sistemas.

O restante deste artigo encontra-se organi-zado da seguinte maneira: na Se¸c˜ao 2 ´e descrito o problema de identifica¸c˜ao de sistemas dinˆamicos

n˜ao-lineares via modelos de PG convencionais e as duas variantes robustas mencionadas. Na Se¸c˜ao 3 s˜ao reportados os resultados referentes `a avalia¸c˜ao desses modelos em cinco conjuntos de dados arti-ficiais com diferentes n´ıveis de contamina¸c˜ao com outliers. O trabalho ´e conclu´ıdo na Se¸c˜ao 4.

2 PG para Identifica¸c˜ao de Sistemas Dinˆamicos N˜ao-lineares

Dado um modelo n˜ao linear de sistema dinˆamico auto-regressivo com entradas ex´ogenas (NARX, sigla em inglˆes), cuja i-´esima entrada vetorial xi ∈ RD ´e composta por Ly sa´ıdas passadas

ob-servadas yi∈ R e Lu entradas ex´ogenas passadas

ui∈ R, tem-se (Kocijan, 2005):

yi = ti+ i, (1)

ti = f (xi), i∼ N (i|0, σ2n),

xi = [yi−1,· · · , yi−Ly, ui−1,· · · , ui−Lu]

T,

em que i ´e o instante de observa¸c˜ao, ti ∈ R ´e a

sa´ıda real sem ru´ıdo, f (·) ´e uma fun¸c˜ao n˜ao-linear desconhecida e i´e um ru´ıdo de observa¸c˜ao

Gaus-siano. Depois de N instantes, tem-se o conjunto de dadosD = (xi, yi)|Ni=1 = (X, y), em que a

ma-triz X ∈ RN×D ´e chamada matriz de regressores

e y∈ RN.

Ap´os a estima¸c˜ao do modelo, o mesmo pode ser usado para simular a sa´ıda do sistema identi-ficado. Neste trabalho utiliza-se uma abordagem iterativa em que sa´ıdas estimadas anteriores s˜ao usadas como regressores para predi¸c˜oes futuras. Esse procedimento ´e chamado de simula¸c˜ao livre ou predi¸c˜ao de infinitos passos a frente.

2.1 Modelagem convencional de PG

No contexto de modelos de PG, considera-se para a fun¸c˜ao n˜ao-linear f (·) uma distribui¸c˜ao a priori Gaussiana multivariada t = f (X)∼ PG(t|0, K), em que um vetor de zeros foi considerado como m´edia e K ∈ RN×N, K

ij = k(xi, xj), ´e a

ma-triz de covariˆancia, obtida atrav´es da fun¸c˜ao de kernel k(·, ·), que deve gerar uma matriz semide-finida positiva para constituir uma matriz de co-variˆancia v´alida. A fun¸c˜ao a seguir ´e uma esco-lha comum e ser´a usada ao longo deste trabalho (Rasmussen, 1996): k(xi, xj) = σf2exp " −12 D X d=1 w2 d(xid− xjd)2 # + σl2xTi xj+ σ2c, (2) em que o vetor θ = [σ2 f, w21, . . . , w2D, σ2l, σc2]T re´une

os hiperparˆametros que caracterizam a covariˆancia do modelo. Diversas outras fun¸c˜oes de kernel s˜ao detalhadas em (Rasmussen and Williams, 2006).

Considerando uma verossimilhan¸ca Gaussi-ana multivariada p(y|t) = N (y|t, σ2

(3)

I ´e a matriz identidade de dimens˜ao N × N, a distribui¸c˜ao a posteriori p(t|y, X) pode ser calcu-lada analiticamente. A distribui¸c˜ao de uma nova sa´ıda t∗, dada uma nova entrada x∗, tamb´em pode

ser obtida analiticamente

p(t∗|y, X, x∗) = N (t∗|µ∗, σi2), (3) µ∗ = k∗N(K + σn2I)−1y, σ2 = k∗∗− k∗N(K + σn2I)−1kN∗, em que k∗N = [k(x∗, x1),· · · , k(x∗, xN)], kN∗ = kT ∗N e k∗∗ = k(x∗, x∗). A distribui¸c˜ao preditiva

de y∗´e similar `a apresentada na Eq. (3), mas com

a variˆancia adicionada de σ2 n.

O vetor de hiperparˆametros θ pode ser es-tendido para incluir a variˆancia do ru´ıdo de ob-serva¸c˜ao σ2

n. Dessa maneira, todos os hiperparˆ

a-metros podem ser determinados simultaneamente pela maximiza¸c˜ao da log-verossimilhan¸ca margi-nal ln p(y|X, θ) dos dados observados, tamb´em chamada de evidˆencia do modelo:

θ = arg max  −12ln|K + σ2 nI|− (4) 1 2y T(K + σ2 nI)−1y− N 2 ln(2π)  . O procedimento de otimiza¸c˜ao pode ser guiado pelos gradientes da log-verossimilhan¸ca marginal com rela¸c˜ao a cada componente do vetor θ. ´E inte-ressante ressaltar que a otimiza¸c˜ao dos hiperparˆ a-metros pode ser vista como uma etapa de sele¸c˜ao de modelos a partir dos dados de estima¸c˜ao. 2.2 Modelos Robustos de PG com

verossimi-lhan¸ca n˜ao-Gaussiana

O modelo de PG com verossimilhan¸ca Gaussiana descrito anteriormente n˜ao e robusto a outliers, devido suas caudas leves. Uma alternativa con-siste em considerar um verossimilhan¸ca de caudas pesadas, como as distribui¸c˜oes de Laplace e de t de Student, respectivamente dadas por

pLap(y|t) = N Y i=1 1 2sexp  −|yi− ts i|  , (5) pStu(y|t) = N Y i=1 ( Γ((ν + 1)/2) Γ(ν/2)√πνσ2· (6)  1 + 1 ν (yi− ti)2 σ2 −(ν+1)/2) ,

em que s, ν e σ2 ao hiperparˆametros das

dis-tribui¸c˜oes de verossimilhan¸ca e Γ(·) ´e a fun¸c˜ao gamma.

Entretanto, quando uma verossimilhan¸ca n˜ ao-Gaussiana ´e escolhida, v´arias das express˜oes do modelo de PG deixam de serem anal´ıticas. Em tais casos, uma estrat´egia consiste em aproximar as integrais encontradas nos c´alculos atrav´es de

algoritmos de amostragem, como Markov Chain Monte Carlo (MCMC) (Neal, 1997). No entanto, essa abordagem n˜ao ser´a considerada neste traba-lho.

A alternativa escolhida neste artigo envolve o uso de m´etodos de inferˆencia Bayesiana aproxi-mada para superar express˜oes n˜ao anal´ıticas dos modelos de PG. Mais especificamente, optou-se pelos algoritmos Variational Bayes (VB) e Expec-tation Propagation (EP), brevemente descritos a seguir.

2.2.1 Variational Bayes (VB)

Considerando-se a aplica¸c˜ao do m´etodo VB ao caso da verossimilhan¸ca t de Student, a distri-bui¸c˜ao dever´a ser reescrita da seguinte maneira (Kuss, 2006):

p(y|t, σ2) = N (y|t, diag(σ2)), (7) p(σ2|α, β) = N Y i=1 InvΓ(σ2i|αi, βi), (8) em que t, σ2

∈ RN ao vari´aveis latentes (n˜

ao-observadas), diag(·) ´e uma fun¸c˜ao que cria uma matriz diagonal a partir de um vetor e σ2

i tem

distribui¸c˜ao a priori gamma invertida com parˆ a-metros αi e βi.

A distribui¸c˜ao conjunta a posteriori de t e σ2

ser´a considerada da forma fatorada a seguir p(t, σ2 |y, X) ≈ q(t)q(σ2) (9) =N (t|m, A)QNi=1InvΓ(σ2 i| ˜αi, ˜βi)  , em que m ∈ RN, A ∈ RN×N e ˜α, ˜β ∈ RN ao

parˆametros variacionais desconhecidos.

Em seguida, um limite inferior L(q(t)q(σ2))

para a verossimilhan¸ca marginal pode ser calcu-lado a partir da rela¸c˜ao desta com a distribui¸c˜ao a posteriori fatorada q(t)q(σ2) (Tipping and

La-wrence, 2005):

ln p(y|X, θ) = L(q(t)q(σ2)) + (10)

KL(q(t)q(σ2)||p(t, σ2|y, X)), em que o ´ultimo termo ´e a divergˆencia de Kullback-Leibler (KL) entre a distribui¸c˜ao apro-ximada e a verdadeira distribui¸c˜ao a posteriori. A maximiza¸c˜ao do limiteL(q(t)q(σ2))

simultane-amente minimiza o termo referente `a divergˆencia de KL, melhorando a aproxima¸c˜ao (Tipping and Lawrence, 2005).

A otimiza¸c˜ao dos hiperparˆametros e das va-ri´aveis latentes pode ser feita de maneira simi-lar ao algoritmo Expectation-Maximization (EM), conforme detalhado em (Kuss, 2006). Em se-guida, os momentos da distribui¸c˜ao preditiva p(t∗|y, X, x∗) =N (t∗|µ∗, σ2∗) para uma nova

en-trada x∗ ser˜ao dados por

µ∗ = k∗N(K + Σ)−1y, (11)

(4)

em que Σ = diag( ˜β/ ˜α). Embora o c´alculo da distribui¸c˜ao preditiva de y∗n˜ao seja anal´ıtico, sua

m´edia ´e igual ao valor µ∗ calculado na Eq. (11).

2.2.2 Expectation Propagation (EP) O algoritmo EP consiste em aproximar uma dis-tribui¸c˜ao a posteriori por uma Gaussiana a par-tir da seguinte estrutura fatorada (Minka, 2001; Kuss, 2006): p(t|y, X) ≈ N (t|0, K)q(y |X) N Y i=1 c(ti, µi, σ2i, Zi) = q(t|y, X) = N (t|m, A), (13) em que c(ti, µi, σi2, Zi) = ZiN (ti|µi, σi2) s˜ao

cha-madas de fun¸c˜oes locais (site functions, em in-glˆes). O vetor de m´edias m∈ RN e a matriz de

co-variˆancia A∈ RN×N da distribui¸c˜ao aproximada podem ser calculados por m = AΣ−1µ e A = (K−1+ Σ−1)−1, em que Σ = diag(σ2

1,· · · , σN2) e

µ = [µ1,· · · , µN]T.

Os momentos da distribui¸c˜ao preditiva p(t∗|y, X, x∗) = N (t∗|µ∗, σ2∗) referente a uma

nova entrada x∗ ser˜ao dados por

µ∗= k∗NK−1m, (14)

σ2

∗= k∗∗− k∗N(K−1− K−1AK−1)kN∗.(15)

Embora os c´alculos necess´arios para obter a dis-tribui¸c˜ao de y n˜ao sejam anal´ıticos, sua m´edia tamb´em ´e calculada pela Eq. (14).

As vari´aveis µi, σi2 e Zi s˜ao obtidas via

casa-mento iterativo de mocasa-mentos, procedicasa-mento que simultaneamente minimiza a divergˆencia reversa de Kullback-Leibler entre a verdadeira distribui-¸c˜ao a posteriori e a distribui¸c˜ao aproximada. A convergˆencia do algoritmo n˜ao ´e garantida, mas reporta-se na literatura que o m´etodo de EP fun-ciona bem com modelos de PG (Rasmussen and Williams, 2006). O algoritmo completo, adaptado para uma verossimilhan¸ca que segue uma distri-bui¸c˜ao de Laplace, ´e detalhado em (Kuss, 2006).

3 Experimentos

O desempenho dos modelos descritos anterior-mente ser´a verificado empiricamente na tarefa de identifica¸c˜ao de sistemas n˜ao-lineares na presen¸ca de outliers. Os experimentos computacionais se-r˜ao realizados com cinco conjuntos de dados arti-ficiais, detalhados na Tab. 1. Os primeiros quatro conjuntos foram descritos no trabalho pioneiro de (Narendra and Parthasarathy, 1990). O quinto conjunto foi gerado de acordo com as instru¸c˜oes apresentadas em (Kocijan, 2005).

Al´em do ru´ıdo Gaussiano, indicado na ´ultima coluna da Tab. 1, os dados de estima¸c˜ao de to-dos os conjuntos tamb´em foram incrementalmente contaminados com um n´umero de outliers igual a

2,5%, 5% e 10% da quantidade de amostras de es-tima¸c˜ao. Cada amostra aleatoriamente escolhida foi adicionada de um valor uniformemente distri-bu´ıdo U(−My, +My), em que My ´e o m´aximo

valor absoluto da sa´ıda. ´E importante enfatizar que somente os valores de sa´ıda foram corrompi-dos nessa etapa. Essa metodologia de contami-na¸c˜ao ´e similar `aquela realizada em (Majhi and Panda, 2011). As ordens Lu e Ly escolhidas para

os regressores seguiram os maiores atrasos apre-sentados na segundo coluna da Tab. 1.

O desempenho dos seguintes modelos foram comparados: PG convencional, PG com verossi-milhan¸ca t de Student e inferˆencia via VB (PG-tVB) e PG com verossimilhan¸ca de Laplace e infe-rˆencia via EP (PG-LEP). Os valores obtidos para a raiz dos erros quadr´aticos m´edios (RMSE, sigla em inglˆes) est˜ao apresentados na Tab. 2.

Em quase todos os cen´arios com outliers am-bas as variantes robustas apresentaram melhor desempenho que o modelo de PG convencional. Apenas em um caso, conjunto Artificial 3 com 10% de contamina¸c˜ao, o modelo de PG teve me-lhor desempenho que um dos m´etodos robustos (PG-tVB). Nos cen´arios sem outliers, i.e., somente com ru´ıdo Gaussiano, o modelo de PG alcan¸cou o melhor valor de RMSE para os conjuntos Arti-ficial 1 e 4, mas seu desempenho foi pr´oximo dos modelos robustos nos demais conjuntos sem con-tamina¸c˜ao.

Uma boa resistˆencia a outliers foi obtida nos conjuntos Artificial 1 e 2, em que os modelos PG-tVB e PG-LEP sendo pouco afetados nos casos com contamina¸c˜ao. O desempenho mais relevante foi aquele obtido pelo modelo PG-tVB nos cen´ a-rios referentes ao conjunto Artificial 2, em que houve pouca degrada¸c˜ao no valor de RMSE.

No conjunto Artificial 3, apenas o modelo PG-tVB com 2,5% de outliers obteve erro pr´oximo do cen´ario sem outliers. Nos demais casos, ambas va-riantes, embora superiores ao modelo de PG con-vencional, apresentaram maiores valores de RMSE que seus resultados sem contamina¸c˜ao.

De maneira semelhante, nos experimentos com os conjuntos Artificial 4 e 5 tamb´em observou-se que todos os modelos foram afeta-dos pela contamina¸c˜ao dos dados de estima¸c˜ao, mesmo para quantidades menores de outliers. No entanto, ´e importante enfatizar que ambos os mo-delos PG-tVB e PG-LEP obtiveram melhores va-lores de RMSE que o modelo de PG convencional, frequentemente por uma ampla margem, como ob-servado no conjunto Artificial 4 para o modelo PG-tVB. Nesses casos, as variantes robustas po-dem ser consideradas uma melhoria v´alida sobre o modelo de PG convencional.

Finalmente, deve ser mencionado que du-rante os experimentos computacionais a aborda-gem variacional do modelo PG-tVB mostrou-se mais est´avel que o algoritmo EP usado no

(5)

mo-Tabela 1: Detalhes dos cinco conjuntos de dados artificiais usados nos experimentos computacionais. O ru´ıdo indicado na ´ultima coluna ´e adicionado apenas `a sa´ıda dos dados de estima¸c˜ao. Note que U(A, B) ´e um n´umero aleat´orio uniformemente distribu´ıdo entre A e B.

Entrada/Amostras

# Sa´ıda Estima¸c˜ao Teste Ru´ıdo

1 yi= yi−11+yyi−22 (yi−1+2.5) i−1+y2i−2 + ui−1 ui = U(−2, 2) ui = sen(2πi/25) N (0, 0.29) 300 amostras 100 amostras 2 yi= 1+yyi−12 i−1 + u 3 i−1 ui = U(−2, 2) ui= sen(2πi/25)+ N (0, 0.65) sen(2πi/10) 300 amostras 100 amostras 3 yi= 0.8yi−1+ ui = U(−1, 1) ui = sen(2πi/25) N (0, 0.07)

(ui−1− 0.8)ui−1(ui−1+ 0.5) 300 amostras 100 amostras

4 y0.3 sen(3πui= 0.3yi−1+ 0.6yi−2+ ui= U (−1, 1) ui= sen(2πi/250) N (0, 0.18) i−1) + 0.1 sen(5πui−1) 500 amostras 500 amostras

5 yi= yi−1− 0.5 tanh(yi−1+ u3i−1)

ui=N (ui|0, 1) ui =N (ui|0, 1)

N (0, 0.0025) −1 ≤ ui≤ 1 −1 ≤ ui≤ 1

150 amostras 150 amostras

Tabela 2: Sum´ario dos valores de RMSE obtidos nas simula¸c˜oes com e sem outliers.

Artificial 1 Artificial 2 % de outliers 0% 2,5% 5% 10% 0% 2,5% 5% 10% PG 0.2134 0.3499 0.3874 0.4877 0.3312 0.3724 0.5266 0.4410 PG-tVB 0.2455 0.3037 0.2995 0.2868 0.3189 0.3247 0.3284 0.3306 PG-LEP 0.2453 0.2724 0.2720 0.3101 0.3450 0.3352 0.3471 0.3963 Artificial 3 Artificial 4 PG 0.1106 0.4411 0.7022 0.6032 0.6384 2.1584 2.2935 2.4640 PG-tVB 0.1097 0.1040 0.3344 0.8691 0.6402 0.7462 2.2220 2.1951 PG-LEP 0.0825 0.3527 0.4481 0.5738 0.9188 1.1297 2.1742 2.3762 Artificial 5 PG 0.0256 0.0751 0.1479 0.1578 PG-tVB 0.0216 0.0542 0.0568 0.1006 PG-LEP 0.0345 0.0499 0.0747 0.1222

delo PG-LEP, mesmo com sua implementa¸c˜ao tendo seguido as recomenda¸c˜oes para maior esta-bilidade num´erica feitas em (Rasmussen and Wil-liams, 2006) e (Kuss, 2006). Essa observa¸c˜ao pode ser um fator decisivo na escolha do modelo a ser aplicado para identifica¸c˜ao de sistemas.

4 Conclus˜ao

Neste trabalho foram avaliados modelos robustos de PG na tarefa de identifica¸c˜ao de sistemas di-nˆamicos n˜ao-lineares na presen¸ca de outliers. Os experimentos com cinco conjuntos de dados artifi-ciais foram realizados com um modelo de PG com verossimilhan¸ca t de Student e inferˆencia variaci-onal (PG-tVB) e um modelo com verossimilhan¸ca de Laplace com inferˆencia via algoritmo EP, al´em do modelo de PG convencional, com verossimi-lhan¸ca Gaussiana.

Embora as variantes robustas tenham

apre-sentado desempenho superior nos cen´arios com outliers, n˜ao se pode afirmar categoricamente que as mesmas foram insens´ıveis `a contamina¸c˜ao dos dados, pois ambos os modelos PG-tVB e PG-LEP obtiveram RMSE consideravelmente piores em al-guns casos com outliers, com valores duas ou mais vezes maiores que nos casos sem outliers. Depen-dendo da tarefa em an´alise, tal degrada¸c˜ao pode ou n˜ao ser tolerada. Esse argumento, assim como as instabilidades num´ericas encontradas no algo-ritmo EP, encoraja a pesquisa por modelos alter-nativos baseados em PG que sejam mais apropri-ados para a identifica¸c˜ao robusta de sistemas.

Agradecimentos

Os autores agradecem o suporte financeiro da FUNCAP, IFCE, NUTEC e CNPq (concess˜ao no. 309841/2012-7).

(6)

Referˆencias

Aˇzman, K. and Kocijan, J. (2011). Dynamical systems identification using Gaussian process models with incorporated local models, Eng Appl Artif Intel 24(2): 398–408.

Berger, B. and Rauscher, F. (2012). Robust Gaussian process modelling for engine cali-bration, Proceedings of the 7th Vienna Inter-national Conference on Mathematical Model-ling (MATHMOD’2012), pp. 159–164. Faul, A. C. and Tipping, M. E. (2001). A

varia-tional approach to robust regression, Artifi-cial Neural Networks (ICANN)’2001, Sprin-ger, pp. 95–102.

Frigola, R., Chen, Y. and Rasmussen, C. (2014). Variational Gaussian process state-space mo-dels, Advances in Neural Information Proces-sing Systems 27 (NIPS), pp. 3680–3688. Jordan, M. I., Ghahramani, Z., Jaakkola, T. S.

and Saul, L. K. (1999). An introduction to variational methods for graphical models, Machine learning 37(2): 183–233.

Jyl¨anki, P., Vanhatalo, J. and Vehtari, A. (2011). Robust gaussian process regression with a Student-t likelihood, Journal of Machine Le-arning Research 12: 3227–3257.

Kocijan, Juˇs; Girard, A. B. B. M.-S. R. (2005). Dynamic systems identification with Gaus-sian processes, Math Comp Model Dyn 11(4): 411–424.

Kuss, M. (2006). Gaussian process models for ro-bust regression, classification, and reinforce-ment learning, PhD thesis, TU Darmstadt. Kuss, M., Pfingsten, T., Csat´o, L. and

Rasmus-sen, C. E. (2005). Approximate inference for robust Gaussian process regression, Max Planck Inst. Biological Cybern., Tubingen, GermanyTech. Rep 136.

Lawrence, N. D. (2004). Gaussian process latent variable models for visualisation of high di-mensional data, Advances in Neural Informa-tion Processing Systems, pp. 329–336. Majhi, B. and Panda, G. (2011). Robust

identi-fication of nonlinear complex systems using low complexity ANN and particle swarm optimization technique, Expert Syst Appl 38(1): 321–333.

Minka, T. P. (2001). Expectation propagation for approximate Bayesian inference, Proceedings of the 17th Conference on Uncertainty in Ar-tificial Intelligence (UAI’01), Morgan Kauf-mann, pp. 362–369.

Murray-Smith, R., Johansen, T. A. and Shor-ten, R. (1999). On transient dynamics, off-equilibrium behaviour and identification in blended multiple model structures, Euro-pean Control Conference (ECC’99), Karls-ruhe, BA-14, Springer.

Narendra, K. S. and Parthasarathy, K. (1990). Identification and control of dynamical sys-tems using neural networks, IEEE T Neural Networ 1(1): 4–27.

Neal, R. M. (1997). Monte carlo implementa-tion of Gaussian process models for bayesian regression and classification, arXiv preprint physics/9701026 .

Petelin, D., Grancharova, A. and Kocijan, J. (2013). Evolving Gaussian process models for prediction of ozone concentration in the air, Simul Model Pract Th 33: 68–80. Rasmussen, C. E. (1996). Evaluation of Gaussian

processes and other methods for non-linear regression, PhD thesis, University of Toronto, Toronto, Canada.

Rasmussen, C. and Williams, C. (2006). Gaussian Processes for Machine Learning, 1 edn, MIT Press.

Solak, E., Murray-Smith, R., Leithead, W. E., Leith, D. J. and Rasmussen, C. E. (2003). Derivative observations in Gaussian process models of dynamic systems, Advances in Neural Information Processing Systems 16. Tipping, M. E. and Lawrence, N. D. (2005).

Varia-tional inference for student-t models: Robust bayesian interpolation and generalised com-ponent analysis, Neurocomputing 69(1): 123– 141.

Williams, C. K. I. and Barber, D. (1998). Bayesian classification with Gaussian processes, IEEE T Pattern Anal 20(12): 1342–1351.

Referências

Documentos relacionados

Resistance to American foul brood disease by honey bee colonies Apis mellifera, bred for hygienic behavior. Varroa jacobsoni infestation in untreated honey bee (Hymenoptera:

Disponibilizar informação; gerenciar unidades como bibliotecas, centros de documentação, centros de informação e correlatos, além de redes e sistemas de informação;

Em nossa opinião, as demonstrações contábeis acima referidas apresentam adequadamente, em todos os aspectos relevantes, a posição patrimonial e financeira consolidada do FUNBEP -

Sugere-se, assim, a ampliação do acesso aos serviços de saúde mental extra-hospitalar na atenção primária, a exemplo dos que são oferecidos pela Estratégia Saúde da Família

O instrumento de coleta de dados constitui-se da sua própria ficha de notificação (DATASUS – Tuberculose) dos casos da doença, cuja variáveis de estudo foram: sexo,

Entretanto, quando o ato for prejudicial (ex.: confissão), não poderá afetar os demais litisconsortes, visto que ninguém pode ser prejudicado por ato que não praticou. No

Factores Culturais Factores Culturais Factores Sociais Factores Sociais Factores Pessoais Factores Pessoais Cultura Cultura Subcultura Subcultura Classes Sociais Classes Sociais

Empregados admitidos após 01.05.2011 - Para o reajuste do salário do trabalhador admitido na empresa após 01.05.2011, será observado o salário atribuído ao cargo ou função ocupado