Bases de regras nebulosas - Modelos de previs˜ao de vaz˜oes

2.2 Modelos de previs˜ao de vaz˜oes

2.2.3 Bases de regras nebulosas

Um sistema nebuloso é um modelo baseado em regras lingu´ısticas do tipo se-então. Estas regras são as responsáveis por representar o conhecimento adquirido pelo especialista, ou extra´ıdo de dados, os quais fornecem informa¸cões através de variáveis de entrada e sa´ıda do sistema. Dado que não existe uma maneira formal e efetiva de extra¸cão do conhecimento, a análise dos dados dispon´ıveis para a extra¸cão de informa¸cão pelo especialista, com o objetivo de determinar o número de regras adequadas e assim, definir a estrutura do sistema nebuloso, torna-se uma tarefa dif´ıcil de ser resolvida (Er & Wu 2002).

Geralmente, sistemas baseados em regras nebulosas do tipo se-então são compostos por um mecanismo de inferência nebulosa, uma base de regras e um defuzzificador, o qual é o responsável pelo processamento das sa´ıdas locais de cada uma das regras nebulosas (Luna 2003). Já o mecanismo de inferência é o encarregado de mapear a transforma¸cão nebulosa do espa¸co de entrada para o espa¸co de sa´ıda, utilizando por sua vez, a base de regras que compõe o sistema. Os sistemas nebulosos ou modelos baseados em regras nebulosas do tipo Takagi-Sugeno (Takagi & Sugeno 1985) têm se convertido em uma poderosa ferramenta na área de engenharia para modelagem e controle de sistemas complexos (Angelov & Filev 2004), pois estes utilizam uma combina¸cão não linear de modelos simples, geralmente lineares, localizados em sub-regiões do espa¸co de entrada, de tal forma que o problema global é dividido em problemas “locais”, sendo a sa´ıda final do sistema uma combina¸cão não-linear das solu¸cões locais estimadas. Estes sistemas são capazes de processar o conhecimento de forma compreens´ıvel e de manipular incertezas e imprecisões visando solucionar problemas reais complexos (Zimmermann 1987).

Existem duas abordagens gerais para a otimiza¸cão de modelos baseados em regras nebulosas. A primeira abordagem engloba os algoritmos de aprendizado realizados de forma offline ou em batelada. Esta abordagem consiste em definir uma estrutura do modelo que será mantida fixa durante o processo de aprendizado, no qual os parâmetros do modelo definido previamente serão ajustados. Para tal, o conjunto total de dados entrada-sa´ıda dispon´ıveis para o ajuste será utilizado a cada época do processo.

Uma abordagem diferente é proposta em (Luna, Soares & Ballini 2007a), onde, embora o algoritmo de aprendizado seja baseado em uma abordagem em batelada, este utiliza em paralelo ao ajuste do modelo, critérios de adi¸cão de regras nebulosas, assim como critérios de poda, modificando a estrutura inicial durante o aprendizado. Após a etapa de ajuste construtivo, a estrutura é mantida fixa e a previsão múltiplos passos à frente é realizada para um conjunto de séries financeiras e econômicas.

A vantagem do aprendizado em batelada é que, devido à utiliza¸cão de todos os dados dispon´ıveis para o ajuste do modelo a cada época do processo de aprendizado, em geral, obtém-se ótimos locais adequados, porém, com um maior custo computacional, já que a cada época do

aprendizado, processa-se o total de dados dispon´ıveis para o treinamento. Além disso, a estrutura e parâmetros do modelo se mantém constante durante e após o aprendizado, independente de existir ou não varia¸cões consideráveis na dinâmica do problema em estudo.

No entanto, devido à própria complexidade dos problemas reais, os quais são, em geral, de natureza não linear, torna-se imposs´ıvel saber com antecedência o número adequado de regras que irão compor a estrutura do modelo. Este problema é normalmente tratado via tentativa e erro. Estruturas de diferentes tamanhos são constru´ıdas, ajustadas e testadas. O modelo com melhor desempenho é escolhido como o mais adequado.

Como alternativa a esta abordagem, surge um segundo grupo de algoritmos de aprendizado, o qual engloba os algoritmos de aprendizado de natureza dinâmica ou incremental, também co- nhecidos na literatura como modelos com aprendizado online. Nesta abordagem, uma estrutura inicial é modificada a cada itera¸cão, a medida que novos dados entrada-sa´ıda são apresentados ao modelo. A estrutura é modificada acrescentando ou eliminando regras nebulosas no decorrer do aprendizado, de acordo com critérios de adi¸cão de regras e de puni¸cão ou poda previamente estabelecidos. Ou seja, não existe uma estrutura fixa, já que tanto a estrutura do modelo como os parâmetros são variáveis no tempo.

O trabalho proposto em (Hong & White 2009) sugere a utiliza¸cão de um modelo dinâmico baseado em regas nebulosas, denominado de DNFLMS, para a constitui¸cão de um modelo hidrológico para a previsão um passo à frente da vazão diária do rio Pupu Springs, localizado no vale Takaka na Nova Zelândia.

Por outro lado, o trabalho apresentado em Luna, Soares, Lopes & Ballini (2009), mostra a capacidade de predi¸cão dos modelos dinâmicos baseados em regras nebulosas, quando utilizados na previsão vários passos à frente das vazões incrementais médias diárias para a UHE de Porto Primavera, Brasil. Além disso, o modelo FIS é proposto em (Zambelli, Luna & Soares 2009), mostrando a utiliza¸cão de uma base de regras com aprendizado offline, para a previsão um passo à frente de séries de vazões anuais.

Este modelo surgiu da simplifica¸cão do modelo construtivo proposto em (Luna, Soares & Ballini 2007b). O sistema de inferência proposto (FIS, do termo em inglês Fuzzy Inference System), é baseado em regras nebulosas e em modelos de primeira ordem, compondo um sistema nebuloso do tipo Takagi-Sugeno (TS) (Takagi & Sugeno 1985). Assim, o FIS codifica na sua estrutura uma base de regras do tipo Se-Então, adotando a seguinte representa¸cão:

Se < antecedente > Ent˜ao < consequente >

A parte do antecedente representa uma sub-região do espa¸co de entrada. Esta sub-região define a região ativa associada à regra nebulosa. A parte do consequente é definida por um modelo local que contribuirá com uma parcela na estimativa da sa´ıda final. A estrutura geral do FIS é descrita a seguir.

Estrutura geral

A estrutura do FIS ´e composta por um conjunto de M regras nebulosas de primeira ordem, do tipo Takagi-Sugeno (TS) (Takagi & Sugeno 1985), e ´e ilustrada na Figura 2.3.

xk xk

Parti¸c˜ao do espa¸co de entrada R1 R2 .. . . . . RM y₁k y₂k yk_M × × × P g₁k gk₂ gk_M g_ik Base de regras ˆ yk

Figura 2.3: Estrutura geral do FIS. Seja xk_{= [x}k

1, xk2, . . . , xkp] ∈ Rp o vetor de entrada no instante k, k ∈ Z+0; ˆyk∈ R ´e a sa´ıda

do modelo que representa em termos de previsão, a estimativa um passo à frente da série em estudo, dada a entrada xk_.

O espa¸co de entrada, representado por xk _{∈ R}p _{´e particionado em M sub-regi˜oes, sendo}

cada sub-região representada por uma regra nebulosa. os antecedentes de cada regra nebulosa Ri (do tipo Se-Então), são definidos pelos respectivos centros ci ∈ Rp e matrizes de covariância

Vi|p×p. Os consequentes s˜ao representados por modelos locais lineares com sa´ıdas denotadas

por yi, i = 1, . . . , M e definidas de acordo com:

y_ik= φk_{× θ}iT, (2.44)

onde φk_{= [1 x}k

1 xk2 . . . xkp]; θi = [θ_i0 θ_i1 . . . θ_ip] ´e o vetor de coeficientes do modelo local para a

i − th regra nebulosa.

A cada padrão de entrada associa-se um grau de pertinência referente às sub-regiões do espa¸co de entrada. Os graus de pertinência são calculados utilizando fun¸cões de pertinência gaussianas gi(xk), dadas pela seguinte equa¸cão:

gi(xk) = gik= αi· P [ i | xk ] M X q=1 αq· P [ q | xk ] , (2.45)

onde αi s˜ao coeficientes positivos que satisfazem a condi¸c˜ao de unicidade M

i=1

e P [ i | xk_{] é definida de acordo com a Equa¸cão (2.46) a seguir} P [ i | xk ] = 1 (2π)p/2_det(V i)1/2 exp −1 2(x k − ci)V−1i (xk− ci)T , (2.46) onde det(·) representa o operador determinante. Assim, a sa´ıda do FIS y(k) = ˆyk_{, é calculada}

como uma combina¸c˜ao n˜ao linear dos consequentes yk

i ponderados pelos seus respectivos graus

de pertinência gk i, ou seja: ˆ y(xk) = ˆyk = M X i=1 g_ik yk_i. (2.47) A Equa¸cão (2.46) também pode ser interpretada como a probabilidade do vetor de entrada xk _{pertencer à região ativa da i−ésima regra, já que, a medida que o dado de entrada encontra-}

se mais próximo do i−ésimo centro, maior será o valor do i−ésimo grau de pertinência. Em outras palavras, cada sub-região nebulosa é representada pelo respectivo centro ci, assim como

os parâmetros de dispersão codificados na diagonal principal da matriz de covariância associada Vi.

Assim, a dinˆamica do modelo pode ser interpretada como um mecanismo de inferˆencia nebulosa, sendo a base de regras composta por regras Ri, i = 1, . . . , M, do tipo

Rk_i : Se xk _{pertence a i−´esima regi˜ao com grau}

de pertinˆencia gk

i Ent˜ao yik = φk× θiT.

M´etodo de ajuste dos parˆametros

A obten¸cão do modelo final é realizada em duas etapas: a inicializa¸cão do modelo e o ajuste dos seus parâmetros.

Inicializa¸cão Uma das formas comumente utilizadas para a inicializa¸cão de modelos baseados em regras nebulosas consiste na utiliza¸cão de algoritmos de agrupamento, os quais como será visto, influenciam diretamente na estrutura e otimiza¸cão dos modelos.

Neste trabalho, a inicializa¸cão do modelo é realizada utilizando o algoritmo de agrupamento conhecido como algoritmo SC ou Subtractive Clustering, o qual foi originalmente proposto em (Chiu 1994). O algoritmo SC agrupa o conjunto de dados entrada-sa´ıda -utilizados para fins de ajuste do FIS- em um total de M conjuntos, sendo o processo realizado de forma não supervisionada.

O algoritmo SC proposto em (Chiu 1994), vem sendo um algoritmo bastante empregado para a gera¸cão de modelos baseados em regras, devido a sua simplicidade e capacidade para determinar de forma automática o número de centros necessários para representar de forma adequada o conjunto de dados, o qual é uma grande vantagem quando comparado a outros algoritmos de agrupamento, como por exemplo, o algoritmo tradicional Fuzzy C-Means (FCM) (Bezdek 1981).

A id´eia base do algoritmo SC ´e a seguinte. O algoritmo define um ´ındice de potencial Pkpara

cada dado entrada-sa´ıda, com k = 1, . . . , N0_{. O potencial de cada dado depende diretamente}

da distância deste para todos os outros dados do conjunto apresentado. Assim, quanto menor for a distância do dado aos outros, seu potencial será maior. Desta forma, o potencial pode ser definido como: Pk = N X j=1 exp{−αkψk− ψjk2} (2.48)

com ψk = [xk yk], α = 4/r2a, onde xk ´e o vetor de entrada ao modelo composto por p com-

ponentes; yk _{´e a sa´ıda unidimensional e r}

a ´e um termo constante e positivo que representa o

parˆametro de dispers˜ao associado a cada grupo.

Deve-se observar que, todo dado localizado em uma região com uma densidade alta de dados, terá um potencial maior, tendo assim, uma possibilidade mais alta de se tornar um novo centro. Além disso, o parâmetro ra definirá o raio de influência na vizinhan¸ca de cada um dos

centros, ou seja, a região na qual os centros exercerão a sua influência. Assim, ra é o primeiro

hiperparˆametro do modelo proposto.

Seja ψ1 o dado entrada-sa´ıda com o maior potencial P1∗. Assim, o potencial para todos os

outros dados ser˜ao atualizados como:

Pk = Pk× (1 − exp{−βkψk− ψ1k2}) (2.49)

com β = 4r2

a/rb2 e rb/ra = rba. Desta maneira, quanto mais pr´oximo esteja um dado entrada-

sa´ıda de um centro já definido, menor será o seu potencial, sendo menor a sua possibilidade de se tornar um novo centro. Neste caso, a rela¸cão de proximidade está diretamente vinculada ao valor de rba, o qual torna-se assim no segundo hiperparâmetro do FIS, e em conjunto com ra

influencia diretamente na estrutura do modelo FIS a otimizar na segunda etapa de ajuste de parˆametros.

O Algoritmo 2.2.3 resume os passos que devem ser seguidos para a defini¸cão dos centros. Assim, após a identifica¸cão do número de regras, os parâmetros do FIS são inicializados seguindo os seguintes critérios:

1. c0

i = ψi0|1...p, onde ψi0|1...p ´e composto pelos primeiros p elementos do i−´esimo centro

encontrado pelo algoritmo SC; 2. σ0

i = 1.0;

3. θ0

i = [ψi0|p+1 0 . . . 0]1×p+1, onde ψ0i|p+1 é a p + 1−ésima coordenada do i−ésimo centro

encontrado pelo algoritmo SC; 4. V0

i = 10

−4_{I, onde I ´e a matriz identidade de ordem p;}

Algorithm 1 Algoritmo de agrupamento Subtrativo - SC Sejam N dados entrada-sa´ıda [xk

1, . . . , xkp, yk], k = 1, . . . , N dispon´ıveis para o ajuste do

modelo de previs˜ao. Definir o valor de ra e rba. Calcular o potencial de todos os N dados

utilizando a Equa¸c˜ao (2.48) e selecionar o primeiro centro como sendo igual ao padr˜ao com maior potencial (P∗

1).

Passo 1. Atualizar os potenciais Pk de todos os dados utilizando a Equa¸c˜ao (2.49).

Passo 2. Verificar qual ´e o dado com potencial mais alto, sendo o potencial maior denotado por P∗ k; Passo 3. Se P∗ k > ¯εP ∗ 1, com ¯ε = 0, 5, ent˜ao ψ ∗

k ´e definido como um novo centro, ir ao Passo

5. Sen˜ao, ir ao Passo 4. Passo 4. Se P∗

k < εP1∗, com ε = 0, 15, ent˜ao o poss´ıvel centro ´e rejeitado e o processo

termina. Sen˜ao, ir ao Passo 6.

Passo 5. Atualizar os potenciais utilizando a Equa¸c˜ao (2.49) e voltar ao Passo 2.

Passo 6. Seja dmin a distˆancia m´ınima entre ψk∗ e todos os outros centros j´a selecionados.

Se dmin ra + P ∗ k P∗ 1 ≥ 1 ent˜ao ψ∗

k ´e definido como um novo centro e retorne ao Passo 5. Sen˜ao, ψ ∗

k ´e rejeitado e

P∗

k = 0. Selecionar o pr´oximo dado com maior potencial e defini-lo como um poss´ıvel novo

centro. Verificar novamente a condi¸c˜ao do Passo 6.

Ajuste Após a inicializa¸cão do FIS, os seus parâmetros são re-ajustados utilizando o algoritmo da Maximiza¸cão da Verossimilhan¸ca (EM), na sua versão offline, através de uma sequência de passos E-M (Expectation-Maximization), originalmente proposto para o ajuste de modelos de mistura de especialistas (Jacobs, Jordan, Nowlan & Hinton 1991).

O objetivo do algoritmo EM é encontrar um conjunto de valores para os parâmetros do FIS, tal que a fun¸cão de verossimilhan¸ca seja maximizada. Em termos práticos, trabalha-se com o logaritmo da fun¸cão de verossimilhan¸ca dos valores observados yk_{. Esta fun¸cão objetivo é}

denotada por L, e definida como segue

L(D, Ω) = N X k=1 ln M X i=1 gi(xk, C) × P (yk | xk, θi) ! (2.50)

onde D = {xk_{, y}k_{|k = 1, . . . , N}, Ω representa o conjunto de parˆametros a otimizar e C cont´em}

apenas os parâmetros dos antecedentes (centros e matrizes de covariância). No entanto, para maximizar L(D, Ω), é necessário estimar os parâmetros incompletos ou desconhecidos hk

i du-

rante o passo E. Este dado faltante, ´e definido como a probabilidade a posteriori de xk_pertencer

à região ativa da i−ésima regra nebulosa.

Quando o algoritmo EM ´e adaptado para o ajuste de sistemas nebulosos, hk

i pode ser inter-

pretado como a estimativa a posteriori do grau de pertinˆencia gk

i ´e calculada de acordo com

hk_i = αiP (i | x k_{)P (y}k _{| x}k_{, θ} i) PM q=1αqP (q | xk)P (yk | xk, θq) (2.51) para i = 1, . . . , M. Estas estimativas são chamadas a posteriori, pois são calculadas assumindo que yk_{, k = 1, . . . , N já é conhecida. Além disso, a probabilidade condicional P (y}k_|xk_{, θ}

i) ´e dada por: P (yk _{| x}k, θi) = 1 p 2πσ2 i exp −[y k_{− y}k i]2 2σ2 i (2.52) com σ2

i estimada como segue:

σ2_i = N X k=1 hk_i[yk_{− y}_ik]2 ! / N X k=1 hk_i (2.53)

Portanto, o algoritmo EM para a otimiza¸c˜ao dos parˆametros do FIS pode ser resumido nos seguintes passos:

1. Passo E: estimar hk

i utilizando a Eq. (2.51);

2. Passo M: maximizar a fun¸cão objetivo da Eq. (2.50) e atualizar os parâmetros dos modelos, com valores ótimos dados por:

αi = 1 N N X k=1 hk_i (2.54) ci = N X k=1 hk_ixk ! / N X k=1 hk_i (2.55) Vi = N X k=1 hk_i(xk_{− c}i)′(xk− ci) ! / N X k=1 hk_i (2.56) para i = 1, . . . , M, N ´e o total de dados entrada-sa´ıda dispon´ıveis para o ajuste do FIS. Em todas estas equa¸c˜oes, Vi foi considerada como uma matriz diagonal positiva, como

uma alternativa para simplificar o problema e evitar solu¸cões infact´ıveis. Uma solu¸cão ótima para θi é obtida a partir da solu¸cão da equa¸cão seguinte:

N X k=1 hk i σ2 i yk_{− φ}k_{× θ}i · φk = 0 (2.57) onde σi ´e o desvio padr˜ao referente a cada sa´ıda local yi, i = 1, . . . , M, com σi2 definido

pela Eq.(2.53). Finalizado o passo M, calcular o novo valor de L(D, Ω).

No documento Sistema de suporte para previsão e geração de séries sintéticas de vazões (páginas 37-44)