Meta-modelos Kriging - Otimização baseada em meta-modelos

2.4 Otimização baseada em meta-modelos

2.4.2 Meta-modelos Kriging

O modelo Kriging foi desenvolvido originalmente pelo engenheiro de minas sul-africano Danie Gerhardus Krige na década do 50, a quem deve seu nome (KLEIJNEN et al., 2012). A estrutura matemática foi logo melhor desenvolvida em vários artigos e livros (ver (CRESSIE, 1993; MATHERON, 1963)). Inicialmente utilizado para interpolação geo-estatística, o modelo Kriging foi posteriormente aplicado na predição de simulações computacionais de modelos determinísticos, ainda quando as variáveis de entrada encontravam-se numa ampla faixa (predição global) (KLEIJNEN et al., 2012).

Existem algumas variantes de modelos Kriging, como Kriging ordinário e Kriging universal. O Kriging ordinário é a versão mais popular devido a sua rápida e fácil construção, pois requer a estimação de menos parâmetros. Embora o Kriging universal precise do cálculo de mais parâmetros, a melhoria na acurácia da estimativa pode justicar sua escolha desde que não sejam funções de elevada dimensão

(FORRESTER e KEANE, 2009).

No Kriging universal é considerado que a função a ser aproximada pode ser expressa como uma combinação de um modelo de regressão bµ(x) e um processo estocástico representado pela função aleatória z(x) (LOPHAVEN et al., 2002). A ideia é que µ(x)b capture a tendência geral dos dados e z(x) sirva como um ajuste no do modelo; conseguindo uma maior acurácia que o Kriging ordinário que utiliza um valor xo para µb(FORRESTER e KEANE, 2009).

O Kriging universal é aplicável para sistemas com múltiplas variáveis de resposta, no entanto visando à simplicação da notação e facilitação do entendimento do leitor, o equacionamento matemático apresentado a seguir considerará o caso de uma variável resposta.

Dado um conjunto de m pontos de projeto S = [s1, s2, ..., sm]T com si ∈ Rn e

respostas Y = [y1, y2, ..., ym]T com yi ∈ R, o Kriging pode ser construído, sendo a

sua resposta para uma condição de entrada x ∈ Rn _{denida como:}

y(x) =µ(x) + z(x)_b (2.15)

A parcela do Kriging correspondente ao modelo de regressão pode ser expressa como uma combinação linear de p funções fj :∈ Rn7−→ R segundo a Equação 2.16.

b µ(β, x) = β1f1(x) + β2f2(x) + ...βpfp(x) = p X j=1 βjfj(x) = f (x)Tβ (2.16)

em que fj(x) é um conjunto de funções escolhidas de forma que µ(x)b seja um polinômio de baixa ordem e βj são os parâmetros desse polinômio obtidos por

regressão.

Por sua vez, a parcela correspondente à função aleatória deve apresentar a propriedade de ser estacionária, geralmente considera-se uma média igual a zero e variância (σ2_{) nita (LOPHAVEN et al., 2002). A função randômica z(x) tem}

uma função covariância associada. A covariância entre dos pontos x e w pode ser representada pela Equação 2.17.

E [z(w), z(x)] = σ2R(θ, w, x) (2.17) em que σ2 _{é a variança do processo (estimada pela variança dos erros de predição}

do modelo de regressão) e R(θ, w, x) é a função de correlação com seus parâmetros θ.

a ser adotado. A forma geral da função correlação entre dois pontos w e x é dada pelo produtório de funções correlação Rj(θ, w, x), referentes a cada dimensão da

função: R(θ, w, x) = n Y j=1 Rj(θ, wj− xj) (2.18)

Uma das formas funcionais mais utilizadas como funções de correlação são as funções da família exponencial que se denem como:

Rj(θ, wj − xj) = e(

−θj|wj−xj|ξ) com 0 < ξ ≤ 2 e θ

j > 0 (2.19)

Nota-se que para ξ = 1 obtêm-se a função de correlação exponencial pura e se ξ = 2chega-se à função de correlação de Gauss.

Para determinar a função aleatória z(x) adota-se o seguinte procedimento. Consideremos que o valor real da resposta pode ser denido como:

y(x) = _bµ(β, x) + α(β, x) (2.20) em que α(β, x) é o erro de aproximação.

Então, para o conjunto S de pontos de projeto tem-se a matriz F de dimensão m × p com Fij = fj(si):

F = [f (s1), f (s2), ..., f (sm)]T (2.21)

com f(x) denida segundo a Equação 2.16.

Denem-se também a matriz R das correlações entre os pontos de projeto:

Ri,j = R(θ, si, sj) com i, j = 1, 2..., m (2.22)

Deixemos também que r(x) seja o vetor das correlações entre um ponto x qualquer, que no pertence ao conjunto de pontos de projeto, e os pontos de projeto:

r(x) = [R(θ, s1, x), R(θ, s2, x), ..., R(θ, sm, x)]T (2.23)

Na sequência, considera-se a predição linear:

y(x) = cTY (2.24)

Sendo assim, temos que o erro de predição é:

y(x) − y(x) = cTY − y(x) (2.25)

Substituindo Y e y(x) obtém-se:

y(x) − y(x) = cT [F β + Z] −f (x)Tβ + z (2.26) em que Z = [z1, z2, ..., zm]T são os erros nos pontos de projeto.

Arranjando termos tem-se:

y(x) − y(x) = cTZ − z +FTc − f (x)T β (2.27) Para assegurar que a predição seja não-tendenciosa (LOPHAVEN et al., 2002), tem-se que:

FTc − f (x) = 0 (2.28)

Obtendo nalmente a seguinte expressão do erro:

y(x) − y(x) = cTZ − z (2.29)

Nestas condições, o erro quadrático médio (MSE)10 _{pode ser expresso segundo:}

MSE = E (by(x) − y(x))2 = E(cTZ − z)2

= EcT_ZZT_{c − 2c}T_{Zz + z}2

= σ2cTRc − 2cTr + 1 (2.30) Para a determinação das funções c(x), é resolvido um problema de otimização que consiste em minimizar o MSE. A Equação 2.28 é incorporada como uma restrição do problema de otimização (LOPHAVEN et al., 2002). O Lagrangiano da função objetivo ca:

L(c, λ) = σ21 + cT_{Rc − 2c}T_{r − λ}T_(FT_{c − f )} _(2.31)

As condições de otimalidade de primeira ordem de Karush-Kuhn-Tucker (KKT), em termos das derivadas da função objetivo com relação à c e λ são:

∂L(c, λ) ∂c = 0 = 2σ 2_{(Rc − r) − F λ} _(2.32) ∂L(c, λ) ∂λ = 0 = F T_{c − f} _(2.33)

Esse sistema de equações algébricas pode ser escrito em notação matricial como apresentado na seguinte equação:

" R F FT ₀ # " c b λ # = " r f # , em que bλ = − λ 2σ2 (2.34)

A solução desse sistema de equações é dada por:

c = R−1r − F bλ (2.35)

λ = FTR−1F−1 FTR−1r − f (2.36) As matrizes R e R−1 _{são simétricas, então substituindo c na Equação 2.24,}

obtém-se: b y(x) = r − F bλ T R−1Y = rTR−1Y − FTR−1r − fT (FTR−1F )−1FTR−1Y (2.37) A solução geral por mínimos quadrados do problema de regressão é (LOPHAVEN et al., 2002):

β∗ = (FTR−1F )−1FTR−1Y (2.38) Substituindo a Equação 2.38 na Equação 2.37 obtem-se a expressão do estimador Kriging: b y(x) = rTR−1Y − FTR−1r − fT β∗ = fTβ∗+ rTR−1(Y − F β∗) = f (x)Tβ∗+ r(x)Tγ∗ (2.39) em que γ∗ _{= R}−1_{(Y − F β}∗₎_.

Sendo assim, a função aleatória z(x) está constituída pela segunda parcela do membro direito da Equação 2.39.

z(x) = rT(x)R−1(Y − F β∗) (2.40) Uma caraterística importante do estimador Kriging é que quando o valor de entrada coincide com um ponto de projeto (xd) a predição é igual à resposta do

modelo real (KLEIJNEN, 2009), como se mostra a seguir:

y(xd) = fT(xd)β∗+ rT(xd)R−1(Y − F β∗) (2.41)

Trabalhando com o segundo termo do membro direito tem-se:

rT(xd)R−1 = [01 ... 0d−1 ... 1d... 0d+1... 0m]

rT(xd)R−1Y = Yd = y(xd)

rT(xd)R−1F β = [f1(xd) ... fp(xd)]β∗ = Fdβ∗

rT(xd)R−1(Y − F β∗) = y(xd) − Fdβ∗ (2.42)

sabe-se ademais que fT_(x

d)β∗ = Fdβ∗, por tanto, nalmente tem-se:

y(xd) = fT(xd)β∗ + rT(xd)R−1(Y − F β∗)

= Fdβ∗+ y(xd) − Fdβ∗

= y(xd) (2.43)

A estimativa do erro quadrático médio de predição (ϕ2_(x)_{) pode ser computada}

utilizando as Equações 2.30 e 2.35: ϕ2(x) = σ21 + cT(Rc − 2r) = σ2h1 + (F bλ − r)TR−1(F bλ + r)i = σ2h1 + bλTFTR−1F bλ − rTR−1ri = σ21 + υT(FTR−1F )−1υ − rTR−1r (2.44) em que υ = FT_R−1_{r − f}_.

Consequentemente com o mostrado na Equação 2.43, o erro de predição é zero quando o valor de entrada coincide com um ponto de projeto (xd), como se mostra

a seguir:

substituindo na Equação 2.44 tem-se:

ϕ2(xd) = σ21 − rT(xd)R−1r(xd)

= σ2[1 − 1]

= 0 (2.46)

Nota-se na Equação 2.39, que uma vez escolhido o tipo de modelo de regressão (f(x)), o tipo de função de correlação (Rj), e xado um conjunto de pontos de

projeto (xd e y(xd)), os vetores β∗ e γ∗ estão também xados. Dessa forma ca

construído o meta-modelo Kriging. Então, para obter a predição da resposta em um novo valor de x somente é necessário computar os vetores f(x) e r(x) e realizar duas simples operações de multiplicação.

No documento Otimização do processo de produção de etanol de segunda geração em um sistema integrado à primeira geração (páginas 64-70)