2.4 Otimização baseada em meta-modelos
2.4.2 Meta-modelos Kriging
O modelo Kriging foi desenvolvido originalmente pelo engenheiro de minas sul-africano Danie Gerhardus Krige na década do 50, a quem deve seu nome (KLEIJNEN et al., 2012). A estrutura matemática foi logo melhor desenvolvida em vários artigos e livros (ver (CRESSIE, 1993; MATHERON, 1963)). Inicialmente utilizado para interpolação geo-estatística, o modelo Kriging foi posteriormente aplicado na predição de simulações computacionais de modelos determinísticos, ainda quando as variáveis de entrada encontravam-se numa ampla faixa (predição global) (KLEIJNEN et al., 2012).
Existem algumas variantes de modelos Kriging, como Kriging ordinário e Kriging universal. O Kriging ordinário é a versão mais popular devido a sua rápida e fácil construção, pois requer a estimação de menos parâmetros. Embora o Kriging universal precise do cálculo de mais parâmetros, a melhoria na acurácia da estimativa pode justicar sua escolha desde que não sejam funções de elevada dimensão
(FORRESTER e KEANE, 2009).
No Kriging universal é considerado que a função a ser aproximada pode ser expressa como uma combinação de um modelo de regressão bµ(x) e um processo estocástico representado pela função aleatória z(x) (LOPHAVEN et al., 2002). A ideia é que µ(x)b capture a tendência geral dos dados e z(x) sirva como um ajuste no do modelo; conseguindo uma maior acurácia que o Kriging ordinário que utiliza um valor xo para µb(FORRESTER e KEANE, 2009).
O Kriging universal é aplicável para sistemas com múltiplas variáveis de resposta, no entanto visando à simplicação da notação e facilitação do entendimento do leitor, o equacionamento matemático apresentado a seguir considerará o caso de uma variável resposta.
Dado um conjunto de m pontos de projeto S = [s1, s2, ..., sm]T com si ∈ Rn e
respostas Y = [y1, y2, ..., ym]T com yi ∈ R, o Kriging pode ser construído, sendo a
sua resposta para uma condição de entrada x ∈ Rn denida como:
b
y(x) =µ(x) + z(x)b (2.15)
A parcela do Kriging correspondente ao modelo de regressão pode ser expressa como uma combinação linear de p funções fj :∈ Rn7−→ R segundo a Equação 2.16.
b µ(β, x) = β1f1(x) + β2f2(x) + ...βpfp(x) = p X j=1 βjfj(x) = f (x)Tβ (2.16)
em que fj(x) é um conjunto de funções escolhidas de forma que µ(x)b seja um polinômio de baixa ordem e βj são os parâmetros desse polinômio obtidos por
regressão.
Por sua vez, a parcela correspondente à função aleatória deve apresentar a propriedade de ser estacionária, geralmente considera-se uma média igual a zero e variância (σ2) nita (LOPHAVEN et al., 2002). A função randômica z(x) tem
uma função covariância associada. A covariância entre dos pontos x e w pode ser representada pela Equação 2.17.
E [z(w), z(x)] = σ2R(θ, w, x) (2.17) em que σ2 é a variança do processo (estimada pela variança dos erros de predição
do modelo de regressão) e R(θ, w, x) é a função de correlação com seus parâmetros θ.
a ser adotado. A forma geral da função correlação entre dois pontos w e x é dada pelo produtório de funções correlação Rj(θ, w, x), referentes a cada dimensão da
função: R(θ, w, x) = n Y j=1 Rj(θ, wj− xj) (2.18)
Uma das formas funcionais mais utilizadas como funções de correlação são as funções da família exponencial que se denem como:
Rj(θ, wj − xj) = e(
−θj|wj−xj|ξ) com 0 < ξ ≤ 2 e θ
j > 0 (2.19)
Nota-se que para ξ = 1 obtêm-se a função de correlação exponencial pura e se ξ = 2chega-se à função de correlação de Gauss.
Para determinar a função aleatória z(x) adota-se o seguinte procedimento. Consideremos que o valor real da resposta pode ser denido como:
y(x) = bµ(β, x) + α(β, x) (2.20) em que α(β, x) é o erro de aproximação.
Então, para o conjunto S de pontos de projeto tem-se a matriz F de dimensão m × p com Fij = fj(si):
F = [f (s1), f (s2), ..., f (sm)]T (2.21)
com f(x) denida segundo a Equação 2.16.
Denem-se também a matriz R das correlações entre os pontos de projeto:
Ri,j = R(θ, si, sj) com i, j = 1, 2..., m (2.22)
Deixemos também que r(x) seja o vetor das correlações entre um ponto x qualquer, que no pertence ao conjunto de pontos de projeto, e os pontos de projeto:
r(x) = [R(θ, s1, x), R(θ, s2, x), ..., R(θ, sm, x)]T (2.23)
Na sequência, considera-se a predição linear:
b
y(x) = cTY (2.24)
Sendo assim, temos que o erro de predição é:
b
y(x) − y(x) = cTY − y(x) (2.25)
Substituindo Y e y(x) obtém-se:
b
y(x) − y(x) = cT [F β + Z] −f (x)Tβ + z (2.26) em que Z = [z1, z2, ..., zm]T são os erros nos pontos de projeto.
Arranjando termos tem-se:
b
y(x) − y(x) = cTZ − z +FTc − f (x)T β (2.27) Para assegurar que a predição seja não-tendenciosa (LOPHAVEN et al., 2002), tem-se que:
FTc − f (x) = 0 (2.28)
Obtendo nalmente a seguinte expressão do erro:
b
y(x) − y(x) = cTZ − z (2.29)
Nestas condições, o erro quadrático médio (MSE)10 pode ser expresso segundo:
MSE = E (by(x) − y(x))2 = E(cTZ − z)2
= EcTZZTc − 2cTZz + z2
= σ2cTRc − 2cTr + 1 (2.30) Para a determinação das funções c(x), é resolvido um problema de otimização que consiste em minimizar o MSE. A Equação 2.28 é incorporada como uma restrição do problema de otimização (LOPHAVEN et al., 2002). O Lagrangiano da função objetivo ca:
L(c, λ) = σ21 + cTRc − 2cTr − λT(FTc − f ) (2.31)
As condições de otimalidade de primeira ordem de Karush-Kuhn-Tucker (KKT), em termos das derivadas da função objetivo com relação à c e λ são:
∂L(c, λ) ∂c = 0 = 2σ 2(Rc − r) − F λ (2.32) ∂L(c, λ) ∂λ = 0 = F Tc − f (2.33)
Esse sistema de equações algébricas pode ser escrito em notação matricial como apresentado na seguinte equação:
" R F FT 0 # " c b λ # = " r f # , em que bλ = − λ 2σ2 (2.34)
A solução desse sistema de equações é dada por:
c = R−1r − F bλ (2.35)
b
λ = FTR−1F−1 FTR−1r − f (2.36) As matrizes R e R−1 são simétricas, então substituindo c na Equação 2.24,
obtém-se: b y(x) = r − F bλ T R−1Y = rTR−1Y − FTR−1r − fT (FTR−1F )−1FTR−1Y (2.37) A solução geral por mínimos quadrados do problema de regressão é (LOPHAVEN et al., 2002):
β∗ = (FTR−1F )−1FTR−1Y (2.38) Substituindo a Equação 2.38 na Equação 2.37 obtem-se a expressão do estimador Kriging: b y(x) = rTR−1Y − FTR−1r − fT β∗ = fTβ∗+ rTR−1(Y − F β∗) = f (x)Tβ∗+ r(x)Tγ∗ (2.39) em que γ∗ = R−1(Y − F β∗).
Sendo assim, a função aleatória z(x) está constituída pela segunda parcela do membro direito da Equação 2.39.
z(x) = rT(x)R−1(Y − F β∗) (2.40) Uma caraterística importante do estimador Kriging é que quando o valor de entrada coincide com um ponto de projeto (xd) a predição é igual à resposta do
modelo real (KLEIJNEN, 2009), como se mostra a seguir:
b
y(xd) = fT(xd)β∗+ rT(xd)R−1(Y − F β∗) (2.41)
Trabalhando com o segundo termo do membro direito tem-se:
rT(xd)R−1 = [01 ... 0d−1 ... 1d... 0d+1... 0m]
rT(xd)R−1Y = Yd = y(xd)
rT(xd)R−1F β = [f1(xd) ... fp(xd)]β∗ = Fdβ∗
rT(xd)R−1(Y − F β∗) = y(xd) − Fdβ∗ (2.42)
sabe-se ademais que fT(x
d)β∗ = Fdβ∗, por tanto, nalmente tem-se:
b
y(xd) = fT(xd)β∗ + rT(xd)R−1(Y − F β∗)
= Fdβ∗+ y(xd) − Fdβ∗
= y(xd) (2.43)
A estimativa do erro quadrático médio de predição (ϕ2(x)) pode ser computada
utilizando as Equações 2.30 e 2.35: ϕ2(x) = σ21 + cT(Rc − 2r) = σ2h1 + (F bλ − r)TR−1(F bλ + r)i = σ2h1 + bλTFTR−1F bλ − rTR−1ri = σ21 + υT(FTR−1F )−1υ − rTR−1r (2.44) em que υ = FTR−1r − f.
Consequentemente com o mostrado na Equação 2.43, o erro de predição é zero quando o valor de entrada coincide com um ponto de projeto (xd), como se mostra
a seguir:
substituindo na Equação 2.44 tem-se:
ϕ2(xd) = σ21 − rT(xd)R−1r(xd)
= σ2[1 − 1]
= 0 (2.46)
Nota-se na Equação 2.39, que uma vez escolhido o tipo de modelo de regressão (f(x)), o tipo de função de correlação (Rj), e xado um conjunto de pontos de
projeto (xd e y(xd)), os vetores β∗ e γ∗ estão também xados. Dessa forma ca
construído o meta-modelo Kriging. Então, para obter a predição da resposta em um novo valor de x somente é necessário computar os vetores f(x) e r(x) e realizar duas simples operações de multiplicação.