Otimização multiobjetivo com base em processo gaussiano de regressão (Kriging)

(1)

PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA MECÂNICA

E DE MATERIAIS

ADRIANO GONÇALVES DOS PASSOS

OTIMIZAÇÃO MULTIOBJETIVO COM BASE EM

PROCESSO GAUSSIANO DE REGRESSÃO (KRIGING)

TESE

CURITIBA

2020

(2)

ADRIANO GONÇALVES DOS PASSOS

OTIMIZAÇÃO MULTIOBJETIVO COM BASE EM

PROCESSO GAUSSIANO DE REGRESSÃO (KRIGING)

Tese apresentada ao Programa de Pós-Graduação em Engenharia Mecânica e de Materiais da Universi-dade Tecnológica Federal do Paraná como requisito parcial à obtenção do título de Doutor em Engenha-ria – Área de concentração: Mecânica dos Sólidos.

Orientador: Prof. Dr. Marco Antônio Luersen

CURITIBA

2020

(3)

Dados Internacionais de Catalogação na Publicação _________________________________________________________________

Passos, Adriano Gonçalves dos

Otimização multiobjetivo com base em processo gaussiano de regressão (Kriging) [recurso eletrônico] / Adriano Gonçalves dos Passos. -- 2020.

1 arquivo texto (162 f.): PDF; 6,16 MB. Modo de acesso: World Wide Web.

Título extraído da tela de título (visualizado em 09 jul. 2020). Texto em português com resumo em inglês.

Tese (Doutorado) - Universidade Tecnológica Federal do Paraná. Programa de Pós-Graduação em Engenharia Mecânica e de Materiais, Curitiba, 2020.

Bibliografia: f. 53-60.

1. Engenharia mecânica - Teses. 2. Modelagem (Computação). 3. Krigagem. 4. Otimização robusta - Técnica. 5. Modelos estatísticos. I. Luersen, Marco Antônio, orient. II. Universidade Tecnológica Federal do Paraná - Programa de Pós-graduação em Engenharia Mecânica e de Materiais, inst. III. Título.

CDD: Ed. 23 -- 620.1

Biblioteca Ecoville da UTFPR, Câmpus Curitiba Bibliotecária: Lucia Ferreira Littiere – CRB 9/1271

(4)

Ministério da Educação

Universidade Tecnológica Federal do Paraná Diretoria de Pesquisa e Pós-Graduação

TERMO DE APROVAÇÃO DE TESE Nº 26

A Tese de Doutorado intitulada: OTIMIZAÇÃO MULTIOBJETIVO COM BASE EM PROCESSO GAUSSIANO DE REGRESSÃO (KRIGING), defendida em sessão pública pelo(a) candidato(a) Adriano Gonçalves dos Passos, no dia 25 de março de 2020, foi julgada para a obtenção do título

de Doutor em Engenharia Mecânica E De Materiais, área de concentração: Mecânica Dos Sólidos, linha de pesquisa: Mecânica Dos Sólidos Computacional, e aprovada em sua forma final, pelo Programa de Pós-Graduação em Engenharia Mecânica E De Materiais.

BANCA EXAMINADORA:

Prof. Dr. Marco Antônio Luersen - Presidente - UTFPR Prof. Dr. André Jacomel Torii - UNILA

Prof. Dr. Pablo Andrés Muñoz-Rojas - UDESC

Profª. Drª. Ana Paula Carvalho da Silva Ferreira - UTFPR Prof. Dr. Hilbeth Parente Azikri de Deus - UTFPR

A via original deste documento encontra-se arquivada na Secretaria do Programa, contendo a assinatura da Coordenação após a entrega da versão corrigida do trabalho.

(5)

Ao meu amor Vanessa, por ser minha companheira e me inspirar.

(6)

AGRADECIMENTOS

Gostaria de expressar aqui meus sinceros agradecimentos a todos os que colaboraram para o sucesso deste trabalho:

Inicialmente, ao Professor Marco Antônio Luersen que me orientou com grande entu-siasmo e dedicação.

Aos meus amigos que, entusiastas, torceram por mim.

E acima de tudo, aos meus familiares que sempre me incentivaram a continuar, pela paciência nas horas difíceis e pela compreensão nos momentos de ausência durante essa etapa.

(7)

extraordinariamente dependente da ciência e da tecnologia, em que quase ninguém sabe nada sobre ciência e tecnologia.”

(8)

RESUMO

PASSOS, Adriano Gonçalves dos. OTIMIZAÇÃO MULTIOBJETIVO COM BASE EM PRO-CESSO GAUSSIANO DE REGRESSÃO (KRIGING). 162 p. Tese – Programa de Pós-Graduação em Engenharia Mecânica e de Materiais, Universidade Tecnológica Federal do Paraná. Curitiba, 2020.

As funções objetivos e restrições de problemas de otimização de engenharia são, comumente, calculadas com uso de ferramentas computacionais complexas como elementos finitos por exemplo. Assim, cada avaliação pode demandar uma quantidade significativa de tempo. Para acelerar o processo de otimização que envolve tais funções de alto custo computacional, é co-mum o uso de metamodelos (ou funções substitutas), que aproximam os modelos de alta fideli-dade. Atualmente, uma técnica padrão para otimização de funções de alto custo computacional é a otimização global eficiente (EGO, do inglês efficient global optimization). Desenvolvido no final dos anos 1990, o algoritmo EGO baseia-se na construção e melhoria iterativa do me-tamodelo de Kriging. Em cada iteração é amostrado um novo ponto (projeto) cuja melhoria esperada é máxima. Para a otimização de problemas multiobjetivo, soluções análogas ao EGO foram desenvolvidas a partir de 2005. Entre elas, destacam-se o ParEgo (ou MEGO) e o EGO baseado na melhoria do hipervolume esperado (ou apenas HEGO). Contudo, esses algoritmos apresentam algumas limitações. Por exemplo, o MEGO possui dificuldade em encontrar frentes de Pareto convexas (ou com um formato complexo), e o HEGO possui um custo computacional relativamente elevado (devido ao cálculo do hipervolume esperado). Publicações mais recentes (2011 – 2017) apresentam algumas alternativas para amenizar essas e outras limitações, bem como critérios de preenchimento (i.e., escolha do ponto a ser amostrado na próxima iteração) mais robustos, tornando os algoritmos mais eficientes. Neste contexto se insere a presente tese. Aqui são propostos novos algoritmos de otimização multiobjetivo para funções de alto custo computacional baseados no metamodelo de Kriging. Na fase inicial da pesquisa foi desenvol-vido o algoritmo MVPF (minimization of the variance of the kriging-predicted front), que a cada iteração cria uma frente de Pareto usando apenas os metamodelos e escolhe o projeto com maior variância para ser avaliado. Em seguida foi desenvolvido o algoritmo SME (sequential minimization of entropy) que, ao invés de selecionar o projeto com maior variância, escolhe aquele que possui a maior entropia de Shannon. As principais vantagens do SME em relação aos algoritmos clássicos são o baixo custo computacional (e que não aumenta significativa-mente com o número de pontos amostrados) e a velocidade de convergência (para se obter uma frente de Pareto). Diferentes problemas teste são solucionados e, em praticamente todos eles, os algoritmos propostos são superiores ao MEGO e HEGO. Além disso, alguns problemas de en-genharia são resolvidos utilizando os algoritmos propostos, como a otimização das orientações de fibras curvas em painéis de aeronaves e a otimização de parâmetros geométricos em uma junta de engate. Finalmente, um subproduto importante deste trabalho foi a publicação de um pacote computacional na linguagemR. Esse pacote pode ser encontrado no repositório oficial CRANe facilmente instalado por qualquer usuário.

(9)

PASSOS, Adriano Gonçalves dos. MULTIOBJECTIVE OPTIMIZATION BASED ON GAUS-SIAN PROCESSES (KRIGING). 162 p. Thesis – Posgraduate Program in Mechanical and Ma-terials Engineering, Federal University of Technology – Paraná. Curitiba, 2020.

Objective and constraint functions in engineering optimization problems are, usually, calcula-ted with the aid of complex computational tools such as finite elements or computational fluid dynamics. Thus, each evaluation of these functions can take a significant amount of time. In order to speed up the optimization process involving such time-consuming functions, surrogate models are commonly used. Nowadays, a standard technique to optimize computationally cos-tly functions is the Efficient Global Optimization (EGO). The EGO algorithm was developed in the late 1990s and it is based on the iterative building and improvement of the Kriging surrogate model. At each iteration, a new design, which holds the maximum expected improvement, is sampled. For multiobjective problems, analogous algorithms have been developed from 2005 on. Among those, it can be highlighted the ParEgo (or MEGO) and the EGO based on the expected hypervolume indicator (or just called HEGO). However, such algorithms have some drawbacks. For instance, MEGO has difficulties on finding Pareto fronts that are convex (or with a complex shape) and HEGO has a relatively higher computational cost due to the calculations of the expected hypervolume. Recent works (2011 – 2017) present some alternatives to mitigate these and other limitations, as well as more robust filling criteria (i.e., the choice of the point to be sampled in the next iteration), making the algorithms more efficient. The present thesis is inserted within this context. Here, new multiobjective optimization algorithms are proposed for high computational cost functions based on the Kriging metamodel. In the initial phase of the research, the MVPF (minimization of the variance of the Kriging-predicted front) algorithm was developed, which at each iteration creates a Pareto front using only the metamodels and chooses the project with the highest variance to be evaluated. Then, the SME (sequential mini-mization of entropy) algorithm was developed, which, instead of selecting the project with the highest variance, chooses the one with the highest Shannon entropy. The main advantages of SME in comparison to classic algorithms are the low computational cost (which does not incre-ase significantly with the number of sampled points) and the speed of convergence (in obtaining a Pareto front). Different test problems are solved and, in almost all of them, the proposed algo-rithms are superior to MEGO and HEGO. In addition, some engineering problems are solved using the proposed algorithms, such as the optimization of curved fiber orientations in airplane panels and the optimization of geometric parameters in a snap-fit joint. Finally, an important by-product of this work was the publication of a computational package in theRlanguage. This package, called moko (acronym for MultiObjective Kriging Optimization), can be found in the official repository CRAN (The Comprehensive R Archive Network) and easily installed by any user.

(10)

LISTA DE SIGLAS

DM Projetista – Decision Maker

SPEA2 Strength Pareto Evolutionary Algorithm 2

PESA-II Pareto Envelope Based Selection Algorithm II

NSGA-II nondominating sorting genetic algorithm II

SMS-EMOA S-metric Selection Evolutionary Multiobjective Optimization Algorithm

GP Processo Gaussiano – Gaussian Process

EI Melhoria Esperada – Expected Improvement

PI Probabilidade de Melhoria – Probability of Improvement

EHI Melhoria do hipervolume esperado - Expected Hypervolume Improvement

MOO Otimização Multiobjetivo – multiobjective optimization

MOEA Algoritmos Evolucionários de Otimização Multiobjetivo – Multiobjective

Evo-lutionary Algorithms

KKTPM medida de proximidade KKT – Karush-Kuhn-Tucker Proximity Measure

EGO Otimização Global Eficiente – Efficient Global Optimization

EHI Melhoria esperada do hipervolume – Expected Hypervolume Improvement

ASF Achievement Scalarization Function

ZDT3 Função de teste: Zitzler–Deb–Thiele’s N. 3

DTLZ4 Função de teste: Deb–Thiele-Laumanns-Zitzler’s -N. 4

HEGO Hypervolume EGO

MEGO Multiobjective EGO

VMPF sequential minimizator using variance reduction

(11)

x Escalar x Vetor X Matriz X Variável aleatória X Vetor aleatório X (x) Processo estocástico

X (x) Processo estocástico vetorial

f (x) Função escalar

f (x) Função vetorial

φ_X(x) Função densidade de probabilidade da variável aleatória_X Φ_X(x) Função de distribuição da variável aleatória_X

N Distribuição normal com médiaµ e variância σ2

E Esperança matemática

(12)

LISTA DE FIGURAS

Figura 1.1 – Porcentagem de publicações com as com as palavras “multi-objective opti-mization” em relação aquelas com a palavra “optiopti-mization”. . . 15 Figura 2.1 – Amostras em uma otimização multiobjetivo com um conjunto de Pareto de

cinco pontos. A linha cheia representa a frente de Pareto. . . 19 Figura 2.2 – Comparação entre dois indicadores de otimalidade de conjuntos de Pareto:

hipervolume dominado (a) e indicador épsilon (b) . . . 20 Figura 3.1 – Exemplo de um cubo latino aleatório com três dimensões e 10 pontos . . . . 24 Figura 3.2 – Exemplo de metamodelo de Kriging . . . 29 Figura 3.3 – Exemplo da probabilidade de melhoria . . . 31 Figura 3.4 – Exemplo da melhoria esperada . . . 33 Figura 3.5 – Regiões de dominância, melhoria e dominada por uma frente de Pareto de

um único projeto . . . 35 Figura 3.6 – Interpretação gráfica da esperança de melhoria do hipervolume dominado. . 37 Figura 4.1 – Estratégia padrão de algoritmos de otimização baseados em metamodelos. . 43

(13)

1 INTRODUÇÃO . . . 14

1.1 Notações Utilizadas . . . 14

1.2 Contextualização . . . 14

1.3 Objetivos . . . 15

1.4 Abordagem e Delimitação da Pesquisa . . . 15

1.5 Ferramentas . . . 16

1.6 Organização da Tese . . . 16

2 OTIMIZAÇÃO MULTIOBJETIVO . . . 18

2.1 Conceitos Gerais . . . 18

2.2 Critérios de Qualidade de Soluções . . . 20

2.3 Algoritmos Clássicos . . . 21

3 EXPERIMENTOS COMPUTACIONAIS E PROCESSOS GAUSSIANOS DE METAMODELAGEM . . . 22

3.1 Otimização Baseada em Metamodelagem . . . 22

3.2 Processos Gaussianos . . . 23

3.3 Construção do Metamodelo de Kriging . . . 24

3.4 Propriedades básicas do Metamodelo de Kriging . . . 27

3.5 Probabilidade de Melhoria e Melhoria Esperada . . . 29

3.6 Experimentos Computacionais e Otimização Multiobjetivo . . . 33

4 REVISÃO BIBLIOGRÁFICA . . . 39

4.1 Algoritmos evolucionários para otimização multiobjetivo . . . 39

4.2 Uso do Metamodelo de Kriging na Otimização Multiobjetivo . . . 40

5 RESULTADOS E DISCUSSÃO . . . 48 5.1 Artigo I . . . 48 5.2 Artigo II . . . 48 5.3 Artigo III . . . 49 5.4 Artigo IV . . . 49 6 CONSIDERAÇÕES FINAIS . . . 51 6.1 Conclusões Gerais . . . 51 6.2 Trabalhos Futuros . . . 51 Referências Bibliográficas . . . 53

(14)

APÊNDICE A ARTIGO I: OPTIMAL CURVED FIBRE ORIENTATIONS OF A COMPOSITE PANEL WITH CUTOUT FOR IMPROVED BUCKLING LOAD USING THE EFFICIENT GLOBAL OP-TIMIZATION ALGORITHM . . . 61

APÊNDICE B ARTIGO II: MULTIOBJECTIVE OPTIMIZATION OF

LA-MINATED COMPOSITE PARTS WITH CURVILINEAR

FI-BERS USING KRIGING-BASED APPROACHES . . . 91

APÊNDICE C ARTIGO III: MULTI-OBJECTIVE OPTIMIZATION WITH

KRIGING SURROGATES USING -MOKO-, AN OPEN SOURCE PACKAGE . . . 121

APÊNDICE D ARTIGO IV: MULTIOBJECTIVE OPTIMIZATION BASED

ON THE SEQUENTIAL ENTROPY REDUCTION OF THE

(15)

1 INTRODUÇÃO

1.1 NOTAÇÕES UTILIZADAS

Usualmente utiliza-sef (x) para designar uma função, e em diferentes áreas do conhe-cimento essa notação pode possuir significados intrínsecos diferentes. No presente texto isso é especialmente relevante pois, no ramo da otimização,f (x) é comumente utilizado para repre-sentar as funções objetivo, ou de interesse do estudo. Contudo, no estudo das probabilidades e de variáveis aleatórias, é usual a utilização defX(x) ou apenas f (x) para expressar a função de

densidade de probabilidades de uma variável aleatóriaX. Além disso, geralmente representa-se a função de distribuição da variável aleatóriaX como FX(x) ou apenas F (x).

Outro conflito de notações observado é o uso de letras maiúsculas. Em otimização, é comum o uso de letras maiúsculas para representação de matrizes, enquanto em probabilidade para representar variáveis aleatórias.

Nesse sentido, o presente trabalho utiliza a convenção apresentada na Tabela 1.1.

Tabela 1.1 – Notação utilizada no presente trabalho – Desambiguação. Símbolo Descrição x escalar x vetor X matriz X variável aleatória X vetor aleatório X (x) processo estocástico

X (x) processo estocástico vetorial f (x) função escalar

f (x) função vetorial

φ_X(x) função densidade de probabilidade da variável aleatória_X Φ_X(x) função de distribuição (ou acumulada) da variável aleatóriaX

1.2 CONTEXTUALIZAÇÃO

A importância da utilização da otimização multiobjetivo (OM) em projetos de enge-nharia é clara. Em um mercado competitivo como o atual e com o crescente aumento da de-manda por eficiência, deseja-se projetos/produtos que possuam um conjunto ótimo de carac-terísticas. O interesse nesse ramo de pesquisa torna-se evidente pelo aumento do número de publicações de OM em relação ao número de pesquisas de otimização como um todo (Figura 1.1).

(16)

Capítulo 1. Introdução 15

Figura 1.1 – Porcentagem de publicações com as com as palavras “multi-objective optimiza-tion” em relação aquelas com a palavra “optimizaoptimiza-tion”.

● ● ● ● ● ● ● ● ● ● 10 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 Ano Porcentagem de trabalhos Fonte: https://scholar.google.com.br/

Com o aumento da competitividade, cada vez mais deve-se encontrar um compromisso entre diferentes objetivos. Por exemplo, na indústria automotiva, é possível simular o grau de danos que passageiros sofreriam em uma colisão, o nível de vibração e ruído decorrente do trafego em um determinado tipo de estrada, e até mesmo previsões confiáveis do ciclo de vida do veículo. Nesse exemplo, não é vantajoso desenvolver um projeto que seja ótimo em apenas um desses requisitos e sim um produto que consiga maximizar, da melhor maneira possível, todos ou vários dos critérios de qualidade.

Nesse contexto, um dos maiores obstáculos para o uso de algoritmos clássicos de oti-mização é o elevado tempo computacional (e em algumas vezes a falta ou dificuldade do cálculo do gradiente). Assim, o uso de metamodelos é de extrema relevância para a redução do custo computacional, tornando o processo de otimização possível em uma quantidade de tempo rea-lista. Além disso, o uso de metamodelos oferece grande flexibilidade de exploração de projetos alternativos enquanto mantém baixo o custo e tempo de desenvolvimento.

1.3 OBJETIVOS

Dentro do contexto apresentado, o objetivo da tese é a elaboração de uma nova téc-nica de otimização multiobjetivo baseada no metamodelo de Kriging que seja eficiente, robusta e que possa ser empregada na otimização de problemas reais de engenharia.

1.4 ABORDAGEM E DELIMITAÇÃO DA PESQUISA

Além da elaboração de uma técnica de otimização, esta pesquisa de doutorado tem também como objetivo disponibilizá-la de maneira robusta e de fácil utilização. Para isso, optou-se em desenvolver um pacote computacional em linguagem R , uma das mais promis-soras e usadas no ramo da ciência de dados (acompanhada lado a lado pela linguagem Python).

(17)

A abordagem adotada no desenvolvimento deste trabalho pode ser dividida em três principais etapas:

1. Desenvolvimento teórico;

2. Implementação computacional e publicação do pacote moko (Multi-Objective optimiza-tion based on the Kriging metamodel);

3. Testes das técnicas propostas em problemas de otimização:

a) Problemas de tese em funções analíticas; b) Problemas de engenharia.

1.5 FERRAMENTAS

Para o desenvolvimento deste trabalho, as seguintes ferramentas (hardware e software) foram usadas:

Computador (laboratório LAMES – UTFPR): processador Intel Core i5-4440, memória Kings-ton HyperX 32GB (4X8) DDR3 DRAM 1600MHz.

Computador (pessoal): processador Intel Core i5-7600k, memória Corsair Vengeance 16GB (2X8) DDR4 DRAM 2400MHz.

Software de elementos finitos: ANSYS 17.0 Workbench, utilizado para avaliação dos mode-los de alta fidelidade para teste em problemas reais de engenharia.

Plataforma matemática de programação: R versão 3.4.1 (2017-06-30) – “Single Candle” (R Core Team, 2017) e principalmente os seguintes pacotes:

1. Pacote de otimização genética com uso de derivadas (MEBANE; SEKHON, 2011); 2. Pacote de construção, validação e predição de metamodelos de Kriging

(ROUS-TANT et al., 2012);

3. Pacote de otimização de metamodelos de Kriging (GINSBOURGER et al., 2013); 4. Pacote de EMOA (evolutionary multiobjective optimization algorithms)

(MERS-MANN, 2012);

5. Pacote de MCO (multiple criteria optimization algorithms and related functions) (MERSMANN, 2014);

6. Pacote de otimização multiobjetivo com uso de Kriging moko (PASSOS, 2016).

1.6 ORGANIZAÇÃO DA TESE

(18)

Capítulo 1. Introdução 17

O segundo capítulo se destina a explicar os conceitos gerais de otimização multiob-jetivo como o conceito de otimalidade de Pareto e a descrição matemática do problema. O capítulo ainda mostra duas principais métricas de qualidade de soluções, conceito importante no teste e qualificação de algoritmos de otimização. E, finalmente, se encerra listando as prin-cipais heurísticas desenvolvidas entre os anos de 2001 e 2014 para a otimização de problemas multiobjetivo.

No terceiro capítulos são apresentados os conceitos de experimentos computacionais e de processos Gaussianos de metamodelagem. Inicialmente, explica-se o que é o conceito de oti-mização assistida por metamodelagem para um caso mono-objetivo. Na sequência apresenta-se o metamodelo de Kriging e sua relação com processos estocásticos, bem como diversas pro-priedades úteis do Kriging, como a média interpoladora em regiões desconhecidas e determi-nística em pontos conhecidos. O capítulo também detalha os conceitos de melhoria esperada e probabilidade de melhoria, ambos de extrema importância para a construção dos critérios de preenchimento, utilizados no refino de metamodelos.

No Capítulo 4 é apresentada uma revisão bibliográfica sobre otimização multiobjetivo. O capítulo inicia com os trabalhos clássicos que introduziram as heurísticas mais utilizadas como o NSGA-II e também trabalhos mais recentes que propõem algoritmos de otimização para problemas com muitos objetivos como o NSGA-III. Na seção seguinte são resumidos os principais trabalhos referentes a otimização multiobjetivo auxiliada pelo modelo de Kriging.

O Capítulo 5 apresenta os resultados obtidos neste trabalho. Os detalhes de metodolo-gia de cada resultado é apresentado nos Apêndices A a D em formato de artigos, três deles já publicados em periódicos e um em processo de revisão.

As considerações finais bem como as sugestões deixadas para trabalhos futuros são elencadas no Capítulo 6.

(19)

2 OTIMIZAÇÃO MULTIOBJETIVO

2.1 CONCEITOS GERAIS

Problemas complexos de engenharia quase sempre estão relacionados a um balanço de múltiplos critérios de desempenho que, em geral, são conflitantes entre si. Por exemplo, requi-sitos comumente relacionados a projetos aeronáuticos são: peso, custo, robustez, performance, envelope de voo, comprimento de decolagem, agressão ao meio ambiente, manobrabilidade, entre outros. Esses objetivos são claramente conflitantes e uma solução que melhore um dos critérios provavelmente causará impacto negativo em outros (FORRESTER et al., 2008). Em geral, o que o projetista (na literatura de otimização multiobjetivo: decision maker (DM)) deve fazer é balancear os objetivos conflitantes e decidir qual solução atende da melhor maneira possível a combinação desses (TORENBEEK, 2013). Contudo, a escolha de uma solução que atenda de maneira satisfatória todos os objetivos não é simples. O mapeamento entre o espaço de decisão (variáveis de entrada) e o espaço dos objetivos (respostas) é, em geral, altamente não linear. Sendo assim, encontrar as variáveis de entrada que levem a uma combinação ótima de respostas é, quando possível, de elevada dificuldade (FORRESTER et al., 2008).

Em um problema de otimização multiobjetivo não-trivial, não existe um único projeto que maximize simultaneamente todos os critérios. Nesse caso, diz-se que o problema possui objetivos conflitantes e existe um conjunto (possivelmente infinito) de soluções ótimas. Esse conjunto é comumente chamado de conjunto (ou frente) de Pareto. Assim, cada um dos pro-jetos do conjunto é ótimo em algum sentido, sem levar em consideração a relevância de cada objetivo. Segundo Forrester et al. (2008), de maneira mais formal, uma frente ou conjunto de Pareto contém apenas projetos que são suficientemente otimizados tal que: para melhorar o desempenho de qualquer projeto, em qualquer critério, o desempenho em pelo menos um dos demais objetivos é reduzida. Em outras palavras, os projetos contidos em um conjunto de Pareto são considerados não dominados, de modo que não há nenhum projeto que seja melhor em mais de um objetivo quando comparado a outro.

Para dois ou três objetivos, um conjunto de Pareto pode ser visualizado em um gráfico de dispersão (scatter plot) que tenha em seus eixos a resposta para cada objetivo (objetivo A versusobjetivo B, por exemplo). A Figura 2.1 mostra o exemplo de uma frente de Pareto de um problema de minimização dos objetivos A e B. Nela, os pontos que fazem parte do conjunto de Pareto (pontos não dominados) são representados por pontos cheios e os que não fazem parte (pontos dominados) por pontos vazios. A linha cheia representa a frente de Pareto e a região hachurada com linhas cheias mostra a parte do espaço objetivo onde possíveis projetos aumen-tariam o conjunto de Pareto sem excluir (dominar) nenhum ponto já existente (i.e., aumenaumen-tariam o número de projetos da frente de Pareto). Já a região hachurada em tracejado representa a parte

(20)

Capítulo 2. Otimização Multiobjetivo 19

do espaço que um possível projeto dominaria pelo menos um ponto da frente atual (i.e., obteria melhor desempenho em ambos os critérios). Nessa região, pode ou não existirem projetos factí-veis. No caso de não existirem, os pontos não dominados são ditos fazerem parte da frente real de Pareto.

Figura 2.1 – Amostras em uma otimização multiobjetivo com um conjunto de Pareto de cinco pontos. A linha cheia representa a frente de Pareto.

Objetivo A

Ob

jetiv

o

B

Fonte: autoria própria.

Com o aumento do número de objetivos, a visualização do conjunto de Pareto se torna problemática. Fieldsend e Everson (2013) trazem uma revisão de técnicas de visualização que se baseiam em projeções e correlações com scatterplots bidimensionais. Já em Blasco et al. (2008), é mostrada uma nova técnica de visualização baseada em curvas de níveis, que possui a vantagem de sincronização do espaço decisão com o espaço de projeto.

O estudo de problemas com múltiplos objetivos pode ser visto sob duas perspectivas principais: construção ou utilização/visualização de frentes de Pareto. No presente trabalho, o enfoque é dado unicamente no processo de construção dos conjuntos de Pareto.

O problema de otimização multiobjetivo pode ser denotado em uma forma padrão como

min (f1(x), f2(x), . . . , fk(x)) (2.1)

tal quex_{∈ D,}

onde k _{≥ 2 é o número de objetivos e D o espaço decisão ou conjunto de projetos factíveis,} definido por D = ( x| hj(x) = 0, (j = 1, . . . , p); x_{| g}i(x)≤ 0, (i = 1, . . . , m). (2.2)

De maneira alternativa, os objetivos a serem minimizados podem ser definidos como uma fun-ção vetorial

(21)

Como mencionado anteriormente, em geral não há solução única (trivial) para o pro-blema multiobjetivo. Em termos matemáticos, um projeto x(1) _{diz-se dominante em relação}

outro projetox(2)_{, se} 1. _{∀ i ∈ {1, 2, . . . , k}, f}i x(1) ≤ fi x(2) e 2. _{∃ j ∈ {1, 2, . . . , k}, f}j x(1) < fj x(2) .

2.2 CRITÉRIOS DE QUALIDADE DE SOLUÇÕES

Para auxiliar no ranqueamento de soluções e/ou conjuntos de soluções, vários critérios foram propostos, entre os mais populares destacando-se o hipervolume dominado e o indica-dor épsilon (EMMERICH et al., 2011; SVENSON, 2011). Ambos os indicaindica-dores podem ser vistos na Figura 2.2, para um projeto hipotético adicionado ao mesmo exemplo da Figura 2.1 (representado por ). A melhoria do hipervolume dominado (Fig. 2.2 (a)) é o incremento de hipervolume contido entre a frente de Pareto e um ponto de referência1 (indicado por_{⊕) no} espaço dos objetivos, quando um novo ponto não-dominado (indicado por ) é adicionado. O hipervolume dominado original é indicado pela área hachurada com linhas cheias e o incre-mento no hipervolume dominado pela área hachurada com linhas tracejadas. Uma representação do indicador épsilon pode ser vista na Figura 2.2 (b). O indicador possui valor igual ao menor escalar que deve ser adicionado aos componentes de um novo projeto (no espaço dos objetivos) de modo que esse passe a ser dominado pela frente atual.

Figura 2.2 – Comparação entre dois indicadores de otimalidade de conjuntos de Pareto: hiper-volume dominado (a) e indicador épsilon (b)

Objetivo A Ob jetiv o B (a) Objetivo A Ob jetiv o B (b) ε ε

1 _{O ponto de referência pode ser definido arbitrariamente desde que dentro da região dominada. Contudo,} usual-mente escolhe-se o maior para cada objetivo obtido considerando todos os projetos amostrados.

(22)

Capítulo 2. Otimização Multiobjetivo 21

2.3 ALGORITMOS CLÁSSICOS

Diversas heurísticas foram desenvolvidas para resolver problemas com múltiplos obje-tivos. Dentre aquelas de maior sucesso podem ser destacadas: SPEA22(ZITZLER et al., 2001), PESA-II3(CORNE et al., 2001), NSGA-II4(DEB et al., 2002b) e SMS-EMOA5(EMMERICH et al., 2005; BEUME et al., 2007). Segundo Deb e Jain (2014), tais heurísticas são apenas in-dicadas quando o número de objetivos é moderado (até três). Com o intuito de preencher essa lacuna, em um trabalho dividido em dois artigos (DEB; JAIN, 2014; JAIN; DEB, 2014), o algoritmo NSGA-III é apresentado. Esse ramo da otimização multiobjetivo é comumente cha-mado de otimização com muitos objetivos (many-objective optimization). Apesar de altamente robustos, esses algoritmos possuem dificuldades na otimização de funções de alto custo com-putacional pois necessitam de grande número de avaliações das funções objetivo.

2 _{Strength Pareto evolutionary algorithm 2.} 3 _{Pareto envelope based selection algorithm II.} 4 _{Nondominating sorting genetic algorithm II.}

(23)

3 EXPERIMENTOS COMPUTACIONAIS E PROCESSOS GAUSSIANOS DE META-MODELAGEM

3.1 OTIMIZAÇÃO BASEADA EM METAMODELAGEM

A modelagem computacional é hoje uma ferramenta padrão no desenvolvimento de projetos de engenharia. Usada principalmente como uma alternativa rápida e barata quando comparada ao processo experimental, sendo, em alguns casos, a única alternativa viável (por exemplo modelagem climática). Mesmo com a constante melhoria de softwares e hardwares, a crescente complexidade dos problemas atuais acarreta em altos tempos de processamento. Assim, o estudo de diferentes concepções de um projeto baseado na exploração exaustiva das possibilidades é, em geral, impossível sob restrições realísticas de tempo.

Chama-se de experimento computacional o processo de realização de simulações com-putacionais a um dado número de diferentes configurações de projetos. As configurações, por sua vez, são definidas alterando-se os valores das variáveis de projeto. Além disso, normal-mente considera-se que os modelos computacionais são determinísticos, ou seja, para um dado conjunto fixo de entradas, um modelo computacional retorna sempre a mesma resposta. Nesse contexto, o principal desafio é escolher quais configurações de projeto devem ser modeladas para que o orçamento computacional seja gasto da maneira mais eficiente possível.

Apesar de similaridades com experimentos físicos, os experimentos computacionais possuem diversas características únicas. Em geral, como já comentado, são tipicamente deter-minísticos, representam de maneira aproximada o fenômeno físico verdadeiro e são essencial-mente funções do tipo caixa preta (no inglês, black-box functions). Funções caixa preta signi-ficam que não se conhece de maneira explícita a função que relaciona as entradas e saídas do experimento. Portanto, a única informação que se tem sobre o problema são respostas avaliadas em um número finito de observações. Devido a essa característica, os experimentos computa-cionais podem ser vistos sob o aspecto probabilístico, ou seja, o comportamento da função em pontos não observados pode ser apenas estimado.

Segundo Forrester et al. (2008), os problemas de engenharia que requerem a construção de um modelo substituto (metamodelo) que seja de baixo custo para avaliar bf e que emule a resposta de uma função custosa e/ou desconhecidaf , vem em uma variedade de formas, porém podem ser generalizadas conforme a ideia a seguir.

Assumindo uma função contínua desconhecida (black box) f (x) : D _{⊂ R}d _{→ R,}

um metamodelo consiste em fazer predições de valores desconhecidos de y(x(0)_{) para um}

dado x(0) _{∈ D usando observações conhecidas y de um conjunto de experimentos X =}

(24)

por-Capítulo 3. Experimentos Computacionais E Processos Gaussianos de Metamodelagem 23

tanto, devem ser realizadas com parcimônia. O objetivo dos metamodelos é, da melhor maneira possível, realizar previsões de baixo custo para valoresx∈ D da função objetivo.

O processo de metamodelagem também pode ser chamado de aprendizagem supervi-sionada, pois equivale a uma busca, em um espaço de funções factíveis, de uma função bf que replique com fidelidade as observações def . Esse espaço é, essencialmente, infinito. Contudo, apenas poucas funções desse espaço generalizam bem a resposta fora dos valores conhecidosy e portanto úteis para realizar predições em novos pontosx(0)_{(FORRESTER et al., 2008). Os}

me-tamodelos mais populares são: superfícies de resposta polinomiais, Kriging, funções de bases radiais, máquinas de vetores de suporte, florestas aleatórias e redes neurais artificias (ROJAS-GONZALEZ; NIEUWENHUYSE, 2019).

Uma característica de praticamente todos os metamodelos é que os resultados preditos são mais precisos para regiões próximas aos pontos conhecidos da função objetivo. Portanto, é intuitivo que para obter-se um bom resultado globalmente os pontos amostrados devam ser distribuídos o mais uniformemente possível dentro do espaço de projeto D. Diz-se que uma amostra que atenda esse requisito “preenche o espaço de projeto” (space-filling). Além disso, para problemas de otimização de elevado custo computacional, torna-se inviável despender muito tempo para avaliar centenas ou milhares de vezes as funções objetivo. Assim é importante que o espaço de projeto seja representado de maneira eficiente. Uma solução popular para esse problema é de que pontos de projetos diferentes não se sobreponham em nenhuma projeção ortogonal (i.e. não possuam mesmo valor em nenhuma das variáveis de projeto). A técnica mais popular que atende esses ambos requisitos chama-se hipercubo latino (STOCKI, 2005) e um exemplo pode ser visto na Figura 3.1.

3.2 PROCESSOS GAUSSIANOS

Processos gaussianos (GP) podem ser empregados para representar essa função desco-nhecida (função do tipo caixa preta). Na teoria das probabilidades, um processo gaussiano é um modelo estatístico onde observações ocorrem em um domínio contínuo (usualmente o tempo e/ou espaço). Em um GP, cada ponto do espaço de entrada x ∈ Rd_{(projeto ou decisão) é}

as-sociado a uma variável aleatória_{Y(x). Como o processo é definido em um domínio contínuo,} a função de distribuição conjunta de todas essas (infinitas) variáveis aleatórias é uma distri-buição sobre funções com domínio contínuo. GPs podem ser vistos como uma generalização infinito-dimensional de distribuições normais multivariadas.

Sem dúvidas, o processo gaussiano mais famoso, tanto que por vezes seu nome é usado como sinônimo, é o Kriging. Originado no ramo das geociências (KRIEG, 1951) e ponto de partida para o ramo da geo-estatística (MATHERON, 1963), Kriging, em resumo, é um método de interpolação espacial. Considerando uma função caixa preta (por motivos didáticos apenas escalar)y : D⊂ Rd_{→ R como sendo uma realização de um processo estocástico Y(x), x ∈ D,}

(25)

Figura 3.1 – Exemplo de um cubo latino aleatório com três dimensões e 10 pontos. (a) repre-sentação em três dimensões; (b) gráfico de pares com a projeção em cada uma das seis faces do cubo.

Kriging consiste em prever os valores paray(x) com base na distribuição condicional deY(x) dado um conjunto finito den-observações de y(x) (ROUSTANT et al., 2012). A construção da estrutura Bayesiana de predição é mostrada em profundidade em Sacks et al. (1989), Jones et al. (1998), Forrester et al. (2008), Roustant et al. (2012) e Scheuerer et al. (2013) e em termos práticos, um metamodelo de Kriging para uma função mono-objetivo, pode ser simplesmente resumido por

Y(x)|(Y(X) = y) ∼ N µ = m(x), σ2 = s2(x), (3.1)

onde_{Y(x)|(Y (X) = y) (ou em uma notação simplificada Y|y) é o processo gaussiano} con-dicional que representa o metamodelo de Kriging; x = {x1, . . . , xd} ∈ D ⊂ Rdé um projeto

qualquer dentro do domínio de projeto; X = _{x(1)_{, . . . , x}(n)_{} é a matriz composta por todos}

os vetores de projeto onde y(x) já foi avaliado; y = _{y(x(1)_{), . . . , y(x}(n)₎_}> _{são as}

corres-pondentes respostas;m(x) e s2_{(x) são funções que definem a média e a variância do processo}

estocástico para qualquerx_{∈ D.}

3.3 CONSTRUÇÃO DO METAMODELO DE KRIGING

É notável a diferença do método de Kriging com diversos outros metamodelos ou superfícies de resposta. Por exemplo, metamodelos de base radial são determinísticos e a função de predição retorna um valor sem desvios. Já em Kriging, o metamodelo retorna um processo aleatório, informando dois valores (média e desvio), que representam o valor y esperado e o nível de confiança que se tem dessa predição.

(26)

Capítulo 3. Experimentos Computacionais E Processos Gaussianos de Metamodelagem 25

Núcleos de covariância

Espera-se que as equações que modelam problemas físicos sejam “suaves” devido a natureza contínua dos fenômenos observados. Portanto, é razoável que para distâncias pequenas entre dois pontos de projeto u e v a variação das respostas y(u) e y(v) também seja pequena. Em outras palavras, espera-se que para uma pequena distância_{ku − vk a correlação entre os} processos aleatórios_{Y(u) e Y(v) seja grande.}

A forma como essa correlação se dá é definida pelo núcleo de covariância (covariance kernel) e a escolha deste tem um impacto crucial na construção do metamodelo. Algumas reco-mendações são feitas para a escolha da função kernel C, entre elas é importante ressaltar que C deve ser positivo definido (ou negativo definido, devido à necessidade de inversão durante o processo de construção do metamodelo). Com isso, é de costume definirC como o produto de núcleos paramétricos unidimensionais k previamente conhecidos como sendo positivo defini-dos: c(h) = C(u, v) = σ2 d Y i=1 k(hi, θi), (3.2)

ondeh = (h1, . . . , hd) = (u− v) e θié um parâmetro de ajuste do kernel unidimensional.

Entre inúmeras possibilidades de núcleos que atendam os requisitos, os cinco dispo-níveis em Roustant et al. (2012) estão reproduzidos na Tabela 3.1. Os parâmetros θj possuem

mesma unidade das variáveis de projeto e podem ser interpretados fisicamente como parâmetros de escala que tornam o kernelg adimensional. Esses parâmetros são chamados por Rasmussen e Williams (2006) de comprimentos de escala característicos.

Tabela 3.1 – Núcleos de covariância disponíveis no pacote DiceKriging (ROUSTANT et al., 2012). gaussiano: k(h, θ) = exp−h2 2θ2 . Matérnν = 5/2: k(h, θ) =1 + √5_θ|h| +5h2 3θ2 exp₋√5_θ|h|. Matérnν = 3/2: k(h, θ) =1 + √3_θ|h|exp₋√3_θ|h|. Exponencial: k(h, θ) = exp−|h|θ .

Potência-Exponencial: k(h, θ) = exp₋|h|_θ p com _{{0 < p ≤ 2}.}

Os núcleos citados resultam em diferentes níveis de suavidade para a correlação asso-ciada aos processo aleatórios. Segundo Roustant et al. (2012), o núcleo gaussiano provê uma matriz de covariância com derivadas de todas as ordens e portanto é extremamente suave. Com o núcleo Matérn, o processo é apenas diferenciável até uma ordem inferior ao parâmetro ν. Com ν = 1/2 equivalente ao núcleo exponencial, o processo é apenas contínuo não sendo diferenciável na origem. Apesar dos núcleos terem diferentes níveis de diferenciabilidade, to-dos são contínuos e consequentemente apenas correlacionam de maneira adequada grandezas contínuas. Nota-se que o resultado da correlação definida pelas Equações da Tabela 3.1, para

(27)

distâncias pequenas, se aproximam de 1 (altamente correlacionado) e para distâncias grandes, tende a zero (sem correlação).

Kriging Simples

No Kriging simples (SK, do inglês simple Kriging), assume-se que _{Y é a soma de} uma função de tendência determinística totalmente conhecida µ(x) _{∈ R e de um processo} estocástico centradoZ:

Y(x) = µ(x) + Z(x), (3.3)

onde o kernel de covariânciaC(u, v) deZ é também totalmente conhecido (conhece-se os pa-râmetros de ajuste). Em outras palavras, Kriging pode ser visto como a soma de uma regressão (µ) a uma interpolação espacial (Z). Aplicando o DOE X e suas respostas já conhecidas y à Equação 3.3 e minimizando o erro quadrático médio obtêm-se a média mSK(x) e a variância

s2

SK(x) da melhor predição linear não-viciada Y(x) (baseada nas observações y = y(X)) para

qualquer pontox_{∈ D dada por:}

mSK(x) = µ(x) + c(x)>C−1(y− µ) (3.4)

s2_SK(x) = C(x, x)_{− c(x)}>C−1c(x), (3.5)

onde

c(x) = C(x, x(1)), . . . , C(x, x(i)), . . . , C(x, x(n)) (3.6) é o vetor de covariâncias entre a predição_{Y(x) e a “predição” nos n-pontos do DOE Y(X),}

C =          C(x(1)_{, x}(1)_{) . . . C(x}(1)_{, x}(j)_{) . . . C(x}(1)_{, x}(n)₎ .. . . .. ...

C(x(i)_{, x}(1)₎ _C(x(i)_{, x}(j)₎ _C(x(i)_{, x}(n)₎

.. . . .. ... C(x(n)_{, x}(1)_{) . . . C(x}(n)_{, x}(j)_{) . . . C(x}(n)_{, x}(n)₎          (3.7)

é a matriz de covariância que correlaciona internamente os pontos do DOE e µ = µ(X) é o vetor que contem as avaliações da função de tendência nos pontos amostrados. Uma dedução muito mais detalhada do procedimento pode ser vista em Scheuerer et al. (2013). É importante ressaltar que a prediçãomSK interpola os dados observados (i.e. passa exatamente pelos dados

conhecidos). Além disso, a variâncias2

SKé sempre não-negativa e é nula nos pontos

experimen-tais (o preditor tem certeza desses valores, pois já os conhece). Outra característica da variância, é que ela não depende dos valores dey (homocedasticidade1 _{das observações ou}

homogenei-dade de variância) (ROUSTANT et al., 2012).

1 _{Esta é a hipótese do modelo clássico de regressão linear e pressupões que a variância de cada termo é algum} número constante igual aσ2_.

(28)

Kriging Universal

Kriging universal (UK, do inglês universal Kriging) consiste em prover a melhor pre-dição linear não-viciada de y(x) baseada nas observações y = y(X) enquanto maximiza a verossimilhança dos dados encontrando os coeficientes das funções de regressão tal como os hiperparâmetros do kernel.

No UK considera-se que a função de regressão é desconhecida até um certo ponto, porém que tenha a forma

µ(x) =

p

X

i=1

βiφi(x), (3.8)

ondep _{∈ N 6= 0, φ}i são funções de base conhecidas eβi são coeficientes reais desconhecidos.

Quando a função de regressão é constante e apenas um parâmetro β deve ser determinado, o modelo é denominado de Kriging ordinário (Ordinary Kriging – OK) (ROUSTANT et al., 2012). As equações que definem a média e a variância do preditor UK são dadas por:

mUK(x) = f (x)>β + c(x)ˆ >C−1(y− F ˆβ) (3.9)

s2_UK(x) = s2_SK(x) + (f (x)>_{− c(x)}>C−1F)>(F>C−1F)−1(f (x)>_{− c(x)}>C−1F) (3.10)

ondef (x) = (f1(x), . . . , fj(x), . . . , fp(x)) é o vetor das funções de base avaliadas em x,

F =          f1(x(1)) . . . fj(x(1)) . . . fp(x(1)) .. . . .. ...

f1(x(i)) fj(x(i)) fp(x(i))

.. . . .. ... f1(x(n)) . . . fj(x(n)) . . . fp(x(n))          (3.11)

é chamada de matriz experimental e contem as funções base avaliadas nos pontos do DOE, e dos coeficientesβi, usualmente obtidos por mínimos quadrados (com relação aC) e dados por

ˆ

β = (F>_C−1_F)−1_F>_C−1_{y (ROUSTANT et al., 2012).}

Neste trabalho, é apenas empregado o kriging em sua versão universal, portanto as funções média e variância representadas simplesmente porm(x) e s(x).

3.4 PROPRIEDADES BÁSICAS DO METAMODELO DE KRIGING

Devido à construção do modelo, algumas propriedades são muito úteis à análise dos experimentos computacionais, em especial à otimização. Tais propriedades são apresentadas a seguir em forma de teoremas.

Teorema 3.1. A média do processo gaussiano interpola os dados observados. Ou seja:

(29)

Demonstração. Pela definição de média: m(x) = E [Y(x)|(Y(X) = y)] . (3.13) Portanto m(X) = E [Y(X)|(Y(X) = y)] , = E [y] , = y. (3.14)

Teorema 3.2. A variâncias2_{(x) é sempre não-negativa, sendo nula nos pontos experimentais.}

Ou seja:

s2(x)_{≥ 0} (3.15)

e

s2(X) = 0. (3.16)

Demonstração. Pela definição de variância:

Var[Y] = E(Y − E[Y])2_{≥ 0.} _(3.17)

Portanto,

s2(x) = Var[_{Y(x)] ≥ 0} (3.18)

e

s2(X) = Var [Y(X)|(Y(X) = y)] = Var [y]

= 0. (3.19)

Mais especificamente, o valor da variância é influenciado principalmente por uma distância entrex e X, calculada através de um núcleo de covariância.

Além dessas duas propriedades, Roustant et al. (2012) demonstram que a variância do modelo de Kriging não depende diretamente dos valores observadosy (homocedasticidade2_das

observações ou homogeneidade de variância).

Como o escopo do trabalho de tese são processos condicionados (Bayesianos), para simplificação da notação, o processo _{Y(x)|(Y(X) = y) será simplesmente representado por} Y(x).

2 _{Hipótese do modelo clássico de regressão linear e pressupõe que a variância do processo é algum número} constante igual aσ2_.

(30)

Considerando um exemplo unidimensional, dado pela equação

y(x) = (6x_{− 2)}2_sen(12x_{− 4)} _(3.20)

avaliada nos pontosX ={{0,0}, {0,4}, {0,6}, {0,8}, {1,0}}>_{, o modelo de Kriging construído}

pode ser representado como mostra a Figura 3.2. Nessa figura, a função real (desconhecida pelo metamodelo) é representada com uma linha cheia e a média do processo gaussiano com uma linha tracejada. Os intervalos de confiança de 25%, 50%, 75% e 95% são representados com tons de cinza (do mais escuro para o mais claro, respectivamente). À direita é representado um corte emx = 0,5 onde pode ser vista a função densidade de probabilidade neste ponto.

Figura 3.2 – Exemplo de metamodelo de Kriging de uma função escalar de uma variável avali-ada em cinco pontos.

0,0 0,2 0,4 0,6 0,8 1,0 -5 0 5 10 15 x y (x ) 0,5 y(x) m(x) y(X) 0,00 0,06 0,12 -5 0 5 10 15 P [Y(x) = y|(x = 0,5)] y

Dentre várias vantagens, a modelagem com processos gaussianos permite a criação de indicadores de grande utilidade como o conceito de melhoria esperada (EI) e a probabilidade de melhoria(PI).

3.5 PROBABILIDADE DE MELHORIA E MELHORIA ESPERADA

Teorema 3.3. A probabilidade de melhoria de um processo gaussiano _{Y(x) em relação a um} valor arbitrárioy∗ _{∈ R é dada por}

PI(y∗,Y(x)) = Φ y∗− m(x) s(x) , (3.21)

onde Φ é a função de probabilidade de uma variável aleatória gaussiana padrão_{Z = N (µ =} 0, σ = 1).

Demonstração. Pode-se calcular a probabilidade que uma realização de _{Y(x) seja igual ou} mais extrema do quey∗_{utilizando diretamente a definição de probabilidade}

PI(y∗,Y(x)) = P [Y(x) ≤ y∗]

(31)

ondeΦ_Y(x)(y) é a função densidade de probabilidade do processo estocástico_Y(x). O processo_{Y(x) pode ser reescrito na forma normal padronizada como}

Z = Y(x) − m(x)

s(x) , (3.23)

e a probabilidade de melhoria reescrita como

PI(y∗,_{Y(x)) = P [s(x)Z + m(x) ≤ y}∗] = P Z ≤ y∗− m(x) s(x) = Φ y∗_{− m(x)} s(x) . (3.24)

Alternativamente, pode-se criar um novo processo estocástico _{I(x) que representa a} melhoria obtida ao se realizar_{Y(x) em relação a y}∗dado formalmente por

I(y∗_,_{Y(x)) =}    y∗− Y(x), Y(x) < y∗_; 0, Y(x) ≥ y∗_. (3.25)

Note que a função de distribuição de _{I(x) é diferente da função de distribuição de Y(x) ∼} N (m(x), s2_{(x)) e pode ser obtida aplicando a definição:}

Φ_I(x)(i) = P [_{I(x) ≤ i].} (3.26)

Substituindo_{I, para i ≥ 0 (ou y(x) ≤ y}∗), tem-se:

Φ_I(x)(i) = P [y∗− Y(x) ≤ i] (3.27)

e isolando_{Y da Equação 3.23 tem-se}

ΦI(x)(i) = P [y∗ − s(x)Z − m(x) ≤ i],

= P −Z ≤ i− y∗+ m(x) s(x) , = P Z ≥ −i− y∗+ m(x) s(x) , = 1− P Z ≤ −i− y∗+ m(x) s(x) . (3.28)

Como a melhoria, por definição (Eq. 3.5), é não negativa, P [I(x) < 0] = 0 e tem-se a função de distribuição de_{I(x) dada por:}

Φ_I(x)(i) =    0, i < 0; 1_{− Φ}(y∗−i)−m(x)_s(x) , i_{≥ 0.} (3.29)

(32)

A probabilidade de se obter alguma melhoria pode ser calculada como sendo a probabilidade de _{I se realizar maior do que 0 (ou de não se realizar menor ou igual a 0). Assim, o mesmo} resultado pode ser obtido

PI(y∗,Y(x)) = 1 − P [I ≤ 0] = 1_{− P [I < 0] − P [I = 0])} = 1_{− 0 −} 1_{− Φ} y∗_{− m(x)} s(x) = Φ y∗_{− m(x)} s(x) (3.30)

Para exemplificar, considere novamente a função descrita na Equação 3.20 dessa vez avaliada nos pontos X = {{0,1}, {0,3}, {0,5}, {0,6}, {0,9}, {1,0}}>_{, representada na Figura}

3.3. Na parte direita dessa figura, é apresentado um corte emx = 0,70, onde pode ser vista a função densidade de probabilidade. Para o cálculo da probabilidade de melhoria é considerado y∗ _{= min(y) =}_{−0,149 (melhor valor amostrado). A área hachurada representa a probabilidade}

de que ao amostrar o projetox = 0,70 obtenha-se uma resposta menor do que y∗_.

Figura 3.3 – Exemplo da probabilidade de melhoria para um metamodelo de Kriging de uma função escalar de uma variável avaliada em seis pontos. Na direita, a área hachu-rada representa a probabilidade de melhoria ao amostrar o valor verdadeiro de f (0,7). 0,0 0,2 0,4 0,6 0,8 1,0 -5 0 5 10 15 x y (x ) 0,7 y∗ y(x) m(x) y(X) 0,00 0,04 0,08 0,12 -5 0 5 10 15 φ_Y(0,7)(y) y PI

Teorema 3.4. A melhoria esperada em um processo gaussiano _{Y(x) em relação a um valor} arbitrárioy∗ _{∈ R é dada por}

EI(y∗,Y(x)) = (y∗− m(x))Φ y∗_{− m(x)} s(x) + s(x)φ y∗ _{− m(x)} s(x) , (3.31)

(33)

Demonstração. Para o cálculo da melhoria esperada, aplica-se a esperança matemática no pro-cesso melhoria. Para isso,_{I(x) é reescrito de maneira mais compacta como I(x) = [y}∗_{− Y(x)]}+. Ou ainda, padronizando as variáveis:

I(y∗,Y(x)) = [y∗− Y(x)]+ = [s(x)(z∗(x)− Z(x))]+ (3.32) ondez∗_{(x) =} y∗− m(x)

s(x) eZ(x) =

Y(x) − m(x)

s(x) .

Aplicando o operador esperança, tem-se:

EI(y∗,_{Y(x)) = E[I(y}∗,_Y(x))]

= E(s(x)(z∗− Z(x)))+. (3.33)

Pela definição de esperança matemática e, por simplicidade, omitindo(x) da integral:

EI(y∗,Y(x)) = Z z∗

−∞

s(z∗− z)φ(z) dz. (3.34)

Note que os limites da integral são definidas pela imagem de _{I(x). Uma vez que a função} densidade de probabilidade de _{I(x) é não-nula para i ∈ [0, ∞), isolando Z(x) na Equação} 3.32, obtém-se

Z∗(x) = s z∗− I(x)

s (3.35)

cuja função densidade de probabilidade é não-nula paraz _{∈ (−∞, z}∗_].

Separando a integral em duas partes e resolvendo a primeira parcela tem-se que:

EI(y∗,Y(x)) = sz∗ Z z∗ −∞ φ(z) dz− s Z z∗ −∞ zφ(z) dz (3.36) = sz∗[Φ(z)]z_−∞∗ _{− s} Z z∗ −∞ zφ(z) dz. (3.37)

A segunda parcela pode ser resolvida explicitando a função densidade de probabilidade e inte-grando (usandoR eu_{du = e}u_): EI(y∗,_{Y(x)) = sz}∗[Φ(z)]z_−∞∗ _{− s} Z z∗ −∞ ze−z 2_/2 √ 2π dz (3.38) = sz∗[Φ(z)]z_−∞∗ + s " e−z2/2 √ 2π #z∗ −∞ (3.39) = sz∗[Φ(z)]z_−∞∗ + s [φ(z)]z_−∞∗ (3.40)

Aplicando os limites de integração e retornando às variáveis originais obtém-se a equa-ção para a melhoria esperada:

EI(y∗,Y(x)) =    (y∗− m(x))Φy∗−m(x)s(x) + s(x)φy∗−m(x)_s(x) , s > 0; 0, s = 0. (3.41)

(34)

Outra maneira de se obter a melhoria esperada é através da integral de Riemann–Stieltjes:

E[X ] = Z ∞ −∞ xφ_X(x) dx = Z ∞ −∞ x d(Φ_X(x)). (3.42)

Apesar de não auxiliar na obtenção analítica da melhoria esperada, a integral auxilia na visualização gráfica. Na Figura 3.4, o mesmo exemplo da Figura 3.3 é reproduzido. Contudo, na parte direita da figura, tem-se a função de distribuição do processo de melhoriaΦ_I(x)(i). A área hachurada representa exatamente a seguinte integral

E[I(y∗,Y(x))] =

Z ∞

−∞

i d(ΦI(i)), (3.43)

que é a melhoria esperada.

Figura 3.4 – Exemplo da probabilidade de melhoria para um metamodelo de Kriging de uma função escalar de uma variável avaliada em seis pontos. Na direita, a área hachu-rada representa a melhoria espehachu-rada ao amostrar o valor verdadeiro def (0,7).

0,0 0,2 0,4 0,6 0,8 1,0 -5 0 5 10 15 x y (x ) 0,7 y∗ y(x) m(x) y(X) 0,0 0,4 0,8 Φ_I(0,7)(i) 4 2 0 i EI

3.6 EXPERIMENTOS COMPUTACIONAIS E OTIMIZAÇÃO MULTIOBJETIVO

É importante ressaltar que o processo gaussiano modela a resposta (objetivo) do expe-rimento. Portanto, apesar de o processo ter como variável o vetor de projeto x, a distribuição de probabilidade se dá apenas em função dey. Em outras palavras, dado um vetor de projeto x qualquer fixo, o processo gaussiano_{Y(x) pode ser visto como uma variável aleatória Y simples} na qual os cálculos de probabilidade se dão apenas emy. Sendo assim, independente do número de variáveis de projeto (dimensão de x), para dois ou mais objetivos, o processo gaussiano da resposta é multi-variado (múltiplosy para um dado x):

Y(x)∼ N m(x), S2_(x)_, _(3.44)

onde Y é o processo gaussiano multivariado, m(x) é o vetor média e S2_{(x) é a matriz de}

(35)

Apesar de ser possível calcular completamente a matriz de covariânciaS2_{(x), Alvarez}

et al. (2012), Kleijnen e Mehdad (2014) e Binois e Picheny (2016) afirmam que o aumento da complexidade não justifica o ganho obtido. De fato, a grande maioria dos autores (pratica-mente todos os artigos contidos na revisão bibliográfica do presente trabalho) não consideram os efeitos da correlação entre as respostas dos diferentes objetivos. Dessa maneira, a matriz de covariância se torna diagonal e o cálculo das funções de distribuição marginais se torna trivial. Dada a hipótese de independência estatística dos objetivos, cada modelo pode ser construído separadamente Y(x) =            {Y1(x)∼ N (m1(x), s21(x))} {Y2(x)∼ N (m2(x), s22(x))} . . . {Yk(x) ∼ N (mk(x), s2k(x))}            . (3.45)

Contudo, Boyle e Frean (2004), Chan (2013) e Shah e Ghahramani (2016) afirmam que considerar a correlação entre os objetivos trazem ganhos significativos em diversos proble-mas de otimização. De fato, devido à natureza conflitante dos objetivos em probleproble-mas reais, não é raro encontrar problemas de otimização onde os objetivos e/ou as restrições estão fortemente correlacionados negativamente. O ganho pode vir a ser especialmente importante no caso de funções com custo computacional extremamente elevado, onde qualquer informação que possa ser inferida dos dados já observados é bem vinda. Atualmente, a maioria dos trabalhos publica-dos não consideram a correlação entre os diferentes objetivos.

Assim como os processos mono objetivos, os processos multiobjetivo permitem o cál-culo de métricas muito utilizadas pelos algoritmos de otimização. Na sequência, são introduzi-dos os conceitos de probabilidade de melhoria bidimensional, probabilidade de dominância, e hipervolume dominado esperado.

Teorema 3.5. A probabilidade de que uma respostay(x) = _{y1(x), y2(x)}, realização de um

processo gaussiano bi-variado Y(x) independente (i.e. dois objetivos não correlacionados), do-mine algum outro projeto y∗ ₌ _{y∗

1, y2∗}, pertencente a um conjunto de Pareto S é dada por

PD(y, Y(x)) = Φ_Y1 y∗₁− m1(x) s1(x) Φ_Y2 y∗₂ − m2(x) s2(x) . (3.46)

Demonstração. No caso de dois objetivos, a região onde um projetoy(x) dominaria um outro projetoy∗_{é representada pela região}_Ω

1na Figura 3.5.

A probabilidade de dominância pode ser interpretada como a probabilidade de que, para um determinado projetox (no domínio de projeto), o processo estocástico Y(x) gere uma realizaçãoy(x) (no domínio dos objetivos) domine uma resposta de referência x (se encontre na regiãoΩ1). Para o exemplo mostrado na Figura 3.5, essa condição pode ser expressa como

(36)

Figura 3.5 – Regiões de dominância (Ω1), melhoria (Ω2 eΩ3) e dominada (Ω4) por uma frente

de Pareto de um único projeto. Em vermelho, a probabilidade da localização no espaço dos objetivos para um dado vetor de projeto.

Ω1 Ω2 Ω3 Ω4 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● y₂∗ f2 y1∗ f1

Considerando um metamodelo Y(x) = {Y1(x),Y2(x)}, com objetivos não correlacionados, a

função densidade de probabilidade conjunta pode ser escrita como

φ_Y1,Y2 = φY1φY2, (3.48)

onde φY1 e φY2 são de fato

3 _φ

Y1(x) e φY2(x) e são as funções densidades de probabilidade de cada um dos metamodelos dos objetivos independentemente. Assim, PD se resume em

PD(y∗, Y(x)) = P [Y1 ≤ y1]P [Y2 ≤ y2] = Φ_Y1 y₁∗− m1(x) s1(x) Φ_Y2 y₂∗− m2(x) s2(x) . (3.49)

Teorema 3.6. A probabilidade de que uma respostay(x) = _{y1(x), y2(x)}, realização de um

processo gaussiano bi-variado Y(x) independente (i.e. dois objetivos não correlacionados), me-lhore4_{um conjunto de Pareto}_{S definido por apenas um projeto y}∗ ₌_{y∗

1, y2∗} é dada por

PI(y∗, Y(x)) = PI(y∗₁,_Y1(x)) + PI(y2∗,Y2(x))− PD(y∗, Y(x)). (3.50)

Demonstração. No caso de dois objetivos, a região onde um projetoy(x) melhorará um con-junto de Pareto de um único projetoy∗_{é representada por}_Ω

1,Ω2eΩ3 na Figura 3.5.

A probabilidade de melhoria pode ser interpretada como a probabilidade de uma re-alização y(x) se encontrar nas regiões Ω1, Ω2 ouΩ3. Ou, de maneira mais simples, é igual à

3 _{A dependência de}_{x foi suprimida para simplificar a notação.}

4 _{No presente texto é considerada melhoria quando um projeto domina outro(s) ou aumenta a população da frente} de Pareto.

(37)

probabilidade de não se encontrar na regiãoΩ4

PI(y∗, Y(x)) = P [Y(x)∈ {Ω1∪ Ω2∪ Ω3}]

= P [Y(x) /_{∈ Ω}4] = 1− P [Y(x) ∈ Ω4] = 1_{− P [{Y}1 > y1∗} ∩ {Y2 > y2∗}] = 1₋ 1_{− Φ}_Y1 y∗ 1 − m1(x) s1(x) 1_{− Φ}_Y2 y∗ 2 − m2(x) s2(x) = Φ_Y1 y∗ 1 − m1(x) s1(x) + Φ_Y2 y∗ 2 − m2(x) s2(x) − ΦY1 y∗ 1− m1(x) s1(x) Φ_Y2 y∗ 2− m2(x) s2(x) . (3.51) Ou ainda,

PI(y∗, Y(x)) = PI(y∗1,Y1(x)) + PI(y2∗,Y2(x))− PD(y∗, Y(x)). (3.52)

Para frentes de Pareto com mais de um elemento (como mostrado na Figura 2.1), o cálculo das probabilidades é análogo. Note que o procedimento é o mesmo, contudo o domínio de cálculo se torna mais particionado (Ω = Ω1∪ Ω2∪ . . . ∪ Ωn).

Teorema 3.7. A esperança de melhoria do hipervolume dominado (EHI) de um dado processo gaussiano bi-variado Y(x) independente (i.e. dois objetivos não correlacionados) em relação a um conjunto de ParetoS definido por apenas um projeto y∗ ₌_{y∗

1, y2∗} é dada por EHI

EHI(y∗, Y(x)) = PI(y∗, Y(x))p(y₁µ_{− y}∗

1)2+ (y µ

2 − y∗2)2 (3.53)

ondey₁µey₂µlocalizam o centroide da densidade de probabilidade de melhoria do hipervolume.

Demonstração. No caso descrito, a melhoria no hipervolume dominado por uma realização y(x) é indicado em vermelho na Figura 3.6 (a). Para o cálculo da EHI, elimina-se a região Ω4 pois não gera melhoria. Além disso, por conveniência, usualmente limita-se o domínio dos

objetivos superiormente com um valor arbitrário ref.

Como a distribuição da realizaçãoy(x) é modelada por um processo estocástico Y(x), uma realização da melhoria no hipervolume também pode ser modelada por um processo _IH

(38)

Figura 3.6 – Interpretação gráfica da esperança de melhoria do hipervolume dominado.

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● y2µ y2∗ ref2 f2 y1µ y1∗ ref1 f1

(FORRESTER et al., 2008) IH(y∗,Y(x)) =                            (_Y1(x)− y1∗) (Y2(x)− y∗2) + (_Y1(x)− y1∗) (y2ref − y2∗) + (Y2(x)− y2∗) (y1ref − y ∗ 1) se:{Y1(x) < y∗1} ∪ {Y2(x) < y∗2}; (Y1(x)− y1∗) (y2ref− Y2(x)) se:{Y1(x) < y∗1} ∪ {Y2(x) ≥ y2∗}; (y1ref − Y1(x)) (Y2(x)− y∗2) se:{Y1(x)≥ y1∗} ∪ {Y2(x) < y2∗}; 0 se:_{Y1(x)≥ y1∗} ∪ {Y2(x)≥ y2∗}. (3.54)

Assim, a melhoria esperada do hipervolume dominado pode ser calculada pela defini-ção de esperança matemática

EHI(y, Y(x)) = E[IH] =

Z

Ω

ihfIH(ih) dih, (3.55)

onde Ω é o espaço de probabilidade onde o processo _IH é definido e fIH(ih) é a função de probabilidade da variável_IH.

Considerando que a esperança matemática é o primeiro momento estatístico, a melho-ria esperada do hipervolume dominado pode ser calculada alternativamente como

EHI(y, Y(x)) = E[_IH] = P [IH > 0] p (y₁µ_{− y}∗ 1)2+ (y µ 2 − y2∗)2, (3.56)

onde y₁µ ey₂µ localizam o centroide de_IH (indicado pelo símbolo + na Figura 3.6). Esse

cen-troide pode ser computado de maneira exata pelo meio de integrais ou numericamente com o uso do método de Monte Carlo.

É importante notar que, devido a uma região de Ω possuir valor nulo de melhoria, P [_IH > 0] < 1 e consequentemente yiµ < mi(x). Para os casos de dois ou três objetivos,

(39)

usualmente se computa a melhoria esperada analiticamente calculando a integral indicada pela Equação 3.55. Em Hupkens et al. (2014) podem ser encontrados mais detalhes sobre implemen-tações exatas para o cálculo do EHI para dois e três objetivos.

(40)

39

4 REVISÃO BIBLIOGRÁFICA

4.1 ALGORITMOS EVOLUCIONÁRIOS PARA OTIMIZAÇÃO MULTIOBJETIVO

Otimização multiobjetivo (MOO, do inglês multiobjective optimization) vem sendo empregada em diferentes ramos da ciência onde decisões ótimas devem ser tomadas frente a múltiplos critérios. Entre as abordagens mais comuns estão os algoritmos evolucionários de otimização multiobjetivo (MOEA, do inglês multiobjective evolutionary algorithms). Um dos fatos que torna tais algoritmos atrativos, quando aplicados a problemas de otimização multiob-jetivo, é que em geral não necessitam do gradiente das funções, o que possibilita o estudo de funções do tipo caixa preta. Uma desvantagem dos algoritmos evolutivos, é a necessidade de um elevado número de avaliações das funções objetivo (simulações numéricas por exemplo). Além disso, normalmente, algoritmos evolutivos não possuem garantias de convergência para um ótimo, nem critérios de parada robustos.

Algumas das primeiras revisões abrangentes sobre o MOO são apresentadas em Fon-seca e Fleming (1995), Veldhuizen e Lamont (1998), Zitzler (1999) e Deb et al. (2002a). Esses trabalhos ilustram as ideias básicas bem como os desafios apresentados. Posteriormente, inú-meros algoritmos de otimização foram propostos, alguns podem ser encontrados em Corne et al. (2001), Zitzler et al. (2001), Deb et al. (2002b), Emmerich et al. (2005), Beume et al. (2007), Zhang e Li (2007), Yang (2013) e Chen et al. (2015a). Grande parte dos algoritmos menciona-dos foram testamenciona-dos por Reed et al. (2013), onde são avaliamenciona-dos os seguintes temas: (1) problemas com muitos objetivos (mais de quatro objetivos), (2) multi-modalidade, (3) não linearidade, (4) problemas discretos, (5) espaço factível reduzido, (6) objetivos estocásticos (medição com erro aleatório), (7) não separabilidade genética dos operadores (epistasia).

Um dos MOEAs mais populares é o NSGA-II (DEB et al., 2002b). Contudo, com a crescente atenção para problemas com muitos objetivos (quatro ou mais), evidenciaram-se problemas nesse algoritmo devido à degradação de pressão evolutiva com o aumento do número de objetivos. Para aliviar esse problema, Deb e Jain (2014) propõe o NSGA-III, uma melhoria do algoritmo anterior com adição de pontos referenciais à população. No artigo são estudados problemas com 2 a 15 objetivos sem restrições e os resultados apresentados são promissores quando comparados ao uso de MOEAs anteriores. Em Jain e Deb (2014), um segundo volume do artigo anterior, é estendida a aplicação do NSGA-III para problemas com restrições. Além disso, é adicionado um operador adaptativo de remoção de indivíduos, que também inclui novos pontos de referência durante a execução do algoritmo. Novamente, melhorias são reportadas na representação da frente de Pareto quando comparado a trabalhos anteriores. Jain e Deb (2014) ainda testam o algoritmo em problemas de engenharia (representações analíticas de um impacto lateral de um veículo e de um problema de recursos hídricos).

(41)

Subsequentes melhorias no algoritmo NSGA-III são mostradas em Yuan et al. (2014), Ibrahim et al. (2016), Seada et al. (2017) e testadas exaustivamente em Li et al. (2019), Zhang et al. (2019), Yi et al. (2020). As melhorias tem principalmente como objetivo uma melhor convergência (elitização) populacional no processo evolutivo. Ambos os trabalhos afirmam ter obtido resultados mais diversos e mais precisos se aproximando mais fielmente da frente de Pareto ótima. Contudo, há limitações práticas de custo computacional na abordagem empregada em Seada et al. (2017).

O algoritmo DC-NSGA-III, proposto em Seada et al. (2017), baseia-se principalmente no uso de uma recente inovação, a medida KKTPM. A medida KKTPM (do inglês Karush-Kuhn-Tucker Proximity Measure) proposta inicialmente em Tulshyan et al. (2010), Dutta et al. (2013) como critério de parada para problemas de otimização mono-objetivo com restrições se baseia na aproximação de uma solução aos critérios de otimalidade KKT. Posteriormente, Deb e Abouhawwash (2016) aplicam o critério de proximidade em uma função de escalarização o que permite que o critério seja empregado em problemas de otimização multiobjetivo. O critério KKTPM tem como objetivo transformar o problema de otimização multiobjetivo em uma única função multimodal onde cada mínimo global representa uma solução do conjunto ótimo de Pareto. Assim, o problema de otimização multiobjetivo se transforma na simples minimização global de uma função multimodal.

A grande vantagem teórica dessa técnica, é que a medida KKTPM é não negativa e possui valor zero em todos os pontos ótimos de Pareto. Ou seja, teoricamente a minimização dessa função garante a otimalidade do conjunto encontrado. Contudo, apesar da promissora, a técnica possui uma severa limitação do ponto de vista prático. A necessidade do cálculo do gra-diente de todas as funções envolvidas (custo e restrições) impossibilita seu uso em grande parte das aplicações de engenharia, em especial nas abordadas pelo presente trabalho. Uma possível solução é o uso de co-Kriging (LAURENCEAU; SAGAUT, 2008) e Kriging melhorado com gradientes (gradient-enhanced Kriging, GEK) (DWIGHT; HAN, 2009; BAAR et al., 2014). Até o momento (Abril/2020) não foram encontrados trabalhos que explorem essa combinação.

4.2 USO DO METAMODELO DE KRIGING NA OTIMIZAÇÃO MULTIOBJETIVO

Como apontado anteriormente, uma das principais desvantagens dos algoritmos evo-lutivos em geral é o grande número de acessos aos modelos de alta fidelidade. Para contornar esse problema, o uso de metamodelos (modelos substitutos) vem ganhando popularidade. Atu-almente, Kriging se tornou o metamodelo padrão na maior parte das aplicações em ambos mono e multiobjetivo.

Uma revisão abrangente na otimização multiobjetivo com uso do Kriging é mostrada em Tabatabaei et al. (2015). O trabalho cobre definições básicas bem como a construção dos metamodelos. Também são comparados 20 estudos anteriores a 2013. Tabatabaei et al. (2015)