OPERADORES DE BUSCA LOCAL BASEADA EM APROXIMAÇÃO LINEAR-QUADRÁTICA PARA OTIMIZAÇÃO DE FUNÇÕES RUIDOSAS

(1)

OPERADORES DE BUSCA LOCAL BASEADA EM

APROXIMAÇÃO LINEAR-QUADRÁTICA PARA

(2)

(3)

ANDRÉ RODRIGUES DA CRUZ

OPERADORES DE BUSCA LOCAL BASEADA EM

APROXIMAÇÃO LINEAR-QUADRÁTICA PARA

OTIMIZAÇÃO DE FUNÇÕES RUIDOSAS

Tese apresentada ao Programa de Pós--Graduação em Engenharia Elétrica da Es-cola de Engenharia da Universidade Fede-ral de Minas Gerais, Escola de Engenharia como requisito parcial para a obtenção do grau de Doutor em Engenharia Elétrica.

Orientador: Ricardo Hiroshi Caldeira Takahashi

(4)

c

da Cruz, André Rodrigues

C957o Operadores de busca local baseada em aproximação linear-quadrática para otimização de funções ruidosas / André Rodrigues da Cruz. — , 2017

xxx, 157 f. : il. ; 29cm

Tese (doutorado) — Universidade Federal de Minas Gerais, Escola de Engenharia

Orientador: Ricardo Hiroshi Caldeira Takahashi

1. Engenharia elétrica – Teses. 2. Algoritmos evolutivos – Teses. 3. Vacinação – Teses. 4. Heurística — Teses. I. Takahashi, Ricardo Hiroshi Caldeira. II. Universidade Federal de Minas Gerais. Escola de Engenharia. III. Título.

(5)

(6)

(7)

Para Cecília Lopes da Silva.

(8)

(9)

Agradecimentos

“If I have seen further it is by standing on the shoulders of Giants.” escreveria Isaac

Newton. Eu, André Rodrigues da Cruz, se cheguei até aqui. . . é porque tive o incen-tivo, o apoio e o carinho de muitas pessoas especiais para mim. Não há palavras em meu vocabulário para descrever a imensidão do quanto sou grato a elas.

Inicialmente registro aqui gratidão a Deus, o criador, o ser onipresente e oni-potente que permite o livre-arbítrio. Questiono sobre estar entre um mero acaso, ou alguma razão especial, ou uma combinação linear destes fatores para que eu tenha chegado aqui. . . ou nenhuma das opções anteriores. Fato é que cheguei, tive a oportu-nidade e os desaﬁos que ela impôs. Sou muito agradecido pela conjuntura favorável de tempo, espaço e seres humanos maravilhosos ao qual fui exposto para que me inspirasse e espelhasse. Devaneio sobre o que está por vir, sobre as responsabilidades e alegrias que terei com esta conquista.

Agradeço a minha família. Aos meus amados pais Olga Maria da Cruz e Eustáquio Rodrigues da Cruz, que sempre me proveram o melhor deles, o mais belo e puro amor, a leveza de superar os desaﬁos do dia-a-dia e um caminho digno para seguir na vida. Agradeço aos meus estimados irmãos Nilton Célio Rodrigues Cruz, Nilcemar Rodrigues Carvalho Cruz e Alexsandro Rodrigues da Cruz, pelo imprescindível apoio que tive para que eu atingisse tal esse triunfo.

Agradeço a minha linda Cecília Lopes da Silva, a mulher espetacular que sempre me incentivou e torceu para que essa vitória ocorresse. Ao meu lado, ela acompanhou toda a trajetória, do início ao ﬁm, minhas empolgações, decepções, diﬁculdades e superações. Transcender foi uma tarefa muito árdua, e o carinho dela foi essencial para que forças surgissem como sequências de pulsos em meu ser.

Agradeço ao meu querido orientador Ricardo Hiroshi Caldeira Takahashi, de quem desde 2005 recebo valiosos conhecimentos, não apenas de cunho técnico-cientíﬁco, mas também como exemplo de maestria e humanidade a ser seguido. Toquemos o barco então Taka, para os próximos projetos!

Agradeço a todos os meus professores que, desde a infância, contribuíram com

(10)

minha formação. Carrego em mim a dedicação e a paixão pela docência que vi e admi-rei neles. Um agradecimento especial aos queridos professores e amigos que ﬁz dentro do Programa de Pós-Graduação em Engenharia Elétrica da UFMG, Alexandre Celes-tino Leite Almeida, Eduardo Gontijo Carrano, Elizabeth Fialho Wanner, Luiz Henri-que Duczmal, Oriane Magela Neto (in memorian), Rodrigo Tomas Nogueira Cardoso,

Rodney Rezende Saldanha e Sérgio Augusto Araújo da Gama Cerqueira.

Agradeço a todos os meus amigos, dos mais distintos locais e épocas de minha vida, que torceram por mim. Agradeço também aos meus estimados familiares pelo carinho. Obrigado a todos pela força, incentivo e compreensão.

(11)

Resumo

Esta tese apresenta um estudo a respeito do problema de otimização de funções ruidosas por meio de heurísticas da classe dos algoritmos evolutivos. Mais especificamente, esta tese propõe a utilização de um tipo de operador de busca local, baseado em aproxima-ções lineares-quadráticas, como mecanismo para o tratamento dos ruídos presentes na classe das funções ruidosas. A hipótese subjacente a tal proposta é a de que a filtragem implícita do ruído que é realizada pelo próprio processo de construção da aproximação de função possa causar um efeito de atenuação do efeito do ruído no comportamento do algoritmo, assim favorecendo seu desempenho na busca do ótimo. Essa abordagem é diferente daquela que vem sendo majoritariamente empregada na literatura para o tratamento de funções ruidosas, e que normalmente se baseia na reamostragem de avaliações de soluções visando o aumento da confiança nas operações de comparação realizadas pelo algoritmo.

Para a realização de experimentos numéricos, foi empregado como algoritmo-base a Estratégia Evolutiva (1 + 1)-ES, que foi denominado ES-BS. Esse algoritmo-base foi modiﬁcado das seguintes maneiras: (i) foi incluído um operador de busca local baseado em busca em linha do tipo Quasi-Newton, sendo o algoritmo resultante denominado ES-QN; (ii) foi incluído um operador de busca local baseado em aproximações lineares-quadráticas de funções, resultando no algoritmo ES-AP; (iii) foi incluído um operador de reamostragem de soluções baseado em estimativas de conﬁança, resultando no al-goritmo ES-CC; e (iv) foi feita a inclusão tanto do operador de busca local por apro-ximação de funções quanto do operador de reamostragem, que resultou no algoritmo ES-APCC. Os algoritmos foram então submetidos a três conjuntos de experimentos.

Primeiro, apenas os algoritmos sem reamostragem foram avaliados, sobre um conjunto clássico de funções benchmark não ruidosas. Nesse experimento, o algoritmo

ES-AP se mostrou superior aos algoritmos ES-BS e ES-QN, indicando que o operador de busca local por aproximação de funções funciona adequadamente mesmo fora do contexto de funções ruidosas. A seguir, as funções utilizadas no experimento anterior foram convertidas em funções ruidosas, pela adição de ruído Gaussiano, sendo então

(12)

realizada a avaliação do desempenho dos cinco algoritmos. O algoritmo ES-AP demons-trou novamente um desempenho melhor que todos os demais, sendo ainda observado que nas únicas funções para as quais o ES-AP não atingiu o primeiro lugar, o algoritmo situado em primeiro foi o ES-APCC. Finalmente, uma função originalmente ruidosa foi considerada. Essa função descreve o efeito de campanhas de vacinação em popula-ções, sendo essas campanhas realizadas com o objetivo de controlar a propagação de epidemias. A função representa um custo da implementação do controle em relação a modelagem do fenômeno feita a partir da simulação de interações probabilísticas en-tre indivíduos, o que a torna ruidosa por natureza. Todos os cinco algoritmos foram avaliados na tarefa de otimização dessas políticas de vacinação. Neste experimento, o algoritmo de melhor desempenho foi o ES-APCC, seguido do ES-CC.

Uma análise geral dos experimentos realizados fornece suporte à hipótese princi-pal examinada nesta tese, de que operadores de busca local baseados em aproximação de funções podem vir a constituir mecanismos importantes para a construção de algo-ritmos orientados para a otimização de funções ruidosas.

Por ﬁm, é importante registrar que duas linhas de investigação relativamente independentes da linha principal deste trabalho tiveram de ser desenvolvidas concomi-tantemente, no âmbito desta tese, com o objetivo de preencher lacunas metodológicas para as quais se faziam necessários desenvolvimentos suplementares. A primeira destas foi o desenvolvimento de um sistema de sintonização de parâmetros de algoritmos de otimização. Tal sistema se fez necessário como um requisito para permitir a adequada comparação entre algoritmos diferentes, a qual deveria ser realizada sobre classes de distintas funções. O sistema que foi aqui desenvolvido parece ter desempenho que su-pera aquele exibido por outras heurísticas apresentadas na literatura para executar a mesma função. A segunda foi o desenvolvimento de estudos sobre técnicas de projeto de campanhas de vacinação para o controle de epidemias. Esse estudo se fez necessá-rio para gerar um caso real de função-objetivo ruidosa, a ser empregado na avaliação dos algoritmos propostos nesta tese. Os resultados obtidos nestes estudos também constituem, por si próprios, contribuições originais desta tese, que incluem o desenvol-vimento de uma metodologia de simulação estocástica integrada ao processo de projeto da estratégia de controle, o desenvolvimento de uma nova metodologia de projeto da estratégia de controle que articula uma fase transiente e uma fase estacionária do pro-cesso de vacinação, e o desenvolvimento de uma metodologia para avaliar a robustez das políticas de vacinação projetadas.

(13)

Abstract

This thesis presents an investigation on the problem of noisy function optimization by heuristics of the class of evolutionary algorithms. More specifically, this thesis proposes the employment of a local search operator based on linear-quadratic approximations, as a tool for dealing with noisy functions. The underlying hypothesis is that the implicit filtering that is accomplished by the procedure of function approximation construction may cause an attenuation effect on the noise, in this way enhancing the algorithm performance. This approach is essentially different from the mainstream approach in literature, which is based on objective function re-evaluation procedures that are intended to increase the confidence in comparison operations that are performed within the algorithm.

In order to perform numerical experiments, an Evolutionary Strategy(1 + 1)-ES was employed as the basis algorithm (being denoted by ES-BS). This basis algorithm was modiﬁed in the following ways: (i) a local search operator based on a Quasi-Newton line search was included (denoted by ES-QN); (ii) a local search operator based on linear-quadratic function approximation was included (denoted by ES-AP); (iii) a re-sampling operator based on conﬁdence interval estimate was included (denoted by ES-CC); (iv) another algorithm version included both the re-sampling operator and the local search operator based on linear-quadratic function approximation (denoted by ES-APCC). The algorithms were submitted to three experimental procedures.

First, only the algorithms without re-sampling were evaluated, on a classical set of noise-free benchmark functions. In this experiment, the ES-AP presented better performance than the ES-BS and the ES-QN, which suggests that the local search operator based on function approximation works well even outside the context of noisy functions. Next, the noise-free functions that were employed in the former experiment were converted in noisy functions by the adding Gaussian noise to them. The ﬁve algorithms were tested on this set of functions, and the ES-AP presented the better general performance. In the few cases in which the ES-AP was not placed ﬁrst in the performance ranking, the best algorithm was the ES-APCC. Finally, a real noisy

(14)

tion was considered. This function describes the eﬀect of vaccination campaigns that are intended to control the propagation of an epidemics in a population. The function represents a cost of the implementation of the control in relation to the phenomenon modeling made from the simulation of probabilistic interactions between individuals, which means that this function is noisy by essence. All the ﬁve algorithms were evalua-ted in the task of optimization of the vaccination campaigns, and the best performance was presented by ES-APCC, followed by ES-CC.

The main hypothesis that was examined in this thesis, namely the hypothesis that local search operators based on function approximation might constitute important tools for building algorithms for noisy functions, was corroborated by the experimental results.

Finally, it is important to mention that two research themes relatively indepen-dent of the main focus of this work were developed simultaneously, within this thesis, with the aim of filling methodological gaps for which some supplementary develop-ments were necessary. The first one was the development of a parameter tunning system for optimization algorithms. Such a system was necessary as a requisite for al-lowing suitable comparisons between different algorithms, considering distinct classes of functions. The developed system presents a performance which seems to be bet-ter than the performances of different heuristics described in libet-terature for the same purpose. The second one was the development of studies about design techniques of vaccination campaigns for epidemics control. Such a study was necessary in order to give rise to a real noisy objective function which would be employed in the evalua-tion of the algorithms proposed in this thesis. The results obtained in that studies also constitute original contributions of this thesis, which include: the development of a methodology of stochastic simulation integrated to the control strategy design; the development of a new methodology for the control strategy design which articulates a transient phase and a stationary phase; and the development of a methodology for evaluating the robustness of the resulting vaccination strategies.

(15)

Lista de Figuras

3.1 Estratégia Evolutiva (1+1)-ES designada por ES-BS. . . 21 3.2 (1+1)-ES com busca local baseada em Quasi-Newton designada por ES-QN. 23 3.3 Função QuasiN ewton utilizada para encontrar um mínimo local de uma

função não linear. . . 24 3.4 (1+1)-ES com busca local baseada na otimização de aproximação

linear-quadrática designada por ES-AP. . . 31 3.5 Função QuasiN ewtonApxde otimização da aproximação linear-quadrática. 33

3.6 (1+1)-ES com operador de comparação com conﬁança estatística designada por ES-CC. . . 34 3.7 Função Compara que confronta duas soluções com base no teste-t e realiza

reavaliações para reduzir o desvio. . . 36 3.8 (1+1)-ES com busca local baseada na otimização de aproximação

linear-quadrática e comparação com conﬁança estatística designada por ES-APCC. 38

4.1 Beanplot para o log(f(x) + 1) dos melhores valores de objetivo retornados pelos algoritmos em relação a todas as funções-objetivo. . . 44 4.2 Evolução da mediana dolog(f(x)+1)para o melhor valor de objetivo obtido

pelos algoritmos pela progressão do número de avaliações, em relação a todas as funções-objetivo. . . 45 4.3 Beanplot para o log(f(x) + 1) dos melhores valores de objetivo reais

retor-nados pelos algoritmos em relação a todas as funções-objetivo ruidosas e todos os níveis de ruído. . . 48 4.4 Evolução da mediana do log(f(x) + 1) para o melhor valor de objetivo real

obtido pelos algoritmos pela progressão do número de avaliações, em relação a todas as funções-objetivo ruidosas e todos os níveis de ruído. . . 49 4.5 Beanplot para o log(f(x) + 1) dos melhores valores de objetivos reais

re-tornados pelos algoritmos em relação a todas as funções-objetivo em cada nível de ruído. . . 53

(16)

4.6 Beanplot para olog(f(x) + 1) do custo das melhores políticas de vacinação retornados pelos algoritmos. . . 62 4.7 Beanplot para o tempo de execução dos algoritmos, em segundos. . . 64

A.1 AlgoritmoRobust Parameter Searcher (RPS) para sintonização de

parâme-tros de algoritmos de otimização. . . 97 A.2 Processo de extração da amostra de melhores objetivos induzido pelo

parâ-metro π_{DE, obtido pela heurística} A_mt, e 100 execuções da DE para cada função-objetivo. . . 105 A.3 Beanplot para o log(f(x) + 1) dos melhores valores de objetivo retornados

pela DE, induzidos pelos conjuntos de parâmetros ajustados pelas heurísti-cas de sintonização de parâmetros com 500 avaliações. . . 106 A.4 Beanplot para o log(f(x) + 1) dos melhores valores de objetivo retornados

pela DE, induzidos pelos conjuntos de parâmetros ajustados pelas heurísti-cas de sintonização de parâmetros com 3000 avaliações. . . 108 A.6 Beanplot para o log(f(x) + 1) dos valores de objetivo objetivos retornados

pela DE, induzidos pelos conjuntos de parâmetros ajustados pelas heurísti-cas de sintonização de parâmetros com 10000 avaliações. . . 110 A.8 Evolução das medianas do log(f(x) + 1) para o melhor valor de objetivo

retornados pela DE, induzidos pelos conjuntos de parâmetros ajustados pe-las heurísticas de sintonização de parâmetros para 500, 2000, 3000, 5000 e 10000 avaliações. . . 111 A.9 Beanplot para olog(ν+1)dos melhores valores de MBF, relativo ao mínimo

231859,8154, retornados pelos conjuntos de candidatos a parâmetros do algoritmo ES-BS em objetivos não ruidosos. . . 114 A.10 Beanplot para o log(ν + 1) dos melhores valores de MBF, relativo ao

mí-nimo 8549,8055, retornados pelos conjuntos de candidatos a parâmetros do algoritmo ES-QN em objetivos não ruidosos. . . 116 A.11 Beanplot para o log(ν + 1) dos melhores valores de MBF, relativo ao

mí-nimo 21,3743, retornados pelos conjuntos de candidatos a parâmetros do algoritmo ES-AP em objetivos não ruidosos. . . 117

(17)

A.12 Beanplot para olog(ν+1)dos melhores valores de MBF, relativo ao mínimo 252141,1039, retornados pelos conjuntos de candidatos a parâmetros do algoritmo ES-BS em objetivos ruidosos. . . 118 A.13 Beanplot para olog(ν+1)dos melhores valores de MBF, relativo ao mínimo

366736,8967, retornados pelos conjuntos de candidatos a parâmetros do algoritmo ES-QN em objetivos ruidosos. . . 119 A.14 Beanplot para olog(ν+1)dos melhores valores de MBF, relativo ao mínimo

−45864,5972, retornados pelos conjuntos de candidatos a parâmetros do algoritmo ES-AP em objetivos ruidosos. . . 121 A.15 Beanplot para olog(ν+1)dos melhores valores de MBF, relativo ao mínimo

404031,8039, retornados pelos conjuntos de candidatos a parâmetros do algoritmo ES-CC em objetivos ruidosos. . . 122 A.16 Beanplot para olog(ν+1)dos melhores valores de MBF, relativo ao mínimo

−24167,0778, retornados pelos conjuntos de candidatos a parâmetros do algoritmo ES-APCC em objetivos ruidosos. . . 123

B.1 Beanplot para o log(f(x) + 1) dos melhores valores de objetivo retornados pelos algoritmos em relação à cada função-objetivo no experimento sem ruído.129 B.2 Evolução da mediana dolog(f(x)+1)para o melhor valor de objetivo obtido

pelos algoritmos pela progressão do número de avaliações, em relação à cada função-objetivo no experimento sem ruído. . . 133 B.3 Beanplot para o log(f(x) + 1) dos melhores valores de objetivo reais

retor-nados pelos algoritmos em relação à cada função-objetivo ruidosa e todos os níveis de desvio padrão. . . 135 B.4 Evolução da mediana do log(f(x) + 1) para o melhor valor de objetivo real

obtido pelos algoritmos pela progressão do número de avaliações, em relação à cada função-objetivo ruidosa e todos os níveis de desvio padrão. . . 137

(18)

(19)

Lista de Tabelas

2.1 Trabalhos recentes com aplicações de algoritmos evolutivos na otimização de funções-objetivo ruidosas. . . 9 2.2 Trabalhos recentes com aplicações de otimização com modelos de

aproxi-mação funcional presentes na literatura. . . 14 2.3 Versões comuns do ES encontradas na literatura. . . 17

3.1 Organização dos dados para o teste de Quade. . . 29

4.1 Conjunto de funções-objetivo com os valores estimados de amplitude no valor de objetivo em um raio de distância 1 do ótimo. . . 43 4.2 Parâmetros sintonizados para objetivos não ruidosos. . . 43 4.3 Estatísticas para olog(f(x)+1)dos melhores valores de objetivo retornados

pelos algoritmos em relação a todas as funções-objetivo sem ruído. . . 44 4.4 Valores-p geral e das comparações pareadas entre os algoritmos pelo teste

de Quade em relação a todas as funções-objetivo sem ruído. . . 44 4.5 Ranking da mediana do valor da função-objetivo para as diferentes

heu-rísticas, considerando cada função-objetivo, para problemas não-ruidosos. Considera-se empate no caso de diferença não-significativa, para significân-cia de0,05. Por convenção, se ocorre empate de duas heurísticas no ranking 1, a terceira heurística recebe ranking 2 se ficar empatada com uma das duas primeiras, ou ranking 3 se for significativamente diferente das duas primeiras. 46 4.6 Parâmetros sintonizados para objetivos ruidosos. . . 47 4.7 Estatísticas para o log(f(x) + 1) dos melhores valores de objetivo reais

retornados pelos algoritmos em relação a todas as funções-objetivo ruidosas e todos os níveis de ruído. . . 48 4.8 Valores-p geral e das comparações pareadas entre os algoritmos pelo teste

de Quade em relação a todas as funções-objetivo ruidosas e todos os níveis de ruído. . . 49

(20)

4.9 Ranking da mediana do valor da função-objetivo para as diferentes heu-rísticas, considerando cada função-objetivo, agregando-se todos os níveis de ruído. Considera-se empate no caso de diferença não-significativa, para significância de0,05. Por convenção, se ocorre empate de duas ou mais heu-rísticas em determinado ranking, uma heurística situada logo abaixo recebe ranking um a mais se ficar empatada com uma das anteriores, ou ranking igual ao número de heurísticas anteriores mais um se for significativamente diferente das anteriores. A entrada na tabela indicada com (*) indica heu-rística não equivalente às outras em decorrência da existência de expressivo número de outliers. . . 55

4.10 Estatísticas para olog(f(x)+1)dos valores de função-objetivo das melhores políticas de vacinação retornadas pelos algoritmos. . . 63 4.11 Valores-p geral e das comparações pareadas entre os algoritmos pelo teste

de Quade em relação ao logaritmo do valor de função-objetivo das melhores políticas de vacinação encontradas. . . 63 4.12 Ranking da mediana do valor da função-objetivo para as diferentes

heurísti-cas. Considera-se empate o caso de diferença não-significativa, para signifi-cância de0,05. Por convenção, se ocorre empate de duas ou mais heurísticas em determinado ranking, uma heurística situada logo abaixo recebe ranking um a mais se ficar empatada com uma das anteriores, ou ranking igual ao número de heurísticas anteriores mais um se for significativamente diferente das anteriores. . . 64 4.13 Estatísticas para o tempo de execução dos algoritmos, em segundos. . . 64 4.14 Valores-p geral e das comparações pareadas entre os tempos de execução dos

algoritmos, em segundos, pelo teste de Quade para determinar as melhores políticas de vacinação. . . 65

A.1 Conjunto de parâmetros ajustados paras as heurísticas ParamILS, mGA, Revac, bNM e RPS. . . 104 A.2 Estatísticas para o log(f(x) + 1) dos melhores valores de objetivo

retor-nados pela DE, induzidos pelos conjuntos de parâmetros ajustados pelas heurísticas de sintonização de parâmetros com 500 avaliações. . . 107 A.3 Valores-p geral e das comparações pareadas entre os algoritmos pelo teste

de Quade em relação aos melhores valores de objetivo retornados pela DE, induzidos pelos conjuntos de parâmetros ajustados pelas heurísticas de sin-tonização de parâmetros com 500 avaliações. . . 107

(21)

A.4 Estatísticas para o log(f(x) + 1) dos melhores valores de objetivo retor-nados pela DE, induzidos pelos conjuntos de parâmetros ajustados pelas heurísticas de sintonização de parâmetros com 2000 avaliações. . . 108 A.5 Valores-p geral e das comparações pareadas entre os algoritmos pelo teste

de Quade em relação aos melhores valores de objetivo retornados pela DE, induzidos pelos conjuntos de parâmetros ajustados pelas heurísticas de sin-tonização de parâmetros com 2000 avaliações. . . 108 A.6 Estatísticas para o log(f(x) + 1) dos melhores valores de objetivo

de Quade em relação aos melhores valores de objetivo retornados pela DE, induzidos pelos conjuntos de parâmetros ajustados pelas heurísticas de sin-tonização de parâmetros com 3000 avaliações. . . 109 A.8 Estatísticas para o log(f(x) + 1) dos valores de objetivo objetivos

de Quade em relação aos melhores valores de objetivo retornados pela DE, induzidos pelos conjuntos de parâmetros ajustados pelas heurísticas de sin-tonização de parâmetros com 5000 avaliações. . . 110 A.10 Estatísticas para o log(f(x) + 1) dos melhores valores de objetivo

de Quade em relação aos melhores valores de objetivo retornados pela DE, induzidos pelos conjuntos de parâmetros ajustados pelas heurísticas de sin-tonização de parâmetros com 10000 avaliações. . . 111 A.12 Candidatos a conjunto de parâmetros para o algoritmo ES-BS em objetivos

não ruidosos. . . 114 A.13 Estatísticas para o log(ν + 1) dos melhores valores de MBF, relativo ao

mínimo 231859,8154, retornadas pelos conjuntos de candidatos a parâmetros do algoritmo ES-BS em objetivos não ruidosos. . . 115 A.14 Valores-p geral e das comparações pareadas entre os valores de MBF dos

candidatos a conjunto de parâmetros do algoritmo ES-BS em objetivos não ruidosos. . . 115

(22)

A.15 Candidatos a conjunto de parâmetros para o algoritmo ES-QN em objetivos não ruidosos. . . 115 A.16 Estatísticas para o log(ν + 1) dos melhores valores de MBF, relativo ao

mínimo 8549,8055, retornadas pelos conjuntos de candidatos a parâmetros do algoritmo ES-QN em objetivos não ruidosos. . . 115 A.17 Valores-p geral e das comparações pareadas entre os valores de MBF dos

candidatos a conjunto de parâmetros do algoritmo ES-QN em objetivos não ruidosos. . . 116 A.18 Candidatos a conjunto de parâmetros para o algoritmo ES-AP em objetivos

não ruidosos. . . 116 A.19 Estatísticas para o log(ν + 1) dos melhores valores de MBF, relativo ao

mínimo 21,3743, retornadas pelos conjuntos de candidatos a parâmetros do algoritmo ES-AP em objetivos não ruidosos. . . 117 A.20 Valores-p geral e das comparações pareadas entre os valores de MBF dos

candidatos a conjunto de parâmetros do algoritmo ES-AP em objetivos não ruidosos. . . 117 A.21 Candidatos a conjunto de parâmetros para o algoritmo ES-BS em objetivos

ruidosos. . . 118 A.22 Estatísticas para o log(ν + 1) dos melhores valores de MBF, relativo ao

mínimo 252141,1039, retornadas pelos conjuntos de candidatos a parâmetros do algoritmo ES-BS em objetivos ruidosos. . . 118 A.23 Valores-p geral e das comparações pareadas entre os valores de MBF dos

candidatos a conjunto de parâmetros do algoritmo ES-BS em objetivos rui-dosos. . . 119 A.24 Candidatos a conjunto de parâmetros para o algoritmo ES-QN em objetivos

mínimo 366736,8967, retornadas pelos conjuntos de candidatos a parâmetros do algoritmo ES-QN em objetivos ruidosos. . . 120 A.26 Valores-p geral e das comparações pareadas entre os valores de MBF dos

candidatos a conjunto de parâmetros do algoritmo ES-QN em objetivos ruidosos. . . 120 A.27 Candidatos a conjunto de parâmetros para o algoritmo ES-AP em objetivos

ruidosos. . . 120 A.28 Estatísticas para olog(ν+ 1) dos melhores valores de MBF, relativo ao

mí-nimo −45864,5972, retornadas pelos conjuntos de candidatos a parâmetros do algoritmo ES-AP em objetivos ruidosos. . . 120

(23)

A.29 Valores-p geral e das comparações pareadas entre os valores de MBF dos candidatos a conjunto de parâmetros do algoritmo ES-AP em objetivos ruidosos. . . 121 A.30 Candidatos a conjunto de parâmetros para o algoritmo ES-CC em objetivos

mínimo 404031,8039, retornadas pelos conjuntos de candidatos a parâmetros do algoritmo ES-CC em objetivos ruidosos. . . 122 A.32 Valores-p geral e das comparações pareadas entre os valores de MBF dos

candidatos a conjunto de parâmetros do algoritmo ES-CC em objetivos ruidosos. . . 122 A.33 Candidatos a conjunto de parâmetros para o algoritmo ES-APCC em

obje-tivos ruidosos. . . 123 A.34 Estatísticas para o log(ν+ 1) dos melhores valores de MBF, relativo ao

mí-nimo −24167,0778, retornadas pelos conjuntos de candidatos a parâmetros do algoritmo ES-APCC em objetivos ruidosos. . . 123 A.35 Valores-p geral e das comparações pareadas entre os valores de MBF dos

candidatos a conjunto de parâmetros do algoritmo ES-APCC em objetivos ruidosos. . . 124

B.1 Estatísticas para olog(f(x)+1)dos melhores valores de objetivo retornados pelos algoritmos em relação à cada função-objetivo no experimento sem ruído.126 B.2 Valores-p geral e das comparações pareadas entre os algoritmos pelo teste

de Quade em relação à cada função-objetivo no experimento sem ruído. . . 127 B.3 Estatísticas para o log(f(x) + 1) dos melhores valores de objetivo reais

retornados pelos algoritmos em relação à cada função-objetivo ruidosa e todos os níveis de desvio padrão. . . 130 B.4 Valores-p geral e das comparações pareadas entre os algoritmos pelo teste

de Quade em relação à cada função-objetivo ruidosa e todos os níveis de desvio padrão. . . 131 B.5 Melhores de taxas de vacinação de suscetíveis retornadas pelo algoritmo

ES-BS nas 30 execuções. . . 138 B.6 Melhores de taxas de vacinação de suscetíveis retornadas pelo algoritmo

ES-QN nas 30 execuções. . . 139 B.7 Melhores de taxas de vacinação de suscetíveis retornadas pelo algoritmo

ES-AP nas 30 execuções. . . 140

(24)

B.8 Melhores de taxas de vacinação de suscetíveis retornadas pelo algoritmo ES-CC nas 30 execuções. . . 141 B.9 Melhores de taxas de vacinação de suscetíveis retornadas pelo algoritmo

ES-APCC nas 30 execuções. . . 142

(25)

Lista de Símbolos

Algoritmos:

ES Estratégia Evolutiva.

ES-BS Estratégia Evolutiva Básica (1+1)-ES.

ES-QN Estratégia Evolutiva (1+1)-ES com busca local baseado em Quasi-Newton.

ES-AP Estratégia Evolutiva (1+1)-ES com busca local baseado em otimiza-ção de aproximaotimiza-ção linear-quadrática.

ES-CC Estratégia Evolutiva (1+1)-ES com operador de comparação com con-ﬁança estatística.

ES-APCC

Estratégia Evolutiva (1+1)-ES com busca local baseado em otimiza-ção de aproximaotimiza-ção linear-quadrática e com operador de comparaotimiza-ção com conﬁança estatística.

MBI Modelo Baseado em Indivíduo. Parâmetros de entrada dos algoritmos:

pu Fator denque deﬁne o número de avaliações consecutivas de objetivos

para atualizar o valor de desvio padrão do ES.

pa Fator denque deﬁne o número máximo sucessos e falhas armazenados

no arquivo em relação às soluções consecutivas do ES.

pc Coeﬁciente de atualização do valor de desvio padrão do ES na regra

do 1/5.

pl Probabilidade de ocorrer busca local.

pε Fator de diferença utilizado como critério de parada em buscas locais

em relação às variáveis de decisão e valores de função-objetivo.

pdb

Fator do número de parâmetros de uma quadrática com hessiana si-métrica cheia para determinar o número máximo de soluções arma-zenadas em uma base, que poderão ser usadas em uma aproximação funcional.

(26)

psp

Fator do número de parâmetros de uma quadrática com hessiana si-métrica cheia para determinar o número máximo de soluções vizinhas extraídas da base para realizar uma aproximação funcional.

puE Número máximo permitido de avaliações para uma única solução no

ﬁnal da execução do ES-CC e ES-APCC.

pα Nível de conﬁança utilizado na comparação estatística de soluções.

Símbolos gerais:

n Dimensão do espaço de variáveis.

x Variável de decisão (vetor coluna).

x′ Transposição do vetor x.

S Conjunto de soluções factíveis de busca.

xinf_,_xsup _{Limites inferiores e superiores que deﬁnem a região de busca} _S.

f Função-objetivo.

F Função-objetivo ruidosa.

e Número corrente de avaliações de objetivos em uma execução do ES. Emax Número máximo de avaliações de objetivos em uma execução do ES.

u Número de avaliações consecutivas de objetivos para atualizar o valor

de desvio padrão do ES.

asize Tamanho máximo da ﬁla de sucessos e falhas das soluções geradas

consecutivamente.

σ Tamanho do raio (desvio padrão) para a geração de soluções no ES.

xsol, fsol Variáveis de decisão e avaliação da solução sol.

U(n,a,b) Gerador de um vetor aleatório noR

n_{uniformemente distribuído entre}

a,b∈Rn.

U(a, b) Gerador de um valor aleatório uniformemente distribuído entre[a, b]. N(0,1) Gerador de um número Gaussiano com média 0 e desvio padrão 1.

A Fila de sucessos e falhas das soluções geradas pelo ES. sl Número de parâmetros da função linear.

sdh Número de parâmetros da quadrática com hessiana diagonal ssh Número de parâmetros da quadrática com hessiana simétrica. B Base soluções avaliadas.

dbsize Quantidade máxima de soluções avaliadas armazenadas em B.

spsize Tamanho máximo da amostra de soluções avaliadas para se gerar uma

aproximação funcional.

blsuc Booleano que indica se busca local obteve uma solução de sucesso.

(27)

lsqtd Número de execuções do Quasi-Newton na busca local com

aproxi-mação funcional, com distintos vetores inciais.

Fsol Vetor de avaliações ruidosas da solução sol.

uE Número máximo corrente permitido de avaliações para uma única

solução no ES-CC e ES-APCC.

σf Desvio padrão para o experimento com funções ruidosas.

Símbolos da metaotimização:

A Uma heurística que possua um conjunto de parâmetros que deﬁne a qualidade da mesma.

Λ(π, f, ζ, κ) Uma instância de A com entradas π, f, ζ e κ.

m Número de metaparâmetros da heurísticaA.

π Conjunto com os metaparâmetrosπi,∀{i, . . . , m} deΛ.

ζ Semente aleatória inteira deΛgerada por uma distribuição uniforme.

κ Custo computacional, medido em número de avaliações de objetivo

em uma execução de Λ.

Ω Espaço amostral de todas as possíveis entradas para Λ. Π Conjunto de metasssoluções factíveis de busca.

F Conjunto de funções-objetivo para o treinamento dos metaparâme-tros.

Γ Variável aleatória que associa a entradaω ∈Ωem algumγ = Λ(ω)∈ Γ(Ω)⊆R.

ˆ

γ Estatística de função-objetivo gerada pela amostra de melhores

obje-tivos retornados em várias execuções de uma heurística.

MBF ouν Mean Best Fitness, o metacritério usado no processo de

metaotimi-zação.

RPS Robust Parameter Searcher.

e Quantidade corrente de meta-avaliações totais nas iterações do RPS.

E Número máximo de meta-avaliações permitidas durante todo o

pro-cesso de metaotimização.

e Quantidade corrente de meta-avaliações máxima por metassolução

nas iterações do RPS.

e max

Número máximo de meta-avaliações por metassolução na última ite-ração do RPS.

iw, ic, ir, ie, ioc, iic

Índices da metasolução pior, centroide, reﬂetida, expandida, contraída externamente e contraída internamente no simplex do RPS.

S Vetor com as metassoluções do RPS.

(28)

RS Random Search metastrategy. ParamILS Parameter Iterated Local Search. mGA Meta-algoritmo Genético.

Revac Relevance Estimation and Value Calibration. bNM Bounded Nelder Mead.

ilsi i-ésimo parâmetro do ParamILS, para i∈ {1, . . . ,3}.

mgai i-ésimo parâmetro do mGA, para i∈ {1, . . . ,4}.

revaci i-ésimo parâmetro do Revac, para i∈ {1, . . . ,4}.

bnmi i-ésimo parâmetro do bNM, para i∈ {1, . . . ,5}.

DE Evolução Diferencial.

dei i-ésimo parâmetro da DE, para i∈ {1, . . . ,4}.

(29)

Sumário

Agradecimentos ix

Resumo xi

Abstract xiii

Lista de Figuras xv

Lista de Tabelas xix

Lista de Símbolos xxv

1 Introdução 1

1.1 Contribuições da Tese . . . 5

2 Revisão da Literatura 7

2.1 Otimização de Funções Ruidosas . . . 7 2.2 Otimização Baseada em Aproximação Funcional . . . 10 2.3 Estratégias Evolutivas . . . 16

3 Metodologia 19

3.1 Problema de Otimização Ruidosa . . . 19 3.2 Estratégia Evolutiva (1+1)-ES . . . 20 3.3 (1+1)-ES com Busca Local Baseada em Quasi-Newton . . . 22 3.4 Aproximação Linear e Quadrática . . . 25 3.5 Randomized KD-Tree . . . 26 3.6 Testes Estatísticos . . . 28 3.6.1 Teste-t de Student . . . 28 3.6.2 Teste de Quade . . . 29 3.7 Algoritmos Propostos . . . 30

(30)

3.7.1 ES-AP . . . 30 3.7.2 ES-CC . . . 34 3.7.3 ES-APCC . . . 37 3.7.4 Propriedades dos Operadores Propostos . . . 39

4 Resultados 41

4.1 Experimento 1 - Comparação dos Algoritmos em Objetivos Não Ruidosos 42 4.2 Experimento 2 - Comparação dos Algoritmos em Objetivos Ruidosos . 47 4.3 Experimento 3 - Comparação dos Algoritmos em um Problema de

Con-trole de Epidemia . . . 56 4.3.1 Modelos de Epidemias . . . 58 4.3.2 Problema de Otimização . . . 60 4.3.3 Comparação de Algoritmos . . . 62

5 Conclusões 67

5.1 Trabalhos Futuros . . . 72

Referências Bibliográficas 75

Apêndice A Sintonização dos Parâmetros de Algoritmos 93

A.1 Apresentação . . . 93 A.2 Deﬁnição do Problema de Sintonização de Parâmetros . . . 94

A.3 Robust Parameter Searcher . . . 96

A.4 Comparações com Outras Heurísticas de Sintonização . . . 100 A.4.1 Algoritmos Comparados . . . 100 A.4.2 Estudo de Caso . . . 103 A.5 Deﬁnição dos Parâmetros dos Algoritmos . . . 112

Apêndice B Resultados Extras 125

B.1 Apresentação . . . 125 B.2 Comparações extras entre os Algoritmos . . . 125

Apêndice C Multiobjective synthesis of robust vaccination policies 143

(31)

Capítulo 1

Introdução

Aotimizaçãopode ser deﬁnida como a determinação de extremos de funções, restritas a

determinados domínios. Essa deﬁnição formal, quando referida a situações de interesse prático, irá dizer respeito a funções (ditas funções-objetivo) que buscam representar

sistemas do mundo físico, sendo que nesses casos se busca minimizar um custo, ou maximizar um ganho, que varia de acordo com uma conﬁguração de parâmetros (as

variáveis de decisão) que podem ser livremente escolhidos dentro de uma região factível

de busca.

Assim, a determinação de soluções que tenham valor prático, no sentido de serem capazes de causar o efeito desejado de minimização do custo ou de maximização do ganho no sistema físico mediante a aplicação da conﬁguração de parâmetros recomen-dada pelo método de otimização, depende em grande parte da etapa de formulação de um modelo que guarde correspondência com o sistema real a que se refere. A maior parte da literatura sobre otimização pressupõe que tal correspondência exista, sendo o modelo capaz de predizer o comportamento do sistema físico. Nos casos em que tal pressuposto seja razoável, a determinação de soluções práticas pode ser obtida pela simples determinação dos extremos das funções-objetivo.

Há alguns tipos de situações nas quais esse pressuposto deve ser relativizado. Em muitos casos, os próprios sistemas são caracterizados por uma variabilidade inerente ao seu funcionamento. Nestes casos, os modelos que os descrevem podem até ser precisos, mas os sistemas físicos incluem dinâmicas dotadas de aleatoriedade que impedem que um modelo seja capaz de realizar uma predição exata de seu comportamento. Exem-plos disso são sistemas cujas entradas não são determinísticas (no sentido de que não são conhecidas a priori no momento em que se planeja a operação do sistema), tais como: sistemas de comunicação, sistemas de controle de tráfego urbano, sistemas de vendas a varejo, etc. Outros exemplos ainda se referem a sistemas cujo comportamento

(32)

2 Capítulo 1. Introdução

é em parte governado por processos não-determinísticos, que envolvem etapas cuja res-posta dinâmica é aleatorizada – e que ocorrem por exemplo em sistemas autônomos físicos (robôs exploradores) ou virtuais (oponentes virtuais em jogos eletrônicos, algo-ritmos evolutivos, sistemas automáticos de recomendação, etc). Em muitos casos, há uma combinação de fatores que pode envolver a imprecisão dos modelos matemáticos dos sistemas, junto com a aleatoriedade intrínseca à dinâmica envolvida. Importantes sistemas físicos se enquadram nessa categoria, como por exemplo a dinâmica de epide-mias, a dinâmica de organismos biológicos e de sua resposta a fármacos, os sistemas macroeconômicos, e outros.

Nessas situações, a formulação de problemas de otimização adequados para ge-rarem soluções de interesse prático torna-se mais complexa. A cada realização da avaliação da função-objetivo, dado um conjunto ﬁxo de valores para as variáveis de decisão, será obtido um valor potencialmente diferente daquele obtido em outras reali-zações da avaliação da função para o mesmo conjunto de variáveis. Há essencialmente duas abordagens para tratar a questão: (i) Pode-se construir uma função-objetivo substituta, montada a partir de informações analíticas sobre a estrutura das incertezas presentes, que represente uma estatística do valor da função-objetivo. Nesse caso, tal função substituta pode ser tratada como as funções isentas de incertezas que se en-contram presentes nas formulações básicas da otimização. (ii) Entretanto, nem sempre encontra-se disponível a informação a respeito da distribuição estatística das variáveis aleatórias associadas ao sistema, assim como nem sempre a composição dessas variáveis com o restante do modelo conduz a distribuições analiticamente tratáveis para o valor resultante da função-objetivo. Nesses casos, resta o recurso à simulação do modelo, mesmo dotado de aleatoriedade, o que conduz a um processo de otimização baseado em uma função de mérito que é estocástica. A otimização, de fato, é feita sobre uma função-objetivo que corresponde a uma estatística dessa função de mérito (usualmente uma média), que é obtida por uma amostragem empírica sobre o modelo simulado.

Esta tese aborda precisamente este tipo de situação1_{: deseja-se determinar a}

1_{Deve-se mencionar que há outros tipos de problemas de otimização também envolvendo}

(33)

3

localização de um valor extremo de uma função-objetivo do tipo caixa-preta que cor-responda à média de uma função de mérito estocástica. Os valores da função-objetivo, por sua vez, somente são acessíveis por meio de simulações, que correspondem a amos-tragens sobre tal função de mérito estocástica.

Um algoritmo de otimização, ao realizar uma busca sobre uma função com tais características, pode tratar as amostras obtidas da função de mérito de duas formas opostas: (i) é possível reamostrar um mesmo ponto várias vezes, na tentativa de se controlar a incerteza sobre o valor da função nesse ponto; (ii) é possível ainda amostrar apenas uma vez cada ponto, utilizando a informação assim adquirida da mesma maneira que seria utilizada caso não existisse incerteza no valor amostrado. A primeira forma essencialmente procura fazer com que as tomadas de decisão realizadas no interior do algoritmo de otimização sejam realizadas com informação equivalente à do caso isento de incertezas – ao custo de um aumento do número de avaliações de função necessário para que tal equivalência seja atingida. A segunda forma implica que as tomadas de decisão internas ao algoritmo possam ser frequentemente afetadas pela incerteza no valor da função, o que leva a uma degradação no processo de busca. Nesse segundo caso, espera-se que o algoritmo contenha mecanismos que implicitamente compensem tal degradação – o que signiﬁca que, no melhor caso, o custo da adoção de tal estratégia também pode se traduzir no aumento do número de avaliações necessário para se atingir o ótimo, em decorrência dessa degradação do mecanismo de busca. No pior caso, tal mecanismo pode levar à perda da capacidade de determinação do ponto de ótimo.

Esta tese especiﬁcamente enfoca o estudo de um mecanismo que visa reduzir o número necessário de reavaliações da função de mérito. Por meio de um mecanismo de ﬁltragem aplicado sobre um conjunto de amostras, baseado na utilização de aproxima-ções lineares ou quadráticas da função, constrói-se uma função substituta de caráter local capaz de guiar localmente o processo de otimização. Assim, utilizando essen-cialmente uma hipótese de continuidade e de suavidade da função de mérito (que se traduz na possibilidade de se realizarem aproximações lineares ou quadráticas com va-lidade local), busca-se aqui a construção de métodos de otimização que sejam capazes de determinar o ponto de ótimo de funções de mérito estocásticas e que requeiram um número relativamente pequeno de avaliações de função.

(34)

Os estudos conduzidos no âmbito da pesquisa aqui relatada fazem uso de um tipo especíﬁco de aproximação de funções lineares e quadráticas, que é empregado para a construção de um operador de busca local para algoritmos da classe dasEstratégias

Evo-lutivas(ES). Os algoritmos assim constituídos são então comparados com algoritmos de

Estratégias Evolutivas básicos, assim como com algoritmos de Estratégias Evolutivas dotados de outros mecanismos de busca local de outros tipos. A comparação é realizada primeiro sobre problemas com funções-objetivo determinísticas, de forma a estabelecer a capacidade de busca dos algoritmos propostos em condições-padrão. A seguir, é rea-lizada uma comparação sobre funções-objetivo dotadas de ruídos estocásticos aditivos. Tais comparações mostram que os algoritmos propostos têm desempenho equivalente aos algoritmos com busca local não baseados nos métodos propostos, quando se uti-lizam as funções-objetivo isentas de ruídos. Quando são otimizadas funções-objetivo ruidosas, os testes revelam a superioridade no desempenho dos algoritmos propostos em relação aos demais. Por ﬁm, é examinada a aplicação do operador proposto em um problema de motivação prática, relacionado com o planejamento de políticas de vacinação para o controle de epidemias. Também esse teste indica o bom desempenho desse operador.

Este texto encontra-se organizado da seguinte forma: a seção final deste capítulo apresenta uma lista detalhada das contribuições desta tese. O Capítulo 2 apresenta uma revisão bibliográfica sobre três temas que se interligam no contexto desta tese: a otimização de funções ruidosas, a otimização baseada em aproximações funcionais e as estratégias evolutivas. O Capítulo 3 apresenta a definição do problema aqui abordado e faz também a apresentação dos elementos utilizados para a construção dos operadores e algoritmos propostos. Por fim, esse capítulo também apresenta os algoritmos propostos. O Capítulo 4 apresenta os testes numéricos realizados e as análises comparativas entre os algoritmos estudados. O Capítulo 5 mostra as conclusões obtidas ao fim da pesquisa aqui relatada. O Apêndice B apresenta gráficos e tabelas extras sobre os resultados obtidos.

(35)

1.1. Contribuições da Tese 5

de controle permanente; (ii) um conjunto não-dominado de controle completo, for-mado pela concatenação da solução de regime permanente obtida anteriormente com uma sequência de controles especíﬁcos para a fase transiente; e (iii) uma simulação das soluções não-dominadas de controle completo, a serem analisadas pela técnica de dominância estocástica, que permite remover do conjunto aquelas políticas sensíveis à estocasticidade. Para o processo de otimização, foi utilizado um algoritmo evolu-tivo que utiliza uma busca local baseada na otimização de aproximações quadráticas dos objetivos originais. Esse apêndice mostra o detalhamento e a contextualização do estudo de caso que é apresentado de maneira sucinta no Experimento 3 do Capítulo 4. Deve-se chamar ainda a atenção para uma diﬁculdade que teve de ser tratada no âmbito da pesquisa relacionada a este trabalho de tese. Como a questão da otimização de funções-objetivo ruidosas não se trata de problema amplamente estudado, não foi possível recorrer a algoritmos-padrão com seus correspondentes valores padronizados de parâmetros para servirem de base de comparação, pois estes não existem na literatura. Foi necessário então desenvolver um mecanismo sintonizador de algoritmos que fosse capaz de produzir valores de ajustes de parâmetros obtidos nas mesmas condições, tanto para os algoritmos propostos quanto para os algoritmos que serviriam de base de comparação. A construção desse mecanismo de sintonia de parâmetros de algoritmos encontra-se relatada no Apêndice A desta tese.

1.1 Contribuições da Tese

Este trabalho apresenta as seguintes contribuições:

(36)

2. Elaboração de uma técnica, baseada no teste-t de Student [Montgomery, 2012], que visa comparar as avaliações múltiplas de duas soluções independentes, dado um nível de conﬁança. Tal procedimento é empregado apenas quando se otimizam funções ruidosas. Neste esquema, o número máximo de reavaliações por solução cresce linearmente com a quantidade de avaliações global do algoritmo evolutivo. Com base nesse artifício, é construída uma variação do operador de busca local baseado em aproximações lineares e quadráticas (ver item 1), sendo esta variação especialmente adequada para utilização no contexto da otimização de funções ruidosas.

(37)

Capítulo 2

Revisão da Literatura

Neste capítulo, são apresentadas revisões bibliográﬁcas a respeito de três temáticas que constituem aspectos centrais do presente trabalho de tese: a otimização de funções rui-dosas, a otimização baseada em aproximações funcionais, e os algoritmos de estratégias evolutivas.

2.1 Otimização de Funções Ruidosas

Em computação evolutiva, problemas nos quais a função-objetivo é ruidosa são estu-dados desde os primórdios da área [De Jong, 1975]. Exemplos de problemas deste tipo já tratados incluem a robótica [Jakobi et al., 1995], a otimização da estrutura de redes neurais [Yao & Liu, 1997] e melhorias no layout de páginas da Internet [Penalver & Merelo, 1998].

O cenário que aparece mais comumente diz respeito a estudos em que se con-sideram técnicas para otimizar funções sujeitas a ruído aditivo proveniente de uma distribuição Gaussiana [Fitzpatrick & Grefenstette, 1988; Miller et al., 1995; Rekanos, 2008], que também é o caso deste trabalho de tese, ou de Cauchy [Arnold & Beyer, 2003b]. Há também situações em que se estuda e aplica ruído multiplicativo [Bioucas-Dias & Figueiredo, 2010; Zhao et al., 2014].

No trabalho de Miller & Goldberg [1996] analisou-se o efeito do ruído em distintos mecanismos de seleção em um algoritmo genético. No ambiente estudado, veriﬁcou-se veriﬁcou-ser possível prever a taxa de convergência de um algoritmo genético em domínios ruidosos caracterizados por blocos construtivos (building blocks) uniformemente

dimen-sionados. Também foi veriﬁcada a possibilidade de se prever a qualidade das soluções após um certo número de gerações em ambientes ruidosos.

(38)

8 Capítulo 2. Revisão da Literatura

O artigo [Jun-hua & Ming, 2013] apresentou a construção de uma cadeia de Markov que modela um algoritmo genético elitista, sob a circunstância de que o mesmo otimiza uma função com ruído aditivo. Em tal cadeia foi provado que existe um estado absorvente, sobre o qual podem-se derivar resultados sobre os limites inferiores e superiores do número de iterações esperado para a heurística atingir uma solução ótima.

Qian et al. [2015] realizaram um estudo teórico e prático que investigou como o ruído afeta o tempo de execução de um algoritmo evolutivo simples em alguns pro-blemas discretos do tipoflat e deceptivo. As técnicas de reavaliação de soluções e de

seleção por limiar foram experimentadas. Neste contexto, chegou-se à conclusão de que a combinação das mesmas é mais interessante do que o uso isolado de alguma delas. Já Friedrich et al. [2015] atestaram, utilizando um algoritmo evolutivo simples em uma função com ruído aditivo Gaussiano, que o operador de recombinação é bené-ﬁco para tratar ruído, enquanto que o uso de mutação apenas leva a um desempenho consideravelmente degradado.

Encontram-se na literatura diversos trabalhos experimentais que analisaram o processo de otimização com objetivos ruidosos envolvendo algoritmos evolutivos. Em um desses trabalhos, Beyer [2000] avaliou a performance de uma versão do algoritmo genético e de uma estratégia evolutiva na função hiperesfera com ruído. Arnold & Beyer [2003a] exploraram os benefícios de se ter uma população de soluções em um ES para melhorar os resultados em ambiente ruidoso. Os autores Akimoto et al. [2015] analisaram a execução de uma versão do ES com reavaliações em problemas discretos com ruído.

(39)

2.1. Otimização de Funções Ruidosas 9

população em cada geração de um algoritmo genético. No trabalho de [Merelo et al., 2016] são propostos métodos baseados em computação incremental e o uso de testes es-tatísticos para impor uma ordem parcial que determina o valor de aptidão das soluções da população.

No presente trabalho de tese, nas estratégias que utilizam o operador de com-paração baseado em teste estatístico, o número máximo de amostragens por solução inicia em duas avaliações e cresce linearmente com o número global de avaliações de função-objetivo até uma quantidade deﬁnida previamente. Para duas soluções distin-tas, compara-se o par de amostras com valores de função-objetivo avaliados através do teste-t de Student [Montgomery, 2012], dado um nível de conﬁança. Se não houver diferença, aquela solução com maior variância de objetivo que não atingiu o limite de avaliações será reavaliada. Se o limiar desta solução já tiver sido atingido e o da outra não, então esta será reavaliada. Caso ambas já tenham sido amostradas até o número de vezes permitido, então é adotada a comparação pela média amostral.

Quando a natureza do ruído é conhecida, operadores de comparação adequados podem ser utilizados. Em heurísticas rudimentares, faz-se uma comparação de soluções usando-se apenas uma estatística estimada. Em algoritmos mais requintados, operado-res mais complexos, que aproveitam melhor a informação coletada, são aplicados. Um caso particular é o trabalho de Merelo et al. [2014], que utilizou o teste de Wilcoxon em um operador de comparação de soluções no algoritmo evolutivo. Se porventura o ruído fosse gerado por uma distribuição Gaussiana, seria possível usar o teste-t para confrontar pares de soluções. Mais informações sobre diferentes formas de amostragem podem ser encontradas em [Siegmund et al., 2013] e [Rakshit et al., 2016].

Para ﬁnalizar esta subseção, a Tabela 2.1 elenca, em ordem cronológica, uma lista de aplicações ou experimentos em que algoritmos evolutivos foram utilizados na otimização de funções ruidosas.

Tabela 2.1: Trabalhos recentes com aplicações de algoritmos evolutivos na otimização de funções-objetivo ruidosas.

ES Características Principais

Krink et al.

[2004]

Levantou o desafio de melhorar os algoritmos de evolução diferencial para otimizar funções ruidosas. Apresentou um experimento em que tal heurística foi pior que outros evolutivos.

[Das et al., 2005] Apresentou uma versão da evolução diferencial que foi significativa-mente melhor do que outros evolutivos no experimento apresentado.

(40)

Bayer et al.

[2010]

Adotou e comparou uma versão da evolução diferencial e do CMA-ES para o gerenciamento de águas subterrâneas.

Mora et al.

[2012]

Aplicou algoritmos genéticos para projetar personagens no jogo Planet Wars, cuja avaliação é dada por batalhas não determinísticas.

Krämer et al. [2014]

Comparou cinco estratégias, incluindo o CMA-ES, para otimizar os parâmetros da automatização de campos de força molecular.

[Rakshit et al., 2014]

Propôs uma versão multiobjetivo ruidosa da evolução diferencial e so-lucionou um problema de robótica.

[Zarifia et al., 2015]

Detectou picos neurais utilizando algoritmos genéticos em ambientes ruidosos.

Ma et al. [2015]

Mostrou uma versão de algoritmo de nuvem de partículas que possui operadores inspirados em decisão de grupo para otimizar funções com ruído.

[Eguchi et al., 2015]

Comparou versões autoadaptativas da evolução diferencial e estimou a função de distribuição de reflectância de objetos 3D.

Taghiyeh & Xu [2016]

Implementou uma versão de algoritmo de nuvem de partículas em que a partícula global é estatisticamente melhor, dado um nível de confiança.

Notsu et al.

[2016]

Expôs uma estratégia que se baseia no limite superior da confiança para selecionar, no algoritmo UCT, sub-regiões mais propícias para a determinação do ótimo ruidoso.

2.2 Otimização Baseada em Aproximação

Funcional

Segundo Jin & Branke [2005], as motivações para o uso de aproximações funcionais

(surrogate ou metamodelo) em um processo evolutivo de otimização podem ser o alto

(41)

2.2. Otimização Baseada em Aproximação Funcional 11

Os primeiros trabalhos que utilizaram aproximações da função-objetivo apare-ceram durante as décadas de 1980 e 1990 [Grefenstette & Fitzpatric, 1985; Schneider et al., 1994; Yang & Flockton, 1995; Ratle, 1998; Pierret & Van den Braembussche, 1998; Bull, 1999]. Desde então, aplicações em diversas áreas se beneﬁciam da inserção de metamodelos no processo de evolutivo. Diversos exemplos são encontrados em pro-jeto estrutural [Grierson & Pak, 1993; Lee & Hajela, 1996; Jin et al., 2001; Ong et al., 2003; Hüsken et al., 2005; Asouti et al., 2009], planejamento com critério de avaliação subjetiva e interativa [Biles, 1994; Johanson & Poli, 1998; Takagi, 2001; Phelps & Kök-salan, 2003; Cho, 2004; Romero & Machado, 2007], e previsão de estrutura protéica [Rost & Sander, 1994; Neumaier, 1997; Cutello et al., 2006; Custódio et al., 2010].

Os métodos computacionais mais comumente usados para aproximar a função original são baseados em aproximação polinomial, em somas de funções Gaussianas e em redes neurais [Jin & Branke, 2005]. Em contraste com essa tradição, o presente trabalho de tese utiliza aproximações lineares ou quadráticas (dependendo do número de amostras disponíveis) durante uma busca local para descrever as tendências locais da função original, dada uma amostra avaliada. Tal estimativa é otimizada na região factível em um raio centralizado por uma solução selecionada. Este ótimo do problema aproximado pode ser uma boa solução para a função-objetivo original, ou pode re-presentar uma boa indicação de direção de busca de soluções. Desse modo, pode-se melhorar a eﬁcácia do algoritmo de busca em problemas com e sem de ruído, e sem a necessidade de avaliações extras.

Há na literatura trabalhos relacionados a este. Powell [Powell, 2002, 2003, 2006] propôs métodos globais irrestritos que interpolam uma amostra avaliada de soluções por um polinômio quadrático, em cada iteração. Inicialmente, gera-se uma amostra que é avaliada e usada para a aproximação inicial. Iterativamente, o ótimo da quadrática, dentro de uma região de conﬁança (trust region), substitui uma solução da amostra.

Com isso, é gerada e otimizada uma nova aproximação. Tais ações se repetem até uma condição de parada.

Wanner desenvolveu com outros autores uma busca local similar à que foi pro-posta aqui [Wanner et al., 2006a, 2007]. Porém, a técnica de aproximação é baseada em desigualdades matriciais lineares [Boyd & Vandenberghe, 2004] que, apesar de ga-rantir convexidade, possui um custo computacional muito maior do que a regressão linear. A mesma autora e seus colaboradores desenvolveram, em outros trabalhos, uma busca local em otimização multiobjetivo que aproxima, pela mesma técnica, tanto a função-objetivo quanto as restrições. O problema aproximado é solucionado via

goal-attainment [Wanner et al., 2006b, 2008a,b]. Há ainda trabalhos que utilizam dessa

(42)

2005; Araujo et al., 2009; Fonseca & Wanner, 2016].

Cabe ressaltar outra diferença entre a busca local proposta neste trabalho e aquela empregada nas referências mencionadas no parágrafo anterior. Nesta tese, o armaze-namento e a consulta às soluções previamente avaliadas é feita utilizando a estrutura de dados randomized kd-tree, o que torna a sua execução mais eﬁciente. Uma outra

diferença é quanto à definição de vizinhança. Nos trabalhos citados, em geral define-se um raio fixo em torno de uma solução define-selecionada dentro do qual define-serão coletadas as informações de avaliação para a aproximação. Não se especifica o que ocorre se o número de amostras não atingir o mínimo necessário para o cômputo da aproximação. Na busca local proposta nesta tese, as informações de todas as soluções vizinhas mais próximas, até se atingir uma quantidade máxima, são utilizadas. Dependendo do nú-mero de vizinhos disponíveis, um tipo de aproximação será realizada (linear, quadrática com hessiana diagonal/triangular) ou não executada (caso o conjunto de amostras seja insuficiente). Além disso, como está sendo realizada uma aproximação por regressão linear, a função de aproximação pode ser não-convexa, o que pode ser útil no contexto da otimização não-linear em geral, considerado nesta tese.

O presente autor e colaboradores propuseram e compararam na publicação [da Cruz et al., 2011b] uma família de buscas locais que realizam aproximações quadrá-ticas com hessiana semideﬁnida, via programação linear e via desigualdades matriciais lineares, e depois otimizam uma soma convexa de tais aproximações via programação quadrática. Estes operadores foram inseridos no algoritmo evolutivo de otimização multiobjetivo NSGA-II. As versões assim obtidas do algoritmo de otimização foram comparadas entre si e com uma versão canônica, em um conjunto de funções-objetivo. Os resultados mostraram que as versões com busca local foram superiores em relação à versão sem busca local. Também foi indicado que, embora as versões com desigualdades matriciais lineares fossem ligeiramente mais eﬁcazes que as versões com programação linear, o custo computacional das primeiras é muito maior, sendo em geral vantajosa a adoção das últimas.

(43)

2.2. Otimização Baseada em Aproximação Funcional 13

à versão sem busca local. Os resultados indicaram que as soluções geradas da versão com busca local são mais diversiﬁcadas e dominam a maioria das soluções geradas pelo método canônico.

O artigo [da Cruz et al., 2017], também do autor, é uma evolução do trabalho discutido no parágrafo anterior, já tendo sido desenvolvido no âmbito da pesquisa reali-zada para a elaboração desta tese. O problema multiobjetivo de controle de epidemias por vacinação é solucionado em três etapas. Na primeira, determina-se um conjunto não dominado de soluções para o controle do sistema em regime permanente, as quais devem ser aplicadas após o término do regime transitório do sistema dinâmico que ocorre no início da epidemia. Na segunda parte, determinam-se as políticas completas de controle, incluindo o controle para o regime transitório. Para isto, seleciona-se uma solução não dominada da primeira etapa para ser concatenada ao final das soluções que representam políticas para o regime transitório. Com isto, atinge-se um conjunto de estratégias não dominadas para vacinação que visa: (i) em um primeiro momento reduzir os infectados de forma rápida, com um conjunto de ações de controle descrito por taxas de vacinação e intervalos de tempo entre campanhas não necessariamente constantes; e (ii) após a política transiente, controlar o sistem dinâmico visando à re-dução plena da população de infectados ao longo do tempo com uma taxa de vacinação e intervalo de tempo entre campanhas constantes. Na terceira parte, o conjunto não dominado final é simulado em um Modelo Baseado em Indivíduo (MBI) para obser-var o comportamento das soluções quando sujeitas à aleatoriedade que é intrínseca ao sistema físico, possibilitando remover do conjunto de soluções aquelas políticas estocas-ticamente dominadas. Desse conjunto robustamente não dominado, foram extraídas informações sobre as probabilidades de erradicação e de se ter o número de infectados abaixo de determinado limiar. Para a obtenção das políticas de controle foi utilizada uma versão do NSGA-II com busca local baseada na otimização da soma convexa de quadráticas semidefinidas que aproximam as funções-objetivo via programação linear. Nesta estratégia também foi usada uma estrutura de dados em árvore para armazenar soluções previamente avaliadas para serem consultadas via vizinhos mais próximos, quando a aproximação fosse executada. Uma comparação entre o NSGA-II dotado dos operadores propostos e a versão básica desse algoritmo em diferentes cenários de epi-demias foi realizada, indicando que a heurística proposta sempre obtém um conjunto não dominado de melhor qualidade, usando um mesmo orçamento para a avaliação de objetivos.

(44)

Algumas referências relativamente antigas encontradas sobre a construção de fun-ções quadráticas aproximantes como mecanismo auxiliar em procedimentos de otimiza-ção são os textos de Shafer [1974], Smith & Schmidt [1977] e Minkin [1983]. O primeiro apresentou um método baseado em derivação de segunda ordem e mostrou aplicações analíticas. O segundo aplicou sucessivas aproximações para otimizar um sistema si-mulado computacionalmente. O terceiro propôs uma técnica para encontrar um limite para o erro na aproximação quadrática da função de log-verossimilhança.

Kiwiel [1984] e Werner [1986] utilizaram um método de aproximação quadrática para encontrar a solução ótima de modelos não lineares. Bhattacharyya & Willment [1988] trataram com quadráticas o problema do deslocamento de descontinuidade e apresentaram diversas vantagens do uso da mesma. Biernacki et al. [1989] e Bandler et al. [1991] utilizaram aproximação quadrática para modelar a resposta de circuitos, resultando uma interpolação mais simples e eﬁcaz. Mulvey et al. [1992] criaram um método com aproximação quadrática diagonal que trata subproblemas de programação linear com alta dimensão.

Cao & Voth [1995] e Rosenfelder & Schreiber [2001] aplicaram a aproximação quadrática para modelar sistemas físicos. O primeiro texto descreve uma função de energia potencial sobre um oscilador harmônico. O segundo trata a ação retardada dos polarons ao solucionar equações não lineares variacionais com um método iterativo. Jamai & Damil [2001] utilizaram aproximação quadrática para aumentar o intervalo válido de séries vetoriais.

Den Hertog et al. [2002] criou um método de programação semideﬁnida que de-termina aproximações quadráticas convexas reais. Rosen & Marcia [2004] apresenta-ram um modelo de progapresenta-ramação linear para obter aproximações quadráticas convexas. Marcia et al. [2005] aplicaram esta técnica em um processo iterativo para encontrar a solução de um problema de acoplamento de proteínas. Wang [2007] generalizou o escore de Fisher e os métodos de Gauss-Newton em um modo único, aplicando aproximação quadrática iterativamente para a computação da máxima verossimilhança.

Para ﬁndar esta subseção, a Tabela 2.2 cataloga, por ano, uma seleção de outras aplicações recentes que utilizaram aproximações funcionais explícitas em procedimentos de otimização.

Tabela 2.2: Trabalhos recentes com aplicações de otimização com modelos de aproxi-mação funcional presentes na literatura.