6 Experimentos Computacionais
6.1 Metodologia dos experimentos
Os experimentos computacionais estão divididos em duas partes. Na primeira parte, os algoritmos MOSCA/D, NSGA-II, SPEA2, MOEA/D, MEMOTS, 2PPLS e MOFPA foram executados em 6 instâncias propostas por Zitzler e Thiele (1999), em uma combinação de 2 e 3 objetivos com 250, 500 e 750 itens. O número de dimensões nessas instâncias é igual ao número de objetivos e os custos e pesos dos itens foram gerados aleatoriamente usando uma distribuição uniforme no intervalo [1,100]. A capacidade de cada dimensão da mochila é metade da soma dos respectivos pesos de todos os itens. A segunda parte dos experimentos testa a robustez do MOSCA/D no contexto de muitos objetivos. Para tal, ele foi comparado ao HMOBEDA em outro conjunto de instâncias de mesmas características, utilizadas por Martins et al. (2017), em uma combinação de 2, 3, 4, 5 e 8 objetivos e 100 e 250 itens.
Os resultados do MEMOTS e 2PPLS foram disponibilizados pelos autores dos algo- ritmos e são as mesmas aproximações das fronteiras de Pareto apresentadas por Lust e Teghem (2008) e Lust e Teghem (2012), respectivamente, consistindo em 20 execuções independentes de cada caso de teste usando um Pentium IV com 3.0 GHz e 512 MB de RAM. Os autores não disponibilizaram os resultados do 2PPLS para instâncias com três objetivos por causa do tempo de execução impraticável. Os resultados do MOFPA também foram disponibilizados pelo autor e são os mesmos apresentados por Zouache, Moussaoui e Abdelaziz (2018), consistindo em 30 execuções independentes de cada caso de teste, implementado no Matlab em uma máquina equipada com Core I5, usando o sistema operacional Windows 8.
Tabela 1: Tempo computacional Instância T(s) 250_2 5 500_2 23 750_2 59 250_3 11 500_3 38 750_3 95
O MOSCA/D, NSGA-II, SPEA2 e MOEA/D foram implementados em C++ usando o GCC. A máquina usada para os experimentos está equipada com as mesmas configurações da máquina usada pelo 2PPLS e MEMOTS, usando um processador Pentium IV com 3.0 GHz e 512 MB de RAM. Nestes algoritmos, são realizadas 30 execuções independentes de cada caso de teste.
No primeiro experimento, os critérios de parada do MOSCA/D, NSGA-II, SPEA2 e MOEA/D foram configurados para o mesmo tempo computacional gasto para encontrar as soluções do MEMOTS, que por sua vez é similar ao tempo do 2PPLS, ambos relatados pelos autores. O tempo de execução do MOFPA não foi disponibilizado pelos autores. A tabela 1 apresenta o tempo computacional, em segundos, gasta pelos algoritmos em cada uma das instâncias.
O problema foi decomposto pelo método da soma ponderada em num_dec subpro- blemas que as soluções tentarão otimizar, representados por vetores de escalarização λ. O tamanho da população foi definido empiricamente em um experimento preliminar, con- tendo uma solução para cada um dos num_dec subproblemas. Neste experimento, foi comparado o impacto no tempo de computação e nos indicadores de qualidade quando num_dec variou entre 50 e 500, com intervalos de 50, utilizando o mesmo conjunto de parâmetros e instâncias dos experimentos computacionais. O tamanho num_dec = 300 foi escolhido por apresentar um bom equilíbrio entre qualidade de solução e tempo de execução.
O tamanho da população do NSGA-II, SPEA2 e MOEA/D foi configurado para 300, igual ao MOSCA/D. Os outros parâmetros do NSGA-II, SPEA2 e MOEA/D foram con- figurados conforme os valores sugeridos nas publicações originais. Para o NSGA-II, a probabilidade de cruzamento é 0,8 e a probabilidade de mutação é 1/n. Para o SPEA2, a probabilidade de cruzamento é 0,8 e a probabilidade de mutação é 0,01. No MOEA/D, a probabilidade de cruzamento é 1,0 e a probabilidade de mutação foi configurada para
0,01.
A população inicial do MOSCA/D, NSGA-II, SPEA2 e MOEA/D foi gerada por um algoritmo guloso, similar ao método utilizado pelo 2PPLS. O algoritmo que constrói cada solução inicia com uma solução vazia. Iterativamente, cada item é inserido na solução se ele não quebrar as restrições do problema. Os itens são inseridos na ordem decrescente de seu valor calculado pela razão (6.1), também usada por outros trabalhos da literatura.
Pm
j=1λjcij
Pm
k=1(wki/Wk)
(6.1)
A população inicial do MEMOTS foi gerada por uma busca local multiobjetivo par- tindo de uma solução gerada aleatoriamente. A população inicial do MOFPA é gerada aleatoriamente.
O HMOBEDA foi disponibilizado pela autora e executado na mesma máquina do MOSCA/D. O algoritmo foi implementado em MATLAB. Na comparação do MOSCA/D com o HMOBEDA, o critério de parada adotado por ambas as abordagens é 100.000 avaliações da função objetivo, removendo a influência da linguagem de programação e plataforma de execução no desempenho dos algoritmos. Nesta comparação, a população inicial de ambas as abordagens foi gerada aleatoriamente.
O parâmetro ρ, que define tamanho das coleções de documentos ou a cardinalidade do subconjunto de soluções avaliadas nas estatísticas da literatura, foi definido como ρ = 5. Tal valor foi decidido empiricamente em um experimento que comparou o impacto nos indicadores de qualidade quando tal parâmetro variou entre os valores 5, 10, 15 e 20.
Os parâmetros da Equação 5.2, que define o modelo baseado no TF-IDF para geração do tema, foram definidos como c = 0, 2, α = 0, 3, β = 0, 3, δ = 0, 1 e γ = 0, 1. Tais valores foram decididos em um experimento preliminar que variou cada um dos fatores numéricos no intervalo [0, 1], em incrementos de 0,1 unidade, de forma que a soma dos fatores seja igual a 1. O experimento considerou o mesmo conjunto de parâmetros e instâncias dos experimentos computacionais, realizando 10 execuções independentes de cada combinação, selecionando a combinação de fatores numéricos que obteve melhores resultados no teste de Kruskal-Wallis para os indicadores épsilon e hipervolume.
Para verificar a eficiência da Equação 5.2, três versões do MOSCA/D foram implemen- tadas e comparadas entre si, utilizando o mesmo conjunto de parâmetros e instâncias dos experimentos computacionais. A primeira versão, nomeada MOSCA/D-TFIDF, utiliza a Equação (5.2) para definir a probabilidade de um item pertencer ao tema do pesquisa-
Figura 1: TF-IDF x Aleatório x Sem tema: Épsilon na instância com dois objetivos e 750 itens
dor. Na segunda versão, chamada MOSCA/D-RANDOM, ptip = 0, 5 para qualquer item ou pesquisador. Na terceira versão, denominada MOSCA/D-NOTHEME, ptip = 1, equi- valente à ausência do conceito de tema. Foram realizadas 30 execuções independentes utilizando cada método.
As Figuras 1 e 2 mostram a comparação das três versões de geração de tema em uma instância de dois objetivos e 750 itens. Como resultado, o teste de Kruskal-Wallis revelou evidência estatística de que o TF-IDF permite selecionar temas que encontram aproximações do conjunto de pareto com indicadores épsilon e hipervolume melhores ou similares do que os outros métodos estudados, com nível de significância de 0,05. Além disso, o tempo de execução do MOSCA/D-TFIDF foi de apenas 27% do tempo de execução do MOSCA/D-NOTHEME.
Os resultados do estudo para as demais instâncias estão apresentados no Apêndice C, suportando a hipótese de que fixar variáveis de decisão por meio de um modelo probabi- lístico permite reduzir o tempo de execução de cada iteração e melhorar a qualidade das soluções geradas pelo algoritmo.
Os parâmetros da Equação 5.3, que define o modelo baseado no TF-IDF para cons- trução de novas soluções, foram definidos como ζ = 0, 2 e η = 0, 8. Tais valores foram
Figura 2: TF-IDF x Aleatório x Sem tema: Hipervolume na instância com dois objetivos e 750 itens
decididos em um experimento preliminar análogo ao que definiu os parâmetros da Equação 5.2.
O parâmetro µ, usado na função V erif icar_hipotese, foi definido como µ = 0, 5 em um experimento preliminar usando o mesmo conjunto de parâmetros e instâncias do experimento computacional. Os valores testados para este parâmetro foram o intervalo [0, 1], em incrementos de 0,25 unidade. O teste estatístico de Kruskal-Wallis foi utilizado para verificar qual valor tem impacto mais positivo nos indicadores épsilon e hipervolume.
O desempenho dos algoritmos é medido pelos indicadores de qualidade épsilon e hiper- volume. O hipervolume calculado é a diferença para o conjunto de referência, devendo ser minimizado assim como o épsilon. Os indicadores de qualidade são agrupados em boxplots e submetidos aos testes estatísticos de Kruskal-Wallis e Wilcoxon, com nível de significân- cia de 0,05, na plataforma PISA. No caso do Kruskal-Wallis, o teste pareado é realizado para verificar quais algoritmos demonstram evidência estatística de serem superiores.
6.2
Resultados
Os resultados do NSGA-II, SPEA2 e MOEA/D foram omitidos deste capítulo por apresentarem desempenho inferior ao MOSCA/D, 2PPLS, MEMOTS e MOFPA. Nesses três algoritmos, todas as execuções de todas as instâncias tiveram indicadores épsilon e hipervolume piores do que a pior execução do MOSCA/D. Os boxplots contendo a comparação destes algoritmos ao MOSCA/D estão apresentados no Apêndice D.
A Figura 3 mostra a comparação de resultados entre o MOSCA/D, 2PPLS, MEMOTS e MOFPA nas instâncias com dois objetivos e 250 itens, por meio de boxplots do indicador épsilon. O teste de Kruskal-Wallis não identifica diferença estatisticamente significativa entre o MOSCA/D e o MEMOTS. O algoritmo 2PPLS tem melhor desempenho estatístico nesta instância.
Figura 3: MOSCA/D x 2PPLS x MEMOTS x MOFPA: Épsilon na instância com dois objetivos e 250 itens
Figura 4: MOSCA/D x 2PPLS x MEMOTS x MOFPA: Hipervolume na instância com dois objetivos e 250 itens
Figura 5: MOSCA/D x 2PPLS x MEMOTS x MOFPA: Épsilon na instância com dois objetivos e 500 itens
instância, o algoritmo MEMOTS tem melhor desempenho estatístico no teste de Kruskal- Wallis.
A Figura 5 mostra a comparação de resultados entre o MOSCA/D, 2PPLS, MEMOTS e MOFPA nas instâncias com dois objetivos e 500 itens, por meio de boxplots do indicador épsilon. O teste de Kruskal-Wallis não identifica diferença estatisticamente significativa entre o MOSCA/D e o MEMOTS. O algoritmo 2PPLS tem melhor desempenho estatístico nesta instância.
A Figura 6 mostra a comparação análoga referente ao indicador hipervolume. Nesta instância, os algoritmos MOSCA/D e 2PPLS tem o melhor desempenho estatístico, sem diferença significativa no teste de Kruskal-Wallis.
Figura 6: MOSCA/D x 2PPLS x MEMOTS x MOFPA: Hipervolume na instância com dois objetivos e 500 itens
A Figura 7 mostra a comparação de resultados entre o MOSCA/D, 2PPLS, ME- MOTS e MOFPA nas instâncias com dois objetivos e 750 itens, por meio de boxplots do indicador épsilon. O teste de Kruskal-Wallis não identifica diferença estatisticamente significativa entre o 2PPLS e o MEMOTS, que possuem o melhor desempenho estatístico nesta instância.
A Figura 8 mostra a comparação análoga referente ao indicador hipervolume. Nesta instância, o algoritmo 2PPLS tem melhor desempenho estatístico no teste de Kruskal-
Wallis.
Figura 7: MOSCA/D x 2PPLS x MEMOTS x MOFPA: Épsilon na instância com dois objetivos e 750 itens
Figura 8: MOSCA/D x 2PPLS x MEMOTS x MOFPA: Hipervolume na instância com dois objetivos e 750 itens
As Figuras 9, 11 e 13 mostram a comparação de resultados entre o MOSCA/D, ME- MOTS e MOFPA nas instâncias com três objetivos, por meio de boxplots do indicador épsilon. As Figuras 10, 12 e 14 mostram a comparação análoga para o indicador hipervo- lume. Em todas as instâncias com três objetivos, em ambos os indicadores de qualidade, o Kruskal-Wallis identifica diferença estatisticamente significativa em favor do MOSCA/D, configurando a abordagem como o novo estado da arte do problema para instâncias com três objetivos.
Figura 9: MOSCA/D x MEMOTS x MOFPA: Épsilon na instância com três objetivos e 250 itens
As Figuras 15 a 34 mostram a comparação de resultados entre o MOSCA/D e o HMOBEDA nas instâncias com dois a oito objetivos e 100 a 250 itens, para os indicadores épsilon e hipervolume. Em todas as instâncias, em ambos os indicadores de qualidade, o MOSCA/D tem desempenho superior segundo o teste estatístico de Wilcoxon.
Estes resultados suportam a hipótese de que o MOSCA/D, apesar de ser uma aborda- gem nova, consegue competir com outras abordagens consolidadas da literatura, inclusive superando-as para se tornar o estado da arte para o PMMMO em instâncias com três ou mais objetivos, considerando os indicadores de qualidade épsilon e hipervolume.
Figura 10: MOSCA/D x MEMOTS x MOFPA: Hipervolume na instância com três obje- tivos e 250 itens
Figura 11: MOSCA/D x MEMOTS x MOFPA: Épsilon na instância com três objetivos e 500 itens
Figura 12: MOSCA/D x MEMOTS x MOFPA: Hipervolume na instância com três obje- tivos e 500 itens
Figura 13: MOSCA/D x MEMOTS x MOFPA: Épsilon na instância com três objetivos e 750 itens
Figura 14: MOSCA/D x MEMOTS x MOFPA: Hipervolume na instância com três obje- tivos e 750 itens
Figura 16: MOSCA/D x HMOBEDA: Hipervolume na instância com dois objetivos e 100 itens
Figura 18: MOSCA/D x HMOBEDA: Hipervolume na instância com dois objetivos e 250 itens
Figura 20: MOSCA/D x HMOBEDA: Hipervolume na instância com três objetivos e 100 itens
Figura 22: MOSCA/D x HMOBEDA: Hipervolume na instância com três objetivos e 250 itens
Figura 23: MOSCA/D x HMOBEDA: Épsilon na instância com quatro objetivos e 100 itens
Figura 24: MOSCA/D x HMOBEDA: Hipervolume na instância com quatro objetivos e 100 itens
Figura 25: MOSCA/D x HMOBEDA: Épsilon na instância com quatro objetivos e 250 itens
Figura 26: MOSCA/D x HMOBEDA: Hipervolume na instância com quatro objetivos e 250 itens
Figura 28: MOSCA/D x HMOBEDA: Hipervolume na instância com cinco objetivos e 100 itens
Figura 30: MOSCA/D x HMOBEDA: Hipervolume na instância com cinco objetivos e 250 itens
Figura 32: MOSCA/D x HMOBEDA: Hipervolume na instância com oito objetivos e 100 itens
Figura 34: MOSCA/D x HMOBEDA: Hipervolume na instância com oito objetivos e 250 itens