Metodologia da análise experimental - Meta-heurísticas híbridas aplicadas ao problema da árvore

Esta seção disserta sobre a metodologia da análise experimental dos algoritmos GRPR, TAPAS e T-BT. A seção 6.2.1 exibe os valores dos parâmetros utilizados pelos

algoritmos e a seção 6.2.2 disserta sobre os critérios de comparação dos algoritmos. Três importantes partes compõem esta análise experimental: (1) comparação dos algoritmos GRPR, TAPAS e T-BT entre si; (2) experimentos complementares dos algoritmos TAPAS e T-BT ; (3) comparação do TAPAS e T-BT com os algoritmos do estado da arte. As seções 6.2.3, 6.2.4 e 6.2.5 dissertam, respectivamente, sobre a metodologia adotada pelas análises (1), (2) e (3).

6.2.1 Ajustes de parâmetros

Os valores atribuídos aos parâmetros dos algoritmos GRPR, TAPAS e T-BT foram calculados com base na ferramenta IRACE (LÓPEZ-IBÁÑEZ et al., 2016). O conjunto de treinamento consistiu num subconjunto das instâncias descritas na seção 6.1, todas as classes, com tamanho de até 500 vértices.

As Tabelas 3, 4 e 5 detalham, respectivamente, os valores atribuídos aos parâmetros do GRPR, TAPAS e T-BT. Estas tabelas exibem os parâmetros em concordância com a nomenclatura sugerida no Capítulo 5.

Tabela 3 – Parâmetros do GRPR

𝛽 = 0, 08 #𝑛𝑢𝑚𝑉 𝑒𝑡𝑜𝑟𝑒𝑠 = 700

#𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜𝑃 𝑅 = 49 #𝑚𝑎𝑥_𝑝𝑟 = 7

#𝑚𝑎𝑥_𝑏𝑙 = 30 #𝑚𝑎𝑥𝑉 𝑖𝑧 = 10

Tabela 4 – Parâmetros do TAPAS

#𝑚𝑎𝑥_𝑠𝑢𝑝 = 20 #𝑚𝑎𝑥_𝑟𝑚𝑐𝑘𝑟𝑢𝑠 = 70 #𝑠𝑖𝑧𝑒_𝑝𝑜𝑝 = 150 #𝑚𝑎𝑥_𝑔𝑒𝑛 = 20 #𝑚𝑎𝑥_𝑜𝑓 𝑓 𝑠𝑝 = 10 #𝑡𝑎𝑥_𝑚𝑢𝑡 = 0, 03 #𝑚𝑎𝑥_𝑝𝑟 = 7 #𝑚𝑎𝑥_𝑡𝑎𝑏𝑢 = 30 𝑡𝑎𝑏𝑢𝑡𝑒𝑛𝑢𝑟𝑒 = 5 Tabela 5 – Parâmetros do T-BT #𝑝𝑜𝑝𝑆𝑖𝑧𝑒 = 100 #𝑚𝑎𝑥_𝑔𝑒𝑛 = 40 #𝑛𝑢𝑚𝑃 𝑙𝑎𝑠 = 15 #𝑖𝑛𝑡𝐺𝑒𝑟𝑆𝑒𝑡 = 8 #𝑝𝑟𝑜𝑏𝑃 𝑙𝑎𝑠𝑚 = 0, 41 #𝑝𝑟𝑜𝑏𝐹 𝑎𝑡𝑜𝑟 = 0, 11 #𝑚𝑎𝑥𝑇 𝑎𝑏𝑢 = 13 #𝑡𝑎𝑏𝑢𝑡𝑒𝑛𝑢𝑟𝑒 = 5 #𝑚𝑎𝑥_𝑣𝑖𝑧𝑖𝑛ℎ𝑜𝑠 = 16

6.2.2 Critérios de comparação

Os algoritmos baseados em Pareto foram submetidos, para cada instância, a 30 execuções independentes. De modo geral, todas as análises são baseadas na comparação do tempo computacional médio despendido (em segundos) e na qualidade de seus conjuntos aproximativos resultantes. Particularmente, a metodologia de avaliação dos conjuntos aproximativos utiliza os indicadores 𝐼1

𝜖+, 𝐼

𝐻 e 𝐼𝑅21 , tais como definidos no Capítulo 2. Para

destes indicadores unários, é obtido com base nos seguintes passos, conforme sugerido por Knowles, Thiele e Zitzler (2005): une-se os conjuntos aproximativos para uma dada instância; em seguida, filtra-se apenas as soluções não dominadas.

Todos os indicadores aqui utilizados são Pareto concordantes e de minimização. Isso significa que, dado 𝐼1 ∈ {𝐼1

𝜖+, 𝐼

𝐻, 𝐼𝑅21 } e 𝑍*′ e 𝑍*′′ dois conjuntos aproximativos

distintos, se 𝐼1_(𝑍*′_{) < 𝐼}1_(𝑍*′′_{), então o máximo que se pode inferir é “com respeito ao} indicador 𝐼1_{, 𝑍}*′ _{não é pior que 𝑍}*′′_{” ou “o indicador 𝐼}1 _{é favorável a 𝑍}*′_{” (ZITZLER et} al., 2003). Portanto, este texto evitará frases como “𝑍*′ foi melhor que 𝑍*′′”. Além disso, se dois indicadores Pareto concordantes divergem entre si numa mesma instância, então pode-se dizer que os conjuntos aproximativos em análise são incomparáveis (KNOWLES; THIELE; ZITZLER, 2005).

São relatadas análises sob o ponto de vista individual de cada indicador, mas também são relatados casos onde os indicadores concordam ou divergem com respeito à qualidade dos conjuntos aproximativos. Testes estatísticos são efetuados a fim de detectar a existência de diferença significativa entre a qualidade das soluções dos algoritmos. A implementação de todas as ferramentas utilizadas por esta metodologia, como indicadores, filtro e testes estatísticos, foram disponibilizadas pela plataforma PISA (BLEULER et al., 2003).

6.2.3 Metodologia da comparação dos algoritmos entre si

Os algoritmos GRPR, TAPAS e T-BT são comparados entre si com base no tempo e na qualidade das soluções. Estes resultados são apresentados na seção 6.3. Nesta análise, o critério de parada original dos algoritmos dá-se com base no parâmetro que define a quantidade máxima de iterações (ou gerações), conforme fora descrito no Capítulo 5. Os algoritmos têm até 3600 segundos para executar todas as suas iterações. Assim, o procedimento é interrompido e seus resultados são salvos caso o tempo limite seja atingido antes que todas as iterações sejam efetuadas. Esta estratégia foi adotada devido ao tempo excessivamente elevado do GRPR, principalmente nas instâncias anticorrelated. De fato, como será mostrado na seção 6.3, este foi o único algoritmo a atingir o tempo limite, enquanto os demais algoritmos conseguiram melhores soluções em menos tempo.

Na análise da seção 6.3, a comparação da qualidade dos conjuntos aproximativos dos três algoritmos, com base nas amostras de cada indicador separadamente, dá-se com o auxílio do teste estatístico de Kruskal-Wallis (KRUSKAL; WALLIS, 1952). O nível de significância é 0, 05. Primeiramente, executa-se o teste two-tailed com a finalidade de verificar existência de diferença significativa mútua sobre as amostras dos três algoritmos. Este teste obtém uma probabilidade, chamada p-valor, de aceitar a hipótese nula, 𝐻0, a qual, por sua vez, afirma que não há diferença significativa mútua entre as amostras de soluções dos três algoritmos segundo um dado indicador de qualidade. Caso o p-valor seja menor que o nível de significância, 𝐻0 é rejeitada. Caso o p-valor seja maior que

0, 95, 𝐻0 é aceita. P-valores entre 0, 05 e 0, 95 (inclusive) são considerados inconclusivos. Casos típicos se caracterizam pela rejeição da hipótese nula no teste two-tailed. Em alguns casos atípicos, onde 𝐻0 não é rejeitada, conforme orientam Knowles, Thiele e Zitzler (2005), serão analisados gráficos boxplots sobre os indicadores de qualidade. Se 𝐻0 for rejeitada, então executa-se o teste de Kruskal-Wallis one-tailed para cada par de algoritmos, resultando em outro p-valor. Com nível de significância 0, 05, o teste one-tailed pressupõe as hipóteses nula e alternativa. A hipótese nula one-tailed, de modo análogo ao caso two-tailed, afirma que, com respeito a um dado indicador, não há diferença significativa entre as amostras de soluções dos dois algoritmos considerados. A hipótese alternativa, por sua vez, afirma que, segundo um dado indicador de qualidade, “o primeiro algoritmo advém de uma distribuição melhor que o segundo”. Deste modo, p-valores one-tailed menores que 0, 05 rejeitam a hipótese nula em favor da hipótese alternativa, enquanto que aqueles maiores que 0, 95 aceitam a hipótese nula. Considere, por exemplo, o par TAPAS versus GRPR. Então p-valores one-tailed menores que 0, 05 são favoráveis ao primeiro algoritmo, p-valores one-tailed maiores que 0, 95 são favoráveis ao segundo algoritmo e p-valores entre 0, 05 e 0, 95 (inclusive) são inconclusivos. O cenário é análogo aos demais pares de algoritmos. Os p-valores, de ambos os testes, têm precisão de quatro casas decimais.

Além do tempo e da qualidade das soluções, os experimentos dissertados na seção 6.3 também resultaram em estatísticas adicionais referentes aos dois melhores algoritmos (TAPAS e T-BT ), tais como: tempo e eficácia de cada parte da hibridização, contribuição de cada operador e quantidade de avaliações da função objetivo. Tais estatísticas adicionais para o TAPAS e T-BT são apresentadas, respectivamente, nos Apêndices B e C.

6.2.4 Metodologia dos experimentos complementares

Esta pesquisa realizou experimentos complementares com o TAPAS e o T-BT a fim de melhor investigar seus desempenhos. Estes experimentos complementares, dissertados na seção 6.4, consistem em analisar a qualidade das soluções obtidas por estes algoritmos quando ambos realizam aproximadamente a mesma quantidade de avaliações da função objetivo. Ou seja, nesta análise o critério de parada dos algoritmos não é mais a quantidade de iterações, mas a quantidade de avaliações da função objetivo. O propósito destes experimentos é estudar possíveis vantagens do TAPAS ou do T-BT que não foram detectadas nos experimentos anteriores. Assim, ambos os algoritmos devem efetuar, apro- ximadamente, 300000 avaliações para as classes correlated e concave e 800000 para a classe anticorrelated. O 𝐼_𝜖1₊, 𝐼_𝐻1 e 𝐼_𝑅21 indicarão a qualidade dos conjuntos aproximativos. O teste estatístico de Mann-Whitney one-tailed, com nível de significância de 0, 05, detectará a existência de diferença significativa entre a qualidade dos conjuntos aproximativos com respeito a cada indicador. Este teste pressupõe a hipótese nula e a hipótese alternativa. A primeira afirma que “ambas as amostras advém da mesma distribuição (sem diferença significativa)”. A segunda afirma que “a qualidade do conjunto aproximativo obtido pelo

TAPAS advém de uma distribuição melhor que o T-BT ”. P-valores menores que 0, 05 são favoráveis ao TAPAS, enquanto que p-valores maiores que 0, 95 são favoráveis ao T-BT. Casos de inconclusão (p-valores entre 0, 05 e 0, 95, inclusive) serão analisados por meio de gráficos boxplots.

6.2.5 Metodologia da comparação com a literatura

Finalmente, a análise apresentada na seção 6.5 consiste em comparar os resultados do TAPAS e do T-BT com os algoritmos do estado da arte. Os algoritmos da literatura escolhidos para comparação foram o memético de Rocha, Goldbarg e Goldbarg (2006) e o transgenético de Monteiro, Goldbarg e Goldbarg (2010), os quais, doravante, a fim de simplificar a organização dos resultados, chamar-se-ão RGG e T-LP, respectivamente. Estes algoritmos, detalhados no Capítulo 4, foram escolhidos para comparação porque suas estratégias fundamentaram boa parte da metodologia de desenvolvimento adotada por esta pesquisa. Além disso, o RGG e T-LP apresentam os resultados mais competitivos da literatura. O primeiro é um algoritmo híbrido e representa uma abordagem evolucionária clássica. O segundo, por sua vez, representa uma abordagem evolucionária inovadora e com resultados promissores. Ambos foram experimentados com os parâmetros sugeridos por seus autores. Nesta análise, o critério de parada do TAPAS, T-BT, RGG e T-LP foi a quantidade de iterações (ou gerações).

A comparação será baseada em tempo computacional e na qualidade das soluções com respeito aos indicadores 𝐼1

𝜖+, 𝐼

𝐻 e 𝐼𝑅21 . O teste estatístico de Mann-Whitney one-tailed

será adotado para detectar a existência de diferença significativa entre a qualidade dos conjuntos aproximativos. A interpretação dos resultados deste teste estatístico foi descrita a seção 6.2.4.

No documento Meta-heurísticas híbridas aplicadas ao problema da árvore geradora multiobjetivo (páginas 76-80)