Conforme visto no Cap´ıtulo 2, a nomenclatura Algoritmos Evolucion´arios n˜ao ´e ´unica. Neste Cap´ıtulo, optou-se novamente pelo termo Algoritmos Evolucion´arios para tratar os algoritmos relacionados `a busca em um espa¸co de solu¸c˜oes. A maioria dos algoritmos evolucion´arios foi proposta para resolver problemas onde um ´unico objetivo ´e considerado (otimiza¸c˜ao mono-objetivo). Para mais detalhes ver Jong (2009), Engelbrecht (2007), Grosan e Abraham (2007), Fogel (2005), Cordon, Herrera e Stutzle (2002), Dasgupta Dipankar; Michalewicz (2001), Mitchell e Taylor (1999), B¨ack, Schwefel e Informatik (1996), Spears et al. (1993). Um levantamento bibliogr´afico mais amplo de algoritmos
idealizados para solucionar problemas mono-objetivo est´a fora do escopo desta tese, mas alguns casos especiais s˜ao discutidos nas Se¸c˜oes 2.1.3, 2.2.7 e 4.3.
3.2.1
Testes Estat´ısticos
Os resultados de algoritmos evolucion´arios mono-objetivo s˜ao estoc´asticos e podem ser modelados como vari´aveis aleat´orias. Para comparar dois algoritmos evolucion´arios utilizam-se testes estat´ısticos sobre indicadores (m´edia, mediana, etc.) das amostras co- letadas durante as execu¸c˜oes dos algoritmos.
Segundo Garc´ıa et al. (2009), na compara¸c˜ao entre diferentes abordagens evolu- cion´arias h´a uma s´erie de condi¸c˜oes que devem ser assumidas para o uso seguro de testes estat´ısticos param´etricos:
• Independˆencia: Em estat´ıstica, dois eventos s˜ao independentes quando o fato de um ocorrer n˜ao modifica a probabilidade de ocorrˆencia do outro.
• Normalidade: Uma observa¸c˜ao ´e normal quando seu comportamento se assemelha a uma distribui¸c˜ao Gaussiana com um certo valor de m´edia µ e variˆancia σ . Um teste de normalidade aplicado sobre uma amostra pode indicar a presen¸ca ou ausˆencia destas condi¸c˜oes nos dados observados. Garc´ıa et al. (2009) prop˜oem trˆes testes de normalidade:
– Kolmogorov-Smirnov: Este teste compara a distribui¸c˜ao acumulada dos da- dos observados com a distribui¸c˜ao acumulada esperada para uma distribui¸c˜ao Gaussiana, obtendo um p-valor1 baseado nas duas discrepˆancias;
– Shapiro-Wilk: Este teste analisa os dados observados para computar o n´ıvel de simetria e formato da curva com o objetivo de computar a diferen¸ca com re- speito a uma distribui¸c˜ao Gaussiana obtendo o p-valor da soma dos quadrados destas discrepˆancias;
– D’Agostino-Pearson: Este teste, primeiro computa a falta de simetria e o for- mato da curva para quantificar qu˜ao longe de uma distribui¸c˜ao Gaussiana os dados est˜ao em termos de assimetria e formato. Ent˜ao o teste calcula o quanto cada um destes valores difere do valor esperado para uma distribui¸c˜ao Gaus- siana, e computa um ´unico p-valor a partir da soma destas discrepˆancias. • Homocedasticidade (Homoscedasticity): Esta propriedade indica a existˆencia da
hip´otese de igualdade das variˆancias. O teste de Levene (LEVENE, 1960) ´e usado 1O p-valor de um teste estat´ıstico indica a confiabilidade do teste.
para verificar se as amostras testadas apresentam homogeneidade (homoscedasticity) ou heterogeneidade de variˆancias (heteroscedasticity).
Assumindo que as condi¸c˜oes descritas anteriormente s˜ao satisfeitas, pode-se aplicar diferentes testes estat´ısticos param´etricos: teste-t (CASELLA; BERGER, 2001) ou teste-z (CASELLA; BERGER, 2001) para a compara¸c˜ao entre dois algortms (amostras); quando se deseja comparar trˆes ou mais algoritmos pode-se utilizar o teste ANOVA (CASELLA; BERGER, 2001).
No caso da viola¸c˜ao das condi¸c˜oes sugeridas por Garc´ıa et al. (2009), deve-se utilizar um teste n˜ao-param´etrico. Os testes n˜ao-param´etricos s˜ao considerados ferramentas ´uteis quando os dados resultantes de um experimento n˜ao satisfazem as condi¸c˜oes discutidas anteriormente. No caso de duas amostras, os testes n˜ao param´etricos de Wilcoxon signed- rank ou Mann-Whitney rank sum podem ser utilizados (GIBBONS, 1985). Em caso de dados n˜ao-pareados e um conjunto com mais de duas amostras, o teste de Kruskal-Wallis ´e bem aceito quando as condi¸c˜oes para testes param´etricos s˜ao satisfeitas e apresenta um poder maior na presen¸ca de distribui¸c˜oes assim´etricas, outliers, etc.
O teste de Kruskal-Wallis tamb´em ´e baseado na m´edia dos ranks obtidos por cada amostra. Considerando ni como sendo o tamanho da i-´esima amostra e N como sendo a soma dos tamanhos de todas as amostras, o teste primeiramente obt´em o rank de cada uma das amostras (Ri, para a i-´esima amostra) e calcula o indicador H conforme a Equa¸c˜ao 3.2.
H = 12
N∗ (N + 1)∗
∑
R2ini − 3 ∗ (N + 1) (3.2)
Se a hip´otese nula de que todas as amostras apresentam a mesma distribui¸c˜ao for verdadeira ent˜ao o indicador H pertence `a distribui¸c˜ao χ2 com o n´umero de amostras - 1 graus de liberdade. Assim a hip´otese nula ´e rejeitada se o valor de H calculado for grande demais para pertencer a distribui¸c˜ao.
Como exemplo do uso do teste de Kruskal-Wallis, pode-se observar a Figura 14. Pela an´alise dos intervalos de confian¸ca entre as m´edias de ranks das trˆes amostras, verifica-se que as amostras 1 e 2 s˜ao consideradas semelhantes e ambas estatisticamente diferentes da amostra 3. Ao considerar que os ranks mostrados na Figura 14 indicam a qualidade de algoritmos evolucion´arios sendo comparados, e quanto mais baixos os valores de rank melhor s˜ao os algoritmos associados, tem-se que os algoritmos 1 e 2 possuem desempenho semelhante e ambos s˜ao superiores ao algoritmo 3.
Figura 14: Resultado da compara¸c˜ao entre trˆes amostras.
Apesar dos testes de Kruskal-Wallis e Mann-Whitney serem eficientes, existem formas mais modernas e eficiente para lidar com a n˜ao-normalidade dos dados, como o Bootstrap (MOORE et al., 2003).
A id´eia de um m´etodo Bootstrap vem do fato de que uma amostra representa a popula¸c˜ao da qual ela foi amostrada. Ent˜ao, re-amostragens desta amostra representam o que seria obtido se v´arias amostragens da popula¸c˜ao fossem feitas. A distribui¸c˜ao de Bootstrap de um indicador ´e a distribui¸c˜ao obtida para aquele indicador atrav´es das v´arias re-amostragens. Ela representa a distribui¸c˜ao estat´ıstica do indicador baseada em v´arias amostragens da popula¸c˜ao. Isto ´e v´alido por causa do princ´ıpio de plug-in que diz que se pode utilizar um indicador calculado da amostra para aproximar o mesmo indicador para a popula¸c˜ao (MOORE et al., 2003). Por exemplo, pode-se usar a m´edia da amostra para estimar a m´edia da popula¸c˜ao. Como os m´etodos Bootstrap n˜ao imp˜oem nenhuma restri¸c˜ao sobre a amostra, eles podem ser utilizados em qualquer tipo de dado. Geralmente, os m´etodos Bootstrap s˜ao utilizados para calcular intervalos de confian¸ca dos indicadores. Estes intervalos possuem equivalˆencia com os testes estat´ısticos: se um valor n˜ao est´a contido no intervalo de confian¸ca de um indicador ent˜ao pode-se afirmar com a mesma precis˜ao com que o intervalo foi gerado que o valor n˜ao ´e equivalente ao indicador (WOOD, 2005). Por exemplo, suponha que um intervalo de confian¸ca para a m´edia da amostra de um algoritmo foi obtido por um m´etodo de Bootstrap com 95% de confiabilidade como sendo [10 - 20]. Deseja-se ent˜ao testar se o valor de m´edia X (obtido da amostra de um outro algoritmo) ´e estatisticamente equivalente `a m´edia do primeiro algoritmo. Para isso, basta testar se X est´a ou n˜ao dentro do intervalo: se ele estiver as m´edias s˜ao equivalentes, sen˜ao pode-se afirmar com 95% de confian¸ca que existe diferen¸ca significativa entre as m´edias dos dois algoritmos.
Considerando as quest˜oes levantadas anteriormente, optou-se neste trabalho pelo uso do teste Kruskal-Wallis (CASELLA; BERGER, 2001; KNOWLES; THIELE; ZITZLER,
2006) para a compara¸c˜ao entre as abordagens mono-objetivo e multiobjetivo propostas (trˆes ou mais amostras sendo comparadas). Para as abordagens mono-objetivo tamb´em foi utilizada a abordagem Bootstrap (BRADLEY; TIBSHIRANI, 1994).