• Nenhum resultado encontrado

Avaliação Experimental com Métodos Estatísticos

5.2 Resultados com as Bases Reais

5.2.1 Avaliação Experimental com Métodos Estatísticos

Para realizar uma avaliação mais precisa e rigorosa dos experimentos, optou-se por fazer uma análise estatística dos resultados. Para realizar tal avaliação os métodos estatísticos de comparações múltiplas são os mais apropriados, pois se pretende avaliar o valor médio do critério de avaliação obtido com vários algoritmos em diferentes bases.

Em métodos de múltiplas comparações, espera-se mostrar que existem diferenças entre os algoritmos com nível de significância igual a

α

%. O nível de significância indica a probabilidade de uma amostra de dados aleatória gerar o resultado atual, supondo que os algoritmos obtêm resultados iguais. A suposição de que os algoritmos obtêm resultados iguais representa a hipótese nula para a avaliação estatística em questão.

O nível de significância representa a probabilidade de rejeitar a hipótese nula quando ela é verdadeira, ou seja, cometer um erro do Tipo I. O nível de significância deve ter um valor ajustado para garantir uma baixa probabilidade de ocorrência de erro do Tipo I. Geralmente o nível de significância utilizado é de 5%, sendo esse o valor utilizado na avaliação estatística no presente trabalho.

Segundo (DEMSAR, 2006), o método estatístico mais adequado para comparação de algoritmos em múltiplos domínios é o Teste de Friedman (FRIEDMAN, 1940). O método testa se em c ≥ 2 experimentos diferentes e dependentes, pelo menos dois são estatisticamente

diferentes. Para tanto, o método ordena os algoritmos para cada problema separadamente, atribuindo um posto (rank) a cada um deles com valores de 1 a c. O algoritmo com melhor resultado recebe o posto 1, o segundo melhor recebe o posto 2, e assim sucessivamente. Os algoritmos que apresentam resultados iguais recebem a média dos postos que seriam atribuídos a eles.

O Teste de Friedman compara a média dos postos Rj, onde j = 1, ...,c dos c algoritmos

em todos os n problemas avaliados. Com a hipótese nula de que todos os algoritmos são iguais, a estatística de Friedman

(

)

(

)

      + − + =

= c j j r c c R c c n X 1 2 2 4 1 1 12 (5.1)

segue uma distribuição X2 com (c – 1) graus de liberdade, se os valores de c e n forem

suficientemente grandes.

(IMAN; DAVENPORT, 1980) apresentam uma estatística derivada da estatística de

Friedman para corrigir o excesso de conservadorismo da versão original:

2 2 ) 1 ( ) 1 ( r r r X c n X n F − − − = (5.2)

onde Fr segue uma distribuição Fn1,n2com n1 = (c – 1) e n2 = (c – 1)(n – 1) graus de liberdade.

A hipótese nula de que todos os algoritmos são iguais é rejeitada se o valor calculado por Fr

for maior do que o valor tabelado de 2 1,n

n

F , isto significa que Fr pertence à região crítica e

possui probabilidade menor do que o nível de significância desejado.

Quando a hipótese nula é rejeitada, a hipótese alternativa é aceita, indicando que pelo menos dois algoritmos são estatisticamente diferentes entre si. Nesse caso, prossegue-se com o teste para verificar quais pares de algoritmos são diferentes.

O Teste de Nemenyi (NEMENYI, 1963) é usado para identificar a diferença significativa entre os algoritmos quando todos são comparados entre si, ou seja, não há um algoritmo como referência com o qual os demais serão comparados. Nesse teste dois algoritmos i e j são considerados significativamente diferentes se as médias dos postos correspondentes (Ri e Rj) diferem pelo menos de uma diferença crítica igual a

(

)

n c c q CD 6 1 + = α (5.3)

onde os valores críticos qαsão baseados na distribuição t dividida por 2.

Na análise foram utilizados os resultados de cada base obtidos quando K é igual ao número de classes dos dados, já que se fossem utilizados os testes sobre a mesma base, mesmo com valores diferentes de K, os problemas não representariam amostras independentes, prejudicando o resultado do teste estatístico.

Além disso, como os algoritmos são executados sobre as mesmas bases de teste os experimentos são considerados dependentes, satisfazendo as restrições exigidas para o Teste

de Friedman. A análise estatística dos resultados é apresentada a seguir.

A Tabela 5.12 apresenta os valores médios do critério de avaliação SSE, encontrados com as dez execuções de cada algoritmo para cada base. O posto atribuído pelo Teste de

Friedman é apresentado entre parênteses e os postos médios na última linha da tabela.

Tabela 5.12 Comparação entre os algoritmos avaliados usando diferentes bases.

Base

Iris 73,48-(4) 78,63 (7) 73,63 (5) 72,87 (2) 72,90 (3) 75,76 (6) 72,86 (1) Wine 2,549E+06 (7) 2,134E+06 (3) 2,496E+06 (6) 2,237E+06 (4) 2,331E+06 (5) 2,120E+06 (2) 2,096E+06 (1) Veh. 4,974E+06 (7) 3,489E+06 (5) 4,301E+06 (6) 3,276E+06 (2) 3,286E+06 (3) 3,459E+06 (4) 3,226E+06 (1) Cloud 8,512E+06 (6) 6,762E+06 (4) 1,425E+07 (7) 5,719E+06 (3) 5,350E+06 (2) 8,466E+06 (5) 5,228E+06 (1) Seg. 3,607E+07 (7) 1,400E+07 (4) 1,497E+07 (5) 1,297E+07 (3) 1,203E+07 (2) 1,673E+07 (6) 1,188E+07 (1) Spam 1,397E+09 (7) 8,98888E+08 (2,5) 9,478E+08 (5) 1,074E+09 (6) 8,98888E+08 (2,5) 9,166E+08 (4) 8,98883E+08 (1) Pen. 1,080E+08 (7) 4,574E+07 (5) 4,427E+07 (2) 4,537E+07 (4) 4,485E+07 (3) 5,163E+07 (6) 4,422E+07 (1) Letter 1,302E+06 (7) 555925,0 (5) 551063,0 (2) 554031,0 (3) 555722,0 (4) 647331,0 (6) 549394,0 (1) p.m. 6,500 4,437 4,750 3,375 3,062 4,875 1 kmeans (pca_part) Genético Genético Híbrido Hierarquico

Aglomerativo kmeans Tabu Search

kmeans (kmeans++)

A avaliação experimental com métodos estatísticos em múltiplos domínios consiste de duas etapas. A primeira etapa consiste em verificar a hipótese nula de que todos os algoritmos serem estatisticamente iguais com base nos resultados apresentados na Tabela 5.11. O resultado do Teste de Friedman realizado com os valores da Tabela 5.11, com nível de significância de 5%, indica que a hipótese nula pode ser rejeitada. Dessa forma a hipótese alternativa é aceita, ou seja, existe pelo menos um par de algoritmos estatisticamente diferentes.

A segunda etapa consiste em identificar quais pares de algoritmos possuem uma diferença significativa. Para o Teste de Nemenyi com nível de significância de 5% dois algoritmos são considerados diferentes, se a diferença entre as respectivas médias dos postos forem no mínimo igual a CD=2,948 7.8 6.8= 3,185. Assim, o teste reporta que o AGHA é

Aglomerativo (6,5 – 1 = 5,5 > 3,185), K-means inicializado aleatoriamente (4,4375 – 1 = 3,4375 > 3,185), Busca Tabu (4,75 – 1 = 3,75 > 3,185) e AG (4,875 – 1 = 3,875 > 3,185). Nos demais pares de algoritmos as diferenças são menores do que a diferença crítica CD, portanto nada se pode concluir, nem que são iguais e nem que são diferentes.

No Teste de Nemenyi quanto maior a amostra de dados do experimento, ou seja, quanto maior o número de problemas n, mais preciso é o resultado estatístico obtido pelos testes. Com o intuito de aumentar a eficácia do teste estatístico foram criadas 15 bases sintéticas, conforme descrito anteriormente. A seguir são apresentados os resultados com as bases sintéticas.