Testes Estatísticos - Otimização em comitês de classificadores: uma abordagem baseada em filtro

Tabela 6.2: Combinações dos classificadores base nos comitês Combinações J48 IBk MultilayerPerceptron

1 100% - - 2 - 100% - 3 - - 100% 4 33% 33% 33% 5 66% 33% - 6 66% - 33% 7 - 66% 33% 8 33% 66% - 9 33% - 66% 10 - 33% 66%

importância das metaheurísticas abordadas. Na execução dos comitês homogêneos (comitês formados por algoritmos de aprendizagem iguais) com as bases de dados originais, foram utilizados parâmetros distintos dos algoritmos de classificação para cada classificador, a fim de evitar a construção de classificadores idênticos. Os parâmetros foram definidos de acordo com a base de dados, executando-se várias configurações e escolhendo a melhor.

Dessa forma, foram construídos comitês com três, seis e doze classificadores base, utilizando 6 métodos de combinação: Soma, Soma Ponderada, Voto, Naive, KNN e SVM. Cada um desses sistemas de classificação foi executado com 10 combinações diferentes de classificadores base, Tabela 6.2.

6.5 Testes Estatísticos

Para comparar o desempenho dos sistemas implementados nesse trabalho será aplicado um teste estatístico para definir se a diferença no desempenho dos sistemas é estatisticamente significante. Em estatística diz-se que um resultado é significante se for improvável que tenha ocorrido por acaso, dessa forma, busca-se com a utilização de um teste estatís- tico, determinar se a diferença encontrada entre os sistemas indica uma real superioridade de um sistema em relação ao outro. Para isso formulam-se duas hipóteses, a primeira, hipótese nula, é tida como verdadeira até que as provas estatísticas indiquem o contrário.

6.5 Testes Estatísticos 102 A segunda, hipótese alternativa, deve ser antagônica, oposta à primeira. Dessa forma, as hipóteses sendo contraditórias não poderão ser simultaneamente verdadeiras. Para o problema proposto neste trabalho, as hipóteses levantadas são:

• Hipótese nula (H0): Não existe diferença estatística entre o desempenho dos sistemas,

ou seja, não pode-se dizer que um sistema seja estatisticamente superior ao outro; • Hipótese alternativa (H1): Os sistemas possuem desempenhos estatisticamente dife-

rentes, podendo-se dizer que um sistema é estatisticamente superior ao outro.

Deve-se levar em consideração que para a execução do teste estatístico deve-se definir previamente o nível de significância ou nível de confiança, que representa a probabilidade de que o resultado estatístico encontrado não seja verdadeiro. Em geral, são aceitos como significativos os níveis p = 0.05 e p = 0.01, ou seja, no caso de rejeitar-se a hipótese nula, o faz com 95% ou 99% de confiança sobre sua corretude.

Os testes estatísticos de hipótese se dividem em paramétricos e não paramétricos. Os primeiros utilizam os parâmetros de uma ou mais populações para o cálculo da estatística (a média, por exemplo) e pressupõem uma forma particular de distribuição populacional (como a normalidade, por exemplo). Já os testes não paramétricos são livres desses pressu- postos, porém são menos potentes que os teste paramétricos, isso quer dizer que os testes não paramétricos não encontram tantas diferenças entre os dados, quando essas diferenças realmente existem (CAçãO, 2010).

Tomando por base o Teorema Central do Limite (METHER, 2003) que diz que a forma

da distribuição amostral tende a ser normal na medida em que aumenta o tamanho da amostra, independentemente da forma da distribuição da população, ou seja, a média da distribuição amostral tende a ser igual a média populacional na medida em que o tamanho da amostra aumenta, o que garante a normalidade da distribuição, sendo n > 30 o tamanho da amostra suficiente para satisfazer esse teorema (JúNIOR, 2009;JAMES, 2004), foi adotado

um teste paramétrico chamado Análise de Variância, ANOVA (FISHER, 1990), visto que

o tamanho das amostras utilizadas nesse trabalho é de 600 para os sistemas com seleção de atributos (6 comitês, 10 combinações diferentes de classificadores base e 10 execuções de cada metaheurística) e 60 para os sistemas sem seleção de atributos (6 comitês e 10

6.5 Testes Estatísticos 103 combinações diferentes de classificadores base). Esse teste destina-se a comparar duas ou mais amostras independentes cujos dados devem ser mensurados em escala intervalar ou de razões. O resultado da análise de variância é traduzido no valor do F-test, que deve ser complementado com um exame a priori (Bonferroni) ou a posteriori (Tukey ou t-test). Para esse trabalho foi usado o t-test como complemento a posteriori com nível de significância igual a 5%. Essa análise estatística foi executada utilizando a ferramenta estatística BioEstat (AYRES et al., 2007), que retorna se o valor de p é inferior a 0.05,

devendo-se aceitar a hipótese alternativa, ou se p é não significativo, retornando o valor ns, devendo-se manter a hipótese nula.

104

Capítulo 7

Resultados dos Experimentos

7.1 Considerações Iniciais

Os resultados dos experimentos serão apresentados da seguinte forma: Em um primeiro momento serão apresentados os resultados dos sistemas de classificação para cada metaheu- rística separadamente (PSO, AG e ACO). Em cada uma dessas seções serão apresentadas quatro tabelas, na primeira encontram-se os resultados dos sistemas com seleção de atributos feita pelas metaheurísticas em suas duas versões mono-objetivo, sendo chamada de Inter a versão para minimização da correlação interclassificadores e de Intra a versão para minimização da correlação intraclassificadores. A segunda tabela apresenta os resultados dos sistemas com seleção de atributos feita pelas metaheurísticas em suas duas versões biobjetivo, para minimização simultânea das correlações inter e intraclassificadores.

O objetivo da análise nesse primeiro momento é comparar os melhores resultados mono- objetivo com os melhores resultados biobjetivo, definindo para cada método de seleção de atributos qual modelo, mono-objetivo ou biobjetivo, produz melhores resultados para o problema em questão, para isso, a terceira tabela compara o melhor resultado mono- objetivo com o melhor resultado biobjetivo. Tem-se também como objetivo nesse primeiro

7.1 Considerações Iniciais 105 momento, comparar os melhores resultados com seleção de atributos e os resultados sem seleção de atributos, para determinar se a seleção foi benéfica aos sistemas de classificação. Para isso, a quarta tabela compara o melhor resultado com seleção, dentre as quatro versões executadas (Inter, Intra, biobjetivo1 e biobjetivo2) e os resultados sem seleção de atributos, ou seja, com a base de dados completa.

O segundo momento dessa análise busca comparar as metaheurísticas utilizadas para seleção dos atributos, para isso serão apresentados os resultados das metaheurísticas agru- pados por objetivo: Inter (minimização da correlação interclassificadores); Intra (minimiza- ção da correlação intraclassificadores) e biobjetivo (minimização simultânea das correlações inter e intraclassificadores). Para os resultados biobjetivo serão utilizados para comparação os resultados da versão que tiver obtido melhor desempenho. Para esta análise serão apresentados também os resultados dos sistemas de classificação utilizando seleção de atributos feita por um método randômico, seleção de atributos aleatória.

Após a comparação das metaheurísticas, uma análise sobre a interseção dos atributos é feita para determinar se existe uma correlação entre a interseção de atributos nos subconjuntos selecionados e a acurácia do comitê, ou seja, determinar se a quantidade de atributos que se repetem em cada subconjunto influencia o desempenho do comitê, desde que isso poderia torná-lo menos diverso.

Cada tabela apresenta os resultados dos sistemas com três, seis e doze classificadores nas nove bases de dados. Cada um desses resultados representa a média de mais de 600 valores, a saber: 6 comitês de classificadores (Soma, Soma Ponderada, Voto, Naive Bayes, KNN e SVM), onde cada um foi executado com 10 combinações diferentes de classificadores base (ver Tabela 6.2). Além disso, como dito na Subseção 6.3.2 foram feitas 10 execuções de cada metaheurística para cada caso tratado, devido a aleatoriedade embutida nos métodos que retornam soluções diferentes a cada execução. No caso dos sistemas sem seleção de atributos, desconsidera-se as execuções das metaheurísticas, ou seja, foi realizada somente uma execução. Além disso, deve-se considerar para fins estatísticos que para cada algoritmo treinável foi executado o método 10 fold cross validation (ver Seção 2.4) para construção dos 3, 6 ou 12 classificadores base, além do método de combinação treinável, quando for o caso.

7.2 Resultados utilizando Nuvem de Partículas 106

No documento Otimização em comitês de classificadores: uma abordagem baseada em filtro para seleção de subconjuntos de atributos (páginas 122-127)