Metodologia de Avaliac¸˜ao - Seleção de atributos via agrupamento

A avaliação dos algoritmos de Seleção de Atributos (SA) foi realizada considerando os seguintes critérios:

1. Erro obtido por um classificador induzido a partir do subconjunto de atributos selecionados.

http://www.natcomp.com.br

2_{http://rtw.ml.cmu.edu}

2. N´umero de atributos selecionados;

3. Custo computacional envolvido naSA.

Para estimar a taxa de erro obtida pelos classificadores foi utilizado o procedimento de validação cruzada estratificada de 10 pastas (stratified 10-fold cross validation) (ver Seção1.3), em que aSA é aplicada apenas nos dados do conjunto de treinamento (Reunanen et al., 2003; Singhi e Liu, 2006). Esse procedimento é utilizado para simular uma aplicação real, e assim obter resultados com menor viés em relação à amostra de dados dispon´ıvel. Uma iteração da validação cruzada é descrita na Figura4.1. Para avaliar os subconjuntos selecionados pelos algoritmos foram utilizados dois algoritmos de classificação amplamente utilizados na literatura e na prática de mineração de dados (Wu et al., 2008), a saber: k-Nearest Neighbors (KNN) (Aha et al.,1991) e Na¨ıve Bayes (NB) (Witten e Frank, 2005). Foi utilizada a implementação dos dois classificadores dispon´ıveis no sistema Waikato Environment for Knowledge Knowledge

Analysis(WEKA) (Witten e Frank,2005) com seus parˆametros default.

Figura 4.1: Uma iteração de validação cruzada com a seleção de atributos integrada.

Para facilitar a comparação entre os métodos deSAfoi utilizado o modelo de comparação proposto por Lee(2005), o qual permite realizar uma análise sumarizada dos resultados obti- dos. Nesta abordagem multicritério, o desempenho de cada método é avaliado utilizando-se um gráfico bidimensional, no qual são representados: o erro obtido por um classificador induzido pelo subconjunto de atributos selecionados e a porcentagem de atributos selecionados. Neste gráfico, o Eixo “x” representa à média do erro obtido e o Eixo “y” a porcentagem de atributos selecionados em relação ao total de atributos (Lee, 2005). O modelo do gráfico está ilustrado na Figura4.2. Nesta, ECM é definido como o menor valor entre 50% e o erro obtido classifi- cando todos os objetos como pertencentes à classe majoritária, e ESA é definido como o erro obtido pelo classificador utilizando todos os atributos. Por fim, os métodos têm seu desempenho categorizado (através dos s´ımbolos entre parênteses) em uma das 5 regiões demarcadas no gráfico:

• Ruim (H): indica que a redução no erro em relação ao ECM não foi satisfatória em relação ao número de atributos selecionados;

4.2 Metodologia de Avaliac¸˜ao 33

Figura 4.2: Avaliação de seleção de atributos multicritério proposta em (Lee,2005).

• Regular (⋄): indica que foram selecionados menos que 50% dos atributos, porém a redução no erro em relação ao ECM não foi satisfatória;

• Bom (N): indica que foram selecionados mais que 50% dos atributos, porém o aumento no erro em relação ao ESA foi aceitável;

• Muito Bom (NN): indica que menos de 50% dos atributos foram selecionados e o aumento no erro em relação ao ESA foi aceitável;

• Excelente (NNN): indica que o método conseguiu reduzir o erro em relação ao ESA, independentemente do número de atributos selecionados.

Os critérios adotados para categorizar o desempenho de cada método podem ser considera- dos subjetivos. No entanto, tais critérios são razoáveis e muito úteis, para fim de sumarização de resultados a serem apresentados, neste contexto, serão adotados nesta dissertação.

Para avaliar com certa evidência estat´ıstica o efeito da seleção de atributos em um classificador é usual o uso de testes de hipóteses (Liu e Motoda,1998). Neste sentido foi utilizado neste trabalho o procedimento descrito porDemˇsar(2006), que consiste na aplicação dos testes não- paramétricos3 _{de Friedman e de Nemenyi (Hollander e Wolfe,} _{1991). Para serem utilizados,}

ambos os testes estat´ısticos foram implementados em Java.

O teste de Friedman verifica a hipótese de que não há diferença entre os efeitos causados pelos métodos de seleção de atributos. Quando o teste rejeita esta hipótese, é assumida a hipótese alternativa de que ao menos dois dos métodos de seleção de atributos avaliados tem efeitos dife- rentes (Hollander e Wolfe,1991). Para a aplicação do teste é necessário que os métodos sejam

ordenados de acordo com seu efeito, i.e., o método com melhor efeito sobre o critério sendo avaliado, e.g., erro obtido em um classificador usando os atributos selecionados, é o número 1 do ranking, o segundo melhor o número 2 e assim por diante. No caso de empates, a média dos

ranks ´e utilizada (Demˇsar,2006). Sendori

j o ranking doj-ésimo método de seleção de atributos

nai-ésima base de dados, i.e., i ∈ {1, 2, . . . , D} e j ∈ {1, 2, . . . , K}, a média dos rankings de um algoritmoj é dada por Rj = _D1 PD_i rij. O teste de Friedman se baseia na Equação (4.1)4,

tendo seu valor distribu´ıdo de acordo com a distribuic¸˜aoF com K_{− 1 e (K − 1)(D − 1) graus} de liberdade. FF = (D− 1)h 12D K(K+1) PK j=1R2j − K(K+1)2 4 i D(K_{− 1) −}h_K(K+1)12D PK j=1R2j − K(K+1)2 4 i (4.1)

Caso a hipótese nula (não há diferença entre os efeitos causados pelos métodos de seleção de atributos) seja rejeitada, torna-se necessário o uso de um teste post-hoc para fazer as comparações par-a-par a fim de detectar entre quais algoritmos existem diferenças (Demˇsar, 2006). Neste trabalho é utilizado o teste de Nemenyi para as comparações par-a-par. A diferença do efeito de dois métodos de seleção de atributos é dita estatisticamente significante se a diferença entre seus rankings, i.e., _|Ri − Rj|, é maior ou igual à diferença cr´ıtica dada

pela Equação (4.2), onde os valores qα são baseados na estat´ıstica de intervalo estudentizado

dividido por√2, de acordo com a Tabela4.1(Demˇsar,2006).

CD = qα r K(K + 1) 6D (4.2) No_{de M´etodos} ₂ ₃ ₄ ₅ ₆ ₇ ₈ ₉ ₁₀ q0,05 1,960 2,343 2,569 2,728 2,850 2,949 3,031 3,102 3,164 q0,10 1,645 2,052 2,291 2,459 2,589 2,693 2,780 2,855 2,920

Tabela 4.1: Valores cr´ıticos (qα) para o teste de Nemenyi (Demˇsar,2006).

Para as análises dos tempos computacionais de cada algoritmo serem coerentes, todos os experimentos foram executados no mesmo computador (Opteron 2GHz com 8Gb de RAM), executando apenas o Sistema Operacional em paralelo. Além disso, todos os algoritmos foram implementados em Java. Dessa forma, é poss´ıvel verificar a diferença em termos das constantes de tempo de cada algoritmo, omitidos nas análises assintóticas do custo computacional.

No documento Seleção de atributos via agrupamento (páginas 57-60)