• Nenhum resultado encontrado

Metodologia de Avaliac¸˜ao

No documento Seleção de atributos via agrupamento (páginas 57-60)

A avaliac¸˜ao dos algoritmos de Selec¸˜ao de Atributos (SA) foi realizada considerando os seguintes crit´erios:

1. Erro obtido por um classificador induzido a partir do subconjunto de atributos seleciona- dos.

1

http://www.natcomp.com.br

2http://rtw.ml.cmu.edu

2. N´umero de atributos selecionados;

3. Custo computacional envolvido naSA.

Para estimar a taxa de erro obtida pelos classificadores foi utilizado o procedimento de validac¸˜ao cruzada estratificada de 10 pastas (stratified 10-fold cross validation) (ver Sec¸˜ao1.3), em que aSA ´e aplicada apenas nos dados do conjunto de treinamento (Reunanen et al., 2003; Singhi e Liu, 2006). Esse procedimento ´e utilizado para simular uma aplicac¸˜ao real, e assim obter resultados com menor vi´es em relac¸˜ao `a amostra de dados dispon´ıvel. Uma iterac¸˜ao da validac¸˜ao cruzada ´e descrita na Figura4.1. Para avaliar os subconjuntos selecionados pelos algoritmos foram utilizados dois algoritmos de classificac¸˜ao amplamente utilizados na literatura e na pr´atica de minerac¸˜ao de dados (Wu et al., 2008), a saber: k-Nearest Neighbors (KNN) (Aha et al.,1991) e Na¨ıve Bayes (NB) (Witten e Frank, 2005). Foi utilizada a implementac¸˜ao dos dois classificadores dispon´ıveis no sistema Waikato Environment for Knowledge Knowledge

Analysis(WEKA) (Witten e Frank,2005) com seus parˆametros default.

Figura 4.1: Uma iterac¸˜ao de validac¸˜ao cruzada com a selec¸˜ao de atributos integrada.

Para facilitar a comparac¸˜ao entre os m´etodos deSAfoi utilizado o modelo de comparac¸˜ao proposto por Lee(2005), o qual permite realizar uma an´alise sumarizada dos resultados obti- dos. Nesta abordagem multicrit´erio, o desempenho de cada m´etodo ´e avaliado utilizando-se um gr´afico bidimensional, no qual s˜ao representados: o erro obtido por um classificador induzido pelo subconjunto de atributos selecionados e a porcentagem de atributos selecionados. Neste gr´afico, o Eixo “x” representa `a m´edia do erro obtido e o Eixo “y” a porcentagem de atributos selecionados em relac¸˜ao ao total de atributos (Lee, 2005). O modelo do gr´afico est´a ilustrado na Figura4.2. Nesta, ECM ´e definido como o menor valor entre 50% e o erro obtido classifi- cando todos os objetos como pertencentes `a classe majorit´aria, e ESA ´e definido como o erro obtido pelo classificador utilizando todos os atributos. Por fim, os m´etodos tˆem seu desempe- nho categorizado (atrav´es dos s´ımbolos entre parˆenteses) em uma das 5 regi˜oes demarcadas no gr´afico:

• Ruim (H): indica que a reduc¸˜ao no erro em relac¸˜ao ao ECM n˜ao foi satisfat´oria em relac¸˜ao ao n´umero de atributos selecionados;

4.2 Metodologia de Avaliac¸˜ao 33

Figura 4.2: Avaliac¸˜ao de selec¸˜ao de atributos multicrit´erio proposta em (Lee,2005).

• Regular (⋄): indica que foram selecionados menos que 50% dos atributos, por´em a reduc¸˜ao no erro em relac¸˜ao ao ECM n˜ao foi satisfat´oria;

• Bom (N): indica que foram selecionados mais que 50% dos atributos, por´em o aumento no erro em relac¸˜ao ao ESA foi aceit´avel;

• Muito Bom (NN): indica que menos de 50% dos atributos foram selecionados e o au- mento no erro em relac¸˜ao ao ESA foi aceit´avel;

• Excelente (NNN): indica que o m´etodo conseguiu reduzir o erro em relac¸˜ao ao ESA, independentemente do n´umero de atributos selecionados.

Os crit´erios adotados para categorizar o desempenho de cada m´etodo podem ser considera- dos subjetivos. No entanto, tais crit´erios s˜ao razo´aveis e muito ´uteis, para fim de sumarizac¸˜ao de resultados a serem apresentados, neste contexto, ser˜ao adotados nesta dissertac¸˜ao.

Para avaliar com certa evidˆencia estat´ıstica o efeito da selec¸˜ao de atributos em um classifica- dor ´e usual o uso de testes de hip´oteses (Liu e Motoda,1998). Neste sentido foi utilizado neste trabalho o procedimento descrito porDemˇsar(2006), que consiste na aplicac¸˜ao dos testes n˜ao- param´etricos3 de Friedman e de Nemenyi (Hollander e Wolfe, 1991). Para serem utilizados,

ambos os testes estat´ısticos foram implementados em Java.

O teste de Friedman verifica a hip´otese de que n˜ao h´a diferenc¸a entre os efeitos causados pe- los m´etodos de selec¸˜ao de atributos. Quando o teste rejeita esta hip´otese, ´e assumida a hip´otese alternativa de que ao menos dois dos m´etodos de selec¸˜ao de atributos avaliados tem efeitos dife- rentes (Hollander e Wolfe,1991). Para a aplicac¸˜ao do teste ´e necess´ario que os m´etodos sejam

ordenados de acordo com seu efeito, i.e., o m´etodo com melhor efeito sobre o crit´erio sendo avaliado, e.g., erro obtido em um classificador usando os atributos selecionados, ´e o n´umero 1 do ranking, o segundo melhor o n´umero 2 e assim por diante. No caso de empates, a m´edia dos

ranks ´e utilizada (Demˇsar,2006). Sendori

j o ranking doj-´esimo m´etodo de selec¸˜ao de atributos

nai-´esima base de dados, i.e., i ∈ {1, 2, . . . , D} e j ∈ {1, 2, . . . , K}, a m´edia dos rankings de um algoritmoj ´e dada por Rj = D1 PDi rij. O teste de Friedman se baseia na Equac¸˜ao (4.1)4,

tendo seu valor distribu´ıdo de acordo com a distribuic¸˜aoF com K− 1 e (K − 1)(D − 1) graus de liberdade. FF = (D− 1)h 12D K(K+1)  PK j=1R2j − K(K+1)2 4 i D(K− 1) −hK(K+1)12D PK j=1R2j − K(K+1)2 4 i (4.1)

Caso a hip´otese nula (n˜ao h´a diferenc¸a entre os efeitos causados pelos m´etodos de selec¸˜ao de atributos) seja rejeitada, torna-se necess´ario o uso de um teste post-hoc para fazer as comparac¸˜oes par-a-par a fim de detectar entre quais algoritmos existem diferenc¸as (Demˇsar, 2006). Neste trabalho ´e utilizado o teste de Nemenyi para as comparac¸˜oes par-a-par. A diferenc¸a do efeito de dois m´etodos de selec¸˜ao de atributos ´e dita estatisticamente significante se a diferenc¸a entre seus rankings, i.e., |Ri − Rj|, ´e maior ou igual `a diferenc¸a cr´ıtica dada

pela Equac¸˜ao (4.2), onde os valores qα s˜ao baseados na estat´ıstica de intervalo estudentizado

dividido por√2, de acordo com a Tabela4.1(Demˇsar,2006).

CD = qα r K(K + 1) 6D (4.2) Node M´etodos 2 3 4 5 6 7 8 9 10 q0,05 1,960 2,343 2,569 2,728 2,850 2,949 3,031 3,102 3,164 q0,10 1,645 2,052 2,291 2,459 2,589 2,693 2,780 2,855 2,920

Tabela 4.1: Valores cr´ıticos (qα) para o teste de Nemenyi (Demˇsar,2006).

Para as an´alises dos tempos computacionais de cada algoritmo serem coerentes, todos os experimentos foram executados no mesmo computador (Opteron 2GHz com 8Gb de RAM), executando apenas o Sistema Operacional em paralelo. Al´em disso, todos os algoritmos foram implementados em Java. Dessa forma, ´e poss´ıvel verificar a diferenc¸a em termos das constantes de tempo de cada algoritmo, omitidos nas an´alises assint´oticas do custo computacional.

No documento Seleção de atributos via agrupamento (páginas 57-60)