Paradigmas para seleção de atributos - Conceitos Básicos em Seleção de Atributos

7.2 Conceitos Básicos em Seleção de Atributos

7.2.1 Paradigmas para selec¸˜ao de atributos

Algoritmos que realizam seleção de atributos podem ser classificados em três principais categorias, dependendo deles utilizarem ou não o algoritmo que constrói o modelo de predição no

96 CAPÍTULO 7. EXPERIMENTOS COM SELEÇ ÃO DE ATRIBUTOS

momento de selecionar os atributos (Kohavi & John, 1997): (i) abordagem filtro; (ii) abordagem

wrapper; e (iii) métodos embutidos (do inglês, embedded). Existem também abordagens h´ıbridas,

envolvendo mais de uma categoria ao mesmo tempo (Das, 2001; Liu & Yu, 2005).

∙ Abordagem Filtro

Os algoritmos pertencentes à primeira categoria são independentes do modelo que será empregado posteriormente. Esses algoritmos trabalham com propriedades estat´ısticas intr´ınsecas dos dados, como a correlação, informação mútua e entropia cruzada, na tentativa de identificar a relevância e/ou redundância de cada atributo.

Mesmo sem considerar o impacto do uso efetivo do subconjunto de atributos selecionados, a seleção é realizada com a expectativa de melhorar o desempenho e facilitar o treinamento do modelo. Por ela ser considerada como uma etapa de filtragem do conjunto de dados, vem a denominação filtro. O sucesso desse tipo de método geralmente decorre do fato de se utilizar uma medida de correlação linear/não-linear robusta, assim como uma estratégia de busca capaz de fugir de m´ınimos locais.

Uma vantagem dos algoritmos na categoria filtro é que a seleção de atributos precisa ser executada apenas uma vez e, então, diferentes modelos podem ser empregados. Outras vantagens são seu baixo custo computacional e sua capacidade de lidar com conjuntos de dados de dimensão elevada (Saeys et al., 2007). Algoritmos pertencentes a essa abordagem são muito utilizados atualmente, principalmente na estat´ıstica.

Uma desvantagem é que a abordagem filtro negligencia a interação com o modelo, o que não garante bons resultados finais para qualquer tipo de classificador ou regressor.

Desta forma, a abordagem filtro é mais indicada quando existe um interesse maior na obtenção de um conjunto de dados simplificado e quando os recursos computacionais dispon´ıveis são limitados em comparação com a dimensão do problema.

Exemplos cl´assicos de algoritmos nessa categoria s˜ao o FOCUS (Almuallim & Dietterich, 1991), o RELIEF (Kira & Rendell, 1992) e aqueles baseados no conceito de Markov blanket (Castro & Von Zuben, 2009b).

∙ Abordagem Wrapper

A abordagem wrapper seleciona atributos de acordo com sua utilidade para um dado modelo de predição. Para cada subconjunto de atributos a ser avaliado é treinado um classificador ou regressor, representando o modelo, e seu desempenho é utilizado como medida de qualidade desse subconjunto. O nome vem do fato do algoritmo envolver (do inglês, wrap) o modelo (classificador ou regressor) como parte do processo de seleção dos atributos.

7.3. EXPERIMENTOS COMPUTACIONAIS 97

Usualmente, os modelos empregados para avaliar subconjuntos de atributos, os quais exercem o papel de classificador ou regressor, são árvores de decisão (Bala et al., 1996), k-vizinhos mais próximos (Punch et al., 1993), sistemas de regras (Vafaie & DeJong, 1993), na¨ıve Bayes (Cantú-Paz, 2002), redes neurais (Brotherton & Simpson, 1995) e sistemas fuzzy (Castro et al., 2004).

Essa estrutura permite que as t´ecnicas wrappers busquem atributos que sejam relevantes para um modelo espec´ıfico. Desta forma, os resultados de um wrapper n˜ao possuem garantias de bom desempenho quando aproveitados para um outro tipo de modelo.

Esta abordagem requer maior esforço computacional que as técnicas da abordagem filtro, especialmente quando a construção do modelo é computacionalmente intensiva. Entretanto, resultados reportados na literatura indicam que ela apresenta melhor desempenho quando comparada com a abordagem filtro (Cantú-Paz, 2002). Um outro ponto desfavorável é a tendência de sobre-ajuste (overfitting) dos dados, principalmente quando o número de instâncias é pequeno.

Apesar das desvantagens, o uso da abordagem wrapper justifica-se devido ao seu objetivo primário: o de obter um subconjunto de atributos que seja o mais indicado para o modelo a ser empregado na resolução do problema. É importante ressaltar que, além de selecionar o subconjunto de atributos, a abordagem wrapper também permite obter o próprio modelo já treinado como consequência do processo de seleção de atributos.

O uso de wrappers é indicado para casos em que o número de amostras é reduzido e quando o modelo a ser empregado já está bem definido.

∙ M´etodos embutidos

Os métodos embutidos envolvem a seleção de atributos como parte integrante de algum algoritmo de aprendizado de máquina. Nesses algoritmos, o processo de seleção não é claramente diferenciável do treinamento do modelo e, assim como no caso da abordagem wrapper, os resultados obtidos são calibrados em relação a um classificador ou regressor espec´ıfico.

Esta classe de algoritmos é comparativamente pouco discutida na literatura geral de seleção de atributos. Os algoritmos possuem poucas propriedades em comum e, por isso, são melhor explorados na literatura de aprendizado de máquina. Exemplos de métodos embutidos são árvores de decisão, como o CART (Classification and Regression Trees), proposto por Breiman et al. (1984), e as Máquinas de Vetores-Suporte (Rakotomamonjy, 2003).

7.3 Experimentos Computacionais

Nesta seção, são descritos os experimentos realizados para avaliar a viabilidade dos algoritmos BAIS e MOBAIS na tarefa de seleção de atributos para problemas de classificação de padrões.

98 CAPÍTULO 7. EXPERIMENTOS COM SELEÇ ÃO DE ATRIBUTOS

Os experimentos estão divididos e serão apresentados em duas partes (Subseções 7.3.2 e 7.3.3). Em ambos os experimentos, foi utilizada a abordagem wrapper, ou seja, cada solução candidata foi avaliada mediante a acuidade de um classificador. A diferença é que, na primeira parte dos experimentos, a seleção de atributos é uma tarefa de otimização mono-objetivo (maximizar acuidade do classificador) e, portanto, o BAIS foi aplicado. Já na segunda parte, ela é multi-objetivo (maximizar acuidade do classificador e minimizar número de atributos selecionados) e, por isso, MOBAIS foi utilizado.

Os principais objetivos dos experimentos s˜ao: (i) analisar a escalabilidade dos algoritmos propostos quando aplicados a conjuntos de dados de alta dimens˜ao, e (ii) comparar os resultados obtidos com os resultados produzidos por outros algoritmos da literatura.

Nas subseções seguintes, são apresentados os conjuntos de dados utilizados e os resultados obtidos.

7.3.1 Descric¸˜ao dos conjuntos de dados

Foram considerados 10 problemas de classificac¸˜ao, obtidos do UCI Repository of Machine

Learning Databases (Asunci´on & Newman, 2007): WDBC, Bupa, Ionosphere, Pima, Wine, Iris,

Mushroom, Sonar, Card e Vote. Na Tabela 7.1, são apresentadas as caracter´ısticas de cada um deles, com número total de instâncias, número de atributos e número de classes. Estes conjuntos de dados são amplamente utilizados na literatura e, por isso, foram utilizados nos experimentos.

Tabela 7.1: Caracter´ısticas dos conjuntos de dados.

Conjunto de dados # Instˆancias # Atributos # Classes

WDBC 569 30 2 Bupa 345 6 2 Ionosphere 350 34 2 Pima 768 8 2 Wine 178 13 3 Iris 150 4 3 Mushroom 8124 22 2 Sonar 208 60 2 Card 690 15 2 Vote 435 16 2

Os atributos cont´ınuos foram discretizados usando um procedimento proposto por Dougherty et al. (1995), o qual aplica a métrica Comprimento M´ınimo de Descrição (MDL, do inglês Minimum

7.3. EXPERIMENTOS COMPUTACIONAIS 99

Bayes) pudesse manipular os dados de forma mais eficiente. Embora existam versões do na¨ıve Bayes para lidar tanto com atributos discretos como cont´ınuos, melhores desempenhos são obtidos quando os dados são discretizados (Dougherty et al., 1995).

Os conjuntos de dados foram testados utilizando a validação cruzada de 10 pastas. O conjunto de dados é dividido em 10 subconjuntos disjuntos de igual tamanho, sendo 9 subconjuntos para treinamento e 1 para teste. Esse procedimento é realizado dez vezes, permutando-se todos os subconjuntos. A capacidade de generalização do classificador é estimada tomando-se a média da taxa de classificação correta sobre os 10 subconjuntos de teste.

A validação cruzada de 10 pastas foi realizada 10 vezes. Portanto, os algoritmos foram executados 100 vezes e o resultado da classificação é a média sobre essas 100 execuções usando os conjuntos de teste.

No documento Synergy between artificial immune systems and probabilistic graphical models (páginas 113-117)