FEATURE SELECTION (SELEÇÃO DE RECURSOS) - 2 FUNDAMENTAÇÃO TEÓRICA

2 FUNDAMENTAÇÃO TEÓRICA

2.5 FEATURE SELECTION (SELEÇÃO DE RECURSOS)

A representação de dados brutos geralmente utiliza uma grande quantidade de recursos, dos quais apenas alguns são relevantes para o objetivo final de um determinado projeto de análise preditiva. Uma vez que muitos recursos são desconhecidos em problemas do mundo real, é necessário por parte dos modeladores introduzirem os chamados recursos candidatos (KENJI; RENDELL, 1992).

No Aprendizado de Máquina e Estatística, Feature Selection, também conhecido como seleção de variáveis, seleção de atributos ou seleção de subconjuntos de variáveis, é o processo de seleção de um subconjunto de recursos relevantes (variáveis e preditores) para uso na construção de modelos. O principal objetivo das técnicas que envolvem Feature Selection é selecionar um subconjunto 𝑑 de recursos a partir de um conjunto 𝐷 de dados, onde 𝑑 < 𝐷, sem que o sistema como um todo do modelo preditivo não seja influenciado negativamente (SOMOL et al., 1999). Ainda de acordo com Somol et al. (1999), supondo que uma função de critério adequada tenha sido escolhida para avaliar a eficácia dos subconjuntos de recursos, o processo de Feature Selection é reduzido a um problema de pesquisa que detecta um subconjunto de recursos ideal com base na medida selecionada. Portanto, alguns procedimentos computacionalmente viáveis projetados para evitar a busca exaustiva são essenciais.

Por essa razão, a questão do trade-off entre a otimização e a eficiência de algoritmos para Feature Selection é reconhecida na literatura. Como muitas técnicas de reconhecimento de padrões em dados não foram originalmente projetadas para lidar com grandes quantidades de recursos irrelevantes, combiná-las com outras técnicas tornou-se uma necessidade em muitas aplicações (GUYON; ELISSEEFF, 2003; LIU; YU, 2005). Os objetivos desta etapa na construção de modelos preditivos são diversos, sendo os mais importantes: (a) evitar overfitting e melhorar o desempenho do modelo, ou seja, desempenho de predição no caso de classificação supervisionada e melhor detecção de cluster no caso de clustering, (b) fornecer modelos mais rápidos e mais econômicos e (c) obter uma visão mais profunda dos processos subjacentes que geraram os dados (SAEYS; INZA; LARRAÑAGA, 2007).

No entanto, as vantagens das técnicas de Feature Selection têm um determinado preço, já que a pesquisa por um subconjunto de recursos relevantes introduz uma camada adicional de complexidade na tarefa de modelagem. Em vez de apenas otimizar os parâmetros do modelo para o subconjunto de recursos completo, agora é necessário também encontrar os parâmetros do modelo ideal para o subconjunto de recursos ideais, já que não há garantia de que os parâmetros ideais para o conjunto completo de recursos sejam igualmente ideais para o conjunto ideal (DAELEMANS et al., 2003). Como resultado, a busca no espaço de hipóteses do modelo é aumentada por outra dimensão: a de encontrar o subconjunto ótimo de características relevantes. As técnicas de Feature Selection diferem umas das outras na maneira como incorporam essa pesquisa no espaço adicional de subconjuntos de recursos na seleção de modelos (SAEYS; INZA; LARRAÑAGA, 2007).

Muitos algoritmos de Feature Selection incluem a classificação de recursos como um mecanismo de seleção principal ou auxiliar devido à sua simplicidade, escalabilidade e bom sucesso empírico (GUYON; ELISSEEFF, 2003). É possível encontrar na literatura diversos outros trabalhos que utilização a classificação de recursos como um método base (BEKKERMAN; TISHBY; WINTER, 2003; DE SA; CARUANA, 2003; FORMAN, 2003; WESTON et al., 2003).

Feature Selection pode ser dividida em vários subgrupos de diferentes perspectivas (GUYON; ELISSEEFF, 2003; KENJI; LARRY, 1992), sendo três principais abordagens definidas na literatura como: Feature subset selection, Nested subsets of features e Feature importance. O objetivo final do processo de Feature Selection é determinar qual das categorias acima é preferível. Quando a maximização do desempenho de um modelo de Aprendizado de Máquina é o único objetivo, os algoritmos de Feature subset selection seriam suficientes. Já os algoritmos de Nested substes of features, são úteis quando as informações sobre os valores de recursos e como se dão suas interações são desejáveis. Por sua vez, Feature importance é geralmente desejável quando o conhecimento sobre o valor discriminativo de recursos individuais é de interesse. Por exemplo, na medicina ou na bioinformática, quando cada característica corresponde a um teste médico, biométrico ou um gene, o resultado de um algoritmo Feature importance em si é de grande valor.

Ainda, as principais abordagens em processos de Feature Selection ainda podem ser organizadas em três categorias, sendo estas descritas na literatura como: filter, wrapper e embedded methods (SAEYS; INZA; LARRAÑAGA, 2007).

Filter methods avaliam a relevância das features procurando somente nas propriedades intrínsecas dos dados. Na maioria dos casos, uma pontuação de relevância da feature é calculada, sendo os que aquelas de baixa pontuação são removidos. Depois, esse subconjunto de features é apresentado como entrada para o algoritmo de classificação. As vantagens das técnicas de filtragem são que elas escalam facilmente para conjuntos de dados de dimensões muito altas, são computacionalmente simples e rápidas e são independentes do algoritmo de classificação. Como resultado, o processo de Feature Selection precisa ser executado apenas uma vez e, em seguida, diferentes classificadores podem ser avaliados (SAEYS; INZA; LARRAÑAGA, 2007).

Uma desvantagem comum dos métodos de filtragem é que eles ignoram a interação com o classificador (a busca no espaço de subconjunto de características é separada da busca no espaço de hipóteses) e as técnicas mais propostas são univariadas. Isso significa que cada recurso é considerado separadamente, ignorando assim as dependências de recursos, o que pode levar a um pior desempenho de classificação quando comparado a outros tipos de técnicas. Para superar o problema de ignorar as dependências de recursos, várias técnicas de filtros multivariados foram introduzidas, visando à incorporação de dependências de recursos em algum grau (SAEYS; INZA; LARRAÑAGA, 2007).

Enquanto que as técnicas de filtragem tratam o problema de encontrar subconjuntos de recursos independentemente da etapa de seleção de modelo, os chamados wrapper methods incorporam a pesquisa de hipóteses de modelo na pesquisa de subconjunto de recursos. Nesta configuração, um procedimento de pesquisa no espaço de possíveis subconjuntos de recursos é definido e vários subconjuntos de recursos são gerados e avaliados. A avaliação de um subconjunto específico de recursos é obtida treinando e testando um modelo de classificação específico, tornando essa abordagem adaptada a um algoritmo de classificação. Para pesquisar o espaço de todos os subconjuntos de recursos, um algoritmo de pesquisa é então "envolvido" em torno do modelo de classificação. No entanto, como o espaço de subconjuntos de recursos cresce exponencialmente com o número de recursos, diferentes heurísticas são usadas para guiar a pesquisa por um subconjunto ótimo. Esses métodos de busca podem ser divididos em duas classes: algoritmos de busca determinísticos e randomizados. As vantagens da abordagem wrapper incluem a interação entre a busca de subconjunto de recursos e a seleção de modelos, e a capacidade de levar em conta dependências de recursos. Uma desvantagem comum dessas técnicas é que elas têm um

risco maior de overfitting do que as técnicas de filtro e são muito intensivas em termos computacionais (SAEYS; INZA; LARRAÑAGA, 2007).

Em uma terceira classe de técnicas de Feature Selection, denominadas embedded methods, a procura por um subconjunto ótimo de recursos é incorporada na construção do classificador e pode ser vista como uma pesquisa no espaço combinado de subconjuntos e hipóteses de recursos. Assim como as abordagens wrapper, as abordagens incorporadas são, portanto, específicas de um determinado algoritmo de aprendizado. Os métodos incorporados têm a vantagem de incluir a interação com o modelo de classificação e, ao mesmo tempo, serem menos intensivos em termos computacionais do que os métodos de wrapper (SAEYS; INZA; LARRAÑAGA, 2007).

É importante salientar ainda que, nesta pesquisa, apesar de existirem outros métodos para selecionar as melhores features, optou-se por Feature Selection e não Feature Reduction (ou redução de dimensionalidade), por exemplo, justamente para que não existisse a opção de trabalhar com uma variável que, na verdade, é uma combinação de várias outras, perdendo assim explicabilidade.

2.6 CLASSIFICAÇÃO E REGRESSÃO EM MODELOS

No documento Lucas de Souza Silva (páginas 47-50)