• Nenhum resultado encontrado

3.4 Tarefas Comuns e Aplica¸c˜oes

3.4.2 Sele¸c˜ao de Atributos

A sele¸c˜ao de atributos possui por objetivo encontrar, dentre v´arios subconjuntos pos- s´ıveis de atributos, aquele que maximiza um determinado crit´erio de avalia¸c˜ao, eliminando

atributos irrelevantes e redundantes, al´em de ru´ıdo contido nos dados (Liu e Yu, 2005).

Segundo Guyon e Elisseeff (2003), a redu¸c˜ao do n´umero de atributos ´e desej´avel por ap-

resentar diversos benef´ıcios em potencial, dentre os quais destacam-se maior facilidade de visualiza¸c˜ao e compreens˜ao dos dados e diminui¸c˜ao nos tempos de treinamento e uti- liza¸c˜ao de algoritmos. Considerando os efeitos inerentes ao problema da maldi¸c˜ao da

dimensionalidade (Mitchell, 1997), a sele¸c˜ao de atributos pode ainda melhorar a acur´a-

cia de predi¸c˜ao dos modelos obtidos7, evitando o problema de superajuste aos dados de

treinamento (overfitting).

O superajuste aos dados de treinamento ocorre tipicamente quando o n´umero de ob-

jetos dispon´ıveis para a constru¸c˜ao de um classificador ´e pequeno, por´em descritos por uma grande quantidade de atributos (dimens˜oes). Nesses casos, encontrar uma fun¸c˜ao que separe perfeitamente os dados se torna mais f´acil (em virtude da grande quantidade de atributos dispon´ıveis), por´em tal fun¸c˜ao pode n˜ao se comportar bem durante a clas- sifica¸c˜ao de objetos n˜ao vistos durante a fase de constru¸c˜ao do modelo. Uma vez que enumerar todos os subconjuntos poss´ıveis de atributos torna-se impratic´avel quando o

n´umero de atributos cresce (para m atributos existem 2m subconjuntos poss´ıveis), diver-

sos m´etodos heur´ısticos de sele¸c˜ao de atributos tˆem sido desenvolvidos e empregados na pr´atica.

Os m´etodos de sele¸c˜ao de atributos existentes podem ser divididos em trˆes categorias (Guyon e Elisseeff, 2003), levando em conta a maneira com que o algoritmo de apren- dizado de m´aquina, que ser´a posteriormente utilizado, se relaciona com o m´etodo de sele¸c˜ao para a avalia¸c˜ao dos subconjuntos de atributos. Wrappers avaliam os subcon- juntos de atributos com a aplica¸c˜ao do pr´oprio m´etodo de aprendizado de m´aquina que ser´a posteriormente utilizado com os atributos selecionados para resolver o problema em quest˜ao, podendo este m´etodo ser visto como uma sub-rotina do processo de sele¸c˜ao de

atributos (Blum e Langley, 1997). Por empregarem como crit´erio de avalia¸c˜ao o pr´oprio

algoritmo que ser´a posteriormente utilizado durante a fase de an´alise, m´etodos perten- centes a essa categoria tipicamente possuem um maior custo computacional associado

7

(Liu e Yu,2005). Diferentemente dos wrappers, filtros selecionam atributos sem nenhuma participa¸c˜ao do algoritmo de aprendizado de m´aquina, de forma que a avalia¸c˜ao dos sub- conjuntos de atributos ´e feita exclusivamente com base em caracter´ısticas inerentes aos

dados (Liu et al.,2006). Devido `a sua baixa complexidade computacional (se comparado

`a maioria dos m´etodos classificados como wrappers), filtros tˆem ganhado grande aten¸c˜ao e tˆem sido a principal escolha para sele¸c˜ao de atributos em dados de microarray, como

apontado por Saeys et al. (2007). Por fim, m´etodos de sele¸c˜ao de atributos embarcados

(embedded ) s˜ao aqueles nos quais o subconjunto de atributos ´e selecionado como parte e durante a constru¸c˜ao do modelo de aprendizado de m´aquina, estando os crit´erios de se- le¸c˜ao intimamente relacionados com o algoritmo utilizado. Para uma revis˜ao e descri¸c˜ao

mais detalhada sobre m´etodos de sele¸c˜ao de atributos, podem ser consultadas (Langley,

1994), (Blum e Langley, 1997), (Guyon e Elisseeff, 2003) e (Liu e Yu, 2005).

Transportando os conceitos de sele¸c˜ao de atributos apresentados para dados de ex- press˜ao gˆenica, a principal aplica¸c˜ao de sele¸c˜ao de atributos ´e encontrada previamente `a tarefa de classifica¸c˜ao de diferentes condi¸c˜oes experimentais, a chamada sele¸c˜ao de genes. O processo de sele¸c˜ao de genes possui por objetivo encontrar genes informativos que expliquem ou permitam discriminar, de forma mais eficiente, diferentes condi¸c˜oes de amostras (e.g. c´elulas saud´aveis e cancerosas). Nesse sentido, a sele¸c˜ao de genes busca por genes que apresentem n´ıveis de express˜ao mais dissimilares sob diferentes condi¸c˜oes, juntamente com a identifica¸c˜ao e remo¸c˜ao de genes irrelevantes e redundantes entre si, de forma a permitir melhor discrimina¸c˜ao entre diferentes tipos de amostras.

Filtros de atributos baseados na ordena¸c˜ao de genes tˆem sido aplicados para a sele¸c˜ao

de genes informativos (Golub et al., 1999). M´etodos baseados nesse conceito criam uma

ordena¸c˜ao de genes de acordo com algum crit´erio, como, por exemplo, sua capacidade individual de discriminar entre classes, e possuem um baixo custo computacional asso- ciado. Mesmo selecionando os genes mais informativos, essa abordagem n˜ao considera

correla¸c˜oes entre genes, o que pode levar `a sele¸c˜ao de subconjuntos com n´umero elevado

de atributos, uma vez que as poss´ıveis redundˆancias entre estes n˜ao s˜ao consideradas

durante o processo de sele¸c˜ao. Como apontado por Li et al. (2004), grande parte dos

m´etodos aplicados durante a sele¸c˜ao de genes ignora suas poss´ıveis correla¸c˜oes. Dessa forma, a utiliza¸c˜ao de m´etodos que considerem tais correla¸c˜oes pode auxiliar na sele¸c˜ao

de melhores subconjuntos de genes (Dudoit et al., 2002).

M´etodos de sele¸c˜ao de atributos que consideram as redundˆancias existentes entre

genes tamb´em tˆem sido aplicados em bases de dados de express˜ao gˆenica. Guyon et al.

(2002) prop˜oem um wrapper de sele¸c˜ao de atributos combinando Support Vector Ma-

chines (SVMs) com elimina¸c˜ao recursiva de atributos e compara os resultados com o

m´etodo de ordena¸c˜ao de genes utilizado por (Golub et al.,1999), produzindo melhores re-

sultados. Ding e Peng(2005) prop˜oem o filtro chamado Minimum Redundancy - Maximum

Relevance (MRMR), o qual possui como objetivos minimizar a redundˆancia (correla¸c˜ao) entre genes e ao mesmo tempo maximizar sua relevˆancia para a distin¸c˜ao entre diferentes

classes. Os autores comparam os resultados de seu m´etodo com os resultados de m´etodos de ordena¸c˜ao comumente empregados para a sele¸c˜ao de genes, quanto `a acur´acia de clas- sifica¸c˜ao de diferentes m´etodos, e observam que, ao considerar a correla¸c˜ao entre genes, melhores acur´acias nos classificadores constru´ıdos foram obtidas, o que indica tamb´em um melhor subconjunto de genes. Mesmo considerando a correla¸c˜ao entre atributos, o m´etodo

de sele¸c˜ao proposto porDing e Peng (2005) (assim como os demais m´etodos baseados em

ordena¸c˜ao de atributos) demandam a escolha, por parte do usu´ario, do n´umero de atrib-

utos que ser˜ao posteriormente utilizados na constru¸c˜ao do modelo de classifica¸c˜ao, o que n˜ao ´e uma tarefa trivial. Uma compara¸c˜ao entre m´etodos comumente empregados de

sele¸c˜ao de genes por ordena¸c˜ao ´e realizada porLi et al.(2004) no contexto de classifica¸c˜ao

de tecidos, por´em nenhum m´etodo ´e identificado como melhor para a tarefa.

Mesmo sendo parte integrante da etapa de pr´e-processamento de dados, a qual n˜ao ´e o foco principal do presente trabalho, a sele¸c˜ao de atributos recebe aten¸c˜ao neste trabalho por dois motivos. O primeiro deles ´e que, em dados de express˜ao gˆenica, a quantidade de genes analisados ´e elevada. Em problemas de classifica¸c˜ao de amostras, a grande quanti- dade de genes (atributos) pode produzir efeitos negativos sob a acur´acia do algoritmo de classifica¸c˜ao utilizado, tornando a sele¸c˜ao de atributos um passo tipicamente necess´ario antes da aplica¸c˜ao de modelos de classifica¸c˜ao. O segundo motivo ´e que alguns dos al- goritmos de sele¸c˜ao de atributos existentes na literatura utilizam medidas de correla¸c˜ao entre atributos, o que se insere diretamente no escopo do presente trabalho. Al´em do uso de uma medida de correla¸c˜ao entre atributos, alguns destes algoritmos estimam de forma autom´atica o tamanho do subconjunto de atributos selecionados (ver, por exemplo, (Mitra et al., 2002), (Yu e Liu, 2003) e (Cov˜oes et al., 2009)), diferentemente dos m´eto-

dos de Guyon et al. (2002) e Golub et al. (1999), por exemplo. Uma vez que n˜ao h´a a

necessidade da escolha de um limiar para a defini¸c˜ao do n´umero de atributos selecionados

estes algoritmos tornam-se uma alternativa atrativa aos demais m´etodos j´a citados.

Documentos relacionados