Projeto de Pesquisa Universidade Federal de Pernambuco Centro de Informática

(1)

1

Projeto de Pesquisa

Universidade Federal de Pernambuco

Centro de Informática

Aluno

Diogo da Silva Severo

Orientador

George Darmiton da Cunha Cavalcanti

Tema do Projeto

Seleção de características Título Provisório

Seleção de atributos utilizando critérios multiobjetivos Áreas de concentração

(2)

2

Conteúdo

1. Introdução ... 3

2. Importância da Seleção de Atributos (justificativa) ... 5

3. Revisão de Literatura ... 5

4. Objetivos ... 14

5. Metodologia ... 14

6. Cronograma ... 15

(3)

3

1. Introdução

A tarefa de atribuir uma instância a uma determinada classe é diretamente afetada pela quantidade de dimensões que compõe a base de dados em questão e, além disso, é sabido que nem todas as dimensões (características) que formam o problema agregam valor discriminatório à tarefa de classificação. Logo, é de extrema importância escolher quais características são relevantes para o problema em questão e como será conduzido o processo de escolha das mesmas.

Em aprendizagem de máquina há uma área de pesquisa, denominada redução de características, dedicada inteiramente ao estudo de formas para redução do número de dimensões que descrevem os dados, proporcionando uma melhora na tarefa de classificação. O propósito da redução do número de dimensões é empregar poucas características para representar os dados e reduzir o custo computacional associado ao classificador sem, entretanto, perder a capacidade discriminatória presente na base.

Redução de dimensão pode ser dividida em duas categorias [1]: transformação de características e seleção de características. Transformação de características constrói novas características através da projeção das características originais em um espaço de mais baixa dimensão sendo o PCA (Principal Component

Analysis) [2], um dos mais conhecidos exemplos de técnica de transformação de

característica. Já seleção de características é o processo de escolha de um subconjunto do conjunto de características originais segundo algum critério ou mesmo múltiplos critérios. Como exemplos de técnicas de seleção de características, pode-se citar a RELIEF [3] e a DMIFS [4] dentre outros.

(4)

4 Dentre as métricas utilizadas para medir a importância de um atributo, destacam-se [5]:

 Métricas baseadas em informação - Determinam o ganho de informação de um atributo. Isto é, o ganho de informação diante a ausência ou presença do mesmo na base de dados. Como exemplo de medida de informação tem-se a entropia.

 Métricas baseadas em distância - Definem a diferenciação entre as classes baseando-se em alguma medida de distância (distância Euclidiana, por exemplo).

 Métricas baseadas em dependência - Considera-se a correlação entre os atributos, ou seja, quantificam o quão fortemente duas variáveis estão associadas ou correlacionadas uma com a outra. Como exemplo tem-se o coeficiente de correlação de Pearson

 Métricas baseadas em consistência - Buscam manter a consistência entre os atributos. A inconsistência entre atributos pode ser definida como a existência de atributos com valores muito semelhantes, mas pertencentes a classes distintas.

 Métricas de precisão - Algoritmos de aprendizagem de máquina são usados para selecionar diferentes subconjuntos de dados. O subconjunto que apresentar maior precisão ao problema será definido como subconjunto ideal.

(5)

5

2. Importância da Seleção de Atributos (justificativa)

Com o surgimento de bases de dados com muitos atributos, a tarefa de selecionar atributos tornou-se uma importante área de pesquisa. Na maior parte dos casos, o desempenho de um algoritmo de aprendizado de máquina é deteriorado pelo aumento da razão entre o número de atributos e o número de instâncias. Assim, a tarefa de identificar quais atributos são de fato relevantes para a tarefa de classificação se mostra como um ponto crucial no processo de descoberta de conhecimento em grandes bases de dados.

A seleção de atributos é uma etapa da fase de descoberta de conhecimento em base dados, KDD (Knowledge Discovery in Databases) [5]. O objetivo da seleção de atributos é escolher um subconjunto de atributos (variáveis ou ainda características) a fim de reduzir a dimensão da base de dados. Com a redução da dimensão da base, a complexidade presente nos dados é reduzida bem como o tempo de processamento (custo computacional) necessário para extrair algum conhecimento relevante para análise do problema em questão.

Além da redução conseguida pela aplicação de técnicas de seleção de atributos durante a fase de pré-processamento, atributos irrelevantes para análise do problema em questão (ruídos) ou ainda outliers (valores discrepantes em relação à maioria dos padrões presentes na base) são eliminados não atrapalhando assim o resultado final realizado pelo classificador. Portanto, seleção de características é um importante tópico em aprendizagem de máquina especialmente quando lidamos com grandes bases de dados.

3. Revisão de Literatura

(6)

6 Em problemas de biologia computacional e processamento de imagens, por exemplo, onde a quantidade de atributos a ser analisada pode chegar a milhares, o uso de técnicas de seleção de características passou a ser tido como uma das etapas de pré-processamento imprescindíveis antes da resolução do problema em sim feito através de classificadores. Abaixo contam alguns trabalhos científicos que fazem uso de algoritmos de seleção de características

A practical approach to feature selection

Uma técnica de seleção de características tida como clássica foi proposta por Kenji Kira e Larry A. Rendell em 1992 [3]. De lá para cá muitas foram as modificações feitas no algoritmo original e muitos foram os pesquisadores que usaram a técnica aqui analisada, de nome Relief, em seus trabalhos.

O relief é um método estatístico de seleção de características. Seu tempo de execução é linear sobre o número de características e instâncias de treinamento. Apesar do relief não encontrar o menor subconjunto de características relevantes, o conjunto gerado tende a ser pequeno e contém boa parte da informação relevante à tarefa de classificação existente na base. É considerado um algoritmo prático e tem como vantagens bons tempos de execução e seleção.

As limitações do relief são: serve apenas para problemas de duas classes, não apresenta bons resultados com um conjunto de treinamento insuficiente e ele não trata características redundantes. Para problemas multi-classes, o relief é facilmente extensível, tratando um problema multi-classe de tal maneira que uma de suas classes seja positiva e todas as outras sejam negativas.

(7)

7 nulo) que contém a relevância de cada atributo. O vetor de relevância é atualizado iterativamente. Além disso, a técnica faz uso do vizinho positivo mais próximo e do vizinho negativo mais próximo a uma instância selecionada aleatoriamente a fim de calcular o vetor de relevância [3].

Feature selection with dynamic mutual information

Informação mútua [6] nada mais é que informação compartilhada pelas variáveis que compõem o conjunto de dados. Uma métrica usada no cálculo da informação mútua é a entropia associada a uma variável, que pode ser explicada como a incerteza associada àquela variável. A entropia para as classes que formam a base de dados é definida por:

 

_



 



   1 2 ( ) log c c P c P C H

Dado que S seja o conjunto de dados, P(c) é a probabilidade da ocorrência de um determinado valor para as diferentes classes que compõem o problema. Em um sistema de classificação, H(C) seria a incerteza inicial enquanto que a incerteza média depois de conhecer o vetor de características f (com N Componentes) é dada pela entropia condicional dada por:

)) | ( log ) | ( ( ) ( ( ) | ( 1 1 2P c f f c P f P F C H f c



     

Onde P(c|f) é a probabilidade condicional para a classe ‘c’ dada a valoração f do vetor de entrada F. No geral, a entropia condicional será menor ou igual à entropia inicial. Ela é igual, se e somente se há independência entre as características e a classe. Dessa forma, a informação mútua entre uma característica da base de dados e as classes é dada por:

(8)

8 Seja α = β(µ, C), onde α representa a base de dados, β representa o conjunto de instâncias que forma a base de dados, µ representa o vetor de características que forma uma instância de β e C representa a classe associada ao vetor µ. Seja também F o conjunto de características que forma a base de dados, S o conjunto de características selecionadas, Du o conjunto de instâncias não marcadas e Dl o conjunto de instâncias marcadas.

O algoritmo do DMIFS funciona de uma forma simples. Primeiro, estima-se a informação mútua para cada característica candidata em F com a classe C. Durante essa etapa de cálculo, a característica será imediatamente descartada se o seu valor tiver valor zero.

Depois desse passo, a característica com maior valor de informação mútua será escolhida. Com a característica f de maior valor de informação mútua em mãos, procede-se ao passo de induzir instâncias do conjunto Du para o conjunto Dl através

de f com o uso de um classificador, que para esse artigo foi adotado o K-NN [7] (com K assumindo valor um). Nessa etapa de indução de instâncias, os padrões de Du classificados corretamente são removidos de Du e passados para Dl.

(9)

9

A two-stage feature selection method for text categorization

Seleção de características para classificação de texto é um problema muito estudado e os objetivos são melhorar a eficácia durante a classificação, diminuir o custo computacional ou ambos. O método em análise propõe um algoritmo de seleção de características formados por dois estágios baseado em um método de seleção de características comum combinado com o método de indexação semântica latente [8].

Tradicionalmente, o casamento de palavras baseado em um sistema de categorização de texto usa um modelo de espaço vetorial para representar o documento. Entretanto, essa forma de categorização requer espaços de alta dimensionalidade não levando em conta a relação semântica entre os termos que compõem o documento. Indexação semântica latente usa a técnica de decomposição de valores singular para decompor uma grande matriz que contém os termos do documento em um conjunto de K fatores ortogonais para contornar o problema de alta dimensionalidade.

(10)

10

Text feature selection using ant colony optimization

Um dos problemas no qual seleção de características é essencial é o problema de categorização de texto devido a espaços de alta dimensionalidade. Muitos métodos de seleção de características têm sido usados nesses problemas. Com o intuito de melhorar a performance de categorização de texto, o artigo em questão apresenta um novo algoritmo de seleção de características que é baseado na otimização por colônia de formigas (método bio-inspirado). Otimização por colônia de formigas baseia-se na busca de caminhos mais curtos, pelas formigas, em direção às fontes de comida [9].

Tipicamente, um sistema de categorização de texto consiste de muitas partes essenciais incluindo extração e seleção de características. Depois da etapa de pré-processamento dos documentos de texto, a extração de características é usada para transformar a entrada (documentos de texto) em um vetor de características (termos dos documentos). A partir daí, técnicas de seleção de características são usadas para reduzir a dimensão do espaço de características gerado.

A otimização por colônias de formigas é usada para explorar o espaço de todos os subconjuntos que formam o espaço de busca. A performance dos subconjuntos de características selecionados é medida através de uma função de avaliação previamente definida. O melhor subconjunto é então retornado pelo método. Em linhas gerais o método é estruturado da seguinte forma:

1. Inicialização - Determina a população inicial de formigas, o número máximo de iterações permitido e inicializa o valor do ferormônio associado a cada característica

2. Avaliação das soluções candidatas (formigas) - Associa, aleatoriamente, cada formiga a uma característica. O critério de avaliação é o erro médio quadrático (MSE) do classificador. Se uma formiga não for capaz de diminuir o MSE em dez iterações seguidas, ela é removida do espaço de soluções

(11)

11 tamanho do vetor de características. Então, seleciona-se o melhor subconjunto

4. Checar critério de parada - Termina o processo se o número de iterações é maior que o máximo permitido, caso contrário continua 5. Atualiza o ferormônio - Decrementa a concentração de ferormônio nos

nodos e permite que a melhor solução (formiga) deposite ferormônio adicional nos nodos

6. Geração de novas formigas - formigas antigas são removidas e novas são geradas

7. Ir para o passo 2 e continuar o processo

A performance do algoritmo foi comparada aos desempenhos de algoritmos genéticos e ao ganho de informação para a tarefa de seleção de características, apresentando superioridade [9].

RELIEF-C: Efficient feature selection for clustering over noisy data

Relief é um algoritmo de seleção de características muito eficiente e extremamente popular desenvolvido pela primeira vez em 1992 por Kira e Rendell [3]. Desde então, muitas foram as modificações propostas em várias vertentes para torná-lo mais eficiente. Porém, o relief original e todas as suas variações trabalham apenas com dados rotulados, ou seja, onde a informação da classe está disponível. O artigo em questão propõe uma nova variação do relief para tratar dados não rotulados a fim de selecionar características relevantes para clustering. O algoritmo foi batizado então de Relief-C [10].

(12)

12 aos grupos gerados. Como o problema passa a ser rotulado, emprega-se o relief aos dados agora com a informação da classe à qual pertencem a fim de atualizar os pesos de todas as características (passo do relief original). Esses passos são repetidos até que seja atingido o critério de parada.

Os autores compararam o relief-c com dois métodos de seleção de características para clustering e comprovaram que o relief-c supera os outros métodos significativamente quando aplicado a bases sintéticas e a bases de dados reais sobretudo quando os dados apresentam ruídos e/ou muitas características irrelevantes [10].

Exploitation of multivalued type proximity for symbolic feature selection

Desde os primeiros trabalhos descrevendo os princípios básicos da área de análise de dados [11], muitos pesquisadores têm trabalhado na elaboração de várias técnicas de aprendizagem de máquina, existentes até então apenas para dados clássicos, específicas para dados simbólicos.

O artigo em questão busca avaliar o desempenho do uso de um novo método de seleção de características para dados intervalares. Para isso, o autor faz uso de uma nova medida de proximidade multivalorada simbólica não simétrica proposta por Guru et al [12]. Embora essa medida trabalhe com dados simbólicos, o grau de similaridade entre dois padrões simbólicos é dito crisp (valor real) e simétrico. A nova medida de similaridade usada no artigo não obrigatoriamente é simétrica.

(13)

13 realizados sobre quatro bases bastantes conhecidas e utilizadas na área de análise de dados simbólicos e os resultados de testes estatísticos mostraram que a técnica foi eficaz ao selecionar as características mais proeminentes da base original [13].

Improving dynamic facial expression recognition with feature subset selection

O artigo aborda o reconhecimento de expressões faciais dinâmicas em vídeos usando para isso técnicas de seleção de características. Seleção de características já tem sido usada por classificadores estáticos onde a expressão facial é reconhecida de uma única imagem. Trabalhos passados em reconhecimento de expressão facial dinâmica enfatizaram assuntos relacionados à extração de características e classificação, entretanto, pouca atenção tem sido dada ao ponto crítico de seleção de características em cenários dinâmicos [14].

(14)

14

4. Objetivos

O objetivo geral desse trabalho é fazer um estudo sobre algoritmos de seleção de atributos presentes na literatura (avaliar estado da arte), propor novos algoritmos de seleção de atributos e/ou aprimorar algoritmos já existentes.

Os algoritmos a serem propostos e/ou os aprimoramentos dos algoritmos já existentes terão como objetivo principal superar, em termos de desempenho, os algoritmos já existentes, promovendo uma redução significativa tanto dos atributos que compõem o vetor de características de uma instância da base de dados quanto do custo computacional associado ao processo sem, entretanto, deteriorar o desempenho do classificador. Tem-se em vista também obter técnicas que sejam capazes de realizar tais feitos quando submetidas a ambientes onde haja uma grande quantidade de características irrelevantes ou onde haja presença de dados ruidosos.

Os novos algoritmos e/ou os aprimoramentos dos algoritmos já existentes serão validados em comparação com outras técnicas através da aplicação a problemas que sejam considerados benchmarks de aprendizagem de máquina. A validação dar-se-á através de testes estatísticos.

5. Metodologia

A metodologia proposta aqui é composta por cinco etapas: elaboração do plano da dissertação, desenvolvimento da dissertação, elaboração da dissertação, defesa da dissertação e artigos e apresentações científicas.

(15)

15 Feita a revisão bibliográfica e uma vez bem delimitado o escopo, terá início o desenvolvimento da nova técnica tento em vista os objetivos: selecionar um subconjunto com poucas características, reduzir o custo computacional de execução e apresentar boa performance diante de ambientes ruidosos. Após implementação da técnica, a mesma será validada com bases tidas como benchmark da área de aprendizagem de máquina a fim de mensurar sua performance. Além disso, a técnica será comparada com outros algoritmos de seleção, sob as mesmas condições experimentais (situação ideal), a fim de verificar sua superioridade (situação ideal).

6. Cronograma

Como o documento de especificação do SAAP pede um cronograma de atividades para os próximos seis meses, o cronograma abarcará apenas as três primeiras etapas da metodologia.

(16)

16

Referências Bibliográficas

[1] - Kohavi, R. and John, G.H. (1997) “Wrappers for feature selection”, In: Artificial Intelligence.

[2] - Jonathon Shlens. A tutorial on principal component analysis (v. 2), University of California, San Diego.

[3] - Kira, K. and Rendell, A. L. (1992) “A practical approach to feature selection”, In: Proceedings of the 9th International Conference on Machine Learning, Los Altos, CA. [4] - Batiti, R. (1994) “Using mutual information for selecting features in supervised neural net learning”, In: IEEE Transcations on Neural Networks.

[5] - Liu, H. e Motoda, H. (1998) “Feature selection for knowledge discovery and data minig”, Kluwer Academic Publishers, 244p.

[6] - Huawen, L., Jigui, S., Lei, L. and Huijie, Z. (2009) “Feature selection with dynamic mutual information”, Pattern Recognition Letters, vol. 42, pp. 1130-1339. [7] - Aha, D. and Kibler, D. (1991) “Instance-based learning algorithms”, In: Machine Learning.

[8] - Meng, J. and Lin, H. (2010) "A two-stage feature selection method for text categorization", Fuzzy systems and knowledge discovery (FSKD), 2010 Seventh International Conference on Fuzzy and Knowledge Discovery, vol. 4, pp. 1492-1496. [9] - Aghdam, M. H., Ghasem-Aghaee, N. and Basiri, M. E. (2009) "Text feature selection using ant colony optimization" Expert Systems with Applications, vol. 36, pp. 6843-6853.

[10] - Dash, M. and Ong, Y. (2011) "RELIEF-C: Efficient feature selection for clustering over noisy data", In: Proceedings of the 23th International Conference on Tools with Artificial Intelligence, pp. 869-872.

[11] - Bock, H. H. and Diday, E. (2000) "Analysis of symbolic data", Springer Verlag Publication.

[12] - Guru, D. S., Kiranagi, B. B. and Nagabhushan, P. (2004) "Multivalued type proximity measure and the concept of mutual similarity value for clustering symbolic patterns", Journal of Patterns Recognition Letters, vol. 25(1), pp. 1203-1213.

[13] - Kiranagi, B. B., Guru, D. S. and Ichino, M. (2007) "Exploitation of multivalued type proximity for symbolic feature selection", International Conference on Computing Theory and Applications (ICCTA'07), pp. 320-334.

(17)