Abordagens baseadas em teoria da informação para seleção automatizada de atributos

(1)

Departmento de Informática e Matemática Aplicada Programa de Pós-Graduação em Sistemas e Computação

Mestrado Acadêmico em Sistemas e Computação

Abordagens baseadas em Teoria da Informação

para Seleção Automatizada de Atributos

Jhoseph Kelvin Lopes de Jesus

Natal-RN Setembro 2018

(2)

Abordagens baseadas em Teoria da Informação para

Seleção Automatizada de Atributos

Dissertação de Mestrado apresentada ao Pro-grama de Pós-Graduação em Sistemas e Computação do Departamento de Informá-tica e MatemáInformá-tica Aplicada da Universidade Federal do Rio Grande do Norte como re-quisito parcial para a obtenção do grau de Mestre em Sistemas e Computação.

Linha de pesquisa:

Processamento Gráfico e Inteligência Com-putacional

Orientadora e Coorientador

Dra. Anne Magály de Paula Canuto

Dr. Daniel Sabino Amorim de Araújo

PPgSC – Programa de Pós-Graduação em Sistemas e Computação DIMAp – Departamento de Informática e Matemática Aplicada

CCET – Centro de Ciências Exatas e da Terra UFRN – Universidade Federal do Rio Grande do Norte

Natal-RN Setembro 2018

(3)

Jesus, Jhoseph Kelvin Lopes de.

Abordagens baseadas em teoria da informação para seleção automatizada de atributos / Jhoseph Kelvin Lopes de Jesus. -2018.

107f.: il.

Dissertação (mestrado) - Universidade Federal do Rio Grande do Norte, Centro de Ciências Exatas e da Terra, Programa de Pós-Graduação em Sistemas e Computação. Natal, 2018.

Orientadora: Anne Magály de Paula Canuto. Coorientador: Daniel Sabino Amorim de Araújo.

1. Computação Dissertação. 2. Seleção de atributos -Dissertação. 3. Comitês de classificadores - -Dissertação. 4. Teoria da informação Dissertação. 5. Análise de dados -Dissertação. 6. Algoritmos de agrupamento - -Dissertação. 7. Fronteira de pareto - Dissertação. I. Canuto, Anne Magály de Paula. II. Araújo, Daniel Sabino Amorim de. III. Título. RN/UF/CCET CDU 004

Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Ronaldo Xavier de Arruda - CCET

(4)

(5)

(6)

Primeiramente, agradeço a Deus por me conceder o dom da vida e a oportunidade de diariamente viver esse sonho.

À minha família, por todo amor e carinho nos momentos difíceis, e por toda atenção e suporte para que fosse possível realizar esse mestrado.

À minha companheira, Priscilla, pela paciência em todo o processo que é fazer uma pós-graduação (mesmo passando pela mesma fase) e pelas palavras de motivação quando eu acreditei que não seria possível.

À minha orientadora, Anne Magály, por todo conhecimento compartilhado, pelos puxões de orelha e pela oportunidade de hoje estar escrevendo esse agradecimento. Seus conselhos certamente fizeram de mim, um pesquisador e uma pessoa melhor. Não tenho palavras para descrever o quão grato eu sou a você. Muito obrigado, professora!

À meu orientador, Daniel Sabino, por me aceitar como aluno de IC em meados de 2015, me dando a oportunidade de iniciar na pesquisa e a incentivar minha escolha sobre seguir na carreira acadêmica. Seus conselhos foram essenciais para que hoje eu pudesse estar aqui.

Agradeço aos meus amigos de jornada do PPgSC (Vânia, Carine, Bártira, Jéssica, Luana e Samuel), por todas os dias (e noites) trocando conhecimento (superando Algo-ritmos e Estrutura de Dados), enfrentando os obstáculos e, celebrando as conquistas dia a dia.

Agradeço ao CNPq pelo suporte financeiro fornecido, sem o mesmo não seria possível a dedicação na produção deste trabalho.

(7)

qual nos movemos." Oliver Wendell Holmes

(8)

Seleção Automatizada de Atributos

Autor: Jhoseph Kelvin Lopes de Jesus Orientador(a): Dra. Anne Magály de Paula Canuto Coorientador: Dr. Daniel Sabino Amorim de Araújo

Resumo

Com o rápido crescimento de dados complexos em aplicações do mundo real, a seleção de atributos se torna uma etapa de pré-processamento obrigatória em qualquer aplicação para reduzir a complexidade dos dados e o tempo computacional. Com base nisso, vários trabalhos têm desenvolvido métodos eficientes para realizar essa tarefa. A maioria das abordagens de seleção de atributos selecionam os melhores atributos baseado em alguns critérios específicos. Embora algum avanço tenha sido feito, uma má escolha de uma única abordagem ou critério para avaliar a importância dos atributos, e a escolha arbitrária dos números de atributos feita pelo usuário podem levar a uma queda de desempenho das técnicas. A fim de superar algumas dessas questões, este trabalho apresenta o desenvolvi-mento de duas vertentes de abordagens de seleção de atributos automatizadas. A primeira está relacionada a métodos de fusão de múltiplos algoritmos de seleção de atributos, que utilizam estratégias baseadas em ranking e comitês de classificadores para combinar algo-ritmos de seleção de atributos em termos de dados (Fusão de Dados) e de decisão (Fusão de Decisão), permitindo aos pesquisadores considerar diferentes perspectivas na etapa de seleção de atributos. A segunda vertente aborda o contexto de seleção dinâmica de atri-butos através da proposição do método PF-DFS, uma extensão do algoritmo de seleção dinâmica (DFS), usando como analogia a otimização multiobjetivo pela fronteira de pa-reto, que nos permite considerar perspectivas distintas da relevância dos atributos e definir automaticamente o número de atributos para selecionar. As abordagens propostas foram testadas usando diversas bases de dados reais e artificiais e os resultados mostraram que, quando comparado com métodos de seleção individuais, o desempenho de um dos métodos propostos é notavelmente superior. De fato, os resultados são promissores, uma vez que as abordagens propostas também alcançaram desempenho superiores quando comparados a métodos consagrados da redução de dimensionalidade, e ao usar os conjuntos de dados originais, mostrando que a redução de atributos ruidosos e/ou redundantes pode ter um efeito positivo no desempenho de tarefas de classificação.

Palavras-chave: Seleção de Atributos, Comitês, Teoria da Informação, Análise de Dados, Algoritmos de Agrupamento, Fronteira de Pareto.

(9)

Feature Selection

Author: Jhoseph Kelvin Lopes de Jesus Supervisor: Dra. Anne Magály de Paula Canuto Co-supervisor: Dr. Daniel Sabino Amorim de Araújo

Abstract

With the fast growing of complex data in real world applications, the feature selection becomes a mandatory preprocessing step in any application to reduce both the complexity of the data and the computing time. Based on that, several works have been produced in order to develop efficient methods to perform this task. Most feature selection methods select the best attributes based on some specic criteria. Although some advancement has been made, a poor choice of a single algorithm or criteria to assess the importance of at-tributes, and the arbitrary choice of attribute numbers made by the user may lead to poor analysis. In order to overcome some of these issues, this paper presents the development of two strands of automated attribute selection approaches. The first are fusion methods of multiple attribute selection algorithms, which use ranking-based strategies and clas-sifier ensembles to combine feature selection algorithms in terms of data (Data Fusion) and decision (Fusion Decision), allowing researchers to consider different perspectives in the attribute selection stage. The second strand approaches the dynamic feature selection context through the proposition of the PF-DFS method, an improvement of a dynamic feature selection algorithm, using the idea of Pareto frontier multiobjective optimization, which allows us to consider different perspectives of the relevance of the attributes and to automatically define the number of attributes to select. The proposed approaches were tested using several real and artificial databases and the results showed that when com-pared to individual selection methods, the performance of one of the proposed methods is remarkably higher. In fact, the results are promising since the proposed approaches have also achieved superior performance when compared to established dimensionality reduc-tion methods, and by using the original data sets, showing that the reducreduc-tion of noisy and/or redundant attributes may have a positive effect on the performance of classification tasks.

Keywords: Feature Selection, Ensembles,Information Theory, Data Analysis, Clustering Algorithms, Pareto Front.

(10)

1 Regiões de dominância, retirado de (PEREZ, 2012). . . p. 36

2 Fusão de Dados. . . p. 45 3 Fusão de Decisão. . . p. 49 4 Fase de Validação do DFS (NUNES et al., 2016). . . p. 53

5 Fase de Validação do PF-DFS. . . p. 54 6 Fase de Treino do DFS (NUNES et al., 2016). . . p. 54

7 Fase de Treino do PF-DFS. . . p. 55 8 Fase de Teste do DFS e PF-DFS. . . p. 55

(11)

1 Descrição das Bases de Dados. . . p. 61 2 Número de atributos para as versões de tamanho: Máximo e Média . . p. 66 3 Resultados da Análise Comparativa entre os Métodos de Fusão,

Algorit-mos de Redução Existentes e No-FS . . . p. 68 4 Resultados dos Testes Estatísticos da Análise Comparativa dos

Métodos de Fusão. 1 Fusão de Decisão, 2 Fusão de DaMétodos, 3 PCA, 4

-RANDOM e 5 - No-FS . . . p. 70 5 Resultados utilizando Diferentes Medidas no DFS . . . p. 72 6 Resultados dos Testes Estatísticos do DFS utilizando Diferentes Medidas

de Avaliação. 1 - DFS-M, 2 - DFS-K, 3 - DFS-S . . . p. 73 7 Resultados utilizando Diferentes Tamanhos nas Partições de Treino e

Validação . . . p. 75 8 Resultados dos Testes Estatísticos do DFS-M utilizando Diferentes

Ta-manhos de Partição. 1 - M(8T1V), 2 - M(7T2V), 3 -

DFS-M(6T3V), 4 - DFS-M(5T4V) . . . p. 76 9 Resultados utilizando Diferentes Medidas de Avaliação . . . p. 77 10 Resultados dos Testes Estatísticos do PF-DFS utilizando Diferentes

Me-didas de Avaliação. 1 - PF-DFS(MKS), 2 - PF-DFS(MK), 3 - PF-DFS(MS), 4 - PF-DFS(KS) . . . p. 78 11 Resultados comparando o PF-DFS(MI,KD,SC) e o DFS . . . p. 79 12 Resultados dos Testes Estatísticos Comparando o PF-DFS(MI,KD,PC)

com todas as versões do DFS. 1 PFDFS(MKS), 2 DFS(MMED), 3 -DFS(M-MAX), 4 - DFS(K-MED), 5 - DFS(K-MAX), 6 - DFS(S-MED),

(12)

tentes e No-FS . . . p. 82 14 Resultado dos Testes Estatísticos usando diferentes Algoritmos de

Redução de Dimensionalidade. 1 PFDFS(MKS), 2 PCA(MED), 3

-PCA(MAX), 4 - RANDOM(MED), 5 - RANDOM(MAX), 6 - No-FS . p. 83 15 Resultados da Análise Comparativa entre os Métodos de Fusão,

Algorit-mos de Redução Existentes e No-FS - Árvore de Decisão . . . p. 92 16 Resultados da Análise Comparativa entre os Métodos de Fusão,

Algorit-mos de Redução Existentes e No-FS - k-NN . . . p. 93 17 Resultados da Análise Comparativa entre os Métodos de Fusão,

Algorit-mos de Redução Existentes e No-FS - SVM . . . p. 94 18 Resultados utilizando Diferentes Medidas de Avaliação no DFS - Árvore

de Decisão . . . p. 95 19 Resultados utilizando Diferentes Medidas de Avaliação no DFS - k-NN p. 96 20 Resultados utilizando Diferentes Medidas de Avaliação no DFS - SVM . p. 97 21 Resultados utilizando Diferentes Tamanhos nas Partições de Treino e

Validação - Árvore de Decisão . . . p. 98 22 Resultados utilizando Diferentes Tamanhos nas Partições de Treino e

Validação - k-NN . . . p. 99 23 Resultados utilizando Diferentes Tamanhos nas Partições de Treino e

Validação - SVM . . . p. 100 24 Resultados utilizando Diferentes Medidas de Avaliação - Árvore de Decisãop. 101 25 Resultados utilizando Diferentes Medidas de Avaliação - k-NN . . . p. 102 26 Resultados utilizando Diferentes Medidas de Avaliação - SVM . . . p. 103 27 Resultados comparando o PF-DFS(MI,KD,SC) e o DFS - Árvore de Decisãop. 104 28 Resultados comparando o PF-DFS(MI,KD,SC) e o DFS - k-NN . . . . p. 105 29 Resultados comparando o PF-DFS(MI,KD,SC) e o DFS - SVM . . . . p. 105 30 Resultados da Análise Comparativa com Algoritmos de Redução

(13)

tentes e No-FS - k-NN . . . p. 107 32 Resultados da Análise Comparativa com Algoritmos de Redução

(14)

AM - Aprendizado de Máquina PCA - Principal Component Analysis SVM - Support Vector Machine kNN - k-Nearest Neighbors MI - Mutual Information

KD - Kullback-Leibler Divergence SP - Spearman Correlation

PF-DFS - Pareto Front- Dynamic Feature Selection DFS - Dynamic Feature Selection

QPFS - Quadratic programming feature selection

SPEC_CMI - Spectral Relaxation Global Conditional Mutual Information MRMTR - Maximum Relevance Minimum Total Redundancy

CMIM - Conditional Mutual Information Maximization MIFS - Mutual Information Feature Selection

(15)

1 Introdução p. 18 1.1 Motivação . . . p. 19 1.2 Objetivos . . . p. 21 1.3 Contribuições . . . p. 21 1.4 Organização do Trabalho . . . p. 23 2 Fundamentação Teórica p. 24 2.1 Pré-Processamento . . . p. 24 2.1.1 Extração de Atributos . . . p. 25 2.1.2 Seleção de Atributos . . . p. 26 2.2 Processamento de Dados . . . p. 27 2.2.1 Modelos Supervisionados . . . p. 27 2.2.1.1 Árvore de Decisão . . . p. 28 2.2.1.2 Support Vector Machine . . . p. 29 2.2.1.3 k-Nearest Neighbors . . . p. 29 2.2.2 Modelos Não-Supervisionados . . . p. 30 2.2.2.1 k-Means . . . p. 31 2.3 Medidas de Avaliação . . . p. 32 2.3.1 Teoria da Informação . . . p. 32 2.3.1.1 Informação Mútua . . . p. 33 2.3.1.2 Divergência de Kullback–Leibler . . . p. 33 2.3.2 Medidas de Correlação . . . p. 33

(16)

2.4 Otimização Multiobjetivo . . . p. 35 2.4.1 Fronteira de Pareto . . . p. 36 2.5 Testes Estatísticos . . . p. 37 2.5.1 Teste de Friedman . . . p. 37 2.5.2 Teste de Wilcoxon Rank-Sum . . . p. 37 2.6 Considerações Finais . . . p. 38

3 Trabalhos Relacionados p. 39

3.1 Fusão de Algoritmos de Seleção de Atributos . . . p. 39 3.2 Seleção Dinâmica de Atributos e Classificadores . . . p. 42 3.3 Considerações Finais . . . p. 43

4 Seleção Automatizada de Atributos p. 44

4.1 Abordagens de Fusão . . . p. 44 4.1.1 Fusão de Dados . . . p. 45 4.1.2 Fusão de Decisão . . . p. 47 4.2 Seleção Dinâmica baseada na Fronteira de Pareto . . . p. 50 4.3 Considerações Finais . . . p. 55

5 Materiais e Métodos p. 57

5.1 Algoritmos de Classificação . . . p. 57 5.2 Algoritmo de Agrupamento . . . p. 57 5.3 Algoritmos de Redução de Dimensionalidade . . . p. 58 5.4 Medidas de Avaliação . . . p. 60 5.5 Testes Estatísticos . . . p. 60 5.6 Bases de Dados . . . p. 60 5.7 Configuração do Experimento . . . p. 64

(17)

6 Resultados p. 67 6.1 Análise dos Métodos de Fusão . . . p. 67 6.1.1 Análise Comparativa - Métodos de Fusão . . . p. 67 6.2 Análise dos Métodos de Seleção Dinâmica . . . p. 71 6.2.1 Análise de Diferentes Medidas na Seleção Dinâmica de Atributos p. 72 6.2.2 Análise da Variação no Tamanho das Partições de Treino e

Vali-dação na Seleção Dinâmica de Atributos . . . p. 74 6.2.3 Análise de Diferentes Medidas no Processo de Automatização pela

Fronteira de Pareto . . . p. 76 6.2.4 Análise Comparativa - Abordagens de Seleção Dinâmica de

Atri-butos . . . p. 79 6.2.5 Análise Comparativa - Outros Algoritmos de Redução de

Dimen-sionalidade e No-FS . . . p. 81

7 Considerações finais p. 84

7.1 Conclusões . . . p. 84 7.2 Trabalhos Futuros . . . p. 86

Referências p. 87

Apêndice A Resultados Individuais - Métodos de Fusão p. 92

Apêndice B Resultados Individuais - Avaliação de Critérios (DFS) p. 95

Apêndice C Resultados Individuais - Particionamento dos Dados p. 98

Apêndice D Resultados Individuais - Avaliação de Critérios (PF-DFS) p. 101

(18)

(19)

1 Introdução

Estudos recentes têm mostrado que o tamanho de um conjunto de dados, em termos de instâncias e atributos, para descrever aplicações de diferentes domínios têm crescido exponencialmente. Aplicações como bioinformática, mídias sociais e cidades inteligentes, por exemplo, geram dados de alta complexidade que requerem vasto poder computacio-nal para extrair informações relevantes (LI; LIU, 2017). Como a análise manual de dados dessa natureza se torna impraticável, o uso de técnicas de aprendizado de máquina (AM) para encontrar padrões ou relacionamentos nesses conjuntos de dados aparece como uma opção eficiente (JAIN; DUBES, 1988). É notório, no entanto, que esta abordagem possui algumas desvantagens e uma das mais relevantes é a dificuldade em encontrar boas so-luções em problemas complexos do mundo real devido à maldição da dimensionalidade (JAIN; ZONGKER, 1997).

Nos últimos anos, diversos estudos têm sido conduzidos no intuito de propor alter-nativas para resolver esse problema, sendo a mais comum a redução da complexidade do problema por meio da seleção de um subconjunto de atributos que melhor representem o conjunto de dados original. Essa técnica é conhecida como redução de dimensionalidade (RD) ou redução de atributos (CHANDRASHEKAR; SAHIN, 2014).

Métodos de redução de dimensionalidade podem ser divididos em duas categorias, extração de atributos e seleção de atributos. No primeiro caso, o conjunto original de atributos é combinado visando produzir um novo conjunto de dados, menor e mais robusto (LIU; MOTODA, 2007). No segundo caso, um subconjunto do conjunto original de dados é

selecionado. Neste trabalho, o foco será em métodos de seleção de atributos.

Não é difícil encontrar algoritmos de seleção de atributos para pré-processar dados antes de utilizar algoritmos de AM. Segundo (GUYON; ELISSEEFF, 2003), esses métodos são responsáveis por filtrar conjuntos de dados com o objetivo de encontrar um subconjunto de atributos que representam todo o conjunto de dados. Esta abordagem de redução de atributos é importante em dois aspectos: (1) pode reduzir drasticamente a quantidade de

(20)

dados, fornecendo processamento mais rápido usando uma representação mais simples de um conjunto de dados; e (2) elimina dados não relevantes que podem causar distúrbios no processo de extração de informações. Com base nisso, pesquisadores desenvolveram ao longo dos anos muitos algoritmos para realizar a seleção de atributos em conjuntos de dados (LIU; MOTODA, 2007), (NGUYEN et al., 2014), (ZHANG; GONG; CHENG, 2017).

Dados gerados em domínios de aplicações do mundo real possuem uma natureza com-plexa e usualmente são representados por relações não-lineares (GORDON et al., 2002). A utilização de algoritmos de seleção de atributos mais simples, como por exemplo, baseados em medidas de correlação lineares, falham em extrair/obter a representação real ou mais aproximada deste tipo de conjunto de dados.

Recentemente, descritores da Teoria da Informação, inicialmente utilizados para medir a eficiência na transmissão de dados (SHANNON, 1948), têm sido utilizados com sucesso para quantificar informação em diversos problemas reais. Por exemplo, em Brown et al. (2012) foi proposta uma série de técnicas baseadas em Informação Mútua para selecionar os atributos mais relevantes em um conjunto de dados em relação as suas classes. O principal benefício desses descritores consiste na capacidade em quantificar relações não-lineares.

Infelizmente, não há um melhor algoritmo para tratar todos os problemas. Assim, para reduzir a dimensionalidade de um conjunto de dados, pesquisadores devem conhecer muito bem os algoritmos de redução de dimensionalidade e os dados para escolher o melhor método possível, ou devem escolher arbitrariamente um deles, esperando que ele possa executar a tarefa de forma satisfatória. Desse modo, o processo de escolha do algoritmo que melhor se adeque a um conjunto de dados ainda representa um dos maiores desafios da área de seleção de atributos (NOVAKOVIĆ, 2016). Nesse sentido, a investigação do uso de métodos automáticos para seleção de atributos representa uma alternativa promissora na etapa de pré-processamento de dados complexos.

1.1 Motivação

Diversos fatores influenciam a construção de modelos de classificação em AM. A qua-lidade dos dados utilizados é o principal deles. A utilização de dados irrelevantes ou redundantes podem conduzir à interpretações errôneas e à criação de processos computa-cionalmente custosos. Dentre as fases do pré-processamento de dados, a seleção de atribu-tos torna-se extremamente relevante para atenuar problemas relacionados à representação

(21)

e qualidade dos dados (NOVAKOVIĆ, 2016).

A definição do algoritmo de seleção de atributos que deve ser utilizado, representa uma etapa crítica no pré-processamento de dados complexos. A escolha arbitrária do algoritmo, pode levar a seleção de atributos não representativos e, por consequência, a perda de informação relevante no processo de classificação (LIU; MOTODA, 2007).

Algoritmos baseados em descritores da Teoria da Informação representam uma escolha robusta quando comparados a métodos tradicionais, uma vez que eles podem medir a dependência de duas variáveis, incluindo correlações não-lineares, que são amplamente encontradas em situações do mundo real.

Apesar do constante desenvolvimento de técnicas robustas para atenuar o problema da redução de dimensionalidade, a grande maioria dos seletores de atributos apresentam duas grandes limitações: (1) levam em consideração todo o conjunto de dados no processo de seleção. No contexto de aprendizado supervisionado, a utilização de todo o conjunto de dados não leva em consideração as características associadas aos grupos de instância relacionadas a cada classe. Como alternativa, alguns trabalhos têm feito uso de algoritmos de agrupamento no processo de seleção de atributos, tornando-o dinâmico (NUNES et al., 2016); e (2) utilizam apenas um critério de avaliação para medir a relevância dos atributos, demandando grande esforço por parte dos pesquisadores no processo de decisão acerca de qual (ou quais) técnica aplicar para obter o máximo de relevância no pré-processamento dos dados. O processo de escolha manual e arbitrário pode conduzir a análises ineficientes e altos custos de processamento.

Logo, a motivação deste trabalho é desenvolver abordagens automáticas de seleção de atributos baseadas em Teoria da Informação capazes de suavizar as limitações supracita-das, por meio da utilização de técnicas computacionais que sejam capazes de auxiliar o processo de decisão, diminuindo o impacto de escolhas arbitrárias e, que torne possível a utilização da avaliação multicritério acerca da relevância dos atributos no contexto de seleção dinâmica de atributos. Estas abordagens visam automatizar o processo de seleção dos atributos mais relevantes em conjuntos de dados considerando dois cenários distintos: a fusão de múltiplos algoritmos de seleção; e a utilização conjunta de múltiplos critérios de avaliação na seleção dinâmica de atributos.

(22)

1.2 Objetivos

O principal objetivo deste trabalho é propor novas abordagens de seleção de atributos baseadas na Teoria da Informação, capazes de automatizar o processo de seleção. Para isso, foram exploradas duas vertentes: métodos de fusão e seleção dinâmica de atributos. A primeira consiste no uso de estratégias de combinação de diferentes seletores de atri-butos. A utilização dessas estratégias permite combinar soluções provenientes de múltiplos algoritmos de seleção de atributos e, por sua vez, a obter um alto grau de diversidade no subconjunto final de atributos selecionados.

Por sua vez, a segunda vertente compreende a investigação do método não-supervisionado de seleção dinâmica, proposto originalmente em (NUNES et al., 2016), onde foi realizada a inserção de elementos da teoria da informação, bem como a extensão do método através da aplicação da técnica da fronteira de pareto.

De forma específica, os objetivos desta proposta estão destacados a seguir:

• Proporcionar a automatização do processo de decisão acerca da escolha dos seletores de atributos, uma vez que a escolha manual de algoritmos de seleção pode conduzir à processos ineficientes de pré-processamento dos dados.

• Aumentar o potencial do processo de computação da relevância dos atributos na seleção dinâmica de atributos, mediante ao uso de múltiplos critérios de avaliação. • Melhorar o desempenho dos modelos de classificação através da utilização das

abor-dagens propostas: métodos de fusão e seleção dinâmica de atributos utilizando a fronteira de pareto.

• Investigar a melhor configuração para as abordagens propostas. Para as abordagens de fusão, investigar o impacto da fusão de dados em comparação a fusão de deci-são. Por outro lado, em relação a abordagem de seleção dinâmica, investigar quais critérios promovem a seleção dos atributos mais relevantes através da técnica da fronteira de pareto.

1.3 Contribuições

As contribuições consequentes da produção deste trabalho resultaram na publicação de cinco artigos completos nos anais de conferências nacionais e internacionais importantes

(23)

na área de aprendizado de máquina. Dois referentes a vertente inicial (métodos de fusão) e três relacionados a segunda vertente. A seguir, estão descritas as principais contribuições por publicação:

• "A Combination Method for Reducing Dimensionality in Large Datasets-International Conference on Neural Neural Networks (ICANN 2016/Bar-celona). Neste trabalho propomos um método de redução de dimensionalidade inti-tulado fusão de dados. Esse método é responsável por combinar a saída de múltiplos algoritmos de seleção de atributos, produzindo ao final uma única solução. Esta abordagem utiliza um sistema de ranking baseado numa métrica de relevância dos atributos com objetivo de promover uma fusão a priori dos seletores. Os resultados obtidos neste artigo demonstraram que o método de fusão dados se mostrou robusto em entregar uma solução estável e segura quando não há conhecimento acerca dos algoritmos de seleção a serem aplicados sobre um conjunto de dados. Referência: (ARAÚJO et al., 2016)

• "Fusion Approaches of Feature Selection Algorithms for Classification Tasks- Brazilian Conference on Inteligent Systems (BRACIS 2016/Re-cife). Neste artigo, propusemos uma abordagem de fusão de decisão para algoritmos de seleção de atributos. Na fusão de decisão, utilizamos a estratégia de comitê de classificadores afim de combinar diferentes versões dos conjuntos de dados reduzidos por múltiplos algoritmos de seleção de atributos baseados na Teoria da Informação. Diferente da fusão de dados, esta abordagem não combina a saída dos algoritmos de seleção de atributos, mas a decisão provida pelos algoritmos. Os resultados deste ar-tigo foram confrontados com a abordagem proposta no arar-tigo anterior e com outros métodos da literatura. Através dessa comparação, pudemos constatar que o método de fusão de decisão é superior em termos de acurácia para maioria dos conjuntos de dados utilizados. Referência: (JESUS; ARAÚJO; CANUTO, 2016)

• "Estudo Sobre o Impacto do Particionamento dos Dados na Seleção Di-nâmica de Atributos- Encontro Nacional de Inteligência Artificial e Com-putacional (ENIAC 2017/Uberlândia). O objetivo deste trabalho consistiu em verificar o impacto que a mudança na medida de similaridade usada e nas proporções de divisão dos dados entre os conjuntos de treinamento, teste e validação podem trazer na acurácia do sistema utilizado. Resultados mostraram que o método de sele-ção dinâmica com informasele-ção mútua utilizando oito folds para treino, um para teste e um para validação, obteve desempenho competitivo quando comparado a outros

(24)

métodos conhecidos de seleção/extração de atributos. Referência: (JESUS; CANUTO; ARAÚJO, 2017)

• "A Feature Selection Approach Based on Information Theory for Clas-sification Tasks- International Conference on Artificial Neural Networks (ICANN 2017/Alghero). Este artigo propôs o uso de Informação Mútua como medida de similaridade na abordagem de seleção dinâmica proposta em (NUNES et al., 2016). A abordagem foi testada incluindo elementos da Teoria da Informação no processo, como Informação Mútua e Divergência de Kullback-Leibler, e comparada com métodos clássicos como PCA e LDA, bem como outros algoritmos baseados em informação mútua. Os resultados mostraram que o método de seleção dinâmica com informação mútua alcançou desempenho superior na maioria dos casos quando comparado a outros métodos. Referência: (JESUS; CANUTO; ARAÚJO, 2017)

• "Dynamic Feature Selection based on Pareto Front Optimization- IEEE World Congress on Computational Intelligence/International Joint Con-ference on Neural Networks (WCCI/IJCNN 2018/Rio de Janeiro). Este trabalho traz um aperfeiçoamento do método de seleção dinâmica (DFS) por meio do uso da técnica da fronteira de pareto, que nos permite considerar perspectivas distintas da relevância dos atributos e automaticamente definir o número de atribu-tos a ser selecionado. A abordagem proposta foi testada utilizando 15 conjunatribu-tos de dados reais e artificiais e os resultados obtidos mostraram que quando comparado ao método de seleção dinâmica original (DFS), o desempenho do método proposto é superiormente notável. De fato, os resultados obtidos são bastante promissores, uma vez que o método proposto alcançou desempenho superior quando comparado a métodos consagrados da redução de dimensionalidade, demonstrando que a re-dução de ruídos e/ou atributos redundantes pode ter efeito positivo na tarefa de classificação. Referência: (JESUS; CANUTO; ARAÚJO, 2018)

1.4 Organização do Trabalho

O trabalho está organizado nos seguintes capítulos: o Capítulo 2 apresenta os elemen-tos teóricos abordados na dissertação; o Capítulo 3 descreve os trabalhos relacionados; o Capítulo 4 detalha a arquitetura geral das abordagens propostas; o Capítulo 5 descreve os materiais e métodos usados nos experimentos realizados; o Capítulo 6 traz os resultados das análises feitas para validação dos métodos propostos; e por fim, o Capítulo 7 apresenta as considerações finais acerca do trabalho.

(25)

2 Fundamentação Teórica

Este capítulo apresenta os elementos teóricos necessários para compreensão do traba-lho desenvolvido nesta dissertação.

Para tanto, este capítulo é dividido da seguinte forma: a Seção 2.1 traz os princi-pais conceitos relacionados a fase de pré-processamento em aprendizado de máquina; a Seção 2.2 introduz o conceito de modelos supervisionados, bem como os modelos não supervisionados e descreve os principais modelos utilizados em cada abordagem; a Seção 2.3 descreve as temáticas acerca das medidas de avaliação utilizadas nos processos de seleção de atributos propostos; a Seção 2.4 expõe conceitos da otimização multi-objetivo utilizados no desenvolvimento das abordagens propostas; Por fim, a Seção 2.5 apresenta a fundamentação a respeito dos testes estatísticos aplicados com intuito de validar os resultados obtidos;

2.1 Pré-Processamento

Na área de Aprendizado de Máquina é possível citar três grandes marcos que definem seu processo de funcionamento: Pré-processamento, Processamento e Pós-processamento dos dados. Cada etapa é responsável por realizar tratamentos específicos sobre conjun-tos de dados, a fim de extrair conhecimento de forma automática (FACELI; LORENA; CARVALHO, 2000). Apesar da utilização de algoritmos de AM proporcionar a extração de conhecimentos relevantes acerca dos dados, seu desempenho é altamente influenciado pela qualidade dos dados (LI; LIU, 2017). Segundo (JIANG; WANG, 2016), conjuntos de dados podem apresentar diferentes características, dimensões e formatos.

Os principais problemas que podem ser encontrados em conjuntos de dados não-processados são: dados ruidosos (valores errôneos, inconsistentes ou ausentes), atributos irrelevantes e conjuntos de dados desbalanceados (poucas amostras para uma quantidade grande de atributos) (FACELI; LORENA; CARVALHO, 2000). Para tratar ou atenuar esses

(26)

problemas, técnicas de pré-processamento de dados são frequentemente aplicadas sobre os dados (JAIN; ZONGKER, 1997).

Os principais benefícios associados ao uso de técnicas de pré-processamento são: a re-dução do superajuste dos modelos de aprendizado (com a exclusão de dados redundantes, a chances de influenciar negativamente o processo de treino são diminuídas), o aumento da acurácia (classificadores são treinados com dados relevantes, aumentam a capacidade de generalização dos modelos produzidos) e a redução no tempo de treinamento (me-nos dados implicam em fases de treinamento mais curtas) (FACELI; LORENA; CARVALHO, 2000).

Dentre as técnicas de pré-processamento, a redução de dimensionalidade é responsável por reduzir a quantidade de atributos utilizados para descrever um conjunto de dados. Para grande maioria dos algoritmos de AM, um número elevado de atributos torna o processo de aprendizado mais complexo, e portanto, é necessário que haja uma redução na quantidade dos atributos (FACELI; LORENA; CARVALHO, 2000).

As técnicas de redução de dimensionalidade são agrupadas em duas categorias, ex-tração e seleção de atributos. Enquanto as técnicas de exex-tração substituem os atributos originais por novos atributos gerados pela combinação entre os atributos, os métodos de seleção selecionam um subconjuntos dos atributos originais e excluem os demais (FACELI; LORENA; CARVALHO, 2000). Os métodos de seleção podem ser subdivididos em três cate-gorias: métodos embutidos, baseados em filtro e baseados em wrapper. As duas subseções a seguir descrevem os conceitos relacionados às categorias de redução de dimensionalidade.

2.1.1 Extração de Atributos

Nos principais métodos de extração de atributos, a dimensão das bases de dados são reduzidas através da combinação dos atributos originais por meio de funções lineares ou não lineares. Por exemplo, a Análise de Componentes Principais (PCA, do inglês Prin-cipal Component Analysis) , uma das técnicas de extração mais populares, é baseada na projeção linear do maior autovetor da matriz de correlação dos atributos, sendo bastante sensível a magnitude dos valores, e consequentemente, a simples rotações e translações nos dados (JOLLIFFE, 1986;FACELI; LORENA; CARVALHO, 2000).

Em geral, técnicas de extração de atributos levam à perda dos valores originais dos conjuntos de dados. Essa característica pode não ser interessante em certos domínios de aplicações como, por exemplo, bioinformática, saúde e dados comerciais. Nessas aplicações

(27)

é importante preservar os valores dos atributos para que os resultados obtidos possam ser interpretados. Para essas aplicações, a utilização de técnicas de seleção de atributos é mais frequente (LI et al., 2016;FACELI; LORENA; CARVALHO, 2000).

2.1.2 Seleção de Atributos

A seleção de atributos têm tornado-se o foco de pesquisas em diversas áreas de aplica-ção que possuem conjuntos de dados com centenas ou milhares de atributos. Os principais benefícios associados a seleção são: melhora do desempenho dos preditores, redução do custo computacional na fase de treinamento e fornecimento de informações acerca da es-trutura dos dados em termos de relevância de características (GUYON; ELISSEEFF, 2003). Com intuito de avaliar o desempenho de um subconjunto de atributos, na literatura são encontradas três abordagens: Métodos Embutidos, Baseados em Filtro e Baseados em Wrapper.

• Métodos Embutidos: Na abordagem embutida, a seleção de atributos é integrada ao algoritmo de aprendizado. O principal exemplo dessa categoria são as Árvores de Decisão, que realizam de forma interna a seleção de atributos (FACELI; LORENA; CARVALHO, 2000).

• Métodos baseados em Filtro: Nesta abordagem, um filtro é aplicado sobre o con-junto de dados antes da fase de treinamento. Essa técnica é não tem relação com o algoritmo de aprendizado, sendo utilizada para definir a relevância dos atributos baseado em algum critério externo, como por exemplo: Correlação entre os atributos e o atributo-classe (FACELI; LORENA; CARVALHO, 2000).

• Métodos baseados em Wrapper : Em métodos baseados em wrapper, o subconjunto de atributos é utilizado para treinar modelos de inferência. Baseado na acurácia do modelo para aquele subconjunto de atributos, é realizado o processo de escolha sobre os atributos a serem adicionados ou removidos. O problema é essencialmente reduzido a um problema de busca, onde o objetivo é testar todas as possíveis combi-nações, até que se encontre a que melhor se ajuste ao modelo, em termos de acurácia (FACELI; LORENA; CARVALHO, 2000). Em geral, esses métodos são computacional-mente custosos.

As abordagens propostas neste trabalho se enquadram na categoria de filtro. De acordo com (FACELI; LORENA; CARVALHO, 2000;LI et al., 2016), as principais vantagens associadas a esse tipo de técnica são:

(28)

• Independência no processo de seleção em relação ao modelo de indução, logo os atri-butos selecionados podem ser utilizados em diferentes abordagens de aprendizado; • Filtros tem a capacidade de lidar com grandes quantidades de dados;

• O cálculo da relevância através dos filtros representam processos computacional-mente simples;

Dessa forma, a utilização de abordagens de seleção de atributos baseadas em filtro re-presentam uma alternativa eficiente e relevante na construção de modelos de aprendizado, principalmente por não haver interação entre o filtro e o indutor, evitando tendências para nenhuma abordagem de aprendizado.

2.2 Processamento de Dados

Com a necessidade de processar grandes volumes de dados produzidos constantemente, há uma grande necessidade em analisar de forma rápida e automática diversos conjuntos de dados de diferentes domínios. Uma das tarefas mais essenciais ao lidar com dados é classificá-los ou agrupá-los, em categorias ou grupos. Basicamente, modelos de processa-mento de dados em aprendizado de máquina são supervisionados ou não-supervisionados, dependendo do objetivo associado à tarefa executada, seja rotular amostras em categorias dado experiências prévias (modelos de aprendizado supervisionados) ou encontrar rela-ções inerentes aos dados de forma automática, sem possuir previamente informação acerca dos dados, na tentativa definir relações a partir do agrupamento de amostras semelhan-tes (modelos de aprendizado não-supervisionados) (KOTSIANTIS; ZAHARAKIS; PINTELAS, 2007; EVERITT; LANDAU; LEESE, 2001). As subseções a seguir, expõem os conceitos ge-rais acerca das duas abordagens (supervisionadas e não-supervisionadas), assim como os principais modelos de cada uma utilizados nesta dissertação.

2.2.1 Modelos Supervisionados

No aprendizado supervisionado, um algoritmo de classificação é representado por uma função matemática que, dado um conjunto de dados rotulados, modela um indutor. Os rótulos são definidos como classes, que podem ser valores quantitativos ou qualitativos. Esse indutor é responsável por, dado uma amostra não-rotulada, atribuir essa amostra para uma possível classe (KOTSIANTIS; ZAHARAKIS; PINTELAS, 2007). O principal desa-fio de algoritmos de aprendizado supervisionado é encontrar uma representação que seja

(29)

capaz de generalizar, de forma eficiente, o conhecimento acerca de um domínio (conjunto de dados). Na literatura são encontrados diversos algoritmos de classificação, sendo esses divididos em diferentes categorias de acordo com aspectos como: representação do conheci-mento (dados) e generalização do conheciconheci-mento (hipóteses) (FACELI; LORENA; CARVALHO, 2000).

Nas subseções seguintes, serão apresentados os conceitos gerais acerca de diferentes modelos de classificação utilizados no desenvolvimento deste trabalho.

2.2.1.1 Árvore de Decisão

Árvores de decisão são algoritmos de aprendizado supervisionado baseados em méto-dos de busca que particionam os daméto-dos em diversos subconjuntos, de maneira que proble-mas complexos são reduzidos a subprobleproble-mas. Dessa forma, a árvore de decisão faz uso da estratégia de "dividir para conquistar"para solucionar problemas de decisão. Nessa árvores, cada nó representa conjunções de atributos que levam aos nós-folha, que por sua vez representam os rótulos das classes. Para encontrar soluções, a árvore de decisão rea-liza uma busca hierárquica e sequencial sobre os possíveis caminhos a partir do modelo produzido (MITCHELL, 1997). Uma visão geral acerca do funcionamento de árvores de decisão pode ser vista no Algoritmo 1.

Algorithm 1 Algoritmo para Árvore de Decisão retirado de (FACELI; LORENA; CARVA-LHO, 2000)

1: _{procedure AD}

2: Entrada: Conjunto de treinamento D

3: Saída: Árvore de Decisão

4: Função GeraArvore(D)

5: if critério de parada(D) = V erdadeiro then

6: Retorna: um nó folha rotulado com a constante que minimiza a função perda

7: end if

8: Escolha o atributo que maximiza o critério de divisão em D

9: for each partição dos exemplos D_(i) baseado nos valores do atributo escolhido do

10: Induz uma subárvore Arvore_(i) = GeraArvore(D_(i))

11: end for

12: Retorna: Árvore contendo um nó de decisão baseado no atributo escolhido, e descen-dentes Arvore_(i)

13: end procedure

Dentre os benefícios associados ao uso da árvore de decisão estão a fácil interpreta-bilidade (observação da estrutura por meio da visualização da árvore gerada ao final do processo) e a realização de um processo de seleção de atributos implícito inerente a criação do modelo, onde os nós mais altos representam os atributos mais importantes no processo

(30)

de tomada de decisão. No entanto, sem a aplicação de técnicas de poda (pré ou pós poda) para limitar o crescimento e, consequentemente, o tamanho da árvore, o modelo gerado tende a se superajustar aos dados do conjunto de treino, reduzindo a sua capacidade de generalização (KOHAVI; QUINLAN, 2002).

2.2.1.2 Support Vector Machine

O Support Vector Machine (SVM) é uma técnica de aprendizado para problemas linearmente separáveis, capaz de encontrar um hiperplano ideal que maximize a margem de separação (espaço) entre duas classes. Para tanto, as instâncias da base de dados são rotuladas como positivas e negativas, sendo projetadas no espaço de alta dimensão, usando uma função kernel. A ideia pode ser estendida para problemas com mais de duas classes (MITCHELL, 1997). Por ser baseado na teoria de aprendizado estatístico, o SVM se caracteriza por apresentar uma boa capacidade em termos de generalização. Ademais, a utilização de funções kernel torna o algoritmo eficiente, pois permite que sejam construídos hiperplanos em espaço de alta dimensão de forma tratável do ponto de vista computacional (FACELI; LORENA; CARVALHO, 2000). As principais desvantagens desse método, residem na alta dependência de uma boa parametrização e na dificuldade em interpretar o modelo gerado.

2.2.1.3 k-Nearest Neighbors

O k-Nearest Neighbors (k-NN) é uma técnica de aprendizado de máquina baseado em instâncias que leva em consideração os k vizinhos mais próximos da instância a ser classi-ficada. No k-NN, dado um espaço definido pelos atributos, onde uma instância representa um ponto nesse espaço, a distância pode ser calculada entre dois pontos através de uma métrica de distância. Usualmente, os vizinhos mais próximos são definidos pela distância euclidiana, mas outras métricas de distâncias podem ser utilizadas, como por exemplo: Distância de Chebyshev, Distância de Minkowske e Distância de Mahalanobis (MITCHELL, 1997).

Os principais passos do k-NN podem ser descritos como:

• Defina uma valor para k;

• Calcule a distância entre instância de teste e todas instâncias de treino, usando uma métrica de distância;

(31)

• Ordene as distâncias calculadas em ordem ascendente de valor; • Selecione os k primeiros vizinhos ordenados pela distância; • Recupere a classe dessas instâncias;

• Retorne a classe prevista para instância de teste.

Uma versão simplificada do k-NN pode ser observada no Algoritmo 2 abaixo:

Algorithm 2 Algoritmo para o k-NN, versão 1-vizinho mais próximo retirado de (FACELI; LORENA; CARVALHO, 2000)

1: _{procedure AD}

2: Entrada: Conjunto de treinamento: D

3: Um objeto de teste a ser classificado: t

4: A função de distância entre objetos: d(xa, xb)

5: Saída: y_t Classe atribuída ao exemplo t

6: dmin = +∞ 7: for each i ∈ 1, ..., n do 8: if d(x_i, xt< dmin then 9: dmin ⇐ d(xi, xt) 10: idx ⇐ i 11: end if 12: end for 13: yt= yidx 14: Retorna: y_t 15: end procedure

2.2.2 Modelos Não-Supervisionados

Em modelos de aprendizado não supervisionados, o principal objetivo consiste em agrupar (separar) dados não-rotulados em um número finito de partições, a fim de en-contrar relações subjacentes que permitam inferir características inerentes a esses dados (XU; WUNSCH, 2005). Embora não exista uma definição universal sobre o conceito de par-tições (EVERITT; LANDAU; LEESE, 2001), grande parte dos pesquisadores descrevem uma partição considerando que haja homogeneidade internamente na partições e separação externamente entre as partições, de modo que as instâncias de uma partição sejam seme-lhantes entre elas, enquanto instâncias em diferentes partições sejam diferentes (HANSEN; JAUMARD, 1997).

Segundo (BACKER; JAIN, 1981):

"(...) na análise de clusters, um grupo de instâncias é dividido em um nú-mero de subgrupos (proximamente) homogêneos, com base em uma medida de

(32)

similaridade frequentemente escolhida de forma subjetiva ou empírica (isto é, a escolha dessa medida é feita baseada na sua capacidade de criar partições de modo que a similaridade entre os objetos dentro da partição seja maior do que a similaridade entre instâncias pertencentes a diferentes partições."

Algoritmos de agrupamento podem ser divididos quanto a sua natureza. Em geral, os algoritmos são classificados de acordo com a estratégia utilizada para definir as parti-ções, as principais categorias são: algoritmos particionais (k-Means), hierárquicos (Hierár-quico Aglomerativo), baseados em redes neurais (Self Organazing Map (SOM), Dynamic and Hierarchically Growing Self-Organizing Tree (DGSOT e HGSOT)), baseados em grid (Clustering In QUEst (CLIQUE) e Statistical Information Grid-Based method (STING)) e baseados em densidade(Density-Based Spatial Clustering of Applications with Noise (DBSCAN)) (XU; WUNSCH, 2005;FACELI; LORENA; CARVALHO, 2000).

Em específico, neste trabalho, foi utilizado um representante da categoria dos algorit-mos de agrupamento particionais, o k-Means. Na seção 2.2.2.1 abaixo, pode ser observada a descrição acerca do processo geral dessa abordagem.

2.2.2.1 k-Means

Um dos algoritmos mais simples de agrupamento conhecido é o k-Means. Devido a sua fácil implementação, é amplamente utilizado em tarefas de agrupamento, tendo como principais vantagens: baixa complexidade, o que leva a uma rápida execução (na maioria dos casos) e a entrega de resultados de fácil interpretação. Entretanto, a baixa complexi-dade do algoritmo e a necessicomplexi-dade da definição do parâmetro k faz com que, ao lidar com dados complexos, em geral, quando comparado a outros algoritmos de agrupamento, o faça obter resultados não tanto competitivos (LIKAS; VLASSIS; VERBEEK, 2003). Em ( FA-CELI; LORENA; CARVALHO, 2000) o funcionamento do k-Means é descrito pelo Algoritmo

3:

O k-Means é um algoritmo de agrupamento baseado em distância, onde os primeiros k centroides dos dados são randomicamente escolhidos e cada instância é atribuída a um grupo associado ao centroide mais próximo. Após esse passo, novos centroides são calcula-dos para cada grupo baseado na média de todas as instâncias. Por fim, este procedimento é repetido até não haja mudança nos valores dos centroides (KANUNGO et al., 2002).

(33)

Algorithm 3 Algoritmo k-Means retirado de (FACELI; LORENA; CARVALHO, 2000)

1: _{procedure k-Means}

2: Entrada: Conjunto de dados X_n×d e k o número de clusters

3: Saída: Uma partição de X em k clusters

4: Escolher aleatoriamente k valores para centroides dos clusters

5: repeat

6: for each objeto x_i ∈ X e cluster C_j, j = 1, ...k do

7: Calcular a distância entre xi e o centroide do cluster utilizando uma medida de

distância

8: end for

9: for each objeto xi do

10: Associar x_i ao cluster com centroide mais próximo

11: end for

12: for each cluster Cj, j = 1, ...k do

13: Recalcular o centroide

14: end for

15: until não haver mais alteração na associação dos objetos aos clusters

16: end procedure

2.3 Medidas de Avaliação

Em seleção de atributos, uma das decisões mais impactantes em seu processo diz respeito a escolha da medida de avaliação que irá ser utilizada para o cálculo da relevância dos atributos. Essa escolha impacta diretamente na criação do subconjunto de atributos, que deve representar, da melhor forma possível, todo o conjunto de dados. Na literatura encontramos medidas de avaliação capazes de medir relações de diferentes naturezas, sejam elas lineares ou não-lineares (LI et al., 2016). Para tanto, esta seção descreve duas grandes áreas, Teoria da Informação e Medidas de Correlação, que através de descritores propostos, nos permite fazer uso de seus métodos como medidas de avaliação para quantificar a relevância de atributos no processo de redução de dimensionalidade.

2.3.1 Teoria da Informação

A Teoria da Informação representa um campo da ciência responsável por estudar a quantificação e armazenamento da informação contida em dados. Inicialmente proposto por (SHANNON, 1948), os fundamentos da teoria da informação foram utilizados, prima-riamente, em aplicações de processamento de sinais. No entanto, nos últimos anos alguns descritores propostos na teoria da informação têm sido aplicados em métodos computaci-onais com o objetivo de quantificar informação em problemas de aprendizado, como por exemplo em (BROWN et al., 2012), onde técnicas baseadas em Informação Mútua foram utilizadas para selecionar subconjuntos de atributos em diferentes conjuntos de dados.

(34)

Técnicas baseadas em descritores da Teoria da Informação, trazem como principal bene-fício a capacidade em quantificar relações não-lineares, que são amplamente encontradas em dados provenientes de aplicações do mundo real. Nesse sentido, as subseções seguintes apresentam dois descritores da Teoria da Informação utilizados como medida de avaliação no contexto de seleção de atributos desta dissertação, Informação Mútua e Divergência de Kullback-Leibler.

2.3.1.1 Informação Mútua

A medida de informação mútua (MI, do inglês Mutual Information) calcula a quan-tidade de informação compartilhada por duas variáveis aleatórias. Em outras palavras, ela quantifica a quantidade de informação obtida por uma variável, através de outra (SHANNON, 1948). Sejam X (um atributo, no contexto de AM) e Y (um rótulo de classe) variáveis aleatórias e p seja a função probabilidade. Baseado nisso, a Informação Mútua pode ser definida como:

I(X, Y ) = X y∈Y X x∈X p(x, y) log p(x, y) p(x)p(y) (2.1) 2.3.1.2 Divergência de Kullback–Leibler

A divergência de Kullback-Leibler (KD, do inglês Kullback-Leibler Divergence) é uma medida que define a diferença entre duas distribuições de probabilidade. Assim sendo, a divergência de KD pode ser vista como a como a quantidade de incerteza de observar uma distribuição de probabilidade f (x) (um atributo) usando outra distribuição g(x) (um rótulo de classe) (KULLBACK; LEIBLER, 1951). Logo, a divergência de KD pode ser definida como: DKL(F ||G) = X i f (x) logf (x) g(x) (2.2)

2.3.2 Medidas de Correlação

De acordo com (JIANG; WANG, 2016), um coeficiente de correlação pode ser concei-tuado como "uma medida que quantifica até que ponto duas variáveis tendem a mudar juntas, descrevendo a força e a direção do relacionamento entre elas". Assim como as

(35)

medidas de Teoria da Informação, diversas medidas baseadas em correlação foram utili-zadas na proposição de seletores de atributos na literatura (JIANG; WANG, 2016; SAEYS; ABEEL; PEER, 2008). Em geral, valores de correlação entre duas variáveis (atributo e atributo-classe) são representados entre -1 e 1, onde quanto maior forem esses valores, mais correlacionadas são as variáveis (negativamente ou positivamente, respectivamente). Valores próximos de -1, indicam uma correlação negativa, que implica dizer que as variá-veis tendem a crescer em direções opostas, enquanto que se esse valor for mais próximo de 1, indica forte crescimento de ambas as variáveis na mesma direção (SAEYS; ABEEL; PEER, 2008). Nem sempre medidas de correlação são capazes de quantificar de maneira precisa a relação entre duas variáveis, nesse sentido diversas medidas de correlação são encontradas na literatura com objetivo de medir diferentes relações acerca da natureza dos dados (relações lineares e não-lineares), como por exemplo: Coeficientes de Pearson, Kendall e Spearman (SAEYS; ABEEL; PEER, 2008). A subseção abaixo descreve a medida de correlação de Spearman utilizada nesta dissertação.

2.3.2.1 Correlação de Spearman

A Correlação de Spearman (SP, do inglês Spearman Correlation) é um teste não-paramétrico que mede a força e a direção da associação monotônica entre o ranking de duas variáveis aleatórias, sendo capaz de medir relações de natureza não-linear entre as variáveis (SAEYS; ABEEL; PEER, 2008). A equação que descreve a correlação de SP é definida como:

SP = 1 − 6P d

2

n(n2_{− 1)} (2.3)

Onde n é a quantidade de pares de amostras (instâncias) das variáveis (atributo e atributo-classe) e coeficiente P d2 _{é dado pelo seguinte cálculo (}_{SAEYS; ABEEL; PEER}_,

2008):

• Organize os dados das duas variáveis em questão em duas colunas (Dados 1 e 2); • Na terceira coluna (Ranking 1), calcule o ranking da primeira variável (Dado 1),

atribuindo 1 ao menor valor, 2 ao segundo menor e assim sucessivamente;

• Repita o processo para a segunda coluna (Dado 2), criando uma quarta coluna (Ranking 4) para armazenar os valores dos rankings;

(36)

• Caso exista algum valor repetido dentro da mesma coluna de ranking (colunas 3 ou 4), substitua-os pela sua média. Por exemplo, se existem dois valores com ranking 3, substitua por 1.5;

• Na quinta coluna (d), calcule a diferença entre os pares correspondentes das colunas de ranking (colunas 3 e 4)

• Na sexta coluna (d2_{), eleve os valores da quinta coluna (d) ao quadrado;}

• Ao final, some todos os valores da sexta coluna (d2_{), esse é valor do coeficiente} _{P d}2

da equação de correlação.

2.4 Otimização Multiobjetivo

A otimização simultânea de funções de objetivo concorrentes tende a não ser solu-cionada pela otimização de funções únicas, pois raramente admite uma solução única e perfeita (FONSECA; FLEMING, 1995). No contexto de seleção de atributos, se levarmos em consideração que o cálculo da relevância dos atributos pode ser visto como uma função objetivo, seletores tradicionais, em geral, consideram uma única medida de avaliação ou consideram grupos de medidas separadamente em seu processo. Dessa forma, claramente o processo de utilização de mais de uma medida de avaliação para calcular a relevância de atributos em conjuntos de dados pode ser visto como um problema de otimização. A medida que o número de objetivos concorrentes aumenta (uso de múltiplas medidas de avaliação simultaneamente) e todos são considerados, o problema rapidamente se torna complexo (FONSECA; FLEMING, 1995; MARLER; ARORA, 2004;DEB, 2014).

De acordo com (PEREZ, 2012):

A Otimização multiobjetivo pode ser definida como um vetor de variáveis de objetivos com dimensão n, y = {y1, y2, ..., yn} no espaço de busca Y . Neste

caso, o objetivo é encontrar um vetor y∗ ∈ Y que minimizem as funções obje-tivo f (x∗) = {f1(x∗), ..., fn(x∗)}. As soluções que minimizam todos os objetivos

são chamadas pareto-ótimas ou não dominadas.

Nesse sentido, a aplicação de técnicas utilizadas na otimização multiobjetivo no pro-cesso de seleção de atributos, tornam-se uma ferramenta eficaz para selecionar atributos relevantes dado diferentes critérios. Logo, a técnica empregada nesta dissertação para

(37)

realizar a escolha automatizada dos atributos é chamada de Fronteira de Pareto, sendo descrita na subseção a seguir.

2.4.1 Fronteira de Pareto

Para entender o conceito relacionado a Fronteira de Pareto, primeiro se faz necessário entender o conceito de dominância de soluções.

Segundo (PEREZ, 2012),

"(...) uma solução x pode ser considerada dominante se e somente se ela for capaz de atender a seguinte restrição em relação a qualquer outra solução y: fi(x) < fi(y) para i = 1, ..., r e fi(x) < fi(y) para pelo menos uma função

objetivo f ".

A Figura 1 mostra as regiões no espaço de objetos onde a solução x é dominante em relação a solução y.

Figura 1: Regiões de dominância, retirado de (PEREZ, 2012).

Dessa maneira, uma solução é considerada pareto-ótima ou não-dominada, se não for dominada por nenhuma outra solução viável no espaço de objetos (DEB, 2014). No contexto de seleção de atributos, os atributos podem ser considerados como soluções, e a definição da fronteira de pareto pode ser interpretada como: uma solução não-dominada (subconjunto de atributos) descrita por um conjunto de atributos que otimizem a sua

(38)

relevância em relação a n medidas de avaliação, não podendo ser melhorada com relação a qualquer medida de avaliação ou relevância (função objetivo), sem que exita piora, de no mínimo, algum outro objetivo.

2.5 Testes Estatísticos

Na verificação dos resultados obtidos por algoritmos de aprendizado de máquina, é importante fazer uso de técnicas que permitam aumentar a confiabilidade desses resulta-dos. Com esse objetivo, o uso de testes estatísticos representam ferramentas importantes na análise de abordagens propostas, sendo possível aplicar testes para avaliar diferenças estatísticas entre todas as abordagens simultaneamente (análise multivariada) e testes específicos para analisar, par a par, as abordagens (DIETTERICH, 1998). Nesse sentido, nas subseções a seguir são descritos dois testes estatísticos: Teste de Friedman e Teste de Wilcoxon Rank-Sum, utilizados na validação dos resultados obtidos neste trabalho.

2.5.1 Teste de Friedman

O teste de Friedman é um teste não-paramétrico usado para comparar amostras de dados. É bastante eficaz quando se procura afirmar que as observações analisadas derivam da mesma população (FRIEDMAN, 1937). No contexto de aprendizado de máquina, esse teste é recomendado quando se tem como objetivo verificar se há diferença estatística entre diferentes abordagens de aprendizado de máquina, utilizando diferentes classificadores. (TRAWIŃSKI et al., 2012).

Através do cálculo do teste de Friedman, o p-value é usado para identificar se há dife-rença estatística entre as amostras de entrada, servindo como indicação para a utilização (ou não) de testes post-hoc.

2.5.2 Teste de Wilcoxon Rank-Sum

O teste de Wilcoxon Rank-sum, também conhecido como o teste de Mann-Whitney, é um teste não-paramétrico desenvolvido por F. Wilcoxon em 1945. O teste é utilizado para comparar duas amostras independentes de mesmo tamanho. O teste de Wilcoxon Rank-sum detecta diferenças entre duas populações correspondentes por meio da comparação da mediana das duas amostras(GIBBONS; CHAKRABORTI, 2003).

(39)

pertencem à mesma população, verificando se há evidências para acreditar que os valores de um grupo são maiores do que os do outro grupo(GIBBONS; CHAKRABORTI, 2003).

Na análise de dados em aprendizado de máquina, o teste de Wilcoxon Rank-sum é utilizado para análise pareada de abordagens, verificando se há diferenças estatísticas para corroborar com os resultados obtidos por meio da acurácia.

2.6 Considerações Finais

Este capítulo apresentou os métodos e conceitos necessários para o entendimento e desenvolvimento deste trabalho. De fato, a literatura relacionada à aprendizado de máquina voltada para seleção de atributos é ampla, logo, nós limitamos à descrição do elementos mais relacionados para construção da proposta desta dissertação.

Visando facilitar a compreensão dos conceitos que permeiam a proposição deste traba-lho, o capítulo foi organizado levando em consideração o fluxo básico do processo de AM: Pré-processamento, Processamento e Pós-processamento. Isto é, começamos a partir das técnicas de pré-processamento de dados e seus benefícios no contexto de AM, então, par-timos para explicação dos modelos de aprendizado supervisionados e não-supervisionados e como esses se relacionam com a seleção de atributos e por fim, apresentamos tópicos da ciência da computação que se relacionam com a seleção de atributos e como se dá o pós-processamento dos resultados obtidos pelos modelos de aprendizado.

O capítulo seguinte apresentará os trabalhos relacionados às abordagens propostas nesta dissertação. Serão descritos trabalhos que utilizam, em sua maioria, os conceitos apresentados neste capítulo e que se relacionam com o trabalho proposto.

(40)

3 Trabalhos Relacionados

Como explanado anteriormente, para elaboração de abordagens automatizadas de seleção de atributos se faz necessário a utilização de técnicas computacionais que permitam a automação durante o processo de seleção de atributos. A ideia de automação pode ser aplicada em relação ao processo de escolha de algoritmos de seleção, a escolha de critérios de avaliação de relevância e/ou a definição dinâmica de atributos. No entanto, a grande maioria dos trabalhos existentes na área de seleção de atributos visa a seleção estática, ao invés da automatização do processo. Nesse sentido, os trabalhos relacionados serão apresentados de acordo com as técnicas empregadas para realizar o processo de seleção de atributos, sendo as categorias: fusão de algoritmos de seleção de atributos e seleção dinâmica de atributos e classificadores.

3.1 Fusão de Algoritmos de Seleção de Atributos

Algoritmos de redução de dimensionalidade são técnicas populares utilizadas para re-mover ruídos e atributos redundantes em tarefas de Aprendizado de Máquina, como clas-sificação e agrupamento (CHANDRASHEKAR; SAHIN, 2014; TANG; ALELYANI; LIU, 2014). Como já mencionado, existem duas grandes categorias desses algoritmos: extração e se-leção de atributos (LIU; MOTODA, 2007). Este trabalho restringe os estudos à algoritmos de seleção de atributos.

O principal objetivo de algoritmos de seleção de atributos é encontrar um subconjunto no espaço de atributos que seja capaz de prover uma representação eficiente do conjunto original de dados. Tradicionalmente, os algoritmos de seleção de atributos fazem uso de algumas heurísticas para guiar o processo de busca de atributos que melhor representem o conjunto original de dados. Com isso em mente, diversos trabalhos têm sido propostos como em: (ROGATI; YANG, 2002), (JANECEK et al., 2008), (HONG et al., 2008), (HIRA; GILLIES, 2015), (XUE et al., 2016), (YIJING et al., 2016), (JAFFEL; FARAH, 2018).

(41)

analisaram o impacto da utilização de algoritmos de seleção de atributos no desempenho geral de algoritmos de classificação como k-NN, Naive Bayes e SVM para classificação de textos e imagens. Em (HONG et al., 2008), os autores utilizaram algoritmos de agrupamento como forma de definir a relevância dos atributos.

No trabalho desenvolvido em Hira e Gillies (2015), técnicas de redução de dimensiona-lidade foram utilizadas em dados de microarray de alta dimensão com objetivo de auxiliar na análise de expressão gênica. Nesse contexto, foram aplicados três tipos de métodos de seleção de atributos: embutidos, baseados em filtro e baseados em wrapper, com intuito de realizar uma investigação acerca do impacto da utilização de diferentes abordagens de seleção de atributos para encontrar relações complexas entre informações de natureza biológica. Além da aplicação na bioinformática, algoritmos de seleção de atributos têm sido utilizados em outras aplicações do mundo real, como em Jaffel e Farah (2018), onde foi proposto um método de seleção de atributos baseado em um algoritmo de otimização combinatória para o treinamento de redes neurais, onde o principal objetivo era melhorar o desempenho de classificação de imagens de sensoriamento remoto por meio da escolha dos atributos mais relevantes.

Por outro lado, diferente do contexto de aplicações, alguns autores têm investigado formas de tornar o processo de seleção de atributos mais robusto através do uso de técnicas computacionais. Em Xue et al. (2016), foi explorada a aplicação de técnicas de compu-tação evolucionária (CE) na seleção de atributos, tendo como foco a elaboração de um survey, onde foi reunida uma pesquisa sobre o estado da arte acerca dos pontos fortes e fracos da aplicação da CE no campo da seleção de atributos. Em Yijing et al. (2016), os autores aplicaram a técnica de comitês de classificadores com seleção de atributos para classificação de dados desbalanceados. Nesse trabalho, o método proposto foi elaborado para lidar com o aprendizado de dados desbalanceados com múltiplas classes, onde a se-leção de atributos foi utilizada para selecionar os atributos mais relevantes a partir de dados desbalanceados.

No contexto de fusão, propostas como combinar algoritmos de seleção de atributos têm sido utilizadas com sucesso na literatura de reconhecimento de padrões, tais como em: (CHEN; LI, 2010), (PRATI, 2012), (SHEN; DIAO; SU, 2012) e (BIHL; TEMPLE; BAUER, 2016).

Em Chen e Li (2010), os autores propuseram um método de combinação de quatro mé-todos de redução de dimensionalidade (LDA, F-score, Rough sets theory (RST) e Árvore de Decisão) com SVM para uma aplicação de pontuação de crédito. Nessa abordagem,

(42)

cada método de seleção é aplicado sobre um conjunto de treinamento, obtendo-se ao final um subconjunto de atributos para cada método, que em seguida são avaliados individu-almente através de um wrapper. A combinação dos seletores de atributos ocorre por meio da escolha dos atributos que causam melhora na acurácia. Após definir o subconjunto de atributos mais relevante, um classificador baseado em SVM é treinado até que haja a otimização dos seus parâmetros de treinamento.

Prati (2012) propôs uma abordagem de combinação baseada na agregação de ran-kings, onde foram utilizados quatro técnicas de ranking: Borda Count, Condorcet, Schulze e Markov Chain (MC4). Nesse trabalho, os atributos são avaliados por seis medidas de relevância (Ganho de Informação, Taxa de Ganho, Incerteza Simétrica, Qui-quadrado, OneR e ReliefF ), e a partir do cálculo da relevância dos atributos são construídos os rankings para definição final da relevância dos atributos, baseada na posição em que se encontram nos rankings. Em comparação com a Fusão de Dados proposta nesta disserta-ção, a principal diferença entre a Fusão de Dados e o método proposto por Prati (2012), consiste na utilização de uma técnica de cálculo da relevância do atributo, proposta nesta dissertação, de acordo com a posição em que o atributo é ranqueado por algoritmos de seleção de atributos, provendo a fusão dos dados advindos de cada seletor de atributos. Diferentemente de Prati (2012), onde os autores fizeram uso rankings e filtros de relevância já propostos em outros trabalhos.

No trabalho proposto em Shen, Diao e Su (2012) é apresentado um método de fusão intitulado de "Feature Selection Ensemble" (FSE). O FSE é um método baseado em co-mitês que tem por objetivo a construção de um grupo de subconjuntos de atributos e, a partir disso, obter a agregação desse grupo. Segundo o autor do trabalho, Shen, Diao e Su (2012), "ao realizar a combinação de diversos subconjuntos de atributos pode remo-ver atributos irrelevantes, resultando em soluções compactas e eficientes". Nesse trabalho foram propostas três abordagens baseadas em FSE: (1) Algoritmo individual de busca estocástica; (2) Algoritmo individual com o Particionamento do Conjunto de Treino e (3) Mistura de Algoritmos. A partir dos FSE’s gerados, também foi desenvolvido um módulo para agregação da decisão, baseado na votação majoritária utilizada em comitês de clas-sificadores. Quando comparado ao FSE, a Fusão de Decisão proposta nesta dissertação, ao invés de criar um comitê de subconjuntos de atributos, utiliza a própria estrutura de comitês de classificadores como meio de fusão da decisão proveniente dos algoritmos de seleção. Dessa forma, nós utilizamos os benefícios da estrutura de comitês de classifica-dores para obter diferentes perspectivas da base dados, dado os subconjuntos de dados previamente reduzidos pelos seletores de atributos. A partir dessa estrutura, asseguramos

(43)

que cada classificador seja treinado com os atributos mais relevantes, de acordo com os algoritmos de seleção de atributos utilizados.

3.2 Seleção Dinâmica de Atributos e Classificadores

Por se tratar de um tópico novo na literatura, a seleção dinâmica não apresenta muitos trabalhos desenvolvidos. No entanto, podemos citar um outro viés da seleção dinâmica, a seleção dinâmica de atributos em comitês de classificadores. O único trabalho conhecido sobre a aplicação da seleção dinâmica de atributos no contexto de comitês de classificado-res foi desenvolvido por Nunes, Dantas e Xavier (2018), onde foi realizada uma extensão do trabalho proposto em Nunes et al. (2016), sendo proposto uma abordagem que permitiu o uso de seleção dinâmica de atributos no contexto de comitês de classificadores.

O processo de definição acerca do melhor, ou mais relevante, subconjunto de atributos impacta diretamente na construção de modelos de classificação. A utilização de técnicas robustas para seleção de atributos pode promover aspectos positivos no processamento de dados. Sendo alguns desses aspectos: a redução do custo computacional de criação do modelo de classificação; o aumento da precisão dos modelos gerados; e a promoção da interpretabilidade acerca da relação subjacente dos dados.

Podemos dividir os métodos de seleção de atributos como estáticos e dinâmicos. Na seleção estática de atributos, todo o conjunto de dados é considerado no processo de avaliação da relevância dos atributos, gerando ao final um único subconjunto de atributos para o treinamento do modelo de classificação. Como alternativa à seleção estática de atributos, em Nunes et al. (2016) foi proposto um método de seleção dinâmica de atributos. Segundo Nunes et al. (2016), a seleção dinâmica faz uso de um algoritmo de agrupamento para extrair o melhor subconjunto de atributos para cada partição criada, dessa forma os atributos selecionados podem variar radicalmente, de acordo com as instâncias contidas em cada grupo da partição. Essa abordagem faz uso de um critério de avaliação, neste caso a Correlação de Spearman, para calcular a relevância dos atributos para cada grupo da partição gerada. Além de promover a dinamicidade na avaliação da relevância dos atributos, na fase de teste, as instâncias de teste são associadas ao classificador mais similar através do uso de uma medida de similaridade através de uma métrica de distância, inicialmente utilizando a distância Euclidiana.

No trabalho realizado em Dantas, Nunes e Xavier (2017), os autores realizaram uma investigação acerca da variação do parâmetro da seleção dinâmica referente a medida de