Seleção dinâmica de atributos para comitês de classificadores

(1)

Departamento de Informática e Matemática Aplicada Programa de Pós-Graduação em Sistemas e Computação

Doutorado em Ciência da Computação

Seleção Dinâmica de Atributos para Comitês

de Classicadores

Rômulo de Oliveira Nunes

Natal-RN Fevereiro de 2019

(2)

Seleção Dinâmica de Atributos para Comitês de

Classicadores

Tese de Doutorado apresentada ao Programa de Pós-Graduação de Sistemas e Computa-ção da Universidade Federal do Rio Grande do Norte.

Orientadora

Prof

a

_{. Dr}

a

_{. Anne Magály de Paula Canuto}

UFRN Universidade Federal do Rio Grande do Norte DIMAp Departamento de Informática e Matemática Aplicada

Natal-RN Fevereiro de 2019

(3)

Nunes, Rômulo de Oliveira.

Seleção dinâmica de atributos para comitês de classificadores / Rômulo de Oliveira Nunes. - 2019.

125f.: il.

Tese (Doutorado) - Universidade Federal do Rio Grande do Norte, Centro de Ciências Exatas e da Terra, Programa de Pós-graduação em Sistemas e Computação. Natal, 2019.

Orientadora: Anne Magály de Paula Canuto.

1. Computação Tese. 2. Seleção dinâmica de atributos Tese. 3. Comitês de classificadores Tese. 4. Diversidade -Tese. I. Canuto, Anne Magály de Paula. II. Título.

RN/UF/CCET CDU 004

Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Ronaldo Xavier de Arruda - CCET

(4)

(5)

Classicadores

Autor: Rômulo de Oliveira Nunes Orientador(a): Profa_{. Dr}a_{. Anne Magály de Paula Canuto}

Resumo

Em aprendizado de máquina (AM), o pré-processamento dos dados tem como objetivo aprimorar a qualidade dos dados que serão utilizados, visando apresentá-los em uma forma adequada para a técnica de AM escolhida. A seleção de atributos é uma de suas principais etapas. Seu principal objetivo é escolher o subconjunto que melhor represente o conjunto de dados, permitindo a redução da dimensionalidade e um possível aumento na precisão dos classicadores. Existem diferentes abordagens para se realizar a seleção de atributos. A a Seleção Dinâmica é uma delas e parte do princípio de que cada instância é única e que melhores resultados são obtidos quando se seleciona um subconjunto de atributos para cada instância em vez de um único subconjunto para toda a base de dados. Uma vez que uma representação mais compacta dos dados foi selecionada, o próximo passo na classicação dos dados é a escolha do modelo a ser utilizado. Esse modelo pode ser formado por um único classicador ou por um sistema de combinação de classicadores, conhecido como Comitês de classicadores, que pode ser denido como a combinação múltiplos classicadores que serão utilizados para gerar uma resposta nal para o sistema através da combinação de suas respostas individuais. Para que esses sistemas apresentem melhor desempenho que um classicador individual é necessário promover a diversidade entre os componentes que formam o comitê, isto é, que os componentes do sistema não cometam erros nos mesmos padrões. Por este motivo, a diversidade tem sido considerada um dos aspectos mais importantes no projeto de comitês, já que não existe vantagem na combinação de métodos de classicação idênticos. O objetivo deste trabalho é utilizar a seleção dinâmica de atributos em sistemas de combinação de classicadores. Para isso, foram desenvolvidas três versões que realizam essa adaptação de maneira a gerar a di-versidade entre os classicadores base. As versões foram comparadas utilizando diferentes taxas de seleção e quantidade de classicadores, logo após, a melhor versão encontrada foi comparada com outros métodos encontrados na literatura.

(6)

Author: Rômulo de Oliveira Nunes Supervisor: Prof.a _Dr.a _{Anne Magály de Paula Canuto}

Abstract

In machine learning, the data preprocessing has the aim to improve the data quality, through to analyze and to identify of problems in it. So, the machine learning technique will receive the data of a good quality. The feature selection is one of the most important pre-processing phases. Its main aim is to choose the best subset that represents the dataset, aiming to reduce the dimensionality and to increase the classier performance. There are dierent features selection approaches, on of them is the Dynamic Feature Selection. The Dynamic Feature Selection selects the best subset of attributes for each instance, instead of only one subset for a full dataset. After to select a more compact data representation, the next step in the classication is to choose the model to classify the data. This model can be composed by a single classier or by a system with multiples classiers, known as Ensembles classier. These systems to combine the output to obtain a nal answer for the system. For these systems to get better performance than a single classier it is necessary to promote diversity between the components of the system. So, it is necessary that the base classiers do not make mistakes for the same patterns. For this, the diversity is considered one of the most important aspects to use ensembles. The aim of the work is to use the Dynamic Feature Selection in Ensembles systems. To this, three versions were developed to adapt this feature selection and to create diversity between the classiers of the ensemble. The versions were compared using dierent selection rates and ensemble sizes. After this, the best version was tested with other methods founded in literature. Keywords: Dynamic Feature Selection, Classication, Ensembles, Diversity.

(7)

Lista de guras

1 Processo de classicação . . . p. 21 2 Estrutura modular . . . p. 27 3 Estrutura Ensemble . . . p. 28 4 Estrutura metodológica retirada de (NUNES et al., 2016) . . . p. 35

5 Metodologia do experimento . . . p. 52 6 Gráco de violino para os resultados obtidos da análise do parâmetro W p. 68 7 Gráco de violino para os resultados obtidos da análise do parâmetro N p. 76 8 Gráco de violino para os resultados obtidos da análise dos tamanhos

dos comitês . . . p. 83 9 Gráco de violino para os resultados obtidos da análise das versões

de-senvolvidas . . . p. 86 10 Gráco de violino para os resultados obtidos da comparação entre as

duas versões determinísticas . . . p. 89 11 Gráco de violino para os resultados obtidos da comparação com outros

(8)

Lista de tabelas

1 Descrição das congurações. Tabela retirada de (DANTAS; NUNES et al.,

2017) . . . p. 37 2 Congurações executadas nos experimentos para cada versão . . . p. 53 3 Bases de Dados Usadas nos Experimentos . . . p. 58 4 Comparação entre os valores de W para a SD-R . . . p. 62 5 Resultado estatístico da comparação entre os valores de W para a SD-R p. 63 6 Comparação entre os valores de W para a SD-P . . . p. 64 7 Resultado estatístico da comparação entre os valores de W para a SD-P p. 65 8 Comparação entre os valores de W para a SD-D . . . p. 66 9 Resultado estatístico da comparação entre os valores de W para a SD-D p. 67 10 Comparação entre os valores de N para a SD-R . . . p. 70 11 Resultado estatístico da comparação entre os valores de N para a SD-R p. 71 12 Comparação entre os valores de N para a SD-P . . . p. 72 13 Resultado estatístico da comparação entre os valores de N para a SD-P p. 73 14 Comparação entre os valores de N para a SD-D . . . p. 74 15 Resultado estatístico da comparação entre os valores de N para a SD-D p. 75 16 Comparação entre os tamanhos do Comitê para a SD-R . . . p. 77 17 Resultado estatístico da comparação entre os tamanhos do Comitê para

a SD-R . . . p. 78 18 Comparação entre os tamanhos do Comitê para a SD-P . . . p. 79 19 Resultado estatístico da comparação entre os tamanhos do Comitê para

(9)

21 Resultado estatístico da comparação entre os tamanhos do Comitê para

a SD-D . . . p. 82 22 Comparação entre as versões desenvolvidas . . . p. 84 23 Resultado estatístico da comparação entre as versões desenvolvidas . . p. 85 24 Comparação entre a SD-D e a SD-D' . . . p. 87 25 Resultado estatístico da comparação entre a SD-D e a SD-D' . . . p. 88 26 Comparação entre a melhor versão encontrada e demais métodos . . . . p. 90 27 Resultado estatístico da comparação entre a melhor versão encontrada e

demais métodos . . . p. 91 28 SD-R: Média da acurácia - 5 Classicadores . . . p. 101 29 SD-R: Desvio Padrão - 5 Classicadores . . . p. 102 30 SD-R: Média da acurácia - 10 Classicadores . . . p. 103 31 SD-R: Desvio Padrão - 10 Classicadores . . . p. 104 32 SD-R: Média da acurácia - 15 Classicadores . . . p. 105 33 SD-R: Desvio Padrão - 15 Classicadores . . . p. 106 34 SD-R: Média da acurácia - 25 Classicadores . . . p. 107 35 SD-R: Desvio Padrão - 25 Classicadores . . . p. 108 36 SD-P: Média da acurácia - 5 Classicadores . . . p. 109 37 SD-P: Desvio Padrão - 5 Classicadores . . . p. 110 38 SD-P: Média da acurácia - 10 Classicadores . . . p. 111 39 SD-P: Desvio Padrão - 10 Classicadores . . . p. 112 40 SD-P: Média da acurácia - 15 Classicadores . . . p. 113 41 SD-P: Desvio Padrão - 15 Classicadores . . . p. 114 42 SD-P: Média da acurácia - 25 Classicadores . . . p. 115 43 SD-P: Desvio Padrão - 25 Classicadores . . . p. 116 44 SD-D: Média da acurácia - 5 Classicadores . . . p. 117

(10)

46 SD-D: Média da acurácia - 10 Classicadores . . . p. 119 47 SD-D: Desvio Padrão - 10 Classicadores . . . p. 120 48 SD-D: Média da acurácia - 15 Classicadores . . . p. 121 49 SD-D: Desvio Padrão - 15 Classicadores . . . p. 122 50 SD-D: Média da acurácia - 25 Classicadores . . . p. 123 51 SD-D: Desvio Padrão - 25 Classicadores . . . p. 124

(11)

Lista de abreviaturas e siglas

AM Aprendizado de Máquina k-NN k-Nearest Neighbour SVM Support Vector Machine EM Expectation Maximization PCA Principal Component Analysis LDA Linear Discriminat Analysis

CFS Correlation-based Feature Selection

LLCFS Feature Selection and Kernel Learning for Local Learning-Based Clustering FSV Feature Selection Via Concave Minimization

(12)

Sumário

1 Introdução p. 13 1.1 Motivação . . . p. 15 1.2 Objetivos . . . p. 16 1.3 Principais contribuições . . . p. 17 1.4 Organização do trabalho . . . p. 18 2 Conceitos Relacionados p. 20 2.1 Aprendizado de Máquina . . . p. 20 2.1.1 Aprendizado Supervisionado . . . p. 21 2.1.1.1 k-NN . . . p. 22 2.2 Aprendizado Não-Supervisionado . . . p. 23 2.2.1 k-Means . . . p. 23 2.3 Comitês de Classicadores . . . p. 25 2.3.1 Estrutura do Sistema . . . p. 26 2.3.2 Componentes do Sistema . . . p. 28 2.3.3 Método de combinação . . . p. 29 2.4 Seleção de atributos . . . p. 30 2.5 Considerações nais . . . p. 31 3 Trabalhos Relacionados p. 33 3.1 Seleção de atributos . . . p. 33 3.2 Seleção de atributos para comitês de classicadores . . . p. 37

(13)

3.4 Considerações nais . . . p. 40 4 Seleção Dinâmica de Atributos para Comitês de Classicação p. 41 4.1 SD-R: Seleção Dinâmica Baseada em uma Escolha Randômica Simples p. 41 4.1.1 Funcionamento . . . p. 44 4.2 SD-P: Seleção Dinâmica Baseada em uma Escolha Randômica Baseada

em Proporções . . . p. 47 4.3 SD-D: Seleção Baseada em uma Escolha Determinística . . . p. 48 4.3.1 Funcionamento . . . p. 49 4.4 Considerações nais . . . p. 50

5 Metodologia p. 51

5.1 Análise empírica . . . p. 51 5.2 Bases de dados utilizadas . . . p. 54 5.3 Métodos e materias . . . p. 58

6 Resultados p. 61

6.1 Considerações iniciais . . . p. 61 6.2 Comparação entre os valores de W . . . p. 62 6.2.1 Considerações sobre o parâmetro W . . . p. 67 6.3 Comparação entre os valores de N . . . p. 69 6.3.1 Considerações sobre o parâmetro N . . . p. 75 6.4 Comparação entre os tamanhos do comitê . . . p. 76 6.4.1 Considerações sobre os tamanhos de comitês utilizados . . . p. 82 6.5 Comparação entre as três versões desenvolvidas . . . p. 83 6.5.1 Considerações sobre as versões desenvolvidas . . . p. 85 6.6 Comparação entre as duas versões da SD-D . . . p. 86

(14)

7 Conclusão p. 93 7.1 Considerações Finais . . . p. 93 7.1.1 Trabalhos Futuros . . . p. 94

Referências p. 95

Apêndice A -- Resultados obtidos para todas as congurações testadas p. 101 A.1 SD-R: Seleção Dinâmica Baseada em uma Escolha Randômica Simples p. 101 A.2 SD-P: Seleção Dinâmica Baseada em uma Escolha Randômica Baseada

em Proporções . . . p. 109 A.3 SD-D: Seleção Dinâmica Baseada em uma Escolha Determinística . . . p. 117

(15)

1 Introdução

Em diversas áreas de conhecimento, sejam elas acadêmicas ou industriais, os sistemas informatizados fazem uso de um elevado volume de dados. Analisar esses grandes volumes de dados e encontrar algum signicado entre eles é uma tarefa complexa, que visa trans-formar dados brutos em informações dotadas de relevância e propósito (SOMASUNDARAM; SHRIVASTAVA et al., 2009).

O ser humano sempre construiu o seu conhecimento através da observação de padrões e da construção de hipóteses para descobrir como os fatos e eventos sobre um determinado assunto se relacionam. Com o aumento do volume dos dados e das diversas fontes onde os mesmos podem ser obtidos, aumenta-se também a diculdade de entendê-los. Sendo assim, o processo de descoberta da informação relevante pode ser melhor desenvolvido de forma automática, com a ajuda de um computador, através da utilização de métodos de Aprendizado de Máquina, possibilitando o entendimento e o bom uso dessas informações durante uma tomada de decisão. O Aprendizado de Máquina constitui um importante campo da computação cujo objetivo é explorar e analisar bancos de dados, com o intuito de ltrar, entender o que é relevante e utilizar essas informações da melhor maneira possível para avaliar os resultados obtidos (MITCHELL et al., 1997).

Uma das principais tarefas do Aprendizado de Máquina é a classicação. Essa tarefa é aplicada em um conjunto de dados formado basicamente por atributos e instâncias. Um atributo é uma característica que descreve um padrão (instância) da base de dados. Cada instância possui um atributo especial chamado atributo classe, que é utilizado para identicar uma instância entre as diferentes categorias que um determinado problema possui. Assim, o objetivo de um algoritmo de classicação é analisar as instâncias de uma base de dados para criar um modelo capaz de determinar a qual classe uma nova instância pertence (MITCHELL et al., 1997).

Inicialmente, um único classicador era utilizado para classicar as novas instâncias durante o processo de classicação. Com o passar do tempo, tem sido observado que a

(16)

combinação de diferentes classicadores para resolver um mesmo problema tem obtido melhores resultados do que quando um único classicador é utilizado (KUNCHEVA, 2004).

A ideia principal consiste em combinar diversos especialistas (classicadores) para re-solver um determinado problema. Essa abordagem que combina diferentes métodos de classicação é conhecido por Comitês de Classicadores.

Diversos trabalhos que mostram o ganho de desempenho através da utilização da combinação de classicadores são encontrados na literatura (HUANG et al., 2017;COLETTA et al., 2015; LEMIEUX; PARIZEAU, 2003; BEN-YACOUB; ABDELJAOUED; MAYORAZ, 1999; ZHOU, 2002). Esses sistemas são compostos por classicadores individuais que possuem suas saídas combinadas por um método de combinação para determinar a qual classe uma determinada instância de teste pertence. Um dos princípios desse sistema é a diversidade entre seus classicadores, isto é, os classicadores devem possuir comportamentos distintos para poderem explorar diferentes aspectos do problema.

A diversidade buscada durante a construção de sistemas de combinação pode ser en-contrada de diversas formas, como: diferentes algoritmos de classicação, variados conjun-tos de treinamento, diferentes parâmetros de conguração dos classicadores, conjunconjun-tos de atributos distintos, etc. O ideal é que cada classicador possua erros e acertos comple-mentares que auxiliem no processo de tomada de decisão. Caso contrário, o uso de um único classicador seria a escolha menos custosa para o problema.

Antes de qualquer processo de classicação, seja ele utilizando um único classicador ou um sistema de combinação, é necessário vericar a qualidade dos dados. O grande volume de dados e as diferentes fontes de obtenção dos mesmos podem gerar dados im-próprios para serem utilizados em um determinado método de mineração de dados. Esse processo ocorre durante a fase de pré-processamento de dados, que tem como objetivo a preparação dos dados para os algoritmos que serão utilizados no processo de aprendizado de máquina.

Uma das principais etapas da fase de pré-processamento é a seleção de atributos. O aumento no tamanho dos dados faz com que essa etapa tenha um importante papel para o bom desempenho dos métodos de classicação de dados. Dependendo do problema a ser resolvido, é possível que alguns atributos possuam pouca relevância para o que se deseja classicar, bem como pode ocorrer de atributos possuírem o mesmo signicado entre eles. A etapa de seleção de atributos tem por objetivo identicar esses atributos e removê-los da base de dados (CHANDRASHEKAR; SAHIN, 2014).

(17)

seja denido um subconjunto de atributos que possua melhor capacidade de trabalhar com o problema a ser resolvido. Além da melhora em termos preditivo, ocorre também uma redução na dimensionalidade dos dados, o que acarreta em uma melhor representati-vidade do problema, uma necessidade de uma menor capacidade de armazenamento e uma melhora no processamento computacional dos algoritmos de aprendizado de máquina. Vá-rios estudos mostram que a redução dos atributos irrelevantes e redundantes melhora o desempenho dos modelos criados pelos classicadores (GUYON; ELISSEEFF, 2003). Assim,

o principal objetivo de um método de seleção de atributos é encontrar um subconjunto de atributos que represente os dados de uma forma tão eciente quanto uma base de dados por completo.

Os métodos de seleção de atributos que comumente aparecem em trabalhos na lite-ratura selecionam um único subconjunto de atributos para representar toda uma base de dados. Partindo do pressuposto de que cada instância é única, e que um atributo pode ser mais impactante para uma determinada instância do que para outra, a seleção de atributos dinâmica seleciona um subconjunto de atributos para cada instância ou para cada grupo de instâncias, sendo assim, vários subconjuntos de atributos são selecionados, um para cada instância presente na base de dados.

Assim como em problemas que utilizam um único classicador, a seleção de atributos é amplamente utilizada para sistemas de combinação de classicadores (SEIJO-PARDO et al., 2017; ONAN, 2016; NOVAKOVIC, 2014). Em comitês de classicadores homogêneos,

ou seja, formados por um mesmo tipo de classicador, a seleção de atributos, além de promover todos os seus benefícios citados anteriormente, serve como diversicador dos classicadores. Uma maneira de aplicar a seleção de atributos a um comitê é selecio-nar diferentes subconjuntos de atributos, uma para cada classicador, produzindo assim, diferentes resultados entre os classicadores base.

1.1 Motivação

Alguns métodos de aprendizado de máquina possuem seu desempenho afetado pela presença de atributos irrelevantes, como o k-NN. A seleção de atributos é uma das prin-cipais etapas de pré-processamento e possui um impacto signicativo na capacidade pre-ditiva dos classicadores.

Diversos métodos que realizam a seleção de atributos, seja para classicação ou para formar os melhores grupos, já foram propostos na literatura (ZHENG; WANG, 2018; KUO

(18)

et al., 2014; NAKANISHI, 2015; HIRA; GILLIES, 2015; WEI et al., 2017; ABUALIGAH et al.,

2017; ABUALIGAH; KHADER, 2017). Em (NUNES et al., 2016) uma nova abordagem de

realizar essa seleção foi proposta. Tal abordagem, chamada seleção dinâmica, seleciona diversos subconjuntos de atributos, um para cada instância ou grupo de instâncias. A seleção dinâmica conseguiu obter excelentes resultados quando comparado com métodos já consolidados na literatura, tando para métodos de seleção quanto para de extração de atributos.

A seleção dinâmica mostrou-se bastante adequada para sistemas com um único classi-cador. Além disso, diversos trabalhos mostram a melhora no resultado nal da classicação quando se utiliza um sistema de combinação de múltiplos classicadores. Ambas as abor-dagens apresentam resultados promissores quando usadas individualmente, porém não foram ainda exploradas de maneira integrada. Sendo assim, a principal motivação deste trabalho é promover integração dessas duas abordagens, Seleção Dinâmica de atributos e Comitês de classicação.

1.2 Objetivos

O principal objetivo deste trabalho é aumentar a eciência em termos de desempenho e dimensionalidade do processo de classicação de dados. Para isto, este trabalho visa propor técnicas que realizem a integração da seleção dinâmica de atributos, proposta em (NUNES et al., 2016), com sistemas de combinação de classicadores. A seleção de atributos

para sistemas de combinação de classicadores é uma das formas de diversicar o comitê. Esse processo ocorre através da seleção de subconjuntos diferentes de atributos para cada classicador.

O uso da seleção dinâmica permitirá utilizar diversos subconjuntos de atributos para classicar uma única instância, obtendo diferentes resultados que ao serem combinados gerem um maior ganho na capacidade preditiva do sistema como um todo. Além disso, será investigado a melhor maneira de se fazer essa diversicação, bem como se a quantidade de classicadores base tem impacto signicativo durante o uso dessas técnicas.

Assim, integrando essas técnicas é esperado que obtenhamos uma abordagem eci-ente da utilização da Seleção Dinâmica de Atributos para comitês de classicação. Essa integração é realizada selecionando diferentes subconjuntos para cada classicador, sub-conjuntos esses que são utilizados na classicação de uma única instância. Assim, para cada instância de teste a um comitê com N classicadores, haverá N subconjuntos de

(19)

atributos selecionados para serem utilizados na classicação.

Utilizando esse conjunto formado pelo método de seleção dinâmica de atributos e comitês de classicadores é esperado um ganho signicativo no que se refere ao desem-penho de classicação em um conjunto de dados, principalmente pelo fato de analisar cada instância individualmente e selecionar os melhores conjuntos de atributos para a mesma. Neste trabalho, o termo desempenho está associado unicamente a acurácia de classicação, sem levar em consideração fatores como o tempo de processamento.

1.3 Principais contribuições

O desenvolvimento deste trabalho passou por várias etapas que resultaram nas publi-cações que serão apresentadas a seguir.

Inicialmente, duas versões da seleção dinâmica para atributos foram criadas, uma supervisionada, que utilizava o k-NN como método de seleção de atributos, e outra não-supervisionada, que utilizava o k-Means. Experimentos iniciais, mostraram que a versão não-supervisionada obteve os melhores resultados em termos de acurácia quando compa-radas entre si. Em seguida, diversos experimentos, envolvendo os principais parâmetros da seleção dinâmica (principalmente o algoritmo de agrupamento utilizado) foram realizados, a m de avaliar a sua viabilidade. Os resultados podem ser visualizados no artigo:

• NUNES, R. O.; DANTAS, C. A.; CANUTO, ANNE M.P.; XAVIER-JUNIOR, JOÃO C. .An Unsupervised-based Dynamic Feature Selection for Classication tasks. In: IEEE World Congress on Computational Intelligence (IEEE WCCI), 2016, Vancou-ver. International Joint Conference on Neural Networks (IJCNN) 2016. New York: IEEE, 2016. v. 1. p. 4213-4220.

A Seleção Dinâmica de atributos, proposta anteriormente, selecionava os melhores atributos para um grupo de instâncias. Buscando uma maior dinamicidade, uma nova versão foi proposta. A nova seleção dinâmica utilizada todos os grupos para selecionar os atributos mais importantes para uma única instância, utilizando uma proporção de atributos de cada grupo, estabelecida similaridade entre a instância e os grupos formados. Assim, foi produzido o seguinte artigo:

• DANTAS, C. A. ; NUNES, ROMULO DE O. ; CANUTO, A. M. P.; XAVIER JU-NIOR, Joao Carlos. Dynamic Feature Selection Based on Clustering Algorithm and

(20)

Individual Similarity. In: International Conference on Articial Neural Networks, 2017, Alghero, Sardinia, Italia. LNCS proceedings of ICANN 2017. Berlin: Springer, 2017. v. 10614. p. 1.

Dois dos mais importantes parâmetros utilizados na seleção dinâmica, são o critério de avaliação e a medida de similaridade. Esses parâmetros foram os objetos de estudo no seguinte artigo:

• NUNES, ROMULO DE O. ; DANTAS, C. A. ; CANUTO, A. M. P. ; XAVIER JU-NIOR, Joao Carlos. Investigating the Impact of Similarity Metrics in an Unsupervised-based Feature Selection Method. In: BRACIS - Brazilian Conference on Intelligent Systems, 2017, Uberlandia. IEEE proceedings of BRACIS, 2017. v. 1. p. 1.

Em seguida, a seleção dinâmica foi aplicada de maneira integrada com métodos de seleção de comitês, gerando um sistema completamente dinâmico:

• DANTAS, C. A. ; NUNES, ROMULO DE O. ; CANUTO, A. M. P.; XAVIER JU-NIOR, Joao Carlos: Evaluating the Dynamicity of Feature and Individual Classiers Selection in Ensembles of Classiers. In: IEEE World Congress on Computational Intelligence (IEEE WCCI), 2018, Rio de Janeiro. International Joint Conference on Neural Networks (IJCNN) 2018.

Paralelamente, o trabalho em questão estava sendo desenvolvido. Uma das versões iniciais foi fruto do estudo utilizado no seguinte artigo:

• NUNES, R. O.; DANTAS, C. A.; CANUTO, ANNE M.P.; XAVIER-JUNIOR, JOÃO C. Dynamic Feature Selection for Ensemble Classier. In: BRACIS - Brazilian Con-ference on Intelligent Systems, 2018, São Paulo.

1.4 Organização do trabalho

O restante deste trabalho está organizado em 7 capítulos: O Capítulo 2 apresenta os principais conceitos utilizados para o desenvolvimento deste trabalho. Capítulo 3 mostra alguns estudos relacionados com o tema deste trabalho, apresentando uma visão geral do que foi desenvolvido da seleção dinâmica de atributos e alguns trabalhos que realizam a seleção de atributos aplicados à sistemas de combinação de classicadores.

(21)

O Capítulo 4 apresenta as três versões propostas, enquanto o Capítulo 5 mostra a metodologia aplicada aos experimentos realizados. Os resultados preliminares obtidos são apresentados no Capítulo 6, enquanto os Capítulos 7 apresenta as considerações nais, incluindo os trabalhos futuros.

(22)

2 Conceitos Relacionados

Este capítulo tem a nalidade de apresentar os principais fundamentos teóricos que foram utilizados durante a concepção deste trabalho.

2.1 Aprendizado de Máquina

Aprendizado de Máquina - AM é uma das principais áreas da Inteligência Articial. Seu principal foco é utilizar/desenvolver algoritmos que sejam capazes de aprender o conhecimento de forma automática, obtendo informações úteis de um conjunto de dados (MITCHELL et al., 1997).

O aumento da complexidade dos problemas a serem tratados e o grande volume de dados gerados de diferentes fontes de conhecimento, torna necessária a utilização de méto-dos computacionais que consigam realizar o processo de aquisição do conhecimento, sem a necessidade da interferência de um especialista, utilizando apenas as informações passadas para gerar mecanismos que sejam capazes de resolver um determinado problema.

AM pode ser aplicado em diversas áreas, tais como diagnósticos médicos, análise de crédito, reconhecimento de voz, reconhecimento de padrões, processamento de linguagem natural dentre outras. Existem diversos algoritmos que são utilizados para criar aplica-ções em AM, onde o principal objetivo é adquirir a capacidade de generalização, isto é, obter conclusões genéricas a partir de um conjunto de exemplos utilizados para que novos problemas do mesmo domínio sejam resolvidos por meio de indução.

Esse conjunto de exemplos forma o que chamamos de conjunto de dados, ou base de dados. Cada exemplo representa uma instância do problema a ser resolvido. Cada instância é representada por um conjunto de propriedades/características que a descreve, chamada de atributos. Os atributos são campos que armazenam os diferentes valores que as características de uma instância deve conter, diferenciando os exemplos que formam o conjunto de dados.

(23)

A maioria desses métodos podem ser divididos em duas abordagens, aprendizado supervisionado e aprendizado não supervisionado (MITCHELL et al., 1997).

2.1.1 Aprendizado Supervisionado

No aprendizado supervisionado, cada instância possui um atributo especial, chamado atributo classe, que tem como objetivo associar a instância a uma determinada categoria. Esse tipo de aprendizado induz um modelo, cujo treinamento é realizado com uma base de dados em que cada uma das observações possui a classe que ela pertence.

Durante a criação do modelo, as saídas previstas são comparadas com os valores esperados (valor do atributo classe) e, conforme os resultados obtidos, os parâmetros são alterados até que se encontre um resultado desejável. Assim, o modelo criado será capaz de classicar novas observações de forma eciente, com base no aprendizado obtido com o seu treinamento.

O objetivo da adoção de aprendizado supervisionado é criar, através do algoritmo, um classicador que tem por objetivo a criação de um estimador através de exemplos rotulados. Este estimador será utilizado para atribuir o valor de uma das possíveis classes (ou um valor real) a uma instância não rotulada, como mostra a Figura 1.

Figura 1: Processo de classicação

O objetivo do classicador é a correta associação entre os instâncias não rotuladas e as possíveis classes do problema em questão. A avaliação do classicador pode ser realizada de diversas maneiras, dependendo da propriedade que se deseja alcançar para avaliar

(24)

o quão bom um classicador é para a tarefa em questão. São exemplos de medida de avaliação do aprendizado de um classicador: Acurácia de classicação (porcentagem de instâncias classicadas corretamente), tempo de treinamento, tempo de teste, etc.

2.1.1.1 k-NN

O k-NN (k-Nearest Neighbour) é uma das técnicas de aprendizado de máquina mais simples e utilizadas na literatura. Consiste em um método baseado em instâncias que leva em consideração os k vizinhos mais próximos de uma instância para classicá-la (MITCHELL et al., 1997). Assim como outros métodos baseados em distância, esse

algo-ritmo parte do princípio de que os padrões similares tendem a estar localizados em uma mesma região do espaço de entrada. Partindo da mesma ideia, então, padrões com baixa similaridade estarão distantes entre si.

Esse algoritmo parte do pressuposto de que todos os padrões (instâncias) de uma base de dados são pontos presentes no espaço n-dimensional Rn _{denidos através dos}

seus atributos. Sendo assim, é possível calcular a distância entre os pontos nesse espaço. Idealmente, a métrica de distância escolhida deve ser adaptada de acordo com o problema que se deseja resolver (CARVALHO et al., 2011), porém a maioria dos k-NNs encontrados na

literatura, utilizam a distância euclidiana como métrica. A distância euclidiana é denida pela Equação (2.1).

Para duas instâncias X = x1, x2, ..., xn e Y = y1, y2, ..., yn, onde n é a quantidade de

atributos, a distância euclidiana d é (DANIELSSON, 1980):

d(X, Y ) = v u u t n X i=1 (xi− yi)2 (2.1)

Para cada padrão p que se deseja rotular, se calcula a distância entre p e todos os outros presentes no espaço em questão. Os k padrões mais próximos (Nearest Neighbours) serão utilizados para determinar a classe de p. O valor do atributo classe mais presente nas instâncias que formam o conjunto de vizinhos mais próximos será o escolhido para rotular o padrão p.

A escolha do valor de k para um problema de classicação pode não ser trivial. Esse valor é denido pelo usuário e costuma ser um valor pequeno e ímpar, para evitar empates (CARVALHO et al., 2011). Essa escolha deve ser feita com cautela, pois um valor muito pequeno pode deixar o método sensível a ruído, enquanto um valor grande pode

(25)

fazer com que padrões de outras classes sejam escolhidos para o conjunto de vizinhos mais próximos.

O k-NN não possui um processo de treinamento explícito, isto é, a cada padrão que se deseja classicar é necessário calcular a distância desse objeto para todos os demais. Assim, a predição pode ser custosa para um grande conjunto de dados. Outro fator negativo é o fato de assim como todos os algoritmos baseados em distâncias, o mesmo é afetado pela presença de atributos redundantes e/ou irrelevantes (CARVALHO et al., 2011). Mesmo

assim, devido a sua simplicidade e eciência, o k-NN consiste em um dos algoritmos de classicação e regressão mais utilizados na literatura.

2.2 Aprendizado Não-Supervisionado

Por outro lado, o aprendizado do tipo não supervisionado não contém a informação de qual classe a observação pertence, ou seja, o treinamento do modelo não possui nenhum conhecimento prévio. Portanto, o objetivo do aprendizado não supervisionado é encontrar regularidades ou categorias nos dados, assim como, relações entre os padrões para extrair as informações necessárias.

A principal técnica não-supervisionada é o agrupamento de dados (LINOFF; MICHAEL,

2000). Algoritmos de agrupamento são métodos de aprendizado de máquina cujo objetivo é separar objetos em grupos, baseando-se nas características que os mesmos possuem. O funcionamento principal se baseia em colocar em um mesmo grupo objetos que sejam similares entre si através da utilização de alguma métrica pré-estabelecida.

Um bom agrupamento é encontrado quando os objetos de um mesmo grupo possuem uma alta homogeneidade, ou seja, são bastante similares entre si. Além disso, se deseja encontrar entre os diferentes grupos formados uma alta heterogeneidade externa, ou seja, que elementos de um grupo sejam bastante diferentes dos componentes dos demais grupos.

2.2.1 k-Means

O k-Means é um algoritmo de agrupamento iterativo que particiona os dados em uma quantidade de k grupos distintos. O valor do parâmetro k é denido a priori, ou seja, o k-Means forma a quantidade de grupos que o usuário deseja (LINOFF; MICHAEL, 2000).

Os dados são agrupados pela similaridade entre as instâncias e os centros de cada um dos k grupos. Ou seja, a distância entre o padrão e os centros dos grupos são calculadas, e

(26)

a mesma é alocada ao grupo mais próximo. O centro do grupo é denominado de centroide. O centroide c para um conjunto de n pontos pi = (xi, yi) no plano, para todo i =

1, ..., n, é o ponto médio em relação aos n pontos deste conjunto:

c = (¯x, ¯y) (2.2) em que: • ¯x = Pn i=1xi n ; • ¯y = Pn i=1yi n ;

Essa denição pode ser expandida para além de duas dimensões no espaço.

A principal ideia do algoritmo k-Means é denir k centroides, um para cada grupo. Os centroides iniciais são denidos aleatoriamente. Em seguida, o método aloca cada uma das instâncias ao grupo do centroide mais próximo. Quando todas as amostras já possuí-rem grupo, os centroides são recalculados através de (2.2) e as instâncias são novamente associadas a um grupo. Esse processo ocorre até o momento em que não houver alteração nos centroides. Os principais aspectos do k-Means serão descritos a seguir.

Parâmetros:

• k: número de grupos; • n: número de instâncias;

• a: quantidade de atributos em cada instância;

• vi = {vi1, vi2, ..., via}: vetor que representa o valor dos a atributos para cada instância

i (i = 1, 2, ..., n); Variáveis:

• cj = {cj1, cj2, ..., cja}: Vetor que representa o valor dos a atributos para cada

cen-troide j (j = 1, 2, ..., k);

• gij: Representa a qual centroide j a instância i está associada;

O objetivo do algoritmo k-Means é classicar um conjunto de n instâncias em k grupos de forma a minimizar a função objetivo F (2.3):

(27)

F = k X j=1 n X i=1 gij(kvi− cjk)2 (2.3)

em que, (kvi− cjk)2 representa qualquer medida de distância utilizada entre a

instân-cia i e o centroide j.

Pode-se visualizar os passos do k-Means através do Algoritmo 1: Algoritmo 1 Algoritmo do método de agrupamento k-Means

1: procedure k-Means 2: Entrada: k, v, n, a

3: Denir aleatoriamente cj para todo j = 1, ..., k

4: repetir

5: para i = 1, ..., n faça

6: Associar a instância i ao centroide j mais próximo (gij);

7: m para

8: para j = 1, ..., k faça

9: Recalcular os novos centroides cj com relação aos atributos das instâncias

10: que pertencem ao cada grupo j; 11: m para

12: até que cj não for alterado para todo j = 1, ..., k

13: retorna g; 14: m procedure

2.3 Comitês de Classicadores

Geralmente, durante qualquer processo de tomada de decisões, sejam elas médicas, nanceiras, sociais, entre outras, é comum procurarmos sempre uma segunda opinião, ou quantas forem necessárias, para auxiliar-nos durante a escolha que será realizada. A partir desse conjunto de opiniões, é esperado que obtenhamos uma opinião nal melhor, bem mais informada, do que todas as opiniões avaliadas isoladamente. Diferentes propostas de uma solução podem levar em consideração aspectos distintos relevantes de um mesmo problema, o que não aconteceria se fosse avaliado apenas uma única proposta. A ideia de combinar diferentes soluções para resolver um único problema, pode ser utilizada também no processo de classicação através da combinação de diversos algoritmos de classicação, conhecido como Comitês de classicadores ou Sistemas multi-classicadores (KUNCHEVA,

2004).

O desempenho obtido por um classicador depende de diversos fatores referentes a maneira de como os dados que se desejam classicar se encontram. Pode-se dizer que não

(28)

existe o classicador perfeito para todas as situações e tipos de problemas, ou seja, todos os classicadores apresentam pontos fortes e fracos. Alguns fatores podem fazer com que os algoritmos de classicação apresentem desempenhos diferentes, como o tamanho dos dados, o tipo dos dados, a relevância dos atributos, a presença de atributos redundantes, entre outros fatores. Diversas pesquisas tem mostrado que a combinação dos resultados de diversos classicadores é capaz de obter melhores resultados do que as de um único classicador (KUNCHEVA, 2004), combinando as vantagens e superando as limitações dos

classicadores utilizados.

Durante o processo de criação de um Sistema de Combinação de classicadores, três aspectos principais devem ser levados em consideração: a estrutura do Sistema, os com-ponentes do Sistema e o método de combinação.

2.3.1 Estrutura do Sistema

A estrutura do sistema é responsável por denir como os componentes estão organi-zados e interagem dentro do sistema. Pode ser classicado em duas categorias: modular e ensembles.

Na arquitetura modular é utilizado o princípio de "dividir para conquistar", onde um problema inicial é decomposto em diversas sub-tarefas, tornando cada método um especialista em um aspecto do problema. Cada especialista executa uma sub-tarefa e a combinação das soluções obtidas são combinadas para determinar a saída nal do sistema. Uma representação da arquitetura modular é apresentada na Figura 2.

(29)

Figura 2: Estrutura modular

Os ensembles, por sua vez, utilizam a combinação de modelos paralelos e redundan-tes, tendo em vista que, todos os classicadores que formam o sistema de combinação executam a mesma tarefa. Essa arquitetura explora as diferenças entre os classicadores base, buscando a diferentes maneiras de se resolver um mesmo problema que possibili-tem a obtenção de informações complementares sobre os padrões que serão classicados. Essa utilização de diferentes modelos para gerar uma saída baseada na combinação de diferentes opiniões torna o sistema mais robusto e tolerante a falhas (BRAGA, 2005). Uma

(30)

Figura 3: Estrutura Ensemble

2.3.2 Componentes do Sistema

Após a escolha da arquitetura do Sistema, é necessário denir os componentes (classi-cadores) que o compõe. A utilização de classicadores idênticos, que obtenham a mesma resposta, não produz nenhum benefício para a classicação. Um dos principais fatores bus-cados na hora de escolher os componentes do sistema é a diversidade, que busca atingir um nível em que os classicadores obtenham diferentes erros durante a classicação. Essa combinação de classicadores pode ser realizada através de duas abordagens: homogênea e heterogênea (BIAN; WANG, 2007).

• Comitês homogêneos: Esta abordagem utiliza apenas um único método de apren-dizagem para a construção do sistema de classicação. Para obter diversidade uti-lizando apenas uma única técnica, é necessário utilizar diferentes parâmetros para que assim, modelos distintos sejam gerados para cada classicador. Em um comitê formado apenas por k-NNs, por exemplo, para obter a diversidade pode-se variar o valor do parâmetro k. Outra maneira de obter a diversidade com classicadores homogêneos é a utilização de diferentes conjuntos de treinamento, seleção de pa-drões distintos para cada classicador ou a utilização de métodos de distribuição de atributos para cada componente do sistema (SANTANA, 2012).

(31)

• Comitês heterogêneos: Esta abordagem utiliza diferentes algoritmos de aprendiza-gem em um mesmo conjunto de treinamento. Sua diversidade é obtida pelos dife-rentes modelos criados a partir de cada método de classicação utilizado, buscando tirar vantagens dos pontos fortes de cada classicador.

2.3.3 Método de combinação

Após a escolha da estrutura e dos componentes do sistema, o próximo passo é a deni-ção de uma maneira efetiva de combinar os seus resultados. As estratégias de combinadeni-ção discutidas na literatura são: seleção e fusão (CANUTO et al., 2007).

Na seleção apenas um classicador é responsável pela saída do sistema. A ideia de utilizar a seleção é a de que cada classicador é um especialista e que o classicador esco-lhido para indicar a saída do sistema será o mais capacitado para classicar determinado padrão de entrada.

Na fusão as saídas de cada classicador base são usadas em conjunto para determinar a saída geral do sistema. Todos os classicadores participam do processo de tomada de decisão. Uma função é aplicada as saídas dos classicadores para combinar os resultados e obter uma opinião geral sobre a saída do sistema, determinando assim, o consenso do grupo sobre a classe de uma determinada instância. Pode-se citar como exemplos os seguintes métodos:

• Voto Majoritário (KUNCHEVA et al., 2003): Consiste em uma regra de decisão simples,

onde, quando uma instância de teste é apresentada ao comitê, cada classicador vota em uma determinada classe. A classe escolhida é aquela que obtiver a maior quantidade de votos.

• Soma (KITTLER; ALKOOT, 2003): Método de combinação linear, onde, quando uma

instância de teste é apresentada ao comitê, os valores de saída correspondentes a cada classe (nível de conança) são somados. A classe cuja soma resultante for a mais elevada, é declarada vencedora.

• Média (KUNCHEVA, 2002): Método de combinação linear, onde, quando uma

instân-cia de teste é apresentada ao comitê, a média dos valores de saída correspondentes a cada classe (nível de conança) são obtidas. A classe cuja média resultante for a mais elevada, é declarada vencedora.

(32)

• Máximo (KUNCHEVA, 2002): Método de combinação linear, onde, quando uma

ins-tância de teste é apresentada ao comitê, os valores de saída correspondentes a cada classe (nível de conança) são calculados. A classe que possuir o maior (Máximo) valor, é declarada vencedora.

2.4 Seleção de atributos

Para que se obtenha um resultado desejável ao se aplicar os métodos de aprendizado de máquina a um conjunto de dados, é necessário que esses dados apresentem uma boa qualidade. Devido ao grande volume de dados e as diversas fontes de obtenção dos mesmos, pode ser necessário a realização de um pré-processamento para deixar os dados adequados para o método que irá utiliza-los. Uma das principais etapas da fase de pré-processamento é a seleção de atributos, que consiste em uma etapa fundamental para se obter sucesso em tarefas de classicação e agrupamento (WITTEN et al., 2016).

O conjunto de atributos descreve as características das instâncias de um determinado problema. Pode ocorrer de alguns desses atributos trazerem pouca relevância para a tarefa que se deseja realizar durante o processo de classicação, bem como é possível a presença de atributos redundantes.

Para solucionar esse problema é necessário a ajuda de um especialista para identicar quais atributos mais contribuem para a resolução do problema. Porém, com o aumento do tamanho dos dados, surgiu a necessidade de se produzir métodos automáticos que sejam capazes de realizar essa tarefa, substituindo o especialista e obtendo um melhor desempenho em tempo de processamento. Esses métodos são chamados de Métodos de Seleção de Atributos, que tem como principal objetivo identicar e remover os atributos redundantes e/ou irrelevantes da base de dados (JAIN; ZONGKER, 1997).

Através da seleção dos atributos mais relevantes é possível atingir os seguintes obje-tivos:

• Reduzir da dimensionalidade dos dados: aumentando a velocidade do algoritmo e utilizando menos armazenamento para os dados.

• Melhorar na performance: a qualidade dos atributos escolhidos para o processo de classicação está diretamente ligada a capacidade preditiva, permitindo um maior ganho em termos de acurácia.

(33)

melhor entendimento da organização dos dados e de como os mesmos interferem no resolução do problema.

Diferentes abordagens de seleção de atributos podem ser consideradas, as duas prin-cipais são: Filtro e Wrapper (LAW; FIGUEIREDO; JAIN, 2004). Na abordagem por Filtro, a

ideia principal é selecionar os atributos mais importantes através de algum critério esco-lhido. Essa seleção considera as características gerais do conjunto de dados para selecionar os melhores atributos. Sendo assim, métodos de ltro são independentes do algoritmo de classicação que utilizará o novo conjunto de dados, contendo as instâncias sem a presença dos atributos que foram descartados.

Na abordagem por Wrapper, o próprio classicador é utilizado para avaliar a qualidade dos subconjuntos de atributos selecionados. Isto é, um método de busca é utilizado para percorrer todo o espaço dos possíveis subconjuntos de atributos que possam ser utilizados, para cada subconjunto o classicador é treinando, e seu resultado indicará a qualidade do subconjunto avaliado. Esse processo se repete diversas vezes, até que um critério de parada seja satisfeito. Assim, o algoritmo de seleção retornará o subconjunto de atributos que obteve um melhor desempenho durante a avaliação. Esse tipo de abordagem possui um elevado custo de computacional, devido às repetidas execuções do classicador para avaliar a qualidade dos subconjuntos de atributos obtidos durante o processo de busca. Para diminuir essa limitação, estratégias envolvendo heurísticas e meta-heurísticas são comumente utilizadas para solucionar os subconjuntos de atributos que serão avaliados.

Independente da abordagem utilizada, o processo de seleção de atributos é uma das principais etapas de pré-processamento e tem um papel importante nos problemas de classicação, permitindo que se obtenha um melhor desempenho através da redução da dimensionalidade dos dados e da utilização do subconjunto de atributos que melhor re-presente o conjunto de dados geral.

2.5 Considerações nais

Neste Capítulo foram apresentados os principais conceitos que foram utilizados para o desenvolvimento desta proposta. Inicialmente, um conceito geral sobre Aprendizado de Máquina foi apresentado, através da apresentação da divisão do mesmo em Aprendizado Supervisionado e Não-Supervisionado. Para cada um dos aprendizados, um método foi descrito, método esse que tem fundamental participação no trabalho. Para o aprendizado supervisionado foi descrito o classicador k-NN, enquanto que para o aprendizado

(34)

não-supervisionado foi explicado o funcionamento do k-Means.

Em seguida, os principais conceitos envolvendo as duas abordagens utilizadas neste trabalho são explicados: Comitês de classicação e Seleção de atributos. Apresentando os principais pontos que devem ser levados em consideração na utilização de métodos que realizam essas abordagens.

(35)

3 Trabalhos Relacionados

Neste capítulo serão apresentados alguns trabalhos com o tema relacionado ao desta proposta. A primeira seção apresenta um conjunto de estudos que foi publicado até agora sobre a Seleção Dinâmica de atributos, mostrando um resumo dos principais tópicos abor-dados em cada um dos trabalhos produzidos. Logo após, diversos trabalhos que utilizam métodos de seleção de atributos para Comitês de Classicação são apresentados e alguns trabalhos que realizam a Seleção Dinâmica de Comitês.

3.1 Seleção de atributos

Como mencionado anteriormente, seleção de atributos é um importante passo da fase de pré-processamento de dados. Seu objetivo é selecionar o subconjunto mais represen-tativo de atributos de um conjunto de dados. O processo de seleção ocorre através da eliminação de atributos irrelevantes e/ou redundantes.

Diversos métodos de seleção de atributos para classicadores individuais são encon-trados na literatura, (LI et al., 2017;SHARDLOW, 2016;KUO et al., 2014;NAKANISHI, 2015; HIRA; GILLIES, 2015;ZHENG; WANG, 2018). Esses métodos realizam a seleção de maneira

estática, isto é, selecionam um único subconjunto de atributos para representar a base de dados. Em (LI et al., 2017), por exemplo, os autores apresentam um survey com uma revisão sobre os recentes avanços na pesquisa sobre seleção de atributos. Assim como em (SHARDLOW, 2016), onde vários métodos de seleção de atributos são explorados e

avaliados utilizando o classicador SVM .

Os métodos de seleção de atributos tradicionais recebem como entrada um conjunto de dados e devolvem como saída um subconjunto dos atributos mais relevantes, ou seja, que melhor descrevem a base de dados. Durante o processo de classicação, o subconjunto selecionado é utilizado para treinamento e teste de todas as instâncias, sem levar em consideração a particularidade de cada amostra.

(36)

A seleção dinâmica, por sua vez, tem como objetivo selecionar os melhores atributos para cada instância ou grupo de instâncias individualmente. Os métodos desenvolvidos partem do principio que os atributos que melhor descrevem uma instância, não necessa-riamente são os mesmos para as demais instâncias do conjunto de dados. Sendo assim, diferentes subconjuntos de atributos são selecionados, e cada instância é classicada uti-lizando o seu próprio subconjunto de atributos. Trabalhos sobre a seleção dinâmica de atributos podem ser encontrados em (NUNES et al., 2016) (DANTAS et al., 2017) (DANTAS; NUNES et al., 2017).

Em (NUNES et al., 2016), a seleção dinâmica é realizada através da aplicação de um algoritmo de agrupamento em um conjunto de validação. Após separar as instâncias em grupos, um critério de avaliação é aplicado para determinar os atributos mais importante para cada grupo. Assim, quando se deseja classicar uma instância, a mesma é comparada com todos os grupos formados através da aplicação de uma medida de similaridade, utili-zada para denir a qual grupo esta instância pertence. Então, o processo de classicação da instância em questão é realizado utilizando o subconjunto de atributos selecionados para o grupo ao qual ela pertence.

Em (NUNES et al., 2016), foram utilizados três diferentes algoritmos de agrupamento

(k-Means, DBScan e EM ) para selecionar os atributos mais relevantes. Após o processo de seleção, a eciência do método foi comprovada através da aplicação de quatro classi-cadores (k-NN, Árvore de Decisão, SVM e Naive Bayes), como foi ilustrado na Figura 4.

(37)

Figura 4: Estrutura metodológica retirada de (NUNES et al., 2016)

Dentre os algoritmos de agrupamento utilizados, o que obteve melhores resultados foi o k-Means, seguido pelo EM e por m o DBScan. Os resultados obtidos com a utilização do k-Means na seleção foram comparados com três métodos de redução de dimensiona-lidade: A seleção randômica, PCA (LIU; MOTODA, 2007) e LDA (LIU; MOTODA, 2007).

O resultado desse novo método foi bastante promissor, pois o mesmo obteve melhores resultados em termos de acurácia que os três métodos analisados, bem como, obteve um melhor desempenho do que quando todos os atributos foram utilizados para o processo de classicação.

Buscando uma maior dinamicidade para o método proposto, em(DANTAS et al., 2017)

uma alteração na seleção dinâmica foi proposta. A diferença entre as duas versões está no momento em que será denido os atributos que representam uma dada instância. Na

(38)

nova versão, é denida uma proporção baseada na distância da instância para todos os grupos, sendo assim, os atributos que serão utilizados para treinamento e teste da instância serão escolhidos de todos os grupos, baseado na proporção estabelecida pela medida de similaridade. Assim, a nova abordagem realiza um processo realmente dinâmico, onde cada instância possui seu próprio subconjunto de atributos selecionados, diferente da anterior, em que os subconjuntos eram pertencentes a todo um grupo de instâncias.

Também em (DANTAS et al., 2017), foi realizado uma análise baseada na taxa de

sele-ção de atributos, buscando analisar o comportamento do método proposto nas seguintes proporções de seleção: 25%, 50% e 75%. Todos os experimentos conduzidos foram reali-zados utilizando o k-Means no processo de seleção de atributos, uma vez que os melhores resultados obtidos em (NUNES et al., 2016) foram com esse algoritmo.

Em (NUNES et al., 2016), a comparação do método foi realizada apenas com a seleção

randômica e dois métodos de extração de atributos. Em (DANTAS et al., 2017), fora

adi-cionados mais três métodos, todos de seleção de atributos. Os métodos escolhidos para o experimento foram: CFS (HALL, 1999), LLCFS (ZENG; CHEUNG, 2011) e FSV ( BRA-DLEY; MANGASARIAN, 1998). O método proposto obteve melhor desempenho do que todos

os outros métodos testados.

A seleção dinâmica possui duas principais medidas em seu processo: O critério de avaliação e a medida de similaridade. O critério de avaliação é aplicado nas instâncias que formam os grupos, para denir os atributos mais importantes para cada grupo formado. A medida de similaridade é utilizada entre as instâncias de teste e os grupos formados, para denir o subconjunto de atributos que será utilizado para a instância em questão. Essas duas mediadas podem ser variadas. Em (DANTAS; NUNES et al., 2017), foi realizado

um estudo para analisar quais as medidas que traziam um melhor desempenho para a seleção dinâmica.

Foram utilizas um total de seis medidas, duas como critério de avaliação e quatro como medidas de similaridade. As métricas utilizadas foram: Coeciente de Correlação de Spearman (SPRENT; SMEETON, 2000), Coeciente de Correlação de Pearson (GARREN,

1998), Distância Euclidiana (BERRY; LINOFF, 2000), Distância de Manhattan (BERRY; LINOFF, 2000), Distância de Minkowski (BERRY; LINOFF, 2000) e Distância de

Mahala-nobis (BERRY; LINOFF, 2000). Foram utilizado um total de oito congurações para os

(39)

Tabela 1: Descrição das congurações. Tabela retirada de (DANTAS; NUNES et al., 2017)

Conf Critério de avaliação Medida de Similaridade Conf1 Correlação de Pearson Euclidiana Conf2 Manhattan Conf3 Minkowski Conf4 Mahalanobis Conf5 Correlação de Spearman Euclidiana Conf6 Manhattan Conf7 Minkowski Conf8 Mahalanobis

A conguração que obteve melhor desempenho foi quando se utilizou o Coeciente de Correlação de Pearson como critério de avaliação e a Distância Euclidiana como medida de similaridade. Após isso, a melhor conguração foi comparada novamente com métodos de seleção e extração de atributos já conhecidos e obteve um melhor desempenho do que todos os outros métodos.

Outra avaliação da Seleção Dinâmica pode ser encontrada em (JESUS; CANUTO; ARAÚJO,

2017b, 2017a). Em (JESUS; CANUTO; ARAÚJO, 2017b), os autores propõem o uso de alguns

elementos da Teoria da Informação na Seleção Dinâmica de atributos, como Informações Mútuas (GALLAGER, 1968). Este estudo tem como objetivo vericar o impacto que a mu-dança em importantes parâmetros (medida de similaridade e proporções de treinamento, teste e validação de dados) podem trazer para o processo de classicação.

3.2 Seleção de atributos para comitês de classicadores

Na literatura encontramos diferentes trabalhos relacionados a seleção de atributos para serem utilizados em comitês de classicação, como em (OPTZ, 1999; MORITA; OLIVEIRA; SABOURIN, 2004;ONAN, 2016;SEIJO-PARDO et al., 2017;NAMSRAI et al., 2013;NOVAKOVIC,

2014; XU et al., 2014; LIU et al., 2012; BACAUSKIENE; VERIKAS, 2004; NETO; CANUTO,

2018).

Por exemplo, em (ONAN, 2016) os autores apresentam um artigo voltado para

clas-sicação de páginas Web através da utilização de comitês de classicadores. Para isso, um estudo experimental é realizado utilizando quatro diferentes algoritmos de seleção de atributos, quatro métodos de aprendizado para comitês baseados na utilização de 4

(40)

clas-sicadores base. O objetivo dos autores é mostrar que a utilização de métodos de seleção de atributos e combinação de classicadores melhora a capacidade preditiva de métodos que realizam classicação de páginas Web.

Em (NAMSRAI et al., 2013) os autores propõem um método de construção de comitês

de classicadores para a classicação de arritmias. O primeiro passo consiste na seleção de três diferentes subconjuntos de características. Em seguida, para cada subconjunto um modelo é criado. Por m, os modelos são combinados através do método de votação. O método utiliza o CFS como método de seleção de atributos e os comitês são formados pela combinação dos seguintes métodos: Árvore de decisão, Naive Bayes, SVM e Rede Bayesiana.

Em (NOVAKOVIC, 2014), os autores tem por objetivo avaliar os impactos da utilização

do SVM como método seletor de atributos para serem utilizados em comitês de classi-cação. O SVM é utilizado para atribuir pesos a cada atributos, selecionando os melhores para compor cada modelo que será criado. A combinação dos classicadores foi utilizada em diferentes contextos de diagnóstico médico.

Em (XU et al., 2014) os autores criaram um novo método que utiliza o algoritmo de seleção de atributos baseado na correlação (CFS) através da combinação da otimização por nuvem de partículas e da informação mútua para selecionar os melhores subconjuntos de atributos para a criação dos comitês. Os comitês criados utilizam o SVM como classicador base e são utilizados no processo de classicação de problemas de reconhecimento de câncer.

Todos esses trabalhos realizam uma seleção de maneira estática, selecionando os me-lhores atributos para a base de dados e utilizando o comitê para realizar a classicação de todas as instâncias com um mesmo conjunto de atributos. A dinamicidade encontrada em comitês durante a classicação, normalmente é realizada com a seleção dos classica-dores que formarão o conjunto de classicaclassica-dores que será utilizado para classicar cada instância individualmente, alguns trabalhos que realizam esse processo estão descritos na próxima seção.

3.3 Dinamicidade em Comitês de Classicadores

A dinamicidade em comitês de classicadores pode ser alcançada de diferentes ma-neiras, com a seleção de atributos ou de classicadores para serem utilizados pelo comitê. Até onde sabemos, não existe nenhum método que promova a dinamicidade na seleção

(41)

de atributos para comitês de classicadores. Em termos de dinamicidade, existem alguns trabalhos que selecionam classicadores de maneira dinâmica para classicar uma deter-minada instância.

Um comitê de classicação estático determina um único conjunto de classicadores para todos os conjuntos de testes durante a fase de classicação. Por outro lado, um co-mitê de classicação dinâmico seleciona um ou mais classicadores para cada instância de teste individualmente, essa seleção é feita através da determinação de quais dos classi-cadores, que compões o conjunto inicial de classiclassi-cadores, são considerados mais adequa-dos/competentes para classicar determinada instância. Assim, em um comitê dinâmico, cada instância de teste é classicada por um subconjunto diferente de classicadores se-lecionados.

A principal estratégia para se criar um comitê dinâmico é a Seleção Dinâmica de Comitês (KO; SABOURIN; JR, 2008). Diversos trabalhos envolvendo a Seleção Dinâmica

de Comitês foram realizados nos últimos anos, alguns deles podem ser encontrados em (KO; SABOURIN; JR, 2008; CAVALIN; SABOURIN; SUEN, 2013; CRUZ et al., 2015; OLIVEIRA; CAVALCANTI; SABOURIN, 2017; CRUZ; SABOURIN; CAVALCANTI, 2017).

Por exemplo, em (KO; SABOURIN; JR, 2008) os autores apresentam quatro abordagens

para a realização da Seleção Dinâmica de Comitês, comparando os resultados obtidos com a seleção estática. Os resultados apresentados neste trabalho mostram que o uso da dinamicidade obteve melhores resultados quando comparado com os obtidos utilizado uma seleção estática, onde o conjunto de classicadores era o mesmo para todos os padrões de testes.

Em (CRUZ et al., 2015), os autores apresentam um framework para seleção dinâmica

de comitês, chamado META-DES. Os autores armam que o uso de apenas um critério não é suciente para corretamente determinar o nível de competência de um classicador. A ideia principal deste framework consiste em selecionar cinco diferentes características que serão utilizadas para treinar um meta classicador que será utilizado para prever se um classicador é ou não competente para classicar uma determinada instância de teste. Todos os trabalhos citados nesta seção, conseguem obter dinamicidade para os comitês através da seleção dos classicadores que serão utilizados para classicar uma determinada instância. Este trabalho também visa promover a dinamicidade nos comitês formados, porém essa dinamicidade será alcançada com o processo de seleção de atributos, buscando a criação de estruturas robustas obtidas através da utilização da Seleção Dinâmica de atributos em comitês de classicação.

(42)

3.4 Considerações nais

Neste Capítulo, foram apresentados alguns estudos sobre os temas relacionados com esta Proposta. Inicialmente, alguns trabalhos que utilizam métodos que realizam a seleção de atributos de maneira estática foram apresentados. Em seguida, um levantamento sobre os trabalhos que propuseram e avaliaram a Seleção Dinâmica de atributos é realizado, mostrando o funcionamento e os princípios básicos da Seleção Dinâmica.

Ainda neste Capítulo, alguns trabalhos que utilizam seleção de atributos para comi-tês de classicadores são apresentados. Por m, como não foram encontrados trabalhos que promovam a dinamicidade em comitês através da seleção de atributos, estudos que utilizam seleção de classicadores e/ou seleção de comitês são descritos.

(43)

4 Seleção Dinâmica de Atributos

para Comitês de Classicação

Neste capítulo serão apresentadas as versões desenvolvidas para o método proposto. Será mostrada a arquitetura geral e o seu funcionamento, apresentando os principais pas-sos que envolvem o processo de seleção de atributos e classicação de uma instância pelo comitê. Foram desenvolvida três versões (SD-R, SD-P e SD-D), que serão apresentadas a seguir.

4.1 SD-R: Seleção Dinâmica Baseada em uma Escolha

Randômica Simples

Para entender melhor essa versão proposta, suponha que seja B uma base de dados, composta por A = {att1, att2, ..., attq}atributos e I instâncias, onde q é o número total de

atributos que a base de dados B possui. As instâncias são divididas em 3 conjuntos, treina-mento T R = {tr1, tr2, ..., trntr}, validação V = {v1, v2, ..., vnv} e teste T = {t1, t2, ..., tnt},

onde ntr, nv e nt representam os conjuntos de treinamento, validação e teste, respectiva-mente.

O método proposto pode ser descritos através dos seguintes passos:

1. Agrupar os dados: Para tal, um algoritmo de agrupamento Alg é aplicado ao con-junto de validação V , que é responsável pela separação das instâncias em grupos. A aplicação do algoritmo é representado pela Equação 4.1:

G = Alg(V ) (4.1)

(44)

formados pela partição;

2. Selecionar os atributos mais importantes para cada grupo: Para tal, os seguintes passos serão executados. No 1o _{passo, para cada grupo g}

j é aplicado uma função

F (gj) que dene um critério de avaliação, denindo a importância dos atributos

para este grupo.

(a) Como resultado desta função, um valor E é obtido, onde E = {e1, .., eq}, e q o

número de atributos inicial da base de dados. O valor ei para cada atributo i de

A, usando como base as instâncias de gj, dene a importância deste atributo

para o grupo gj, baseado no critério utilizado por F .

(b) Baseado neste critério de avaliação, todos os atributos são ordenados, como representado na equação pela Equação 4.2. Essa ordenação pode ser crescente ou decrescente, dependendo da medida escolhida.

Rj = rank(F (gj)) (4.2)

(c) Uma vez ordenado, os N atributos mais bem posicionados no ranking são se-lecionados para cada grupo gj. Os Ngj atributos selecionados para representar

gj formam o conjunto Aj, como mostra a Equação 4.3. Neste método, pode-se

utilizar um valor de Ngj para cada grupo. A quantidade de atributos

seleci-onados N é uma escolha de implementação, ou seja, qualquer taxa pode ser utilizada.

Aj = select(Rj, Ngj) (4.3)

Onde,

Aj = {att1, att2, ..., attN}|Aj ⊂ A;

3. Denir as proporções de atributos por grupo: Neste passo, a proporção de atributos que será utilizada de cada grupo será denida.

(a) Quando se deseja classicar uma instância de teste ti, a mesma é comparada

com a partição G para se denir a distancia de ti para os diferentes grupos de

G, utilizando uma medida de similaridade DIST.

(45)

O principal objetivo de DIST é calcular a distância entre a instância de teste ti e o centroide de cada grupo. Onde py é o protótipo do grupo y, que pode ser

o centroide ou qualquer vetor que melhor consiga representar o grupo y. (b) Uma função P ROB é aplicada para cada valor de DIST , visando transformar

a distância (similaridade) disty no formato de probabilidade a posteriori, Py,

como mostrado na Equação 4.5, que, desta forma, pode ser interpretado como a probabilidade da instância ti pertencer ao grupo gy.

Py = P ROB(ti, disty). (4.5)

(c) Essa função de probabilidade é baseada na distância entre ti e cada um dos

grupos formados. A probabilidade é inversamente proporcional a distância en-contrada. Quanto mais distante, menor vai ser a probabilidade de pertinência. Essa medida será utilizada para representar a proporção de atributos que serão selecionados de cada grupo para compor o subconjunto de atributos gerais S selecionados para a instância de teste.

S = select(Aj, Pj) (4.6)

Onde, j é o total de grupos formados.

4. Seleção dos atributos para a instância de testes: Para o processo de classicação da instância de teste ti, suponha que seja C um comitê de classicação formado

por z classicadores, onde C = {c1, c2, ..., cz}. Para diversicar o comitê é

neces-sário selecionar z diferentes subconjuntos de atributos, um para cada classicador, para representar a instância e treinar os classicadores de maneira a gerar diversi-dade entre eles. Portanto, serão necessários z subconjuntos de atributos, obtidos do subconjunto global S para classicar a instância de teste ti.

SS(ti, S) = {ss1, ss2, ..., ssz} (4.7)

(a) Visando denir o subconjunto de atributos para cada classicador, W atributos são selecionados aleatoriamente a partir de S. W pode ser igual ou diferente para cada membro do conjunto de classicadores.

(46)

5. Classicação da instância utilizando os atributos selecionados: Após a denição dos subconjuntos de atributos mais importantes para a instância de teste ti, z

classica-dores cksão treinados, cada classicador com um subconjunto diferente de atributos

ssk. Então ti será classicada pelo comitê C.

6. A acurácia é obtida através da aplicação dos Passos 3 - 6 para todo conjunto de testes T ao comitê de classicadores C.

Para melhor ilustrar, suponha que ti seja uma instância composta por 50 atributos

após a seleção dos N melhores atributos de cada grupo. Supondo que ti possua o conjunto

de proporções denido por P = {0.3, 0.6, 0.1}. Baseado em P , 30% serão selecionados do grupo 1 (15 atributos), 60% serão selecionados do grupo 2 (30 atributos) e 10% serão selecionados do grupo 3 (5 atributos). Formando assim, o conjunto geral de atributos S para representar a instância ti.

Durante o processo de escolha dos atributos, pode ocorrer de serem selecionados o mesmo atributo de diferentes grupos. Caso isso aconteça, o atributo será escolhido do grupo onde o mesmo tiver o maior valor no ranqueamento R. Assim, não haverá repetição dos atributos escolhidos. Por exemplo, se o atributo att2 for escolhido do grupo 1 e do

grupo 2, o valor do ranqueamento dele em ambos os grupos será observado. Se o seu melhor valor for no grupo 1, ele entrará como um dos atributos escolhidos pela proporção do grupo 1, enquanto um novo atributo será selecionado para o grupo 2.

4.1.1 Funcionamento

(47)

Algoritmo 2 Algoritmo demonstrando a versão SD-R

1: procedure Seleção dinâmica de atributos 2: Entrada: B =(V, TR, T)

3: G ← Alg(V )

4: para cada grupo gj faça

5: para cada instância vi em gj faça

6: para cada atributo ai em vi faça

7: E ← F (gj) 8: m para 9: Rj = rank(E) 10: Aj = select(Rj, N ) 11: m para 12: m para

13: para cada padrão de teste ti em T faça

15: Calcular a distância de Ti para pj através de d

16: m para

18: Pj = P (Ti, dj)

19: m para

20: para cada atributo a de Aj faça

21: Si =select(Aj, Pj)

22: m para

23: para cada classicador k de C faça 24: SSk = select(ti, S, Wk) 25: m para 26: Ci ← T rain(T R, SSi) 27: acc ← T est(Ci, Ti, SSi) 28: m para 29: m procedure

O método recebe como entrada uma base de dados dividida em três conjuntos: Trei-namento, Teste e Validação (linha 2), com o conjunto de validação correspondente a 30% dos padrões que formam a base de dados. Um algoritmo de agrupamento é aplicado no conjunto de validação para separar as instâncias em grupos (linha 3), visando obter os atributos mais importante para as instâncias de cada grupo formado.

Seleção dinâmica de atributos para comitês de classificadores

Seleção Dinâmica de Atributos para Comitês

de Classicadores

Rômulo de Oliveira Nunes

Seleção Dinâmica de Atributos para Comitês de

Classicadores

Prof

. Dr

. Anne Magály de Paula Canuto

Classicadores

Resumo

Abstract

Lista de guras

Lista de tabelas

Lista de abreviaturas e siglas

Sumário

1 Introdução

1.1 Motivação

1.2 Objetivos

1.3 Principais contribuições

1.4 Organização do trabalho

2 Conceitos Relacionados

2.1 Aprendizado de Máquina

2.1.1 Aprendizado Supervisionado

2.2 Aprendizado Não-Supervisionado

2.2.1 k-Means

2.3 Comitês de Classicadores

2.3.1 Estrutura do Sistema

2.3.2 Componentes do Sistema

2.3.3 Método de combinação

2.4 Seleção de atributos

2.5 Considerações nais

3 Trabalhos Relacionados

3.1 Seleção de atributos

3.2 Seleção de atributos para comitês de classicadores

3.3 Dinamicidade em Comitês de Classicadores

3.4 Considerações nais

4 Seleção Dinâmica de Atributos

para Comitês de Classicação

4.1 SD-R: Seleção Dinâmica Baseada em uma Escolha

Randômica Simples

4.1.1 Funcionamento

de Classicadores

Classicadores

_{. Dr}

_{. Anne Magály de Paula Canuto}

Classicadores

Lista de guras

2.3 Comitês de Classicadores

2.5 Considerações nais

3.2 Seleção de atributos para comitês de classicadores

3.3 Dinamicidade em Comitês de Classicadores

3.4 Considerações nais

para Comitês de Classicação