Fusão de Decisão - 4 Seleção Automatizada de Atributos

4 Seleção Automatizada de Atributos

4.1.2 Fusão de Decisão

Esta seção apresenta uma segunda abordagem para combinar vários algoritmos de seleção de atributos. A ideia é usar a estrutura do comitê de classificadores como uma abordagem de fusão, na qual a decisão dos algoritmos de classificação será combinada no método de combinação do comitê (Fusão de Decisão). O conceito de sistemas de comitês surgiu nas últimas décadas como uma estratégia para combinar classificadores, com o ob-

jetivo de fornecer uma solução potencialmente mais eficiente do que qualquer componente individual (KUNCHEVA, 2004a).

Um sistema baseado em comitê consiste em um conjunto de classificadores individuais (CIs) c que são organizados de forma paralela. O conjunto de CIs recebe os dados de entrada e suas saídas são enviadas para o módulo de combinação Comb que fornece a res- posta geral do conjunto. Portanto, os padrões não rotulados {Ui ∈ Rd|i = 1, 2, ..., n} serão

apresentados a todos os classificadores individuais e um método de combinação combinará sua saída para produzir a saída geral do sistema O = Comb(yj), {yj = (yj1, ..., yjk|j =

1, ..., c and k = 1, ..., r}, onde o número de classificadores individuais é definido por c e r descreve o número de rótulos em um conjunto de dados.

Para sistemas de comitês, o principal objetivo é que os componentes individuais ofe- reçam informações complementares sobre um padrão de entrada e essa informação com- plementar tenda a aumentar a eficácia de todo processo de reconhecimento (KUNCHEVA, 2004a).

Nesse contexto, a ideia da fusão de decisão consiste em combinar algoritmos de seleção de atributos utilizando um conjunto de algoritmos de classificação. Ou seja, não combi- namos as saídas criadas pelos algoritmos de seleção, mas as decisões fornecidas pelas algoritmos de classificação treinados com os conjuntos de dados reduzidos pelos seletores. A ideia geral da abordagem pode ser vista na Figura 3.

Como pode ser observado, primeiro usamos algoritmos de seleção de atributos para produzir subconjuntos distintos do conjunto de dados original X. Esses subconjuntos são usados como dados de treinamento para os algoritmos de classificação que são posterior- mente combinados para obter uma única solução. É importante notar que o número de classificadores individuais c é definido pelo número de algoritmos de seleção de atributos. O processo completo da fusão de decisão pode ser visto no Algoritmo 5.

O processo da Fusão de Decisão pode ser dividido em três partes:

1. Inicialmente, são aplicados t algoritmos de seleção sobre o conjunto de treino. Para cada algoritmo de seleção é gerado um novo conjunto de dados, com k atributos selecionados (linhas 4-6).

2. Na fase de treino, para cada conjunto de dados reduzido pelos algoritmos, é treinado um classificador (linhas 7-9). Ao final dessa fase, um comitê de classificadores homogêneo é obtido, onde cada classificador foi treinado com diferentes conjuntos de dados (linha 10).

Figura 3: Fusão de Decisão.

3. Por fim, na fase de teste, as instâncias de teste são passadas para o comitê de classificadores, onde a decisão de cada classificador é combinada por meio do voto majoritário (linhas 11-33), obtendo-se a acurácia.

O principal objetivo em usar um método baseado em comitê de classificadores no contexto de algoritmos de combinação é aumentar a diversidade durante o processo de seleção de atributos, opondo-se ao método de fusão de dados que possui baixa diversidade. Enquanto o método fusão de dados realiza um processo de fusão a priori (primeiro são combinados os algoritmos, para só então reduzir o conjunto de dados), a fusão de decisão executa o processo inverso (fusão a posteriori), onde primeiramente as bases de dados são reduzidas pelos algoritmos de seleção de atributos, para só então a fusão das decisões

Algorithm 5 Fusão de Decisão

1: _{procedure FDE}

2: Dados = (DadosT reino, DadosT este)

3: algoritmosSelecao = (R1, R2, ..., Rn)

4: for each algoritmo t in algoritmosSelecao do

5: dadosReduzidos(t) ← t(DadosT reino, qtdAtributos)

6: end for

7: for each dadoReduzido f in dadosReduzidos do

8: T C(f ) ← Classif icador(f )

9: end for

10: comiteClassif icadores ← T C(f 1, ..., f n)

11: for each instanciaTeste i in DadosT este do

12: acuracia ← T este(i, comiteClassif icadores)

13: end for

14: end procedure

provenientes dos classificadores base do comitê ser realizada.

4.2 Seleção Dinâmica baseada na Fronteira de Pareto

Os algoritmos de seleção de atributos tradicionais consideram todo o conjunto de dados para selecionar um subconjunto de atributos para representar todo o espaço de um problema específico. Isso pode ser muito adequado para algumas instâncias de teste, mas não para todas elas, que podem ser melhor representadas por outro subconjunto de atributos. Alguns artigos trabalharam em formas de superar essa dificuldade dividindo o conjunto de dados em grupos e concentrado-se na importância de um subconjunto específico de atributos para esse conjunto particular de amostras (NUNES et al., 2016).

Os resultados mostraram que, em geral, essa abordagem oferece melhor desempe- nho que os algoritmos tradicionais de seleção de atributos. Com base nisso, a extensão proposta nesta dissertação utiliza a estratégia da fronteira de pareto para selecionar os melhores atributos considerando medidas distintas, bem como para definir automaticamente o melhor número de atributos.

De fato, este método traz uma extensão da abordagem proposta em (NUNES et al., 2016), que utiliza os benefícios da seleção dinâmica de atributos para extrair as infor- mações subjacentes dos dados e para selecionar os melhores atributos de acordo com as características dos grupos de instâncias. Usando essas boas propriedades, neste trabalho, promovemos a automatização na seleção de atributos fazendo uso da abordagem da fronteira de pareto, que fornece uma maneira de determinar automaticamente quais são os melhores atributos para cada grupo, em termos de quantidade (quantos atributos) e

qualidade (quais atributos).

Enquanto a abordagem original considera medidas individuais para determinar os melhores atributos para cada grupo de instâncias (baseado na relevância relacionada com o atributo-classe), esta extensão usa um processo de múltiplos critérios para determinar os atributos mais relevantes no conjunto de dados, em particular incluindo elementos da Teoria da Informação no processo. Todo o processo do método proposto, intitulado de seleção dinâmica baseada na fronteira de pareto (PF-DFS, do inglês Pareto Front - Dynamic Feature Selection) , pode ser visto no Algoritmo 6.

Algorithm 6 Seleção Dinâmica baseada na Fronteira de Pareto

1: _{procedure PF-DFS}

2: Dataset = (DadosV al, DadosT reino, DadosT este)

3: f uncoesObjetivo = (IM, DK, CS)

4: grupos ← algoritmoAgrupamento(DadosV al)

5: for each grupo g in grupos do

6: for each atributos a in g do

7: for each funcObj f in f uncoesObjetivo do

8: matrixObj ← f (a, target)

9: end for

10: end for

11: attSelecionados(g) ← paretoF rontmin(matrixObj)

12: if paretoF ront with no solucoes nao − dominadas then

13: attSelecionados(g) ← T odosAtributos

14: end if

15: end for

16: for each grupo g in grupos do

17: T C(g) ← Classif icador(DadosT reino, attSelecionados(g))

18: end for

19: for each instânciaTeste t in DadosT este do

20: Escolha o grupo g mais proximo de t

21: acuracia ← T este(t, T C(g))

22: end for

23: end procedure

Como podemos observar, o algoritmo PF-DFS pode ser dividido em três partes prin- cipais:

1. Nas linhas 2-15 é criado o modelo de seleção de atributos: um algoritmo de agrupamento é aplicado ao conjunto de validação (linha 4) criando uma partição C = c1, ..., ck com instâncias similares divididas em k grupos; após isso, cada atributo aj

em um grupo específico ci tem sua relevância medida por múltiplos critérios (calcu-

lando a relevância dos atributos), resultando na matriz de objetivos (linhas 5-10); Em seguida, é realizada uma busca por soluções não dominadas, computando a

fronteira de pareto baseado na matriz de objetivos (linha 11); em algumas aplica- ções, como em qualquer otimização multiobjetivo, é possível que nenhuma solução não-dominada seja detectada. Isso significa que não há atributos dominantes para um grupo. Portanto, todos os atributos serão selecionados (linhas 12-15).

2. Uma vez selecionados os atributos mais importantes para cada grupo, k classificadores são treinados, um para cada grupo (linhas 16-18); Para esses classificadores, ao invés de usar todos os atributos, apenas o conjunto de atributos selecionado pelo processo do cálculo da fronteira de pareto (todas as soluções não-dominadas) será utilizado para cada grupo.

3. Durante a fase de teste, instâncias desconhecidas são fornecidas e, para saber qual o conjunto de atributos mais adequado, esta instância é comparada com todos os grupos (baseados no centroide na partição (linha 20), utilizando uma métrica de dis- tância; Feito isso, essa instância é atribuída ao grupo mais semelhante e classificada usando o modelo definido para esse grupo (linha 21).

Como mencionado anteriormente, existem algumas diferenças importantes entre o mé- todo proposto neste trabalho e o método proposto em (NUNES et al., 2016). O último usa

apenas um critério para medir a importância dos atributos, enquanto o método proposto (PF-DFS) utiliza uma avaliação multicritério, o que nos permite ter uma perspectiva mais robusta da relevância, já que critérios distintos e complementares podem ser usados. Usando o processo de decisão pela fronteira de pareto, podemos selecionar todas as soluções não-dominadas para representar o espaço de atributos, uma vez que todas elas apresentam uma relevância satisfatória para pelo menos um critério. É importante observar que o uso de todas as soluções não-dominadas provê uma maneira de definir automaticamente o número de atributos, descartando as soluções dominadas e mantendo apenas as soluções não-dominadas, com base em vários critérios.

Nas Figuras 4 a 8, é possível observar o fluxo de execução durante as três fases da seleção dinâmica de atributos: validação (Figuras 4 e 5), treino (Figuras 6 e 7) e teste (Figura 8), da abordagem de seleção dinâmica (DFS, do inglês Dynamic Feature Selection) , proposto em (NUNES et al., 2016), em comparação ao fluxo de execução do PF-DFS, proposto nesta dissertação. Em ambas as abordagens, o processo inicial se dá pela divisão da base de dados em três conjuntos distintos: validação, treino e teste.

• Fase de Validação

Durante a fase de validação, para ambas as abordagens, DFS e PF-DFS, um algoritmo de agrupamento é aplicado sobre o conjunto de validação, gerando ao final k grupos. Nessa fase, a principal diferença entre o DFS e o PF-DFS, consiste na utili- zação de múltiplos critérios de avaliação para selecionar os atributos mais relevantes para cada partição. Enquanto no DFS é aplicado apenas um critério de avaliação e, para cada grupo na partição, é gerado um ranking com os atributos mais relevantes, no PF-DFS múltiplos critérios de avaliação são aplicados para cada grupo, gerando ao final uma matriz de critérios que é aplicada à técnica da fronteira de pareto. O produto final do PF-DFS nessa fase, diferentemente do DFS, são subconjuntos de atributos relevantes com diferentes quantidades de atributos selecionados para cada grupo de uma partição. A utilização desse mecanismo nos permite definir de forma automática quais e quantos são os atributos mais relevantes para cada grupo, levando em consideração diferentes grupos de instâncias.

Figura 5: Fase de Validação do PF-DFS. • Fase de Treino

Na fase de treino, para o PF-DFS, os classificadores são treinados com a quantidade de atributos definida pelo processo de automatização pela fronteira de pareto, o que implica dizer que os classificadores são treinados com diferentes quantidades de atributos. Essa característica do PF-DFS nos permite eliminar a necessidade da definição do parâmetro relativo a quantidade de atributos a ser selecionado. Por outro lado, para o DFS, é utilizado um número fixo de atributos, definido previamente como parâmetro, para todos os classificadores.

Figura 7: Fase de Treino do PF-DFS. • Fase de Teste

O procedimento de teste é igual para ambas as abordagens, DFS e PF-DFS. Para cada instância de teste é calculada a distância entre a instância e os centroides dos grupos da partição de validação utilizadas para o treinamento de cada classificador construído na fase de treino. As instâncias são enviadas para o classificador cuja distância em relação ao centroide é menor, em outras palavras, para o classificador mais similar.

Figura 8: Fase de Teste do DFS e PF-DFS.

4.3 Considerações Finais

Neste capítulo foram apresentadas abordagens automatizadas de seleção de atributos desenvolvidas nesta dissertação. A proposição de abordagens automatizadas representam um avanço no campo da seleção de atributos, uma vez que ao utilizá-las é possível eliminar a necessidade acerca da escolha da abordagem de seleção de atributos que se deseja

utilizar, no que concerne a Fusão de Dados e Fusão de Decisão, e através da Seleção Dinâmica baseada na Fronteira de Pareto, a abordagem é capaz de definir de forma auto- mática a quantidade e a qualidade dos atributos que devem ser selecionados, suprimindo a necessidade da definição do parâmetro relacionado a quantidade de atributos que devem ser selecionados. Para testar e validar todas as abordagens propostas foram definidas diretrizes experimentais, descritas no próximo capítulo.

No documento Abordagens baseadas em teoria da informação para seleção automatizada de atributos (páginas 48-58)