Nuvem de Partículas Multiobjetivo - Otimização em comitês de classificadores: uma abordagem bas

Seja t a quantidade de iterações; Seja m a quantidade de formigas; t ← 0;

Inicializar parâmetros;

Inicializar trilhas de feromônio;

6: Inicializar conjunto Pareto vazio;

while o critério de parada não for satisfeito do for k = 0 → m do

Construa soluções a partir da probabilidade P ; end for

Atualizar conjunto Pareto;

12: Atualizar trilha de feromônio;

t ← t + 1; end while

Retornar soluções não dominadas.

4.8 Nuvem de Partículas Multiobjetivo

A otimização por nuvem de partículas aplicada à problemas multiobjetivos também tem sido estudada desde o final dos anos 90. Muitas abordagens foram desenvolvidas desde então, como (MOORE; CHAPMAN, 1999; RAY; LIEW, 2002; HU; EBERHART, 2002; COELLO; LECHUGA, 2002;FIELDSEND; SINGH, 2002;MOSTAGHIM; TEICH, 2003). As principais ques-

tões envolvidas na adaptação do PSO à problemas multiobjetivos são que na atualização da posição da partícula o melhor local deve ser uma solução não dominada encontrada pela partícula e o melhor global deve ser uma solução não dominada encontrada pelo grupo.

Cada um dos trabalhos acima citados, entre tantos outros, utiliza uma abordagem espe- cífica para lidar com a definição de melhor local e melhor global no contexto multiobjetivo, como por exemplo:

• (MOORE; CHAPMAN, 1999): Cada partícula da nuvem mantém um repositório que

armazena todas as soluções não dominadas encontradas por ela. Sempre que a partí- cula encontra uma solução não dominada, esta é inserida no repositório e as soluções do repositório que são dominadas por ela são eliminadas. Dessa forma, o melhor local de cada partícula é escolhido aleatoriamente de seu repositório local. Por sua vez, o melhor global de cada partícula é qualquer elemento de seu repositório local que

4.8 Nuvem de Partículas Multiobjetivo 69 é não dominado pelas soluções das demais partículas da nuvem ou de uma vizinha estabelecida (no caso da abordagem utilizar o conceito de vizinhança).

• (HU; EBERHART, 2002): Apresenta para um problema biobjetivo o conceito de vizi-

nhança dinâmica, onde a cada iteração cada partícula encontra m partículas vizinhas. A distância entre as partículas é definida a partir dos valores da função de ajuste de um dos objetivos definido a priori, sendo assim, as m partículas vizinhas são aquelas que estiverem mais próximas a ela em relação a um objetivo. O melhor global de cada partícula será a solução da partícula pertencente à sua vizinhança que tiver o melhor valor da função de ajuste para o outro objetivo do problema. Por sua vez, o melhor local é a melhor solução encontrada pela partícula até o momento. Dessa forma, o melhor local só é atualizado quando a solução corrente domina a solução armazenada como melhor local atual.

• (COELLO; LECHUGA, 2002): Nesta abordagem, mantém-se um repositório com todas

as soluções não dominadas encontradas durante o processo de busca. A cada iteração são inseridas as soluções não dominadas e eliminadas a soluções dominadas por elas. Esse repositório é dividido em regiões chamadas hipercubos, onde cada solução não dominada é armazenada em um hipercubo de acordo com sua posição no espaço objetivo explorado. Cada hipercubo recebe um valor de classificação baseado em sua densidade, dessa forma, quanto mais denso for um hipercubo, ou seja, quanto mais soluções forem armazenas em um hipercubo, menor será sua classificação. Sendo assim, o melhor global de cada partícula será definido utilizando-se o método da roleta para escolher um hipercubo e selecionando aleatoriamente uma solução pertencente ao mesmo. Os hipercubos mais densos, que por isso tem menor classificação, terão menor probabilidade de serem escolhidos. Isso possibilita que a fronteira de Pareto cubra uma maior região do espaço objetivo. O melhor local é a última solução não dominada encontrada pela partícula, sendo atualizado sempre que encontra uma solução que a domina ou quando são incomparáveis.

• (ALVAREZ-BENITEZ; EVERSON; FIELDSEND, 2005): Propõe uma abordagem para se-

leção do melhor global baseada exclusivamente no conceito de dominância de Pareto. Nesta abordagem é mantido um repositório com todas as soluções não dominadas

4.8 Nuvem de Partículas Multiobjetivo 70 encontradas durante o processo de busca. O melhor local é sempre a última solução não dominada encontrada pela partícula. Já o melhor global pode ser definido de três formas diferentes. Na primeira, chamada round, o melhor global de cada partícula é escolhido entre as partículas do repositório que a dominam e que dominam uma quantidade pequena de partículas da nuvem, soluções atuais. Esse método busca con- duzir a nuvem para uma região menos populosa, promovendo diversidade à fronteira de Pareto. A segunda forma de seleção do melhor global é chamada de random, e escolhe qualquer partícula do repositório que domine a solução atual da partícula. A terceira forma de seleção, chamada prob, é uma união dos métodos anteriormente descritos, onde a escolha do melhor global é feita selecionando qualquer elemento do repositório que domine a solução atual da partícula segundo uma probabilidade, favorecendo as soluções que dominem menos partículas da nuvem.

• (REYES-SIERRA; COELLO, 2005): Nesta abordagem, o melhor global de cada partí-

cula é selecionado a partir de um repositório de soluções não dominadas por meio de um torneio binário baseado na distância de aglomeração, crowding distance, dessas soluções. A distância de aglomeração mede a quantidade de soluções próximas a cada solução do repositório. Sendo assim, as soluções com maior distância de aglomeração serão preferidas, ver Seção 4.6. O melhor local, por sua vez, é a última solução não dominada encontrada. Esse trabalho propõe ainda a aplicação de um operador de mutação na nuvem de partículas, onde a nuvem é dividida em três partes, sendo aplicada a uma das partes um operador de mutação uniforme, cuja margem de variação permitida para cada variável de decisão é mantida constante ao longo das gerações. A outra parte da nuvem é aplicado um operador de mutação não uniforme, cuja margem de variação permitida diminui ao longo das gerações. A terceira e última parcela da nuvem não sofre mutação.

Alguns trabalhos, como Reyes-Sierra e Coello (2006), Fieldsend (2005), fazem um levantamento do estado da arte do PSO multiobjetivo, apresentando diversos trabalhos com abordagens diferentes. O Algoritmo 7 mostra um pseudocódigo do PSO multiobjetivo genérico.

4.8 Nuvem de Partículas Multiobjetivo 71

Algoritmo 7 Fluxo básico do PSO Multiobjetivo Seja t a quantidade de iterações;

t ← 0;

Inicializar parâmetros;

Inicializar posição e velocidade;

Inicializar repositórios local e global vazios; while o critério de parada não for satisfeito do

7: Avaliar solução;

Atualizar repositórios local e global;

Escolha do melhor local e do melhor global; Atualizar velocidade e posição;

t ← t + 1; end while

Capítulo 5

Trabalhos Relacionados

5.1 Considerações Iniciais

Como dito anteriormente, as pesquisas envolvendo seleção de atributos datam dos anos 70 (MUCCIARDI; GOSE, 1971) e ao longo dos anos muitos trabalhos foram publicados utili-

zando seleção de atributos na área de classificação de padrões (STEARNS, 1976; KITTLER,

1978; JAIN; CHANDRASEKARAN, 1982; KOHAVI; JOHN, 1997; HALL, 2000; INZA et al., 2000; XING; JORDAN; KARP, 2001; DAS, 2001; GUYON et al., 2002; YU; LIU, 2003; DASGUPTA et al., 2007).

Em Inza et al. (2000), por exemplo, é proposto um método wrapper para seleção de atributos denominado FSS - EBNA (Feature Subset Selection by Estimation of Bayesian Network Algorithm). Este método utiliza um algoritmo evolucionário para realizar a se- leção de atributos e avalia as soluções geradas utilizando os algoritmos de Naive Bayes e Árvore de decisão, ID3. Já em Guyon et al. (2002) foi desenvolvido um método embedded para seleção de atributos baseado na Eliminação Recursiva de Atributos, RFE (Recur- sive Feature Elimination), utilizando a magnitude do vetor de pesos do Support Vector Machine, SVM, como critério de ordenação dos atributos. Por sua vez, no trabalho apre-

5.1 Considerações Iniciais 73 sentado em Yu e Liu (2003) foi proposto um método baseado em filtro que busca identificar atributos relevantes bem como redundância entre os atributos, selecionando os atributos mais correlacionados às classes e menos correlacionados entre si. Para isto, é utilizada uma medida de correlação denominada Incerteza Simétrica (Symmetrical Uncertainty) a fim de analisar a correlação entre os atributos incluindo o atributo de classe, a classificação é feita utilizando os algoritmos Naive Bayes e Árvore de decisão, C4.5.

A seleção de subconjuntos de atributos tem sido também pesquisada na construção co- mitês de classificadores (ZENOBI; CUNNINGHAM, 2001; BRYLL; GUTIERREZ-OSUNA; QUEK,

2003; TSYMBAL; PUURONEN; PATTERSON, 2003; LIU et al., 2004; TSYMBAL; PECHENIZKIY; CUNNINGHAM, 2005b). Estes trabalhos, em geral, empregam uma abordagem wrapper

que considera a acurácia dos classificadores base para guiar a busca pelos subconjuntos de atributos. Alguns deles, no entanto, utilizam também alguma medida de diversidade em conjunto com os valores de acurácia. Em Zenobi e Cunningham (2001), por exemplo, os autores comparam duas abordagens do Hill-Climbing para seleção de subconjuntos de atributos, uma utiliza apenas a acurácia dos classificadores base para guiar a busca e a outra utiliza a acurácia e a diversidade, onde a diversidade é medida a partir das respostas dos classificadores base. Os trabalhos apresentados em Tsymbal, Puuronen e Patterson (2003), Tsymbal, Pechenizkiy e Cunningham (2005b) também utilizam uma função de avaliação que combina acurácia e diversidade, no primeiro é utilizada uma medida de desacordo entre os pares de classificadores base para o cálculo da diversidade média do comitê e no segundo outras quatro medidas de diversidade pareadas são utilizadas.

As pesquisas sobre seleção de atributos vem melhorando algoritmos já conhecidos e de- senvolvendo novos, alguns artigos foram publicados com revisões dos trabalhos anteriores, fazendo um levantamento de metodologias e métodos utilizados na área (BLUM; LANGLEY,

1997;JAIN; ZONGKER, 1997; GUYON; ELISSEEFF, 2003;LIU; YU, 2005; SAEYS; YVAN; INZA,

2007).

As próximas seções apresentam alguns trabalhos que envolvem seleção de atributos utilizando Algoritmos Genéticos, Colônia de Formigas e Nuvem de Partículas aplicados à classificação de padrões.

No documento Otimização em comitês de classificadores: uma abordagem baseada em filtro para seleção de subconjuntos de atributos (páginas 89-95)