Método de aprendizagem social - Método cooperativo assistido do enxame de partículas aplicado à

Apesar do grande sucesso do PSO nas últimas duas décadas, a sua performance permanece limitada em problemas complexos com elevado número de dimensões (LI; YAO, 2012). Com a intenção de melhorar o desempenho do otimizador sob estas condições foi desenvolvido o conceito de aprendizagem social sobre o PSO (CHENG; JIN, 2015).

Esta nova variante do PSO modifica o mecanismo implícito do método, não sendo necessário o armazenamento das melhores soluções individuais, P best, ou da melhor solução global, Gbest. Em vez disso, o indivíduo passa a aprender através de uma relação de imitação, mecanismo natural de extrema importância para o ser humano, na qual aquele passa a aprender não só com o melhor membro do seu grupo, mas com qualquer indivíduo que possua um resultado melhor que o seu, denominado aqui como influenciador (demonstrator), a partícula que aprende é chamada então de imitador.

Não obstante, nas relações reais, o indivíduo geralmente pode ou não aprender com a informação que lhe é dada, geralmente esta chance é menor quanto mais complexo se torne o problema, para reproduzir este conceito é introduzido um coeficiente de probabilidade de aprendizagem, que estará associado a dimensionalidade (número de variáveis de projeto), auxiliando o grupo a manter a diversidade em problemas de larga escala.

Esta variante do PSO que utiliza o mecanismo de aprendizagem social foi deno- minada SLPSO (Social Learn PSO) e diferentemente da maioria aplica um conceito de classificação do enxame. Whiten (2000) explica que o mecanismo de imitação pode ser descrito como um procedimento no qual um imitador copia parte do comportamento de um influenciador via observação, e diferentemente de outros mecanismos de aprendizagem, pode influenciar as similaridades entre um população inteira resultando em uma cultura ou tradição, o que, dentro do estudo dos algoritmos evolucionários, pode implicar na convergência do sistema.

4.4.1 Descrição do algoritmo

Assim como o PSO tradicional, o SLPSO inicia a otimização através da geração da posição do enxame xi(t), contendo um conjunto de np partículas e t é o índice da iteração. Cada partícula é avaliada na função objetivo f (x) e então o bando X(t) é classificado em ordem crescente do valor da função aptidão, ou seja, do pior resultado até o melhor resultado. Consequentemente, cada partícula (exceto a com o melhor valor) aprenderá observando o comportamento das demais que obtiveram resultado melhor que o dela (influenciadores). O esquema geral pode ser visto na Figura 23.

Note que através do processo de classificação, a partícula i, onde 1 ≤ i < np, pode imitar o comportamento de qualquer influenciador no intervalo i < k ≤ np. Como resultado, a partícula 1 nunca será influenciadora de nenhum outro componente do bando, por possuir o pior resultado, nem a partícula np imitará o comportamento de nenhuma outra, visto que não há partícula com resultado superior ao seu.

Através disso, o imitador poderá aprender com diferentes influenciadores de acordo com a Equação 4.14: xi,j(t + 1) =      xi,j(t) + ∆xi,j(t + 1), se pi(t) ≤ PiL xi,j(t), caso contrário

, (4.14)

no qual, xi,j(t) é a j-ésima dimensão da partícula i durante a iteração t, com i ∈ 1, 2, 3, . . . , np, sendo np o número de partículas e j ∈ (1, 2, 3, . . . , m), sendo m o nú- mero de dimensões; ∆xi,j(t + 1) é o fator de correção do comportamento, sendo PiL um fator restritivo dependente da dimensionalidade do problema, que será definido na Seção 4.4.2.

Utilizando o conceito de aprendizagem social, cada indivíduo possui diferentes motivações para aprender, de forma que, usualmente, indivíduos com melhor aptidão estão menos interessados em aprender com outros, suposição do método, assim, um parâmetro de probabilidade de aprendizado P_iL foi adotado para cada partícula i e sua definição será dada no decorrer deste seção. Consequentemente, a partícula i aprenderá se o termo randômico gerado pi estiver no intervalo 0 ≤ pi(t) ≤ PiL≤ 1. Pode-se atualizar o valor da correção do comportamento ∆xi,j(t + 1) de acordo com a Equação 4.15:

∆xi,j(t + 1) = r1(t) · ∆xi,j(t) + r2(t) · Ii,j(t) + r3(t) · · Ci,j(t) , (4.15) com      Ii,j(t) =xk,j(t) −xi,j(t), Ci,j(t) = ¯xj(t) −xi,j(t) . (4.16)

O mecanismo acima é inspirado pelo comportamento natural de aprendizagem de um indivíduo, ou seja, o processo de aprendizagem é função do conhecimento anterior ∆xi,j,

Figura 23 – Principais componentes do SLPSO

Loop principal do SLPSO

Classificação do Enxame Aprendizagem comportamental Enxame Enxame Enxame Entrada Saída

Enxame antes da classificação

Pior Enxame depois da classificação

Classificação crescente de acordo com o valor da função aptidão Avaliação da Função Aptidão Melhor Influenciadores Melhor ajuste *

X

X(0)

X(t)

t t= +1

1

2

3

4

5

6 np

1

2 i

k

( 1)

X t +

cujo todo não necessariamente será aproveitado, portanto, sujeito a um termo randômico 0 ≤ r1(t) ≤ 1; o indivíduo i que está em aprendizado procura imitar o comportamento

de outro que seja superior (influenciador - k) a ele neste termo Ii,j(t), muitas vezes também não o consegue imitar perfeitamente, portanto, outro valor randômico pode ser aplicado 0 ≤ r2(t) ≤ 1; tal indivíduo, pelo instinto de bando, também leva em conta

o comportamento médio de sua população, apresentado através do termo Ci,j(t), sendo ¯

xk,j(t) a média da j-ésima variável na iteração t, tal mecanismo leva a uma conformidade do bando e por isto denota-se um fator de influência social , que representa a importância do grupo sobre o indivíduo, além de outro fator randômico 0 ≤ r3(t) ≤ 1.

4.4.2 Parâmetros de controle variando com a dimensão

O SLPSO foi originalmente proposto para melhorar o desempenho do PSO em problemas com elevado número de dimensões, desta maneira foi sugerido pelos autores que alguns parâmetros de controle variassem com a dimensão do problema.

O primeiro parâmetro é o próprio tamanho do enxame np, que para problemas com baixo número de dimensões e pouco complexos é naturalmente pequeno, enquanto em problemas de grande escala é preferível um número maior de partículas, permitindo uma exploração mais adequada do espaço de projeto. Cabe ressaltar que devido ao uso do modelo substituto nos problemas desta dissertação, o custo do aumento da população do enxame não corresponde a um aumento relevante do custo computacional, pois este estará atrelado quase em sua totalidade ao número de avaliações de função do modelo alta fidelidade, portanto, do simulador.

Isto posto, o número de partículas np pode ser definido pela Equação 4.17 através da seguinte uma relação empírica:

np = M + m

10, (4.17)

sendo M a população de base, adotada como 100, e m o número de dimensões do problema. Outro parâmetro importante é a probabilidade de aprendizado P_iL, que foi inspirado no processo de aprendizagem natural. Como previamente mencionado, partículas com melhor desempenho tem menos interesse em aprender que outras em condições distintas, enquanto isso, quanto mais complexo for o problema proposto, menor a chance que o partícula aprenda o conteúdo. De modo geral, a maioria dos algoritmos meta-heurísticos possui o desempenho degradado conforme o número de dimensões aumenta, efeito direto do crescimento exponencial do hiperespaço. Portanto, uma boa prática seria garantir a melhor fase de exploração possível para esta população, consequentemente, uma maior chance de obter valores ótimos globais.

4.18 sendo inversamente proporcional à dimensão do problema.

P_iL= 1 − i − 1

!α·log(_Mm)

(4.18)

No qual, o componente da base (1 − i−1_np) indica que a chance de aprendizado é inversamente proporcional ao seu índice da partícula i, lembrando que o grupo estará ordenado de maneira crescente. Enquanto, α · log(m

M) indica que o fator de aprendizado é inversamente proporcional a dimensão, suavizado pelo fator α, neste trabalho foi adotado

α = 0.5, sendo PL

i = 1 ∀i ∈ [1, np], se m ≤ 100.

O parâmetro que ainda resta corresponde ao fator de influência social , que será definido pela Equação 4.19:

 = β · m

M , (4.19)

na qual, m corresponde ao número de dimensões e M a população base do enxame. O coeficiente β controla o tamanho desta influência, pois para grandes valores de  o indivíduo seria induzido a imitar o comportamento da média da população, o que resultaria, consequentemente, em uma convergência prematura em problemas complexos. Desta forma, foi adotado neste trabalho β = 0.01, mantendo a referência na relação entre influenciador/imitador dada pelo termo Ii,j.

No documento Método cooperativo assistido do enxame de partículas aplicado à otimização do controle das vazões dos poços em reservatórios de petróleo (páginas 66-70)