O Algoritmo Gen´etico Multi-Objetivo - Discuss˜ao dos Resultados

4.8 Discuss˜ao dos Resultados

5.5.2 O Algoritmo Gen´etico Multi-Objetivo

De modo diverso dos métodos clássicos citados anteriormente, os quais são capazes de gerar como solu¸cão um único ponto no interior do espa¸co de decisão, o emprego de algoritmos genéticos apresenta-se como uma alternativa importante na medida em que estes são capazes de trabalhar com uma popula¸cão de vetores de variáveis de decisão, o que indica que podem entregar como resultado, após sua otimiza¸cão (minimiza¸cão ou maximiza¸cão), um determinado número de solu¸cões, todas elas pertencendo ao conjunto de Pareto-ótimo.

Pode-se observar que este método de resolu¸cão equivale àquele de pondera¸cão das fun¸cões objetivo, as quais são aqui as derivadas das fun¸cões originais.

Hist´orico

A primeira apari¸cão na literatura da tentativa de resolu¸cão de um problema através de uma simula¸cão genética foi por Rosenberg, em 1967 (Srinivas & Deb, 1994). Seu trabalho consiste na busca genética visando a simula¸cão da genética e da qu´ımica de uma popula¸cão de organismos unicelulares possuindo múltiplas propriedades (fun¸cões objetivo). Entretanto, Rosenberg não chegou a implementar seu método.

Assim, o primeiro algoritmo idealizado e implementado surgiu com Schaffer (1984). Este algoritmo, intitulado Vector Evaluated Genetic Algorithm (VEGA), entretanto, apresenta como grave problema sua tendência a algumas solu¸cões do conjunto Pareto-ótimo. Com o objetivo de suplantar esta tendência de VEGA, foi sugerido por Goldberg (1989) um procedimento denominado classifica¸cão por não-domina¸cão (nondominated sorting), o qual se baseia em dois pontos principais. Em primeiro lugar, o procedimento emprega um método de sele¸cão por ranking que enfatiza bons pontos (solu¸cões) e, além disso, usa um método de nicho com o objetivo de manter subpopula¸cões estáveis de bons pontos. A partir da sugestão de Goldberg, dois importantes métodos foram idealizados e implementados, a saber, o Multi Objective Genetic Algorithm (MOGA) e o Nondominated Sorting Genetic Algorithm (NSGA).

Apresentado por Fonseca e Fleming em 1993 (Coello, 2000), MOGA possui uma implementa¸cão cujo procedimento de classifica¸cão é similar ao NSGA (apresentada detalhadamente mais adiante), porém com algumas diferen¸cas que são importantes. A primeira delas é que a classifica¸cão opera-se em blocos (indiv´ıduos com o mesmo ranking), o que, por ocasião da cria¸cão de uma nova gera¸cão (sele¸cão), pode apresentar grande pressão de sele¸cão o que, por sua vez, tem grande probabilidade de causar convergência prematura. Em seguida, ao contrário de, como NSGA, efetuar o compartilhamento nos valores dos parâmetros, MOGA o faz nos valores das fun¸cões objetivo, o que, ainda que mantendo a diversidade nos valores das fun¸cões, não necessariamente a mantém no conjunto dos parâmetros, o que pode ser importante para a escolha da solu¸cão definitiva. Finalmente, o algoritmo é insens´ıvel a problemas onde diferentes pontos do conjunto de Pareto-ótimo correspondem a valores idênticos de uma mesma fun¸cão objetivo, o que indica que o algoritmo, nestes casos, pode ser incapaz de gerar múltiplas solu¸cões.

Visando superar alguns dos problemas de MOGA citados acima, Srinivas & Deb (1994) desenvolveram NSGA. Este algoritmo, além das caracter´ısticas já citadas acima, apresenta, também, a vantagem de evitar a convergência para um pequeno conjuntos de solu¸cões (ou mesmo uma única solu¸cão), o que pode ser muito relevante quanto se tra- balha com um número elevado de fun¸cões objetivo. Posteriormente, os mesmos autores (Deb et al., 2002) apresentaram o algoritmo NSGAII, o qual possui caracter´ısticas de elitismo ausentes no primeiro.

Para um tutorial completo em algoritmos genéticos multi-objetivo os trabalhos de Zitzler et al. (2004), Sbalzarini et al. (2000) e Dias & Vasconcelos (2002) podem ser consultados. No que tange a elabora¸cão de fun¸cões de teste existem os trabalhos de Lu & Yen (2003) e de Kalyanmoy (1998). Estudos de caso podem se encontrados em Zizler & Thiele (1999) e uma outra pespectiva sobre otimiza¸cão multi-objetivo com algoritmos

gen´eticos em Zizler et al. (2002).

Na medida em que NSGA é o algoritmo no qual está baseada a implementa¸cão deste componente da teoria (o elitismo presente em NSGAII não justificaria em termos de resultados as novas dificuldades de implementa¸cão), ele será descrito detalhadamente na próxima se¸cão.

Implementa¸c˜ao do Algoritmo NSGA

Como foi dito antes, Srinivas & Deb (1994) idealizaram o NSGA visando a supressão de alguns dos problemas apresentados pelo MOGA. De modo diverso aos algoritmos genéticos mono-objetivo, nos quais o processo de sele¸cão é efetuado através de um valor de aptidão (fitness) caracter´ıstico de cada poss´ıvel solu¸cão, os algoritmos genéticos multi-objetivo em- pregam um processo no qual um conjunto de solu¸cões recebem um mesmo valor, chamado dummy fitness. Este conjunto de solu¸cões é o conjunto de Pareto-ótimo para uma dada popula¸cão de pontos. Entretanto, na medida em que é necessário que toda a popula¸cão receba um valor de aptidão, faz-se necessário um outro procedimento, denominado ranking por fronts. Neste procedimento, todos os pontos da popula¸cão são previamente classifi- cados por fronts sendo que a cada front corresponderá um valor de dummy fitness. Este pode ser descrito assim:

1. Considerar a popula¸c˜ao completa e achar os pontos n˜ao-dominados. 2. Atribuir a estes pontos um valor dummy fitness.

3. Retirar da popula¸cão os pontos não-dominados encontrados anteriormente. 4. Se a popula¸cão foi inteiramente classificada terminar.

5. Sen˜ao, voltar para o passo 1.

Nos casos de minimiza¸cão os valores de dummy fitness são decrescentes e naqueles de maximiza¸cão, crescentes. Uma poss´ıvel forma para calcular estes valores pode ser:

fi =½ 1/r para minimiza¸cão r para maximiza¸cão onde i é o i-ésimo elemento do front f e r o rank deste último.

Além do ranking por fronts, o qual enfatiza os pontos ótimos, o NSGA também utiliza estratégias de compartilhamento ou nichos, as quais, por sua vez, estabilizam subpopula¸cões de pontos “bons”. Isto minimiza a possibilidade de convergência prematura e o surgimento de um “super-indiv´ıduo”, o que poderia gerar popula¸cões compostas unica- mente de cópias de si mesmo. O algoritmo completo de NSGA está a seguir:

1. Considerando a integralidade da popula¸cão de poss´ıveis solu¸cões, encontrar os pontos não-dominados.

2. Atribuir o mesmo valor de dummy fitness a todos os i indiv´ıduos n˜ao-dominados do front 1 (em geral, este valor ´e igual a 1).

3. O próximo passo é o compartilhamento do valor de dummy fitness dos indiv´ıduos, visando manter a diversidade. Isto é feito dividindo-o por uma quantidade propror- cional ao número de indiv´ıduos em seu entorno, segundo um determinado raio, o que leva o nome de nicho e é quantificado como:

mi = M −1

X j=0

Sh(d(i, j))

onde i e M são, respectivamente, o i-ésimo indiv´ıduo e o número de indiv´ıduos do front corrente e Sh(d) é a fun¸cão de compartilhamento. A fun¸cão de compartilhamento Sh(d), a qual é uma fun¸cão linear decrescente e definida como:

Sh(d(i, j)) =        Sh(0) = 1 Sh(d(i, j)) =   

1 −_σd(i,j)_share se d(i, j) < σshare 0 se d(i, j) ≥ σshare

onde:

• σshareé a máxima distância fenot´ıpica permitida entre dois indiv´ıduos para que sejam pertencentes a um mesmo nicho.

• d(i, j) é a Distância Euclidiana Normalizada e que é dada por:

d(i, j) = v u u t np−1 X k=0 ( x i k− x j k max(k) − min(k)) 2

onde np é o número de parâmetros (variáveis de decisão) definindo os cromossomos i e j; xi

k e x j

k são, respectivamente, os valores reais dos parâmetros k dos cromossomos i e j, e os valores máximo e m´ınimo do k-ésimo parâmetro do conjunto de indiv´ıduos (popula¸cão):

max(k) = max i=0,...,M −1(x i k) e min(k) = min i=0,...,M −1(x i k)

sendo M o número de indiv´ıduos pertencendo ao front atual. O uso da distância normalizada é de interesse pois permite que σshare∈ [0, 1].

4. Na medida em que todo o processo é altamente dependente do valor de σshare, é de interesse o emprego de um processo adaptativo em fun¸cão do front atual. O método utilizado está a seguir:

(a) Considerando cada parˆametro de cada cromossomo, calcular seus valores m´aximo (max) e m´ınimo (min).

(b) Sabendo-se que nf ront ´e o n´umero de cromossomos do front atual, calcular: σshare =

max − min nf ront× max

O σshare assim encontrado deve ser o utilizado no front atual.

5. Ap´os o processamento do nicho para cada indiv´ıduo do front atual ´e atribu´ıdo um novo valor de dummy fitness, a saber, fi/mi.

6. Neste estágio os pontos não-dominados que formam o front atual são temporaria- mente separados da popula¸cão. Nesta, um novo front com solu¸cões não-dominadas é calculado e o processo é repetido até que toda a popula¸cão tenha sido classificada. 7. Após toda a popula¸cão ter sido processada e a cada indiv´ıduo ter sido atribu´ıdo um valor de dummy fitness os operadores de sele¸cão, cruzamento e muta¸cão são aplicados da maneira usual, como se tratasse de uma algoritmo genético mono- objetivo.

Um fluxograma do funcionamento do NSGA pode ser visto na figura 5.5.

Como já dito antes, excetuando-se o processo de classifica¸cão da popula¸cão em fronts, o NSGA opera de modo semelhante ao algoritmo genético simples. Entretanto, com o objetivo de melhorar a diversidade genética e, conseqüentemente, incrementar o número de decisões pertencentes ao conjunto de Pareto-ótimo, foi implementada uma varia¸cão dinâmica das taxas dos operadores de cruzamento e de muta¸cão (Vasconcelos, 2003). Além de manter a diversidade genética da popula¸cão em um n´ıvel adequado, este procedimento também tem por objetivo evitar uma poss´ıvel convergência prematura. Dentre as duas possibilidades existentes, que são a adapta¸cão dinâmica por indiv´ıduo e aquela baseada no comportamento médio da popula¸cão, optou-se pela segunda, já que o contexto geral é aquele da otimiza¸cão de um problema multi-objetivo.

O método baseia-se na chamada medida de diversidade genética, a partir da qual as probabilidades dos operadores de cruzamento e de muta¸cão variam de acordo com os valores de desempenho médio e máximo encontrados numa popula¸cão:

mdg=

(fmax− fmin) fmax

Quando mdg << 1 tem-se pouca diversidade genética e quando mdg ∼= 1 tem-se, ao contrário, muita diversidade genética. Em outras palavras, isto significa que, ao longo do processo, quer-se variar as probabilidades dos operadores de cruzamento e muta¸cão de tal forma que o valor médio de desempenho seja convergente ao valor máximo de desempenho (para cada gera¸cão).O procedimento completo é descrito no pseudo-código abaixo:

pm = pmmin pc = pcmax Sen˜ao se mdg ≤ Vinf pm = pmmax pc = pcmin Sen˜ao

pm = interpola(mdg, Vinf, Vsup, pmmin, pmmax) pc = interpola(mdg, Vinf, Vsup, pcmin, pcmax)

onde pm é a probabilidade do operador de muta¸cão e pmmin e pmmax, respectivamente, seus valores m´ınimo e máximo, pc é a probabilidade do operador de cruzamento e pcmin e pcmax, respectivamente, seus valores m´ınimo e máximo, mdg é a medida de diversidade genética da faixa escolhida e interpola() uma fun¸cão de interpola¸cão linear.

Na figura 5.6 pode ser observado o comportamento do processo descrito acima. Nesta

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5

Adaptação Dinâmica Dentro de Faixa

mdg

Taxas de cruzamento e mutação

Região de boa diversidade genética pmmax

pmmin pcmax

pcmin

Pouca diversidade Muita diversidade

Probabilidade de Mutação Probabilidade de Cruzamento

Figura 5.6: Adapta¸cão Dinâmica Pela Média da Popula¸cão Dentro da Faixa [Vmin, Vmax]. figura optou-se por valores meramente ilustrativos como delimitadores de faixa e das probabilidades de muta¸cão e de cruzamento com o objetivo de facilitar a visualiza¸cão do

método através da mesma. Na prática, principalmente no caso das probabilidades dos o- peradores, outros valores devem ser empregados. Antes de ilustrar o comportamento deste algoritmo através de um exemplo, resta ainda uma palavra acerca do método empregado para determinar a precisão de cálculo.

Considerando que cada elemento da popula¸cão é uma cadeia de bits representando uma ou mais variáveis, a precisão de cálculo realizada com as variáveis representadas por esta cadeia é diretamente proporcional ao seu comprimento. Supondo x um vetor de variáveis de decisão e considerando li e [xmini , xmaxi ] como representando, respectivamente, o comprimento da cadeia de bits e a faixa de varia¸cão da i-ésima variável, a distância entre dois pontos da malha desta variável pode ser calculada como:

∆xi = xmax

i − xmini 2li− 1

Com base nesta equa¸cão é poss´ıvel calcular-se, dada uma precisão, o comprimento de uma cadeia necessária para alcan¸car-se uma determinada precisão. Desta forma, tem-se:

li = ceil(log2( xmax

i − xmini ∆xi

+ 1))

onde ceil() retorna o próximo inteiro maior ou igual ao seu argumento. Assim, caso seja desejada uma precisão igual a p casas decimais, basta fazer ∆xi = 10−(p+1) e calcular o comprimento da cadeia de bits necessário para alcan¸car-se tal precisão. Se, por exemplo, p = 6 e xi varia no intervalo [0, 1], será necessária um cadeia de 24 bits para alcan¸car-se a precisão desejada nesta variável.

A seguir, como exemplo de aplica¸cão, é mostrado o emprego do NSGA na resolu¸cão do problema com duas fun¸cões objetivo mostrado na sub-se¸cão 5.5.1, página 64. Para o processo de otimiza¸cão o algoritmo foi inicializado com os parâmetros abaixo:

• N´umero de indiv´ıduos (popula¸c˜ao): 500

• Faixa de varia¸cão da variável independente: [−6, 6] • Tamanho do cromossomo: 22 (precisão de 10−5₎ • Número de gera¸cões: 10

• Adapta¸c˜ao dinˆamica:

– Probabilidade m´ınima do operador de muta¸cão: 0.001 – Probabilidade máxima do operador de muta¸cão: 0.05 – Probabilidade m´ınima do operador de cruzamento: 0.1 – Probabilidade máxima do operador de cruzamento: 0.9 – Valor inferior da faixa: 0.1

Após dez gera¸cões todos os indiv´ıduos da popula¸cão convergiram para o front de Pareto, resultado que pode ser visto na figuras 5.7 e 5.8. Na primeira pode ser visto a concordância deste resultado com a resolu¸cão anal´ıtica mostrada na sub-se¸cão 5.5.1 e na qual se observa que o valor da variável independente x fica restrita ao intervalo [0, 2]. Na outra figura pode-se ver o front de Pareto e também a grande diversidade de resultados poss´ıveis, o que mostra, por sua vez, a eficiência do método de nicho (compartilhamento) empregado.

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 0 0.5 1 1.5 2 2.5 3 3.5 4

As duas funções objetivo f1(x) e f2(x)

f1(x) e f2(x)

f1(x) = x2

f2(x) = (x−2)2

Figura 5.7: Universo de decis˜ao para as fun¸c˜oes f1 e f2.

No documento Implementação computacional de uma gramática gerativa para música tonal (páginas 79-87)