Metaheurística GRASP Com Fase Construtiva Utilizando Aprendizagem Por Reforço

(1)

Metaheurística GRASP Com Fase Construtiva Utilizando

Aprendizagem Por Reforço

Kleyton P. de Almeida1_{, Francisco C. L. Junior}2

1_{Departamento de Informática – Universidade do Estado do Rio Grande do Norte} (UERN) – Mossoró – RN – Brasil.

2

Departamento de Informática – Universidade do Estado do Rio Grande do Norte (UERN) – Mossoró – RN – Brasil.

kleytonpinto@gmail.com, limajunior@uern.br

Abstract. This work presents a hybrid method that uses Q-learning algorithm in the constructive phase of GRASP. Traditional GRASP iterations are independent, in other words, in the current iteration does not use information gained in previous iterations. The basic idea of the method proposed here is to make use of the information contained in the matrix of Q-values as a kind of memory that allows repeat the good decisions taken in previous iterations, and avoid those that were not interesting, thus facilitating the process of exploration / exploitation.

Resumo. Neste trabalho será apresentado um método híbrido que utiliza o algoritmo Q-learning na fase construtiva da metaheurística GRASP. Na metaheurística GRASP tradicional as iterações são independentes, ou seja, na iteração atual não se faz uso da informação obtida nas iterações anteriores. A idéia básica do método aqui proposto é fazer uso das informações contidas na matriz dos Q-valores, como uma espécie de memória que possibilite repetir as boas decisões tomadas em iterações anteriores, e evitar aquelas que não foram interessantes, facilitando assim o processo de exploração/explotação.

1. Introdução

Existe uma gama de problemas reais que são considerados problemas de difícil solução. Esses problemas possuem características estruturais, tais como, agrupamentos, ordenações ou designações de um conjunto de objetos discretos que satisfaçam determinadas restrições. Com isso esses problemas possuem uma alta complexidade computacional e são conhecidos como problemas NP-Árduos.

Aplicar métodos exatos na resolução desses problemas não é viável devido ao alto custo computacional desses métodos e também pelo fato de ser muito complexa a elaboração de um modelo analítico e preciso das tarefas a ser executadas. Uma boa alternativa para a resolução desses problemas é a utilização de metaheurísticas.

Metaheurísticas são procedimentos destinados a encontrar uma boa solução, eventualmente a ótima, consistindo na aplicação, em cada passo, de uma heurística subordinada, a qual tem que ser modelada para cada problema específico (FERNANDES, 2005).

(2)

Outra técnica que tem obtido destaque na resolução de tais problemas é o paradigma da aprendizagem por Reforço (do inglês Reinforcement Learning). A aprendizagem por reforço baseia-se na capacidade de um agente aprendiz adquirir conhecimento, por tentativa e erro, interagindo com o ambiente ao qual está inserido.

Alem do uso das metaheurísticas e da aprendizagem por reforço separadamente, alguns algoritmos híbridos têm sido desenvolvidos e aplicados na resolução desse tipo de problema. A idéia desse trabalho é utilizar o algoritmo Q-learning na fase construtiva da metaheurística GRASP a fim de munir a metaheurística com uma espécie de memória que a possibilite repetir as boas decisões tomadas em iterações passadas. Uma descrição detalhada da metaheurística GRASP e do algoritmo Q-Learning pode ser encontrada na bibliografia do trabalho.

2. Método GRASP Construtiva-Learning

A idéia básica deste algoritmo consiste em modificar a fase construtiva do GRASP tradicional, utilizando uma heurística gulosa-aleatória, na qual a função de avaliação gulosa baseia-se na matriz dos Q-valores gerada pelo algoritmo Q-learning. A figura 1 apresenta uma visão geral do método proposto. O método foi denominado de GRASP Construtiva-Learning por utilizar a matriz dos Q-valores do algoritmo Q-learning na fase construtiva da metaheurística GARSP.

Figura 1. Visão geral do método GRASP Construtiva-Learning implementado

De forma geral o método construtivo aqui proposto é muito semelhante à fase construtiva do GRASP tradicional, o diferencial dele é que a função gulosa utilizada na construção da lista de candidatos - LC, avaliará os elementos a comporem uma solução em construção, com base nos pares estado-ação armazenados na matriz dos Q-valores. Assim a LC será composta pelos elementos ainda não presentes na rota em construção, listado em ordem decrescente de benefício, seguindo agora o critério estabelecido pela nova função gulosa gq(c), ou seja, os elementos da LC serão ordenados com base em:

(3)

Onde c é o atual elemento na rota em construção e

e

são todos os possíveis elementos a serem inseridos nesta rota. A função gq(c) recebe como argumento uma cidade c e retorna, com base no valor Q(c,e), uma lista ordenada de candidatos, onde o primeiro elemento desta lista é a melhor decisão em relação a cidade c, o segundo elemento é a segunda melhor decisão e assim sucessivamente, até o n-ésimo elemento da lista, sendo n o tamanho da instância do PCV.

Assim como a versão do GRASP tradicional o método híbrido aqui proposto utilizará o parâmetro α para determinar a lista restrita de candidatos LRC, da qual serão finalmente sorteados os elementos para construir cada solução viável para o problema.

A fase de busca local deste algoritmo, assim como todos as outras versões do GRASP apresentadas neste trabalho utilizam um método de descida explorando uma vizinhança 2−Opt. O algoritmo 1 apresenta o pseudocódigo do procedimento conforme proposto.

Algoritmo 4.1 Algoritmo GRASP Construtiva-Learning

1: procedure GRASP CONSTRUTIVALEARNING(D,α,Nmax,αq,ε, γ) 2: f (S*_{) ← +∞}

3: R ← GeraRecompensa(D)

4: Q ← QLearning(R,αq,ε, γ) 5: while i ≤ Nmax do

6: S ← QGulosoAleatorio(Q,α)  Fase construtiva com Q-valores 7: S′ ← BuscaLocal(D,S) 8: if f (D,S′) < f (D,S*_{) then} 9: S*_{= S′} 10: end if 11: i ← i + 1 12: end while

13: return S*_{ Melhor solução} 14: end procedure

Algoritmo 1 pseudocódigo para o GRASP Construtiva-Learning

Vizinhaça 2-Opt

Existem diversos algoritmos de busca local e sua classificação pode ser feita com base no tamanho da vizinhança explorada, ou seja, considerando o número de movimentos que pode ser utilizados para transformar uma rota em outra. Dentre tais algoritmos, um dos mais famosos é o 2-Opt que foi proposto inicialmente por Croes [Croes 1958], ele altera uma rota eliminando duas arestas, quebrando assim esta rota em duas sub-rotas, e então reconecta as sub-rotas gerando uma rota alternativa.

(4)

A figura 2 apresenta um exemplo do movimento que ocorre na busca local do tipo 2-Opt para o problema do caixeiro viajante.

Figura 2 Exemplo de movimento típico da busca local 2-Opt para o PCV

(LIMA JUNIOR, 2009, p.31)

3. Comparação de Desempenho dos Métodos Implementados

Nesta seção apresentaremos um comparativo dos resultados obtidos com a implementação da metaheurística GRASP, na sua versão reativa, e o método proposto GRASP Construtiva-Learning. Os algoritmos foram submetidos às mesmas condições paramétricas, o que nos fizemos foi uma corrida de algoritmos.

A tabela 1 lista uma média de 10 execuções obtidas com 10 instâncias do problema do caixeiro viajante simétrico (valor da função objetivo e o tempo de execução, que é dado em segundos).

Tabela 1 Resultados das metaheurísticas GRASP Reativo e GRASP Construtiva-Learning

(5)

Ao analisarmos os resultados computacionais podemos observar que, em relação à função objetivo, o método GRASP Construtiva-Learning se mostra bem competitivo conseguindo ate superar o GARSP Reativo nas instâncias pr76 e a280.

Quando os comparamos em relação ao tempo de execução, observamos que o GRASP Construtiva-Learning se saiu melhor que o GARSP Reativo para todos os casos, tendo no seu pior caso pr76 um ganho de 29,13% e no seu melhor caso gr17 um ganho de 80,13%.

A melhora significativa em relação ao tempo de execução conseguido pelo método GARSP Construtiva-Learning é justificado devido a melhora da qualidade das soluções iniciais que são geradas utilizando-se da matriz dos valores do algoritmo Q-Learning como uma espécie de “memória”. A boa qualidade das soluções iniciais da fase construtiva do GRASP Construtiva-Learning acelera o processo de busca local.

É importante frisar que, apesar do seu melhor caso ter sido na menor instância

gr17, os ganhos são mais expressivos à medida que as instâncias crescem. Isso é

justificado, pois quanto maior a instância do PCV maior é o número de possíveis soluções e conseqüentemente, maior é o espaço de busca a ser percorrido. Com isso, torna-se mais vantajoso o fato de partir de boas soluções.

4. Conclusão

Neste trabalho foi apresentado um estudo sobre o uso do algoritmo Q-learning para suprir a fase da metaheurística GRASP com uma espécie de memória para que ela possa repetir em as boas decisões tomadas em iterações passada, melhorando assim a qualidade das soluções geradas na fase construtiva do GRASP.

Com base nos resultados obtidos, podemos inferir que o método proposto GRASP Construtiva-Learning mostrou-se mais eficiente que a metaheurística GARSP Reativo. Com relação à função objetivo, o método mostrou-se bastante competitivo e em relação ao tempo de execução, a melhora obtida pelo método propostos foi muito expressiva. À medida que o tamanho das instâncias aumentava a melhora proporcionada pelo método ia se tornando mais evidente. O bom desempenho do método com as instâncias de médio porte utilizado, nos deixa esperançosos quanto a utilização do método para instâncias do PCV de grande porte.

4.1 Trabalhos futuro

Esse trabalho teve como objetivo propor uma melhoria para a metaheurística GRASP, com isso, tendo ele como base, podemos sugerir como trabalhos futuros:

Executar testes computacionais com instâncias do PCV com maior número de cidades, com o objetivo de verificar o comportamento dos métodos propostos diante de instâncias de grande porte.

Aplicar a metaheurística GRASP Construtiva-learning a outros problemas de Otimização Combinatória.

Investigar o uso de Aprendizagem por Reforço - algoritmo Q-learning - na melhoria de outras metaheurísticas.

(6)

Referências

CALLEGARI, Daniel Antonio. Aplicando Aprendizagem por Reforço a uma

Arquitetura Multiagente para Suporte ao Ensino de Educação Ambiental.

Dissertação (Mestrado em Ciências). Porto Alegre: Pontifícia Universidade Católica do Rio Grande do Sul, 2000.

COSTA, Fredson Vieira; VIDAL, Fábio Silveira; ANDRÉ, Claudomiro Moura Gomes.

SLAG - Resolvendo o Problema do Caixeiro Viajante Utilizando Algoritmos Genéticos. Artigo (Graduação em Ciências). Universidade Federal do Tocantins,

2003.

FEO, T.; RESENDE M. Greedy randomized adaptive search procedures, Vol. 6, Journal of Global Optimization, 1995.

FERNANDES, Carlos Ropelatto. Programação de Caminhões para o Transporte de

Aves Domésticas para o Abate via a Metaheurísticas GRASP. Dissertação

(Mestrado em Ciências). Curitiba: Universidade Federal do Paraná, 2005.

FREDDO, Ademir Roberto; BRITO, Robison Cris. Implementação da Metaheurística GRASP para o Problema do Caixeiro Viajante Simétrico. Artigo (Graduação em

Ciências). Universidade Federal do Parana.

GUELPELI, Marcus V.C. et al. Utilização de Aprendizagem por Reforço para

Modelagem Autônoma do Aprendiz em um Tutor Inteligente. Artigo (Graduação

em Ciências). São Paulo: Universidade Presbiteriana Mackenzie, 2003. Disponível em: http://nlx.di.fc.ul.pt/~guelpeli/Arquivos/Artigo17.pdf. Acessado em: 13/07/2010.

LIMA JUNIOR, Francisco Chagas de Lima Júnior. Algoritmo Q-learning como

Estratégia de Exploração e/ou Explotação para as Metaheurísticas GRASP e Algoritmo Genético. Tese (Doutorado em Ciências). Natal: Universidade Federal

do Rio Grande do Norte, 2009.

PRAIS, Marcelo; RIBEIRO, Celso C. Reactive grasp: An application to a matrix

decomposition problemin tdma traffic assignment, Journal on Computing 12(3),

2000.

PUTERMAN, M. L. Markov Decision Processes Discrete Stochastic Dynamic

Programming, John Wiley e Sons, Inc, New York, USA, 2005.

SANTANA, Julio Brito et al. Metaheurística: una Revisión Actualizada. Artigo (Graduação em Ciências). Laguna: Universidad de La Laguna, 2004.

SUTTON, R.S; BARTO A.G. Reinforcement Learning: An Introduction, MIT Press, Cambridge, MA, 1998.

TSPLIB. Disponível em: http://elib.zib.de/pub/mp-estdata/tsp/tsplib/tsplib.html. Acesso em: 26/02/2010.