Algoritmo Q-Learning - 3 Determina¸ c˜ ao de Caminhos

3 Determina¸ c˜ ao de Caminhos

3.5 Algoritmo Q-Learning

A tarefa de aprendizado de um agente que interage com um ambiente pode ser definida como determinar uma pol´ıtica ótima que maximize os valores das recompensas em longo prazo, e estabele¸ca uma estratégia de controle que determina uma sequência de a¸cões, ou seja, a partir de um conjunto de pol´ıticas:

π : S → A

Responsáveis pelo mapeamento de um conjunto de estados S, em um conjunto de a¸cões A, o agente deseja determinar uma pol´ıtica ótima, definida como:

π∗ ≡ M axπ{Vπ(s), (∀s)}

A fun¸cão valor é computada na forma acumulativa, para um determinado estado st, a partir da soma ponderada dos retornos estabelecidos em fun¸cão de uma pol´ıtica,

considerando um fator de desconto e uma fun¸c˜ao de retorno r, para um determinado horizonte que pode ser finito ou infinito. Portanto:

Vπ_(s

Esse problema, relacionado ao aprendizado de uma pol´ıtica, não pode ser tratado sob a ótica do aprendizado supervisionado, já que os pares do conjunto de treinamento, definidos como (s, a) = π(s), não são previamente conhecidos. O que se tem é uma sequência de retornos, proveniente da transi¸cão de estados resultantes da execu¸cão das a¸cões por parte do agente, caracterizando um problema de atribui¸cão de crédito temporal. Tradicionalmente, quando se tem um conhecimento prévio de todo espa¸co de estados do problema, envolvendo todos os poss´ıveis estados e suas respectivas transi¸cões, e um conhecimento completo da fun¸cão de recompensa ou de retorno para cada transi¸cão, a defini¸cão de uma pol´ıtica ótima na forma estocástica se encontra fundamentada na teoria de Processos de Decisão Markovianos e, nos casos determin´ısticos, na solu¸cão de um problema de Programa¸cão Dinâmica, conforme descrito no Apêndice A.

3.5.1 Solu¸c˜ao Aproximada e Fun¸c˜ao Q

Considerando-se a ausência das informa¸cões relacionadas às fun¸cões de transferência, e também o problema definido como a maldi¸cão da dimensionalidade que afeta a viabilidade computacional do algoritmo de Programa¸cão Dinâmica, explicado no Apêndice A, podem- se adotar como estratégia de solu¸cão uma abordagem sub-ótima para o tratamento do problema de aprendizado de um agente. Considerando o critério proposto por (BELLMAN, 1957), a escolha de uma a¸cão ótima a∗ no estado s, está relacionada à maximiza¸cão de um valor equivalente à soma do retorno imediato produzido pela a¸cão escolhida com os valores das recompensas futuras a partir do estado sucessor, associada ao fator de desconto. Portanto:

π ∗ (s) = argM axa{r(s, a) + γ.V∗(δ(s, a))}

Para que esta formula¸cão seja empregada, é necessário que o agente aprenda a fun¸cão de valor V∗, o que exige o conhecimento prévio da fun¸cão de transi¸cão e da fun¸cão de recompensa r, para todas as transi¸cões poss´ıveis, o que, como foi visto, nem sempre é poss´ıvel. Para resolver este problema, (WATKINS; DAYAN, 1989) propõe o aprendizado de uma fun¸cão alternativa, conhecida como fun¸cão Q, que consiste de uma fun¸cão de avalia¸cão definida na forma:

Q(s, a) ≡ r(s, a) + γ.V∗(δ(s, a))

Considerando:

V ∗ (s) = M axa0Q(s, a0)

Pode-se redefinir a fun¸c˜ao Q na forma recursiva como: Q(s, a) ≡ r(s, a) + γ.M axa0Q(δ(s, a), a0)

E importante observar que o aprendizado da fun¸cão Q torna desnecessário o aprendizado da fun¸cão valor V ∗ e, também, do conhecimento a priori das fun¸cões de recompensa r e de transi¸cão. Em uma forma de treinamento online os valores provenientes des- tas fun¸cões são obtidos diretamente da resposta do ambiente. Para estimar a fun¸cão Q (WATKINS; DAYAN, 1989) propôs um algoritmo de treinamento baseado em corre¸cões por sucessivas diferen¸cas temporais conhecido como Q-Learning. Neste sentido, define-se uma fun¸cão de aproxima¸cão Q que é atualizada de forma iterativa da seguinte forma:

Q(s, a) ← r(s, a) + γ.M axa0Q(s0, a0), sendo s0 = δ(s, a)

Ou seja, no estado s o agente escolhe uma a¸cão a que maximiza a sua escolha, considerando os valores aproximados da fun¸cão Q entre todas as alternativas poss´ıveis. Dessa forma, os valores mais recentes da fun¸cão Q para o estado sucessor s0 são utilizados para a atualiza¸cão do valor da fun¸cão Q para o estado s. Este algoritmo pode ser estendido para situa¸cões de não determinismo, onde as fun¸cões de recompensa e de transi¸cão possuem um caráter randômico.

3.5.2 Q-Learning Incremental

A atualiza¸cão dos valores da fun¸cão Q, considerando somente o efeito da a¸cão e a consequente recompensa associada, implementa um processo de aprendizado baseado na ado¸cão de um critério de corre¸cão por retorno ou diferen¸ca imediata.

Entretanto, é poss´ıvel a atualiza¸cão dos valores da fun¸cão Q considerando o efeito de um conjunto de a¸cões antecessoras associadas às suas respectivas recompensas, com a utiliza¸cão do fator de desconto λ no sentido de incrementar ou tornar mais influente as decisões tomadas mais recentemente. Este processo, que também pode ser definido como um algoritmo de aprendizado de múltiplos passos, tem uma rela¸cão direta com o método mais geral de diferen¸cas temporais, conhecido como T D(λ).

Na nova implementa¸cão a única diferen¸ca em rela¸cão ao algoritmo clássico do Q- Learning, que atualiza um único estado por vez baseado no retorno imediato, está na forma de atualiza¸cão dos valores da fun¸cão Q. Considerando o valor da taxa de aprendizagem igual a um , β = 1, e a corre¸cão em dois passos:

Q(x, a) = r(x, y) + γ.(M axa0{Q(y, a0)}) + γ.(M ax_a00{Q(z, a00)})

Para duas transi¸cões sucessivas, representadas pelas respectivas fun¸cões de trans- ferência:

z = δ(y, a0) e y = δ(x, a)

A exemplo do método T D(λ) considera-se a existência de um número variável de passos no processo de corre¸cão da fun¸cão. Neste caso, o valor de cada estado fica ponderado pela n-ésima potência da taxa de desconto, ou seja multiplica-se por γn_{, considerando n}

o n´umero de transi¸c˜oes observadas.

Uma alternativa para melhorar a eficiência do algoritmo Q-Learning consiste na atualiza¸cão simultânea de vários estados para a mesma a¸cão escolhida, que possuam algum grau de similaridade com o estado atual. Neste caso, é necessária a implementa¸cão de um processo de matching ou de reconhecimento por algum tipo de técnica não supervisionada como, por exemplo, algoritmos de análise de cluster ou de memória associativa.

As maiores deficiências do algoritmo Q-Learning se referem a sua baixa taxa de con- vergência e a necessidade de armazenamento expl´ıcito dos valores da fun¸cão Q.

No documento mauricioarchanjonunescoelho (páginas 40-44)