MDP: Solu¸ c˜ oes Baseadas em Programa¸ c˜ ao Dinˆ amica

Existem algoritmos clássicos para gerar pol´ıticas ótimas em MDPs baseados em programa¸cão dinâmica com garantias de convergência. Os algoritmos podem ser executados utilizando: atualiza¸cões s´ıncronas do valor de estado estimado, isto é, em que todos os estados são atualizados em cada itera¸cão; ou ass´ıncronas, em que o valor de um estado é atualizado para alguns estados mais do que para outros e, ainda assim, mantendo-se as propriedades de convergência. A atualiza¸cão da estimativa de V (s) é chamada de Atualiza¸cão de Bellman (Bellman Backup).

A seguir, discutimos dois algoritmos s´ıncronos para resolver MDPs de horizonte infinito, Iteração de Valor [Bellman, 1957] e Iteração de Pol´ıtica [Howard, 1960]) e também apresentamos um método de programa¸cão dinâmica ass´ıncrona, o algoritmo Programa¸cão Dinâmica em Tempo Real (RTDP) [Barto et al., 1995] e suas extensões.

3.3.1 Programa¸c˜ao dinˆamica s´ıncrona

Um algoritmo bem conhecido para resolver um MDP é o algoritmo de Iteração de Valor (IV) [Puterman, 1994]. Ele faz uma série de atualiza¸cões da fun¸cão valor Vt(Vtpode ser interpre- tada como o valor que o agente obterá em t-estágios-para-frente (t-stages-to-go)). Come¸cando com um V0 arbitrário, IV executa atualiza¸cões de todos os estados s, calculando Vtbaseado em Vt−1. Para comprendermos o algoritmo IV usamos a fun¸cão Q(s, a) (Equa¸cão (3.4)) que representa o valor do estado s quando a a¸cão a é usada, dada por:

Qt(s, a) = R(s, a) + γ X s0_∈S

P (s0|s, a)Vt−1(s0) (3.7)

e o melhor valor poss´ıvel no estágio de decisão t e estado s é:

Vt(s) = max a∈AQ

t_{(s, a).} _(3.8)

O cálculo da fun¸cão valor Vt(s) = Backup(Vt−1, s) é a Atualiza¸cão de Bellman. Na Figura

3.3. MDP: SOLUÇ ÕES BASEADAS EM PROGRAMAÇ ÃO DIN ÂMICA 25

Figura 3.1: Exemplo de Atualiza¸c˜ao de Bellman para s0: Vt(s0) = maxa∈AQt(s0, a).

Figura 3.2: O algoritmo de Iteração de Valor executa Atualiza¸cões de Bellman para um MDP com 2 estados, s1e s2, e 3 itera¸cões, calculando Vt baseado em Vt−1.

Dadas as estimativas Vt−1 para os estados sucessores s1, s2, s3 e s4 (após aplicar todas as a¸cões poss´ıveis em s0, no exemplo da figura, a1 e a2), calculamos Qt(s0, a1) e Qt(s0, a2) usando a Equa¸cão (3.7). O maior valor é usado para atualizar Vt(s0), que no exemplo é definido por Qt(s0, a2). A Figura 3.2, ilustra a execu¸cão do algoritmo IV para t variando de 0 a 3, num MDP com apenas 2 estados, s1 e s2 e 2 a¸cões a1 e a2. A Figura3.2não indica os valores selecionados como no exemplo da Figura 3.1. Porém, mostra como o algoritmo de IV atualiza os valores de todos os estados a cada itera¸cão usando o mesmo cálculo ilustrado na Figura 3.1.

No horizonte infinito a fun¸c˜ao valor converge para V∗, sendo que Vt(s) ∼= Vt−1(s). Isso pode ser formalmente definido por:

26 CAP´ITULO 3. PROCESSO DE DECIS ˜AO MARKOVIANO

lim

t→∞maxs |V

t_{(s) − V}t−1_{(s)| = 0,} _(3.9)

resultando na pol´ıtica ´otima, determin´ıstica e estacion´aria π∗ = πV∞ [Puterman, 1994]. Para

solu¸cões práticas de MDPs, muitas vezes estamos apenas preocupados com -otimalidade. Se terminamos o algoritmo IV quando alcan¸camos a condi¸cão:

max s |V

t_{(s) − V}t−1_{(s)| <} (1 − γ)

2γ , (3.10)

então garantimos que a pol´ıtica gulosa πVt não perde mais do que na fun¸cão valor sob um horizonte

infinito, quando comparado com π∗ [Puterman, 1994]. A expressão maxs|Vt(s) − Vt−1(s)| na Equa¸cão (3.10) é chamada de Erro de Bellman (BE - Bellman Error ) e a expressão (1−γ)_2γ será chamada de tolerância (tol ) [Puterman, 1994]. Uma vez que o algoritmo de IV precisa atualizar o espa¸co de estados inteiro a cada itera¸cão, o tempo de execu¸cão para cada itera¸cão deste algoritmo de programa¸cão dinâmica é O(|S|2∗ |A|).

Outro algoritmo clássico para resolver um MDP é o algoritmo de Iteração de Pol´ıtica (IP). Enquanto o algoritmo de Iteração de Valor melhora iterativamente o valor esperado estimado, o algoritmo de Iteração de Pol´ıtica seleciona uma pol´ıtica arbitrária inicial π0 e em cada itera¸cão modifica a pol´ıtica de forma que o valor esperado seja aumentado. Neste algoritmo, cada itera¸cão i é dividida em duas fases:

• Determina¸c˜ao do Valor, em que a pol´ıtica atual ´e avaliada, i.e., para cada estado s ∈ S, Vπi(s)

´e calculado baseado na pol´ıtica πi. Para fazer isso podemos resolver um sistema de equa¸c˜oes lineares.

• Aperfei¸coamento da Pol´ıtica, em que a pol´ıtica atual é melhorada: obtemos πi+1 que é a pol´ıtica gulosa com respeito a Vπi, i.e, para cada estado s ∈ S escolhemos uma a¸cão a ∈ A

que maximiza Q(s, a), isto ´e:

πi+1(s) = max a∈A(Q(s, a)) (3.11) πi+1(s) = max a∈A R(s, a) + γ X s0_∈S P (s0|s, a)Vπi(s 0 ) ! . (3.12)

O algoritmo termina quando πi+1(s) = πi(s) para todo s ∈ S. Para avaliarmos a complexidade dos algoritmos IV e IP, analisamos primeiro a complexidade de cada itera¸cão. A fase de Deter- mina¸cão do Valor pode ser resolvida através do sistema de equa¸cões lineares em tempo O(|S|3_{) ou} através de aproxima¸cões sucessivas em O(|S|2∗ T ) (em que T é o número de itera¸cões para alcan¸car -otimalidade, no caso descontado T << |S|). A fase de Aperfei¸coamento de Pol´ıtica pode ser executada em O(|S|2∗ |A|). Portanto, o tempo de cada itera¸c˜_{ao para os algoritmos Iterac}_¸˜_{ao de} Valor e Iteração de Pol´ıtica é polinomial e o tempo total também é polinomial se e somente se o número de itera¸cões necessárias para encontrar uma pol´ıtica ótima é polinomial [Littman et al.,

3.3. MDP: SOLUÇ ÕES BASEADAS EM PROGRAMAÇ ÃO DIN ÂMICA 27

1995].

A principal desvantagem dos métodos de programa¸cão dinâmica s´ıncrona é que eles precisam atualizar o espa¸co de estados inteiro a cada itera¸cão. Isso pro´ıbe a sua aplica¸cão quando o espa¸co de estados é muito grande.

3.3.2 Programa¸c˜ao dinˆamica ass´ıncrona

Os métodos ass´ıncronos são mais flex´ıveis na sele¸cão dos estados a serem atualizados, neste caso, o agente pode atualizar alguns estados mais do que outros. Um exemplo deste método é chamado de Programa¸cão Dinâmica em Tempo Real (RTDP - Real Time Dynamic Programming) [Barto et al., 1995]. Este método combina a busca heur´ıstica com atualiza¸cões de programa¸cão dinâmica da fun¸cão valor dos estados encontrados durante sessões de simula¸cões de a¸cões, sendo que cada sessão (trial ) é limitada em T estágios, que corresponde a um limite de profundidade de uma sessão de simula¸cão [Barto et al., 1995]. RTDP resolve MDPs com as seguintes especifica¸cões adicionais:

• I ⊆ S ´e um conjunto de estados iniciais e

• G ⊂ S é um conjunto, possivelmente vazio, de estados metas, modelados como estados absorventes com auto-transi¸cões, recompensa 0 e com probabilidade 1 para todas as a¸cões.

Em muitos problemas de planejamento, apenas uma pequena fra¸cão do espa¸co de estados é relevante. Assim, a programa¸cão dinâmica só precisa se concentrar na atualiza¸cão de um conjunto de estados alcan¸cáveis (i.e., estados relevantes). Nestes problemas, é suficiente calcular uma pol´ıtica parcial, ou seja, uma pol´ıtica definida só para os estados relevantes. O algoritmo RTDP apresenta as seguintes vantagens:

• não avalia o espa¸co inteiro de estados, mas só os estados alcan¸cáveis a partir do conjunto de estados iniciais e

• oferece um desempenho bom em qualquer instante, i.e, o algoritmo pode ser interrompido a qualquer momento, uma vez que as solu¸c˜oes fornecidas melhoram monotonicamente com o tempo.

RTDP primeiro inicializa ¯Vu (valor estimado de V∗) com um limite superior admiss´ıvel Vu0,

i.e., ¯Vu(s) ≥ V∗(s) ∀s ∈ S e a seguir, executa várias sessões de simula¸cões. Cada sessão come¸ca com um estado aleatório do conjunto de estados iniciais I. Para cada estado encontrado durante uma simula¸cão, o valor do limite superior ¯Vu(s) é atualizado e uma a¸cão gulosa é escolhida (Figura

3.3). Durante uma sessão de simula¸cão, para obter o próximo estado a ser visitado, RTDP sorteia um estado a partir da fun¸cão de transi¸cão P (·|s, a) (Figura 3.4), i.e.:

ChooseNextState(s, a) = s0 ∼ P (·|s, a). (3.13) RTDP termina uma simula¸cão se encontrar um estado meta (ou objetivo) ou quando uma profundidade limitada é alcan¸cada (Figura 3.5). O algoritmo RTDP (Algoritmo 17) é detalhado no ApêndiceA.

28 CAP´ITULO 3. PROCESSO DE DECIS ˜AO MARKOVIANO

Figura 3.3: RTDP atualiza ¯Vu e escolhe uma a¸c˜ao gulosa a2, isto ´e, aquela com o maior valor Qtu.

Figura 3.4: RTDP escolhe o próximo estado a ser visitado s3 (simula¸cão), baseado na distribu¸cão de proba-

bilidade e um sorteio.

Comprovou-se que, dado um limite superior inicial admiss´ıvel para a fun¸cão valor ¯Vu, a execu¸cão de repetidas sessões de simula¸cões de RTDP encontra o valor ótimo para todos os estados relevantes, ou seja, os estados alcan¸cáveis a partir dos estados iniciais segundo uma pol´ıtica ótima [Barto et al., 1995].

Note que este algoritmo ainda mantém as propriedades de convergência sob certas condi¸cões. Para o caso descontado, em que estamos interessados, RTDP converge para um valor -ótimo sobre todos os estados relevantes, dada uma heur´ıstica admiss´ıvel (limite superior admiss´ıvel) e fazendo as sessões de simula¸cões com um limite de profundidade suficiente. Barto [Bonet and Geffner, 2003] descreve as condi¸cões necessárias para a convergência de RTDP, no caso sem desconto.

3.4. MDP: SOLUÇ ÕES BASEADAS EM PROGRAMAÇ ÃO MATEM ÁTICA 29

Uma fraqueza do RTDP é que caminhos pouco prováveis tendem a ser ignorados e, consequen- temente, a convergência do RTDP é lenta [Bonet and Geffner, 2003]. Assim, algumas extensões do RTDP foram propostas a fim de melhorar a convergência: Labeled RTDP (LRTDP) [Bonet and Geffner, 2003], Bounded RTDP (BRTDP) [McMahan et al., 2005] , Focused RTDP (FRTDP) [Smith and Simmons, 2006] e Bayesian RTDP [Sanner et al., 2009].

LRTDP [Bonet and Geffner, 2003] rotula os estados que já convergiram para evitar visitá-los novamente e assim priorizar a visita aos demais. BRTDP [McMahan et al., 2005] mantém limites superiores e inferiores da fun¸cão valor ótima, ¯Vu(s) e ¯Vl(s), respectivamente, e focaliza a busca em ´

areas onde o valor estimado est´a mais distante do valor ´otimo.

McMahan [McMahan et al., 2005] provou que a atualiza¸c˜ao dos limites superior e inferior ( ¯Vu(s) ≥ V∗(s) ∀s ∈ S e ¯Vl(s) ≤ V∗(s) ∀s ∈ S) durante o BRTDP preserva a admissibilidade da heur´ıstica e faz com que o BRTDP monotonicamente convirja para V∗(s) [McMahan et al., 2005], isto ´e:

lim t→∞

V_lt(s) = V∗(s) = ¯V_ut(s) .

A diferen¸ca entre os limites superior e inferior ( ¯V_ut(s) − ¯V_lt(s)) fornece uma medida da incerteza do valor para o estado s. BRTDP primeiro inicializa ¯Vu e ¯Vl com valores superiores e inferiores admiss´ıveis e então executa várias simula¸cões. Cada simula¸cão come¸ca escolhendo um estado inicial. Para cada estado visitado, os valores superior e inferior são atualizados e uma a¸cão gulosa ´

e escolhida. BRTDP prioriza a escolha do próximo estado de acordo com essa diferen¸ca. BRTDP termina uma simula¸cão se: encontrar um estado meta, se uma profundidade limite for atingida ou se o valor da incerteza for pequeno. O algoritmo BRTDP (Algoritmo18) e o algoritmo que escolhe o próximo estado a ser visitado por BRTDP (Algoritmo19) são mostrados no ApêndiceA.

BRTDP converge pela simples razão de que ele ainda atualiza todos os estados relevantes que RTDP atualizaria com probabilidade não-zero, mas sorteia com base numa distribui¸cão diferente, isto é, uma distribui¸cão que predispõe as atualiza¸cões de estados mais incertos, a fim de reduzir essa incerteza mais rapidamente e assim convergir mais rapidamente [McMahan et al., 2005].

As solu¸cões de programa¸cão dinâmica ass´ıncrona, no pior caso, possuem a mesma complexidade das solu¸cões de programa¸cão dinâmica s´ıncrona (IV e IP). Porém, dependendo do tamanho do conjunto de estados relevantes do problema em questão, as solu¸cões do tipo RTDP podem resolver MDPs envolvendo milhares de estados.

No documento Processos de decisão Markovianos fatorados com probabilidades imprecisas (páginas 54-59)