MDP Fatorado: Solu¸c˜ oes baseadas em Programa¸c˜ ao Dinˆ amica

Para resolvermos um MDP Fatorado, são conhecidos algoritmos exatos e aproximados baseados em programa¸cão dinâmica, tais como: SPI [Boutilier et al., 1995], SPUDD [Hoey et al., 1999] e APRICODD [St-aubin et al., 2000]. Esses algoritmos criam um modelo abstrato em que estados similares são agrupados resultando em uma redu¸cão do tamanho do espa¸co de estados e dessa maneira, tentam tratar a “maldi¸cão da dimensionalidade de Bellman”.

O algoritmo SPI (Structured Policy Iteration) [Boutilier et al., 1995] usa árvores para agregar estados similares. Esse algoritmo implementa Iteração de Pol´ıtica modificada em que CPTs, recompensa, pol´ıticas e fun¸cões valor são representadas por árvores de decisão. Um inconveniente deste tipo de representa¸cão é que não pode representar de forma compacta fun¸cões com sub- estruturas compartilhadas, o que implica na replica¸cão dos valores [Hoey et al., 1999]. Para lidar com este problema, foi proposto o uso de ADDs, no lugar de árvores de decisão.

42 CAP´ITULO 4. PROCESSO DE DECIS ˜AO MARKOVIANO FATORADO

4.3.1 SPUDD

SPUDD (Stochastic Planning using Decision Diagrams) [Hoey et al., 1999] estende o algoritmo de Iteração de Valor para explorar a estrutura do dom´ınio de aplica¸cão representada por uma DBN e ADD e encontrar uma solu¸cão de maneira eficiente. Na Se¸cão4.2 vimos que ADDs podem ser usados para representar de forma compacta tanto a fun¸cão de transi¸cão como CPTs quanto a fun¸cão recompensa de um MDP. Adicionalmente, ADDs podem ser usados para representar a fun¸cão valor, geralmente de forma extremamente compacta e agrupando estados de mesmo valor em cada itera¸cão do algoritmo. Para isso, expressamos a atualiza¸cão de Bellman na Iteração de Valor (Equa¸cões (3.7) e (3.8)) usando opera¸cões em ADDs da seguinte forma fatorada :

V_DDt (~x) = max a∈A ( RDD(~x, a) ⊕ γ X ~ x0 n O i=1 PDD(x0i|paa(x0i), a)VDDt−1(~x 0₎ ) . (4.5)

em que as variáveis com ´ındice DD indicam fun¸cões representadas por ADDs. Note que na Equa¸cão (4.5) usamos a opera¸cão unária de marginaliza¸cão e as opera¸cões binárias: ⊕, ⊗ e max(·, ·). Assim, o Vt(~x) resultante pode ser expresso como um ADD (uma vez que essas opera¸cões são fechadas para ADDs).

SPUDD usa o algoritmo de Eliminação de Variáveis [Zhang and Poole, 1994] fazendo a marginaliza¸cão sobre cada variável de estadoP

x0_i no lugar de fazer diretamente a marginaliza¸c˜ao sobre todos os estados P

x0. As principais fun¸c˜oes do SPUDD s˜ao:

• SolveMDP (Algoritmo 1) constrói uma serie de fun¸cões valor t-estágios-para-frente V_DDt , representadas como ADDs. Primeiro, cria-se a representa¸cão ADD de todas as CPTs das DBNs no MDP e inicializa-se a primeira fun¸cão valor com 0. O la¸co é repetido até atingir um número máximo de itera¸cões (maxIter ) ou até que a condi¸cão de término (BE < tol ) é satisfeita, em que o Erro de Bellman é definido como BE = max~x|Vt(~x) − Vt−1(~x)| e tol é a tolerância. Em cada itera¸cão o algoritmo Regress é chamado e VDDt é atualizado com o máximo sobre todos os Qt_DD (sendo que existe um Qt_DD para cada a¸cão a). Em seguida, BE é computado e testado para terminar.

• Regress (Algoritmo 2) atualiza V_DDt−1 (Atualiza¸cão de Bellman), i.e., fornece o valor Qt_DD que seria obtido se executamos a a¸cão a. Durante a atualiza¸cão convertemos cada Xi para X_i0 (usando a fun¸cão convertToPrimes) e as CPTs para a a¸cão a são multiplicadas e marginalizadas (note que a marginaliza¸cão é sobre cada variável de estado). Finalmente, o valor futuro é descontado de um fator γ e a recompensa RDD é adicionada para completar a Atualiza¸cão de Bellman.

SPUDD mostrou ser um método promissor para a resolu¸cão de MDPs fatorados de maneira eficiente cuja estrutura pode ser explorada pelos ADDs. No pior caso, quando todos os estados têm valores diferentes, ou seja, não existe uma estrutura compacta que pode ser explorada pelos ADDs, a sobrecarga com a cria¸cão de ADDs não é muito grave (SPUDD leva apenas uma constante vezes

4.3. MDP FATORADO: SOLUÇ ÕES BASEADAS EM PROGRAMAÇ ÃO DIN ÂMICA 43

Algoritmo 1: SolveMDP(MDP, tol, maxIter ) input : MDP (given by hS, A, R, P, γi),

tol (tolerance that guarantees -optimality), maxIter (maximum number of iterations) output: V_DDt (t-state-to-go value function)

begin 1 Create ADD CPTs CPTx 0 i a for MDP; 2 V_DD0 = 0; 3 t = 0; 4

//construct t-stage-to-go value functions V_DDt until termination condition is met 5 while i < maxIter do 6 t = t + 1; 7 V_DDt = −∞; 8

//update V_DDt with the max over all Qt_DD 9 foreach a ∈ A do 10 Qt_DD = Regress(VDDt−1, a); 11 V_DDt = max(V_DDt ,Qt_DD); 12

//compute Bellman Error (BE) and check for termination 13 Diff_DD = V_DDt V_DDt−1; 14 BE = max(max(Diff_DD),− min(Diff_DD)); 15 if BE < tol then 16 break; 17 18 return V_DDt ; 19 end 20 Algoritmo 2: Regress(VDD, a) input : VDD(value function),

a (action)

output: QDD (the value function obtained if executing a and acting so as obtain VDD thereafter)

begin 1

QDD = convertToPrimes(VDD); //convert variables Xi to Xi0 2

//CPTs are multiplied in and summed out 3 for all X_i0 in QDD do 4 QDD = QDD⊗ CPT x0_i a ; 5 QDD =P_x0 i∈X 0 iQDD; 6 QDD = RDD ⊕ (γ ⊗ QDD) ; 7 return QDD ; 8 end 9

o tempo da Iteração de Valor com espa¸co enumerativo) [Hoey et al., 1999]. Portanto, no pior caso, SPUDD mantém a mesma complexidade dos algoritmos IV e IP.

44 CAP´ITULO 4. PROCESSO DE DECIS ˜AO MARKOVIANO FATORADO

Figura 4.12: a) A fun¸cão valor Vtrepresentada como um ADD. b) O resultado do passo de redu¸cão de ADDs de APRICODD, que substitui os nós internos por um intervalo de valores.

4.3.2 APRICODD `

As vezes, é imposs´ıvel obter solu¸cões exatas devido às limita¸cões de tempo e espa¸co. Assim, a fim de resolver MDPs grandes, muitas vezes temos que recorrer a métodos aproximados.

APRICODD (Approximate Policy Construction using Decision Diagrams) [St-aubin et al., 2000] é uma versão aproximada de SPUDD com um passo adicional após a linha 17 do algoritmo SolveMDP (Algoritmo 1), que reduz o tamanho das fun¸cões valor geradas durante a Iteração de Valor. Para isso, APRICODD poda nós internos na representa¸cão ADD da fun¸cão valor (V_DDt ) e os substitui com o valor m´ınimo e máximo das folhas, criando um novo ADD reduzido em cada itera¸cão, cujas folhas são representadas por intervalos de valores reais. Um exemplo é mostrado na Figura4.12. É importante notar que este método ainda produz garantias sobre o erro de aproxima¸cão [St-aubin et al., 2000].

No documento Processos de decisão Markovianos fatorados com probabilidades imprecisas (páginas 71-74)