Diagramas de Decis˜ ao Alg´ ebrica - Processos de decisão Markovianos fatorados com probabilida

Podemos representar a fun¸cão de transi¸cão numa DBN de forma ainda mais compacta do que enumerar todos os poss´ıveis valores que as variáveis pais podem assumir através de CPTs. Por exemplo, na Figura 4.1.b, para X₁0 = 1 a probabilidade de transi¸cão é 0.4, independentemente dos valores das variáveis X1 e X2. Ou seja, numa CPT, podemos identificar que alguns valores de probabilidade de transi¸cão independem dos valores de algumas variáveis pais. Essa independência é conhecida como independência espec´ıfica de contexto (CSI - Context-Specific Independence) [Bouti- lier et al., 1996]. Para poder representar de forma compacta esse tipo de independência, usamos os Diagramas de Decisão Algébrica (ADDs - Algebraic Decision Diagrams) [Bahar et al., 1993]. Dessa forma, será poss´ıvel explorar ainda mais a estrutura de um dom´ınio de aplica¸cão para a constru¸cão de solu¸cões eficientes.

ADDs permitem cálculos eficientes durante a Iteração de Valor, como veremos na Se¸cão4.3. A seguir, definimos os Diagramas de Decisão Algébrica, suas opera¸cões básicas e mostraremos como eles podem ser usados na constru¸cão de algoritmos eficientes para MDPs [Hoey et al., 1999,St-aubin et al., 2000].

4.2. DIAGRAMAS DE DECIS ˜AO ALG ´EBRICA 37

Figura 4.3: Um exemplo de fun¸c˜ao recompensa R(x1, x2, x3) = P 3

i=1xi representada como um ADD. A

linha cont´ınua indica o ramo verdadeiro (Xi = 1) da vari´avel de teste e a linha tracejada indica o ramo falso

(Xi= 0).

O Diagrama de Decisão Algébrica (ADD) [Bahar et al., 1993] é uma generaliza¸cão de um Diagrama de Decisão Binária (BDD) que representa fun¸cões booleanas do tipo f : {0, 1}n→ {0, 1} [Bryant, 1992]. Um BDD é uma estrutura de dados que contém nós de decisão, cada um rotulado com uma variável booleana (variável de teste) com dois nós sucessores, chamados: sucessor l (low) e sucessor h (high). A aresta de um nó ao seu sucessor l (h) representa uma atribui¸cão 0 (1) à variável. O termo BDD em geral refere-se a Reduced Ordered Binary Decision Diagram (ROBDD), usado quando aspectos de redu¸cão e ordena¸cão precisam ser enfatizados. Uma das vantagens de ROBDD é que existe um único ROBDD que representa uma fun¸cão.

Solu¸cões eficientes para resolver MDPs fatorados usam ADDs para representar fun¸cões reais. A única diferen¸ca entre um ADD e um BDD é que os nós terminais de um ADD são valores reais, isto é, ADDs representam fun¸cões do tipo f : {0, 1}n → R, como grafos dirigidos ac´ıclicos (DAGs - Directed Acyclic Graphs), cujas variáveis de teste em qualquer caminho da raiz até uma folha seguem uma ordena¸cão previamente fixada. Um ADD é usado para gerar o valor de uma fun¸cão real da seguinte forma: dados os valores booleanos de teste, seguimos os ramos l ou h, respectivamente até chegarmos numa folha, que é o valor real devolvido pela fun¸cão (Figura 4.3).

Assim como nos BDDs, ADDs podem ser reduzidos quando a mesma fun¸cão é compartilhada por diferentes nós (subgrafos idênticos). Por exemplo, a fun¸cão recompensa R(x1, x2, x3) = P3_i=1xi, representada na Figura 4.3 como um ADD, explora a estrutura redundante dos sub-diagramas através de sua representa¸cão DAG. Além disso, ADDs fornecem uma representa¸cão compacta de fun¸cões com independência do tipo CSI [Boutilier et al., 1996]. Na Figura 4.1.d mostramos o ADD para P (x0₂|x1, x2, x10, a). Note que no ADD não é necessário testar os valores das variáveis x1 e x2, quando sabemos que X₁0 = 1.

Formalmente, podemos definir um ADD F através de uma gramática BNF (Backus Naur Form). Os nós de decisão internos do ADD são rotulados com uma variável individual de teste var, e têm grau 2; os dois arcos de sa´ıda são o ramo verdadeiro da variável de teste (Fh) e o ramo falso (Fl). Os nós terminais que têm grau 0 são rotulados com um valor constante Const ∈ R. Assim, a

38 CAP´ITULO 4. PROCESSO DE DECIS ˜AO MARKOVIANO FATORADO

Figura 4.4: Representa¸cão gráfica de um ADD: var é o nome da variável, e Fh e Fl são os identificadores

dos n´os dos ramos verdadeiro e falso, respectivamente.

Figura 4.5: Um diagrama de decisão ordenado e a sua representa¸cão canônica. A linha cont´ınua indica o ramo verdadeiro (Xi= 1) da variável de teste e a linha tracejada indica o ramo falso (Xi= 0).

gram´atica BNF ´e dada por:

F ::= Const |if (Fvar) then Fh else Fl. (4.4)

Isso significa que, para avaliar uma expressão, se var é igual a verdadeiro então o ramo Fh deve ser seguido e quando var é igual a falso Fl deve ser seguido (dai o nome “diagrama de decisão”). Uma representa¸cão gráfica da Expressão (4.4) é mostrada na Figura4.4.

O valor de um ADD F contendo um conjunto de variáveis {x1, · · · , xn} na atribui¸cão de valores das variáveis ρ ∈ {0, 1}n _{pode ser definido recursivamente por:}

V al(F, ρ) =     

se F = Const então Const . se F 6= Const ∧ ρ(Fvar) = true então Val (Fh, ρ). se F 6= Const ∧ ρ(Fvar) = false então Val (Fl, ρ).

Para qualquer fun¸cão f (x1, · · · , xn) e uma ordena¸cão de variáveis fixa sobre x1, · · · , xn, um ADD reduzido é definido como a representa¸cão de diagrama de decisão ordenado de tamanho m´ınimo que representa a fun¸cão f . Existe um único ADD reduzido que representa a fun¸cão f , chamado de representa¸cão canônica. Isso foi provado para BDDs em [Bryant, 1986] e pode ser generalizado trivialmente para ADDs.

Na Figura 4.5mostramos um Diagrama de Decisão Algébrica Ordenado (OADD que chamare- mos simplesmente de ADD) e a sua representa¸cão canônica.

4.2. DIAGRAMAS DE DECIS ˜AO ALG ´EBRICA 39

Figura 4.6: a) Fun¸cão f e g. b)Representa¸cão canônica de f e g.

Figura 4.7: a) Fun¸cões f , g e f + g. b) ADDs canônicas da fun¸cão f , g e da soma f ⊕ g.

subtra¸cão ( ), multiplica¸cão (⊗), min(·, ·) e max(·, ·), podem ser executadas de forma eficiente em ADDs. Na Figura 4.6 mostramos as fun¸cões f e g com suas respectivas representa¸cões ADD canônicas. A Figura4.6.a mostra as fun¸cões f e g representadas em tabelas. Note que a fun¸cão g somente depende da variável X2, o que é representado de forma compacta com o ADD da Figura

4.6.b.

O resultado da opera¸cão f + g é mostrado na última coluna da tabela na Figura 4.7.a e a sua representa¸cão canônica f ⊕ g é mostrada na Figura 4.7.b.

Na Figura 4.8 é mostrado o resultado de max(f ) e na Figura 4.9 é mostrado o resultado da opera¸cão max(f, g). A diferen¸ca entre min(·) e min(·, ·) (max(·) e max(·, ·)) é que o resultado da opera¸cão unária é um número real, i.e, o valor m´ınimo (máximo) das folhas, respectivamente, enquanto o resultado da opera¸cão binária é um ADD, i.e., o m´ınimo (máximo) entre as duas fun¸cões ponto a ponto.

A opera¸cão auxiliar unária restringir uma variável Xi para verdadeiro ou falso consiste em considerar somente as linhas na tabela em que Xi é verdadeira (1) ou falsa (0), opera¸cão que representamos por F |Xi=1 ou F |Xi=0, respectivamente. Na Figura 4.10 mostramos a fun¸cão P e

o resultado da opera¸c˜ao P |X2=1. Note que no ADD canˆonico resultante, Figura 4.10.b, somente

40 CAP´ITULO 4. PROCESSO DE DECIS ˜AO MARKOVIANO FATORADO

Figura 4.8: a) Fun¸cão f e max(f ). b) ADD canônica de f e o resultado da opera¸cão max(f ).

Figura 4.9: a) Fun¸cões f , g e max(f, g). b) ADDs canônicas das fun¸cões f , g e do máximo max(f, g).

Figura 4.10: a) Fun¸c˜oes P e P |X2=1 (i.e., a opera¸c˜ao que considera unicamente as linhas da tabela em que

X2= 1. b) Representa¸cão canônica de P e o resultado da opera¸cãoP |X2=1.

Uma outra opera¸c˜ao importante que pode ser executada em ADDs e usada para resolver MDPs ´

e a marginaliza¸cão (também chamada de sum-out ) ou marginaliza¸cão de probabilidade conjunta como vista na Se¸cão 2.1.4. Por exemplo, a marginaliza¸cão de P (X1, X2, Xi, ...) com rela¸cão a uma

4.3. MDP FATORADO: SOLUÇ ÕES BASEADAS EM PROGRAMAÇ ÃO DIN ÂMICA 41

Figura 4.11: a) As fun¸cões P (X1, X2) e marginaliza¸cãoPx2P . b) Resultado da opera¸cão de marginaliza¸cão

x2∈X2P = F |x2=1⊕ F |x2=0 sobre ADDs (como a soma de duas opera¸c˜oes de restri¸c˜ao).

vari´avel ´e denotada por P

xi∈XiP (X1, X2, Xi, ...) (numa nota¸c˜ao simplificada usamos

xi∈XiP ).

Essa opera¸cão pode ser calculada usando a fun¸cão auxiliar restringir como definida acima. Na Figura 4.11.a temos uma distribui¸cão de probabilidade conjunta P (X1, X2) e a marginaliza¸cão sobre X2. Note que a marginaliza¸cão P_x₂P elimina a variável X2, resultando numa tabela com dois valores, uma para cada valor poss´ıvel da variável X1. A opera¸cãoPx2P , usando ADDs, pode

ser calculada restringindo a vari´avel X2 para ser verdadeira (F |X2=1), e restringindo a vari´avel X2

para ser falsa (F |X2=0), e finalmente somando ambos os resultados.

No documento Processos de decisão Markovianos fatorados com probabilidades imprecisas (páginas 66-71)