Planejamento para metas simples - Planejamento Não-Determin´ıstico baseado em Verificação de

40CAPÍTULO 3. PLANEJAMENTO BASEADO EM VERIFICAÇ ÃO DE MODELOS

• Solu¸cões fortessão planos que atingem a meta, garantidamente, a despeito do não-determinismo, ou seja, todos os caminhos no diagrama Dπ são finitos e atingem a meta. Formalmente, um planoπé uma solu¸cãoforteparaP se e só seDπé ac´ıclico e todo terminal emD_π está emS_g.

• Solu¸cões fortes c´ıclicas são planos que atingem a meta, supondo-se que os ciclos sejam eventualmente interrompidos. Formalmente, um planoπé uma solu¸cãoforte c´ıclica paraP se e só se a partir de cada estado emS_π existe um caminho até um terminal emDπ e todo terminal emDπ está emSg.

fortes fracas

fortes ciclicas

Figura 3.4: Classes de solu¸c˜oesfraca,forteeforte c´ıclica.

Como podemos observar na Figura 3.4, toda solu¸cão forte é também uma solu¸cão forte c´ıclica e toda solu¸cão forte c´ıclica é também uma solu¸cão fraca. Solu¸cões estritamente fracas e solu¸cões fortes correspondem a dois casos extremos de satisfa¸cão de metas sim-ples. Intuitivamente, solu¸cões estritamente fracas correspondem a “planos otimistas”e solu¸cões fortes correspondem a “planos seguros”. Entretanto, na prática, há casos em que solu¸cões estritamente fracas não são aceitáveis e solu¸cões fortes não existem. Nesses casos, solu¸cões estritamente fortes c´ıclicas podem ser uma alternativa viável.

s₀ s

s s

5 a

a a

54 35

a54 s

0 s₄

s 3 a

a 04

34 s₀

s₁

s s2

5 a

a a a

01 54

15 20

Figura 3.5: Diagramas de transi¸c˜oes induzidos pelas pol´ıticasπ1,π2 eπ3.

Considere as pol´ıticas a seguir, cujos diagramas induzidos s˜ao exibidos na Figura 3.5:

π1={(s0, a04),(s3, a35),(s5, a54)}

π2={(s0, a04),(s3, a34)}

π3={(s0, a01),(s1, a15),(s2, a20),(s5, a54)}

Essas pol´ıticas são diferentes estratégias para atingir o estado s4, a partir do estado s0. A pol´ıticaπ1é uma solu¸cão fraca: se o agente chega ao estados2, ele não consegue mais atingir a meta. A pol´ıtica π2 é uma solu¸cão forte: independentemente do não-determinismo da a¸cãoa04, o agente sempre atinge a meta. Finalmente,π3é uma solu¸cão forte c´ıclica. Note que essa última pol´ıtica descreve um comportamento iterativo, já que o agente pode ter que repetir várias vezes uma mesma a¸cão antes de atingir a meta. Enquanto as pol´ıticasπ1eπ2, garantidamente, atingem um estado terminal (não necessariamente meta), a pol´ıtica π3 pode ficar executando infinitamente

3.3. PLANEJAMENTO PARA METAS SIMPLES 41

3.3.2 Planejamento forte

O algoritmo de planejamentoForte[Cimatti et al., 1998] recebe como entrada um pro-blema de planejamentoP e devolve uma solu¸cão forte (se existir) oufalha. Para encon-trar uma solu¸cão forte, esse algoritmo realiza uma busca regressiva em largura, deS_gaté S0, através da aplica¸cão iterativa da fun¸cãoPreImagemForteao conjunto corrente de estados ating´ıveisS⁰, definida como:

PreImagemForte(S⁰) ={(s, a) :T(s, a)6=∅ ∧ T(s, a)⊆ S⁰} (3.16) Note que essa fun¸cão resulta num conjunto de estados⁴ cujos sucessores estão todos no conjunto S⁰. Como a regressão inicia comS⁰ = S_g, podemos garantir que todo cami-nho iniciando num estado emPreImagemForte(S⁰) leva a um estado meta; ademais, como cada novo estado no conjunto PreImagemForte(S⁰) só tem sucessores em S⁰, não haverá ciclos nesses caminhos. Portanto, podemos garantir que o algoritmoForte termina em um dos casos: quando todos os estados iniciais estiverem no conjunto S⁰ (nesse caso,πié uma solu¸cão forte paraP); ou quando um ponto fixo m´ınimo, a partir do qual o conjuntoS⁰ não pode mais ser estendido, for atingido (nesse caso, não existe solu¸cão forte paraP).

Forte(P) 1 i←0 2 π0← ∅ 3 repita

4 S⁰←Sg∪ S_π_i

5 se S0⊆ S⁰ ent~ao devolvaDeterm(πi) 6 πi+1←πi∪Poda(PreImagemForte(S⁰),S⁰) 7 i←i+ 1

8 at´eπi=πi−1

9 devolva falha

Para eliminar da pré-imagem forte deS⁰ os estados que já estavam emS⁰ (aos quais já foram associadas a¸cões em itera¸cões anteriores), o algoritmo de planejamentoForte utiliza a fun¸cãoPoda, definida como:

Poda(π,S⁰) ={(s, a)∈π:s6∈ S⁰} (3.17) Finalmente, para garantir que o plano encontrado seja determin´ıstico,i.e., que associe no máximo uma a¸cão a cada estado, o algoritmo Forte utiliza a fun¸cãoDeterm(π), que devolve uma pol´ıtica π⁰ ⊆πtal que Sπ⁰ =Sπ e π⁰ satisfaz a condi¸cão de que para cada estados∈ Sπ⁰ exista uma única a¸cão associada.

Considere o exemplo apresentado na Figura 3.6, onde S0 = {s0} e Sg = {s4}. Na primeira itera¸c˜ao do algoritmoForte, temos:

S⁰={s4}

PreImagemForte(S⁰) ={(s3, a34)}

Poda(PreImagemForte(S⁰),S⁰) ={(s3, a34)}

π1={(s3, a34)}

4Na verdadePreImagemForte resulta numa pol´ıtica, ou seja, um conjunto de pares (s, a), mas estamos nos referindo apenas aos estados mapeados por essa pol´ıtica.

42CAPÍTULO 3. PLANEJAMENTO BASEADO EM VERIFICAÇ ÃO DE MODELOS Na segunda itera¸cão, temos:

S⁰ ={s3, s4}

PreImagemForte(S⁰) ={(s0, a04),(s3, a34)}

Poda(PreImagemForte(S⁰),S⁰) ={(s0, a04)}

π2={(s0, a04),(s3, a34)}

Finalmente, como na terceira itera¸cão a condi¸cãoS0⊆(Sg∪Sπ2) é satisfeita, o algoritmo Fortedevolveπ2como resposta.

s₀

s s

5 a

a a

a a a

a 04

01 54

54 35

15 20

Figura 3.6: Funcionamento do algoritmoForte, comS0={s0}eSg={s4}.

3.3.3 Planejamento fraco

O algoritmo de planejamento Fraco [Cimatti et al., 1997] é similar ao algoritmo de planejamentoForte, mas usa a fun¸cão de pré-imagem fraca:

PreImagemFraca(S⁰) ={(s, a) :T(s, a)∩ S⁰6=∅} (3.18) Essa fun¸cão resulta num conjunto de estados a partir dos quais é poss´ıvel atingir estados em S⁰; porém, não há garantia de que todas as transi¸cões realizadas a partir desses estados realmente levem a estados emS⁰. É por esse motivo que estados terminais que não são estados metas (e.g., estado s2 na Figura 3.7) podem surgir no diagrama de transi¸cões induzido pelo plano encontrado.

s₄

s s

s₂

5 a

a a

a a a

a 04

01 54

54 35

15 20

Figura 3.7: Funcionamento do algoritmoFraco, comS0={s0}eSg={s4}.

3.3.4 Planejamento forte c´ıclico

O algoritmo de planejamentoForteC´ıclico[Daniele et al., 1999] inicia com uma pol´ıtica universalπ0={(s, a) :s∈ S ea∈ A(s)}, contendo todos os paresestado-a¸c˜aoposs´ıveis

3.3. PLANEJAMENTO PARA METAS SIMPLES 43 no dom´ınio considerado. Em seguida, iterativamente, vai eliminando os pares que levam a estados fora dessa pol´ıtica. A elimina¸cão é implementada pelas fun¸cõesPodaBeco, que remove todos os pares (s, a)∈πi a partir dos quais é imposs´ıvel atingir um estado meta, e PodaFora, que remove todos os pares (s, a) ∈ πi que levam a estados fora deSg∪ S_π_i. Como PodaForapode causar o surgimento de becos ePodaBecopode causar o surgimento de transi¸cões para fora do conjuntoSg∪S_π_i+1, o algoritmo prossegue até que a convergência seja atingida. Nesse ponto, caso a pol´ıtica obtida tenha algum estado inicial para o qual não exista um caminho até um estado meta, o algoritmo de-volvefalha; caso contrário, as transi¸cões que geram ciclos não-triviais são removidas por PodaRetrocessoe a pol´ıtica determin´ıstica resultante é devolvida como solu¸cão.

ForteC´ıclico(P) 1 i←0

2 π0← {(s, a) :s∈ S ea∈ A(s)}

3 repita

4 πi+1←PodaFora(PodaBeco(πi,S_g),S_g) 5 i←i+ 1

7 at´eπ_i=πi−1

8 se S0⊆(Sg∪ Sπi) ent~ao devolva Determ(PodaRetrocesso(πi,Sg)) 9 devolva falha

PodaBeco(π,S_g) 1 i←0

2 π0← ∅ 3 repita

4 πi+1←π∩PreImagemFraca(S_g∪ S_π_i) 5 i←i+ 1

7 at´eπi=πi−1

8 devolvaπi

PodaFora(π,S_g)

1 devolvaπ− {(s, a)∈π:T(s, a)6⊆ S_g∪ S_π} PodaRetrocesso(π,Sg)

1 i←0 2 π0← ∅ 3 repita

4 S⁰← Sg∪ Sπi

4 πi+1←πi∪Poda(π∩PreImagemFraca(S⁰),S⁰) 5 i←i+ 1

7 at´eπi=πi−1

8 devolvaπi

Na Figura 3.8, vemos o funcionamento deForteCiclicoparaS0={s0}eSg={s5}.

Primeiro o becos4, para o qual não há a¸cão executável, é removido. Em seguida, todas as transi¸cões que levam a estados becos são eliminadas. Como esse problema é muito simples, o algoritmo termina na primeira itera¸cão. Em problemas mais complexos, a elimina¸cão de transi¸cões poderia causar o surgimento de novos becos e mais itera¸cões seriam necessárias. Note que esse problema, apesar de simples, não tem solu¸cão forte.

44CAPÍTULO 3. PLANEJAMENTO BASEADO EM VERIFICAÇ ÃO DE MODELOS

s₀

s₁

s₄

s s s₂

5 a

a a

a a a

a 04

01 54

54 35

15 20

(a) politica inicial

s₀

s₁ s

s s₂

5 a

a a

a a a

a 04

01 54

54 35

15 20

(b) poda beco s4 s₀

s₁ s

s s2

5 a

a a

01 a

15 20

Figura 3.8: Funcionamento do algoritmoForteC´ıclico, comS0={s0}eSg={s5}.

Considera¸cões. Diferentemente do planejamento baseado em pdm, planejamento ba-seado emvmnão necessita das distribui¸cões de probabilidades associadas aos efeitos das a¸cões não-determin´ısticas (que nem sempre estão dispon´ıveis). Também, diferentemente do planejamento baseado emsat, planejamento baseado emvmnão está restrito a plane-jamento conformante (que nem sempre tem solu¸cão). De fato, planeplane-jamento baseado emvm tem se mostrado uma abordagem bastante eficiente para aplica¸cões práticas em dom´ınios onde há incerteza. Como os algoritmos de planejamento baseado emvmoperam sobre conjuntos de estados e conjuntos de transi¸cões, em vez de estados únicos e transi¸cões

unicas, eles levam vantagem sobre planejadores constru´ıdos dentro das abordagenspdm esat: quanto mais incerteza no dom´ınio, mais r´apidos eles ficam [Ghallab et al., 2004].

No documento Planejamento Não-Determin´ıstico baseado em Verificação de Modelos Silvio do Lago Pereira (páginas 39-44)