Tomada de Decis˜ ao Sequencial e Planejamento

A teoria de probabilidade está relacionada com a teor´ıa de decisão [Berger, 1985]. Um toma- dor de decisões tem um conjunto de a¸cões a serem consideradas, cada uma produz recompensas diferentes em diferentes estados.

Preferências completas sobre as a¸cões implica que um valor preciso de probabilidade seja asso- ciado com cada estado, essa situa¸cão é chamada de risco [Knight, 1921]. No entanto, às vezes as preferências sobre as a¸cões são apenas parcialmente ordenadas e então não é poss´ıvel definir um valor preciso de probabilidade. Nesse caso um conjunto de medidas de probabilidade (conjunto cre- dal) é uma representa¸cão adequada da incerteza. Essa situa¸cão é chamada de incerteza Knightiana, ambiguedade ou simplesmente incerteza [Knight, 1921].

A habilidade de planejar tarefas é um aspecto fundamental do comportamento inteligente sendo que, há mais de quarenta anos [McCarthy, 1968, Newell and Simon, 1963], sua automa¸cão tem sido um dos principais objetivos da pesquisa realizada na área de Inteligência Artificial [Russell and Norvig, 2002]. Em planejamento, a forma com que um sistema evolui a cada a¸cão executada, chamada de dinâmica das a¸cões, pode ser: determin´ıstica, não-determin´ıstica ou probabil´ıstica. Enquanto os modelos determin´ısticos não modelam incerteza no efeito das a¸cões (executar uma a¸cão em um determinado estado sempre leva o agente a um único estado) os modelos não-determin´ısticos e probabil´ısticos modelam diferentes formas de incerteza, isto é, a incerteza Knightiana e incerteza de risco [Trevizan et al., 2007], respectivamente.

Defini¸cão 2.1. Um dom´ınio de planejamento clássico é definido por uma tupla D = hS, A, F i, sendo:

• S 6= ∅, um conjunto finito de estados poss´ıveis do ambiente (tamb´em chamado de estados do mundo);

• A 6= ∅, um conjunto finito de a¸c˜oes execut´aveis pelo agente e

• F : S ×A 7→ S, uma fun¸cão de transi¸cão de estados (isto é, a¸cões com efeitos detemin´ısticos).

Defini¸cão 2.2. Um problema de planejamento clássico é definido por uma tupla P = hD, I, Gi, sendo:

• D, um dom´ınio de planejamento (Defini¸c˜ao 2.1); • I ⊆ S, um conjunto de estados iniciais do ambiente e • G ⊆ S, um conjunto de estados metas.

2.3. TOMADA DE DECIS ˜AO SEQUENCIAL E PLANEJAMENTO 19

A solu¸cão para um problema de planejamento clássico P é uma sequência de a¸cões que, ao ser executada, leva o agente do estado inicial para o estado meta. Porém, em muitos dom´ınios do mundo real, a suposi¸cão do planejamento clássico de que as a¸cões possuem efeitos determin´ısticos se torna inadequada, uma vez que:

• A especifica¸cão do ambiente é incompleta devido à complexidade intr´ınseca do dom´ınio de aplica¸cão.

• Em geral, existem eventos exógenos sobre os quais o agente não tem controle e que podem interferir nos efeitos das a¸cões executadas pelo agente.

• A aplica¸c˜ao de uma a¸c˜ao pode resultar em falha.

• Os efeitos das a¸c˜oes s˜ao intr´ınsecamente incertos.

Em dom´ınios em que existe incerteza nos efeitos das a¸cões, a solu¸cão de um problema de planejamento é uma pol´ıtica que associa uma a¸cão para cada estado em o agente se encontra. As principais abordagens para resolver problemas com incerteza nos efeitos das a¸cões são: (i) planejamento não-determin´ıstico e (ii) planejamento probabil´ıstico, conforme descrito a seguir. 2.3.1 Planejamento não-determin´ıstico

No planejamento não-determin´ıstico, a execu¸cão de uma a¸cão pode levar o sistema para estados diferentes, sendo que o agente não tem nenhuma informa¸cão da preferência da Natureza sobre os estados sucessores, i.e., não são conhecidas as probabilidades de transi¸cão entre estados. Planejamento não-determin´ıstico é um caso extremo de incerteza Knightiana em que nenhuma probabilidade é especificada.

Existem três tipos de solu¸cões para planejamento não-determin´ıstico:

• Solu¸cões fracas são pol´ıticas que podem eventualmente atingir a meta, mas não garantem alcan¸cá-las.

• Solu¸cões fortes são pol´ıticas que garantem alcan¸car a meta, independentemente da incerteza, supondo que os caminhos para atingir a meta são finitos.

• Solu¸cões fortes c´ıclicas são pol´ıticas que garantem atingir a meta porém num número indeterminado de passos.

A maioria das solu¸cões para estes problemas se baseiam em técnicas de Verifica¸cão de Modelos (Model Checking) [Cimatti et al., 1997,Cimatti et al., 1998,Daniele et al., 1999,Pereira and de Bar- ros, 2008], sendo que as fórmulas em lógica temporal expressam metas temporais com poss´ıveis condi¸cões sobre os caminhos de execu¸cão.

20 CAP´ITULO 2. PROBABILIDADES E PLANEJAMENTO SOB INCERTEZA

2.3.2 Planejamento probabil´ıstico

No planejamento probabil´ıstico, assim como no planejamento não-determin´ıstico, a execu¸cão de uma a¸cão pode levar o agente para diferentes estados. No entanto, são conhecidas as probabilidades de transi¸cão e a solu¸cão é uma pol´ıtica que otimiza algum critério de custo e/ou recompensa esperada. Planejamento probabil´ıstico é um exemplo de tomada de decisão sequencial sob risco “puro” [Trevizan et al., 2007].

A principal abordagem para resolver problemas de planejamento probabil´ıstico é através da sua modelagem como um Processo de Decisão Markoviano (MDPs) [Howard, 1960, Bonet and Geffner, 2005], em que são feitas as suposi¸cões que a sele¸cão da melhor a¸cão pode ser tomada conhecendo- se apenas o estado atual do agente e o ambiente é completamente observável. No Cap´ıtulo 3

apresentamos este modelo em detalhes. As principais solu¸cões para MDPs são baseadas em programa¸cão matemática [Manne, 1960] e programa¸cão dinâmica como Itera¸cão de Valor [Bellman, 1957], Itera¸cão de Pol´ıtica [Howard, 1960]), Programa¸cão Dinâmica em Tempo Real (RTDP - Real Time Dynamic Programming) [Barto et al., 1995] e algumas extensões.

2.3.3 Planejamento n˜ao-determin´ıstico e probabil´ıstico

Esfor¸cos para unificar planejamento não-determin´ıstico e probabil´ıstico são: MDP delimitado (BMDP - Bounded-parameter Markov Decision Process) [Givan et al., 2000], MDP com transi¸cões para conjuntos valorados (MDPSTs - Markov Decision Process with Set-valued Transitions) [Trevi- zan et al., 2007] e MDP com probabilidades de transi¸cão imprecisas (MDP-IP, MDP with imprecise transition probabilities) [Satia and Lave Jr., 1973,White III and El-Deib, 1994]. MDP-IPs, descritos no Cap´ıtulo5, são os modelos estudados nessa tese. A rela¸cão entre MDP-IPs e os demais modelos de planejamento não-determin´ıstico e probabil´ıstico é discutida na Se¸cão 5.2.

No documento Processos de decisão Markovianos fatorados com probabilidades imprecisas (páginas 48-50)