• Nenhum resultado encontrado

Tomada de Decis˜ ao Sequencial e Planejamento

A teoria de probabilidade est´a relacionada com a teor´ıa de decis˜ao [Berger, 1985]. Um toma- dor de decis˜oes tem um conjunto de a¸c˜oes a serem consideradas, cada uma produz recompensas diferentes em diferentes estados.

Preferˆencias completas sobre as a¸c˜oes implica que um valor preciso de probabilidade seja asso- ciado com cada estado, essa situa¸c˜ao ´e chamada de risco [Knight, 1921]. No entanto, `as vezes as preferˆencias sobre as a¸c˜oes s˜ao apenas parcialmente ordenadas e ent˜ao n˜ao ´e poss´ıvel definir um valor preciso de probabilidade. Nesse caso um conjunto de medidas de probabilidade (conjunto cre- dal) ´e uma representa¸c˜ao adequada da incerteza. Essa situa¸c˜ao ´e chamada de incerteza Knightiana, ambiguedade ou simplesmente incerteza [Knight, 1921].

A habilidade de planejar tarefas ´e um aspecto fundamental do comportamento inteligente sendo que, h´a mais de quarenta anos [McCarthy, 1968, Newell and Simon, 1963], sua automa¸c˜ao tem sido um dos principais objetivos da pesquisa realizada na ´area de Inteligˆencia Artificial [Russell and Norvig, 2002]. Em planejamento, a forma com que um sistema evolui a cada a¸c˜ao executada, chamada de dinˆamica das a¸c˜oes, pode ser: determin´ıstica, n˜ao-determin´ıstica ou probabil´ıstica. Enquanto os modelos determin´ısticos n˜ao modelam incerteza no efeito das a¸c˜oes (executar uma a¸c˜ao em um determinado estado sempre leva o agente a um ´unico estado) os modelos n˜ao-determin´ısticos e probabil´ısticos modelam diferentes formas de incerteza, isto ´e, a incerteza Knightiana e incerteza de risco [Trevizan et al., 2007], respectivamente.

Defini¸c˜ao 2.1. Um dom´ınio de planejamento cl´assico ´e definido por uma tupla D = hS, A, F i, sendo:

• S 6= ∅, um conjunto finito de estados poss´ıveis do ambiente (tamb´em chamado de estados do mundo);

• A 6= ∅, um conjunto finito de a¸c˜oes execut´aveis pelo agente e

• F : S ×A 7→ S, uma fun¸c˜ao de transi¸c˜ao de estados (isto ´e, a¸c˜oes com efeitos detemin´ısticos).

Defini¸c˜ao 2.2. Um problema de planejamento cl´assico ´e definido por uma tupla P = hD, I, Gi, sendo:

• D, um dom´ınio de planejamento (Defini¸c˜ao 2.1); • I ⊆ S, um conjunto de estados iniciais do ambiente e • G ⊆ S, um conjunto de estados metas.

2.3. TOMADA DE DECIS ˜AO SEQUENCIAL E PLANEJAMENTO 19

A solu¸c˜ao para um problema de planejamento cl´assico P ´e uma sequˆencia de a¸c˜oes que, ao ser executada, leva o agente do estado inicial para o estado meta. Por´em, em muitos dom´ınios do mundo real, a suposi¸c˜ao do planejamento cl´assico de que as a¸c˜oes possuem efeitos determin´ısticos se torna inadequada, uma vez que:

• A especifica¸c˜ao do ambiente ´e incompleta devido `a complexidade intr´ınseca do dom´ınio de aplica¸c˜ao.

• Em geral, existem eventos ex´ogenos sobre os quais o agente n˜ao tem controle e que podem interferir nos efeitos das a¸c˜oes executadas pelo agente.

• A aplica¸c˜ao de uma a¸c˜ao pode resultar em falha.

• Os efeitos das a¸c˜oes s˜ao intr´ınsecamente incertos.

Em dom´ınios em que existe incerteza nos efeitos das a¸c˜oes, a solu¸c˜ao de um problema de planejamento ´e uma pol´ıtica que associa uma a¸c˜ao para cada estado em o agente se encontra. As principais abordagens para resolver problemas com incerteza nos efeitos das a¸c˜oes s˜ao: (i) planejamento n˜ao-determin´ıstico e (ii) planejamento probabil´ıstico, conforme descrito a seguir. 2.3.1 Planejamento n˜ao-determin´ıstico

No planejamento n˜ao-determin´ıstico, a execu¸c˜ao de uma a¸c˜ao pode levar o sistema para es- tados diferentes, sendo que o agente n˜ao tem nenhuma informa¸c˜ao da preferˆencia da Natureza sobre os estados sucessores, i.e., n˜ao s˜ao conhecidas as probabilidades de transi¸c˜ao entre estados. Planejamento n˜ao-determin´ıstico ´e um caso extremo de incerteza Knightiana em que nenhuma probabilidade ´e especificada.

Existem trˆes tipos de solu¸c˜oes para planejamento n˜ao-determin´ıstico:

• Solu¸c˜oes fracas s˜ao pol´ıticas que podem eventualmente atingir a meta, mas n˜ao garantem alcan¸c´a-las.

• Solu¸c˜oes fortes s˜ao pol´ıticas que garantem alcan¸car a meta, independentemente da incer- teza, supondo que os caminhos para atingir a meta s˜ao finitos.

• Solu¸c˜oes fortes c´ıclicas s˜ao pol´ıticas que garantem atingir a meta por´em num n´umero indeterminado de passos.

A maioria das solu¸c˜oes para estes problemas se baseiam em t´ecnicas de Verifica¸c˜ao de Modelos (Model Checking) [Cimatti et al., 1997,Cimatti et al., 1998,Daniele et al., 1999,Pereira and de Bar- ros, 2008], sendo que as f´ormulas em l´ogica temporal expressam metas temporais com poss´ıveis condi¸c˜oes sobre os caminhos de execu¸c˜ao.

20 CAP´ITULO 2. PROBABILIDADES E PLANEJAMENTO SOB INCERTEZA

2.3.2 Planejamento probabil´ıstico

No planejamento probabil´ıstico, assim como no planejamento n˜ao-determin´ıstico, a execu¸c˜ao de uma a¸c˜ao pode levar o agente para diferentes estados. No entanto, s˜ao conhecidas as probabilidades de transi¸c˜ao e a solu¸c˜ao ´e uma pol´ıtica que otimiza algum crit´erio de custo e/ou recompensa esperada. Planejamento probabil´ıstico ´e um exemplo de tomada de decis˜ao sequencial sob risco “puro” [Trevizan et al., 2007].

A principal abordagem para resolver problemas de planejamento probabil´ıstico ´e atrav´es da sua modelagem como um Processo de Decis˜ao Markoviano (MDPs) [Howard, 1960, Bonet and Geffner, 2005], em que s˜ao feitas as suposi¸c˜oes que a sele¸c˜ao da melhor a¸c˜ao pode ser tomada conhecendo- se apenas o estado atual do agente e o ambiente ´e completamente observ´avel. No Cap´ıtulo 3

apresentamos este modelo em detalhes. As principais solu¸c˜oes para MDPs s˜ao baseadas em pro- grama¸c˜ao matem´atica [Manne, 1960] e programa¸c˜ao dinˆamica como Itera¸c˜ao de Valor [Bellman, 1957], Itera¸c˜ao de Pol´ıtica [Howard, 1960]), Programa¸c˜ao Dinˆamica em Tempo Real (RTDP - Real Time Dynamic Programming) [Barto et al., 1995] e algumas extens˜oes.

2.3.3 Planejamento n˜ao-determin´ıstico e probabil´ıstico

Esfor¸cos para unificar planejamento n˜ao-determin´ıstico e probabil´ıstico s˜ao: MDP delimitado (BMDP - Bounded-parameter Markov Decision Process) [Givan et al., 2000], MDP com transi¸c˜oes para conjuntos valorados (MDPSTs - Markov Decision Process with Set-valued Transitions) [Trevi- zan et al., 2007] e MDP com probabilidades de transi¸c˜ao imprecisas (MDP-IP, MDP with imprecise transition probabilities) [Satia and Lave Jr., 1973,White III and El-Deib, 1994]. MDP-IPs, descritos no Cap´ıtulo5, s˜ao os modelos estudados nessa tese. A rela¸c˜ao entre MDP-IPs e os demais modelos de planejamento n˜ao-determin´ıstico e probabil´ıstico ´e discutida na Se¸c˜ao 5.2.