ação pode ser executada em qualquer estado do ambiente. Em um MDP, é possível repre- sentar eventos que podem alterar os estados, mas que não foram executados por nenhum dos agentes, sendo denominados de eventos externos. É possível representar os efeitos desses eventos, associando-os as ações dos agentes e denindo uma probabilidade deles acontecerem.
Uma política é um instrumento que dene que ação deve ser executada em cada estado do sistema. Dessa forma o agente primeiro verica o estado atual do sistema, e a política seleciona qual ação é a melhor a ser executa. Essa ação possivelmente altera o estado do sistema. Esse novo estado serve de entrada para o agente consultar a política nova- mente e tomar uma nova decisão. A cada mudança de estado, a política é consultada até que o estado nal seja encontrado e não seja necessário tomar mais nenhuma decisão. A Figura 5.1 descreve esse ciclo de tomadas de decisão em que se encontra o papel da política.
Figura 5.1: Funcionamento de um sistema MDP.
Dependendo da quantidade de ações e estados do problema modelado, as políticas podem apresentar um custo computacional elevado para serem geradas. Uma das alter- nativas para esse tipo de problema é a aplicação das suposições Markovianas, já citadas neste trabalho.
Pode-se então denir uma política para um MDP como sendo uma sequência de regras de decisão {d0, d1...dk−1}, em que cada regra é executada em um determinado momento,
dependendo do estado do sistema.
5.4
Processos de Decisão de Markov Parcialmente Ob-
serváveis - POMDP
Como visto anteriormente, em um MDP o estado inicial em que o sistema se encontra é sempre conhecido. Neste caso, este modelo nem sempre consegue representar situações reais em que se deseja realizar um planejamento de ações. Um Processo de Decisão de
Markov Parcialmente Observável (POMDP) é uma generalização de um MDP e muitas características são as mesmas, porém um POMDP é mais exível, capaz de represen- tar problemas sob condições de incertezas. Não sabendo o estado inicial do sistema, o POMDP dene para cada estado uma probabilidade. Essa distribuição de probabilidades é utilizada para denir a próxima ação a ser escolhida [26]. Existe um conjunto de ações e um conjunto de estados possíveis em que cada ação muda o estado do sistema com uma certa probabilidade, e para cada ação há uma recompensa. Em um POMDP, não se co- nhece o estado inicial do sistema e com isso um modelo de observações é utilizado. Como não se sabe o estado em que o sistema se apresenta, o tomador de decisão se utiliza de um conjunto de informações para poder calcular a novas distribuições de probabilidades. Muitos problemas podem ser resolvidos com a ajuda de processos de decisão de Mar- kov parcialmente observáveis, como: visão computacional, navegação de robôs autônomos, diagnósticos médicos e controle de veículos [37].
Denição 2 Um POMDP é uma tupla formada por hS, A, T, R, W, Oi, em que: • S é o conjunto de todos os estados possíveis do sistema;
• A é o conjunto de todas as ações que podem ser realizadas pelo agente;
• T : S × A × S → [0, 1] é a função de transição. T dene a probabilidade de, ao executar ação a no estado s, passar para o estado s0
, em que a ∈ A e s, s0
∈ S; • R : S × A → R é a função de recompensa. Dene a recompensa de tomar uma
decisão a quando se estar no estado s;
• W é o conjunto nito de todas as observações que podem ser obtidas no sistema em qualquer instante de tempo;
• O : S × A × W → [0, 1] é a tabela de probabilidades de observação, que dene a probabilidade de uma observação ser vericada, dado um estado s e uma última ação a realizada.
Para exemplicar a importância das observações realizadas, considera-se o seguinte exemplo.
(Exemplo 02) Uma pessoa no alto de uma montanha precisa atravessar um precipício e chegar a salvo na montanha vizinha. Entre as duas montanhas existem duas pontes. A pessoa sabe que uma das pontes a levará a salvo para o outro lado, enquanto a outra não suportará o seu peso ao tentar atravessá-la. Neste exemplo, a pessoa pode realizar qualquer uma das ações disponíveis:
5.4. Processos de Decisão de Markov Parcialmente Observáveis - POMDP 47
• Atravessar a ponte da direita; • Atravessar a ponte da esquerda; • Observar a ponte.
Este é um típico exemplo de uma situação em que o estado atual do sistema não é conhecido, ou seja, a pessoa não sabe qual ponte ira agüentá-lo. No entanto, ao observar a ponte, é possível procurar por elementos que o façam tomar a melhor decisão. É possível observar questões como: a consistência do material, a integridade da estrutura, e o com- portamento da mesma no ambiente. Após a primeira observação, o agente seleciona com uma certa probabilidade, qual ponte é a segura. Caso não esteja satisfeito com a distri- buição das probabilidades, ele volta a observar mais um pouco e assim o faz, até escolher qual ponte atravessar. Um POMDP para modelar este exemplo, seria hS, A, T, R, W, Oi, em que:
• S: formado pelos dois estados possíveis do sistema: ponte_frágil_a_direita e ponte_frágil_a_esquerda;
• A: as ações disponíveis: atravessar_direita, atravessar_esquerda, observar;
• R: recompensas ou custos por efetuar uma ação. Por exemplo, escolher a ponte frágil garantiria uma recompensa de −10, enquanto escolher a ponte segura, a recompensa seria de +10. A observação pode ter um custo também de, por exemplo, −1 para cada ação de observar.
• W: duas observações são possíveis de se realizar, ponte_frágil_a_direita e ponte_frágil_a_esquerda;
• O: dene a probabilidade de ter uma observação em um determinado estado. Se o modelo de observações for determinístico, tem-se que, ao observar uma ponte e constatar a observação ponte_frágil_a_direita, então a ponte frágil encontra-se a direita. No entanto, observações podem ser passíveis de ruído, falhas, o que em geral não garantem o determinismo da situação.
Uma vez modelado, o problema pode ser resolvido utilizando-se algoritmos especícos para a resolução de POMDPs.
5.4.1 Funcionamento de um modelo de POMDP
Em problemas modelados por um POMDP, um sistema pode estar em diferentes esta- dos dependendo das épocas de decisão, porém o estado não é conhecido. Neste caso, é mantida sobre todos os estados uma distribuição de probabilidades. Essa distribuição é constantemente recalculada. O funcionamento de um modelo de POMDP está ilustrado na Figura 5.2.
Figura 5.2: Funcionamento de um sistema POMDP.
No início, as probabilidades são iguais para todos os estados que o sistema pode estar. O agente então realiza sua primeira ação no ambiente. Essa ação altera o ambiente, modi- cando o sistema e gerando novas observações. Com a nova observação, a ação executada anteriormente e a distribuição de probabilidades, o agente gera novas estimativas sobre o estado e transmite esse pacote de informações como entrada na execução da política. A política utiliza essas novas informações repassadas pelo gerador de crenças e seleciona a melhor ação a ser executada. O funcionamento do modelo continua seguindo este uxo até que o estado do sistema seja conhecido.
O gerador de crenças dene o próximo estado de crença, orientando-se pela última ação executada a, última observação o e o estado de crença anterior (ba−1). Com essas
informações, é possível calcular a probabilidade de estar em um estado s dado que uma ação a foi realizada [37]:
ba(s) =
X
s0∈S
p(s|s0, a)b(s0), (5.1)
em que s, s0 ∈ S. A função de recompensa ρ utilizando as probabilidades que cada
estado possui, é possível calcular a esperança de recompensa de cada ação: ρ(b, a) = X
s0∈S
5.5. Localização e POMDP 49