Processos de Decisão de Markov Parcialmente Observáveis POMDP

ação pode ser executada em qualquer estado do ambiente. Em um MDP, é possível representar eventos que podem alterar os estados, mas que não foram executados por nenhum dos agentes, sendo denominados de eventos externos. É possível representar os efeitos desses eventos, associando-os as ações dos agentes e denindo uma probabilidade deles acontecerem.

Uma política é um instrumento que dene que ação deve ser executada em cada estado do sistema. Dessa forma o agente primeiro verica o estado atual do sistema, e a política seleciona qual ação é a melhor a ser executa. Essa ação possivelmente altera o estado do sistema. Esse novo estado serve de entrada para o agente consultar a política nova- mente e tomar uma nova decisão. A cada mudança de estado, a política é consultada até que o estado nal seja encontrado e não seja necessário tomar mais nenhuma decisão. A Figura 5.1 descreve esse ciclo de tomadas de decisão em que se encontra o papel da política.

Figura 5.1: Funcionamento de um sistema MDP.

Dependendo da quantidade de ações e estados do problema modelado, as políticas podem apresentar um custo computacional elevado para serem geradas. Uma das alter- nativas para esse tipo de problema é a aplicação das suposições Markovianas, já citadas neste trabalho.

Pode-se então denir uma política para um MDP como sendo uma sequência de regras de decisão {d0, d1...dk−1}, em que cada regra é executada em um determinado momento,

dependendo do estado do sistema.

5.4 Processos de Decisão de Markov Parcialmente Ob-

serváveis - POMDP

Como visto anteriormente, em um MDP o estado inicial em que o sistema se encontra é sempre conhecido. Neste caso, este modelo nem sempre consegue representar situações reais em que se deseja realizar um planejamento de ações. Um Processo de Decisão de

Markov Parcialmente Observável (POMDP) é uma generalização de um MDP e muitas características são as mesmas, porém um POMDP é mais exível, capaz de representar problemas sob condições de incertezas. Não sabendo o estado inicial do sistema, o POMDP dene para cada estado uma probabilidade. Essa distribuição de probabilidades é utilizada para denir a próxima ação a ser escolhida [26]. Existe um conjunto de ações e um conjunto de estados possíveis em que cada ação muda o estado do sistema com uma certa probabilidade, e para cada ação há uma recompensa. Em um POMDP, não se co- nhece o estado inicial do sistema e com isso um modelo de observações é utilizado. Como não se sabe o estado em que o sistema se apresenta, o tomador de decisão se utiliza de um conjunto de informações para poder calcular a novas distribuições de probabilidades. Muitos problemas podem ser resolvidos com a ajuda de processos de decisão de Mar- kov parcialmente observáveis, como: visão computacional, navegação de robôs autônomos, diagnósticos médicos e controle de veículos [37].

Denição 2 Um POMDP é uma tupla formada por hS, A, T, R, W, Oi, em que: • S é o conjunto de todos os estados possíveis do sistema;

• A é o conjunto de todas as ações que podem ser realizadas pelo agente;

• T : S × A × S → [0, 1] é a função de transição. T dene a probabilidade de, ao executar ação a no estado s, passar para o estado s0

, em que a ∈ A e s, s0

∈ S; • R : S × A → R é a função de recompensa. Dene a recompensa de tomar uma

decisão a quando se estar no estado s;

• W é o conjunto nito de todas as observações que podem ser obtidas no sistema em qualquer instante de tempo;

• O : S × A × W → [0, 1] é a tabela de probabilidades de observação, que dene a probabilidade de uma observação ser vericada, dado um estado s e uma última ação a realizada.

Para exemplicar a importância das observações realizadas, considera-se o seguinte exemplo.

(Exemplo 02) Uma pessoa no alto de uma montanha precisa atravessar um precipício e chegar a salvo na montanha vizinha. Entre as duas montanhas existem duas pontes. A pessoa sabe que uma das pontes a levará a salvo para o outro lado, enquanto a outra não suportará o seu peso ao tentar atravessá-la. Neste exemplo, a pessoa pode realizar qualquer uma das ações disponíveis:

5.4. Processos de Decisão de Markov Parcialmente Observáveis - POMDP 47

• Atravessar a ponte da direita; • Atravessar a ponte da esquerda; • Observar a ponte.

Este é um típico exemplo de uma situação em que o estado atual do sistema não é conhecido, ou seja, a pessoa não sabe qual ponte ira agüentá-lo. No entanto, ao observar a ponte, é possível procurar por elementos que o façam tomar a melhor decisão. É possível observar questões como: a consistência do material, a integridade da estrutura, e o com- portamento da mesma no ambiente. Após a primeira observação, o agente seleciona com uma certa probabilidade, qual ponte é a segura. Caso não esteja satisfeito com a distri- buição das probabilidades, ele volta a observar mais um pouco e assim o faz, até escolher qual ponte atravessar. Um POMDP para modelar este exemplo, seria hS, A, T, R, W, Oi, em que:

• S: formado pelos dois estados possíveis do sistema: ponte_frágil_a_direita e ponte_frágil_a_esquerda;

• A: as ações disponíveis: atravessar_direita, atravessar_esquerda, observar;

• R: recompensas ou custos por efetuar uma ação. Por exemplo, escolher a ponte frágil garantiria uma recompensa de −10, enquanto escolher a ponte segura, a recompensa seria de +10. A observação pode ter um custo também de, por exemplo, −1 para cada ação de observar.

• W: duas observações são possíveis de se realizar, ponte_frágil_a_direita e ponte_frágil_a_esquerda;

• O: dene a probabilidade de ter uma observação em um determinado estado. Se o modelo de observações for determinístico, tem-se que, ao observar uma ponte e constatar a observação ponte_frágil_a_direita, então a ponte frágil encontra-se a direita. No entanto, observações podem ser passíveis de ruído, falhas, o que em geral não garantem o determinismo da situação.

Uma vez modelado, o problema pode ser resolvido utilizando-se algoritmos especícos para a resolução de POMDPs.

5.4.1 Funcionamento de um modelo de POMDP

Em problemas modelados por um POMDP, um sistema pode estar em diferentes estados dependendo das épocas de decisão, porém o estado não é conhecido. Neste caso, é mantida sobre todos os estados uma distribuição de probabilidades. Essa distribuição é constantemente recalculada. O funcionamento de um modelo de POMDP está ilustrado na Figura 5.2.

Figura 5.2: Funcionamento de um sistema POMDP.

No início, as probabilidades são iguais para todos os estados que o sistema pode estar. O agente então realiza sua primeira ação no ambiente. Essa ação altera o ambiente, modi- cando o sistema e gerando novas observações. Com a nova observação, a ação executada anteriormente e a distribuição de probabilidades, o agente gera novas estimativas sobre o estado e transmite esse pacote de informações como entrada na execução da política. A política utiliza essas novas informações repassadas pelo gerador de crenças e seleciona a melhor ação a ser executada. O funcionamento do modelo continua seguindo este uxo até que o estado do sistema seja conhecido.

O gerador de crenças dene o próximo estado de crença, orientando-se pela última ação executada a, última observação o e o estado de crença anterior (ba−1). Com essas

informações, é possível calcular a probabilidade de estar em um estado s dado que uma ação a foi realizada [37]:

ba(s) =

s0∈S

p(s|s0, a)b(s0), (5.1)

em que s, s0 _{∈ S}_{. A função de recompensa ρ utilizando as probabilidades que cada}

estado possui, é possível calcular a esperança de recompensa de cada ação: ρ(b, a) = X

s0∈S

5.5. Localização e POMDP 49

No documento Localização multirrobo cooperativa com planejamento (páginas 59-63)