• Nenhum resultado encontrado

UNIVERSIDADE CATÓLICA DE PELOTAS ESCOLA DE INFORMÁTICA PROGRAMA DE PÓS-GRADUAÇÃO EM INFORMÁTICA

N/A
N/A
Protected

Academic year: 2022

Share "UNIVERSIDADE CATÓLICA DE PELOTAS ESCOLA DE INFORMÁTICA PROGRAMA DE PÓS-GRADUAÇÃO EM INFORMÁTICA"

Copied!
62
0
0

Texto

(1)

ESCOLA DE INFORM ´ ATICA

PROGRAMA DE P ´ OS-GRADUAC ¸ ˜ AO EM INFORM ´ ATICA

Um Estudo sobre os Processos de Decis˜ao de Markov Parcialmente Observ´aveis Aplicados `a Trocas Sociais em Sistemas

Multiagentes Baseados em Personalidades

por

Luciano Vargas Gonc¸alves

Trabalho Individual I TI-2007/2-006

Orientadora: Prof. Dra. Grac¸aliz Pereira Dimuro Co-orientador: Prof. Dr. Antˆonio Carlos da Rocha Costa

Pelotas, dezembro de 2007

(2)

LISTA DE FIGURAS . . . 4

LISTA DE TABELAS . . . 5

LISTA DE ABREVIATURAS E SIGLAS . . . 6

RESUMO . . . 7

1 INTRODUC¸ ˜AO . . . 8

2 INTELIG ˆENCIA ARTIFICIAL . . . 10

2.1 Sistemas Multiagentes . . . 11

2.1.1 Agente . . . 11

2.1.2 Comunicac¸˜ao entre Agentes . . . 13

2.1.3 Linguagem de Comunicac¸˜ao . . . 13

2.1.4 Coordenac¸˜ao de Agentes . . . 14

2.1.5 Negociac¸˜ao . . . 14

2.1.6 Interac¸˜oes em Sistemas Multiagentes . . . 14

3 MODELOS DE MARKOV . . . 16

3.1 Processo de Decis˜ao . . . 16

3.1.1 O projeto de um agente de teoria da decis˜ao . . . 17

3.2 Processo de Decis˜ao de Markov . . . 18

3.2.1 Conceitos fundamentais MDP . . . 18

3.2.2 O car´ater ´otimo dos MDP . . . 20

3.2.3 Algoritmos . . . 20

3.3 Processo de Decis˜ao de Markov Parcialmente Observ´avel . . . 23

4 ARQUITETURA DE AGENTES BDI . . . 25

4.1 Introduc¸˜ao ao modelo BDI . . . 25

4.2 O modelo BDI. . . 26

4.2.1 Estados mentais . . . 26

4.2.2 Arquitetura de agentes BDI . . . 27

4.3 Modelos h´ıbridos BDI-PDM . . . 28

4.3.1 Construc¸˜ao de um plano BDI a partir de uma pol´ıtica PDM . . . 29

4.3.2 A extrac¸˜ao de uma pol´ıtica PDM a partir de um plano BDI . . . 29

(3)

5.1 Teoria dos Valores de Trocas Sociais . . . 30

5.2 Sistema de Valores de Trocas Sociais . . . 32

5.2.1 Modelagem das Trocas Sociais Intervalares . . . 33

5.3 Supervisor de Equil´ıbrio Centralizado . . . 35

5.3.1 Agente com M´odulo de Supervis˜ao Interno . . . 36

6 APLICAC¸ ˜AO . . . 38

6.1 Agentes Baseados em Trac¸os de Personalidades . . . 38

6.1.1 POMDP para o agente com trac¸o de personalidade . . . 41

7 IMPLEMENTAC¸ ˜AO E RESULTADOS . . . 49

7.1 Implementac¸˜ao de agentes BDI com processo de supervis˜ao internalizado 49 7.1.1 Modelagem do Agente com processo de decis˜ao internalizado . . . 49

7.2 Simulac¸˜oes . . . 50

7.2.1 Simulac¸˜ao entre agente tolerante(POMDP) e ego´ısta . . . 53

7.2.2 Simulac¸˜ao entre agente ego´ısta(POMDP) e tolerante . . . 54

7.2.3 Simulac¸˜ao entre agente ego´ısta(POMDP) e tolerante(POMDP) . . . 55

8 CONSIDERAC¸ ˜OES FINAIS . . . 57

8.1 Trabalhos Futuros . . . 57

REFER ˆENCIAS . . . 59

(4)

Figura 4.1 Arquitetura BDI b´asica [19] . . . 28

Figura 5.1 Est´agio de trocas sociais . . . 31

Figura 5.2 Arquitetura do Supervisor . . . 36

Figura 5.3 Processo de atividades agente com POMPD . . . 37

Figura 6.1 Grafo de pol´ıtica agente ego´ısta-realista - Estado Equil´ıbrio . . . 43

Figura 6.2 Grafo de pol´ıtica agente ego´ısta-realista - Estado Favor´avel . . . 45

Figura 6.3 Grafo de pol´ıtica agente ego´ısta-realista - Estado Desfavor´avel . . . . 45

Figura 6.4 Grafo de pol´ıtica agente tolerante-realista . . . 46

Figura 6.5 Grafo de pol´ıtica agente tolerante-realista . . . 47

Figura 6.6 Grafo de pol´ıtica agente tolerante-realista . . . 48

Figura 7.1 Diagrama de atividades para agentes ego´ısta e tolerante . . . 51

Figura 7.2 Diagrama de atividades entre agentes ego´ısta e tolerante-realista . . . 52

Figura 7.3 Gr´afico balanc¸o material agente tolerante(POMDP) . . . 53

Figura 7.4 Gr´afico balanc¸o material agente ego´ısta . . . 53

Figura 7.5 Gr´afico balanc¸o material agente ego´ısta(POMDP) . . . 54

Figura 7.6 Gr´afico balanc¸o material agente tolerante . . . 54

Figura 7.7 Gr´afico balanc¸o material agente ego´ısta(POMDP) . . . 55

Figura 7.8 Gr´afico balanc¸o material agente tolerante(POMDP) . . . 55

(5)

Tabela 6.1 Matriz trac¸o de personalidade Ego´ısta, recebendo um servic¸o . . . 40

Tabela 6.2 Matriz trac¸o de personalidade Ego´ısta, executando um servic¸o . . . . 40

Tabela 6.3 Matriz trac¸o de personalidade Tolerante, recebendo um servic¸o . . . . 40

Tabela 6.4 Matriz trac¸o de personalidade Tolerante, executando um servic¸o . . . 40

Tabela 6.5 Matriz trac¸o de personalidade Realista . . . 40

Tabela 6.6 Matriz trac¸o de personalidade Sub-Estimador . . . 40

Tabela 6.7 Matriz trac¸o de personalidade Super-Estimador . . . 41

Tabela 6.8 Matriz de recompensa para a ac¸˜ao “faz-servic¸o” . . . 42

Tabela 6.9 Matriz de recompensa para a ac¸˜ao “pede-servic¸o” . . . 42

Tabela 6.10 Pol´ıtica para um agente no estadoE0interagindo com agente ego´ıta- realista . . . 44

Tabela 6.11 Pol´ıtica para um agente no estadoE+interagindo com agente ego´ıta- realista . . . 44

Tabela 6.12 Pol´ıtica para um agente no estadoEinteragindo com agente ego´ıta- realista . . . 44

Tabela 6.13 Pol´ıtica para um agente no estado E0 interagindo com agente tolerante-realista . . . 46

Tabela 6.14 Pol´ıtica para um agente no estado E+ interagindo com agente tolerante-realista . . . 47

Tabela 6.15 Pol´ıtica para um agente no estado E interagindo com agente tolerante-realista . . . 47

(6)

BDI Belief, Desire, Intention

JASON Java-based interpreter for an extended version of AgentSpeak MAS Multi-agent Systems

MDP Markov Decision Process

MMDP Mult-agent Markov Decision Process PDM Processo de Decis˜ao de Markov

PDMM Processo de Decis˜ao de Markov Multiagente

PDMPO Processo de Decis˜ao Markov Parcialmente Observ´avel POMDP Partially Observable Markov Decision Process

SMA Sistema Multiagentes UML Unified Modeling Language

(7)

O estudo e desenvolvimento de sistemas para o controle e regulac¸˜ao de interac¸˜oes em sistemas multiagentes ´e um tema em aberto dentro da Ciˆencia da Computac¸˜ao. Nessa

´area, existem basicamente dos ramos de estudo, um baseado nas teorias da racionalidade e outras baseadas teorias sociais. O sistema de valores de trocas ´e uma abordagem so- cial que modela interac¸˜oes de agentes, atrav´es da teoria sociol´ogica de Piaget, no qual as interac¸˜oes s˜ao modeladas como trocas de servic¸os entre os agentes, correndo tamb´em a valorizac¸˜ao de investimentos e ganhos no processo. A an´alise e valorizac¸˜ao dos servic¸os realizados e recebidos pelos agentes podem ser executadas de maneira diferenciada, pro- porcionado a criac¸˜ao de agentes baseados em trac¸os de personalidades, que possibilita a gerac¸˜ao de simulac¸˜oes sociais em diversas ´areas de interesse. O foco deste trabalho est´a no controle de interac¸˜oes para agentes que negociam servic¸os ao logo do tempo, buscou-se nos processos de decis˜ao de Markov parcialmente observ´aveis (POMDP) uma metodolo- gia capaz tomar decis˜oes de cursos de ac¸˜oes a serem negociadas pelos agentes. Assim, cada agente ter´a internalizado um processo pr´oprio para inferir o mais prov´avel estado do parceiro de interac¸˜ao, atrav´es de observac¸˜oes recebidas e com base no seu estado atual, definir a melhor ac¸˜ao a seguir na busca do equil´ıbrio interno para o sistema. Um POMDP pode ser a abordagem ideal para problemas que se concentram na coordenac¸˜ao de ac¸˜oes onde existe incerteza sobre o resultado das ac¸˜oes executas. Logo, este trabalho discute a utilizac¸˜ao de uma arquitetura h´ıbrida BDI-POMDP, como sendo um modelo de auto- regulac¸˜ao de trocas sociais em sistemas multiagentes, onde pares de agentes com perso- nalidades interagem entre si, trocando e avaliando servic¸os de acordo com seus trac¸os de personalidades. O trabalho encerra com a realizac¸˜ao de simulac¸˜oes envolvendo agentes com trac¸os de personalidades ego´ısta e tolerante, na plataforma de sistemas multiagentes Jason.

Palavras-chave: Valores-de-troca, interac¸˜oes-sociais, sistemas-multiagentes, processo- de-decis˜ao-de-Markov, arquitetura-BDI.

(8)

1 INTRODUC ¸ ˜ AO

Os sistemas multiagentes s˜ao considerados sistemas computacionais centrados na resoluc¸˜ao de problemas complexos, e sua investigac¸˜ao est´a focada no desenvolvimento de princ´ıpios e modelos computacionais para construir, descrever, implementar e analisar as formas de interac¸˜ao e coordenac¸˜ao de agentes em sociedades de reduzida ou elevada dimens˜ao [22].

Ao longo de seu ciclo de interac¸˜ao, os agentes podem apresentar capacidades es- peciais, bem distintas de outros sistemas computacionais, tais como: autonomia, reativi- dade, pr´o-atividade, benevolˆencia, cooperativismo, etc. Mas, dentre estas, a capacidade de interagir com outros agentes ´e, certamente, a principal delas. A interac¸˜ao permite aos agentes compartilharem conhecimentos, trocarem servic¸os, formarem coaliz˜oes, e a assu- mirem objetivos conjuntos. Logo, a modelagem do racioc´ınio sobre as interac¸˜oes sociais torna-se uma das tarefas mais relevantes e dif´ıceis dentro da ´area de sistemas multiagen- tes.

Os trabalhos na literatura de sistemas multiagentes que tratam das interac¸˜oes de agentes encontram-se basicamente divididos em dois grupos: os baseados na teoria da racionalidade e os inspirados nas teorias sociais. Estes ´ultimos se baseiam na id´eia de que um sistema social deve apresentar uma vis˜ao autˆonoma do agente, que voluntaria- mente constr´oi o seu destino e uma teoria de sistema social como sistema de ac¸˜ao, sendo respons´avel pela regulac¸˜ao e restric¸˜ao dos agentes.

No trabalho sociol´ogico de Piaget [30], o autor aborda a modelagem de interac¸˜oes entre os indiv´ıduos em sociedade reais, como troca de servic¸os, envolvendo n˜ao somente a realizac¸˜ao de servic¸os por alguns indiv´ıduos em nome de outros, mas tamb´em a avaliac¸˜ao de tais servic¸os. Piaget adota uma aproximac¸˜ao relacional, na qual os relacionamentos entre os indiv´ıduos s˜ao estabelecidos por trocas sociais entre eles.

Dimuro e Costa [11] apresentam uma abordagem para a regulac¸˜ao de interac¸˜oes em sistemas multiagentes, baseada na teoria sociol´ogica de Jean Piaget. Neste traba- lho desenvolveram uma ´algebra especial para tratar dos valores de trocas qualitativos, baseando-se na aritm´etica intervalar. Esta abordagem mant´em a expressividade dos va- lores qualitativos em sistemas computacionais, tornando-os operacionais. Neste traba- lho discute-se a necessidade de agente supervisor, sendo um componente do sistema de regulac¸˜ao de trocas externo, que em determinados momentos recomenda trocas aos agen- tes, tentando atingir ou manter o estado desejado (equil´ıbrio ou desequilibro) do processo de troca.

Uma abordagem mais detalhada do agente supervisor [10], modela o processo de decis˜ao quanto a tomada de decis˜ao atrav´es de um processo de decis˜ao qualitativo inter-

(9)

valar de Markov. Embora a vis˜ao centralizada apresente bons resultados, os estudos e o desenvolvimento de sistemas multiagentes primam pela autonomia dos agentes. Com o objetivo de retirar a necessidade de um supervisor interac¸˜oes, buscou-se nos proces- sos de decis˜ao de Markov parcialmente observ´aveis uma nova linha para o controle de interac¸˜oes. A id´eia fundamental ´e desenvolver um sistema em que os agentes possuam regular internamente o seus processos de trocas, gerando assim um sistema auto-regul´avel trocas sociais.

Assim, o foco deste trabalho est´a na regulac¸˜ao de interac¸˜oes onde agentes nego- ciam servic¸os, avaliando seus interesses pr´oprios e os de seus parceiros. Para tomar de- cis˜oes de cursos de ac¸˜oes a serem realizadas, cada agente ter´a internalizado um processo decis˜ao pr´oprio, que analisa o seu estado interno, e com base nas observac¸˜oes recebi- das, defina mais prov´avel estado de seu parceiro de interac¸˜ao, viabilizando a tomada de decis˜ao de ac¸˜ao a serem executadas na busca do equil´ıbrio interno do sistema.

Para analise e validac¸˜ao metodologia desenvolvida, implementaram-se agentes h´ıbridos BDI-POMDP, em que o processo de controle de interac¸˜oes ´e realizado por POMDPs, mas a dinˆamica do sistema, bem como, toda arquitetura utilizada para a implementac¸˜ao dos agentes encontra-se desenvolvida na arquitetura BDI (Belief, Desire, Intentions). A decis˜ao de utilizarmos a arquitetura BDI se deve ao trabalho anterior [16]

j´a realizado nessa arquitetura, em que se implementou um protocolo de negociac¸˜ao de servic¸os para sistemas multiagentes, baseado no sistema de valores trocas e alcanc¸ou-se bons resultados com a arquitetura.

O trabalho desenvolvido tem como aplicac¸˜ao principalmente na ´area de Simulac¸˜ao Social, sendo uma continuidade do trabalho j´a em desenvolvimento no grupo de pesquisa da UCPel. O desenvolvimento do trabalho foi realizado no interpretador de sistemas multiagentes Jason, utilizando a linguagem AgentSpeak e Java.

O trabalho apresentando a seguir est´a dividido nas seguintes sec¸˜oes: sec¸˜ao 2 apresenta-se a ´area de sistemas multiagentes, suas caracter´ısticas e conceitos; a sec¸˜ao 3 aborda os conceitos relativos aos modelos de Markov, mas precisamente os MDPs e POMDPs; a arquitetura BDI e a abordagem h´ıbrida BDI-MDP encontra-se na sec¸˜ao 4, j´a a sec¸˜ao 5 trata da modelagem das interac¸˜oes atrav´es do sistema de valores trocas e tamb´em introduz o conceito de agente com processo de decis˜ao internalizado; a sec¸˜ao 6 apresenta os trac¸os de personalidades para agentes, bem como, a modelagem de POMDP para agentes com personalidade; os detalhes de implementac¸˜ao e as simulac¸˜oes realiza- das est˜ao na sec¸˜ao 7, e por fim na sec¸˜ao 8 apresenta as considerac¸˜oes finais e trabalhos futuros.

(10)

2 INTELIG ˆ ENCIA ARTIFICIAL

A Inteligˆencia Artificial (IA) ´e apresentada como a parte da Ciˆencia da Computac¸˜ao cuja ˆenfase est´a no estudo de sistemas inteligentes, com objetivo de de- senvolver Software para simular capacidades humanas ditas inteligentes, tais como o ra- cioc´ınio, a comunicac¸˜ao em linguagem natural e o aprendizado.

Com o surgimento das redes de computadores viabilizou-se o desenvolvimento de organizac¸˜oes de computadores ousociedades, nas quais a colaborac¸˜ao entre as partes re- quer o estabelecimento de comunicac¸˜ao, usada de forma efetiva. Desta forma, deu-se ori- gem `a Inteligˆencia Artificial Distribu´ıda (IAD), como sendo um sub-ramo da inteligˆencia artificial que investiga modelos de conhecimento, assim como t´ecnicas de comunicac¸˜ao e racioc´ınio, que agentes computacionais necessitam para participar em sociedades com- postas por computadores e pessoas.

Segundo Oliveira [26], o comportamento inteligente ´e visto atrav´es do resultado das interac¸˜oes de uma sociedade. A id´eia ´e, “que se os comportamentos individuais fo- rem organizados, o conjunto dever´a exibir uma inteligˆencia maior do que a soma das inteligˆencias individuais”.

A IAD pode ser dividida em duas grandes ´areas, de acordo com o modelo usado para projetar a sociedade de agentes, assim temos: a Resoluc¸˜ao Distribu´ıda de Problemas e os Sistemas Multiagentes. Em ambos os casos, usa-se a designac¸˜ao agente para as entidades que participam nas atividades de resoluc¸˜ao dos problemas. A grande diferenc¸a pode ser observada pela autonomia destes.

Na Resoluc¸˜ao Distribu´ıda de Problemas, os agentes s˜ao designados para resolver um problema em particular, dentro de uma concepc¸˜ao fechada de mundo. Isto significa que os agentes s˜ao projetados para resolver um tipo espec´ıfico de problema n˜ao podendo ser reutilizados, mesmo que seja em uma aplicac¸˜ao similar. Dessa maneira, o n´umero de participantes ser´a fixo, sendo que cada um possui uma vis˜ao espec´ıfica e incompleta do problema. Ent˜ao, para a resoluc¸˜ao de um problema, os agentes devem cooperar entre si, compartilhando conhecimento, com a finalidade de obter uma soluc¸˜ao.

J´a os Sistemas Multiagentes s˜ao projetados para resolverem qualquer tipo de pro- blema, operando em sistemas abertos, possibilitam a entrada e sa´ıda dos agentes. Isto ocorre, basicamente, porque nesse sistema os agentes s˜ao entidades autˆonomas que tem conhecimento da sua pr´opria existˆencia e da existˆencia de outros integrantes, e, portanto, colaboram entre si para atingirem um objetivo comum dentro do ambiente.

No decorrer desse trabalho, iremos nos concentrar no estudo de Sistemas Multia- gentes, Processos de Decis˜ao de Markov, a arquitetura de agentes BDI e modelo h´ıbridos, com o desenvolvimento de uma aplicac¸˜ao em trocas sociais baseadas em personalidades.

(11)

Nas pr´oximas sec¸˜oes abordaremos os conceitos relativos a sistemas multiagentes e aos agentes em maior profundidade.

2.1 Sistemas Multiagentes

Os sistemas multiagentes investigam o comportamento de um conjunto de agentes autˆonomos, que interagem objetivando a resoluc¸˜ao de um problema que est´a al´em das capacidades de um ´unico indiv´ıduo. O comportamento global destes sistemas deriva da interac¸˜ao entre os agentes, permitindo que estes possam coordenar seus conhecimentos, objetivos, habilidades e planos individuais de uma forma conjunta, em favor da execuc¸˜ao de uma ac¸˜ao ou da resoluc¸˜ao de algum problema, em que se fac¸a necess´aria a cooperac¸˜ao entre eles.

Moulin e Chaib-Draa [25] evidenciam as vantagens significativas dos sistemas multiagentes, dentre elas:

• Maior rapidez na resoluc¸˜ao de problemas atrav´es do aproveitamento do parale- lismo;

• Diminuic¸˜ao da comunicac¸˜ao por transmitir somente soluc¸˜oes parciais em alto n´ıvel para outros agentes, ao inv´es de dados brutos para um lugar central;

• Maior flexibilidade por ter agentes de diferentes habilidades que s˜ao dinamicamente agrupados para resolver problemas;

• Aumento da seguranc¸a pela possibilidade de agentes assumirem responsabilidades de outros agentes, que possam estar sobrecarregados ou com problemas;

O foco principal dos SMA ´e prover mecanismos para a criac¸˜ao de sistemas com- putacionais a partir de entidades de software autˆonomas (agentes), que interagem atrav´es de um ambiente compartilhado por todos e sobre o qual alteram seu estado. Com isto,

´e necess´ario prover uma estrutura de comunicac¸˜ao, uma linguagem de comunicac¸˜ao, um mecanismo de interac¸˜ao e uma forma de coordenac¸˜ao de ac¸˜oes para estas entidades, uma vez que estes possuem conjuntos de capacidades espec´ıficas, bem como possuem seus pr´oprios objetivos em relac¸˜ao ao estado do ambiente que querem atingir.

2.1.1 Agente

Na literatura de IA encontram-se diversas acepc¸˜oes para o termo, n˜ao h´a um con- senso espec´ıfico compartilhado pelos pesquisadores da ´area, mas todos de uma maneira em geral definem “agente” como uma entidade (software ou hardware) imersa em um ambiente, dotada de sensores e atuadores apropriados ao seu ambiente, a fim de executar as tarefas para as quais fora projetado.

Neste trabalho adotaremos a definic¸˜ao de Reis [32]:

“Um agente ´e um sistema computacional, situado num dado ambiente, que tem a percepc¸˜ao desse ambiente atrav´es de sensores, tem capacidade de decis˜ao, age de forma autˆonoma nesse ambiente atrav´es de atuadores, e possui a capacidade de comunicac¸˜ao de alto-n´ıvel com outros agentes e / ou humanos, de forma a desempenhar uma dada func¸˜ao para a qual foi projetado”.

(12)

Wooldridge [44] visualiza um agente como sendo uma entidade com capacidade de resoluc¸˜ao de problemas encapsulada. Inserido nesta vis˜ao, o define como tendo as seguintes propriedades:

• Autonomia - atua sem a intervenc¸˜ao e possui algum tipo de controle sobre suas ac¸˜oes e seu estado interno.

• Habilidade social - interage com outros agentes e, possivelmente, com seres huma- nos atrav´es de algum tipo de linguagem de comunicac¸˜ao.

• Pr´o-atividade - n˜ao se limita a agir em resposta ao ambiente, mas possui a capa- cidade de exibir comportamentos dirigidos por objetivos, sendo capaz de tomar iniciativa apropriada.

• Reatividade - percebe o pr´oprio ambiente (i.e. mundo f´ısico, um usu´ario atrav´es de uma interface gr´afica, uma colec¸˜ao de agentes, a Internet etc.) e responde a est´ımulos que neles ocorrem.

Al´em das propriedades essenciais mencionadas, Wooldrigue [44] e Jennings [20]

definem um agente como uma entidade cognitiva com consciˆencia, capaz de exibir sen- timentos, percepc¸˜oes e emoc¸˜oes, `a semelhanc¸a dos humanos. Deste modo, as seguintes propriedades podem tamb´em ser desej´aveis:

• Benevolˆencia - n˜ao possuir objetivos conflitantes e deve sempre tentar fazer aquilo que lhe seja solicitado por outro agente.

• Mobilidade - capacidade de se movimentar de um local para outro.

• Conhecimento - capacidade de racioc´ınio sobre uma determinada informac¸˜ao.

• Obrigac¸˜oes - compromissos que assumiu em um determinado momento.

• Racionalidade - hip´otese de que ir´a agir de forma a atingir os seus objetivos.

Devido `a sua vasta gama de aplicac¸˜oes, aliado ao seu poder computacional, os agentes foram divididos em duas categorias principais: agentes reativos e agentes cog- nitivos. Atualmente, podemos observar que estes s˜ao os extremos de uma linha de classificac¸˜ao, nas quais surgiram novas denominac¸˜oes como, por exemplo, os agentes de software.

agentes reativos(reactive agents): s˜ao constru´ıdos de acordo com o paradigma baseado em comportamento. N˜ao possuem uma representac¸˜ao interna do mundo, ou no m´aximo uma representac¸˜ao muito simples, e provem um acoplamento forte entre percepc¸˜ao e ac¸˜ao. Est˜ao focados nas propriedades de reatividade e de compor- tamento de tempo real. Tomam suas decis˜oes em tempo de execuc¸˜ao, normal- mente baseadas em uma quantidade de informac¸˜ao limitada e com regras simples de situac¸˜ao-ac¸˜ao.

(13)

agentes deliberativos(deliberative agents): s˜ao de tradic¸˜ao simb´olica da Inteligˆencia Artificial. Possuem uma representac¸˜ao simb´olica do mundo em termos de catego- rias tais como crenc¸as (belief), objetivos(goals)e intenc¸˜oes(intentions). Tamb´em possuem mecanismos de inferˆencia l´ogica para tomar decis˜oes baseadas em seu modelo de mundo (mecanismo de deliberac¸˜ao). Agentes deliberativos mantˆem uma representac¸˜ao interna do seu mundo e existe um estado mental expl´ıcito que pode ser modificado por alguma forma de racioc´ınio simb´olico.

agentes interativos(interacting agents): s˜ao capazes de coordenar suas atividades com outros agentes atrav´es da comunicac¸˜ao e, em particular, atrav´es da negociac¸˜ao. Es- tes possuem uma representac¸˜ao expl´ıcita de seus parceiros e podem ser capazes de raciocinar sobre eles. Assim, seu foco est´a na habilidade gerir o comportamento social cooperativo. A construc¸˜ao de agentes interativos deve tratar de aspectos de coordenac¸˜ao e cooperac¸˜ao entre os agentes inteligentes distribu´ıdos.

Assim como os indiv´ıduos em uma sociedade precisam unir forc¸as para solucio- nar problemas complexos ou que estejam al´em de suas capacidades individuais, compar- tilhando conhecimentos e distribuindo tarefas, os agentes tamb´em podem ter as mesmas atitudes, logo, necessitam de uma estrutura que dˆe sustentac¸˜ao a sua formac¸˜ao, func¸˜ao esta desenvolvida pelos sistemas multiagentes.

2.1.2 Comunicac¸˜ao entre Agentes

Em uma sociedade de agentes ´e necess´ario definir uma arquitetura que possibilite a interac¸˜ao entre agentes, para que estes possam compartilhar informac¸˜oes e conhecimen- tos. Usualmente define-se um m´odulo de comunicac¸˜oes que est´a diretamente ligado ao m´odulo central do agente.

Ressalta-se que as interac¸˜oes ocorrem de acordo com o processo de comunicac¸˜ao dispon´ıvel. Assim existem diversos sistemas de trocas de mensagens, dentre eles podemos citar:

• Comunicac¸˜ao direta: os agentes tratam da sua pr´opria comunicac¸˜ao, sem intervenc¸˜oes.

• Comunicac¸˜ao assistida: os agentes ap´oiam-se em entidades especiais designadas agentes facilitadores, de forma a efetuarem a comunicac¸˜ao com outros agentes.

• Quadro negro: fornece uma estrutura de dados central, ´unica e compartilhada, en- tre os v´arios agentes, em que as informac¸˜oes podem ser lidas e escritas durante o desenvolvimento das tarefas.

Assim como a comunicac¸˜ao entre os agentes, a linguagem de comunicac¸˜ao tem um papel preponderante na estrutura de um sistema multiagentes, permitindo a partilha de significado e sentido na informac¸˜ao trocada entre os participantes.

2.1.3 Linguagem de Comunicac¸˜ao

No processo de interac¸˜ao fazem-se necess´arios mecanismos de comunicac¸˜ao que permitam aos agentes conversarem com outros agentes, de maneira clara e n˜ao amb´ıgua.

Uma possibilidade ´e deixar que eles conversem diretamente, desde que eles conversem

(14)

na mesma linguagem. Outra forma ´e atrav´es do uso de interpretadores ou facilitadores, garantindo que eles saibam como conversar com o interpretador, e ent˜ao o interpretador pode conversar com o outro agente.

Para que os agentes possam se comunicar, eles precisam compartilhar um voca- bul´ario de palavras e seus significados. Este vocabul´ario compartilhado ´e denominado ontologia (ontology).

Na literatura de MAS existem linguagens e padr˜oes definidos para a comunicac¸˜ao envolvendo agentes. As mais utilizadas s˜ao:

• O padr˜ao ACL (Agent Communication Language) [42] ´e o padr˜ao de comunicac¸˜ao estabelecido pela FIPA (Foundation for Intelligent Physical Agent).

• O padr˜ao KQML (Knowledge Query and Manipulation Language) [39] que foi a primeira tecnologia para comunicac¸˜ao entre agentes de software bem difundidas a incluir alguns dos conceitos complexos de comunicac¸˜ao de alto n´ıvel provenientes da literatura de IAD.

2.1.4 Coordenac¸˜ao de Agentes

O conceito de coordenac¸˜ao de agentes n˜ao ´e partilhado por todos os investigadores da ´area, tal como acontece com o conceito de agente. Desta forma, in´umeros autores propuseram definic¸˜oes distintas, mas inter-relacionadas ao termo coordenac¸˜ao. Na grande maioria destas definic¸˜oes destacam-se as noc¸˜oes de grupo, trabalho conjunto, harmonia e objetivo comum. Adotou-se a seguinte definic¸˜ao:

O ato de trabalhar em conjunto de forma harmoniosa no sentido de atingir um acordo com objetivo comum, Reis[31].

A coordenac¸˜ao pode ser classificada em cooperac¸˜ao e competic¸˜ao. Nos sistemas cooperativos, os agentes trabalham como equipes e comportam-se de forma a incrementar a utilidade global do sistema e n˜ao sua utilidade individual. J´a nos sistemas competitivos, cada agente tem a sua pr´opria agenda, motivac¸˜ao e interesses.

Independentes de serem colaboradores ou competidores, os agentes interagem uns com os outros, como forma de atingir seus pr´oprios objetivos, negociando servic¸os e/ou informac¸˜oes.

2.1.5 Negociac¸˜ao

A negociac¸˜ao ´e um conceito importante num ambiente multiagentes, usada na alocac¸˜ao de tarefa, no reconhecimento de conflitos, na resoluc¸˜ao de disparidades de obje- tivos, na determinac¸˜ao da estrutura organizacional e na coerˆencia da sociedade.

Moulin e Chaib-Draa [25] definem negociac¸˜ao como o processo de aperfeic¸oar a concordˆancia (reduzindo incertezas e inconsistˆencia) em um ponto de vista comum, atrav´es da troca estruturada de informac¸˜oes relevantes.

Existem v´arios protocolos de negociac¸˜ao na literatura de IAD. Um dos protocolos mais difundidos ´e a rede de contrato Smith [38], baseado no processo de contrato em organizac¸˜oes humanas.

2.1.6 Interac¸˜oes em Sistemas Multiagentes

Na literatura de sistemas multiagentes existem diversos trabalhos relacionados ao controle de interac¸˜oes em sistemas multiagentes. O estudo tanto do processo de decis˜ao

(15)

sobre cursos individuais de ac¸˜ao, quanto do racioc´ınio sobre parceiros de interac¸˜ao se di- vide em dois grupos, os baseados nasteorias da racionalidadee os inspirados nasteorias das Ciˆencias Sociais.

Na teoria da racionalidade se destacam a Teoria dos Jogos e a Teoria da Decis˜ao, nas quais a decis˜ao dos agentes quanto `as interac¸˜oes se baseiam em medidas de utilidade relacionadas ao resultado da interac¸˜ao, desta forma, a interac¸˜ao mais adequada ´e a mais eficiente e vantajosa para o agente.

J´a as teorias baseadas nas ciˆencias sociais argumentam que o processo de de- cis˜ao quanto `as interac¸˜oes ´e influenciado, sobretudo, pelas relac¸˜oes existentes entre os indiv´ıduos, as quais podem ser explicitadas na forma de avaliac¸˜oes e valores atribu´ıdos aos outros agentes.

Segundo Rodrigues [33] a capacidade de interac¸˜ao social deve ser entendida como a capacidade de raciocinar sobre as interac¸˜oes e as expectativas de interac¸˜oes futuras, de modo que tal racioc´ınio influencie o comportamento e o processo de decis˜ao do agente.

2.1.6.1 Teoria Baseada em Simulac¸˜ao Social

As teorias baseadas em simulac¸˜oes sociais, cada vez mais, est˜ao ganhando espac¸o na modelagem e controle de interac¸˜oes em sistemas multiagentes. Os estudos inspira- dos em Ciˆencias Sociais argumentam que o processo de decis˜ao quanto `as interac¸˜oes ´e influenciado sobre tudo pelas relac¸˜oes sociais existentes entre os indiv´ıduos, as quais po- dem ser explicitadas na forma de avaliac¸˜oes e valores atribu´ıdos aos outros agentes e `as interac¸˜oes [23].

Conforme Conte [8], o crescente interesse pelo campo de pesquisa em simulac¸˜ao social atrav´es de sistemas computacionais ´e resultado do desenvolvimento de modelos de sistemas multiagentes que oferecem a promessa de simular indiv´ıduos autˆonomos e as interac¸˜oes entre eles, encorajando a construc¸˜ao e a explorac¸˜ao de sociedades artificiais.

A autora tamb´em argumenta que na concepc¸˜ao dessas sociedades, se deve levar em conta dois requisitos b´asicos: uma vis˜ao autˆonoma do agente, que voluntariamente constr´oi seu destino, e ao mesmo tempo, uma teoria de sistemas sociais como sistemas de ac¸˜ao, que devem ser respons´aveis pela regulac¸˜ao e restric¸˜ao dos agentes.

O sistema social visto dessa maneira est´a, de certa forma, associando `a noc¸˜ao de coletividade com uma estrutura relacional, esta relac¸˜ao pode ser encontrada na teoria das trocas sociais de Jean Piaget [30].

Na sec¸˜ao 5.2 nos deteremos mais especificamente no estudo dos valores de trocas de Piaget, como sendo uma ferramenta para a regulac¸˜ao de interac¸˜oes, com o prop´osito de garantir a continuidade das interac¸˜oes sociais em sistemas multiagentes.

(16)

3 MODELOS DE MARKOV

Os modelos de Markov descritos nessa sec¸˜ao s˜ao processos de decis˜ao baseados em transic¸˜ao de estados probabil´ısticos, func¸˜ao de recompensa e na propriedade de Mar- kov. Os processos que satisfazem essa propriedade foram estudados em profundidade pelo estat´ıstico Andrei Markov. Inicialmente apresentam-se os conceitos b´asicos do pro- cesso de decis˜ao simples, em seguida discorre-se em mais profundidade sobre o processo de decis˜ao de Markov, processos decis˜ao de Markov parcialmente observ´aveis e por fim os processos decis˜ao de Markov para multiagentes.

3.1 Processo de Decis˜ao

A teoria da decis˜ao ´e um tema abordado em v´arias ´areas do conhecimento, desde a Psicologia, Sociologia, Economia, Filosofia, com diferentes ˆangulos de estudos e abor- dagens. Na Ciˆencia da Computac¸˜ao, a mesma ´e uma das principais abordagens utilizada no estudo de agentes computacionais: “um agente precisa escolher sobre um conjunto de ac¸˜oes, quais destas podem lev´a-lo a atingir seus objetivos, com base no conhecimento que possui sobre o ambiente”.

Quando um agente conhece fatos suficientes sobre seu ambiente, a abordagem l´ogica permite que ele derive planos que oferec¸am a garantia de uma ac¸˜ao eficiente nesse ambiente (modelo BDI). Infelizmente, os agentes quase nunca tˆem acesso a toda a verdade sobre seu ambiente e sobre os resultados de suas ac¸˜oes no ambiente, logo, ser capaz de raciocinar usando informac¸˜oes incompletas ´e muitas vezes essencial para que um agente consiga alcanc¸ar seus objetivos.

O conhecimento do agente pode, `as vezes, na melhor das hip´oteses, fornecer ape- nas um grau de crenc¸a nas sentenc¸as relevantes. Assim, a ferramenta b´asica para lidar com graus de crenc¸as ´e ateoria da probabilidade, que atribui a cada sentenc¸a um grau num´erico de crenc¸a entre 0 e 1. A probabilidade proporciona um meio para resumir a incerteza que vem da falta de processos de descric¸˜ao completos e exatos do ambiente, das percepc¸˜oes e dos parceiros de interac¸˜ao.

Na teoria da probabilidade, uma sentenc¸a se refere `as crenc¸as do agente, e n˜ao diretamente ao mundo. Essas crenc¸as dependem das percepc¸˜oes que o agente recebeu at´e o momento. Essas percepc¸˜oes constituem a evidˆencia na qual se baseiam as asserc¸˜oes de probabilidade. `A medida que o agente recebe novas percepc¸˜oes, suas avaliac¸˜oes de probabilidade s˜ao atualizadas para refletir a nova evidˆencia.

A presenc¸a da incerteza altera radicalmente o modo como um agente toma de- cis˜oes. Em geral um agente l´ogico tem uma meta e executa qualquer plano que oferec¸a

(17)

a garantia de atingir a meta. Uma ac¸˜ao pode ser selecionada ou rejeitada de acordo com o fato de alcanc¸ar ou n˜ao a meta, independentemente de outras ac¸˜oes poderiam ou n˜ao alcanc¸ar essa meta. Quando a incerteza passa a fazer parte da descric¸˜ao do sistema, isso n˜ao acontece mais.

Para fazer tais escolhas, primeiro um agente deve ter preferˆencias entre os dife- rentes resultados dos v´arios planos. Um resultado espec´ıfico ´e um estado completamente especificado, e conhecido para o agente. Utiliza-se ateoria da utilidadepara representar e raciocinar com preferˆencias. A teoria da utilidade diz que todo estado tem um grau de utilidade (ou seja, ele tem certa utilidade) para um agente, e que o agente preferir´a estados com utilidade mais elevada.

Uma func¸˜ao de utilidade pode at´e levar em conta o comportamento altru´ısta, sim- plesmente incluindo o bem-estar de outras pessoas com um dos fatores que contribuem para a utilidade do pr´oprio agente. As preferˆencias, sendo expressas por utilidades, s˜ao combinadas com as probabilidades na teoria geral de decis˜ao racional.

Teoria da Decis˜ao = teoria da probabilidade + teoria da utilidade

A id´eia fundamental da teoria da decis˜ao ´e queum agente ´e racional se e somente se ele escolhe a ac¸˜ao que resulta na mais alta utilidade esperada, calculada como a m´edia sobre todos os resultados poss´ıveis de ac¸˜ao (chamado de princ´ıpio deUtilidade M´axima Esperada (UME)[34]).

3.1.1 O projeto de um agente de teoria da decis˜ao

O agente de teoria da decis˜ao tem que o estado atual ´e incerto, existe apenas uma representac¸˜ao das probabilidades de todos os estados reais poss´ıveis do mundo Estado de Crenc¸as. A medida que o tempo passa, o agente acumula mais evidˆencias e seu` estado de crenc¸as se altera. Com base neste estado, o agente pode fazer um progn´ostico probabil´ıstico de resultados de ac¸˜oes e, conseq¨uentemente, selecionar a ac¸˜ao com a mais alta utilidade esperada.

Func¸˜aoAgente-TD(percepc¸˜ao)retornauma ac¸˜ao

vari´aveis est´aticas:estado de crenc¸a, crenc¸as probabil´ısticas sobre o estado atual do mundoac¸˜ao, a ac¸˜ao do agente

atualizar o estado de crenc¸as com base em ac¸˜ao e percepc¸˜ao calcular probabilidade de resultados de ac¸˜oes,

dadas descric¸˜oes de ac¸˜oes e o estado de crenc¸as atual selecionar ac¸˜ao com utilidade esperada mais alta, dada as probabilidades de resultados e informac¸˜oes de utilidade retornarac¸˜ao.

Um agente da teoria da decis˜ao tem uma medida cont´ınua da qualidade dos esta- dos. As preferˆencias de um agente entre estados do mundo s˜ao captadas pela func¸˜ao de utilidade, que atribui um ´unico n´umero para expressar a desejo de um estado. As utili- dades s˜ao combinadas com probabilidades de resultados de ac¸˜oes para fornecerem uma utilidade esperada referente a cada ac¸˜ao. Este modelo n˜ao apresenta garantias de bons re- sultados a logo prazo, visto que, toma decis˜ao de ac¸˜oes ´otimas locais, sem ter uma vis˜ao

(18)

dos resultados futuros destas ac¸˜oes. O modelo formal mais utilizado para descrever um processo de decis˜ao seq¨uencial (em que existe incerteza quanto ao efeito de cada ac¸˜ao) ´e o do processo de decis˜ao de Markov(Markov Decision Process (MDP)).

3.2 Processo de Decis˜ao de Markov

O Processo de Decis˜ao de Markov (MDP) tem por objetivo tratar o problema da decis˜ao seq¨uencial, tendo como aplicac¸˜ao a tomada de decis˜ao em sistemas inteligentes, em que a utilidade (desempenho) do agente depende de uma seq¨uˆencia de decis˜oes. Pro- blemas de decis˜ao seq¨uencial incluem utilidades, incertezas e detecc¸˜ao, generalizando os problemas de busca e planejamento de ac¸˜oes. Este modelo est´a centrado na propriedade de Markov [41]:

O estado atual depende apenas de um hist´orico finito de estados anteriores.

Nos processos de decis˜ao de Markov essa restric¸˜ao ´e ainda mais limitada.

Definic¸˜ao 1 O estado atual depende apenas do estado anterior e n˜ao de um conjunto de estados passados.

Em outras palavras, um estado consiste nas informac¸˜oes de que o agente precisa para tornar o futuro independente do passado. Desta forma, a dinˆamica do sistema de- pende da informac¸˜ao do passado, apenas atrav´es do estado corrente e da ´ultima ac¸˜ao escolhida. Uma outra abordagem diz que, a informac¸˜ao sobre o passado contribui para escolher a pr´oxima ac¸˜ao, desde que essa informac¸˜ao esteja representada no estado cor- rente.

Um MDP admite dois pressupostos. O primeiro ´e que a execuc¸˜ao de cada ac¸˜ao tem a durac¸˜ao de um ´unico per´ıodo de tempo, acarretando em uma transic¸˜ao de estado.

O segundo ´e que o agente opera em ambientes totalmente observ´aveis, ou seja, o agente tem total conhecimento do seu estado atual, n˜ao existindo incerteza nesse requisito. Em contra partida, possuem a natureza estoc´astica em suas ac¸˜oes, n˜ao tendo o conhecimento exato do efeito desta. Pois o ambiente nem sempre aceitar´a ou reagir´a conforme o agente espera ao executar uma ac¸˜ao.

Para a especificac¸˜ao de um MDP ´e necess´ario a modelagem de trˆes conceitos: um modelo de transic¸˜ao estados; uma func¸˜ao de acessibilidade; e uma func¸˜ao de recompensa pela ac¸˜ao tomada.

3.2.1 Conceitos fundamentais MDP

Uma especificac¸˜ao das probabilidades de resultados para cada ac¸˜ao em cada estado poss´ıvel ´e chamado demodelo de transic¸˜ao(ou somente “modelo”). UtilizaT(s,a,s0) para denotar a probabilidade de alcanc¸ar o estados0 se ac¸˜aoa for executada no estados.

Vamos supor que as transic¸˜oes s˜ao de Markov no sentido da probabilidade de alcanc¸as0a partir desdepende apenas des, e n˜ao do hist´orico de estados anteriores. T(s,a,s0)pode ser analisada como uma grande matriz tridimensional contendo probabilidades.

Uma func¸˜ao de acessibilidade tem por objetivo relacionar estados e ac¸˜oes poss´ıveis de serem executadas em cada estado. utiliza-se Ψ ⊆ S ×A para denotar o conjunto de pares estado-ac¸˜ao admiss´ıveis.

(19)

Para completar a definic¸˜ao, devemos especificar a func¸˜ao derecompensa R(s), onde em cada estados, o agente recebe um valor positivo ou negativo por alcanc¸ar este estado.

Os conceitos e descric¸˜oes a seguir foram extra´ıdos do livro Russell e Norvig [34].

Definic¸˜ao 2 A especificac¸˜ao de um problema de decis˜ao seq¨uencial para um ambiente completamente observ´avel com um controle de transic¸˜ao de Markov e recompensas aditi- vas ´e chamado de processo de decis˜ao de Markov, ou MDP. Definido como uma estrutura (S,A,Ψ,T,R), onde:

• S– conjunto finito de estados;

• A– conjunto de ac¸˜oes;

• Ψ⊆S×A– conjunto de pares estado-ac¸˜ao admiss´ıveis;

• T : S× S× A → [0,1] – func¸˜ao de transic¸˜ao probabil´ıstica, onde T(s0, s, a) denota o valor da probabilidade de transic¸˜ao para o estados0, dada a decis˜ao de executar a ac¸˜aoano estados;

• R : S×A → <– func¸˜ao de recompensa, onde R(s, a)define a recompensa (ou punic¸˜ao) por ter tomado a ac¸˜aoano estados.

A dinˆamica de um MDP ´e especificada pela func¸˜ao de probabilidade de transic¸˜ao de estado, T, e pela func¸˜ao de recompensa, R. Quando o sistema est´a em um ponto de decis˜ao e encontra-se no estado s ∈ S, a decis˜ao do agente executar a ac¸˜ao a ∈ A tem como efeito transitar o sistema para o estados0 ∈ S com probabilidadeT(s, a, s0)e fornece, ao agente, o recompensaR(s, a).

Mas a especificac¸˜ao acima n˜ao apresenta claramente uma soluc¸˜ao para o problema de decis˜ao de ac¸˜oes seq¨uˆencias. Logo a pr´oxima quest˜ao ´e definir qual seria a aparˆencia de uma soluc¸˜ao para o problema. Sabe-se que qualquer seq¨uˆencia fixa de ac¸˜oes n˜ao resolver´a o problema, porque o agente poderia alcanc¸ar estados diferentes do seu objetivo ou n˜ao apresentar´a uma soluc¸˜ao satisfat´oria, apresentando um baixo desempenho.

Assim, quando um problema ´e modelado como um MDP, o objetivo ´e encontrar as melhores decis˜oes para cada situac¸˜ao, geralmente designadas por pol´ıticas ´otimas. Silva [36] apresenta as seguintes definic¸˜oes para pol´ıtica e pol´ıtica ´otima:

Definic¸˜ao 3 Pol´ıtica (π : S → A) – Para cada ponto de decis˜ao, associa ao estado corrente (s), uma ac¸˜aoapara executar. Esta associac¸˜ao ´e definida para todos os estados S.

Definic¸˜ao 4 Pol´ıtica ´Otima : (π) – O ganho que se espera obter ao seguir uma pol´ıtica,

´e uma medida da qualidade dessa pol´ıtica. Assim, procuram-se pol´ıticas que maximizam este valor. A func¸˜ao de utilidade,U(s), estima para uma pol´ıtica, π, o valor de ganho esperado em cada estado,s∈S. Est´a func¸˜ao representa o ganho esperado, ao iniciar no estados e prosseguindo de acordo com π. Onde π(s) ´e a ac¸˜ao definida pela pol´ıtica

´otima no estados.

Uma pol´ıtica pode ser vista com uma tabela simples, ligando estado - ac¸˜ao, esse comportamento ´e tipo de agentes reativos.

A manutenc¸˜ao de um equil´ıbrio entre o risco e recompensa ´e uma caracter´ıstica dos MDPs que n˜ao surge em problemas de busca determin´ıstica.

(20)

3.2.2 O car´ater ´otimo dos MDP

Seguindo a vis˜ao da sec¸˜ao 3.1 onde um agente escolhe ac¸˜oes em func¸˜ao da uti- lidade esperada. No MDP o agente pode escolher entre seq¨uˆencias de ac¸˜oes, atrav´es da soma de recompensas dos poss´ıveis estados a serem visitados. Est´a n˜ao ´e a ´unica pos- sibilidade. H´a outros m´etodos que investigam as escolhas poss´ıveis para a medida de desempenho, isto ´e, escolhas para a func¸˜ao de utilidade em hist´oricos de ambientes, que descrevemos comoUh(s0,s1,s2, ..). Para determin´a-la, dois requisitos devem ser satis- feitos:

1. Se existe um horizonte finitoou um horizonte infinito para tomada de decis˜ao.

Um horizonte finito significa que existe um tempo limite N depois do qual nada mais importa. Assim, com um horizonte finito, a ac¸˜ao ´otima pode mudar com o passar do tempo, visto que esse se aproxima do fim. Dizemos que a pol´ıtica ´otima para horizonte finito ´e n˜ao-estacion´aria. J´a a pol´ıtica para horizonte infinito n˜ao apresenta um tempo fixo, n˜ao necessita mudar o padr˜ao de comportamento com o passar do tempo, logo a pol´ıtica ´e estacion´aria. Pol´ıticas de horizonte finito s˜ao muito mais complexas que as de horizonte infinito.

2. Como calcular a utilidade de seq¨uˆencias de estados: existem duas formas de calcu- lar as recompensas em pol´ıticas de horizonte infinito:

• Recompensas aditivas: A utilidade de uma seq¨uˆencia de estados, e definida pela soma das recompensas nos respectivos estados.

Uh(s0,s1,s2, ..)=R(s0) +R(s1) +R(s2) +....

• Recompensas descontadas: A utilidade de uma seq¨uˆencia de estados ´e definida pelo somat´orio de recompensas descontas:

Uh(s0,s1,s2, ..)=R(s0) +γR(s1) +γ2R(s2) +....

Onde o fator de descontoγ ´e um n´umero entre 0 e 1. O fator de desconto des- creve a preferˆencia de um agente por recompensas atuais sobre recompensas futuras. Quando γ ´e pr´oximo de 0, as recompensas num futuro distante s˜ao vistas como insignificantes. Quandoγ ´e 1, recompensas descontadas s˜ao exa- tamente equivalentes a recompensas aditivas, e assim as recompensas aditivas constituem um caso especial de recompensas descontadas. O desconto parece ser um bom modelo de preferˆencias, ao longo do tempo.

Logo s˜ao necess´arios algoritmos para calcularem as func¸˜oes de utilidades e pol´ıticas, para solucionar o problema de decis˜oes seq¨uenciais.

3.2.3 Algoritmos

Os algoritmos b´asicos de um MDP s˜ao o algoritmo interac¸˜ao de valor e interac¸˜ao de pol´ıtica. O algoritmo de interac¸˜ao de valor se baseia no c´alculo das utilidades para cada estado, e depois se emprega as utilidades desses estados para selecionar uma ac¸˜ao

´otima em cada estado atrav´es do algoritmo interac¸˜ao de pol´ıtica. Sendo a base para definir pol´ıticas ´otimas.

A utilidade dos estados ´e definida em termos da utilidade de seq¨uˆencias de estados.

Em termos aproximados, a utilidade de um estado ´e a utilidade esperada das seq¨uˆencias

(21)

de estados que poderiam segui-lo. Evidentemente, as seq¨uˆencias de estados dependem da pol´ıtica que ´e executada; logo, comec¸aremos definindo a utilidadeUπ(s)com relac¸˜ao a uma pol´ıtica espec´ıficaπ, dada pela equac¸˜ao (3.1). Se considerandost, o estado em que o agente se encontra depois de executarπpor t passos:

Uπ(s) =E

" X

t=0

γtR(st)|π

#

. (3.1)

Dada essa definic¸˜ao, a utilidade verdadeira de um estado U(s), ´e simplesmente Uπ(s)- ou seja, a soma esperada de recompensas descontadas se o agente executa uma pol´ıtica ´otima. Note que U(s) e R(s) s˜ao quantidades bastante diferentes. R(s) ´e a recompensa “a curto prazo” por estar ems, enquantoU(s) ´e a recompensa total “a longo prazo” desem diante.

Com base na func¸˜ao de utilidade U(s) o agente pode selecionar ac¸˜oes π(s) usando o princ´ıpio de utilidade m´axima esperada, gerando assim a pol´ıtica ´otima π, no qual escolhe a ac¸˜ao que maximiza a utilidade esperada do estado subseq¨uenteU(s0):

π(s) =argmaxaX

s0

T(s, a, s0)U(s). (3.2) Logo, se a utilidade de um estado for a soma esperada de recompensas descontadas desse ponto em diante, ent˜ao existe um relacionamento direto entre a utilidade do estado e a utilidade de seus vizinhos: a utilidade do estado ´e a recompensa imediata correspondente a esse estado, somada `a utilidade descontada esperada do pr´oximo estado, supondo-se que o agente escolha a ac¸˜ao ´otima. Assim, a utilidade de um estado ´e dada equac¸˜ao (3.3), chamada deequac¸˜ao de Bellmanem homenagem a Richar Bellman [2].

U(s) =R(s) +γmaxaX

s0

T(s, a, s0)U(s0). (3.3) A equac¸˜ao de Bellman ´e a base do algoritmo de iterac¸˜ao de valor para resoluc¸˜ao de MDP. Se houvernestados poss´ıveis, ent˜ao haver´anequac¸˜oes de Bellman, uma para cada estado. Asnequac¸˜oes cont´emn inc´ognitas - as utilidades para os estados. O algoritmo utiliza uma abordagem interativa para solucionar as equac¸˜oes. Definem-se valores inici- ais arbitr´arios para as utilidades, calcula-se o lado direito da equac¸˜ao e o inseri no lado esquerdo - atualizando a utilidade de cada estado a partir das utilidades de seus vizinhos.

Repeti-se o processo at´e chegar a um equil´ıbrio. Dessa forma,Ui(s)´e o valor de utilidade para o estadosna i-´esima iterac¸˜ao. A etapa de iterac¸˜ao, chamada atualizac¸˜ao de Bellman,

´e semelhante a:

Ui+1(s) =R(s) +γmaxaX

s0

T(s, a, s0)Ui(s0). (3.4) Aplicando-se a atualizac¸˜ao de Bellman com freq¨uˆencia infinita, teremos a garantia de alcanc¸ar um equil´ıbrio, e nesse caso os valores finais de utilidade dever˜ao ser soluc¸˜oes para as equac¸˜oes de Bellman. Eles tamb´em s˜ao as ´unicas soluc¸˜oes, e a pol´ıtica correspondente ´e ´otima. O algoritmo, chamado de ITERAC¸ ˆAO DE VALOR, ´e mostrado a seguir:

(22)

func¸˜aoITERAC¸ ˆAO DE VALOR (mdp,)retornauma func¸˜ao de utilidade entradas:pdm, umM DP com estadosS, modelo de transic¸˜aoT, func¸˜ao de recompensaR, descontoγ,o erro m´aximo permitido na utilidade de qualquer estado

vari´aveis locais:U,U0, vetores de utilidades para estados emS,

δigual a zero, a mudanc¸a m´axima na utilidade de todos estados e uma iterac¸˜ao repita

U ←U0 ;δ ←0

para cadaestadosemS fac¸a U0(s) =R(s) +γmaxaP

s0T(s, a, s0)Ui(s0) se|U0(s)−U(s)|> δ ent˜aoδ ← |U0(s)−U(s)|

at´eδ < (1−γ)/γ retornarU

Ap´os a definic¸˜ao dos valores de utilidades dos estados, podemos utiliz´a-los para definir ac¸˜oes nos respectivos estados, gerando uma pol´ıtica. Um MDP apresenta um n´umero finito de pol´ıticas para um espac¸o de estados finito, assim, aplicando o algoritmo interac¸˜ao de pol´ıtica podemos encontrar a pol´ıtica com maior valor de utilidade associada.

O algoritmo de iterac¸˜ao de pol´ıtica alterna as duas etapas a seguir, comec¸ando com alguma pol´ıtica inicialπ:

• Avaliac¸˜ao de pol´ıtica: Dada uma pol´ıticaπi calcularUi=Uπi , a utilidade de cada estado seπi tivesse de ser executada.

• Aperfeic¸oamento de pol´ıtica: Calcular uma nova pol´ıtica de UMEπi+1, utilizando a observac¸˜ao antecipada de um passo baseada emUi.

O algoritmo termina quando a etapa de aperfeic¸oamento da pol´ıtica n˜ao produz nenhuma mudanc¸a nas utilidades. Nesse ponto, sabemos que a func¸˜ao de utilidadeUi ´e um ponto fixo da atualizac¸˜ao de Bellman, e, portanto ela ´e uma soluc¸˜ao para as equac¸˜oes de Bellman, eπi deve ser uma pol´ıtica ´otima. Como existe apenas um n´umero finito de pol´ıticas para um espac¸o de estados finito e podemos mostrar que cada iterac¸˜ao produz uma pol´ıtica melhor, a iterac¸˜ao de pol´ıticas tem de terminar. O algoritmo ´e mostrado a seguir.

(23)

func¸˜aoITERAC¸ ˜AO-DE-POL´ITICA (pdm) retorna uma pol´ıtica entradas: pdm, um MDP com estadosS, modelo de transic¸˜aoT

vari´aveis locais:U, U0vetores de utilidades para estados emS, zeroπ, um vetor de pol´ıtica indexado pelo estado, inicialmente aleat´orio repita

U ←AVALIAC¸ ˆAO-DE-POL´ITICA(π, U, pdm) inalterado?←verdadeiro

para cadaestadosemS fac¸a semaxaP

i0T(s, a, s0)U[s0]>P

i0T(s, π[s, s0])U[s0] ent˜ao

π[s]←argmaxaP

i0T(s, a, s0)U[s0] inalterado?←falso

At´e inalterado?

retornarP

3.3 Processo de Decis˜ao de Markov Parcialmente Ob- serv´avel

O processo de decis˜ao de Markov parcialmente observ´avel (POMDP) segue a li- nha do processo de decis˜ao convencional apresentado na sec¸˜ao 3.1, onde o agente n˜ao tem a percepc¸˜ao total do seu estado, possuindo apenas uma distribuic¸˜ao de probabilidade sobre os estados, chamada de “estado de crenc¸a”. Esta vis˜ao vem dos trabalhos de Astrom [1] e Kaebling [21] que estende o modelo MDP ao admitir que a observac¸˜ao do agente n˜ao tem a capacidade de reconhecer com exatid˜ao o seu estado atual, isto ´e, o agente ´e capaz apenas de uma observac¸˜ao parcial do ambiente.

Em ambientes parcialmente observ´aveis o agente n˜ao sabe necessariamente em que estado se encontra, e portanto n˜ao pode executar a ac¸˜aoπ(s)recomend´avel para esse estado. Al´em disso, a utilidade de um estadose a ac¸˜ao ´otima emsn˜ao depende apenas do estado, mas tamb´em do quanto o agente sabe que est´a ems. Assim, o POMDP em geral

´e considerado muito mais complexo que o MDP tradicional. No entanto, n˜ao podemos evit´a-los, visto que, o mundo real ´e um deles.

Os conceitos e descric¸˜oes a seguir foram extra´ıdos do livro Russell e Norvig [34].

Um POMDP tem os mesmos elementos que um MDP (modelo de transic¸˜ao e a func¸˜ao de recompensa), mas adiciona ummodelo de observac¸˜aoO(s, o), que especifica a probabilidade de perceber a observac¸˜aoono estados. A utilidade dessa func¸˜ao est´a em auxiliar na definic¸˜ao do conjunto de estados reais em que o agente poderia estar (estado de crenc¸as).

Um estado de crenc¸as b ´e agora uma distribuic¸˜ao de probabilidade sobre todos os estados poss´ıveis. Utiliza-se b(s) para representar a probabilidade atribu´ıda ao es- tado real s pelo estado de crenc¸as b. O agente pode determinar seu estado de crenc¸a atual como uma distribuic¸˜ao de probabilidade condicional sobre os estados reais, tomando como parˆametros a seq¨uˆencia de observac¸˜oes e ac¸˜oes at´e o momento. Assim, para calcu- larmos o novo estado de crenc¸ab0(s), utiliza-seb(s)como o estado de crenc¸a anterior a execuc¸˜ao da ac¸˜aoae percebero, ent˜ao o novo estado de crenc¸a ´e dado por:

(24)

b0(s) =αO(s0, o)X

s

T(s, a, s0)b(s). (3.5) ondeα ´e uma constante de normalizac¸˜ao que faz o estado de crenc¸a fechar com soma igual a 1.

A id´eia fundamental exigida para entender o POMDP ´e: a ac¸˜ao ´otima depende apenas do estado de crenc¸as atual do agente. Isto ´e, a pol´ıtica ´otima pode ser descrita por um mapeamentoπ(b)de estado de crenc¸as para ac¸˜oes. Onde o ciclo de decis˜ao de um agente POMDP ´e:

1. Dado o estado de crenc¸as atualb, executar a ac¸˜ao a =π(b);

2. Receber a observac¸˜aoo;

3. Definir o estado de crenc¸as atual, e repetir.

Outra caracter´ıstica importante do POMDP ´e que uma ac¸˜ao n˜ao altera apenas o es- tado de crenc¸as do agente, mas tamb´em o espac¸o f´ısico (ambiente), e assim ela ´e avaliada de acordo com as informac¸˜oes que o agente adquire como um resultado (observac¸˜oes).

Definic¸˜ao 5 Um Processo de Decis˜ao de Markov Parcialmente Observ´avel ´e uma estru- tura(S,Ω, φ, A,Ψ, P, R), onde:

• S,A,P,R– descrevem um processo decis˜ao de Markov;

• Ψ:Ω×A– representa os pares observac¸˜ao-ac¸˜ao admiss´ıveis;

• Ω– conjunto finito de observac¸˜oes;

• φ : S×A×Ω → [0,1]– func¸˜ao de probabilidade de observac¸˜ao que associa a cada trio de estado-ac¸˜ao-observac¸˜ao um valor de probabilidadeφ(s, a, w), depois de executar uma ac¸˜ao, transita-se para um estado no qual o agente observaω ∈Ω;

No caso de POMDP complexo com conjunto de estados e observac¸˜oes com al- gumas dezenas de unidades, ´e muito dif´ıcil encontrar pol´ıticas ´otimas (apresenta com- plexidade PSPACE-dif´ıcil). Uma abordagem ´e usar o POMDP, para um curto horizonte temporal (pr´e-definido), desprezando estados de crenc¸a com valor abaixo de determinado limiar e desprezando tamb´em as zonas do espac¸o de estados est´aticas, que n˜ao se alteram por efeito das ac¸˜oes [27].

(25)

4 ARQUITETURA DE AGENTES BDI

A arquitetura BDI apresenta uma estrutura e uma l´ogica pr´opria para a modela- gem e a especificac¸˜ao de agentes reativos e cognitivos. Sendo uma das mais importantes arquiteturas para desenvolvimento de agentes inteligentes em sistemas multiagentes.

4.1 Introduc¸˜ao ao modelo BDI

O modelo BDI apresenta uma abordagem cognitiva baseada em estados mentais, e tem sua origem no modelo de racioc´ınio pr´atico humano. O nome atribu´ıdo ao modelo

´e justificado pelos seus estados mentais: crenc¸a, desejo e intenc¸˜ao (Belief, Desire and Intention).

A fundamentac¸˜ao filos´ofica para esta concepc¸˜ao de agentes, vem do trabalho de Dennett [9] sobre sistemas intencionais e de Michael Bratman [4] sobre racioc´ınio pr´atico.

O racioc´ınio pr´atico consiste em ponderar considerac¸˜oes conflitantes a favor e contra al- ternativas competitivas, onde as considerac¸˜oes relevantes s˜ao determinadas pelos desejos e crenc¸as do agente [6, 43].

O racioc´ınio pr´atico ´e voltado para ac¸˜oes, ou seja, o processo de descobrir o que fazer em cada instante. Sendo este um processo de selec¸˜ao, escolhendo um dentre v´arios cursos de ac¸˜oes. Como exemplo, podemos citar o processo de decidir entre correr ou caminhar.

H´a tamb´em o racioc´ınio te´orico, o qual ´e dirigido somente `as crenc¸as. Como exemplo, cita se as premissas e sua respectiva conclus˜ao: acredito que todos os homens s˜ao mortais, e acredito que S´ocrates ´e um homem, ent˜ao concluo que S´ocrates ´e mortal.

O processo de concluir que S´ocrates ´e mortal ´e um racioc´ınio te´orico, pois afeta apenas as crenc¸as acerca do mundo.

O racioc´ınio pr´atico pode ser dividido em pelo menos duas atividades distintas:

• Deliberac¸˜ao: Processo que envolve a decis˜ao de qual estado quer-se alcanc¸ar;

• Racioc´ınio meio-e-fim: Processo que resulta em uma ac¸˜ao (plano), a qual define como ser´a poss´ıvel alcanc¸ar o estado selecionado pelo processo anterior.

Para um melhor entendimento das atividades acima citadas, considere o exemplo a seguir: um indiv´ıduo decide comprar um carro, ap´os uma pesquisa em diversas con- cession´arias, encontra v´arios modelos e opcionais. Logo o processo de escolher uma das alternativas poss´ıveis ´e chamando Deliberac¸˜ao. Com base em sua escolha o indiv´ıduo deve definir um plano de ac¸˜ao que possibilite a compra do carro escolhido, este processo

(26)

e chamado de racioc´ınio meio-e-fim. Neste caso um plano poss´ıvel envolveria estipular um valor de entrada, o n´umero de prestac¸˜oes a pagar e poss´ıveis reduc¸˜oes de gastos.

4.2 O modelo BDI

Os princ´ıpios do modelo BDI visam `a descric¸˜ao do processo interno de um agente utilizando um conjunto b´asico de estados mentais(crenc¸as, desejos e intenc¸˜oes) e na definic¸˜ao de uma arquitetura de controle atrav´es da qual o agente seleciona racionalmente o curso de suas ac¸˜oes.

O modelo BDI combina trˆes componentes distintos, tornando-se um dos modelos mais estudo e adotado na comunidade de sistemas multiagentes:

• Componente filos´ofico: O modelo BDI ´e fundamentado na conhecida teoria de ac¸˜ao racional em humanos, proposta pelo fil´osofo Michael Bratman;

• Componente de arquitetura de software: O modelo BDI n˜ao prescreve uma implementac¸˜ao espec´ıfica. O modelo pode ser implementado de maneiras dife- rentes.

• Componente l´ogico: O modelo BDI ´e formado por um grupo de l´ogicas multimo- dais. Estas l´ogicas capturam os aspectos chaves deste modelo como um conjunto de axiomas l´ogicos.

4.2.1 Estados mentais

A id´eia principal da abordagem BDI, se concentra no fato de que o agente cog- nitivo possui estados mentais internos que se relacionam com estado do ambiente com o qual interagem e estabelecem sua existˆencia e significˆancia.

Os estados mentais podem ser classificados em duas categorias segundo Searle [35]: estados mentais de informac¸˜ao e estados mentais pr´o-ativos. A primeira categoria est´a relacionada `a informac¸˜ao que o agente possui sobre o mundo que est´a inserido, como por exemplo, crenc¸a e conhecimento. Os estados mentais pr´o-ativos s˜ao aqueles que de alguma maneira guiam as ac¸˜oes do agente, como por exemplo, os desejos e as intenc¸˜oes.

A seguir, s˜ao apresentados os trˆes estados mentais adotados pelo modelo BDI.

• Crenc¸as representam aquilo que o agente sabe sobre o estado do ambiente e dos agentes presentes no ambiente (inclusive sobre si mesmo). As crenc¸as s˜ao apenas uma maneira de representar o estado do mundo, seja atrav´es de vari´aveis, uma base de dados relacional, ou express˜oes simb´olicas em um c´alculo de predicados. Elas podem ser incompletas ou incorretas e at´e mesmo contradit´orias.

• Desejos representam estados do mundo que o agente quer atingir (dito de outra forma, s˜ao representac¸˜oes daquilo que ele quer que passe a ser verdadeiro no ambi- ente). Em tese, desejos podem ser contradit´orios, ou seja, podem-se desejar coisas que s˜ao mutuamente exclusivas do ponto de vista de ac¸˜ao pr´atica. Normalmente se refere a objetivos como um subconjunto dos desejos que s˜ao todos compat´ıveis entre si.

(27)

• Intenc¸˜oess˜ao pr´o-atitudes. Pode ser considerado um subconjunto dos desejos, mas ao contr´ario destes, devem ser consistentes (compat´ıveis com as crenc¸as) e per- sistentes (mantˆem-se at´e serem alcanc¸adas ou n˜ao mais ating´ıveis). Representam seq¨uˆencias de ac¸˜oes espec´ıficas que um agente se compromete a executar para atin- gir determinados objetivos, ou seja, existe um comprometimento em realiz´a-las.

Ao modelar um agente atrav´es do modelo BDI, especificam-se suas crenc¸as e seus desejos, mas a escolha das intenc¸˜oes fica sob a responsabilidade do pr´oprio agente, isto ´e, de uma auto-an´alise de suas crenc¸as e seus desejos dispon´ıveis.

As vezes ´e necess´ario que um agente deixe de considerar uma intenc¸˜ao, por´em as` reconsiderac¸˜oes tˆem um alto custo computacional. Isto ocorre quando uma intenc¸˜ao n˜ao pode ser mais ating´ıvel devido ao ambiente n˜ao mais fornecer subs´ıdios ou se a intenc¸˜ao j´a tenha sido alcanc¸ada por outro agente.

4.2.2 Arquitetura de agentes BDI

A arquitetura de um agente ´e uma descric¸˜ao dos processos internos que regem a interac¸˜ao do mesmo com o seu ambiente. Al´em dos estados mentais definidos no modelo BDI, outros componentes s˜ao necess´arios para a definic¸˜ao de uma arquitetura pr´opria para a especificac¸˜ao e controle de agentes BDI. No trabalho de Gerhard Weiss [40] s˜ao definidos outros componentes importantes para uma arquitetura BDI:

• FRC - Func¸˜ao de revis˜ao de crenc¸as, que a partir da entrada percebida e com as crenc¸as atuais do agente, determina um novo conjunto de crenc¸as;

• Gera opc¸˜oes - Func¸˜ao geradora de opc¸˜oes, que determina as opc¸˜oes dispon´ıveis para o agente, ou seja, seus desejos, tendo como base suas crenc¸as atuais sobre seu ambiente e suas intenc¸˜oes atuais;

• Filtro- Func¸˜ao filtro, que representa o processo de deliberac¸˜ao do agente, e que de- termina as intenc¸˜oes dos agentes, tendo como base suas crenc¸as, desejos e intenc¸˜oes atuais;

• Ac¸˜ao - Func¸˜ao de selec¸˜ao de ac¸˜ao, que determina uma ac¸˜ao para executar, tendo como base as intenc¸˜oes atuais.

A figura 4.1 apresenta uma vis˜ao simplificada do relacionamento entre os estados mentais de crenc¸as, desejos e intenc¸˜oes, com a func¸˜ao de revis˜ao de crenc¸as, func¸˜ao gera opc¸˜oes, func¸˜ao filtro e a func¸˜ao de selec¸˜ao de ac¸˜ao. Bem como, a poss´ıvel seq¨uˆencia de execuc¸˜ao nessa arquitetura.

Al´em destes componentes mencionados, algumas arquiteturas BDI usam o con- ceito de planos. Planos seriam o conjunto de sub-tarefas (pr´e-compilados) que devem ser seguidos, quando gerada uma intenc¸˜ao.

Para Bratman [5] um plano ´e uma descric¸˜ao de regras funcionais que torna o ra- cioc´ınio pr´atico mais trat´avel, tanto na entrada para o “racioc´ınio meio-fim”, onde for- necem um resultado concreto para raciocinar, quanto nas entradas para o processo de filtragem, onde estreitam o leque de deliberac¸˜ao para um limitado conjunto de opc¸˜oes.

(28)

Figura 4.1: Arquitetura BDI b´asica [19]

4.3 Modelos h´ıbridos BDI-PDM

Simari e Parsons, em seu trabalho [37], apresentam os poss´ıveis relacionamentos entre a arquitetura BDI e o processo de decis˜ao de Markov (PDM), no qual simplificaram as descric¸˜oes BDI e PDM, de modo a estabelecer correlac¸˜oes entre os modelos, visando uma abordagem h´ıbrida dos conceitos.

Um PDM, como apresentado na sec¸˜ao 2, pode ser a boa abordagem para a implementac¸˜ao de agentes inteligentes, devido o fato de se estimar valores `as utilida- des de cada estado, e probabilidades de transic¸˜ao entre estes estados. Com estes valores podemos utilizar algoritmos como a interac¸˜ao de valor para obter uma pol´ıtica ´otima, mapeando cada estado para a melhor ac¸˜ao para aquele estado. Devido `a natureza inte- rativa deste algoritmo n˜ao consegue tratar espac¸o de estados muito grande (ru´ına pela dimens˜ao), devido `a sua alta complexidade, obtendo assim uma soluc¸˜ao a apenas aproxi- mada.

J´a as abordagens baseadas na arquitetura BDI, os agentes s˜ao constru´ıdos atrav´es de um conjunto de crenc¸as que representa o estado do mundo, e um conjunto de desejos que, de maneira geral, identificam quais estados s˜ao objetivos para o agente. Atrav´es da deliberac¸˜ao o agente formula uma ou mais intenc¸˜ao. Ent˜ao o agente constr´oi um plano para alcanc¸ar suas intenc¸˜oes. Uma abordagem BDI para um problema, tem um desempe- nho bem inferior a uma abordagem PDM, desde que o problema seja represent´avel pela mesma. Entretanto um modelo BDI pode solucionar problemas que est˜ao al´em do escopo dos modelos PDM.

Simari e Parsons descreveram em [37], como ac¸˜oes, estados e func¸˜oes de transic¸˜ao do PDM podem ser relacionados, com crenc¸as, desejos e intenc¸˜oes do modelo BDI. Em seu trabalho evidenciaram que ambas as descric¸˜oes consistem em um espac¸o de estados S, um conjunto de ac¸˜oesA, e uma func¸˜ao de transic¸˜aoT que depende do estado corrente e da ac¸˜ao a ser realizada. Assim, verificaram que a relac¸˜ao fundamental a ser desenvolvida

(29)

est´a entre pol´ıticas e intenc¸˜oes. Duas abordagens foram apresentadas para estabelecer est´a relac¸˜ao: um que visa `a construc¸˜ao de um plano BDI a partir de uma pol´ıtica PDM; e outra que visa `a extrac¸˜ao de uma pol´ıtica PDM a partir de um plano BDI.

4.3.1 Construc¸˜ao de um plano BDI a partir de uma pol´ıtica PDM

Em seu trabalho, Simari e Parsons [37] definem intenc¸˜ao como o estado que o agente se comprometeu a alcanc¸ar, e utiliza o termo plano-intenc¸˜ao (i-plan), para denotar uma seq¨uˆencia de ac¸˜oes constru´ıdas para alcanc¸ar este estado, ou seja para alcanc¸ar uma determinada intenc¸˜ao. Logo, definiram conceitos para i-plan e tamanho de um i-plan, bem como o que significa um i-plan obedecer `a uma dada pol´ıtica.

Definic¸˜ao 6 Uma seq¨uencia de ac¸˜oes (ψ0, ψ1, ..., ψp) ´e chamada de um i-plan se as ac¸˜oes i(ψ0 ≤ i ≤ ψp)forem selecionadas para serem executadas uma de cada vez, na ordem da seq¨uˆencia, para alcanc¸ar uma dada intenc¸˜ao. E quep´e o tamanho deψ.

Definic¸˜ao 7 Um i-planψde tamanhopobedece a uma pol´ıticaπse, e somente se,ψi =

∀i,1 ≤i ≤p, π(sψi −1), ondesψi ´e o estado para qual o agente est´a planejando chegar ap´os executar a ac¸˜aoψi−1, esψ0 ´e seu estado inicial.

A definic¸˜ao 7 especifica que um i-plan obedece a uma pol´ıtica se, e somente se, as ac¸˜oes prescritas pelo i-plan s˜ao as mesmas prescritas pela pol´ıtica atrav´es dos esta- dos intermedi´arios do i-plan. Assumi-se que os i-plans s˜ao lineares, e que nenhuma reconsiderac¸˜ao ´e feita devido a resultados inesperados de suas ac¸˜oes.

Com base em uma pol´ıtica pode-se obter quantos i-plans forem necess´arios. Logo, para alcanc¸ar novos estados intenc¸˜ao, simplesmente continuamos seguindo a pol´ıtica a partir do estado alcanc¸ado ap´os a ´ultima intenc¸˜ao.

O processo descrito por Simari e Parsons [37] constr´oi um conjunto de i-plans que obedecem uma pol´ıtica. Se tal pol´ıtica n˜ao ´e necessariamente ´otima, portanto nada pode se garantir sobre o resultado, bem como sobre os i-plans estabelecidos, apenas que os membros do conjunto de i-plans obedecer˜ao `a pol´ıtica.

4.3.2 A extrac¸˜ao de uma pol´ıtica PDM a partir de um plano BDI

O processo reverso da extrac¸˜ao de uma pol´ıtica PDM a partir de um plano BDI utiliza um conjunto de i-plans para dar valores de recompensa para estados, de forma a construir pol´ıticas para o PDM, que ir´a imitar o comportamento do agente que segue estes i-plans. Tal abordagem torna poss´ıvel usar o conhecimento do dom´ınio para resolver problemas que s˜ao intrat´aveis por PDMs convencionais. Utiliza-se este conhecimento, para construir i-plans e ent˜ao se usa os i-plans para construir uma pol´ıtica. De fato, a partir de intenc¸˜oes constr´oi i-plans e ent˜ao usa estes i-plans para construir uma pol´ıtica.

Simari e Parsons [37] apresentam um algoritmo pr´oprio para executar a transformac¸˜ao de i-plans em pol´ıticas (iplanToPolicy), que de posse de um con- junto de i-plans e da estrutura BDI que gerou os i-plans, apresenta como resultado um pol´ıticaπpara um agente PDM.

O algoritmo considera cada i-plan no conjunto que estiver sendo processado, atri- buindo um valor para cada par estado-ac¸˜ao que esteja envolvido no i-plan (valor de utili- dade m´axima esperada). Ap´os a definic¸˜ao dos valores nos estados aplica-se o algoritmo de iterac¸˜ao de valor para garantir que a pol´ıtica ser´a ´otima sob o crit´erio de m´axima utilidade esperada, a respeito dos valores fornecidos.

Referências

Documentos relacionados

DISCUSSÃO Trata-se do primeiro estudo, que temos conhecimento, no qual utilizou em suas análises a rede social de crianças menores de seis anos em detrimento a rede social

A vantagem competitiva sustentável, para Porter (1996), é o alicerce para que uma empresa apresente um desempenho acima da média no longo prazo. Tal vantagem se consagra

coletiva dos países africanos a conflitos no continente, reforçando, assim, a apropriação por parte de África; realça o contributo da Facilidade de Apoio à Paz em África para o

Objetivo: O presente trabalho tem como objetivo analisar uma série temporal de transplantes de órgãos humanos em diversos Estados e quais as políticas públicas

A prevalência da DDIV em cães de raças condrodistróficas é consideravelmente maior, devido a características genéticas, onde ocorre rápida degeneração dos

O autor, em outras palavras, percebeu uma aproximação entre a cor do bronzeado e a dos afro-mestiços, mas preferiu, em seus co- mentários, deslocar essa aproximação para os

Comparar o sucesso reprodutivo de Canthon rutilans cyanescens com diferentes recursos alimentares, sendo estes: Fezes do onívoro Cerdocyon thous (Cachorro do

Cabe sinalar que, caso o delito de infanticídio fosse previsto apenas como um parágrafo do artigo 121 do Código Penal, conforme é sugerido no presente trabalho, os pais da autora