Aprendizagem de planos de adapta¸ c˜ ao - Tese de Doutorado Metamodelo para adapta¸

Os diferentes valores poss´ıveis para cada um dos aspectos ambientais, bem como os diferentes componentes dos modelos de C&R, geram um número infinito de cenários pass´ıveis de adapta¸cão. Embora um plano possa ser aplicado a vários desses cenários, seu impacto pode variar de um para outro. Por isso, o agente deve aprender a selecionar os planos mais adequados para um dado cenário. O agente pode fazer a avalia¸cão de um plano após utilizá- lo, conforme a avalia¸cão dos custos apresentada na Se¸cão 4.6.2, ou fazer uma estimativa desses custos em uma abordagem de aprendizagem offline (Zimmerman e Kambhampati, 2003).

Neste trabalho, a aprendizagem offline dos planos de adapta¸cão tem como objetivo estimar o seu impacto em configura¸cões diversas do ambiente e do modelo de C&R. A Figura 4.21 apresenta a arquitetura de aprendizagem proposta. Com base nas diferentes configura¸cões válidas para cada modelo, discutidas na Se¸cão 4.6.1, um conjunto de planos candidatos é elaborado para um determinado objetivo de adapta¸cão. Com base nas cren¸cas do ambiente e do modelo de C&R, o mecanismo de aprendizagem avalia o plano segundo o critério especificado. Essas cren¸cas definem o conjunto de diferentes configura¸cões para cada aspecto do ambiente e de aspectos relacionados à C&R como, por exemplo, a confiabilidade dos parceiros e das fontes de informa¸cão. Como resultado, uma estimativa da utilidade do plano em diversas configura¸cões é obtida e utilizada na sele¸cão de planos. Essa estimativa corresponde à fun¸cão f : Env′_{∪ m}′ _→_{R, apresentada na defini¸cão de um plano}

(Express˜ao 4.10). ´

E importante notar que o mecanismo de aprendizagem apresentado na Figura 4.21 é um componente abstrato que pode ser instanciado com abordagens diversas propostas na literatura, tais como aprendizagem por refor¸co, heur´ısticas e redes neurais (Russell e Norvig, 2002; Wooldridge, 2009). Isso permite que várias formas de aprendizagem para um modelo ou componente espec´ıfico possam ser incorporados no modelo, uma vez que, para a delibera¸cão do agente durante o PSP, a utilidade estimada do plano, segundo os critérios de avalia¸cão estabelecidos, é mais importante que a forma de aprendizagem em si.

Uma das dificuldades da aprendizagem é a delimita¸cão do número de cenários a serem testados, dado o número de variáveis envolvidas e dos seus valores poss´ıveis. Para reduzir

Figura 4.21: Aprendizagem de planos de adapta¸c˜ao

a dimensão do espa¸co de busca, Raja e Lesser (2007) propõem a restri¸cão das variáveis do processo de aprendizagem a caracter´ısticas independentes entre si, consideradas apenas em um conjunto limitado de valores. Em sua proposta, que utiliza aprendizagem por refor¸co para pol´ıticas de agendamento de tarefas (scheduling), apenas três valores são considerados para as variáveis numéricas: baixo, médio e alto.

Nesta pesquisa, para limitar o espa¸co de busca, alguns aspectos ambientais, enumerados na Se¸cão 4.4, são representados em termos de outros. Por exemplo, os custos são expressos em rela¸cão à utilidade obtida pelo agente, que por sua vez é expresso em rela¸cão à utilidade ofertada no sistema. Assim, os agentes não aprendem planos para valores espec´ıficos, mas para intervalos (muito baixo, baixo, médio, alto, muito alto) da razão entre esses valores. Esses intervalos também são definidos como cren¸cas da aplica¸cão. A Tabela 4.3 apresenta as caracter´ısticas do ambiente utilizadas na aprendizagem e suas dependências de outros fatores para determinar seu valor.

Tabela 4.3: Caracter´ısticas do ambiente e suas dependˆencias Caracter´ıstica Dependˆencia

Custo operacional Utilidade oferecida Utilidade obtida Utilidade oferecida Custo de comunica¸cão Utilidade oferecida Custo da informa¸cão Utilidade oferecida Frequência transa¸cões Aplica¸cão (tempo) Disponibilidade de parceiros Aplica¸cão (popula¸cão) Disp. de fontes de informa¸cão Aplica¸cão (popula¸cão) Disp. da fonte espec´ıfica Aplica¸cão (popula¸cão)

No caso das cren¸cas do modelo de C&R, como os agentes e as fontes de informa¸cão, bem como sua confiabilidade, podem variar muito, apenas valores agregados, como máximo e m´ınimo, são considerados no processo de aprendizagem. Assim, o tamanho da popula¸cão

e a confian¸ca em cada agente n˜ao s˜ao utilizados individualmente como entrada do processo de aprendizagem.

O mapeamento de valores reais em intervalos também depende da aplica¸cão. Por exemplo, se duas fontes de informa¸cão estão dispon´ıveis em um sistema, essa quantidade pode representar um valor alto de disponibilidade para um tipo de aplica¸cão e baixo para outra. Essa correspondência é realizada na medida de similaridade, apresentada na Se¸cão 4.7.1, que identifica a configura¸cão atual do ambiente com base nos intervalos definidos nas cren¸cas da aplica¸cão. Além disso, a aprendizagem pode ser realizada considerando um subconjunto de caracter´ısticas, de forma a reduzir a dimensionalidade do problema, mas arriscando um impacto negativo devido aos aspectos não considerados.

Embora cada caracter´ıstica possa ser limitada inicialmente a uma quantidade reduzida de valores, é poss´ıvel refinar a aprendizagem aumentando essa quantidade. Uma faixa de valor baixo para credibilidade, por exemplo, poderia ser dividida em outra faixa para obter uma maior aproxima¸cão das condi¸cões da simula¸cão para o valor real encontrado no sistema.

4.7.1 Medida de similaridade

Mesmo após a aprendizagem, é poss´ıvel que um agente não possua uma estimativa da utilidade de um plano em um determinado cenário. Nesse caso, por meio de uma medida de similaridade, ele pode procurar por planos que foram avaliados em condi¸cões semelhantes. O conjunto de expressões 4.15 ilustra um cenário cen = Env′_{∪ m}′ _{definido por três aspectos:}

maior valor da confian¸ca (max(t)), confiabilidade da avalia¸cão da reputa¸cão (rel(ar)) e custo de comunica¸cão (ccom). O cenário cenO representa o cenário observado atualmente

no sistema. Os cen´arios cenA e cenB apresentam dois cen´arios aprendidos para os quais

existem planos com estimativas de utilidade, mas que n˜ao s˜ao exatamente iguais a CenO.

No caso de cenA, a aprendizagem n˜ao considerou o aspecto ccom.

cen ={max(t), rel(ar), ccom} (4.15)

cenO={alto, alto, alto}

cenA={alto, baixo, h?i}

cenB ={baixo, alto, alto}

Elementos não definidos no cenário aprendido podem ser substitu´ıdos por outras estimativas para fins de cálculo da similaridade. Nesse caso, o valor indefinido de ccomem cenA

poderia ser substitu´ıdo, em uma abordagem otimista, pelo valor encontrado em cenO, o que

n˜ao prejudicaria a medida de similaridade de cenA em rela¸c˜ao a cenO. Da mesma forma,

ao m´aximo a similaridade. Considerando apenas a contagem de aspectos de igual valor, na primeira abordagem, cenAe cenB teriam a mesma similaridade em rela¸c˜ao a cenO, enquanto

na segunda, cenB teria uma similaridade maior.

Liao et al. (1998) enumeram diversas medidas de similaridade que podem ser utilizadas na compara¸cão de dois cenários. Nesta se¸cão é utilizada a distância euclidiana, na qual a distância d entre dois vetores X e Y ∈ Rn _{é obtida pela Expressão 4.16. A Tabela 4.4}

apresenta um exemplo de cálculo dessa distância entre X e outras configura¸cões do ambiente. Todos os valores estão representados no intervalo [0, 1]. A configura¸cão com maior similaridade em rela¸cão a X é, portanto, aquela que apresenta a menor distância d (nesse caso, Y3). d(X, Y ) = n X i=1 |xi− yi|2 !1/2 (4.16)

Tabela 4.4: Similaridade entre caracter´ısticas de ambientes

Caracter´ıstica Vetor X Vetor Y1 Vetor Y2 Vetor Y3

Utilidade obtida 0,10 0,50 0,60 0,11 Frequência 0,35 0,41 0,23 0,4 Custo operacional 0,70 0,90 0,90 0,66 Custo de comunica¸cão 0,10 0,30 0,25 0,02 Custo da informa¸cão 0,02 0,05 0,00 0,01 Disponibilidade de parceiros 0,40 0,20 0,00 0,40 Disp. de fontes de informa¸cão 0,20 0,60 0,00 0,20

Distˆancia euclidiana de X – 0,667 0,726 0,103

Como os valores estão representados no mesmo intervalo, eles têm o mesmo peso no cálculo da distância. Logo, caso deseje-se dar uma ênfase maior a uma dada caracter´ıstica, pesos podem ser utilizados para multiplicar cada elemento do vetor, diferenciando seu impacto no resultado. Nesse exemplo, foram utilizados valores numéricos cont´ınuos, sem a atribui¸cão de intervalos. No caso da aplica¸cão de intervalos, o uso de uma fórmula numé- rica requer a conversão dos intervalos para os valores numéricos correspondentes. Para fins do processo de aprendizagem, o uso de intervalos reduz a dimensionalidade do espa¸co de busca, mas, conforme o agente aprende novos cenários (seja offline ou durante sua execu¸cão) torna-se necessário distinguir entre dois cenários que, apesar de serem iguais em termos de intervalos, são numericamente diferentes.

No documento Tese de Doutorado Metamodelo para adapta¸ (páginas 111-115)