Elementos Básicos de Benchmarks em SMA

2. SISTEMAS MULTIAGENTE E BENCHMARKS

2.2 Benchmarks em SMA

2.2.2 Elementos Básicos de Benchmarks em SMA

Um benchmark em SMA consiste nos seguintes elementos: classe de problema,

benchmarks que analisamos na literatura, conforme será apresentado na seção 3.2. A fim de realizar um experimento, o pesquisador deve projetar um modelo que descreva alguma hipótese acerca da classe de problema, implementá-lo usando alguma linguagem de programação e testá-lo através do simulador (Cohen et al., 1993). Cada solução será testada para cada variação do cenário, o qual representa uma instância do problema. O simulador irá coletar e gerar um conjunto de resultados, os quais serão utilizados pelos pesquisadores a fim de comparar o desempenho em cada cenário e com as soluções concorrentes.

Figura 2.1: Relação entre os componentes de um benchmark em SMA.

Classe de problema: descreve um tipo de problema que pode ser utilizado para

a realização de pesquisas. Ela deve permitir a exploração de diversas técnicas e/ou estratégias, a fim de atender às necessidades dos pesquisadores daquela área. Uma dessas técnicas é verificar o desempenho da aplicação desenvolvida durante a realização da tarefa envolvida.

A classe de problema deve consistir em uma amostra representativa das tarefas que um conjunto de ferramentas ou técnicas deve ser capaz de resolver na prática. Uma vez que não é possível incluir o conjunto inteiro de tarefas do domínio de problema (e. g., SMA), uma seleção de tarefas funciona como um substituto (Sim, 2003). Como exemplo de classes de problema podemos citar o caixeiro viajante, torres de Hanói e

ordenação de vetores (John, 2006).

Simulador: é um software que fornece funções e recursos para realização de

estudos usando modelos que imitam o funcionamento de sistemas reais. Dessa forma, simuladores permitem estudar a viabilidade de um sistema e analisar seu desempenho

Cenário 1! Cenário m! …! !_! PROBLEMA! Solução 1! Solução n! …! Resultado 1,1! Resultado m,n ! …! S! I! M! U! L! A! D! O! R! Métrica 1! …! _{Métrica p!}

antes dele ser construído. Dentre as funções comumente disponibilizadas estão controle da fila de eventos, simulação de relógio, troca de mensagens, contador estatístico atualização e armazenamento das medições (Jain, 1991). Além disso, o simulador deve fornecer entidades de software que representem os elementos da classe de problema. Um simulador deve ser capaz de receber um conjunto de valores de entradas que representam a configuração do experimento, executar o sistema em estudo, calcular e coletar os valores das métricas, e registrá-los em algum formato que possa ser depois processado.

Cenário: representa uma condição particular do mundo, e é descrito por meio de

um conjunto de parâmetros os quais descrevem restrições impostas às soluções sendo desenvolvidas. A fim de representar diferentes níveis de complexidade a que a solução deve ser submetida, os cenários devem ser variados. Por exemplo, no trabalho de Pronobis et al. (2010), variações nos parâmetros consistem em modificar o ambiente (corredor, sala), a iluminação (claro, escuro), o clima (sol, neblina, chuva, neve) etc.

A disponibilidade de cenários é fundamental para a realização de experimentos. Em alguns casos, pode-se fazer uso daqueles disponíveis na literatura. No entanto, isso nem sempre é possível, pois em muitos casos os autores não disponibilizam as informações de forma clara e completa. Nesse caso, cenários podem ser criados através da instanciação dos atributos que descrevem a classe de problema de acordo com os objetivos estabelecidos (John, 2006; Zöller et al., 2006).

Em alguns tipos de problemas, tais como em aprendizagem automática (Prechelt, 1994), cenários são classificados em duas ou mais partes: treinamento,

validação e teste. A solução em questão, uma rede neural, utiliza os dados de

treinamento para descobrir qual função, dentre um conjunto de funções pré-definidas, será utilizada para resolver a tarefa especificada. Em seguida, utilizando os dados de

validação, verifica-se se a rede neural atende aos critérios de desempenho. Daí o

sistema estará pronto para analisar qualquer base de dados de teste.

Conforme discutido por Howe e Dahlman (2002), não é prático, ou sequer desejável, executar em um mesmo experimento todos os cenários possíveis. Para isso é preciso escolher de maneira informada aqueles cenários que mais se adequam ao propósito da pesquisa. Ainda segundo os mesmos autores, alguns sistemas foram desenvolvidos para atender a problemas específicos. Dessa forma, esses sistemas poderão desempenhar de maneira imprevisível em outros cenários.

É preciso analisar a necessidade de equilibrar a relação entre generalidade ou especificidade na solução, e desempenho obtido. Isso significa dizer que, em alguns casos, pode ser aceitável que a solução tenha um melhor desempenho em alguns cenários e pior em outros. Em outros casos, pode ser interessante ter uma solução que atenda razoavelmente bem às expectativas de desempenho em todos os cenários.

Ainda de acordo com Howe e Dahlman (2002), outro ponto que requer atenção em relação à escolha dos cenários é que muitos deles devem ser descartados porque são simples demais, distantes das aplicações reais. De forma semelhante, determinadas combinações dos valores dos parâmetros não se traduzem em cenários que façam sentido no mundo real ou valham a pena serem investigados do ponto de vista teórico.

Finalmente, conforme discutido na seção 2.5, benchmarks têm que evoluir conforme o estado da arte da área progrida, e suas soluções sejam consolidadas e adotadas no mercado ou indústria. Portanto, a evolutibilidade de um benchmark em muito depende da atualização dos problemas sendo estudados e, consequentemente, da atualização dos cenários ou instâncias de problema.

Do ponto de vista prático, um cenário é representado por um ou mais datasets. Um dataset representa uma instância do cenário que é usado na realização de experimentos práticos.

Métrica: descreve um critério de desempenho associado ao comportamento do

modelo em estudo através do qual é realizada uma avaliação quantitativa ou qualitativa de sua capacidade em realizar uma determinada tarefa (Howe e Dahlman, 2002).

Métricas devem ser escolhidas dependendo dos objetivos do benchmark (Solingen, 1999; Zöller et al., 2009). Seus objetivos devem estar relacionados com as capacidades, recursos ou funcionalidades de interesse do sistema sendo estudado. Métricas servem, portanto, para verificar como o sistema se comporta em determinados cenários do ponto de vista de seu desempenho. Por outro lado, de acordo com Wörner e Wörn (2006), o desempenho do simulador é diretamente afetado pelo número de métricas. Sendo assim, dependendo da quantidade e do tipo dos cálculos envolvidos na medição do desempenho, o simulador pode demandar mais recursos de processamento e memória.

Alguns exemplos de métricas de desempenho que encontramos na literatura são tempo de resposta, utilização de recursos, tempo de carga, frequência de conflitos para logística de manufatura, número de operações aritméticas usando inteiros ou ponto flutuante por segundo, taxa de compressão de dados, número de transações realizadas por segundo, e tempo para renderizar uma imagem (John, 2006; Zöller et al., 2006).

Métricas tem influência direta na evolutibilidade do benchmark. Elas atendem aos desafios que forem surgindo ao longo do tempo, o que demanda a remoção, modificação ou introdução de novas métricas.

No documento Desenvolvimento de Benchmarks para sistemas multiagente: o caso da patrulha orientada a eventos (páginas 30-33)