Karma (CAO et al., 2009 e SIMMHAN et al., 2006) é um framework para captura de proveniência de experimentos científicos focados em workflows, utiliza um web service para captura dos dados e os armazena em um repositório no formato XML. Captura metadados de proveniência uniformes e usáveis, de maneira independente do workflow. O modelo Karma captura duas formas de proveniência: proveniência de processo, que são metadados que descrevem a execução do workflow e invocações associadas; e proveniência de dados, que fornece metadados semelhantes sobre a história da derivação de um produto de dados.
A proveniência neste modelo é dada em dois níveis: o nível de registro, que se relaciona à persistência dos metadados de serviços e dados que podem ser utilizados em uma sequência de execução; e o nível de execução, que modela as instâncias do nível de registro e grava as informações relacionadas a invocações de métodos e aos produtos de dados utilizados ou gerados por cada invocação. Este framework fornece diretrizes para o armazenamento e consulta dos dados de proveniência em um banco de dados relacional, em conformidade com o modelo OPM.
Este modelo não utiliza ontologias, desta forma, não é capaz de realizar a inferência de conhecimento implícito e fornecer informações importantes para facilitar a reutilização de dados. Além disso, não fornece visualizações adequadas para usuários com pouco conhecimento de proveniência de dados, nem tampouco considera a execução em plataformas de ECOSC.
2.8.3. PReServ
Provenance Recording for Services (PReServ) (GROTH et al., 2005) é um mecanismo de
captura de proveniência para experimentos científicos independente do SGWfC. Ele foi desenvolvido para o contexto de bioinformática e todos os dados coletados são armazenados em metadados no formato XML. É uma implementação baseada em web services Java, subjacente à arquitetura Pasoa (GROTH et al., 2006). O PReServ captura as interações entre componentes internos e agrupamento de interações por meio do protocolo PReP (Provenance
Recording Protocol), que especifica as mensagens que os atores podem trocar com o banco de
proveniência.
O PReServ não utiliza um modelo de proveniência padrão, o que dificulta a interoperabilidade dos dados, bem como sua consulta e a análise pelo pesquisador. Além disso, eles não fornecem a inferência do conhecimento implícito por meio de ontologias. Abrange
apenas as fases de captura de dados, armazenamento e consulta. Desta forma, sem uma solução de visualização adequada, a interpretação dos dados é dificultada. Também não considera a execução em plataformas de ECOSC.
2.8.4. SciCumulus
SciCumulus (DE OLIVEIRA, D et al., 2010) é um middleware para orquestrar workflows científicos por meio do SGWfC em ambientes distribuídos e paralelos. Esta abordagem oferece um serviço de captura de proveniência em tempo real. A proveniência é armazenada com granularidade a nível de atividades e em tempo de execução. Assim, é possível monitorar o estado do workflow e avaliar os resultados disponíveis durante a execução. Este serviço é baseado em um modelo de proveniência que considera tanto os descritores dos dados relativos ao ambiente de nuvem quanto aos dados relativos à estrutura e execução dos workflows (proveniência prospectiva e retrospectiva).
Nesta abordagem, o repositório de proveniência é mantido utilizando o banco de dados relacional, e o acesso a estas informações é feito através de consultas a este banco de dados. Esta abordagem está focada na proveniência dos workflows, sendo assim, não gerencia contexto de forma explícita e completa. Além disso, as visualizações implementadas não estão voltadas para o reúso dos experimentos científicos em plataformas de ECOSC, o que pode dificultar a interpretação do usuário durante o reúso.
2.8.5. ProM
ProM (SILVA et al., 2014) é um framework que utiliza algoritmos de comparação para mineração tanto de processos imperativos quanto declarativos. O objetivo desta ferramenta é auxiliar o especialista no planejamento de experimentos científicos, através da descoberta de modelos. Para isso, utiliza os dados de proveniência gerados por workflows que alcançaram bons resultados no passado. É uma abordagem genérica, projetada para ser aplicada a qualquer SGWfC compatível com o modelo PROV.
As medidas de qualidade são definidas para obter os melhores resultados de cada cenário de execução. Essas métricas são previamente definidas pelo especialista e coletadas durante a execução das instâncias do workflow. O coletor de qualidade é uma atividade incluída na especificação do workflow. Através dos modelos declarativos gerados pela ferramenta os especialistas de domínio podem visualizar e compreender melhor as semelhanças entre
instâncias bem-sucedidas do workflow. Como consequência, os experimentos podem ser reutilizados, compartilhados ou planejados, de modo a obter melhores resultados.
Apesar de possuir um modelo de dados baseado no padrão PROV, esta abordagem não utiliza a ontologia PROV-O para a extração de conhecimento implícito nos dados de proveniência, e também não inclui na ontologia as informações de contexto dos experimentos. Além disso, não oferece visualizações que apoiem o reúso de experimentos científicos em plataformas de ECOSC, e que facilitem a interpretação dos dados por usuários que desconhecem a linguagem própria dos modelos declarativos.
2.8.6. ProvSearch
ProvSearch (COSTA et al., 2014) é uma arquitetura de gerenciamento de dados de proveniência independente de SGWfC, voltada para experimentos em ambientes distribuídos. Combina técnicas de gerenciamento de workflows distribuídos com gerenciamento de dados de proveniência. Permite que os dados de proveniência sejam capturados, armazenados e consultados em tempo de execução, sem interferir na execução do workflow.
Nesta abordagem, os dados são fragmentados em múltiplos repositórios de proveniência na nuvem e podem ser acessados por diferentes SGWfCs. Sua arquitetura é composta por quatro componentes: (i) Nós de banco de dados, formam uma rede descentralizada de servidores de bancos de proveniência. Cada nó contém um sistema de gerenciamento de banco de dados distribuído instalado com duas bases de dados diferentes. Uma para armazenar todos os dados de proveniência tradicionais (como a hora inicial e final, etc.) e os resultados do experimento; e a outra apenas com as estatísticas (por exemplo, o tempo médio de execução de um programa específico, porcentagem de erros para uma máquina específica, etc.); (ii) Nó de controle, é responsável por identificar qual o nó de banco de dados irá armazenar os dados de proveniência para uma execução específica; (iii) Depósito integrado e global de proveniência, armazena um resumo de todas a bases locais de dados estatísticas, agindo como um repositório de proveniência, ou seja, as estatísticas de todas as execuções de todas as experiências são armazenadas neste depósito de proveniência integrado e pode ser consultado por qualquer usuário sem acessar resultados de experimentos de terceiros; e (iv) API - interface entre o ProvSearch e os SGWfC existentes.
Os dados de proveniência são tratados em um modelo chamado PROV-Wf, uma extensão do modelo PROV para o domínio dos workflows científicos (COSTA et al., 2013). No entanto, essa ontologia não considera as informações contextuais e não é capaz de extrair
informações de proveniência implícitas. Esta abordagem também não possui soluções para a visualização que auxiliem o reúso dos experimentos em plataforma de ECOSC.
2.8.7. PBase
PBase (CUEVAS-VICENTTÍN et al., 2014) é um repositório de proveniência de workflows científicos que implementa a ontologia ProvONE, permitindo armazenamento, análise e replicação de experimentos científicos. Este repositório, assim como a ontologia ProvONE, é parte do projeto DataONE: uma rede de dados federados de observações da Terra (MICHENER
et al., 2016). A arquitetura do PBase é baseada na arquitetura da plataforma JAVA e possui três
níveis: (i) Nível de visualização: um cliente web que possui uma interface adaptada para a visualização dos dados de proveniência de workflows científicos, tornando a especificação de consultas e a interpretação dos seus resultados mais fácil e eficaz; (ii) Nível de Aplicação: implementação dos serviços web para atender às consultas feitas pelo usuário; (iii) Nível de dados: conta com um banco de dados gráfico Neo4j oferecendo assim consultas declarativas e eficientes. Possui uma interface de usuário baseada na web que permite aos usuários fazer
upload de um rastreio de proveniência, visualizar o workflow ao lado de seus vários rastreios,
emitir consultas e obter visualizações de seus resultados. Entretanto, esta abordagem não oferece apoio ao processo de experimentação em plataformas de ECOSC. O PBase também não usa a ontologia para obter informações implícitas, e não inclui os elementos de contexto do experimento.
2.8.8. E-SECO ProVersion
E-SECO ProVersion (SIRQUEIRA et al., 2016) é uma abordagem de suporte à gerência de configuração na plataforma E-SECO. Esta abordagem utiliza uma extensão do modelo PROV, que abrange tanto a ontologia quanto o modelo de dados, aplicado ao domínio de workflows científicos. O módulo de proveniência permite ao pesquisador capturar os dados do workflow em diferentes SGWfCs por meio de um web service incluído como uma atividade no workflow. Estes dados alimentam a ontologia PROV-OEXT que, por meio de regras específicas do domínio, detecta informações sobre a evolução e manutenção em workflows. As informações são armazenadas no módulo de histórico dos workflows, e disponibilizadas ao pesquisador por meio da interface web do E-SECO. Esta abordagem permite a extração de conhecimento implícito através do uso da ontologia. Por outro lado, as informações e proveniência capturadas, se restringem à execução do workflow. Com isso, esta abordagem não é capaz de realizar o
gerenciamento de proveniência durante todo o ciclo de experimentação. Além disso, não considera os elementos contextuais do experimento, e não oferece componentes de visualização adequados para apoiar o reúso dos experimentos científicos.