Capítulo 4 Avaliação da arquitetura proposta
4.3 Configuração do experimento
O workflow OrthoSearch foi definido no SGWfC VisTrails, conforme mostrado na Figura 8. As quatro primeiras atividades do workflow foram utilizadas para armazenar no Repositório de Proveniência da Nuvem os metadados relativos à configuração do ambiente, através do arquivo de manifesto SetupManifest.xml, além dos dados coletados do ambiente de nuvem pelo Execution Broker, e a configuração do experimento, através do arquivo de manifesto ExperimentManifest.xml. As outras oito atividades representam os programas utilizados pelo workflow, com seus respectivos arquivos de manifesto ActivityManifest.xml, para processar os arquivos de entrada. Todas as atividades, tanto as de configuração do ambiente quanto do experimento, e as atividades do workflow OrthoSearch são executadas no ambiente de nuvem da Amazon.
33 Figura 8. Workflow utilizado para avaliação da arquitetura proposta
A execução do experimento foi realizada utilizando seis instâncias do tipo “Micro”, sendo cinco instanciadas a partir da imagem “ami-e2c3368b”, a qual possui a instalação dos programas utilizados pelas atividades do workflow OrthoSearch. Nessas instâncias foram mapeados os diretórios armazenados no S3 usando o sistema de arquivos S3QL. Esses diretórios foram utilizados para armazenar todos os arquivos de entrada/saída usados/gerados por esse workflow. Cada instância possui um diretório específico. A sexta instância foi criada a partir da imagem “ami-16c3367f”, onde foi armazenado o Repositório de Proveniência da Nuvem. Essa instância foi a responsável por receber as informações de execuções e metadados de proveniência gerados pelas
34 cinco instâncias que executam as atividades do workflow no ambiente de nuvem e manter a conexão SSH com o componente Dispatcher no ambiente local de execução do workflow. Ao finalizar cada uma das atividades invocadas pelo Dispatcher no ambiente de nuvem, o fluxo de execução do workflow retorna para o ambiente local e assim outra atividade é invocada para ser executada, tudo isso controlado pelo SGWfC VisTrails.
Inicialmente dentro do diretório mapeado em cada uma das instâncias, existem duzentos e vinte e quatro arquivos COGs e um arquivo FASTA, um para cada um dos cinco protozoários utilizados no experimento. Esses arquivos estão contidos no “Ptn DB”. Por esse motivo foram instanciadas cinco instâncias, cada uma para executar o experimento utilizando um arquivo FASTA diferente.
Abaixo é mostrado um exemplo do fluxo de execução realizado pelo workflow OrthoSearch usando o arquivo “COG0022” e o gene do protozoário Entamoeba histolytica (ehisto.100.fasta) através de linhas de comando para executar os programas:
(i) mafft COG0022 > COG0022.mafft
(ii) hmmbuild COG0022.hmm COG0022.mafft (iii) hmmcalibrate COG0022.hmm
(iv) hmmsearch -E 0.1 COG0022.hmm ehisto.100.fasta > cog0022_ehisto.txt
Como é possível observar o arquivo de saída de uma atividade é utilizado como arquivo de entrada na atividade posterior, com exceção da última atividade, HMMSEARCH. Nessa atividade além do arquivo de saída gerado pela atividade anterior, também é utilizado como arquivo de entrada um segundo arquivo, o FASTA referente ao gene do protozoário a ser comparado. É importante destacar também que nessa última atividade é utilizado o parâmetro “-E 0.1”. Esse é um parâmetro de corte utilizado para definir o grau de igualdade entre os genes contidos nos arquivos COGs com os genes do protozoário. Quanto menor esse parâmetro maior o grau de igualdade dessas proteínas. Esse parâmetro varia de acordo com a necessidade da pesquisa que está sendo realizada no momento.
O workflow executado com as configurações do ambiente descritas na seção 4.2 foi iniciado às 15:41:43 do dia 30/07/2011 e sua execução foi concluída às 08:03:32 do dia 08/08/2011. A atividade HMMSEARCH foi a mais demorada, iniciando às 00:21:13 do dia 01/08/2011 e sendo finalizada às 08:03:32 do dia 08/08/2011. Importante destacar que esses tempos são relativos à execução das atividades nas cinco instâncias. Todos esses dados, além de todos os arquivos gerados, localização desses arquivos,
35 instâncias que foram utilizadas na execução, usuário responsável pela execução do workflow, etc estão armazenados no Repositório de Proveniência da Nuvem.
4.4 Consultas à proveniência
Com o intuito de mostrar que os metadados coletados pela arquitetura proposta são capazes de responder a uma série de possíveis consultas que podem ser necessárias para permitir a reprodução do experimento por outros cientistas ou para que o próprio cientista que executou o experimento tenha dados para melhor entender os resultados obtidos, são propostas algumas consultas que podem ser respondidas utilizando o Repositório de Proveniência Local e da Nuvem. Essas consultas foram divididas em três categorias, consulta de proveniência prospectiva, proveniência retrospectiva e consultas que utilizam os dados da proveniência local e da nuvem.
Essas consultas foram escritas em linguagem natural e transformadas para a linguagem SQL, para que fosse possível retornar os dados para respondê-la a partir do SGBD MySQL. Abaixo são mostradas duas possíveis consultas que podem ser realizadas utilizando os metadados de proveniência prospectiva armazenados no Repositório da Nuvem.
(i) Quais instâncias do ambiente de nuvem estão disponíveis para executar o workflow “ortho.vt”?
SELECT mi.Instance,
mi.PublicDNS, mi.Allocated
FROM matrioshka.matri_workflow_concrete mwc
INNER JOIN matrioshka.matri_activity_concrete mac
ON mac.WfID=mwc.WfID
INNER JOIN matrioshka.matri_activity_image mai
ON mai.ActivityID=mac.ActivityID
INNER JOIN matrioshka.matri_instance mi
ON mi.ImageID=mai.ImageID
WHERE mwc.Name="ortho.vt"
AND mi.Allocated=0
36 Quadro 2. Resultado da consulta de proveniência (i)
Instance PublicDNS Allocated
i-2715e746 ec2-174-129-145-195.compute-1.amazonaws.com 0 i-311be950 ec2-50-19-23-198.compute-1.amazonaws.com 0 i-471ae826 ec2-107-20-31-160.compute-1.amazonaws.com 0 i-9d1be9fc ec2-50-17-169-171.compute-1.amazonaws.com 0 i-a91ae8c8 ec2-50-19-146-109.compute-1.amazonaws.com 0
O Quadro 2 mostra a relação de todos os endereços das instâncias do ambiente de nuvem habilitadas para executar o workflow concreto “ortho.vt” desenvolvido no SGWfC VisTrails, ou seja, essas instâncias possuem os programas necessários para executar esse workflow e não estão sendo utilizadas em outra execução de workflow no momento.
(ii) Quais os nomes e as versões dos programas utilizados para executar as atividades do workflow “ortho.vt”?
SELECT mac.Name,
mac.Version
FROM matrioshka.matri_workflow_concrete mwc
INNER JOIN matrioshka.matri_activity_concrete mac
ON mac.WfID=mwc.WfID
WHERE mwc.Name="ortho.vt";
Quadro 3. Resultado da consulta de proveniência (ii)
Name Version
mafft 6.717b
hmmbuild 2.3.2
hmmcalibrate 2.3.2
hmmsearch 2.3.2
O Quadro 3 mostra os programas utilizados durante a execução do workflow “ortho.vt” com suas respectivas versões a fim de permitir a um cientista que esteja reproduzindo o experimento utilizar as mesmas versões dos programas utilizados na execução a ser reproduzida em seu ambiente.
Abaixo são mostradas duas possíveis consultas utilizando os metadados de proveniência retrospectiva armazenados no Repositório de Proveniência da Nuvem.
37 (iii) Quais foram os parâmetros utilizados para executar cada uma das atividades do
workflow “ortho.vt”? O que cada um desses parâmetros representa?
SELECT mac.Name,
map.ParamValue,
map.ParamDescription
FROM matrioshka.matri_workflow_concrete mwc
INNER JOIN matrioshka.matri_activity_concrete mac
ON mac.WfID=mwc.WfID
LEFT JOIN matrioshka.matri_activity_parameter map ON map.ActivityID=mac.ActivityID
WHERE mwc.Name="ortho.vt";
Quadro 4. Resultado da consulta de proveniência (iii)
Name ParamValue ParamDescription
mafft null null
hmmbuild null null
hmmcalibrate null null
hmmsearch -E 0.1 Parâmetro de corte
O Quadro 4 mostra todos os programas executados pelo workflow “ortho.vt” e os respectivos parâmetros utilizados durante suas execuções. Os programas que são executados sem parâmetros possuem na coluna “ParamValue” o valor null.
(iv) Qual a configuração da instância utilizada para executar a atividade HMMSEARCH do workflow “ortho.vt”?
38
SELECT mic.*
FROM matrioshka.matri_workflow_concrete mwc
INNER JOIN matrioshka.matri_activity_concrete mac
ON mac.WfID=mwc.WfID
INNER JOIN matrioshka.matri_execution me
ON me.ActivityID=mac.ActivityID
INNER JOIN matrioshka.matri_instance mi
ON mi.InstanceID=me.InstanceID
INNER JOIN matrioshka.matri_instance_configuration mic
ON mic.ID=mi.ID
WHERE mwc.Name="ortho.vt"
AND mac.Name="hmmsearch"
GROUP BY mic.Type;
Quadro 5. Resultado da consulta de proveniência (iv)
ID Memory Disk Type CPU_Units CPU_Cores Supported_Platform 9 613 Mb 15
Gb Micro 1 ECU 1 Core 32 ou 64 bits
O Quadro 5 mostra as configurações de hardware da instância utilizada na execução da atividade HMMSEARCH do workflow “ortho.vt”, permitindo assim ao pesquisador conhecer qual o ambiente computacional utilizado na execução dessa atividade.
Para finalizar as possíveis consultas que podem ser realizadas utilizando os metadados de proveniência capturados pela Matrioshka, propomos duas consultas que utilizem, ao mesmo tempo, os metadados armazenados nos dois Repositórios de Proveniência, o Local e o da Nuvem.
(v) Qual a versão do VisTrails e o usuário local da máquina onde está instalado o SGWfC foram utilizados na execução das atividades do workflow “ortho.vt” na instância i-2715e746?
39
SELECT mac.Name,
we.vt_version, we.user
FROM matrioshka.matri_instance mi
INNER JOIN matrioshka.matri_execution me
ON me.InstanceID=mi.InstanceID
INNER JOIN matrioshka.matri_activity_concrete mac
ON mac.ActivityID=me.ActivityID
INNER JOIN matrioshka.matri_workflow_concrete mwc
ON mwc.WfID=mac.WfID
INNER JOIN vt.workflow_exec we
ON we.entity_id=mwc.WfVtID
WHERE mi.Instance="i-2715e746"
AND mwc.Name="ortho.vt"
GROUP BY mac.Name;
Quadro 6. Resultado da consulta de proveniência (v) Name vt_version user
hmmbuild 1.5 kdu
hmmcalibrate 1.5 kdu
hmmsearch 1.5 kdu
mafft 1.5 kdu
O Quadro 6 mostra a partir de qual versão do SGWfC VisTrails as atividades do workflow “ortho.vt” foram invocadas e qual o usuário da máquina local realizou essa invocação para que as atividades fossem executadas na instância do ambiente de nuvem. (vi) Qual a versão do esquema do banco de dados utilizado pelo VisTrails para armazenar os metadados de proveniência local gerados pelo experimento OrthoSearch on the Clouds?
40
SELECT w.version
FROM matrioshka.matri_experiment me
INNER JOIN matrioshka.matri_workflow_abstract mwa
ON mwa.ExperimentID=me.ExperimentID
INNER JOIN matrioshka.matri_workflow_concrete mwc
ON mwc.WfAbsID=mwa.WfAbsID
INNER JOIN vt.workflow w
ON w.id=mwc.WfVtID
WHERE me.Name="OrthoSearch on the Clouds";
Quadro 7. Resultado da consulta de proveniência (vi) version
1.0.2
O Quadro 7 mostra a versão do esquema do banco de dados utilizado para armazenar os metadados de proveniência gerados no experimento OrthoSearch on the Clouds no Repositório de Proveniência Local do SGWfC VisTrails.
As consultas realizadas evidenciam o potencial da arquitetura no que se refere aos metadados de proveniência coletados no ambiente de nuvens computacionais, os quais também podem ser utilizados juntamente com os metadados de proveniência do ambiente local onde o SGWfC está instalado, conforme demonstrado na consulta (vi). Através dos repositórios de metadados de proveniência existentes na arquitetura proposta, consultas podem ser respondidas utilizando tanto os metadados de proveniência prospectiva quanto retrospectiva.
41
Capítulo 5 - Conclusão
Concluindo a dissertação, nesse capítulo são apresentadas as principais contribuições da arquitetura proposta para a coleta de proveniência no ambiente de nuvens computacionais, além das suas limitações e os trabalhos que ainda precisam ser realizados.
5.1 Contribuições
A arquitetura proposta traz como principal contribuição para a comunidade científica a possibilidade da execução de experimento científicos in silico mapeados como workflows científicos em ambientes de nuvens computacionais, um novo paradigma de computação que vem sendo largamente utilizado na indústria. Porém, na execução de experimentos científicos o ambiente de nuvens é ainda pouco utilizado. Isso ocorre principalmente pela carência nesses ambientes de um mecanismo para a coleta de metadados de proveniência.
Para solucionar essa carência é proposta a adaptação da arquitetura da Matrioshka para esse novo ambiente, a qual inicialmente foi proposta para o ambiente de clusters e grades computacionais.
Com a utilização dessa nova arquitetura proposta, um grande número de cientistas que não possuem recursos para montar ambientes computacionais geralmente caros e complexos, como clusters e grades computacionais, ou desejem realizar experimentos in silico exploratório, o que não justifica a instalação e configuração desses ambientes, podem utilizar o ambiente de nuvens computacionais e contar com um mecanismo que vai garantir a reprodutibilidade e a validade desses experimentos perante outros cientistas. A proposta dos serviços de nuvens para workflows científicos e seus resultados são discutidos em (PAULINO et al., 2011).
Outra contribuição dessa arquitetura é a possibilidade de utilizar os metadados de proveniência coletados para realizar avaliações de desempenho comparando os experimentos executados no ambiente de nuvem com os experimentos executados em outros ambientes, locais ou distribuídos.
O modelo de dados do Repositório de Proveniência da Nuvem também é uma contribuição que merece destaque, visto que, através do levantamento bibliográfico
42 realizado não foi localizado nenhum modelo de dados com o propósito de armazenar os metadados de proveniência, tanto prospectiva quanto retrospectiva, para o ambiente de nuvens. Esse modelo de dados pode ser utilizado por outros mecanismos de coleta de proveniência da nuvem, ou estendido para armazenar também proveniência do ambiente local de execução do SGWfC, levando em consideração que o mesmo segue as recomendações do OPM.
5.2 Limitações do trabalho
Existem algumas limitações na arquitetura apresentada nessa dissertação. A primeira se refere a criação dos manifestos utilizados para informar os dados de configuração do ambiente de nuvem utilizado (SetupManifest.xml), do experimento (ExperimentManifest.xml) e das atividades do workflow executadas no ambiente de nuvem (ActivityManifest.xml). Na arquitetura proposta os dados contidos nesses manifestos são incluídos manualmente pelo cientista o que pode ser uma tarefa trabalhosa.
A segunda limitação se refere à ausência de uma interface para o cientista realizar consultas de proveniência na base de metadados capturados do ambiente de nuvem e local, simultaneamente. Atualmente essas consultas são realizadas utilizando ferramentas próprias do SGBD MySQL.
A terceira limitação é que a arquitetura proposta foi avaliada apenas no SGWfC VisTrails. O relacionamento entre o Repositório de Proveniência Local com o Repositório de Proveniência da Nuvem ocorre utilizando identificadores próprios do esquema de proveniência do VisTrails.
5.3 Trabalhos futuros
Como trabalhos futuros podem ser criados cartuchos para a geração dos dados contidos nos arquivos de manifesto. Esses cartuchos podem ser usados para capturar esses dados de outras ferramentas e gerar automaticamente os arquivos de manifestos necessários para o funcionamento da arquitetura proposta. Além disso, pode ser criada uma ferramenta para a realização de consultas de proveniência mais intuitiva sem a necessidade do cientista interagir com ferramentas próprias do SGBD.
43 Um outro trabalho futuro a ser realizado é a integração dos repositórios de proveniência local e da nuvem em um único repositório, com o objetivo de otimizar a realização de consultas que utilizem os metadados de proveniência coletados nos dois ambientes.
44
Referências Bibliográficas
ALTINTAS, I., BERKLEY, C., JAEGER, E., JONES, M., LUDASCHER, B., MOCK, S., 2004, "Kepler: an extensible system for design and execution of scientific workflows". In: Scientific and Statistical Database Management, pp. 423-424, Grécia.
AMAZON EC2, Amazon Elastic Compute Cloud. Disponível em: <http://aws.amazon.com/ec2/>. Acesso em: 10 set. 2010.
BARGA, R., GANNON, D., "Scientific versus Business Workflows". In: Workflows for e-Science, Springer, pp. 9-16, 2007.
BUNEMAN, P., KHANNA, S., TAN, W., "Why and Where: A Characterization of Data Provenance", International Conference on Database Theory, 316-330, 2001
CALLAHAN, S. P., FREIRE, J., SANTOS, E., SCHEIDEGGER, C. E., SILVA, C. T., VO, H. T., 2006, "VisTrails: visualization meets data management". In: SIGMOD, pp. 745-747, Chicago, Illinois, USA.
CRUZ, S., 2011, Uma estratégia de apoio à gerência de dados de proveniência em experimentos científicos. Tese de D.Sc., COPPE/UFRJ, Rio de Janeiro, RJ, Brazil.
CRUZ, S. M. S. D., BARROS, P. M., BISCH, P. M., CAMPOS, M. L. M., MATTOSO, M., 2008a, "Provenance Services for Distributed Workflows". In: Proceedings of the 2008 Eighth IEEE International Symposium on Cluster Computing and the Grid, pp. 526-533
CRUZ, S. M. S. D., BATISTA, V., DÁVILA, A. M. R., SILVA, E., TOSTA, F., VILELA, C., CAMPOS, M. L. M., CUADRAT, R., TSCHOEKE, D., et al., 2008b, "OrthoSearch: a scientific workflow approach to detect distant homologies on protozoans". In: Proc. of the ACM SAC, pp. 1282-1286, Fortaleza, Ceara, Brazil.
DAVIDSON, S. B., FREIRE, J., 2008, "Provenance and scientific workflows: challenges and opportunities". In: Proceedings of the 2008 ACM SIGMOD international conference on Management of data, pp. 1345-1350, Vancouver, Canada.
DEELMAN, E., MEHTA, G., SINGH, G., SU, M., VAHI, K., "Pegasus: Mapping Large-Scale Workflows to Distributed Resources", In: Workflows for e-Science, Springer, pp. 376-394, 2007.
FOSTER, I., ZHAO, Y., RAICU, I., LU, S., 2008, "Cloud Computing and Grid Computing 360-Degree Compared". In: Grid Computing Environments Workshop, 2008. GCE '08, pp. 10-11.
FOSTER, I., KESSELMAN, C., 2004, The Grid: Blueprint for a New Computing Infrastructure. Morgan Kaufmann.
FREIRE, J., KOOP, D., SANTOS, E., SILVA, C. T., 2008, "Provenance for Computational Tasks: A Survey", Computing in Science and Engineering, v. 10, n. 3, pp. 11-21.
GANYMED, Ganymed SSH-2 for Java. Disponível em:
<http://www.ganymed.ethz.ch/ssh2/>. Acesso em: 31 ago. 2011.
GOBLE, C., WROE, C., STEVENS, R., 2003, "The myGrid project: services, architecture and demonstrator". In: Proc. of the UK e-Science All Hands Meeting
45 GROTH, P., DEELMAN, E., JUVE, G., MEHTA, G., BERRIMAN, B., 2009, "Pipeline-centric provenance model". In: Proceedings of the 4th Workshop on Workflows in Support of Large-Scale Science, pp. 1-8, Portland, Oregon.
HEY, T., TANSLEY, S., TOLLE, K., 2009, The Fourth Paradigm: Data-Intensive Scientific Discovery. Microsoft Research.
HOFFA, C., MEHTA, G., FREEMAN, T., DEELMAN, E., KEAHEY, K., BERRIMAN, B., GOOD, J., 2008, "On the use of cloud computing for scientific workflows". In: IEEE Fourth International Conference on eScience (eScience 2008), Indianapolis, USA, pp. 7-12
HULL, D., WOLSTENCROFT, K., STEVENS, R., GOBLE, C., POCOCK, M. R., LI, P., OINN, T., 2006, "Taverna: a tool for building and running workflows of services", Nucleic Acids Research, v. 34, n. 2, pp. 729-732.
IBM SMART BUSINESS DEVELOPMENT & TEST. Disponível em: <https://www- 949.ibm.com/cloud/developer/dashboard>. Acesso em: 19 mar. 2010.
JACOB, J. C., KATZ, D. S., BERRIMAN, G. B., GOOD, J. C., LAITY, A. C., DEELMAN, E., KESSELMAN, C., SINGH, G., SU, M., et al., 2009, "Montage: a grid portal and software toolkit for science-grade astronomical image mosaicking", Int. J. Comput. Sci. Eng., v. 4, n. 2, pp. 73-87.
JARRARD, R. D. Scientific Methods. Online book, 2001. Disponível em: <http://emotionalcompetency.com/sci/booktoc.html>. Acesso em: 10 ago. 2011. KIM, J., DEELMAN, E., GIL, Y., MEHTA, G., RATNAKAR, V., 2008, "Provenance
trails in the Wings-Pegasus system", Concurrency and Computation: Practice & Experience, v. 20 (Apr.), pp. 587-597.
KIM, W., KIM, S. D., LEE, E., LEE, S., 2009, "Adoption issues for cloud computing". In: Proceedings of the 11th International Conference on Information Integration and Web-based Applications & Services, pp. 3-6, Kuala Lumpur, Malaysia. MATSUNAGA, A., TSUGAWA, M., FORTES, J., "CloudBLAST: Combining
MapReduce and Virtualization on Distributed Resources for Bioinformatics Applications", IEEE eScience 2008, 222-229, 2008.
MATTOSO, M., WERNER, C., TRAVASSOS, G. H., BRAGANHOLO, V., MURTA, L., OGASAWARA, E., OLIVEIRA, D., CRUZ, S. M. S. D., MARTINHO, W., 2010, "Towards Supporting the Life Cycle of Large-scale Scientific Experiments", Int Journal of Business Process Integration and Management, v. 5, n. 1, p. 79-92.
MOREAU, L., FREIRE, J., FUTRELLE, J., MCGRATH, R., MYERS, J., PAULSON, P., "The Open Provenance Model: An Overview", Provenance and Annotation of Data and Processes, 323-326, 2008.
MUNISWAMY-REDDY, K., MACKO, P., SELTZER, M., 2009, "Making a cloud provenance-aware". In: First workshop on Theory and practice of provenance, pp. 1-10, San Francisco, CA.
NAPPER, J., BIENTINESI, P., 2009, "Can cloud computing reach the top500?". In: Proceedings of the combined workshops on UnConventional high performance computing workshop plus memory access workshop, pp. 17-20, Ischia, Italy. NURMI, D., WOLSKI, R., GRZEGORCZYK, C., OBERTELLI, G., SOMAN, S.,
YOUSEFF, L., ZAGORODNOV, D., 2008, "The Eucalyptus Open-source Cloud-computing System". In: Proceedings of Cloud Computing and Its Applications.
OLIVEIRA, D., BAIÃO, F., MATTOSO, M., 2007, "MiningFlow: Adding Semantics to Text Mining Workflows". In: First Poster Session of the Brazilian Symposium on Databases, pp. 15-18, João Pessoa, PB - Brazil.
46 OLIVEIRA, D., BAIÃO, F., MATTOSO, M., "Towards a Taxonomy for Cloud Computing from an e-Science Perspective", In: Cloud Computing: Principles, Systems and Applications (to be published), Heidelberg: Springer-Verlag, 2010a. OLIVEIRA, D., OCANA, K., OGASAWARA, E., DIAS, J., BAIÃO, F., MATTOSO, M., 2011a, "A Performance Evaluation of X-ray Crystallography Scientific Workflow using SciCumulus". In: International Conference on Cloud Computing, Washington D.C.
OLIVEIRA, D., OGASAWARA, E., BAIÃO, F., MATTOSO, M., 2010b, "SciCumulus: A Lightweigth Cloud Middleware to Explore Many Task Computing Paradigm in Scientific Workflows". In: International Conference on Cloud Computing, pp. 378 - 385, Miami, FL.
OLIVEIRA, D., OGASAWARA, E., OCANA, K., BAIAO, F., MATTOSO, M., "An Adaptive Parallel Execution Strategy for Cloud-based Scientific Workflows", Concurrency and Computation: Practice and Experience, 2011b.
PAULINO, C., CRUZ, S., OLIVEIRA, D., CAMPOS, M. L. M., MATTOSO, M., 2011, "Capturing Distributed Provenance Metadata from Cloud-Based Scientific Workflows", Journal of Information and Data Management, v. 2, n. 1, pp. 43- 50.
PAULINO, C., OLIVEIRA, D., CRUZ, S. M. S., CAMPOS, M. L. M., MATTOSO, M., 2010, "Captura de Metadados de Proveniência para Workflows Científicos em Nuvens Computacionais". In: Anais do XXV Simpósio Brasileiro de Banco de Dados, Belo Horizonte, Minas Gerais, Brazil.
PAULINO, C., OLIVEIRA, D., CRUZ, S. M. S., MATTOSO, M., 2009, "Captura de Proveniência de Workflows Científicos Executados em Nuvem". In: Proc. III