GERˆ ENCIA DE DADOS EM WORKFLOWS CIENT´IFICOS DIS-

Conforme dito anteriormente, nos ambientes cient´ıficos os dados intermediários têm grande importância e não devem ser descartados. Destaca-se ainda a importância da proveniência de dados, onde deve-se armazenar - além dos dados - as informa¸cões de como os dados foram obtidos. Com o advento dos servi¸cos Web, tornou-se poss´ıvel utilizar programas cient´ıficos distribu´ıdos pela internet que, via compartilhamento de recursos

computacionais, permitiu maior colabora¸cão entre os centros de pesquisa. Porém, nesse cenário de distribui¸cão de processamento, surge a questão: como gerenciar adequadamente o grande volume de dados intermediários e finais produzidos pelas execu¸cões dos Workflows? A literatura de banco de dados propõe dois paradigmas para armazenamento de dados: centralizado e distribu´ıdo. Paradigmas estes que serão detalhados nas se¸cões a seguir.

2.4.1 ARMAZENAMENTO CENTRALIZADO

No paradigma de armazenamento centralizado de dados, os dados produzidos durante a execu¸cão dos workflows são armazenados num único repositório do ambiente. Esse repositório pode estar hospedado no gerente de execu¸cão, ou em qualquer servidor da arquitetura que possua grande capacidade de armazenamento. Desta forma, o dado produzido por cada tarefa de um workflow em execu¸cão é enviado para o repositório central, e deste para a tarefa subseqüente para dar continuidade à execu¸cão. A figura 2.2 ilustra o esquema de funcionamento centralizado.

FIG. 2.2: Esquema de armazenamento centralizado

Devido ao seu modo de funcionamento, o processo de armazenamento e recupera¸cão dos dados gerados por cada tarefa, em múltiplas execu¸cões de diversos workflows, pode apresentar baixo desempenho, prejudicando as execu¸cões dos workflows. Num ambiente de workflows cient´ıficos, em que tipicamente os s´ıtios de processamento estão dispersos geograficamente, a infra-estrutura de rede torna-se um ponto impactante na execu¸cão do workflow, visto que os s´ıtios de processamento podem estar localizados em locais de acesso dificultado por parte do s´ıtio central de armazenamento.

FIG. 2.3: Armazenamento no s´ıtio produtor

2.4.2 ARMAZENAMENTO DISTRIBU´IDO

No paradigma de armazenamento distribu´ıdo de dados, vários repositórios de dados encontram-se dispon´ıveis no ambiente. Os dados produzidos pelas tarefas dos workflows que estão em execu¸cão podem ser armazenados em qualquer um dos repositórios de dados dispon´ıveis.

Considere uma instˆancia w’ de um workflow w composto por i tarefas t1, t2, ..., ti.

Considere um conjunto de n s´ıtios de processamento, onde ti,j significa que a tarefa

i est´a hospedada no s´ıtio j. Suponha que ti,p e ti+1,r, p 6= r represente um par de

tarefas subseq¨uentes em w’, hospedadas nos s´ıtios p e r, respectivamente. Suponha que o dado d produzido por ti,p seja consumido por ti+1,r. Considere que todos os s´ıtios de

processamento possuam repositórios de dados. Neste cenário, uma poss´ıvel estratégia de armazenamento seria persistir d sempre no s´ıtio de ti, neste caso o s´ıtio p, no intuito

de armazená-lo junto ao s´ıtio produtor, como ilustra a figura 2.3; outra estratégia seria sempre armazenar d no s´ıtio de ti+1, neste caso o s´ıtio r, buscando armazená-lo junto

ao processo consumidor, ilustrado na figura 2.4. Pode-se pensar ainda em armazenar d em um outro s´ıtio de armazenamento qualquer do ambiente, ilustrado na figura 2.5. No entanto, esta decisão não é tão simples, considerando que deve ser tomada para cada dado intermediário produzido durante a execu¸cão do workflow, e levando-se em conta restri¸cões do ambiente que devem ser observadas, como limita¸cão no espa¸co de armazenamento, pol´ıticas de administra¸cão do s´ıtio remoto, autoriza¸cão de acesso entre os s´ıtios, dentre outras.

Armazenar o dado intermediário sempre no s´ıtio onde o mesmo foi produzido, ou consumido, pode não ser uma boa estratégia de armazenamento distribu´ıdo em todos os casos, visto que a comunica¸cão entre os s´ıtios produtor e consumidor pode ser deficiente, causando lentidão no armazenamento e transmissão de dados. Pode-se analisar

FIG. 2.4: Armazenamento no s´ıtio consumidor

FIG. 2.5: Armazenamento num s´ıtio qualquer do ambiente

ainda o aspecto de aproveitamento de dados produzidos por execu¸cões anteriores de um workflow. Desta forma, o dado produzido por uma instância w’ do workflow w poderia ser aproveitado em outra instância w”. Sob esse prisma, deve-se escolher um repositório de dados levando em conta a poss´ıvel utiliza¸cão futura do mesmo.

O problema de armazenamento distribu´ıdo de dados é estudado, há bastante tempo, na área de sistemas de banco de dados distribu´ıdos. Técnicas de distribui¸cão têm sido empregadas com sucesso no incremento de desempenho de aplica¸cões que manipulam grandes volumes de dados. No cenário de workflows distribu´ıdos, as técnicas de distribui¸cão de dados possibilitam adequar o armazenamento dos dados intermediários de acordo com a necessidade de processamento dos mesmos pelas instâncias de tarefas durante a execu¸cão de workflows cient´ıficos. Entretanto, o dom´ınio dos workflows acrescenta novos complicadores não tratados adequadamente por bancos de dados distribu´ıdos, como o encadeamento de execu¸cões e a interdependência de dados e tarefas. No dom´ınio de workflows - conforme já apresentado - as tarefas possuem regras de encadeamento, onde uma tarefa precisa do dado produzido pela sua antecessora para poder executar, esse aspecto é conhecido como interdependência de dados e tarefas. Mas o dado produzido por uma tarefa pode também ser utilizado por diversas outras tarefas. Assim, um projeto de distribui¸cão de dados intermediários de workflows deve considerar

o aspecto de tarefas prováveis consumidoras. Como no paradigma de armazenamento distribu´ıdo os dados encontram-se dispersos nos vários repositórios do ambiente, há a necessidade de um mecanismo eficiente para identificar os dados no ambiente distribu´ıdo como um todo, a fim de viabilizar o seu armazenamento e recupera¸cão durante a execu¸cão dos workflows. Um mecanismo que tem sido adotado por sistemas cient´ıficos é o LSID (CLARK, 2004), que será detalhado na subse¸cão a seguir.

2.4.3 LSID

O LSID (Life Science Identifier) é um mecanismo de identifica¸cão de dados baseado em URNs (Universal Resource Names) que faz parte da OMG (Object Management Group) desde 2004. A estrutura de um LSID é demonstrada a seguir:

< LSID >::=0 urn : lsid :0< AuthorityID >0:0< AuthorityN amespaceID >0:0< ObjectID > [0:0< RevisionID >]

Alguns exemplos de LSID s˜ao demonstrados a seguir: • URN:LSID:rcsb.org:PDB:1D4X:22

• urn:lsid:kepler-project.org:director:1:1

Observa-se que no formato do LSID, o AuthorityID é constitu´ıdo pelo dom´ınio do proprietário da informa¸cão na internet. Esse mecanismo é utilizado para localiza¸cão e recupera¸cão da informa¸cão. AuthorityNamespaceID destina-se a informa¸cões complementares do proprietário do dado, no caso de URN:LSID:rcsb.org:PDB:1D4X:22 o AuthorityNamespaceID PDB refere-se ao nome do banco de dados. O ObjectID é um identificador para o dado, o RevisionID - parte opcional - é um identificador de versionamento da informa¸cão.

No documento MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO SECRETARIA DE CIÊNCIA E TECNOLOGIA INSTITUTO MILITAR DE ENGENHARIA CURSO DE MESTRADO EM SISTEMAS E COMPUTAÇÃO (páginas 33-37)