2. Trabalhos Relacionados

(1)

Gerência de Proveniência Multigranular em Linked Data

com a Abordagem ETL4LinkedProv

RogersReichedeMendonça1,3_,_Sérgio_Manuel_Serra_da_Cruz2_,

MariaLuizaM.Campos3 1 _{Petróleo Brasileiro S.A - Petrobras}

2 _{Universidade Federal Rural do Rio de Janeiro - PET-SI/PPGMMC/UFRRJ} 3 _{Universidade Federal do Rio de Janeiro - PPGI/UFRJ}

rogers.mendonca@petrobras.com.br, serra@ufrrj.br, mluiza@ppgi.ufrj.br

Abstract. This paper presents the ETL4LinkedProv approach to manage the

collection and publication of provenance metadata with different levels of granularity, as Linked Data. The approach uses ETL workflows and a novel component named Provenance Collector Agent. Its application in a real scenario is presented and the impact of the fine-grained provenance in the ETL workflow runtime and in the number of published RDF triples is evaluated.

Resumo. Este trabalho apresenta a abordagem ETL4LinkedProv para

gerenciar a coleta e publicação dos metadados de proveniência com diferentes níveis de granulosidades, sob a forma de Linked Data. A abordagem utiliza workflows ETL e um componente denominado Agente Coletor de Proveniência. Um exemplo de utilização da abordagem em um cenário real é descrito e o impacto da proveniência de granulosidade fina no tempo de execução do workflow ETL e no número de triplas RDF publicadas é avaliado.

1. Introdução

Nos últimos anos, um número crescente de provedores de dados vem adotando um conjunto de tecnologias e boas práticas da Web Semântica para publicar e interligar dados estruturados na Web, formando assim a Web de Dados. Os princípios determinados pela abordagem Linked Data (LD) e adotados pela Web de Dados oferecem simplicidade e flexibilidade para que dados sejam representados, interligados e possam interoperar na Web [Bizer et al. 2009; Heath and Bizer 2011].

O acelerado crescimento da Web de Dados incentivou o surgimento de uma nova geração de aplicações para consumir os dados publicados e explorar o potencial por eles oferecido [Heath and Bizer 2011]. Por exemplo, iniciativas governamentais nacionais [Breitman et al. 2012] e internacionais [Sheridan and Tennison 2010], fomentadas por acordos de transparência e colaboração, passaram a publicar seus dados abertos seguindo os princípios de LD. Ações desta natureza, aliadas à propagação de clientes móveis e serviços de acesso público, trouxeram uma nova perspectiva de empoderamento e participação aos cidadãos [Cordeiro et al. 2011a].

Haja vista este crescimento e relevante uso da Web de Dados, questões pertinentes à qualidade do LD passaram a desempenhar um papel cada vez mais importante. Sem subsídios para a avaliação da qualidade e da confiabilidade dos dados publicados como LD, o consumo e a exploração dos mesmos podem ser comprometidos. Sendo assim, os

(2)

metadados de proveniência surgem também neste contexto com uma função importante de apoio para a avaliação da qualidade e da confiabilidade dos dados [Gil et al. 2010].

Este trabalho tem como objetivo discutir a abordagem ETL4LinkedProv para coleta e publicação de metadados de proveniência multigranular e seu impacto no processo de publicação de LD realizado dentro dos limites de uma organização, denominado Processo de Preparação e Transformação dos Dados. A abordagem

ETL4LinkedProv amplia trabalhos anteriores [Campos and Guizzardi 2010; Mendonça et

al. 2013], que introduziram workflows de Extração, Transformação e Carga (ETL) de dados para publicar LD. A abordagem contempla um componente, denominado Agente Coletor de Proveniência (ACP), que captura, interliga e armazena metadados de proveniência de diferentes granulosidades, relacionados tanto à composição (proveniência prospectiva), quanto à execução (proveniência retrospectiva) do processo de publicação. Tais metadados também são publicados como LD, possibilitando não só a exploração conjunta dos dados de domínio e dos metadados de proveniência por meio de consultas SPARQL, como também investigações sobre a qualidade do LD.

Este artigo está organizado da seguinte forma: a seção 2 discute trabalhos relacionados; a seção 3 introduz a abordagem ETL4LinkedProv e sua implementação; a seção 4 ilustra um caso de uso da abordagem e discute análises quantitativas realizadas com diferentes configurações do nível de granulosidade dos metadados de proveniência e, por fim, a seção 5 apresenta considerações finais e trabalhos futuros.

2. Trabalhos Relacionados

A proveniência de dados representa a ancestralidade de um objeto e pode ser descrita em diferentes termos, dependendo do domínio abordado [Gil et al. 2010]. Em geral, ela fornece a documentação que é essencial para registrar a origem, a qualidade e a autoria dos dados, assim como a capacidade de reproduzir e validar resultados de processos comerciais ou científicos. Os diferentes tipos de proveniência (prospectiva – relativa à especificação do processo, ou retrospectiva – relativa a sua execução) e seu nível de detalhamento (fina ou grossa) [Cruz et al. 2009] são facetas que podem ser exploradas no contexto da qualidade de LD. Quanto menor a granulosidade, mais refinadas serão as possibilidades de investigação entre os dados publicados e seus metadados de proveniência.

Dentre os principais trabalhos que tratam do apoio semântico à proveniência em LD, destacamos o VoID [Alexander et al. 2009], um vocabulário que permite a descrição de metadados sobre datasets RDF (metadados gerais, de acesso, estruturais e linksets), e o modelo OPM [Moreau et al. 2011], concebido para permitir a interoperabilidade dos metadados de proveniência entre sistemas. O modelo OPM foi suplantado recentemente pela especificação PROV do W3C, cujo modelo de dados [Moreau and Missier 2013] é fundamentado nos conceitos Entidade (estado imutável de um objeto), Atividade (ação executada sobre ou com entidades) e Agente (responsável por atuar em uma atividade).

Dentre os trabalhos sobre a proveniência em LD, poucos discutem as questões do rastreamento das transformações de dados que ocorrem dentro dos limites de uma organização (agência governamental, empresa pública ou privada), antes que um dataset seja exposto como LD. Frequentemente, no contexto das organizações, os datasets são heterogêneos, não se alinham com os formatos desejados pelos analistas e, portanto, necessitam passar por processos de preparação e pré-integração antes de serem

(3)

triplificados. Relacionada a esta questão, Cordeiro et al. (2011b) propuseram uma abordagem inovadora para apoiar a exposição, a partilha e a associação de datasets de governo na forma de LD. Além de utilizarem workflows ETL para orquestrar o processo de publicação de LD, eles desenvolveram estratégias para capturar a proveniência sobre os esforços de transformação dos dados. Posteriormente, Freitas et al. (2012) e Omitola et al. (2012) investigaram perspectivas complementares desta abordagem. Freitas et al. (2012) definiram um modelo de três camadas para representação da proveniência do processo de publicação de LD e Omitola et al. (2012) enfatizaram o potencial do uso de ferramentas interativas de transformação de dados (IDT) para apoiar os esforços de transformação de dados e definiram uma arquitetura de gerenciamento dos metadados de proveniência baseada no modelo de representação definido por Freitas et al. (2012).

Por fim, é importante destacar que os trabalhos supracitados, diferentemente da abordagem aqui descrita, não discutem os métodos de coleta e publicação de dados legados. Além disso, não consideram a especificação PROV para LD, nem as distintas granulosidades dos metadados de proveniência relacionados às atividades das etapas do ciclo de vida de LD definido pelo projeto LOD2 [Auer et al. 2012].

3. ETL4LinkedProv: Coleta e Publicação de Proveniência como Linked Data nas Organizações

Nossa abordagem foca nos diferentes tipos de metadados de proveniência produzidos na etapa de Extração do ciclo de vida do LOD2 e amplia um trabalho anterior [Mendonça et al. 2013], que abrange metadados de proveniência das demais. Outras etapas intimamente associadas ao nosso trabalho são a de Classificação / Enriquecimento de Dados – que visa a anotação dos dados publicados em ontologias para facilitar integração, fusão e posteriores buscas e a etapa de Análise de Qualidade – que explicita que o suporte analítico pode se beneficiar de metadados de proveniência, de contexto e de estrutura.

Vale ressaltar que a abordagem ETL4LinkedProv atua em uma extensão da etapa de Extração do ciclo de vida do LOD2. Conforme mencionado anteriormente, no contexto de organizações, atividades complementares de limpeza, consolidação, agregação e pré-integração dos dados frequentemente necessitam ser executadas entre a extração dos dados e a triplificação dos mesmos, para publicá-los como LD. Sendo assim, a abordagem ETL4LinkedProv utiliza workflows ETL para orquestrar a publicação de fontes de dados heterogêneas como LD, com a captura e publicação dos metadados de proveniência por meio de triplas RDF anotadas em ontologias pré-existentes.

3.1. Agente Coletor de Proveniência

O Agente Coletor de Proveniência (ACP) é um componente de software que encapsula o

workflow ETL responsável pela publicação de LD. Ele captura os metadados de

proveniência prospectiva e retrospectiva e faz a interligação aos dados de domínio, durante a execução do processo de publicação. A execução de um workflow ETL consiste na execução de um conjunto de passos interligados, por onde os dados fluem de maneira unidirecional. Cada passo corresponde ao conceito Atividade da especificação PROV e é responsável pela execução de um processo de extração, transformação ou carga de dados; pela execução de atividades auxiliares como transferir arquivos e enviar emails ou pela execução de um sub-workflow. As tarefas realizadas pelo ACP podem ser agrupadas em 3 etapas distintas: captura, interligação e armazenamento temporário dos metadados de proveniência.

(4)

Na etapa de captura, o ACP monitora eventos relacionados ao workflow ETL e, sempre que um dos eventos ocorre, realiza a coleta dos metadados de proveniência de diferentes granulosidades. Os eventos monitorados são: (i) o início e o término do

workflow principal ou de um dos seus sub-workflows; (ii) o início e o término de cada

passo executado; e (iii) a leitura de dados por determinado passo. Um subconjunto de tipos de passos pode ser selecionado, a fim de que somente os passos relacionados aos tipos selecionados tenham a proveniência com nível de granulosidade fina capturada pelo ACP. Esta seleção de tipos de passos visa minimizar os impactos do grande volume de metadados gerado pela estratégia de coleta da proveniência com granulosidade fina, sem, no entanto, negligenciar a coleta dos metadados de proveniência das atividades mais relevantes do processo de publicação de LD.

Na etapa de interligação, o ACP interliga os metadados de proveniência coletados na etapa de captura. Os metadados de proveniência interligados referem-se tanto ao processo de publicação, quanto aos dados de domínio publicados. Além disso, os metadados de proveniência retrospectiva são interligados aos seus respectivos metadados de proveniência prospectiva. Por fim, na etapa de armazenamento temporário, os metadados são armazenados para, posteriormente, também serem extraídos, processados e publicados como triplas RDF pelo Processo de Preparação e Transformação dos

Dados. O modelo conceitual de dados do repositório temporário utilizado pelo ACP

(Figura 1) é formado por 13 entidades, que separam e relacionam os metadados sobre a composição e os metadados sobre a execução do processo de publicação.

Figura 1. Modelo conceitual do repositório temporário utilizado pelo Agente Coletor de Proveniência para armazenar os metadados de proveniência.

Para apoiar semanticamente a publicação dos metadados de proveniência armazenados temporariamente pelo ACP, a abordagem ETL4LinkedProv utiliza um conjunto de ontologias já existentes, que estendem sucessivamente o detalhamento da representação da proveniência no contexto de LD. A ontologia PROV-O

(5)

(http://www.w3.org/ns/prov#)é utilizada como base para representar a semântica do

workflow e possibilitar a interoperabilidade da proveniência na Web de Dados. A

ontologia OPMW (http://www.opmw.org/ontology/) é utilizada como extensão da PROV-O para distinguir a semântica sobre a composição do workflow (proveniência prospectiva) e a semântica sobre a execução do workflow (proveniência retrospectiva). A ontologia Cogs (http://vocab.deri.ie/cogs#)é utilizada como extensão da PROV-O para representar de maneira expressiva os conceitos do processo de ETL. Adicionalmente, uma ontologia específica ao domínio da aplicação e os vocabulários Dublin Core (DC)e FOAF podem ainda ser utilizados para complementar a representação dos metadados de proveniência publicados.

3.2. Implementação da ETL4LinkedProv no Kettle

ETL4LinkedProv foi concebida para ser implementada independente da particularidade

de uma ferramenta ETL. Neste protótipo, utilizamos o Kettle (Pentaho Data Integration) [Casters et al. 2010]; com o Kettle, dois tipos de componentes (transformations e jobs) podem ser utilizados para especificar o workflow ETL. Um transformation consiste de um conjunto de passos conectados, onde cada passo, denominado step, é responsável por uma atividade de extração, transformação ou carga de dados. A conexão (hop) entre dois

steps permite que os dados fluam em um único sentido e de maneira assíncrona. Um job

também consiste de um conjunto de passos conectados. No entanto, os passos de um job, denominados job entries, são responsáveis por executar um transformation, outro job ou atividades auxiliares como transferir arquivos ou executar operações de validação. A conexão (hop) entre dois job entries determina a ordem de execução deles, que, diferente dos passos do transformation, são executados de maneira síncrona. Tanto um

transformation, quanto um job podem possuir notas de documentação e os metadados de

suas especificações podem ser armazenados em tabelas de um repositório do tipo banco de dados ou em arquivos XML de um repositório do tipo sistema de arquivos.

Figura 2. Interface de configuração do Agente Coletor de Proveniência implementado no Kettle.

(6)

Apesar de oferecer um conjunto significativo de steps e job entries que realizam uma série de atividades de extração, transformação e carga de dados, o Kettle não oferece, em sua instalação padrão, passos específicos para o contexto de LD. Assim, para suprir esta carência e possibilitar a implementação da abordagem ETL4LinkedProv, foi desenvolvido um conjunto de steps, denominado ETL4LOD, que permite a publicação tanto dos dados de domínio, quanto dos metadados de proveniência, em um banco de triplas RDF. O ACP também foi implementado com a API Java do Kettle, mas como um

job entry, cujo tipo foi denominado Provenance Collector Agent. Sua interface de

configuração (Figura 2) apresenta uma aba denominada “Proveniência”, que possibilita a configuração da conexão com o banco de dados relacional utilizado para armazenamento temporário dos metadados de proveniência e a seleção dos tipos de steps, cujos metadados de proveniência com nível de granulosidade fina serão coletados. Os steps ETL4LOD e o job entry Provenance Collector Agent encontram-se disponíveis em http://greco.ppgi.ufrj.br/lodbr/index.php/principal/etl4linkedprov.

4. Caso de Uso – Integração de Dados de Agências Governamentais

Esta seção apresenta o caso de uso adotado neste trabalho. No cenário da pesquisa científica nacional, encontramos hoje dificuldades de reutilizar, consumir conjuntamente e explorar os dados das diferentes organizações de fomento à pesquisa. Por exemplo, tarefas como correlacionar os financiamentos concedidos por organizações distintas com a produtividade em publicações científicas geralmente se deparam com diversos obstáculos. Considerando este problema, um exemplo de aplicação da ETL4LinkedProv foi desenvolvido envolvendo dados reais do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) e da Rede Nacional de Ensino e Pesquisa (RNP).

4.1. Integração de dados do CNPq e da RNP

Caso o CNPq e a RNP publicassem suas informações como LD por meio da abordagem

ETL4LinkedProv, além da vantagem de ter seus dados interligados e possibilitar o

consumo conjunto destes dados por aplicativos da Web Semântica, seria possível utilizar os metadados de proveniência para uma posterior verificação da linhagem dos dados de domínio publicados. Esta verificação seria um subsídio importante de apoio à validação da consistência entre os dados publicados pelo CNPq e pela RNP, promoveria um melhor entendimento dos seus dados de domínio e permitiria a exploração conjunta com qualidade e confiabilidade.

Figura 3. Visão geral do cenário utilizado neste trabalho.

Neste cenário, o protótipo da ETL4LinkedProv é capaz de encapsular um

(7)

fonte de dados da RNP. As duas fontes de dados do CNPq, ambas armazenadas em banco de dados relacional, disponibilizam informações sobre os CV Lattes e sobre os Grupos de Pesquisa respectivamente. Já a fonte de dados da RNP, armazenada em um repositório XML, disponibiliza informações sobre os projetos financiados via Grupos de Trabalho do programa Grupos de Trabalho da RNP. A Figura 3 oferece uma visão geral do cenário. Após a execução, os dados do CNPq e da RNP encontram-se publicados e interligados através de três grafos RDF: o primeiro contém as triplas RDF dos CV Lattes; o segundo contém as triplas RDF dos Grupos de Pesquisa do CNPq e o terceiro contém as triplas RDF dos Grupos de Trabalho da RNP. Um quarto grafo contém as triplas RDF referentes aos metadados de proveniência capturados pelo ACP. O grafo RDF de proveniência encontra-se interligado aos três grafos RDF de domínio, permitindo que consultas SPARQL de exploração conjunta entre os dados do CNPq, os dados da RNP e seus respectivos metadados de proveniência sejam realizadas.

4.2. Análise quantitativa de desempenho e do volume de triplas RDF

A partir da relação entre os dados extraídos e o número de triplas RDF publicadas pela abordagem ETL4LinkedProv, é possível obter métricas que evidenciam o impacto da granulosidade da proveniência no desempenho e no volume de dados publicados pelo

Processo de Preparação e Transformação dos Dados. Deste modo, 3 configurações

distintas do nível de granulosidade da proveniência capturada foram aplicadas no caso de uso descrito na sub-seção anterior.

Na primeira configuração, o workflow ETL que publicou os dados das fontes CNPq-Lattes, CNPq-Grupos de Pesquisa e RNP-Grupos de Trabalho foi executado sem estar encapsulado pelo ACP. Nas outras, o mesmo workflow foi executado encapsulado pelo ACP, com a diferença de que, na segunda configuração, nenhum tipo de passo foi selecionado para ter a proveniência coletada com granulosidade fina e, na terceira configuração, todos os tipos de passos foram selecionados para terem a proveniência coletada com granulosidade fina. A infraestrutura utilizada nas execuções do exemplo de aplicação contemplou a edição comunitária do SGBD MySQL (versão 5.0.51a), banco de triplas Virtuoso (versão 7.0.0), Kettle (versão 4.3.0-stable) e Java Standard Edition (versão 1.7.0_13). Essas plataformas estavam instaladas localmente em um notebook com processador Intel Core i3-2370M de 2.4 GHz e 6 GB de memória principal, executando o sistema operacional Windows 7 na versão 64 bits. O número de triplas RDF publicadas por meio da ETL4LinkedProv, tanto de dados de domínio, quanto de metadados de proveniência, segue o modelo representado pela fórmula:

onde, T é o número de triplas RDF publicadas, n é o número de entidades extraídas da fonte de dados pelo workflow ETL, Ii é o número de instâncias extraídas da entidade i, Ai

é o número de tipos RDF relacionados à entidade i, Pi é o número de propriedades

extraídas da entidade i e Rij é o número de relacionamentos entre as instâncias da entidade

i e as instâncias da entidade j.

A Tabela 1 apresenta o resultado da primeira análise quantitativa, que consistiu em comparar os tempos de execução dos sub-workflows ETL de publicação das fontes de

𝑇 = (𝐼𝑖∗ 𝐴𝑖 + 𝐼𝑖 ∗ 𝑃𝑖) 𝑛 𝑖=1 + 𝑅𝑖𝑗 𝑛 𝑖=1 𝑗 = 1

(8)

dados do CNPq e da RNP em LD, considerando as 3 configurações distintas do nível de granulosidade da proveniência. t1 é o tempo de execução sem atuação do ACP e t2 e t3, os tempos de execução com atuação do ACP, respectivamente, com nenhum e com todos os tipos de passos selecionados para captura da proveniência com granulosidade fina.

Tabela 1. Tempos de execução dos sub-workflows ETL de publicação das fontes do CNPq e da RNP em Linked Data.

Usualmente os sub-workflows ETL seriam executados em uma infraestrutura de maior desempenho e iriam extrair um volume maior de dados, no entanto, o impacto da atuação do ACP nos tempos de execução do workflow ETL encapsulado estaria igualmente relacionado à configuração do nível de granulosidade da proveniência coletada. Sem o nível de granulosidade fina habilitado, ou seja, somente com coleta de metadados de proveniência mais genéricos sobre o processo de publicação, a duração (t2) do workflow ETL e de seus sub-workflows é muito próxima do tempo de execução sem a atuação do ACP (t1). Em contrapartida, o tempo de execução cresce exponencialmente de acordo com a quantidade de passos configurados para ter a proveniência coletada no nível de cada dado lido e manipulado pelos passos. Como normalmente ocorrem repetições de dados e existência de dados pouco relevantes, ao se aplicar a ETL4LinkedProv, torna-se recomendável realizar uma análise prévia sobre qual grão da proveniência é mais adequado para ser configurado no ACP. Esta configuração deve atender aos requisitos de exploração conjunta entre os dados de domínio e seus metadados de proveniência e, ao mesmo tempo, não sobrecarregar desnecessariamente o tempo de execução do processo de publicação de LD.

Com relação ao volume de triplas RDF de proveniência e à duração do

sub-workflow ETL que as publicou, a Tabela 2 apresenta os resultados obtidos, considerando

as 2 últimas configurações do nível de granulosidade da proveniência aplicadas no ACP. O número de tipos RDF (A) relacionados às entidades do repositório temporário utilizado pelo ACP (Figura 1) e o respectivo número de propriedades (P) foram contabilizados para cada ontologia empregada para representar os metadados de proveniência no contexto de LD. As entidades Repositório, Nota e Ligação Unidirecional do modelo conceitual não são representadas por classes das ontologias de proveniência, mas seus atributos são utilizados como objetos de propriedades de outras entidades. Para cada nível de

Extração Carga Nível 1 Nível 2 Nível 3 Fonte Entidade I A P 𝑹 T t1 mm:ss t2 mm:ss t3 mm:ss CNPq - Lattes Pesquisador 7 1 5 478 2242 00:02 00:03 06:10 Produção 217 1 5 Projeto 42 1 9 CNPq - Grupos de Pesquisa Grupo de Pesquisa 3 1 2 158 425 00:01 00:02 02:10 Pesquisador ₆₉ ₁ ₂ Coordenador 4 1 0 Aluno 47 1 0 RNP - Grupos de Trabalho Grupo de Trabalho 63 1 6 652 2267 00:02 00:04 09:50 Instituição 18 1 2 Pesquisador 362 1 2 Coordenador 34 1 0 Total 866 1288 4934 00:05 00:09 18:10

(9)

granulosidade da proveniência, foram registrados o número de instâncias extraídas (I) do repositório temporário, o somatório de relacionamentos entre as instâncias ( 𝑅) e o tempo de execução do sub-workflow ETL de publicação da proveniência (t).

Tabela 2. Volume de triplas RDF de proveniência publicadas e duração do sub-workflow ETL de publicação.

De maneira semelhante ao resultado da primeira análise, o impacto do ACP no tempo de execução do sub-workflow ETL de publicação da proveniência, assim como no volume de triplas RDF publicadas, está diretamente ligado ao nível de granulosidade configurado. Este impacto se intensifica na análise dos metadados de proveniência retrospectiva sobre a execução do workflow ETL.

5. Conclusão

Metadados de proveniência têm sido reconhecidos como mecanismo fundamental no apoio à avaliação de qualidade e consistência de dados e, de forma geral, como complemento aos esforços de integração e interoperabilidade. Em especial, no contexto de LD, dados de diferentes origens sendo manipulados, transformados e interligados podem certamente se beneficiar da captura e posterior publicação de metadados de proveniência, para que possam ser explorados em conjunto com os dados correspondentes. Neste trabalho, ao apresentar um processo sistemático apoiado por um sistema de workflow para captura e disponibilização de proveniência na forma de LD, procuramos explorar, em especial, os diferentes níveis de detalhe desses descritores e suas implicações em termos de desempenho e número de triplas complementares geradas. O exemplo de aplicação apresentado evidencia que é possível tirar vantagem da flexibilidade de configurar o processo de captura, de maneira a adequar o volume e desempenho às necessidades de cada situação.

Como trabalhos futuros, apontamos novas estratégias de interligação entre dados e metadados de proveniência, explorando as possibilidades de reificação de triplas e subgrafos, assim como mecanismos de indexação que possam servir de base para o processo de recuperação das informações disponibilizadas. Além destes, pretende-se testar a distribuição do processamento das consultas, no caso do uso da proveniência de granulosidade fina, tirando vantagem do paralelismo e de maior capacidade de processamento.

PROV-O OPMW Cogs DC Nível 2 Nível 3

Entidade A P A P A P A P I 𝑹 T t4 mm:ss I 𝑹 T t5 mm:ss C o m p o si çã o Workflow 1 2 1 4 0 0 0 4 4 480 ₁₇₂₇ 00:09 4 551396 _1141388 20:13 Passo 0 0 1 0 1 0 0 2 105 105 Parâmetro 0 0 2 0 1 0 0 1 0 1428 Campo de Dados 0 0 2 0 1 0 0 1 0 517 E x ec u çã o Workflow 2 2 1 4 0 0 0 1 4 4 Passo 1 2 1 2 0 0 0 1 105 105 Parâmetro 1 1 1 1 0 0 0 0 0 831 Linha de Dados 2 0 0 0 1 0 0 0 0 31055 Campo de Dados 1 1 1 1 0 0 0 0 0 121119 Usuário 1 0 0 0 0 0 1 2 1 1

(10)

Agradecimentos. Maria Luiza M. Campos possui financiamentos parciais do CNPq (308934/2012-1) e FAPERJ (E-26/110.492/2012).

Referências

Alexander, K. et al. (2009) “Describing Linked Datasets - On the Design and Usage of voiD, the ‘Vocabulary of Interlinked Datasets’”, In: Proc. of the 2nd_LDOW.

Auer, S. et al. (2012) “Managing the Life-Cycle of Linked Data with the LOD2 Stack”, In: Proc of the 11th _{ISWC 2012, Part II, p. 1–16. Springer.}

Bizer, C. et al. (2009) “Linked Data - The Story So Far”, In: International Journal on Semantic Web and Information Systems 5, 3, p. 1–22.

Breitman, K. et al. (2012) “Open Government Data in Brazil”, In: IEEE Intelligent Systems 27, June, p. 45–49.

Campos, M.L.M. and Guizzardi, G. (2010) “GT-LinkedDataBR – Exposição,

compartilhamento e conexão de recursos de dados abertos na Web (Linked Open Data)”. www.rnp.br/pd/gts2010-2011/gt_linkeddatabr.html.

Casters, M. et al. (2010) “Pentaho Kettle Solutions: Building Open Source ETL Solutions with Pentaho Data Integration”. Wiley Publishing Inc., USA.

Cordeiro, K. F. et al. (2011a) “Empowering Citizens and Government with Collaboration on Linked Open Data”, In: ESWC/Workshop Semantics in Governance and Policy Modelling, p. 33–37.

Cordeiro, K. F. et al. (2011b) “An approach for managing and semantically enriching the publication of Linked Open Governmental Data”, In: WCGE do SBBD2011, p. 82–95. Cruz, S.M.S. et al. (2009) “Towards a Taxonomy of Provenance in Scientific Workflow

Management Systems.”, In: Congress on Services I, IEEE, p. 259–266.

Freitas, A. et al. (2012) “Representing Interoperable Provenance Descriptions for ETL Workflows”, In: Proc. of the 3rd SWPM 2012.

Gil, Y. et al. (2010) "Provenance XG Final Report", W3C, www.w3.org/2005/Incubator/prov/XGR-prov.

Heath, T. and Bizer, C. (2011) “Linked Data: Evolving the Web into a Global Data Space”. Morgan & Claypool.

Mendonça, R.R. et al. (2013) “LOP - Capturing and Linking Open Provenance on LOD Cycle”, In: Proc. of the 5th _{SWIM, ACM.}

Moreau, L. et al. (2011) “The Open Provenance Model: Core Specification (v1.1)”, In: Future Generation Computer Systems 27, 6, p. 743–756.

Moreau, L. and Missier, P. (2013) “PROV-DM: The PROV Data Model”, W3C, www.w3.org/TR/prov-dm/.

Omitola, T. et al. (2012) “Capturing interactive data transformation operations using provenance workflows”, In: 3rd_{SWPM 2012.}

Sheridan, J. and Tennison, J. (2010) “Linking UK Government Data”, In: Proc. of the 3rd LDOW.