• Nenhum resultado encontrado

AÇÕES GOVERNAMENTAIS PARA DADOS CIENTÍFICOS EM PAÍSES DE

A literatura internacional revela que as iniciativas mais maduras tanto em termos de infraestrutura tecnológica, como de diretrizes para a gestão de projetos de dados científicos, concentram-se nos Estados Unidos e no Reino Unido, sendo que o Reino Unido aparece na vanguarda, tendo lançado o primeiro programa em 2001. Em contrapartida, nos EUA, o início é marcado pela publicação do Relatório Atkins em 2003. Além dessas duas grandes iniciativas, há registros de ações no Canadá e até mesmo no Brasil.

Inúmeros governos e agências de fomento, segundo Shearer (2015, p. 4) começam a elaborar políticas públicas relacionadas com a gestão de dados científicos (por vezes nomeada de gestão de dados de pesquisa). Geralmente essas políticas visam ampliar a eficiência da pesquisa, motivar a reutilização de dados, acelerar as ações cooperativas entre pesquisadores e suas entidades. Para a autora:

As jurisdições com os ambientes de políticas mais abrangentes são o Reino Unido, os Estados Unidos, a Austrália e a União Europeia. Detalhes de políticas variam entre regiões, agências e domínios, mas eles também têm uma série de coisas em comum. Os componentes políticos mais frequentes são os requisitos em torno de padrões e metadados, o compartilhamento de dados e a retenção de dados e/ou preservação a longo prazo. Planos de gestão de dados (GDP) são geralmente necessários no contexto dessas políticas, já que obrigam os investigadores a pensarem sobre como eles irão gerenciar seus dados antes do projeto ter se iniciado, um requisito chave para as boas práticas de gestão de dados. As políticas também contêm consistentemente disposições para a proteção da confidencialidade, propriedade intelectual e dados sensíveis (SHEARER, 2015, p. 4).

Shearer (2015) defende que os objetivos de uma política para a gestão de dados científicos são: acelerar o processo de investigação, apoiar novos insights e descobertas, fomentar a colaboração entre pesquisadores, melhorar a eficiência da investigação e facilitar a prestação de contas. Para a autora, uma determinada política de Research Data Management (RDM) refletirá os objetivos e princípios em que se baseia. Portanto, embora muitas políticas contenham elementos semelhantes, pode haver maior ênfase em alguns requisitos sobre os outros. Por exemplo, uma política baseada no princípio do compartilhamento de dados provavelmente se concentrará nas práticas-chave necessárias para fornecer acesso aos dados, ao passo que uma política baseada na administração de dados se concentrará nas funções e responsabilidades envolvidas no gerenciamento de dados. Com fundamento no exposto,

Shearer (2015, p. 8) apresenta os elementos comuns em uma política de RDM, conforme descrito no Quadro 5.

Quadro 5 – Elementos comuns em uma política de RDM.

Requisitos da Política

Qualidade e padrões de dados

Os investigadores são obrigados a aderir aos padrões internacionais para permitir o acesso e reutilização.

A documentação de dados e os metadados devem acompanhar dados para que os dados sejam compreensíveis por outros.

Acesso e

compartilhamento de dados

Os investigadores são obrigados a disponibilizar os dados para serem partilhados (normalmente após a publicação dos resultados ou pouco depois, embora algumas agências autorizem períodos de embargo). Requisitos para o depósito de metadados em um catálogo local ou nacional.

Retenção e preservação de dados

Os dados devem ser mantidos por um período de tempo mínimo. Sempre que possível, os investigadores devem depositar os seus dados num arquivo de longo prazo para garantir a preservação dos seus dados. Planos de gestão de

dados

As propostas de pesquisa devem incluir um plano de gestão de dados.

Disposições comuns às políticas

Privacidade Os direitos e a privacidade dos indivíduos que participam na pesquisa devem ser protegidos em todos os momentos. Assim, os dados disponibilizados para uso mais amplo devem estar livres de identificadores que permitam ligações a participantes individuais da pesquisa e variáveis que podem levar à divulgação dedutiva da identidade de sujeitos individuais.

Conhecimento tradicional

No que se refere aos conhecimentos locais e tradicionais, os direitos dos detentores de conhecimentos não devem ser comprometidos.

Dados de natureza sensível

Quando a liberação de dados pode causar danos, aspectos específicos dos dados podem precisar ser protegidos (por exemplo, localização de ninhos de aves ameaçadas de extinção e localização de santuários ecológicos - locais sagrados)

Propriedade intelectual / Propriedade dos dados

Poderá ser necessário, por vezes, atrasar a publicação por um curto período de tempo para permitir a elaboração do pedido.

Outros aspectos

Princípios As políticas de dados aderem a um conjunto de princípios gerais que articulam seu valor.

Âmbito / Cobertura da Política

Descreva o escopo dos dados cobertos pela política. Funções e

Responsabilidades

A política identifica as várias partes responsáveis pela gestão dos dados nas diferentes fases do ciclo de vida.

Acompanhamento e execução

Os meios pelos quais as políticas serão monitoradas ou aplicadas são descritos na política.

Fonte: Shearer (2015, p. 8).

De acordo com o Digital Curation Center (DCC), o checklist para planejar uma gestão de dados é composto por sete itens, conforme descrito no Quadro 6.

Quadro 6 – Checklist para a gestão de dados de pesquisa.

Coleção de dados Quais dados serão coletados ou criados? Como os dados serão coletados ou criados?

Documentação e

Metadados

Que padrões, documentação e metadados irão acompanhar os dados? Ética e Compliance

Legal

Como serão tratadas as questões éticas?

Como serão gerenciados os direitos autorais e direitos de propriedade intelectual (DPI)?

Armazenamento e

Backup

Como os dados serão armazenados e apoiados durante a pesquisa? Como o acesso e a segurança serão gerenciados?

Retenção e Preservação Que dados devem ser conservados e / ou preservados? Qual é o plano de preservação de longo prazo para os dados? Compartilhamento de

dados

Como os dados serão compartilhados?

São necessárias restrições na partilha de dados? Responsabilidades e

recursos

Quem será responsável pelo gerenciamento de dados?

Que recursos serão necessários para entregar o plano de gerenciamento de dados?

Fonte: Digital Curation Center (2017).

Esta tese tem como um de seus objetivos delinear diretrizes para uma política de gestão de dados científicos no Brasil. Em função disso, a revisão de literatura priorizou as iniciativas mais maduras em programas de e-science / cyberinfrastructure – a exemplo dos Estados Unidos e Reino Unido. Porém, algumas iniciativas consideradas relevantes em Portugal e Espanha também foram comentadas ao longo da revisão de literatura.

O Reino Unido lançou, em 2001, um programa pioneiro – e-Science Core Programme – que recebeu um aporte financeiro de £250 milhões com o objetivo de estimular a e-science em todos os campos de pesquisa. O programa tinha como objetivo:

prover a infraestrutura e facilidades necessárias para a pesquisa colaborativa, acelerar a emergência da próxima geração de padrões de plataforma aberta para serviços globais de informação, resolver os principais desafios em processamento, comunicação, e armazenamento de grandes volumes de dados (VAZ, 2011, p. 10, grifo nosso).

O e-Science Core Programme é um programa gerido pelo Conselho de Pesquisa em Ciências da Engenharia e Física, em nome das comunidades de todos os Conselhos de Pesquisa. O programa tem apoiado o desenvolvimento de tecnologias genéricas, como o software conhecido como middleware – necessário para permitir que diferentes recursos trabalhem de forma integrada por meio de redes, bem como criem grids computacionais.

Hey e Trefethen (2002) relatam que o objetivo do e-Science Core Programm é identificar os requisitos genéricos de middleware decorrentes dos projetos-piloto e-science, em colaboração com cientistas, cientistas da computação e da indústria. Para tanto, será

desenvolvido um grid middleware robusto e com força industrial que não só irá apoiar áreas de aplicação individuais, mas também ser de relevância para a indústria e comércio. De acordo com os autores, o programa foi estruturado em torno de seis elementos-chave:

1. Implementação de um banco de dados nacional e-Science Grid baseado em uma rede de Centros de e-Science.

2. Promoção do desenvolvimento de grid middleware genérico. 3. Projetos de Grid da Colaboração de Pesquisa Interdisciplinar (IRC). 4. Estabelecimento de uma estrutura de apoio para projetos-piloto e-Science. 5. Apoio ao envolvimento em atividades internacionais.

6. Suporte para requisitos de rede de e-Science.

Hey e Trefethen (2002) também alertam para o fato de que o sucesso para os projetos de e-Science não envolvem apenas questões técnicas de infraestrutura tecnológica tais como escalabilidade, confiabilidade, interoperabilidade, tolerância a falhas, gerenciamento de recursos, desempenho e segurança. É preciso atenção para questões inerentes às pessoas envolvidas nos projetos tais como a vontade de trabalhar de forma colaborativa, aceitando o compartilhamento de recursos e dados. A respeito do assunto, os autores argumentam que “para que a ciência faça o melhor uso de seus recursos limitados, a partilha desses dados científicos reunidos de forma dispendiosa é claramente de suma importância. No entanto, a motivação para qualquer cientista individual não é tão clara. Talvez as agências de financiamento precisem acrescentar algum incentivo para encorajar essa abordagem de compartilhamento de dados científicos”.

Em 2002, ano de publicação do artigo, Hey e Trefethen (2002) já alertavam para questões que não seriam resolvidas nos três anos iniciais do Core Programm. Dentre elas, os autores destacam a segurança e a coleta de dados científicos e a conservação a longo prazo dos dados científicos, juntamente com as suas anotações de metadados associadas.

De acordo com Shearer (2015, p. 9) o Reino Unido emitiu em 2011 um conjunto de princípios comuns sobre política de dados – “Common Principles on Data Policy”. Esse conjunto de princípios exige que os “dados sejam disponibilizados abertamente com o menor número possível de restrições”. A partir dessa publicação, foram implementadas várias políticas de acesso à dados de pesquisa, a exemplo do Wellcome Trust, que financia pesquisa biomédica. Porém, apesar de sofrerem variações em termos de detalhes, de uma forma geral estão alinhadas aos princípios comuns. Shearer (2015) argumenta que de acordo com uma visão geral publicada pela Universidade de Bath, as políticas de gestão de dados científicos geralmente cobrem os seguintes elementos: a) tipos de dados abrangidos pela política, b) expectativas de partilha de

dados, incluindo acesso e prazos, c) períodos mínimos de retenção de dados, d) utilização de metadados e normas de documentação, e) exceções justificadas à partilha de dados, f) custos associados à gestão de dados que podem ser pagos através de subvenções e, g) reconhecimento de criadores de dados.

Já no contexto dos Estados Unidos destacam-se os trabalhos vinculados às universidades de Purdue e de Washington. Além disso, percebe-se um interesse de grandes corporações, como a Microsoft pelo tema, destacando-se o fato de Tony Hey, atual vice-presidente da área de pesquisa da Microsoft, ter sido o diretor do e-Science Core Programme no Reino Unido. Hey e Trefethen (2002) relacionam os projetos que envolvem grid computacional nos EUA, conforme descrito no Quadro 7.

Quadro 7 - Projetos em Grid financiados nos Estados Unidos.

Projeto Agência de

Fomento

URL

IPG NASA http://www.nas.nasa.org/About/IPG/ipg.htm

Science Grid DOE http://www-itg.lbl.gov/Grid/

GrilPhyN Grid NSF http://www.griphyn.org/

PPDataGrid DOE http://www.ppdg.net/

NVO NSF http://www.srl.caltech.edu/nvo/

NESSGrid NSF http://www.nessgrid.org/html/np.html

Distributed Terascale Facility (TeraGrid)

NSF http://www.teragrid.org/

DISCOM (ASCI) DOE http://www.cs.sandia.gov/discom/

Earth Systems Grid DOE http://public.lanl.gov/radiant/research/grid.html

FusionGrid DOE http://www.fusoingrid.org/

BIRN NIH http://birn.ncrr.nuh.gov/

iVDGL NSF http://www.ivdgl.org/

GridCenter NSF http://www.grids-center.org

GrADS NSF http://nhse2.cs.rice.edu/grads/

Fonte: Hey e Trefethen (2002).

Os autores, em seu estudo, também identificaram projetos que envolvem grid computacional realizados na União Europeia, conforme descrito no Quadro 8.

Quadro 8 - Projetos em Grid financiados na União Europeia.

Projeto Agência de

Fomento URL

DataGrid (CERN) European Commission

http://www.datagrid.cnr.it, http://www.cern.ch/grid/

EuroGrid (Unicore) European Commission http://www.eurogrid.org/ Damien (Metacomputing) European Commission http://www.hlrs.de/organization/pds/projects/damien/

Projeto Agência de Fomento URL AVO (Virtual Observatory) European Commission http://www.astro-opticon.org/archives.html GRIP (Unicore/Globus) National Center for Research Resources http://www.unicore.org/links.htm GridLab European Commission http://www.gridlab.org CrossGrid European Commission http://www.crossgrid.org/crossgrid/crossgrid.html

Grid-Ireland http://www.cs.tcd.ie/coghlan/, http://www.cuc.ucc.ie/ Grid for remote

computing

http://sara.unile.it/grb/grb.html

Fonte: Hey e Trefethen (2002).