• Nenhum resultado encontrado

Fase 6: Depositando dados É a ocasião de preencher os formulários relevantes e

4.3.2 Modelo de Ciclo de Vida da USGS

A United States Geological Survey (USGS) é uma organização científica federal dos Estados Unidos que estuda o ambiente, seus recursos e perigos naturais que ameaçam o país. A USGS tem quatro maiores disciplinas científicas relativas à Biologia, Geografia, Geologia e Hidrologia. Pertence ao United States Department of The Interior como uma agência científica única e exclusiva desse departamento. A USGS representa dados corporativos com valor potencial para além de algum uso imediato de pesquisa, e, portanto, esses precisam ser considerados e devidamente gerenciados durante todo o seu ciclo de vida.

Com a devida importância relacionada ao gerenciamento de dados científicos, foi constituída no âmbito da USGS uma equipe que desenvolveu Scientific Data LifeCycle Model (SDLM) com uma visão de alto nível dos dados, desde a sua concepção até a preservação e partilha, para ilustrar como as atividades de gerenciamento de dados referem-se aos fluxos de trabalho do projeto e para ajudar na compreensão das expectativas adequadas de gerenciamento de dados.

Em 2009, foi criada pela USGS a Community For Data Integration (CDI). A CDI representa uma comunidade dinâmica de práticas focadas no avanço de dados científicos e gerenciamento de informações e recursos transversais de integração dentro da USGS. Assim, a CDI através de parcerias e grupos de trabalhos desenvolveu ferramentas e práticas de gerenciamento de dados, infraestrutura cibernética, ferramentas colaborativas, debates e treinamentos para suporte de cientistas e especialistas tecnológicos.

Em 2010, a CDI estabeleceu o Data Management Working Group (DMWG) para desenvolver, ampliar e recomendar as melhores práticas e políticas para assistir a organização efetivamente na manipulação, documentação, preservação e promoção do acesso à agência de dados científicos. O subgrupo de trabalho investigou exclusivamente a existência de modelos de ciclo de vida de dados, que resultou na compilação de aproximadamente 50 (cinquenta) modelos advindos da academia, agências federais e organizações internacionais. Tais modelos diferenciavam largamente na granularidade, complexidade, apresentação e perspectiva da comunidade, bem como diferentes modelos de ciclo, por exemplo, circulares, espirais, lineares e hierárquicos.

O modelo consiste em um fluxo intuitivo (da esquerda para a direita) e um ponto de partida claramente definido que se alinha com o início do projeto de pesquisa. Atenção especial é dada à efetiva tomada de escolhas semânticas, com o firme propósito de prover comunicação clara dos componentes do modelo. O desenho final do modelo foi revisado e aceito em novembro de 2012 pelos patrocinadores executivos do CDI. A finalidade primordial com a aplicação desse modelo às atividades de pesquisa era de que cientistas da

USGS pudessem garantir que os produtos de dados fossem bem descritos, preservados, acessíveis e aptos para reutilização. Aprofundamentos e estudos contínuos se realizaram até a definição em 2011 de um modelo gráfico linear, conforme demonstrado na Figura 14.

Figura 14 - Modelo de ciclo de vida dos dados de pesquisa da USGS

Fonte: Traduzido do Modelo USGS (2015).

Este modelo define também os diferentes papéis e responsabilidades para serem realizados pelo pesquisador e curador dos dados de pesquisa, que inclui dados e atividades de gestão que exigem conhecimento e habilidades especializados, bem como a educação permanente sobre os métodos e padrões. A Figura 15 apresenta os estágios do Data

Management Roles and Responsibilities in Research Project into USGS Science Data Lifecycle Model.

Figura 15 – Papeis e responsabilidades do Modelo USGS

Fonte: Traduzido do Modelo USGS (2015).

Os pesquisadores ou grupo de pesquisa são responsáveis pelo planejamento, preservação e publicação/compartilhamento. Os curadores dos dados são responsáveis pelos estágios de coleta, processo, análise e, em conjunto com o pesquisador, realizam a publicação e o compartilhamento. Os elementos primários do modelo que compõem o Data Life Cycle da USGS são:

a) Planejar (Plan): é o primeiro elemento do ciclo que se destina a ajudar os cientistas em planejar e considerar todas as atividades relacionadas ao manejo de ativos de

dados do projeto, da concepção do projeto ao arquivamento. Durante este estágio, todos os elementos do modelo devem ser avaliados, tratados e documentados. A equipe do projeto deve considerar abordagens, recursos necessários (incluindo financiamento e pessoal) e saídas previstas para cada etapa do ciclo de vida dos dados. Um plano de gestão de dados é o resultado almejado neste estágio.

b) Adquirir (Acquire) ou Coletar (Collect): é o segundo elemento do ciclo que representam as atividades através das quais dados novos ou já existentes são coletados, gerados ou considerados e evoluem para reuso. Este é um estágio importante que requer dos pesquisadores, habilidades e técnicas de pesquisa para a coleta de dados, considerando as questões éticas e metodológicas, a fim de manter a qualidade, proveniência e integridade destes.

c) Processar (Process): o terceiro elemento do modelo que representa as várias atividades associadas. É o processamento de entrada de dados que pode implicar a definição de elementos de dados, integração de conjuntos de dados díspares, extração, transformação e carga de operações, e aplicação de calibrações para preparar os dados para análise. Este estágio lembra aos pesquisadores que padrões e ferramentas deverão ser adotados de acordo com os requisitos do projeto e, ao mesmo tempo, construam uma base de dados para a ciência integrada. As saídas deste elemento são conjuntos de dados (datasets) que deverão estar prontos para a interoperabilidade e análise.

d) Analisar (Analyze): é o quarto elemento que representa as atividades relacionadas com a exploração e interpretação do processamento de dados, quando as hipóteses são testadas, as descobertas são feitas e as conclusões são desenhadas. As atividades analíticas nesse estágio do processo incluem sumarização, desenhos, análises estatísticas e espaciais, modelos que são usados para produzir informações e resultados científicos. Nesse elemento, novos dados são gerados, versões são rastreadas e processos são documentados. O gerenciamento de dados durante a análise aprimora a eficiência das atividades, preserva a documentação que é crítica para a integridade científica e cria uma base para futuras pesquisas. A saída de dados são interpretações ou novos datasets que, muitas vezes, são publicados em relatórios escritos e outros formatos.

e) Preservar (Preserve): é o quinto elemento do modelo. Representa as atividades associadas ao armazenamento de dados para o uso e acessibilidade por longo prazo. Preservação muitas vezes não é considerada até o final da etapa de um projeto. Nesse estágio a publicação e o compartilhamento reforça o compromisso de que cientistas financiados pelo governo federal devem planejar a preservação de dados, metadados, produtos auxiliares,

formatos de armazenamento de aplicativos neutros e toda a documentação adicional a longo prazo, garantindo a disponibilidade e reutilização futura.

f) Publicar (Publish) e Compartilhar (Share): é o sexto elemento no modelo que envolvem os sistemas de coletas (Harvesting) e os conceitos de publicação peer-reviewed tradicional que se encontram distribuídos por meio de sites, catálogos de dados, mídias sociais e outros locais. A publicação e disseminação de dados são componentes críticos que devem receber especial atenção. Em suma esse elemento lembra aos cientistas que tanto os dados como as publicações tradicionais são produtos de pesquisas.

Além dos elementos principais, o modelo propõe elementos transversais chamados de

Cross-Cutting Elements. A execução ocorre simultaneamente com a execução dos estágios

(processo e análise):

a.1) Descrever (Describe): este estágio é o primeiro elemento transversal entre os

elementos principais (Process e Analyze). É o estágio que se descreve os metadados e a documentação baseados em padrões de metadados, tais como código de software, modelos de dados e fluxos de trabalhos. A descrição inicia no plano de gerenciamento dos dados e no detalhamento da documentação em todas as fases. O fluxo descritivo de trabalho facilita a indexação, adesão aos padrões e procedimentos, compreensão de cada fase e uso futuro dos dados. Registrar as informações em cada estágio do ciclo garante a precisão e compreensão dos dados científicos criados, compilados, processados e compartilhados. A finalidade é que outros cientistas possam validar os resultados através da replicação, resultados ou reuso dos dados.

a.2) Gerenciar a qualidade (Manage Quality): gerenciar a qualidade é o segundo

elemento transversal. Os pesquisadores devem adotar as medidas de garantia de qualidade para os dados no início do projeto e, em seguida, realizar o controle de qualidade durante o ciclo. O monitoramento e ajuste devem ser realizados durante todo o ciclo para que haja alta qualidade nos produtos da ciência. Este elemento alinha com as políticas mandatórias das agências de financiamento que propõe a realização de produtos científicos de alta qualidade.

a.3) Cópia & Segurança (Backup e Secure): guardar em segurança é o terceiro

elemento transversal. Envolve o gerenciamento físico dos riscos do ciclo de vida dos dados ao mesmo tempo que garante a acessibilidade dos mesmos. Este elemento informa aos cientistas que as rotinas de cópias de segurança são críticas para prevenção de dados, devido a falhas nos hadware e software, desastres naturais ou erros humanos. Para a USGS os “dados representam ativos corporativos com valor potencial para além de qualquer uso em

investigação imediata e, portanto, precisam ser considerados e devidamente gerenciados durante todo o seu ciclo de vida” (USGS, 2015, on-line, tradução nossa).

Há medidas preventivas para evitar perdas, com a cópia do plano de gerenciamento de dados, estratégia de aquisição de dados, processamento de procedimentos, versionamento3, métodos de análises, principalmente quando o trabalho dos cientistas dos projetos tem múltiplas instalações ou comodidades (USGS, 2015). Observa-se que, na maioria dos estágios, o pesquisador possui papeis e responsabilidades que asseguram a validade e especificidade dos dados que são atributos inerentes do pesquisador.

Por fim, o modelo também serve como uma estrutura para ajudar a organização, avaliar e melhorar as políticas e práticas para o gerenciamento de dados científicos e identificar as áreas que necessitam desenvolver novos instrumentos e padrões. Por apresentar uma completude em seu arcabouço conceitual, este modelo será inspirador para a construção do modelo conceitual proposto no que tange aos aspectos autorais.