• Nenhum resultado encontrado

Fase 6: Depositando dados É a ocasião de preencher os formulários relevantes e

4.3.4 Modelo Data Lifecycle do DataONE

O Data Lifecycle Model foi desenvolvido pelo Data Observation Network for Earth (DataONE) no âmbito da University of Tennessee e outras instituições de pesquisa dos Estados Unidos e colaboradores em outros países como a Austrália, Canadá e Brasil. O DataONE é uma rede de observação de dados para a Terra que tem como fundamento a nova ciência ambiental inovadora. A estrutura é distribuída numa ciberinfraestrutura sustentável e atende as necessidades da ciência e da sociedade, em prol do acesso aberto, persistente, robusto e seguro dos dados científicos de observação da Terra(DATAONE, 2015).

O modelo é constituído por oito estágios que atende todo o ciclo de vida dos dados. Este modelo tem semelhanças com o modelo de ciclo de informação científica citado em capítulo anterior, que trabalha com 11 (onze) funções que se retroalimentam; entretanto, o modelo ora exposto apresenta diferenças, por tratar de forma descritiva e detalhada os dados de pesquisa primários, iniciando com o estágio de planejamento até o de análise.

Inicialmente, propõe-se uma descrição sucinta de cada estágio, a partir da visualização do Data Life Cycle Model na Figura 17.

Figura 17 – Modelo de ciclo de vida dos dados

Fonte: DataONE (2015).

Para que toda a cadeia do ciclo de vida dos dados ocorra de forma eficaz e dentro do planejado, o compartilhamento efetivo de dados requer uma cuidadosa reflexão durante cada estágio do processo de desenvolvimento de dados, incluindo:

- Descrição e documentação do processo, conteúdo e características dos dados; - Depósito e armazenamento dos dados em um local a partir do qual podem ser

acessados ou compartilhados, prevê ainda a preservação dos dados usando um formato e mídia que possibilitem o reuso em longo prazo;

- A descoberta dos dados é feita pela divulgação de informações sobre os dados em publicações de investigação, câmaras de compensação de dados e por portais de distribuição de dados (DATAONE, 2012).

O modelo de ciclo de vida do DataONE é chamado de Data Life Cycle Model, representado por oito estágios que constitui todo o processo de gerenciamento de dados de pesquisa. Para efeito desta pesquisa o modelo de comunicação científica foi adotado para ilustrar os estágios que são sistematizados em práticas científicas com dados na e-Science.

A Figura 18 representa este modelo como uma adaptação da ser adotada do original e aplicada aos dados científicos.

Figura 18 – Modelo de ciclo de vida dos dados

Fonte: Adaptado do modelo DataONE (2015).

a) Estágio Planejar (Plan) está relacionado com o plano de pesquisa que será desenvolvido pelo pesquisador que optou pela metodologia baseada no modelo Data Life

Cycle para o gerenciamento dos seus dados de pesquisa. Para Wiggins e outros (2013, p. 3),

“é um processo interativo do planejamento do projeto, durante o qual todos os aspectos do gerenciamento de dados são analisados e as decisões são tomadas para documentação e implementação em fases posteriores”. Todas as etapas e procedimentos metodológicos sobre o projeto de pesquisa devem ser pensados neste estágio.

b) Estágio Coletar (Collect) é direcionado ao processo de coleta dos dados primários, os procedimentos e processamentos em banco de dados, software, laboratórios ou repositórios. Geralmente, os dados primários são oriundos de pesquisa de campo (observacionais, experimentais, simulacionais, documentais) desenvolvida pelo pesquisador ou grupo de pesquisa. Para o estágio coletar deve-se “determinar a melhor maneira de obter informações dos participantes em um arquivo de dados utilizável. O resultado final deste processo de decisão é um modelo de dados que descreve a forma como os dados são estruturados” (WIGGINS et al.,2013, p. 3, tradução nossa). É um estágio que apoia toda a coleta e estruturação dos dados desde a sua origem para dar continuidade aos demais.

c) Estágio Assegurar (Assure) está relacionado com os procedimentos de garantia e qualidade desenvolvidos pelos pesquisadores que apoiam o processo de gerenciamento. Nesse estágio é necessário adotar “procedimentos e controle que melhoram a qualidade dos dados

(por exemplo, participantes do treinamento, calibração de instrumentos de rotina) e identificar os erros e as técnicas potenciais para abordá-las” (WIGGINS et al., 2013, p. 3, tradução nossa). É nesse estágio que a adoção de critérios e procedimentos que assegurem o gerenciamento com qualidade e a validação dos dados por longo tempo.

d) Estágio Descrever (Describe) contempla a adoção de um padrão de metadados que prover a descrição minuciosa dos dados de pesquisa. É uma fase que requer a adoção de padrões, protocolos e repositórios visando o processamento, armazenagem, curadoria, preservação e disponibilidade dos dados em curto e longo prazos. É considerado um dos estágios mais relevantes. A qualidade na descrição dos metadados e a adoção de padrões e protocolos irão contribuir no compartilhamento dos dados para futuro uso e reuso.

e) Estágio Preservar (Preserve) deve ser adotado o plano de preservação dos dados por curto e longo prazos. Deve-se analisar que perdas de dados são possíveis por diferentes motivos. A preservação dos dados em curto prazo tem a finalidade de estocar primariamente e preservar a coleta primária. A preservação de dados em longo prazo tem a finalidade de proporcionar a reutilização dos dados no futuro para outros pesquisadores, parceiros e instituições de pesquisa. A preservação de dados inclui “backups e arquivamento assim como processos, tais como: conversão, reformatação e salvamento de dados” (DATAONE, 2015,

on-line, tradução nossa). Esta infraestrutura está relacionada com as adoções de tecnologias e

procedimentos que apoiem a preservação ao longo prazo.

f) Estágio Descobrir (Discover) está relacionado com a identificação de outros

datasets e repositórios que podem complementar e agregar valor ao projeto de dados. A

importância dos dados e seus metadados estarem disponíveis para serem localizados e potencialmente capazes de serem usados são abordagens que devem ser adotadas neste estágio. Algumas estratégias e parcerias institucionais podem garantir que os dados tenham uma maior visibilidade à pesquisa e proporcionem o compartilhamento e a colaboração científica. A descoberta de dados tem duas faces: “a primeira é encontrar dados existentes para análise em conjunto com outras fontes de informação; o segundo é tornar as informações sobre os dados disponíveis para que outros possam descobrir e acessá-los” (WIGGINS et al., 2013, p. 11, tradução nossa). Este estágio proporciona a visibilidade do projeto e do seu potencial para uso mais amplo e benefício para a investigação científica, de apoio à decisão e desenvolvimento de políticas. O registro do projeto de dados em diretórios e outros repositórios abertos são alternativas que podem ser realizadas para aperfeiçoar o projeto de dados.

g) Estágio Integrar (Integrate) está relacionado com a integração do projeto de dados a outros recursos de dados que possam ser capazes de novas análises e investigações. O estágio

Integrate tem a finalidade de agregar o projeto de dados com dois propósitos: o primeiro é a

agregação interna dos diferentes dados ou conjunto de dados gerados na pesquisa científica em um mesmo ambiente; o segundo propósito é o projeto de dados ser integrado com outras fontes externas.

h) Estágio Analisar (Analyze) está relacionado com a análise do projeto de dados por pesquisadores, comunidade científica, parceiros e profissionais. Existem ferramentas e

software que suportam a exploração, análise e visualização. Este é o estágio em que os dados

são analisados e se relacionam com a comunidade científica. Todo o processo de pesquisa já está completo e o pesquisador pode fazer derivações dos seus dados através de publicações em jornais, repositórios, base de dados e câmaras de compensação de dados e portais de dados. Proporciona que os dados de pesquisa já possam ser utilizados por outros pesquisadores para uso e reuso.

O projeto DataONE orienta pesquisadores e profissionais envolvidos com o plano de gerenciamento de dados visando a adoção de melhores decisões e práticas. O DataONE define também que com a execução de todo o ciclo seja adotada a aplicação de oito identificadores que possuem atributos vinculados aos Planos de Integração de Dados (PIDs) e representam as suas características. Os atributos de exclusividade, autoridade, opacidade, imutabilidade, resolubilidade, granularidade, estrutura e serialidade são necessários para que os dados de pesquisa compartilhados na ambiência do DataONE atendam o princípio de uma ciência inovadora, robusta e persistente.

O modelo Data Lifecycle do DataONE foi utilizado como exemplificação para o gerenciamento dos dados científicos. Entende-se que os modelos de ciclo de vida dos dados, independente de sua composição, proporcionam uma sistemática metodológica, técnica e tecnológicas para o processo de tratamento, gerenciamento e curadoria a longo prazo. Critérios de conformidade internacional devem ser adotados com padrões, protocolos, modelo, procedimentos e tecnologias que favorecem a eficiência e eficácia do compartilhamento e colaboração científicas, com vistas ao acesso, uso e reuso futuros.

5 MODELAGEM TECNOLÓGICA PARA O GERENCIAMENTO DE DADOS