2.4 Dados de Pesquisa
2.4.2 Modelos de ciclo de vida dos dados de pesquisa
As subseções 2.4.2.1 a 2.4.2.3 abordam alguns modelos de ciclo de vida de dados de pesquisa, especificamente os modelos formulados pela DataONE (2013), pelo USGS (2013) e pelo ICPSR (2012).
2.4.2.1 Modelo de ciclo de vida de dados de pesquisa – formulado pela DataONE (2013)
De acordo com a Data Observation Network for Earth (DataONE) (2013), a pesquisa científica realizada com base na participação pública, conhecida por “ciência cidadã”, requer a prática da gestão dos dados, para que esses sejam obtidos sem restrições, estejam disponíveis em modo legível e efetivamente passíveis de ser reutilizados em outros estudos. A Figura 7 apresenta o ciclo de vida dos dados de pesquisa, cujas etapas são as seguintes: planejar; coletar; assegurar a qualidade; descrever; preservar; descobrir; integrar e analisar.
Figura 7 – Modelo de ciclo de vida de dados de pesquisa formulado pela DataONE.
Fonte: Traduzido e adaptado de DataONE (2013, p. 2).
Planejar – levantamento dos processos e recursos que serão utilizados ao longo do ciclo de vida dos dados de pesquisa. É uma atividade que se inicia com a definição dos objetivos do projeto de pesquisa e prossegue na elaboração do plano de gestão dos dados, criação de políticas de dados e de projetos de sustentabilidade desses dados. Destacam-se como melhores práticas: distribuir as responsabilidades em relação à gestão dos dados; informar os custos no plano de gestão desses dados; e estabelecer como serão os resultados de dados que se pretende obter.
Coletar – estabelece como os dados serão coletados, se por meio da observação humana, da captura de sensores ou pela utilização de quaisquer outros instrumentos. Define, também, um modelo de dados que prescreve como os resultados dos dados serão registrados e organizados.
Assegurar a qualidade – preza pela adoção das melhores práticas tanto no momento da coleta dos dados, quanto posteriormente. O controle da qualidade avalia os dados coletados, identificando erros e corrigindo-os.
Descrever – metadados (informações sobre os dados) utilizados para descrever os dados, com a finalidade de facilitar sua recuperação em softwares e, por conseguinte, promover o compartilhamento e o reuso dos dados. Nessa descrição, algumas perguntas devem ser respondidas, como quem coletou os dados, o porquê, onde e como foi a
coleta. Recomenda-se a realização das seguintes práticas: adotar padrões para os metadados; documentar todas as etapas do processamento dos dados; e realizar seu armazenamento adequado.
Preservar – ocorre continuamente e consiste em planos de preservação em curto e longo prazo. O curto prazo refere-se à realização de backups manuais ou automáticos dos dados. O backup é uma cópia de segurança de arquivos originais, muitas vezes utilizada na reparação de arquivos corrompidos, perdidos ou, até mesmo, destruídos. Por sua vez, os planos de preservação dos dados em longo prazo preocupam-se em manter os dados de pesquisa recuperáveis para o atendimento de necessidades futuras. Destacam- se como as melhores práticas: garantir acessibilidade aos dados de backups; elaborar a política de backup de dados; definir quais dados serão preservados; e identificar repositórios que atendam aos requisitos de segurança dos dados.
Descobrir – além de tornar os dados visíveis e acessíveis a outros pesquisadores, também inclui o conjunto de ações que agrega valor aos dados de um projeto, com a finalidade de atingir alto impacto dos dados. Por isso, algumas medidas são tomadas, como o depósito desses dados em repositórios abertos, a identificação de dados complementares ao projeto e a disseminação de metadados.
Integrar – cria relações entre os dados do projeto de ciência cidadã, com dados de diversas fontes, possibilitando, assim, novas análises e o desenvolvimento de outras pesquisas. Ressalta-se, porém, que é preciso promover o sucesso da integração dos dados sobretudo por meio da adoção de boas práticas de gestão desses dados, ao longo de seu ciclo de vida.
Analisar – os dados utilizados no projeto de pesquisa são analisados à luz de contribuições de pesquisadores, dos próprios participantes da pesquisa e de outros interessados. Nessa etapa, diversos softwares são usados para auxiliar no processo analítico dos dados.
2.4.2.2 Modelo de ciclo de vida de dados de pesquisa – formulado pelo USGS (2013)
Segundo relatório do United States Geological Survey (USGS), elaborado em 2013, a gestão de dados é fundamental para o planejamento de recursos, procedimentos e técnicas exigidas por um projeto de pesquisa. Um modelo de ciclo de vida de dados apresenta uma visão geral das ações que devem ser executadas, constituindo uma ferramenta visual capaz de auxiliar
os cientistas a planejarem suas condutas em diferentes estágios. Desse modo, o USGS desenvolveu um modelo que facilita a compreensão dos estágios necessários para documentar, preservar e disponibilizar os valiosos recursos de dados de pesquisa. A Figura 8 mostra o modelo proposto pelo USGS.
Figura 8 – Modelo de ciclo de vida de dados de pesquisa formulado pelo USGS.
Fonte: Traduzido e adaptado de USGS (2013, p. 2).
Os elementos primários que constituem o modelo de ciclo de vida de dados científicos do USGS (2013, p. 2) são os seguintes estágios:
Planejar – elemento direcionado ao auxílio de cientistas para que todas as atividades necessárias à gestão de dados sejam asseguradas, desde o início do projeto de pesquisa até sua publicação e arquivamento. Assim, devem-se discutir as abordagens a serem adotadas, os recursos necessários (inclusive os financeiros e humanos) e os resultados almejados em cada etapa do ciclo de vida dos dados. Logo, recomenda-se, neste momento, a elaboração de um plano de gestão de dados.
Adquirir – elemento que representa os procedimentos por meio dos quais os dados são coletados, produzidos e avaliados para reutilização. Vários são os tipos de dados inerentes ao contexto do USGS, como: mapas históricos, resultados de sensores de movimento sismológicos, registros biológicos e de satélites. Os cientistas apresentam habilidades em técnicas de aquisição de dados, e, no contexto do USGS, ressalta-se a importância de políticas e práticas que considerem a origem e a integridade dos dados. Portanto, esse elemento trata das entradas de dados do projeto.
Processar – elemento que representa diversos procedimentos relacionados à preparação de entradas de dados, incluindo atividades como: integração de conjuntos de dados diferentes entre si; atividades de extração, transformação e carregamento de arquivos com o intuito de preparar um conjunto de dados para integração científica e análise.
Analisar – elemento que representa procedimentos voltados à interpretação de dados processados, aos testes de hipóteses, no qual são tiradas conclusões. Inclui práticas,
como elaboração de resumos, gráficos, análise estatística e espacial. Portanto, como resultado deste elemento, têm-se interpretações ou novos conjuntos de dados geralmente publicados em relatórios.
Preservar – elemento que representa os procedimentos relacionados ao armazenamento de dados para sua utilização, em longo prazo, e acessibilidade. Todavia, observa-se que muitas vezes a preservação dos dados de pesquisa não ocorre até o fim de determinado
projeto. Ademais, a apresentação desse elemento antes do elemento
Publicar/Compartilhar ocorre de maneira intencional, para lembrar que pesquisadores que executam suas pesquisas a partir de financiamento federal devem considerar a preservação, em longo prazo, não somente de dados, mas também de metadados e de qualquer outro tipo de documentação complementar, com vistas à disponibilidade e ao reuso.
Publicar/Compartilhar – elemento que combina o conceito tradicional da publicação revisada por pares com a disseminação de dados por meio de páginas na Internet, mídias sociais, entre outros canais. Logo, tal elemento reitera aos pesquisadores que os dados e as publicações tradicionais são resultantes da realização da pesquisa.
Os elementos de corte transversal que constituem o modelo de ciclo de vida de dados científicos do USGS (2013, p. 2) são as seguintes atividades:
Descrever (metadados, documentação) – elemento transversal que ressalta a importância de documentar, de maneira detalhada, o que ocorre em cada estágio do ciclo de vida dos dados. Tal documentação deve ser suficiente para que outros pesquisadores possam replicar e validar os resultados obtidos na pesquisa e definir a utilidade dos dados para pesquisas futuras. Portanto, metadados, documentação, modelos de dados e fluxogramas favorecem a indexação, o entendimento, o uso futuro dos dados, e, por conseguinte, auxiliam na identificação e correção de erros.
Gerenciar a qualidade – elemento transversal que ressalta a importância de os pesquisadores planejarem soluções que assegurem a qualidade dos dados não somente no início do projeto de pesquisa, mas também nas etapas subsequentes do ciclo de vida dos dados. Em síntese, a gestão da qualidade verifica se todos os procedimentos em relação aos dados encontram-se em consonância com o planejamento inicialmente proposto.
Backup e segurança – elemento que assegura a acessibilidade aos dados, na medida em
a importância da realização de backups de rotina dos dados pelos pesquisadores, com a finalidade de evitar perda de dados em razão de problemas técnicos no hardware ou software, catástrofes naturais ou falhas humanas. Logo, recomenda-se a adoção de medidas preventivas sobre os dados de pesquisa processados.
2.4.2.3 Modelo de ciclo de vida de dados de pesquisa – formulado pelo ICPSR (2012)
O Consórcio Interuniversitário para Pesquisa Política e Social (ICPSR) foi fundado em 1962 e, atualmente, destaca-se em treinamentos voltados ao acesso, à curadoria e a práticas de análise de dados para a comunidade de pesquisa das ciências sociais. Além disso, o ICPSR reconhece a importância de materiais culturalmente significativos serem recuperados, mesmo com o passar do tempo. Nesse sentido, tem-se observado que diversas instituições científicas possuem políticas que ressaltam a necessidade do arquivamento de dados, e algumas agências de fomento à pesquisa começaram a requerer o depósito dos dados em arquivos públicos (ICPSR, 2012).
Elaborado pelo ICPSR (2012), o Guia de preparação e arquivamento de dados de
Ciências Sociais destina-se àqueles que integram o ciclo de pesquisa, desde o momento em que
o pesquisador se candidata a uma bolsa de pesquisa até o arquivamento dos dados produzidos. No guia, também é apresentado um modelo de ciclo de vida de dados (Figura 9) que aborda, principalmente, questões relacionadas ao arquivamento de dados.
Figura 9 – Modelo de ciclo de vida de dados de pesquisa formulado pelo ICPSR.
Fonte: Traduzido e adaptado de ICPSR (2012, p. 8).
Conforme a Figura 9, é possível observar a ocorrência de seis fases durante o ciclo de vida dos dados de pesquisa (ICPSR, 2012):
1. Desenvolvimento da proposta e planos de gestão de dados – ainda nos estágios iniciais da proposta de pesquisa, os pesquisadores devem enfatizar os planos de gestão e compartilhamento de dados. Reitera-se que tais planos são cada vez mais requisitados pelas agências que financiam a realização de pesquisas. Além disso, o planejamento
realizado com antecedência possibilita ao pesquisador simplificar a execução de processos e evitar problemas advindos de fases posteriores, como a do depósito de dados.
2. Início do projeto – com o financiamento recebido, o projeto de pesquisa tem início e o pesquisador continua a planejar outros aspectos relacionados aos dados, como a forma final da coleção e os metadados que, posteriormente, serão arquivados. Refletir sobre tais aspectos é imprescindível para o sucesso do projeto e também para a redução significativa de custos. Dessa forma, algumas questões devem ser consideradas em relação à estrutura de dados e a sua organização, à nomeação dos arquivos, à captura e integridade de dados, aos padrões de documentação e de metadados que serão adotados, entre outras.
3. Coleção de dados e criação de arquivos – trata das melhores práticas relacionadas à criação ou obtenção de dados de pesquisa quantitativos e qualitativos, encontrados em diferentes formatos. Ressalta-se, ainda, que, para cada tipo de dado, são necessários procedimentos específicos e que esta fase também abrange a adoção de boas práticas para a criação de metadados.
4. Análise dos dados - fase que trata de questões fundamentais relacionadas à análise realizada pela equipe do projeto ao trabalhar ativamente com arquivos de dados. A partir da análise, alterações sobre os dados são feitas, como acréscimos e exclusões. Destaca- se que, comumente, membros da equipe criam várias versões do conjunto de dados, antes da versão final dos dados para arquivamento. Logo, recomenda-se que o arquivo principal de dados (arquivo-mestre) seja armazenado em uma rede única e que apenas um ou dois membros da equipe sejam responsáveis por alterar o conjunto de dados. Esse, por sua vez, constituirá a base para todas as análises a serem realizadas e, posteriormente, será arquivado.
5. Preparação dos dados para compartilhamento – fase na qual os pesquisadores realizam os procedimentos necessários para o compartilhamento dos dados, atentando-se, principalmente, à forma pela qual eles serão acessados. Também são abordados aspectos relacionados à confidencialidade dos respondentes e, por conseguinte, à responsabilidade assumida por pesquisadores em preservar dados do entrevistado.
6. Depósito dos dados – deve ocorrer em consonância com vários critérios, como o atendimento aos padrões do modelo de referência Open Archival Information System
(OAIS). Ressalta-se, também, a preocupação de pesquisadores em relação à preservação digital dos dados, que, além de serem arquivados, devem ser legíveis em outros softwares.