• Nenhum resultado encontrado

CATEGORIAS DA TESE

3 CIÊNCIA ABERTA E O QUARTO PARADIGMA CIENTÍFICO DA E-SCIENCE

3.3 PESQUISA ABERTA BASEADA NO QUARTO PARADIGMA CIENTÍFICO

3.3.2 Proveniência e Tipologia dos Dados de Pesquisa

A classificação de dados de pesquisa está relacionada à proveniência (origem) de diferentes contextos de pesquisas. Os estudos da NSF (2005), Borgman (2010) e Sayão e Sales (2015) afirmam que a proveniência dos dados é oriunda de três contextos de pesquisas: observacionais, computacionais ou experimentais.

Os dados observacionais são provenientes de observações diretas de pesquisas, associadas a lugares e tempo específicos. São dados coletados de pesquisas com recursos naturais, como exemplo a erupção de determinado vulcão (numa data específica), temperatura do oceano, amostras de solo, medições meteorológicas, que estão associadas a coleta em

vários lugares e tempos, como é o caso de estudos longitudinais e transversais. Envolve ainda pesquisas de comportamento eleitoral que também podem estar associadas a locais, dias e horários específicos.

A coleta observacional utiliza instrumentos diretos ou indiretos, mecânicos, manuais, computacionais e de campo. Possui natureza instantânea, pois o fenômeno observacional é efêmero, e por vezes, pode não ser repetido. Portanto, “guardam uma importância crítica que os qualificam como registros históricos” (SAYÃO, SALES, 2015, p. 2), que não permitem uma coleta secundária posterior e, portanto, devem ser submetidos a curadoria preliminar que inicialmente será a curto prazo, mas que durante os estágios do ciclo de vida são preservados a longo prazo.

O ciclo de vida deve contemplar “o processo de coleta de dados combinados com atividades pré-planejadas e decisões no campo” (WALLIS et al., 2008, p. 117) quando os dados de pesquisas são oriundos de fenômenos observacionais. O planejamento prévio para a coleta de dados observacionais colabora com a tomada de decisão e estratégias que podem ser demandadas de alterações inesperadas durante o fenômeno.

Os dados experimentais oriundos de experimentos primários, tal como nos fenômenos observacionais, nem sempre podem ser reproduzidos com a mesma precisão, em virtude das condições experimentais únicas. Os experimentos são provenientes de situações controladas em bancadas de laboratórios, como por exemplo, “medidas de uma reação química [...] e, nem sempre é possível reproduzir precisamente todas as condições experimentais, particularmente onde algumas variáveis experimentais não podem ser conhecidas e quando os custos de reprodução do experimento são proibitivos” (SAYÃO; SALES, 2015, p. 8).

As investigações experimentais são realizadas em laboratórios e no campo. Independentemente da área do conhecimento, os dados de pesquisa possuem uma essência muito específica. O ambiente e as condições em que foram gerados podem variar de acordo com o clima, a região, o país e as variáveis ambientais do contexto específico. Dependendo do campo específico “várias constatações são de particular importância para a coleta de dados. [...] A calibração é notoriamente difícil, à medida que as medições do sensor derivam, e os sensores experimentais são resistentes em condições de campo de maneiras imprevisíveis” (WALLIS et. al., 2008, p. 124).

Notadamente, as variações e condições ocorridas nos campos experimentais interferem diretamente na coleta e interpretação dos resultados. Dai a importância de um projeto experimental bem elaborado e pré-testes realizados, a exemplo dos testes de calibração, que auxiliam nas decisões e interpretação de dados coletados a priori. Ademais, os

dados e documentação para a reprodução do experimento devem ser mantidos, pois poderão ocorrer variações futuras de custos, reprodutibilidade experimental e condições ambientais que estão condicionadas a natureza desses dados.

Um conjunto diferente de considerações aplica-se aos dados computacionais. Estes são gerados pela interação homem-máquina, através de simulações, realidade virtual ou resultados provenientes de manipulações computacionais. Sayão e Sales (2015, p. 3) afirmam que os dados computacionais “são resultados da execução de modelos computacionais ou de simulações, seja, por exemplo, no domínio da física ou para a criação de ambientes virtuais culturais ou educacionais”. A utilização das ferramentas computacionais auxiliam os pesquisadores e a coleta dos recursos científicos são possíveis de ser realizados. A grande quantidade de dados de pesquisa são gerados e processados por meio de diversos recursos computacionais. Dessa forma, a replicação de modelos, simulações e ferramentas computacionais, agregadas a uma extensa documentação relacionada a entrada dos metadados em software e repositórios específicos fazem parte do processo de investigação.

Independente da tipologia dos dados, a origem está relacionada com a procedência e proveniência, caracterizando-os pela natureza, valor semântico e significado na prática de pesquisa. As interpretações, análises, validações e novas hipóteses quando se tratar de reuso e reprodutibilidade serão conduzidas por novas práticas científicas. A acessibilidade é outra característica associada ao universo dos dados que emergem de processos de pesquisa ou investigações científicas. A tipologia está relacionada à natureza, essência, espécie ou condição. A acessibilidade relaciona-se as condições de uso e restrições condicionadas ao acesso e controladas por licenças, direitos de propriedade intelectual e normas de conduta ética. O Quadro 3 apresenta uma sinopse das diferentes tipologias adotadas no contexto das práticas da e-Science.

Quadro 3 - Tipologias dos dados

TIPO DE DADOS DESCRIÇÃO DOS DADOS

Dado de Pesquisa

São unidades de informação criadas ou coletadas durante o processo de investigação científica. Geralmente são dados primários, que a partir de uma interpretação preliminar são agrupados como unidades informacionais, e frequentemente formatadas de maneira a torná-las adequadas à comunicação, re- interpretação e processamento legível por computador.

Dado Aberto

São dados de pesquisa disponíveis livremente para reuso e republicação sem restrições de copyright, patentes ou controle de propriedade intelectual. Devem ser disponíveis gratuitamente na internet, permitindo a qualquer usuário baixar, copiar, analisar, reprocessar, capturá-los via software, utilizá-los, reusar e reproduzir para qualquer finalidade, sem barreiras financeiras, legais ou técnicas adicionais. Dado Primário ou

Originário

São coletados em pesquisas científicas, opinião pública ou governamental. Geralmente, são oriundos de coletas observacional, experimental e computacional. Dado Derivado ou São originados a partir dos dados originais e podem ser relacionados com outros

Secundário objetos e documentos externos. Compartilhados por meio de links e hyperlinks. Dado Científico São produzidos no contexto da pesquisa científica, coletados, interpretados,

acessíveis em processos investigativos.

Dado Bruto É chamado de dado cru ou primário, coletado diretamente de instrumentos científicos ou da fonte sem nenhuma manipulação ou processamento prévio. Dado Derivado É o dado resultante do processamento ou combinação de dados brutos ou de outros

dados. Também chamado de dado secundário.

Dado Restrito É a restrição de acesso ao conteúdo do dado, como restrições quanto ao sigilo do conteúdo e período de embargo. Pode está associado aos direitos de propriedade intelectual vigentes ao copyright ou patente.

Dado Embargado

São dados que precisam obedecer um período de tempo razoável e específico para o compartilhamento e acesso. É o chamado período de tempo de embargo entre dois a cinco anos, após a coleta primária ou resultados submetidos para publicação sejam aceitos. Agências de fomento permitem os períodos de embargo por razões políticas, comerciais, direitos de propriedade intelectual vigentes, a exemplo de processos de patenteamento em andamento.

Fonte: Adaptado pela autora de Sayão e Sales (2015) e Dicionário de Preservação Digital (2015).

Os dados de pesquisa geralmente são originados em ambientes de pesquisa, e mais especificamente, em processos de investigação científica. Tais dados possuem intrínseca natureza generalista, pois são aplicados para diferentes propósitos e contextos. Assim, o termo ‘dados de pesquisa’ será balizado no sentido lato sensu no bojo da ciência aberta e das práticas científicas da e-Science.

No contexto científico os dados de pesquisa são conceituados como unidades de informação ou conjuntos de agrupados de dados, os quais são, condensados em fatos ou números específicos, coletados, examinados e considerados como base para o raciocínio, discussão ou cálculo. A European Commission (EC) define que “os dados incluem estatísticas, resultados de experimentos, medidas e observações resultantes do trabalho de campo, gravações de entrevistas e imagens” (EC, 2016, p. 3, tradução nossa).

A acessibilidade aos dados refere-se ao direito de acesso, uso e reuso. Geralmente estão condicionados aos direitos, termos e condições de acesso, contratos ou licenças públicas ou de concessão. Essa é uma questão que está diretamente ligada aos sistemas de propriedade intelectual vigentes e as práticas da e-Science. A importância de estabelecer políticas e diretrizes que norteiem as práticas científicas e normas acadêmico-científicas e institucionais é uma recomendação internacional (EC, 2016). Prever quais os tipos de dados serão acessados, as condições de acesso e suportes, além das questões legais para uso e restrições são fundamentais para que a acessibilidade e o compartilhamento se realizem.

Assim, o entendimento que os dados abertos são àqueles aptos ao acesso ilimitado (baixar, copiar, analisar, reprocessar, usar, reusar e reproduzir). Ademais o compartilhamento e reuso para os dados abertos requerem que estejam acessíveis, interoperáveis, legalizados, abertos, compartilhados e disponíveis para uso, reuso e reprodutibilidade. Entende-se que

dados abertos são aqueles “disponíveis livremente para reuso e republicação sem restrições de

copyright, patentes ou outros mecanismos de controle de propriedade intelectual” (SALES;

SAYÃO, 2015, p. 80).

Requer que sejam conduzidos por um rol de princípios políticos e éticos, geralmente regidos por instrumentos regulatórios, normativos e códigos de conduta que assegurem os aspectos de fidedignidade, sigilosidade, veracidade e anonimização. Portanto, para que os dados assumam o status de aberto, mesmo que produzidos em diversos contextos (científicos, governamentais, institucionais, privados e públicos) é condicionante que estejam acessíveis gratuitamente, com permissão legal ou licenciados para uso, cópia, download, visualização, análise, uso, reuso e na forma digital.

Independente dos aspectos relacionados à proveniência e ao acesso, os dados científicos também são classificados como primários (originários) e derivados (secundários). Dados primários são dados brutos, crus ou originários de pesquisas de campo, observacionais, experimentais e computacionais. Portanto, os “dados primários devem ser associados aos seus metadados e armazenados em um ou mais repositórios de dados externos. Esses dados compõem o arcabouço da infraestrutura científica da e-Science e alimentam os estágios do ciclo de vida” (TENOPIR et al., 2011, p. 1, tradução nossa). São os primeiros elementos coletados do campo de pesquisa. Essa é uma premissa importante nas práticas que são conduzidas no entendimento da e-Science. Pois, as práticas preconizam que dados primários sejam coletados e armazenados preliminarmente para que no futuro estejam disponíveis e acessíveis para uso e reuso.

Frequentemente, os dados primários são reusados em novos processos investigativos com novos objetivos e hipóteses distintas do processo de pesquisa original, mas que passaram por refinamentos, verificações e novas análises gerando resultados, versões e direcionamentos distintos. Comumente, os dados derivados são provenientes da forma bruta (original) que anteriormente foram constituídos por dados primários, documentos e métodos científicos e destinados às novas hipóteses, investigações ou continuidade da investigação original.

A partir de um novo processo de compartilhamento, preservação, reuso e outros procedimentos específicos adotados na investigação primária, novas interpretações, ressignificados e análises são geradas. Assim, a partir do processo de reuso dos dados primários emerge os dados derivados. Dessa forma, os dados derivados são caracterizados por transformações, ressignificações e reconduções científicas (NSF, 2005). Embora acredite-se que os dados primários sejam mais completos, os dados derivados podem ser utilizados por outros e trazer novas acepções para o domínio da pesquisa.

Para tornar os dados acessíveis e preservados “é necessário preservar a documentação adequada relativa ao conteúdo, estrutura, contexto e fonte (parâmetros experimentais e condições ambientais) da coleta de dados, chamados coletivamente de metadados” (NSF, 2005, p. 20, tradução nossa). A preservação deve ser garantida independente das formas, circunstâncias e contextos. A iniciativa de preservar e reutilizar os dados não é um empreendimento isolado. Requer que seja fomentada por instituições científicas, governamentais e de ensino. Nesse quadro, os canais formais de comunicação também merecem atenção já que podem divulgar dados de pesquisa utilizados como matéria-prima no processo científico (BORGMAN, 2015).

De acordo com os princípios e diretrizes estabelecidos no relatório da Organisation

for Economic Co-Operation and Development (OECD),

os dados científicos são registros factuais utilizados como fontes primárias da investigação científica, comumente aceitos na comunidade científica como necessários para validar resultados investigativos. Um conjunto de dados de pesquisa constitui uma representação sistemática e parcial do assunto que está sendo investigado (OECD, 2007, p. 13, tradução nossa).

Reside nessas afirmações que dados científicos resultam do processo investigativo que obedeceram os rigores científicos e metodológicos e são definidos como “dados digitais e a moeda do universo da coleta de dados, que, como moeda na esfera financeira, vem em formas diferentes. Estas diferenças incluem a natureza dos dados, a sua reprodutibilidade e o nível de processamento a que foram submetidos” (NSF, 2005, p. 19, tradução nossa).

Dessa forma os propósitos que constituem a infraestrutura do universo, estruturas internas, modelos, metodologias e políticas devem ser tratados de forma individualizada na instituição e no contexto que os proveram. Recentemente, Borgman (2015) apresenta uma visão atualizada para a infraestrutura dos dados de acordo com sua relevância. Defende que na infraestrutura da e-Science existem os grandes dados (big data), os poucos dados (little

data) e os dados que não possuem valor para a pesquisa (no data). O argumento do estudo

versa para o valor e relevância dos dados no contexto que estão inseridos. Os dados quando isolados de contextos específicos não possuem valor, significado e relevância.

Assim a relevância está atribuída ao valor e significado dos dados inseridos em uma “infraestrutura de conhecimento - uma ecologia de pessoas, práticas, tecnologias, instituições, objetos materiais, e relacionamentos” (BORGMAN, 2015, on-line, tradução nossa). As práticas dessa infraestrutura são baseadas no gerenciamento, compartilhamento, curadoria e preservação a longo prazo. O processo de gerenciamento de dados é realizado por meio de um

modelo metodológico eficiente e aplicável a diferentes tipos de dados e processos. Este modelo é chamado de ciclo de vida dos dados. Atualmente é aplicado no âmbito das instituições de ensino, pesquisa e governamental para a ciência orientada aos dados em alguns países, tais como, Estados Unidos, Reino Unido, Inglaterra e Holanda.

Ainda como parte do contexto da e-Science estão os objetos digitais. O termo ‘objeto digital’ é bastante utilizado quando se trata da preservação digital. Por vezes, eles são comparados com outros recursos, tais como: arquivo de computador, documento digital, artefato digital, recurso digital e material digital. O estudo de Yamaoka e Gauthier (2013, p. 82) afirmam que objeto digital “é a mídia de armazenamento, isto é, o suporte mais as cadeias de bits gravadas nele e o objeto digital é constituído de cadeias de bits mais todas as coisas necessárias para dar sentido a essas cadeias”. São representados em diferentes tipos e formatos sob a forma digital, constituindo-se de objeto de informação por possuir uma carga semântica. No estudo os autores propõem que os objetos digitais herdem as propriedades de três classes que Thibodeau (2005) definiu como: físico, lógico e conceitual (Quadro 4).

Quadro 4 – Classificação dos objetos digitais

OBJETO CLASSIFICAÇÃO

Objeto físico

É o objeto digital que simplesmente prescreve uma inscrição de sinais em uma mídia. O meio físico determina uma convenção para a gravação de dados com densidade e tamanho de blocos diferentes. A inscrição física é independente do significado e, portanto, deve ser lido pelo computador em linguagem natural. A linguagem natural permite que texto ou foto sejam representados e legíveis pelo computador.

Objeto lógico

É um objeto digital reconhecido e processado por software. No nível lógico, um software aplicativo reconhece o formato do objeto. Por exemplo, os tipos de dados padronizados pelos códigos American Standard Code for Information Interchange (ASCII) ou a formatação para o tipo de fonte, recuos e estilos.

Objeto conceitual

Como objeto conceitual, o objeto digital é reconhecido e entendido por uma pessoa e processado por codificações digitais. Por exemplo, um mesmo documento, gravado e reproduzido no processador de texto MS-Worde no Adobe Portable Document Format (pdf), podem manter o mesmo conteúdo, aparência e estrutura. O conteúdo e a estrutura de um objeto conceitual devem ser contidos na forma (objeto lógico) ou nos objetos (na forma digital).

Fonte: Baseado no estudo de Yamaoka e Gauthier (2013, p. 82).

Os tipos de objetos estabelecidos por Thibodeau (2005) e estudados pro Yamaoka e Gauthier (2013) apresentam variações de acordo com a natureza da pesquisa e tipologia dos dados. Dependem de variáveis como área de conhecimento e formato que geram o objeto digital. Por vezes, os objetos digitais estão relacionados em uma mesma ambiência computacional com funcionalidades distintas. Com base no entendimento acerca do objeto digital, para um melhor entendimento conceitual buscou-se aprofundar os termos: dados de pesquisa, dados abertos, dados científicos e dados científicos abertos.

O termo ‘dados de pesquisa’ como dito anteriormente se aplica a uma abordagem generalizada referindo-se ao contexto da ciência aberta. Quanto aos ‘dados abertos’ é proposto ao contexto em que o acesso é aberto, livre e gratuito. Não incide restrições para o acesso, uso, reuso e reprodutibilidade dos dados.

Acerca dos ‘dados científicos’ a compreensão está voltada para aqueles atribuídos e provenientes exclusivamente dos processos de pesquisa científica, validados por meio de um método científico e disponíveis para acesso, uso, reuso e reprodutibilidade. Devem ter valor semântico, científico e relevância agregados aos seus conteúdos. Podem ser representados por diferentes suportes e advindos de disciplinas e contextos variados.

Por fim, o capítulo teve o intuito de aprofundar o entendimento acerca dos dados de pesquisa no contexto de uma ciência aberta e de práticas científicas contemporâneas. Ademais, o compartilhamento, proveniência e tipologia no contexto da e-Science levou a compreender a distinção e a acessibilidade entre os dados de pesquisa. Assim, os dados científicos compõem o objeto de estudo e o status de acessibilidade (aberto, restrito e embargado) é contextualizado de acordo com a natureza da pesquisa. Muito embora almeja-se que dados científicos gerados em um ambiente de ciência aberta e baseado nas práticas da e-