DADOS DE PESQUISA
2.3 Dados: explorando definições dos elementos em forma bruta
Há na literatura científica diversas definições para dados. Não pretendemos esgotar todas as definições existentes, mas sim traçar uma dinâmica de apresentação para alguns desses conceitos presentes na literatura científica, tendo em vista que o conhecimento sobre o assunto é vasto e inesgotável, aliás, trata-se de tema bem debatido e enseja profundas discussões na área de Biblioteconomia e Ciência da Informação, apesar de não ser este o foco desta pesquisa.
Inicialmente, Zins (2007) empreendeu um estudo crítico Delphi sobre mapas de conhecimento voltado para a área de Ciência da Informação, e, em um de seus artigos apresenta uma série de concepções a respeito das definições para ‘dados’, ‘informação’, ‘conhecimento’ e ‘mensagem’, resultando em cerca de 130 definições desses conceitos, demonstrando quão difícil é delinear qualquer descrição ou elucidação sobre estes termos, especialmente sobre o que são ‘dados’. Para o autor, “Dados são frequentemente concebidos como matéria-prima para a informação, que é frequentemente concebida como matéria-prima para o conhecimento. Conhecimento é a construção de ordem superior.” (ZINS, 2011, p. 155). Em semelhante perspectiva, os “[...] dados são sinais que não foram processados, correlacionados, integrados, avaliados ou interpretados de qualquer forma, e, por sua vez, representam a matéria-prima a ser utilizada na produção de informações.” (RUSSO, 2010, p. 15).
Para Nielsen e Hjørland (2014), a palavra ‘Dado’ é bastante usada na Ciência da Informação, a exemplo de ‘banco de dados’, ‘bases de dados’, ‘mineração de dados’ etc. Além disso, pode ainda estar ligada à ciência dos dados e processamento de dados, ou ainda, pode aparecer apresentada na hierarquia ‘dado-informação- conhecimento’, nesse contexto, inserida como matéria-prima a ser processada, gerando informação para a aquisição do conhecimento.
Miranda (1999) considera que os dados são um conjunto de registros qualitativos ou quantitativos e se for organizado, agrupado, categorizado e padronizado adequadamente transforma-se em informação. Na ótica de Setzer (1999, não paginado) dado é
[...] uma sequência de símbolos quantificados ou quantificáveis. [...] um texto é um dado. [...] as letras são símbolos quantificados, já que o alfabeto por si só constitui uma base numérica. Também são dados imagens, sons e animação, pois todos podem ser quantificados [...].
O autor alerta que mesmo que os dados sejam ininteligíveis para o leitor, qualquer texto ainda se constitui em um dado ou uma sequência de dados. Dando seguimento a esta linha de pensamento, Padoveze (2000, p. 43) explicita que a “informação é o dado que foi processado e armazenado de forma compreensível para seu receptor e que apresenta valor real percebido para suas decisões correntes ou prospectivas”. Sob esse prisma, consideramos que é através da aplicação do conhecimento humano, do processamento dos dados até à sua contextualização dentro de um determinado cenário é que possibilitará a transformação desses dados em informação, e por sua vez, agregará valor e poderá ser utilizada por empresas e pessoas em processos decisórios/tomadas de decisão.
Na perspectiva de Davenport (1998), os dados são elementos brutos, sem significado, desvinculados da realidade e que correspondem a observações sobre o
mundo. Para ele, há uma relação intrínseca entre o dado e a informação: os dados
são observações simples sobre o mundo, podem ser facilmente estruturados, quantificados e transferíveis. Portanto, para o autor, o conjunto de dados dotados de propósito e relevância que necessitam de análise e mediação para obter significado é considerado como informação. Não há produção de informação sem dados, logo, isso reflete em sua quantidade e a necessidade de ser tratada. Na esteira desse pensamento, esclarecemos que os dados são elementos em forma bruta, e, significa que foram coletados, mas ainda precisam passar por análise e processamento.
Corroborando essa visão, Oliveira (2002, p. 51) afirma que “[...] dado é qualquer elemento identificado em sua forma bruta que, por si só, não conduz a uma compreensão de determinado fato ou situação”. Nesse sentido, o autor esclarece que os dados sozinhos não levam a compreensão porque estes estão fora de um contexto, sem a devida explicação ou um resumo sobre o que se trata, algo que os torne compreensíveis e interpretáveis, portanto, de fato, não fará sentido para aqueles que tentaram interpretá-los. Por exemplo: uma planilha com muitos valores diferentes, em que não constam as informações complementares da origem desses números e sem qualquer explanação para entender o que eles significam. Portanto, além de os dados serem contextualizados, Brookes (1980) reforça que o seu uso e o processamento se transformam em informação, elemento principal para promover as devidas transformações nas estruturas subjetivas e objetivas de um indivíduo.
Nessa linha de pensamento, comparamos esta situação à ideia da transformação da “informação” em coisa conforme Buckland (1991), assim representada em um determinado suporte informacional, e ainda, da teoria da informação como um processo, referente à ação de informar ou comunicar algo. O autor também apresenta em seus estudos a informação como algo capaz de propiciar a construção de conhecimento, reduzindo as incertezas, e, nesse aspecto, estas teorias da informação de Buckland se enquadram bem ao panorama dos dados.
Afinal, é a partir desse processamento que os dados se transformam em informação e instrumentos para tomadas de decisão em diferentes níveis sociais, tornando-se inclusive em objetos de estudo nas pesquisas científicas; ou a depender do contexto e tipologia, podem se converter em produtos e serviços para os
prosumers, termo cunhado originalmente por Toffler (1995) e que define um novo perfil
de interação da sociedade de consumo, um neologismo para descrever o usuário que é produtor e também consumidor. O termo ‘prosumers’ (prossumidores) foi traduzido por Armando Malheiro da Silva (2009, p. 98), é envidado na perspectiva do paradigma pós-custodial e baseado na mediação informacional cumulativa, o qual propala que:
À medida que se inovam e expandem mais as possibilidades tecnológicas (novas soluções e produtos) o papel do “prossumidor” (produtor e usuário) cresce enormemente, desenvolvendo um tipo de mediação cumulativa que pode abranger a de designer e de programador, e que produz efeitos e é condicionada através da activa participação em comunidades que agregam interagentes idênticos ou parecidos. (SILVA, 2009, p. 98, grifo nosso).
Sendo assim, o paradigma pós-custodial, informacional e científico de Silva (2009, 2011) apregoa a necessidade de uma mudança de postura epistemológica com foco nas abordagens instrumentais, práticas, normativas e descritivas dos documentos-artefatos, assim como na Open Science se exige uma mudança de postura tanto comportamental, cultural, como no uso de tecnologias que facilitem a colaboração e o compartilhamento de dados entre os pares e aos demais interessados da sociedade. Para o autor, trata-se de um dos desafios da era da informação em que a internet assume a função de ferramenta de construção de projetos desenvolvidos a partir de diferentes dimensões. Silva (2009, 2011) reforça que a Ciência da Informação brota deste novo paradigma emergente, repleto de fragilidades e potencialidades, em sintonia com as Ciências Sociais.
Retomando a discussão sobre dados, de acordo com a Organização das Nações Unidas (ONU), “Dados são a alma da tomada de decisões e a matéria-prima
para a prestação de contas. É quase impossível a concepção, o acompanhamento e a avaliação de políticas eficazes sem dados de alta qualidade que fornecem as informações corretas sobre as coisas certas no momento certo”. (UNITED NATIONS ORGANIZATION, 2014, p. 2, tradução nossa).
Dados abertos, de acordo com a Open Knowledge International Foundation (2017), podem ser usados livremente, reutilizados e redistribuídos por qualquer pessoa (física ou jurídica), exigindo, no máximo, a atribuição da fonte e o compartilhamento pelas mesmas regras. Em suma, os pontos mais importantes que devem ser levados em conta são a disponibilidade e acesso; reutilização e redistribuição; participação e a interoperabilidade dos dados.
Dados abertos conectados (Linked Open Data) emergem como um novo conceito, permitindo que os dados fiquem disponíveis em formatos legíveis por máquina, possibilitando a conexão com fontes diferentes, além de seguir padrões de representação e assim como dotá-los de elementos semânticos e requisitos básicos de qualidade, como o estabelecimento de vocabulários controlados, ontologias, entre outros recursos de descrição e representação, isto é, a partir de um dado é possível acessar outros dados e informações relacionadas a um dado específico. (ÁVILA, 2015; BAUER; KALTENBÖCH, 2012; BERNERS-LEE, 2006; ISOTANI; BITTENCOURT, 2015; WORLD WIDE WEB CONSORTIUM, 2017).
Auer, Bryl e Tramp (2014, p. 6), apresentam algumas características de justaposição dos conceitos atribuídos a Dados Conectados (Linked Data), Linked
Open Data (Dados Abertos Conectados) e Open Data (Dados Abertos) baseados em
sua representação e grau de abertura, conforme o Quadro 2 abaixo:
Quadro 2 - Justaposição dos conceitos de Linked Data (Dados conectados), Linked Open Data (Dados abertos conectados) e Open Data (Dados abertos)
Representação e Grau de Abertura Possivelmente fechado Aberto
Modelo de dados estruturados (Exemplo:
XML, CSV, SQL etc.) Dados Dados Abertos
Modelo de dados RDF (Publicado como
Dados conectados) Dados Conectados Dados Abertos Conectados
Fonte: Adaptado de Auer; Bryl; Tramp, 2014, p. 6.
Nesse sentido, para Marcondes e Sayão (2001, p. 24) “A convergência e o uso integrado das tecnologias de comunicação, de computação e de conteúdos em
formato digital, [...] tem contribuído nos anos recentes para criar um novo ambiente de acesso, disseminação, cooperação e promoção do conhecimento em uma escala global [...]”.
Sobre os dados de pesquisa (research data), uma das clássicas definições foi cunhada pela Organisation for Economic Cooperation and Development - OECD (2007, p. 13, tradução nossa):
Dados de pesquisa são como registros factuais (escores numéricos, registros textuais, imagens e sons) utilizados como fontes primárias para pesquisa científica e que são comumente aceitos na comunidade científica como necessário para validar resultados da pesquisa. Um conjunto de dados de pesquisa constitui uma representação sistemática e parcial do assunto que está sendo investigado.
Entretanto, esse é um conceito que já vem sendo bastante discutido na literatura acadêmica, e alguns autores não concordam totalmente com a definição supracitada. Há uma variedade de conceitos para definir o que são dados, e notadamente são distintos em diversas disciplinas e contextos.
Dados de pesquisa, no contexto da gestão da informação, podem se apresentar como objetos digitais ou em outras formas materiais constituintes de um documento, e como tal, carrega uma estrutura e aplicação dentro de um contexto. Prova desse aspecto é a corrente de pensamento que remonta o raciocínio de Otlet (1934), Briet (1951), Day (2001) e Frohmann (2009), colocando em xeque a noção de documento e sua representação, inclusive para a ideia de que o documento em si não existe, conforme a corrente neodocumentalista. Em linhas gerais, nas palavras de Saldanha (2012, p. 9), “o documento se traveste de novos significantes – textos, discursos, registro e, principalmente, informação.”
São muitas as formas em que os dados se apresentam: números, textos, imagens, sons, vídeos, amostras biológicas, coleções físicas e digitais, simulações, códigos computacionais, sequências genéticas etc. Podem ainda se diferenciar entre dados de pesquisa e outros materiais adicionais associados, os quais são necessários para a compreensão dos dados em si, como um arquivo ‘Read me’ (Leia-me), que acompanha muitos dos softwares que costumamos instalar em nossos computadores. Este é um bom exemplo que faz parte do cotidiano de qualquer pessoa.
O National Institutes of Health (NIH)34 afirma que os dados finais de pesquisa
são materiais factuais registrados comumente e aceitos pela comunidade científica, sendo necessários para documentar, apoiar e validar os resultados de um estudo. O NIH esclarece ainda que, para muitos estudos, os dados de pesquisa serão conjuntos de dados computadorizados, e, para outras áreas, os conjuntos de dados podem ser compostos por dados brutos e variáveis derivadas que seriam descritos posteriormente em um plano de gestão de dados. A partir desse viés, percebemos que aqui dados científicos são chamados ‘dados finais de pesquisa’, isto é, deixando ainda mais claro que se tratam de dados coletados, processados e analisados, e acrescentam que são registrados e acessíveis para que outros possam examinar e validar os resultados de um estudo.
O NIH admite que, devido à amplitude e variedade da ciência e dos estudos realizados com o seu apoio, não são especificados precisamente os formatos, os tipos de documentação dos dados, a apresentação ou a forma de transporte dos dados, afinal, o que pode ser perfeitamente normal e aplicável para uma área talvez não sirva para outras. Assim, o NIH corrobora que os membros de diferentes disciplinas e sociedades profissionais discutam as formas de compartilhamento, os padrões e melhores práticas.
A definição da National Science Foundation (NSF)35 congrega do mesmo
pensamento do NIH ao afirmar que dados são materiais factuais registrados comumente aceitos pela comunidade científica necessários para a validação de resultados de pesquisa, todavia, a NSF esclarece quais os tipos não são considerados dados de pesquisa, tais como: análises preliminares; rascunhos de artigos científicos; planos para pesquisas futuras; revisões por pares; comunicações com colegas de profissão. Segundo a NSF, o termo ‘material registrado’ exclui objetos físicos, por exemplo, amostras de laboratório. Assim, a definição da NSF inclui dados originais, metadados, protocolos experimentais, códigos de software escritos para análises estatísticas ou experimentais etc.
Para a NSF, os dados são essenciais para a comunidade de pesquisa e oferecem exemplos variados para facilitar o entendimento sobre estes, entretanto, é
34NIH Sharing Policies and Related Guidance on NIH-Funded Research Resources: https://grants.nih.gov/policy/sharing.htm. 35National Science Foundation (NSF), Data Management Guidance for CISE Proposals and Awards:
interessante notar que há outros tipos de conjuntos de dados que vão além dos dados quantitativos.
Nesse sentido, a National Endowment for the Humanities (NEH)36 destaca-se
por expandir a sua definição e ofertar uma variedade de exemplos que incluem citações, códigos computacionais, algoritmos, ferramentas digitais, documentos, bases de dados, coordenadas geoespaciais, escavações arqueológicas, relatórios e artigos. Assim como a NSF, a NEH exclui análises preliminares, rascunhos de artigos, planos para pesquisas futuras, avaliações por pares, comunicações entre colegas, e acrescenta o alerta de que certos materiais devem permanecer em status confidencial até que sejam publicados e divulgados os resultados ou qualquer informação pessoal que resultaria em invasão de privacidade e quebra de sigilo.
A NEH sinaliza que há muitas variáveis para o que se constitui como dados de pesquisa, e, reforça que o gerenciamento dos dados depende de cada disciplina/área, pois, cada uma possui sua própria cultura em relação aos dados. Por esse prisma, é interessante notar que nas definições do NIH, NSF e NEH estabelecem que os dados devem ser validados e presumem o compartilhamento entre a comunidade científica. Consequentemente, são os dados produtos de pesquisa, possuem como características a heterogeneidade e devem ser contextualizados dentro das disciplinas/áreas a qual pertencem.
Do mesmo modo, Sayão e Sales (2015, p. 7) coadunam com a visão de que o conceito de dados de pesquisa pode variar entre as áreas e os pesquisadores, assim esclarecem:
A constatação de que os dados são gerados para diferentes propósitos, por diferentes comunidades acadêmicas e científicas e por meio de diferentes processos intensifica ainda mais essa percepção de diversidade. Tipos de dados podem incluir, por exemplo, números, imagens, textos, vídeos, áudio, software, algoritmos, equações, animações, modelos, simulações. Alguns tipos de dados têm valor imediato e duradouro, enquanto outros adquirem valor ao longo do tempo; alguns dados são capturados num momento específico e irrecuperável, enquanto outros são passíveis de se reproduzir.
Para os autores, em linhas gerais, qualquer dado obtido ou produzido a partir de um estudo científico utilizado para evidenciar, validar e apresentar resultados são dados de pesquisa. Dessa forma, Para Green, Macdonald e Rice (2009); Sayão e Sales (2015) e Corti, Van den Eynden, Bishop e Morgan-Brett (2015) em publicação
36Data Management Plan for NEH Office of Digital Humanities: https://www.neh.gov/sites/default/files/2018-
editada pela United Kingdom Data Archive, os dados de pesquisa classificam-se como:
a) Dados segundo a sua origem: observacionais; computacionais e experimentais;
b) Dados segundo a sua natureza: números; imagens; vídeos; áudio; software; algoritmos; equações; animações ou modelos e simulações; c) Dados segundo a sua fase de pesquisa: brutos, crus ou preliminares
(Raw data); derivados; canônicos ou referenciais;
d) Dados governamentais: produzidos pelo governo, são dados oriundos das atividades dos diferentes órgãos da administração pública, embora não sejam dados coletados em investigações científicas, podem se tornar dados de pesquisa.
Sobre este último (dados governamentais), Aventurier (2016, p. 9) esclarece que é fundamental entender essa distinção porque “O movimento de dados abertos é radicalmente diferente do processo de dados de pesquisas abertos, mas poderá funcionar como alavanca para disponibilizar os dados de pesquisas e também levar dados governamentais disponíveis para a pesquisa científica.”
De fato, o autor toca em um ponto central e que muitas vezes gera bastante confusão, pois, apesar de serem temas que podem se relacionar, verdadeiramente há nuances distintas: o movimento de dados abertos “[...] defende a criação de um ecossistema fundamentado no acesso à dados que possibilite a participação da sociedade no desenvolvimento de um estado mais eficiente, com oferta de melhores serviços, e fazendo amplo uso de tecnologias.” (BRASIL, 2019, p. 1). Em relação aos dados de pesquisa abertos, Murray-Rust et al. (2010, online, tradução nossa) assim definem em seus “Principles for Open Data in Science (Panton Principles)”:
Por dados abertos em ciência, entendemos que eles estão disponíveis gratuitamente na internet, permitindo que qualquer usuário possa fazer o download, copiar, analisar, reprocessar, passar para um software ou usá-los para qualquer outro propósito sem barreiras financeiras, legais ou técnicas que não sejam as inseparáveis do acesso à própria internet. Para este fim, os dados relacionados com [os resultados] da ciência publicada devem ser explicitamente colocados em domínio público.
No tocante ao acesso aberto a dados de pesquisa, este tem sido incentivado por muitas entidades internacionais, inclusive nacionalmente com o lançamento em 2016 do “Manifesto de Acesso Aberto a Dados da Pesquisa Brasileira para a Ciência
Cidadã” pelo Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict). De acordo com o Ibict (2016), o manifesto tem o objetivo de estimular o acesso livre, abrangente e ilimitado aos dados de pesquisa (fontes primárias), tornando possível o uso, reuso, compartilhamento e reprodutibilidade da pesquisa.
Dando prosseguimento à classificação dos dados de pesquisa, conforme o exposto, os autores mostraram uma tipologia mais ampla dos tipos de dados de pesquisa do que a NIH, NEH e NSF, contemplando inclusive distintas áreas do conhecimento e demonstrando como os dados de pesquisa são heterogêneos e podem ser caracterizados por sua natureza, origem e status no fluxo de trabalho da pesquisa.
Contrastando com todas as argumentações anteriores, dados de pesquisa, de acordo com a Universidade de Leeds (2019, não paginado, tradução nossa), são “[...] todas as informações que foram coletadas, observadas, geradas ou criadas para validar resultados da pesquisa original.”
Sobre a tipologia dos dados, a Universidade de Leeds (2019) elenca as seguintes formas:
● Documentos, planilhas;
● Cadernos de laboratório, diários de campo, agendas;
● Questionários, transcrições, livros de códigos (Codebooks); ● Fitas de áudio e vídeo;
● Fotografias e filmes; ● Respostas de testes;
● Slides, artefatos, espécimes, amostras; ● Coleções de saída digitais (Digital outputs); ● Arquivos de dados;
● Conteúdos de bases de dados (Vídeo, áudio, texto, imagens); ● Modelos, algoritmos, scripts;
● Conteúdo de uma aplicação específica (registros de entrada, saída, arquivos de log para análise de software, simulações, esquemas);
● Metodologias e fluxos de trabalho;
Nesse sentido, a Universidade de Leeds esboça uma infinidade de tipos de dados em maior amplitude e completa sobre dados de pesquisa, especialmente ao sinalizar os materiais físicos em papel, ou seja, dados não digitais (cadernos de laboratório, amostras, cadernos de esboço (sketchbooks), diários de campo etc., que costumam ser materiais únicos, contemplando a realidade e os passos de uma pesquisa e não mantém o foco apenas nos dados digitais.
Exemplo clássico desse tipo de material físico em papel e os dados valiosos contidos nele que citamos aqui é o caderno de Leonardo da Vinci que foi digitalizado pela British Library37: há nele centenas de esboços, rascunhos, anotações importantes
que nos ajudam atualmente a compreender o pensamento do grande gênio criador e inventivo que foi Leonardo da Vinci. Outro exemplo memorável são os cadernos do matemático indiano Srinivasa Ramanujan38, os quais contêm diversas fórmulas e
cálculos, alguns deles, usados até hoje no estudo do comportamento de buracos negros. Sua história inspiradora foi recontada no filme “O homem que viu o infinito” em 2015 e estrelado pelo ator Dev Patel39.
Perante a variedade de dados e características supracitadas, Green, Macdonald e Rice (2009), Sayão e Sales (2015), Corti, Van den Eynden, Bishop, Morgan-Brett (2015) e a University of Leeds (2019), detalhamos os tipos de dados de acordo com a sua origem, isto é, conforme os diferentes propósitos e através de diferentes processos, quais sejam:
a) Dados Observacionais: São capturados em tempo real, por meio de observações diretas, geralmente insubstituíveis porque não podem ser coletados outra vez, pois capta um determinado comportamento ou fenômeno particular daquele momento específico e que não se repetirá exatamente do mesmo jeito. Exemplos: Dados de sensores, erupção de um vulcão, fotografia