Conexões interdisciplinares dos metadados

Capítulo II – METADADOS

2.2 Conexões interdisciplinares dos metadados

Como vimos, os problemas que envolvem a informação e a comunicação, suas manifestações, o comportamento informativo humano e os problemas aplicados ligados ao “tornar mais acessível um acervo crescente de conhecimento”, incluindo as tentativas de ajustes tecnológicos, não podem ser resolvidos no âmbito de uma única disciplina (SARACEVIC, 1996) – o que reforça o interesse do campo das Ciências Sociais por pesquisas interdisciplinares: sozinha, a área não dá conta das relações estabelecidas entre a sociedade e as mídias (LOPES, 2002).

A propósito das bases de dados, escopo deste trabalho, Dodgson e Gann (2010) lembram que, no contexto do pós-guerra norte-americano, um dos maiores incentivadores da relação entre pesquisa científica e inovação foi o engenheiro e cientista do Massachusetts Institute of Technology (MIT) Vannevar Bush, considerado um dos precursores da Ciência da Informação durante sua proximidade com o governo norte-americano nos anos 1940. Os conceitos por trás do MEMEX, ideia abstrata compartilhada em 1945 diante da questão da explosão informacional e de seus registros, deram origem à problematização da recuperação de informação (SARACEVIC, 1996), advindo daí a Ciência da Informação. A Comunicação é mencionada como uma das quatro áreas do conhecimento, ao lado das Ciências Cognitivas, como fundamentais para a definição de suas fronteiras.

No que se refere ao caminho percorrido pelos metadados, outras duas merecem destaque: a Biblioteconomia e a Ciência da Computação. Dos caminhos percorridos por essas áreas, o mais antigo é, seguramente, o da Biblioteconomia: são três mil anos desenvolvendo ferramentas e técnicas para classificar e descrever a informação, organizando-a e preservando-a como forma de garantir a permanência de verdadeiros patrimônios culturais, sendo que a mesma lógica pode ser estendida a outras instituições que lidam com memória, como os museus.

Apesar de sua atividade milenar, o problema da informação se tornou mais complexo. Enquanto a Biblioteconomia direcionou seus estudos para processos de documentação e sua preservação, emergia a Ciência da Computação, derivada da Matemática a partir de pensamentos pioneiros como os de Alan Turing, que em 1936 imaginou um controlador capaz de ler, escrever e mover uma fita infinita, inscrita com números. A partir de sua máquina abstrata, foi possível imaginar: tudo o que pudesse

ser traduzido a partir de instruções sequenciais seria realizado, potencialmente, por uma máquina como essa (WILSON; KEIL, 1999).

A abstração de problemas por meio do pensamento computacional provocou estímulos em todas as áreas do conhecimento. De fato, a essência do pensamento de Turing mudou quase tudo sobre a forma como a ciência é feita, bem como nossas vidas acontecem à medida que as máquinas computacionais evoluem (MITCHELL, 2009, p. 69) – assim como os meios eletrônicos de armazenamento de informações traduzidas nos binary digits imaginados por Claude Shannon.

Com o advento dos bancos de dados, tornou-se possível criar e armazenar dados estruturados sobre qualquer coisa, não apenas metadados descritivos sobre recursos em coleções de bibliotecas. Claro que empresas e governos, em particular, têm sempre recolhidos e armazenados dados estruturados para fins que vão além da descrição: contabilidade de lucros e perdas, inventários, documentos fiscais, censos, etc. existem no papel – e em tecnologias ainda mais antigas – por milênios (POMERANTZ, 2015, p. 14, tradução nossa)30.

Para sistematizar o conhecimento por meio de uma relação entre processos e declarações formais, a Ciência da Computação preocupou-se mais em definir e especificar metadados (CAPLAN, 2003), possibilitando que as máquinas computacionais realizem conexões entre eles e desenvolvam pesquisas relacionadas a agentes de Inteligência Artificial, Processamento de Linguagem Natural, entre outras ferramentas relacionadas ao armazenamento, recuperação e reutilização de informações em bases de dados – e, a esse respeito, talvez a mais conhecida solução tenha sido desenvolvida por dois alunos de Stanford no final do século passado (BRIN; PAGE, 2012). Derivada da Ciência da Computação, a Engenharia de Software pode aplicar essas ferramentas e tecnologias na construção de modelos – a linguagem UML (Unified

Modeling Language) é usada para especificar os requisitos e funções para a construção

de sistemas de software por meio de diagramas, antes de sua execução. Pode parecer distante de qualquer pesquisa em Comunicação, mas esta linguagem já dialoga com problemas do Jornalismo (LIMA JUNIOR, 2006a; RAMOS, 2011).

De forma menos intrincada, o termo que define a sequência de instruções imaginada por Alan Turing tornou-se altamente persuasivo: algoritmo.

Versão original: “With the advent of the database, it became possible to create and store structured data about anything, not just descriptive metadata about resources in library collections. Of course, business and governments, in particular, have always collected and stored structured data for more than descriptive purposes: ledger of profit and loss, inventories, tax documents, censuses, and the like, have existed on paper – and even earlier technologies – for millenia”.

Trata-se de um passo-a-passo computacional, um código de programação, executado numa dada periodicidade e com um esforço definido. O conceito de algoritmo permite pensá-lo como um procedimento que pode ser executado não apenas por máquinas, mas também por homens, ampliando seu potencial de acuidade associada à personalização. Deste modo, desenhar um algoritmo é elaborar uma série de instruções com a finalidade de resolver um problema (CORRÊA; BERTOCCHI, 2012b, p. 7).

Mesmo sendo uma sequência de instruções codificadas em softwares, os algoritmos já foram capazes de escrever sinfonias tão comoventes quanto as de Beethoven; de transitar por meio de decisões jurídicas e diagnósticos clínicos; de controlar o tráfego em vias movimentadas; e, por fim, de escrever uma reportagem com mão tão suave quanto a de um jornalista experiente (STEINER, 2012). De um lado, um algoritmo pode ser visto como uma ferramenta capaz de realizar uma tarefa mais rápida – se possível, automaticamente; de outro, está a imagem negativa de que sistemas inteligentes prejudicam aspectos culturais na tentativa de equacionarem problemas financeiros. Não à toa é que, para Steiner (2012), as pessoas que conseguem criar códigos capazes de correr em oceanos de dados e de executar tarefas que pareciam impossíveis há poucos anos estão em ascensão social.

Está claro que esses dois pontos de vista são defasados. E provavelmente ambos estão errados, ou melhor, estão nitidamente incompletos. Trata-se de um medo histórico da autonomia das máquinas aplicado a uma profissão que sofre e não aproveita a total incerteza que atravessa e que poderia contar a seu favor. Entender os algoritmos de outra maneira, menos reducionista, é uma grande missão intelectual para repensar o que fazemos nesta indústria onde, supostamente, nada podia ser automatizado (MANCINI, 2011, p. 46, tradução nossa)31.

Com a consolidação da Web como meio de comunicação a partir dos anos 1990, as preocupações se tornaram mais complexas. O fato de ela “desaparecer” aos poucos – isto é, de uma “enorme quantidade de conhecimento inestimável sumir” – representa desafios que motivaram, entre outras iniciativas, a criação de uma comunidade internacional de arquivamento da Web, o International Internet Preservation

Versão original: “Está claro que esas dos miradas atrasan. Y que probablemente las dos estén equivocadas o, mejor dicho, sean marcadamente incompletas. Se trata del miedo histórico a la autonomía de las máquinas aplicado a una profesión que padece y no aprovecha la plena alza de incertidumbre que atraviesa y podría contar a su favor. Entender a los algoritmos de otra manera, menos reduccionista, es una misión intelectual mayúscula para repensar lo que hacemos en esta industria donde, se suponía, nada podía ser automatizado”.

Consortium32 (XIE et al., 2013), bem como o mais popular serviço de arquivamento da Web, o Internet Archive33. O crescente volume de dados disponíveis e acessíveis por navegadores, sejam eles publicadas originalmente na Web ou digitalizados para posterior recuperação, também trouxe às bibliotecas preocupações quanto à descrição de informações em níveis cada vez mais granulares, que funcionem a níveis mais específicos e em partes pequenas, definindo novos esquemas e relacionando atributos entre objetos (HAN, 2012).

No início da Web, muitas pessoas, especialmente a emergente comunidade de bibliotecas digitais, viram nos metadados a solução a longo prazo para o problema da descoberta de recursos na Web. O raciocínio por trás disso era muito lógico e remonta ao exemplo clássico de metadados: catálogos da biblioteca provaram sua eficácia ao fornecerem tanto o acesso quanto o controle de grandes coleções bibliográficas. Então por que a Web seria diferente? (BACA, 2008, tradução nossa)34.

Paralelamente, a face mais amigável da internet e sua facilidade de acesso e inserção de conteúdos (LIMA JUNIOR, 2013b) permitem que a elaboração de estruturas, contextos ou de outras formas de organização de informações no ambiente Web não seja feita, especificamente, por profissionais da Biblioteconomia, da Ciência da Computação, da Comunicação ou, em sua “confluência”, da Ciência da Informação. A proliferação de aplicações de relacionamento e disseminação de informações revelou novos problemas acerca de sua preservação e recuperação – o que pode ser demonstrado por meio de trabalhos que calculam a quantidade de recursos compartilhados pela Web em mídias sociais que desaparecem em um ano, nos quais o número chega a 11% (SALAHELDEEN; NELSON, 2012).

A relação entre as bibliotecas e o Jornalismo reside, por exemplo, no interesse histórico em digitalizar e recuperar arquivos históricos de jornais. Nesse contexto, os metadados precisam dar conta de descrever e estruturar grandes volumes de informação baseados em antigas páginas impressas (ALLEN; SCHALOW, 1999). Um exemplo no qual há convergência entre as áreas de interesse por metadados e o Jornalismo pode ser encontrado no projeto NDNP (National Digital Newspaper Program), promovido pela

Disponível em: <http://www.netpreserve.org>. Acesso em: 15 dez. 2015. 33

Disponível em: <http://web.archive.org>. Acesso em: 15 dez. 2015. 34

Versão original: “In the early days of the Web, many people, particularly in the emerging digital library community, saw metadata as the long-term solution to the problem of resource discovery on the Web. The reasoning behind this was very logical and goes back to the classical example of metadata: Library catalogs had proved their efficacy in providing both access to and control of large bibliographic collections, so why should the Web be different?”.

Biblioteca do Congresso norte-americano para criar e manter uma base de dados de jornais históricos digitalizados. O resultado do projeto é o site Chronicling America35, que disponibiliza, inclusive, uma API para consultas (YARASAVAGE; BUTTERHOF; EHRMAN, 2012).

Ao mesmo tempo que a Web cresce por conta da facilidade em publicar conteúdos, há uma expectativa diante de uma etapa avançada de desenvolvimento desse ambiente. Ao lado de outros pesquisadores, seu criador, Tim Berners-Lee, debruça-se sobre o desafio da Web de Dados (ou, ainda, da Web Semântica36).

A Web Semântica vai trazer estrutura para um conteúdo significativo das páginas web, criadas em um ambiente onde agentes de software possam passear entre as páginas e prontamente executar tarefas muito complexas para os usuários... A Web Semântica não é uma Web separada, mas uma extensão da atual, em que a informação é dada com um significado bem definido, permitindo que os computadores e as pessoas trabalhem em cooperação (BERNERS-LEE; HENDLER; LASSILA, 2001, tradução nossa)37.

Resumidamente, a Web de Dados refere-se à capacidade de os computadores reconhecerem dados, em oposição ao paradigma da “web de documentos”. Uma organização pode criar, por exemplo, uma base denominada mean-diurnal-temperature (temperatura diária média), enquanto outra faz o mesmo, denominando-a daily average-

temp – é a mesma informação, com nomes diferentes. Trata-se de um problema enorme:

continuamente, as bases de dados são produzidas e disponibilizadas em rede por diferentes grupos e empresas com as mais variadas intenções. Ainda nas palavras do físico britânico, o poder dessa Web de Dados será visível “quando as pessoas criarem muitos programas que coletam conteúdo da Web a partir de diversas fontes, processarem a informação e fizerem o intercâmbio dos resultados”, de modo que “muitas coisas antes impossíveis pareçam óbvias” (BERNERS-LEE, 2000, p. 198).

Com a emergência da Web como uma plataforma de produção e criação de conteúdo (inclusive jornalístico), bem como ante seu objetivo de tornar seus conteúdos interoperáveis a partir dessa visão, a importância dos metadados ganhou força.

Disponível em: <http://chroniclingamerica.loc.gov>. Acesso em: 15 dez. 2015. 36

O conceito original de Tim Berners-Lee pode ser explorado em: <http://www.w3.org/2001/sw/>. Acesso em: 15 dez. 2015.

Versão original: “The Semantic Web will bring structure to the meaningful content of Web pages, creating an environment where software agents roaming from page to page can readily carry out sophisticated tasks for users... The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined meaning, better enabling computers and people to work in cooperation”.

No documento Download/Open (páginas 55-60)