• Nenhum resultado encontrado

Objetos de informação rotulados na Web: uma classificação

No documento Download/Open (páginas 60-79)

Capítulo II – METADADOS

2.3 Objetos de informação rotulados na Web: uma classificação

Como vimos, Berners-Lee (2000) elaborou uma teia descentralizada, na qual fragmentos de texto seriam conectados num sistema universal, abrangente, flexível e colaborativo. Enquanto trabalhava na Organização Europeia para a Pesquisa Nuclear (em francês, CERN) e sentia a necessidade de organizar informações que eram perdidas em função da rotatividade de pesquisadores, ele escreveu os primeiros programas que funcionariam numa infraestrutura de comunicações baseada em computadores conectados e definiu os parâmetros associados aos acrônimos URL (identificadores universais de recursos), HTTP (protocolo de transferência de hipertexto) e HTML (linguagem para marcação de hipertexto). Essas são as únicas premissas da World Wide

Web.

Modelos de metadados correspondem a uma estratégia para organização de conteúdos para a Web (HALVORSON; RACH, 2012, p. 32). No Jornalismo, a criação, a administração e o arquivamento desses recursos podem ser realizados a partir de sistemas de publicação e gerenciamento de conteúdos, “dispositivos tecnológicos que envolvem processos relacionais, ou seja, dependem do meio associado, do contexto no qual estão inseridos, interconectando bancos de dados”, já são identificados como ferramentas responsáveis pela gestão de blocos de informações a partir de “determinada lógica, disponíveis ou não para outros aplicativos” (SCHWINGEL; CORREA, 2013).

A relação entre os metadados e as áreas do conhecimento preocupadas com a descrição, recuperação e interoperabilidade de informações influenciou na criação de modelos de processamento e relacionamento entre essas informações. Todavia, a aplicação desses princípios em blocos de informações elaborados por sistemas de gerenciamento é pouco explorada no paradigma do Jornalismo Digital em Bases de Dados. Normalmente, ao lidar com o potencial aproveitamento de sistemas para gerenciamento de conteúdo, a preocupação reside essencialmente em processos amigáveis de publicação de conteúdos, resultando na melhor forma de apresentá -los em uma página Web. Na prática, esses processos correspondem ao “negrito na assinatura do autor, links manuais em nomes de cidades para as páginas relacionadas a elas, listas com marcadores destacando empresas ao final de um artigo...” (WACHTER- BOETTCHER, 2012, p. 68).

A partir da visão centrada em documentos – originária da Biblioteconomia – até a formalização e representação da informação por algoritmos – desenvolvidas pela

Computação –, percebe-se uma progressão entre tecnologias e padrões de metadados possíveis para bases digitais na Web. Essa classificação começa em um nível mais simples e desordenado, chegando a práticas de compartilhamento que potencialmente alicerçam a Web de Dados.

É importante ressaltar que, num contexto como páginas Web, não se trata apenas de um acréscimo do código HTML, comum em processos de otimização de páginas Web, mas sim da descrição de objetos e de suas relações com outros conceitos, alcançando um grau de uniformidade na descrição por meio de funções e esquemas (SICILIA; LYTRAS, 2009). Em outras palavras: trata-se de metadados descritivos, administrativos ou que definem estruturas que podem ter maior ou menor nível de detalhamento e relacionamento. A Figura 2.3 sintetiza esses níveis, apresentando alguns conceitos e tecnologias associados a cada um. É importante ressaltar que, quanto mais sofisticados o modelo, a classificação, os critérios e os padrões tecnológicos usados, mais complexos eles são – porém, também mais interessantes e promissores.

Figura 2.3 – Classificação proposta para níveis de detalhamento e relacionamento de metadados

Marcações

Mesmo no processo elementar de transposição de um “jornal on-line” para esse ambiente no qual cada texto está relacionado a uma seção ou canal, é fácil identificar rótulos que tanto sejam descritivos quanto estruturais. O primeiro caso é mais evidente – por exemplo, uma página identificada com a editoria “Cidades”; o segundo diz respeito à linguagem de marcação, componente elementar de qualquer página visualizada por um navegador.

Grosso modo, as tags HTML podem servir para descrever estruturas de texto em uma página. Tanto um usuário quanto um sistema podem reconhecer que o título de um documento é exatamente o conjunto de dados posicionado entre as marcações <title> e </title>, por exemplo. Opcionalmente, palavras-chave e descrições podem ser publicadas em marcações próprias para metadados descritivos para a Web – as tags <meta>. Ou, ainda, por meio de links, podem indicar conteúdos relacionados.

No entanto, não há nenhuma regra de uso ou escolha para desenvolvedores ou produtores de conteúdo rotularem dados em páginas Web: a escolha de uma palavra ou expressão para servir de âncora a um link segue o mesmo critério de definição para se nomear uma editoria de “Cidades”, “Geral”, “Cotidiano”, enfim. Da mesma forma, qualquer indivíduo familiarizado com ambientes amigáveis da Web (ou, em outra ponta, qualquer algoritmo programado para tal) utiliza sistemas em sites de relacionamento ou outras ferramentas de publicação para compartilhar fragmentos de informação pela rede. Nesses termos, a complexidade da rede se torna evidente: seja de um usuário ou de um código de programação, não há como exigir algum esforço no sentido de se preocupar com critérios que rotulem essas informações.

Assim, nessa proposta de classificação, a marcação corresponde à adoção de metadados sem levar em conta algum critério ou padrão de escolha. Entre essas práticas, o termo folksonomia ganhou fôlego. Folksonomia é o acúmulo de termos e palavras que resultam de processos baseados em etiquetagem social (BACA, 2008), representando uma coleção de dados úteis sobre interesses coletivos. Corrêa e Bertocchi (2012a, p. 127) reforçam que a folksonomia pode se tornar rica em jargões, expressões populares e termos corriqueiros que passam a ganhar as características da linguagem natural: o multilinguismo, a ambiguidade, a inventividade.

Por trás de ferramentas de compartilhamento populares, como, por exemplo, o

enquanto disponibilizam conteúdos, os usuários podem marcá-los (se desejarem) com palavras-chave. Mas sua importância ficou evidente a partir de 2007, com a popularização do Twitter38. Por se tratar de uma ferramenta para compartilhamento de um fragmento de texto com apenas 140 caracteres, nunca houve espaço nativo para o uso de tags. Até que o desenvolvedor Chris Messina deu uma sugestão para reduzir o ruído na troca de mensagens: rotulá-las por meio de uma tag precedida do sinal # (em inglês, hash). Não é preciso ir longe para reconhecer que esse estilo de marcação, batizada de hashtag, foi muito além do próprio Twitter: está presente em outros sites de relacionamento e fora dele – como na identificação de programas de tevê, por exemplo.

Para a pesquisadora Luciana Moherdaui, a lógica por trás das marcações sociais por meio de tags e sua consequente reutilização em nuvens de comunicação (ideia por trás da folksonomia) representam uma bagunça com organização própria, marcada especialmente pela diversidade cultural. Além disso, “são a chave para a constituição temporária e cambiante de projetos artísticos na rede ou para engajar pessoas em torno de algo”, sendo possível aplicar o mesmo raciocínio à composição de notícias (MOHERDAUI, 2011). Ainda envolvendo o Jornalismo como objeto de pesquisa, Bahareh Heravi, pesquisadora do Digital Enterprise Research Institute39, investiga maneiras para o Jornalismo aproveitar marcações desestruturadas elaboradas por usuários por meio de tecnologias semânticas – é o que ela define como Social Semantic

Journalism (HERAVI; BORAN; BRESLIN, 2012).

Marcações desestruturadas correspondem a um enorme desafio para quem lida com metadados. Alguém poderia rotular uma notícia bizarra (no jargão jornalístico, fait

divers) com a tag “mundoidão”, termo inexistente em qualquer dicionário da Língua

Portuguesa, mas de fácil interpretação. Ainda assim, diante de processos computacionais, o que a tag “mundoidão” representa? Quais as suas conexões?

O fato de a internet ser em grande parte não controlada torna o solo rico para o vocabulário descontrolado. Enquanto um vocabulário controlado proporciona um conjunto finito de termos que podem ser utilizados como valores para um elemento particular em um esquema de metadados, um vocabulário não controlado permite que qualquer termo possa ser usado. E qualquer termo significa realmente isso: não se trata apenas do completo

38

A primeira menção ao termo “hashtag” é atribuída ao blog do pesquisador Stowe Boyd, em “Hash Tags = Twitter Groupings”. Disponível em: <http://stoweboyd.com/post/39877198249/hash-tags- twitter-groupings>. Acesso em: 10 abr. 2016.

39

léxico da língua escolhida, como também da existência de termos inventados (POMERANTZ, 2015, p. 49, tradução nossa)40.

Tal cenário estimula esforços para criar padrões ou esquemas controlados envolvendo metadados, sendo que, à medida que esse controle aumenta, maior o nível de uso e estruturação. Mas, como veremos a seguir, “padrões são como escovas de dentes: todo mundo concorda que a ideia é boa, mas ninguém gosta de compartilhar”41.

Esquemas

Existe caminho possível no que tange à definição de critérios para a utilização de metadados? Em um artigo provocativo, o jornalista e escritor canadense Cory Doctorow (2001) sintetizou o que denominou metacrap, isto é, qualquer tentativa humana de estabelecer algum padrão. Em sua visão, as pessoas são preguiçosas demais para assumir algum padrão – ou mentem, como em um e-mail cujo assunto é “informação importante para você”. Além disso, há muitas formas de descrever a mesma coisa, tornando o ato dos “guardiões da epistemologia sentarem e racionalmente mapearem uma hierarquia de ideias” uma meta-utopia (DOCTOROW, 2001). Embora seu texto seja intencionalmente ficcional e bem-humorado, ele aponta para dificuldades reais.

Para exemplificar, vejamos o que houve em março de 1995. A National Center

for Supercomputing Applications (NCSA, centro responsável pelo lançamento do

primeiro navegador Web, o Mosaic) e a Online Computer Library Center (OCLC) organizaram um workshop para discutir padrões de metadados para a Web. O consenso desse encontro, que reuniu cientistas da informação e da computação, permanece atual: para que mecanismos de busca na Web sejam de fato úteis, as informações compartilhadas nesse ambiente deveriam ser descritas de maneira adequada. Desse encontro nasceu a iniciativa Dublin Core Metadata Element Set42.

40

Versão original: “The fact that the internet is largely uncontrolled, makes it rich soil for the uncontrolled vocabulary. Where a controlled vocabulary provides a finite set of terms that may used as values for a particular element in a metadata schema, an uncontrolled vocabulary allows any term to be used. And any term really does mean any: not only is the entire range of words in your chosen language fair game, but an uncontrolled vocabulary allows terms to be invented on the spot”.

41

Em inglês, a frase original é: “Standards are like toothbrushes, a good idea but no one wants to use anyone elses”. No livro Metadata (POMERANZ, 2015), a expressão é atribuída à pesquisadora Murtha Bacca.

42

O padrão Dublin Core para descrição de elementos permite relacionar 15 elementos de metadados para cada objeto, sem contar a possibilidade de aumentar sua especificidade por meio de orientações sobre a codificação e o processamento desses objetos. Ele é um dos mais populares exemplos de esquema, ou seja, tal padrão estabelece algum relacionamento entre objetos de informação por meio de critérios designados previamente.

Paralelamente, outros projetos procuram esquematizar informações jornalísticas. Um dos mais audaciosos é o Global Database of Events, Language, and Tone

(GDELT), plataforma que monitora a mídia e acumula informações relacionadas a

política e conflitos datadas de 1979, baseando-se em agências de notícia e em alguns jornais norte-americanos. Em 2013, o set de dados registrava mais de 200 milhões de eventos – são 100.000 novos eventos de todo o planeta adicionados diariamente a partir de fontes como Associated Press, France Presse e a chinesa Xinhua –, codificados e estruturados por meio de uma codificação automática de locais, personagens e eventos políticos. O código foi batizado de Conflict and Mediation Event Observations – ou simplesmente CAMEO (LEETARU; SCHRODT, 2013).

O GDELT conecta pessoas, organizações, localizações e temas43, permitindo, entre outras possibilidades, a predição de eventos por meio de variáveis como abrangência global, densidade, codificação geográfica, precisão e disponibilidade de acesso futuro. É possível, por exemplo, prever níveis de violência no Afeganistão (YONAMINE, 2013).

Esquemas de metadados presumem, portanto, padrões de relacionamento (é o caso do Dublin Core e do CAMEO), bem como termos e vocabulários controlados. Em bases de dados estruturadas, o esquema mais elementar são os nomes atribuídos às tabelas e suas colunas. Outra forma comum de nomear um sistema de classificações e envolver termos e seus conceitos é denominada “taxonomia”. A prática relacionada ao termo vem do século XVIII, quando o botânico e zoólogo Carl von Linné desenvolveu a classificação de seres vivos por meio de uma hierarquia (WACHTER-BOETTCHER, 2012, p. 55). Dicionários de sinônimos (thesaurus) são exemplos de vocabulários controlados que podem compor taxonomias.

O W3C, consórcio que estabelece boas práticas para a Web, recomenda especificações baseadas em eXtensible Markup Language (XML). Trata-se da mais

43

comum entre as formas de descrever esquemas de metadados na Web44. Isso é possível porque, ao contrário do HTML, o XML permite definir seus próprios rótulos, dando ênfase à descrição dos conteúdos e permitindo o acréscimo de rótulos de acordo com a necessidade. Porém, uma linguagem flexível não é suficiente: para compartilhar um significado, é necessário que um esquema de compartilhamento seja "consensual e inteligível de forma não ambígua entre todos os participantes de uma comunidade" (SOUZA; ALVARENGA, 2004, p. 135).

De acordo com seus objetivos, comunidades distintas definem padrões e vocabulários relacionados a estrutura, conteúdo e sintaxe para organizar suas informações utilizando metadados. É o caso do programa nacional de digitalização de jornais45 proposto pela Biblioteca do Congresso dos Estados Unidos em 2004, que desenvolveu a combinação de padrões de metadados estruturais – Metadata Encoding

and Transmission Standard (METS) e Technical Metadata for Optical Character Recognition (ALTO). Ambos são usados em projetos de digitalização de acervos

jornalísticos históricos.

Além do padrão Dublin Core, já mencionado, existem outros esquemas: DITA, FOAF, SIOC, SKOS, DOAP, vCard e OAI-ORE (BIZER; HEATH; BERNERS-LEE, 2009). As organizações de mídia também possuem padrões de codificação próprios, como os definidos pelo International Press Telecommunications Council46. Os recursos disponíveis pelo IPTC (entre eles, EventsML-G2, NewsML-G2, SportsML-G2, rNews, IIM, NewsML 1, IPTC 7901 e NITF) permitem acrescentar metadados a objetos como textos, fotografias, áudios e vídeos (TRONCY, 2008). Mesmo sendo uma iniciativa conhecida e adotada por grandes jornais e agências de notícias, o pesquisador Tassilo Pellegrini (2012, p. 126, tradução nossa) identifica um obstáculo em sua utilização:

A adoção prática dos códigos do IPTC na indústria de notícias e seu uso em sistemas de gerenciamento de conteúdo editorial e aplicativos é limitada a uma pequena fração do vocabulário existente, o que por um lado é um forte indicador de especificações em excesso e, por outro, da falta de uma elaborada ‘cultura de metadados’ na gestão da informação dentro dos fluxos de trabalho editoriais47.

44

Uma descrição detalhada dos padrões XML está disponível em: <https://www.w3.org/standards/xml/>. Acesso em: 22 out. 2014.

45

Disponível em: <http://www.loc.gov/ndnp>. Acesso em: 22 out. 2014. 46

Disponível em: <http://iptc.org/standards/>. Acesso em: 10 abr. 2016. 47

Versão original: “The practical uptake of the IPTC codes among the news industry and its usage in editorial content management systems and applications is limited to a small fraction of the existing vocabulary which is a strong indicator for over-specification on the one side and a lack of an elaborated ‘metadata culture’ in the management of information within editorial workflows on the other”.

Além de questões culturais ou do número extenso de propostas, Jeffrey Pomerantz (2015) apresenta outro fator para explicar os custos de adoção a qualquer um desses esquemas: a ausência de simplicidade. Para elucidar o que entende por complexidade, ele cita o sociólogo Everett Rogers, autor do livro Diffusion of

Innovations (POMERANTZ, 2015, p. 69, tradução nossa):

Para que seja adotada, uma inovação deve ser percebida como de uso simples. Ou, para dizer de outra forma: se aqueles que talvez achem uma inovação útil perceberem que ela é muito complexa, então os usuários potenciais nunca se tornarão usuários de fato48.

Foi o discurso da simplicidade que provocou a criação de alternativas entre os desenvolvedores Web. É o caso dos microformatos, um tipo simples de marcação usado com frequência para a marcação de eventos, especificações de pessoas ou organizações. Ou, ainda, os microdados se utilizam de vocabulários para descrever itens – tal como o

Schema.org, criado em conjunto por três empresas do ramo das buscas: Bing, Google e Yahoo! (RONALLO, 2014).

Os microdados se apresentam como uma alternativa a outro padrão do W3C: o

Resource Description Framework (RDF) e sua evolução, o RDFa, sendo que a

diferença provocada pelo “a” ao fim da sigla diz respeito aos atributos que podem ser definidos no próprio conteúdo, já que o RDF necessita de um arquivo separado. Ronallo (2014, tradução nossa) observa que “com todo esse poder expressivo vem alguma dificuldade, e a implementação do RDFa provou ser excessivamente complexa para a maioria dos desenvolvedores Web”49. O Quadro 2.1 ilustra exemplos valendo-se de microformatos, microdados e RDFa.

Contudo, antes de compreender o significado de RDF, é preciso avançar mais um degrau na utilização de metadados como elemento para descrição e estruturação de bases de dados, observando a existência de sistemas inteligentes que “se baseiem mais em ontologias do que em taxonomias” (CORRÊA; BERTOCCHI, 2012b).

48

Versão original: “In order to be adopted, an innovation must be perceived as being simple to use. Or, to state this in reverse: if those who might find an innovation useful perceive it as being too complex, then those potential users will never become actual users”.

49

Versão original: “With all that expressive power comes some difficulty, and implementing RDFa has proven to be overly complex for most Web developers”.

Quadro 2.1 – Exemplos de marcação semântica de localidade

HTML simples <div>

L'Amourita Pizza

Localizado em rua Main St 123, Albuquerque, Novo México. Telefone: 206-555-1234

<a href="http://pizza.example.com">http://pizza.example.com</a> </div>

Microformatos <div class="vcard">

<span class="fn org">L'Amourita Pizza</span> Localizado em

<div class="adr">

<span class="street-address">Main St 123</span>, <span

class="locality">Albuquerque</span>, <span class="region">Novo México</span>. </div>

<span class="geo"> <span class="latitude">

<span class="value-title" title="37.774929"></span> </span>

<span class="longitude">

<span class="value-title" title="-122.419416"></span> </span>

</span>

Telefone: <span class="tel">206-555-1234</span>

<a href="http://pizza.example.com/" class="url">http://pizza.example.com</a> </div>

RDFa <div xmlns:v="http://rdf.data-vocabulary.org/#" typeof="v:Organization"> <span property="v:name">L'Amourita Pizza</span>

Localizado em <div rel="v:address"> <div typeof="v:Address">

<span property="v:street-address">Main St 123</span>, <span property="v:locality">Albuquerque</span>, <span property="v:region">Novo México</span>. </div>

</div>

<div rel="v:geo"> <span typeof="v:Geo">

<span property="v:latitude" content="37.4149"></span> <span property="v:longitude" content="-122.078"></span> </span>

</div>

Telefone: <span property="v:tel">206-555-1234</span>

<a href="http://pizza.example.com/" rel="v:url">http://pizza.example.com</a> </div>

Microdados <div itemscope itemtype="http://data-vocabulary.org/Organization"> <span itemprop="name">L’Amourita Pizza</span>

Localizado em

<span itemprop="address" itemscope itemtype="http://data-vocabulary.org/Address"> <span itemprop="street-address">123 Main St</span>,

<span itemprop="locality">Albuquerque</span>, <span itemprop="region">Novo México</span>.

No documento Download/Open (páginas 60-79)