Apontamentos sobre o uso de metadados no Jornalismo

Capítulo V – OBSERVAÇÃO E DISCUSSÃO

5.2 Apontamentos sobre o uso de metadados no Jornalismo

“Jornalismo é oposição. O resto é armazém de secos e molhados”. A frase, atribuída a Millôr Fernandes181, normalmente usada para debater o poder e a influência da imprensa brasileira (para o bem ou para o mal), perde o sentido a partir dos apontamentos deste trabalho: independentemente do sentido da narrativa (oposição, situação ou a “mitológica” neutralidade), o Jornalismo – entendido como produzido e armazenado em bases na Web que são estruturadas por metadados – também pode ser comparado, no sentido negativo, a um armazém: arquivar páginas estáticas ou bases de dados capazes de gerá-las dinamicamente e, ao mesmo tempo, ignorar a combinação de conceitos relacionados aos metadados seria o equivalente ao amontoar produtos em corredores estreitos e desorganizados. Em contrapartida, diante das alternativas observadas nos grupos de mídia – e sintetizadas no Quadro 5.7 –, que salientam uma visão segundo a qual a notícia é “orientada a software”, o Jornalismo se aproxima das lojas de ferramentas, decoração e construção ao estilo “faça você mesmo”, com materiais e instrumentos ao dispor de qualquer um que souber aproveitá-los.

Em síntese, todos os veículos observados apresentam relações entre a notícia – entendida como um objeto de informação estruturado por metadados – e o desenvolvimento de sistemas que permitem sua formalização semântica, recuperação e reutilização para aplicações variadas. Eles representam, acima de tudo, um ganho de informação obtido a partir de um necessário esforço interdisciplinar, dentro e fora do ambiente da organização – especialmente se dados e ferramentas se apresentam de forma aberta.

Para Robert K. Yin (2009), além das questões que norteiam a pesquisa, um protocolo para estudo de caso deve ter uma agenda com apontamentos específicos para um investigador ter em mente durante a coleta de dados. Além de apontar para novas oportunidades de elaboração jornalística, a síntese dos procedimentos técnicos descritos, derivados de experimentações ou incrementos rotineiros e equalizados de acordo com a classificação proposta em níveis (marcações, esquemas, ontologias e intercâmbio), é baliza para abordagens específicas sobre investigações envolvendo metadados e bases de dados na Web como apoio a essas possibilidades.

181

Nível de uso Características a serem observadas Globo.com The New York Times

The Washington Post

The Guardian BBC

Marcações Utilização de marcações HTML elementares na área de identificação da página Web ("<head>"), normalmente etiquetadas por meio do atributo <meta>

Comum a todos os veículos Identificação visual de campos como título, autor, data de publicação e/ou

modificação e corpo do texto

Organização de conteúdos em nível primário por meio de editorias, categorias ou termo similar

Utilização de tags ou palavras-chave para relacionar conteúdos em nível primário (folksonomias)

Política para uso de

tags

Esquemas Utilização de marcações HTML controladas na página Web, como Dublin

Core, microformatos, microdados ou RDFa

Adoção dos microformatos rNews Adoção de padrões de relacionamento entre artigos publicados por meio de

vocabulários controlados (taxonomias)

Projeto BBC

Wildlife

Incorporação de dados externos estruturados para enriquecer suas próprias bases

Sistema de Dados Esportivos

The Upshot, hotsite

dos Jogos de 2012

Policiais mortos nos EUA em 2015

Data Store

Aproveitamento de dados externos com informações sobre conceitos (sujeitos, objetos ou lugares) para enriquecer suas próprias bases

Relação entre músicas com a

DBPedia

Análise (parsing) e codificação de fragmentos de informação (páginas, bases de dados) com metadados por meio de software (codificação automática)

Parsing de receitas, Annotated Corpus

The News Juicer

Construção de conteúdos baseados em termos controlados por meio de fragmentos de texto reutilizáveis

Projeto Editor Knowledge Map

Ontologias Codificação de fragmentos de informação manualmente, a partir do CMS, utilizando anotações semânticas

Projetos e protótipos internos

Projeto Editor BBC Sports na Copa

de 2010 e nos Jogos de 2012

Relacionamento de conceitos (sujeitos, objetos ou lugares) em ontologias por meio de triplas usando tecnologias como RDF

Projetos e protótipos internos

Ontologia para Eleições 2014 Intercâmbio Abertura de dados brutos para análise e marcação colaborativa

(crowdsourcing)

Projeto MPs’

expenses

Abertura de conteúdos por meio de uma plataforma de compartilhamento Projeto Annotated

Corpus

Policiais mortos nos EUA em 2015

Data Store

Abertura de ferramentas ou códigos para tratamento de dados por meio de uma plataforma de compartilhamento

Scripts para parsing

de receitas Abertura de conteúdos por meio de API, permitindo a criação e a

interoperabilidade de dados para múltiplos dispositivos e plataformas

Sistema de Dados Esportivos

developer .nytimes .com

Open Platform

Abertura de conteúdos por meio de tecnologias semânticas padronizadas pelo W3C

data.nytimes.com BBC Things

Conexão de conceitos com dados externos (datasets) por meio de tecnologias semânticas padronizadas pelo W3C

Projetos e protótipos internos

Open Platform e MusicBrainz

Desenvolvimento de agentes inteligentes capazes de reconhecer e aproveitar suas próprias bases de dados

Knowledge Map e Truth Teller

Datastringer

A visão pioneira de John V. Pavlik dispensa metáforas envolvendo armazéns ou megalojas. Há mais de uma década, ele analisa a influência das novas tecnologias no Jornalismo a partir de quatro esferas: a forma como os jornalistas produzem seu trabalho, o conteúdo da informação jornalística, a estrutura de uma redação e a relação entre organizações de mídia e seus interlocutores (PAVLIK, 2000). Em sua participação no II Encontro Internacional de Tecnologia, Comunicação e Ciência Cognitiva182, o professor da Rutgers University atualizou seu modelo de observação, considerando três tecnologias computacionais como forças contemporâneas capazes de influenciar essas quatro áreas: algoritmos, big data e inteligência artificial – nas três, os metadados são elementos basilares. É possível cruzar essas dimensões – que se diluem na cadeia que envolve a produção e distribuição de conteúdos (PELLEGRINI, 2012) – para propor algumas inferências.

A questão central deste trabalho gira em torno da estrutura do conteúdo jornalístico, partindo da premissa de que essa informação pode ser entendida como um sistema e, portanto, formalizada como códigos por trás de um software. Ao mesmo tempo, os computadores se tornaram uma ferramenta indispensável para apuração, produção e distribuição de notícias, conforme evidenciam os processos técnicos listados. As escolhas para essa formalização indicam ainda uma amplitude de processos possíveis: cada veículo que utiliza datasets externos para enriquecer suas próprias bases e produzir conteúdo a partir deles, utiliza estratégias próprias de coleta, filtragem e compartilhamento de dados e esquemas relacionados a eles.

O esforço acadêmico em estabelecer linhas de investigação a partir de conceitos, entre outros, como “Jornalismo de Precisão” (sistematização seminal envolvendo ferramentas das Ciências Sociais), “Jornalismo de Dados” (potencialização dessas práticas por meio de bases computacionais) e “Jornalismo Computacional” (centrado na resolução de problemas por meio de uma visão sistêmica), revela intersecções entre esses caminhos. É nessa área comum que reside a importância dos metadados, que representa a síntese do argumento principal desta tese: qualquer abordagem envolvendo o uso de dados para a produção e distribuição de conteúdos jornalísticos, incluindo suas formas de reaproveitamento especialmente por meio de algoritmos, não pode ignorar os processos de estruturação, seja por meio de marcações ou de esquemas mais complexos.

182

O II EITCCC foi realizado entre os dias 3 e 4 de dezembro de 2015 no campus Rudge Ramos da Universidade Metodista de São Paulo (São Bernardo do Campo, SP).

A multiplicidade de escolhas apresenta, num primeiro momento, níveis de complexidade – desde marcações elementares em páginas HTML até modelagem e relacionamento entre conceitos por meio de padrões semânticos. Entre esses dois pontos estão o controle na quantidade de termos descritivos, a fragmentação de células informativas, visualizações baseadas em dados armazenados em datasets externos e a disponibilização de material bruto para novas apropriações. Constata-se que, além do potencial de interoperabilidade das informações em ambiente digital, a combinação de escolhas se baseia, essencialmente, em propósitos claros: afinal, o que se quer com esses blocos de informação e as ferramentas para encaixá-los? De fato, a sofisticação a partir de um relacionamento matemático entre blocos informativos, baseados em ontologias, e a disponibilização dessa base de dados enriquecida para compor uma nuvem trançada por algoritmos e outras bases na Web são algo promissor. Mas há outros objetivos não menos nobres que também exigem estruturas de metadados, como construir reportagens baseadas em datasets ou mesmo oferecer suporte para a decisão do jornalista ao selecionar ou hierarquizar uma informação (LIMA JUNIOR, 2009).

A definição de propósitos dialoga com os métodos de produção da informação jornalística, bem como com o perfil profissional na redação. Nesse aspecto, há um entendimento de que esse ambiente é menos hostil com quem se dispõe a entender como as tecnologias funcionam. Cabe reconhecer ainda a interdisciplinaridade como fator primordial, impulsionado pelo pensamento computacional. Não se trata de exigir um viés tecnicista do redator que alimenta bases de dados, menos ainda de questionar o responsável por soluções de engenharia por critérios de noticiabilidade. No entanto, ao aproximá-los em equipes cujo objetivo é modelar um sistema capaz de solucionar um problema (obviamente o mesmo para jornalistas e desenvolvedores), pode haver um estímulo em cada uma das partes em explorar, contestar ideias e, consequentemente, desenvolver novas habilidades.

Paralelamente, o quadro de possibilidades técnicas sugere que funcionalidades mais sofisticadas são restritas a poucas iniciativas – no caso das organizações observadas, a BBC demonstra familiaridade com a lógica e a cultura de tecnologias semânticas abertas, enquanto outras estão sendo testadas. Essa percepção está em consonância com o ponto de vista de Everett Rogers (apud POMERANTZ, 2015), de que funcionalidades como ontologias, triplas e padrões de linked data serão adotadas caso sejam percebidas como simples ou de utilidade evidente – algo que já acontece

com folksonomias (MOHERDAUI, 2011) e esquemas de microdados (RONALLO, 2014).

Os propósitos podem estar relacionados a atividades estratégicas, como: a análise de comportamento de usuários e a personalização de conteúdos por meio de dados de navegação; a arquitetura e a organização dos conteúdos, determinando a coerência dos termos e as relações ou a seleção de datasets externos confiáveis; a distribuição de conteúdos em diversas plataformas digitais tendo como base um mesmo sistema tecnológico; ou a trabalhos rotineiros de produção e edição cujos métodos automáticos (ou semiautomáticos) consumiriam menos tempo ou recursos. A relação entre os objetivos e sua complexidade tecnológica implica equipes formadas, entre outros, por cientista de dados, editor de metadados ou especialista em taxonomia e desenvolvedores Web familiarizados com linguagens de marcação como XML e padrões do W3C como RDF – enfim, grupos capazes de delinear fluxos de trabalho e identificar os obstáculos em toda a cadeia produtiva.

Trata-se, no entanto, de um cenário ideal – comparável à expectativa em torno da popularização e adoção de padrões semânticos capazes de traçar a Web de Dados, ideia que vem sendo gestada e executada desde 2001. Se, mesmo na Ciência da Computação, as discussões sobre ferramentas estão longe de ser amadurecidas, no Jornalismo a distância aumenta na medida em que profissionais identificam uma erosão de seus valores diante das necessidades diárias de produzir (PHILLIPS et al., 2009) ou procurar diferenciais em relação ao ecossistema informativo – o que também acaba sendo entendido como “inovação” (WESTLUND; LEWIS, 2014).

Ainda sobre a postura das organizações de mídia, suas escolhas e relacionamento com o público, os veículos observados neste trabalho historicamente apresentam visão estratégica, lideram iniciativas envolvendo tecnologia (o que inclui laboratórios de pesquisa e desenvolvimento) e constroem seus produtos, demonstrando capacidade de influenciar outros grupos de mídia. Mas, se em uma ponta reside uma expectativa por um ambiente onde a informação possa ser reaproveitada de diversas formas, com veículos de mídia sendo considerados datasets, em outra encontram-se estruturas tradicionais, cuja filosofia comercial reconhece produtos valiosos tanto em seus conteúdos quanto na forma como eles são estruturados. Desta forma, iniciativas desenvolvidas internamente, marcadas por opacidade de processos, exclusividade de acesso e hierarquia, colidem com formatos não proprietários, princípios de acessibilidade e colaboração por meio de conexões

rizomáticas em rede. As duas vias se confundem em arranjos flexíveis como nos princípios de inovação aberta (CHESBROUGH; VANHAVERBEKE; WEST, 2006) e estão misturadas às propriedades que cercam esse conceito, tais como experimentação, otimização de processos e competitividade.

Ainda que seja um ponto crucial, não cabe aqui um mergulho extenso em questões ligadas à cultura organizacional, da qual proliferam discussões emaranhadas, que vão da propriedade intelectual à obrigatoriedade do diploma para jornalistas. No entanto, uma potencial variável – que pode regular quais conteúdos podem ser compartilhados – está na prestação de contas, atributo intrínseco ao Jornalismo. Da mesma forma que outras organizações que geram dados de relevância social, “abrir o código” (como na disponibilização de planilhas ou APIs) amplifica não apenas a reutilização dos dados em outras aplicações (como se espera com a Web de Dados), mas também a checagem de informações. É a mesma razão, segundo Stavelin (2013), que deve ser levada em conta quando se utilizam algoritmos para construir uma reportagem: deve haver um equilíbrio entre a estratégia de negócios e a transparência sobre a origem e o método de processamento.

Seja qual for a escala, a teoria e a prática do Jornalismo são capazes de se fortalecer, caso a adoção de tecnologias associadas a esquemas de metadados que favoreçam a interoperabilidade da informação não seja entendida como “inovação no jornalismo”, mas sim como um “jornalismo inovador”. Em outras palavras, não existiriam casos para um estudo se não houvesse uma visão segundo a qual as conexões interdisciplinares entre as áreas do conhecimento comuns à Comunicação e à Tecnologia são capazes de produzir inovação, e não apropriações que conduzem produtos e processos aos becos sem saída das experimentações. Como essa e outras conjecturas fogem das inferências possíveis a partir das observações apresentadas, o trabalho abre caminho para sua parte final.

CONCLUSÃO

Antes de reforçar a pertinência dos metadados na estruturação do Jornalismo na Web e encaminhar inquietações para novas investigações, um adendo: apesar de seguir uma sequência estabelecida no Manual de Normas Técnicas para apresentação de teses elaborado pela instituição183, o termo “introdução” poderia ser substituído por “considerações de andamento”, pois as ideias reunidas ali já foram introduzidas, em outro momento. Da mesma forma, soa pretensioso apresentar uma “conclusão” diante de uma jornada incompleta, na qual ainda há muito a percorrer. Seria bem mais adequado nominar este encerramento como “considerações de encaminhamento”184.

Enfim, durante o processo de pesquisa e construção deste trabalho, as primeiras iniciativas de transposição de conteúdos jornalísticos para a Web completaram 20 anos. Neste espaço onde veículos que procuram aproveitar o máximo de recursos coexistem com outros que, no jargão grosseiro dos desenvolvedores, podem ser batizados de “shovelware” (conhecidos pelo seu exagero de funcionalidades, e não pela utilidade deles), foram percebidas iniciativas tão interessantes quanto o Structured Stories ou tão audaciosas quanto o GDELT (ambas já mencionadas), que contemplam o escopo do jornalismo estruturado por metadados.

O WordLift185 se apresenta como um editor de anotações semânticas voltado

para usuários do popular sistema de gerenciamento WordPress, que combina as informações publicadas com as ligações possíveis por meio de linked data. Desenvolvedores de Sevilha, na Espanha, lançaram um sistema de gerenciamento de conteúdos em código aberto voltado para tecnologias semânticas abertas: é a

183

Elaborado pela professora Cicilia Peruzzo, disponível em: <http://portal.metodista.br/poscom/area- do-aluno/manual-normas-tec-poscom-2013.pdf>. Acesso em: 4 nov. 2014.

184

Adendo similar ao usado na dissertação de mestrado do autor. A sugestão foi emprestada de Clóvis de Barros Filho e Arthur Meucci, que usaram palavras semelhantes no livro A vida que vale a

pena ser vivida (Petrópolis: Vozes, 2010).

185

plataforma Ximdex186. Já os holandeses da Xillio 187 conceberam um projeto denominado Content ETL, sigla para “Extract, Transform, and Load”, que diz respeito ao processo de unificar dados de diferentes repositórios – traduzindo, é um sistema proprietário que auxilia na integração de datasets, eliminando silos informativos.

No Brasil, o algoritmo WarRoom, desenvolvido pela Stilingue188, baseia-se em processamento de linguagem natural, mineração de dados e outros algoritmos para extrair relações de dados não estruturados, como sites, blogs, comentários em portais... Milhares deles, em língua portuguesa e em tempo real. Criada por profissionais da Ciência da Computação, a ferramenta é voltada para a inteligência de mercado. Por fim, a búlgara Ontotext189, que oferece serviços de pesquisa e desenvolvimento em tecnologia semântica, desenvolveu um sistema chamado “Semantic Publishing Platform”, que combina funcionalidades de anotações semânticas e armazenamento de triplas. Uma demonstração do software pode ser vista no protótipo Now Ontotext190, uma amostra de tecnologias semânticas guiada por dados estruturados que conecta conceitos e gera uma publicação dinâmica. É possível navegar tanto por assuntos (editorias) quanto por links automáticos, produzindo experiências personalizadas e adaptadas ao usuário.

Provavelmente outras empresas, sejam de grande porte ou startups, estão sendo criadas, enquanto outras interrompem atividades. Entre esses exemplos, apenas o plugin voltado para blogueiros e jornalistas – além da suíte oferecida pela Ontotext (também oferecida a bibliotecas, museus e ambientes virtuais de aprendizagem) – descreve com clareza as organizações de mídia como público possível. Ainda assim, tanto esse quanto os demais exemplos foram planejados e executados por profissionais sem nenhuma relação com a área de Comunicação. Mesmo que as ideias por trás de cada sistema possam se adaptar a qualquer tipo de conteúdo publicado na Web, elas não foram designadas para o Jornalismo, reforçando o argumento de que as inovações mais interessantes acontecem fora das organizações de mídia (GYNNILD, 2014). O Jornalismo vive momentos de incerteza, mas não dá para imaginar um futuro sem diálogo com aplicações, linguagens, técnicas e plataformas. Até porque, se

186

Disponível em: <http://www.ximdex.com>. Acesso em: 25 maio 2016. 187

Disponível em: <http://www.xillio.com>. Acesso em: 10 jun. 2016. 188

Disponível em: <http://www.stilingue.com.br>. Acesso em: 25 maio 2016. 189

Disponível em: <http://www.ontotext.com>. Acesso em: 25 maio 2016. 190

recuperarmos a teoria crítica oriunda da Filosofia da Tecnologia, quem conduz o processo de inovação não é quem o usa, mas sim quem o constrói.

Uma outra situação pode ser usada para reforçar a necessidade de o Jornalismo construir suas próprias ferramentas. Considere um programa jornalístico televisivo com boletins de trânsito. Para apoiar sua informação, o apresentador se utiliza de uma visualização do Waze, sistema que faz o mapeamento e a localização de ruas e avenidas em cidades com o intuito de indicar os melhores trajetos com base em coleta de informações sobre tráfego191. Ao final do boletim, o âncora faz um convite ao telespectador: “as informações do Waze, você vê em detalhes no site de nossa emissora”.

Independentemente da estranheza de chamar um software por meio de sua página, posicionando-se como um intermediário (evidente que existem questões comerciais que se sobrepõem aí), deve-se observar de que modo um sistema, apoiado por aplicativos instalados em dispositivos móveis conectados à internet durante a circulação de automóveis, faz com que boletins tradicionais, com repórteres em carros ou helicópteros, pareçam anacrônicos, obsoletos. Com o cruzamento de datasets com metadados que dialogam informações de trânsito a partir de máquinas, cada dispositivo conectado recebe um produto único, personalizado, adaptado às necessidades do usuário, apresentando qualidade informativa diferenciada. E onde está o jornalista nesse momento?

Durante os anos 1990, redações buscavam adaptações com a introdução maciça de computadores pessoais, compreendidos nesse princípio como um “tipo avançado de máquina de escrever”. Da mesma forma que o potencial das máquinas computacionais vem sendo reconhecido nas últimas duas décadas, é preciso dialogar ainda mais com tecnologias digitais para extrair relevância de suas bases de dados. A proximidade entre os sistemas e os processos de produção de notícia demonstra a importância de ir além da pirâmide invertida: a informação jornalística deve ter atributos que não apenas ressoem diante dos olhos de quem as vê, mas que também facilitem ações como armazenamento, recuperação e seleção, bem como permitam

No documento Download/Open (páginas 139-163)