Apresentação e observação de veículos jornalísticos

Capítulo V – OBSERVAÇÃO E DISCUSSÃO

5.1 Apresentação e observação de veículos jornalísticos

Antes de desembarcar no Brasil por meio de sua versão digital em português108 em novembro de 2013, o diário espanhol El País já apresentava formatos que procuravam aproveitar o ambiente Web, notadamente o uso de infográficos animados (RAMOS, 2011). No contexto da gestão de conteúdos por meio de metadados, chama atenção o sistema colabulário, aglutinação dos termos “colaboração” e “vocabulário” (RUBIO LACOBA, 2012).

Trata-se do sistema de gestão da informação do periódico, lançado em 2012 como parte da reestruturação da redação promovida naquele ano109. A autora Maria Rubio Lacoba (2012), que em seu artigo valoriza o trabalho dos responsáveis pela documentação, define o projeto como um protocolo de etiquetas que incorpora palavras obtidas a partir de relatórios de acesso – basicamente, uma seleção de termos pesquisados por usuários em mecanismos de busca – a vocabulários controlados. O acesso à lista de termos é feito por meio do sistema de gerenciamentos: o redator seleciona os termos mais adequados, tornando a rotina documental dos jornalistas mais organizada, ágil e intuitiva.

Segundo Rubio Lacoba, em outubro de 2012, o vocabulário controlado do El

País contava com 74 mil termos, entre temas, personagens, organizações, lugares e

eventos. Pelo volume de termos empregados, a iniciativa se torna flexível, bem próxima ao que se vê no uso de folksonomias, assimilando-se a um nível de marcação.

108

Disponível em: <http://brasil.espais.com>. Acesso em: 20 abr. 2016. 109

Alguns detalhes desse processo estão no texto “Bienvenido a la Revolución”, disponível em: <http://blogs.elpais.com/el-cambio-por-dentro/2012/02/bienvenido-a-la-revolucion.html>. Acesso em: 20 abr. 2016.

Figura 5.1 – Código-fonte de uma notícia do site El País

Fonte: MENÁRGUEZ, 2015.

A Figura 5.1 reproduz algumas linhas de código HTML de uma notícia do portal. Logo nas primeiras linhas é possível encontrar etiquetas <meta> com informações de identificação. Em algumas delas, aparecem alguns atributos: “DC” (da especificação Dublin Core) e “og” (referente ao padrão Open Graph, adotado pelo

Facebook). Nas linhas seguintes, links referentes a seções do portal e tags adotadas

para a matéria são acompanhados dos atributos “itemprop”, “itemtype” e “itemscope”, indicativos do padrão de microdados Schema.org. A presença desses metadados também pode ser identificada por meio da ferramenta de análise de dados estruturados do Google110. Combinada com outras iniciativas comuns à maior parte dos veículos jornalísticos na Web, temos o uso mais frequente de metadados em uma estrutura informativa – até por conta disso, tais evidências não se repetirão nos veículos jornalísticos digitais escolhidos como unidade de análise, visto que devem apresentar níveis de utilização mais sofisticados.

110

Quadro 5.1 – Metadados em bases de dados jornalísticas do El País Nível Característica Evidência

Marcações Utilização de marcações HTML elementares na

área de identificação da página Web

("<head>"), normalmente etiquetadas por meio do atributo <meta>

Identificação visual a partir do código-fonte da página

Identificação visual de campos como título, autor, data de publicação e/ou modificação e corpo do texto

Identificação visual por meio do navegador

Organização de conteúdos em nível primário por meio de editorias, categorias ou termo similar

Identificação visual por meio do navegador

Utilização de tags ou palavras-chave para relacionar conteúdos em nível primário

(folksonomias)

Projeto Colabulário

Esquemas Utilização de marcações HTML controladas na

página Web, como Dublin Core, microformatos, microdados ou RDFa

Identificação visual a partir do código-fonte da página Fonte: Produzida pelo autor.

Globo.com (Brasil)

O maior conglomerado de mídia no Brasil realiza, eventualmente, um

hackaton111. Em essência, times formados por desenvolvedores, jornalistas, designers e outros profissionais são “confinados” por um dia e meio na mesma casa-estúdio do programa Big Brother Brasil. Os participantes dispõem de conexão à internet e acesso a informações privilegiadas para desenvolver projetos inovadores ligados à produção e distribuição de conteúdo. É uma iniciativa de inovação aberta rara em veículos de mídia no Brasil. Ressalta-se, a partir de um dos tópicos do regulamento, que “abertura” não significa “livre”.

A Globo, como uma empresa de grande porte e com grande viés na área de tecnologia, está sempre desenvolvendo projetos na área de Tecnologia de Produção, envolvendo os mais diversos temas, inclusive os temas que poderão ser desenvolvidos e apresentados no decorrer do Evento. Em virtude disso, a Globo poderá implementar, por coincidência, a qualquer momento, eventuais projetos que possam conter ideias e conceitos idênticos ou semelhantes àqueles desenvolvidos na Hackathon, sem que isso signifique dizer que seja devido ao participante qualquer remuneração ou compensação neste sentido, salvo no caso de comprovação cabal e inequívoca de que se trata de projeto de sua autoria, o que somente deverá ocorrer através dos meios judiciais cabíveis112.

111

Informações sobre edições atualizadas podem ser obtidas em: <http://hackathonglobo.com>. Acesso em: 20 abr. 2016.

112

Por ser uma camada oculta dentro da página de abertura, o acesso ao texto se dá por meio do link. “regulamento” a partir de <http://hackathonglobo.com>. Acesso em: 20 abr. 2016.

Apesar da postura de valorização estratégica de seus produtos, que preserva suas funcionalidades e avanços ao público interno, a atuação de seus programadores113 e pesquisadores114 não esconde a postura da organização: seu conteúdo é entendido como software. Assim, times editoriais trabalham em conjunto com equipes de desenvolvimento – tanto nos pilares da infraestrutura tecnológica quanto na concepção de produtos diferenciados. Não é comum, por exemplo, uma empresa de mídia no Brasil recrutar um cientista de dados capaz de usar “conhecimentos de áreas como modelagem estatística, aprendizado de máquina, processamento de linguagem natural e recuperação da informação” com objetivos, entre outros, de “gerar recomendação de conteúdo relevante para o usuário de modo a melhorar a sua experiência nos sites”115.

Entre os profissionais que atuam próximos aos times editoriais, há o responsável pela alimentação dos dados do SDE, Sistema de Dados Esportivos, coração do site Globoesporte.com. Este editor mantém atualizado ao longo do tempo um esquema de campeonatos e jogos, elencos dos clubes, resultados e estatísticas de partidas, entre outras informações (PENA, 2012). A alimentação do SDE pode ser feita manualmente ou por processos automatizados. Há ainda uma API, restrita aos profissionais do site.

A Figura 5.1 sintetiza a importância desse esquema informativo: ao mesmo tempo que repórteres, redatores e setoristas (profissionais responsáveis pela cobertura intensiva de clubes de futebol) podem produzir conteúdo baseado nas informações do SDE, a mesma base é útil em conteúdos alternativos, como o Futpedia116, repositório organizado de fichas de jogos, e o Cartola FC117, fantasy game baseado no desempenho individual de clubes, jogadores e técnicos do Campeonato Brasileiro da Série A.

113

Ver o blog dos desenvolvedores da Globo.com, disponível em: <http://dev.globo.com>, bem como seu repositório aberto de projetos, em: <http://opensource.globo.com>. Acesso em: 20 abr. 2016. 114

Ver: <http://research.globo.com>. Acesso em: 20 abr. 2016. 115

Atributos pinçados de anúncio disponível em: <https://br.linkedin.com/jobs/view/65685716>. Acesso em: 20 abr. 2016.

116

Disponível em: <http://futpedia.globo.com>. Acesso em: 20 abr. 2016. 117

Figura 5.2 – Esquema simplificado do Sistema de Dados Esportivos da Globo.com

Fonte: PENA, 2012, p. 39.

O trabalho de Rafael Pena (2012) sugere um modelo semântico semiautomático para a produção de notícias de futebol, que faria, essencialmente, uma conexão entre o SDE e duas bases semânticas, descritas por meio de uma ontologia, capaz ainda de dialogar com bases externas a partir de padrões de linked

data. Trata-se de um protótipo apresentado em um trabalho acadêmico, mas que

reforça uma preocupação dos desenvolvedores da empresa manifestada em outras situações118.

Em 2011119 já se identificava a profusão de conteúdos capazes de gerar potencial ruído nos resultados de uma busca. As três áreas que compõem o portal (notícias, esportes e entretenimento) possuem, muitas vezes, assuntos semelhantes com pontos de vista diferentes: Romário, por exemplo, pode ser entendido como ex- jogador pelo Globoesporte.com, senador da República pelo G1 e celebridade pelo

Gshow. A saída, que motivou um projeto a partir de janeiro de 2009, baseia -se em

uma ferramenta de anotação semântica integrada ao sistema de publicação de conteúdos, adaptada a ontologias projetadas e adequadas para cada domínio informativo. Profissionais do time de desenvolvimento ainda perseguem esse objetivo. Um novo protótipo, que leva em conta matérias que se relacionam entre si a

118

Alguns exemplos destas implementações podem ser encontradas no portfólio de Renan Oliveira: <http://renanoliveira.net>. Acesso em: 12 mar. 2015.

119

partir do modelo de ontologia Storyline, da BBC120, também foi construído e experimentado a partir da base de dados do Globoesporte.com (DIAS, 2014).

Quadro 5.2 – Metadados em bases de dados jornalísticas da Globo.com Nível Característica Evidência

Esquemas Incorporação de dados estruturados externos

para enriquecer suas próprias bases

Sistema de Dados Esportivos

Codificação manual de fragmentos de informação, a partir do CMS, utilizando anotações semânticas

Projetos e protótipos internos

Ontologias Relacionamento de conceitos (sujeitos, objetos

ou lugares) em ontologias por meio de triplas usando tecnologias como RDF

Projetos e protótipos internos

Intercâmbio Abertura de conteúdos por meio de API,

permitindo a criação e a interoperabilidade de dados para múltiplos dispositivos e plataformas

API do Sistema de Dados Esportivos (apenas para uso interno ou autorizado) Conexão de conceitos com dados externos

(datasets) por meio de tecnologias semânticas padronizadas pelo W3C

Projetos e protótipos internos

Fonte: Produzida pelo autor.

The Washington Post (EUA)

Mesmo antes de ser comprado por Jeff Bezos, em 2013, o jornal norte- americano era lembrado pela sua aproximação entre Jornalismo e Computação graças a Adrian Holovaty. Anos após ter recebido US$ 1 milhão do Knight News Challenge para lançar o EveryBlock.com, site pioneiro em informação hiperlocal, ele fez uma provocação em seu blog: afinal, dados podem se tornar jornalismo? É jornalismo disponibilizar um banco de dados na rede? “Aqui, enfim, minha resposta definitiva, em duas partes: 1. Quem se importa? 2. Espero que meus concorrentes percam o maior tempo possível discutindo isso” (HOLOVATY, 2009, tradução nossa)121, escreveu o ex-editor de inovação do The Washington Post que, em sua carreira, enxergou a relação entre computação e jornalismo como uma oportunidade.

No mesmo ano da aquisição pelo fundador da Amazon, surge um protótipo chamado Truth Teller – uma combinação de algoritmos para processamento de linguagem natural e cruzamento de dados com o intuito de verificar, em tempo real,

120

Disponível em: <http://www.bbc.co.uk/ontologies/storyline>. Acesso em: 20 abr. 2016. 121

Versão original: “It’s a hot topic among journalists right now: Is data journalism? Is it journalism to publish a raw database? Here, at last, is the definitive, two-part answer: 1. Who cares? 2. I hope my competitors waste their time arguing about this as long as possible”.

informações declaradas por políticos em vídeos122. Não é possível saber seu grau de sucesso, mas este “cativante, para não dizer excessivamente otimista exemplo de Jornalismo Computacional, mostra que a comunidade do jornalismo tem problemas que eles gostariam de resolver usando computadores” (STAVELIN, 2013, p. 42, tradução nossa)123.

O executivo impulsionou o direcionamento do jornal norte-americano como uma “empresa de tecnologia”: o time de engenheiros triplicou entre 2014 e 2016, espalhado em meio a equipes editoriais e comerciais. Entre os resultados da sinergia entre esses profissionais está a base de dados sobre policiais mortos nos EUA – foram 990 em 2015. Os dados, transformados em reportagens e visualizações124, renderam ao The Washington Post o prêmio Pulitzer.

Construída em detalhes por Julie Tate, Jennifer Jenkins e Steven Rich, a referida tabela reúne minuciosas informações de fontes oficiais e não oficiais (inclusive por meio de vídeos enviados pelo público) – entre elas, o local do incidente, gênero, idade e etnia da vítima, arma utilizada e as circunstâncias da ocorrência. Essa base de dados foi disponibilizada para download no GitHub125, um repositório para compartilhamento de informações normalmente usado para a colaboração de desenvolvedores. Ou seja: qualquer usuário pode reutilizar os mesmos dados em outros projetos.

Outro resultado da visão que estabelece o “jornal como software” é a plataforma de gerenciamento de conteúdo Arc126, que flexibiliza a apresentação de textos, além de favorecer a geração de relatórios com métricas e funcionalidades de marketing. Além de incorporar novas funcionalidades de acordo com as demandas da redação, o sistema também se tornou um produto.

Em 2015, uma nova funcionalidade do Arc foi testada: chamava-se Knowledge

Map. Um exemplo de sua utilização é o artigo (mencionado na introdução deste

122

O lançamento da iniciativa pode ser lido em “Announcing Truth Teller beta, a better way to watch political speech”. Disponível em: <https://www.washingtonpost.com/news/ask-the-

post/wp/2013/09/25/announcing-truth-teller-beta-a-better-way-to-watch-political-speech/>. Acesso em: 20 abr. 2016.

123

Versão original: “A captivating, if not to say overly optimistic, example of computational journalism [...]. How successful Truth Teller was is so far unanswered, but the idea shows that the journalism community has problems they would like to solve using computers”.

124

Disponível em: <http://www.washingtonpost.com/graphics/national/police-shootings/>. Acesso em: 20 abr. 2016.

125

Disponível em: <http://github.com/washingtonpost/data-police-shootings>. Acesso em: 20 abr. 2016.

126

trabalho) Why the Islamic State leaves tech companies torn between free speech and

security127. O texto discute questões de privacidade e segurança a partir da utilização de comunicadores on-line e de redes sociais pelo Estado Islâmico. Durante a leitura, as expressões e questões são acompanhadas pelo sinal (+) e identificadas (ou sublinhadas) por uma cor de destaque. Um clique nesses elementos revela uma janela com informações adicionais de contexto. Diferentemente de um link para outra URL, esse conteúdo relacionado é integrado à visualização.

Ao contrário do trabalho de coleta, filtragem e compartilhamento de dados sobre policiais assassinados, a relação entre informações e metadados no exemplo do

Knowledge Map é inversa: as próprias reportagens, e não tabelas, produzem as

conexões que resultam em novas histórias. Na prática, a base de dados informativa compõe um dataset, com termos associados a blocos de texto que se conectam em um esquema controlado. Ao apresentar o conceito, o diretor de Engenharia para Data

Science, Sam Han, apresenta outras técnicas por trás dessa construção.

Esta interação dá margem para o uso de técnicas de mineração de dados para identificar e apresentar conteúdo textual aos nossos leitores. Também estamos trabalhando em aplicações paralelas para impulsionar o engajamento com o nosso conteúdo de publicidade nativa. Nosso objetivo final é minerar grandes quantidades de dados e apresentar informações personalizadas e contextualizadas tanto para o jornalismo quanto anúncios. (THE WASHINGTON POST TESTS NEW KNOWLEDGE MAP FEATURE, 2015, tradução nossa)128.

Quadro 5.3 – Metadados em bases de dados jornalísticas do The Washington Post Nível Característica Evidência

Esquemas Incorporação de dados estruturados externos

para enriquecer suas próprias bases

Dados sobre policiais mortos nos EUA em 2015

Construção de conteúdos baseados em termos controlados por meio de fragmentos de texto reutilizáveis

Projeto Knowledge Map

Intercâmbio Abertura de conteúdos por meio de uma

plataforma de compartilhamento

Dados sobre policiais mortos nos EUA em 2015

Desenvolvimento de agentes inteligentes, capazes de reconhecer e aproveitar suas próprias bases de dados

Projetos Knowledge Map e

Truth Teller

127

Disponível em: <http://www.washingtonpost.com/world/national-security/islamic-states-embrace- of-social-media-puts-tech-companies-in-a-bind/2015/07/15/0e5624c4-169c-11e5-89f3-

61410da94eb1_story.html>. Acesso em: 6 nov. 2015. 128

Versão original: “This iteration sets us up to use data mining techniques to identify and surface contextual content for our readers. We are also working on parallel applications to drive engagement with our native advertising content. Our ultimate goal is to mine big data to surface highly personalized and contextual data for both journalistic and native content”.

Fonte: Produzida pelo autor.

The New York Times (EUA)

“Somos uma empresa de notícias, não uma empresa de jornal”. A frase, pinçada de um memorando interno do jornal The New York Times enviado por Arthur Sulzberger e Janet Robinson, é lembrada como exemplo de compromisso com a informação, seja qual for a plataforma. Os projetos apresentados no seu portfólio de inovação129, bem como em seu Laboratório de Pesquisa e Desenvolvimento130, reforçam essa máxima.

Um artigo de Alexis Lloyd, diretora criativa do Research & Development

Group, revela que o Project Editor131, por exemplo, “analisa a forma como alguns fragmentos de informação granulares podem ser criados por meio de sistemas colaborativos que dependem fortemente de aprendizado de máquina, bem como

inputs editoriais”132. Ainda que o processo de codificação de matérias seja valorizado, de acordo com o projeto seria possível contextualizar e recombinar blocos de conteúdo a partir da anotação desses componentes. Em suma, um processo traduzido em dois desafios: um são os algoritmos capazes de processar essa base de dados e de identificar entidades (pessoas, locais, organizações, eventos); o outro é o jornalista, que deve ser preciso ao realizar anotações manuais.

De toda forma, ainda se trata de um protótipo: atualmente, as marcações são aplicadas ao artigo completo – o que não significa ausência de iniciativas nesse sentido. Em 2007, o então arquiteto de software do NYT, Jacob Harris, descrevia a importância dos metadados para a desambiguação, síntese da notícia, consistência das palavras-chave e categorização a partir de domínios específicos – segundo a taxonomia do jornal, um mesmo artigo pode ser rotulado como “aquecimento global” ou “poluição”133. Desta forma, a primeira preocupação está na definição de termos controlados. São 10 mil conceitos mapeados, entre pessoas, lugares, organizações e outras descrições. Há uma versão beta desses termos disponibilizada como linked

129

Disponível em: <http://www.nytinnovation.com>. Acesso em: 20 abr. 2016. 130

Disponível em: <http://nytlabs.com>. Acesso em: 6 nov. 2015. 131

Mais informações em: <http://nytlabs.com/projects/editor.html>. Acesso em: 6 nov. 2015. 132

“The Future of News is not an Article”. Disponível em:

<http://nytlabs.com/blog/2015/10/20/particles/>. Acesso em: 6 nov. 2015. 133

“Messing Around With Metadata.” Disponível em:

<http://open.blogs.nytimes.com/2007/10/23/messing-around-with-metadata/>. Acesso em: 12 mar. 2015.

open data para utilização em outras aplicações134. A área de desenvolvedores do jornal135 inclui ainda documentação para utilização de APIs específicas, nas quais é possível obter informações relacionadas ao acervo do jornal: busca por artigos e seus termos controlados, críticas de livros e filmes e informações geolocais.

Esse mapeamento se refere a um volume de informação centenário. O jornal é pioneiro na digitalização e disponibilização de seu acervo desde sua primeira edição, em 1851136. Pesquisadores e interessados em relacionar computação e linguagem podem obter, mediante pagamento, uma versão em XML contendo artigos publicados entre 1987 e 2007137. O experimento, batizado de “The New York Times Annotated

Corpus”, reúne 1.8 milhões de artigos, sendo que 1.5 milhão possuem algum tipo de

anotação estruturada. O fato de ele disponibilizar uma API ou um corpus para pesquisa permite que outras pessoas, fora do âmbito da redação, desenvolvam projetos e aplicações úteis. Exemplos de sistemas construídos a partir desse corpus podem ser encontrados como resultado do HCIR Challenge 2010, um desafio organizado durante a quarta edição do evento Human-Computer Interaction and

No documento Download/Open (páginas 120-139)