Uso de Big Data na comunicação - Big Data está entre nós

CAPÍTULO IV – HIPERLOCAL E BIG DATA

2. Big Data está entre nós

2.1 Uso de Big Data na comunicação

Com a expansão da web, muitas informações foram jogadas na rede e com isso, temos também o aumento de grande volume de compartilhamento de dados. Assim, o número de bases de dados tem crescido de forma rápida e acelerada. Na internet, muitos dados estão indexados e são fáceis de serem encontrados via mecanismos de busca, como Google, Yahoo!, DuckDuckGo e entre outros buscadores. Outra parte, que é bem maior, está desestruturada e espalhada ou espelhada na rede que chamamos de Deep Web, que é a rede ainda não explorada, ou melhor, indexada pelos mecanismos de busca padrão. E lá é um caminho para se conseguir bastante informação para se construir um conteúdo com qualidade e útil para a sociedade da informação em que vivemos, a era do Big Data. Esse termo é nada mais que um grande conjunto de dados armazenados, são grandes dados complexos, muito grandes em que poucos aplicativos, softwares, dispositivos de dados conseguem fazer a exploração destas informações, pela densidade e pelo tempo que o próprio computador demora para fazer o levantamento. Como o pesquisador Walter Teixeira Lima Júnior encontrou em seu artigo “Big Data, Jornalismo Computacional e Data Jornalismo”.

"Big data" refere-se ao conjunto de dados (dataset) cujo tamanho está além da habilidade de ferramentas típicas de banco de dados em capturar, gerenciar e analisar. A deﬁnição é intencionalmente subjetiva e incorpora uma deﬁnição que se move de como um grande conjunto de dados necessita ser para ser considerado um big data (LIMA JR apud CHUI et al,

2006, p.211).

Estas informações podem ser retiradas dos computadores, smartphones, relógios inteligentes, câmeras digitais, softwares, RFID, sensores de terra, sensores aéreos e claro, além da própria web que nós manuseamos normalmente no dia a dia, conhecida por Surface Web e da Deep Web.

Mike Bergman, dono da empresa Bright Planet78_{, foi o primeiro a cunhar o termo}

Deep Web. Ele acrescenta que a busca por informação neste ambiente pode ser

comparada a derramar líquido em um oceano. Pois, se atualmente na "Era da Informação" os dados são mais importantes e podem mudar cenários, fatos, histórias

78_{BrightPlanet: deep web inteligente. Disponível em: <http://www.brightplanet.com/>. Acesso em: 1}

e rumos, a deep web é apenas mais um dos caminhos ou alternativas que podem trazer informações necessárias para se construir conteúdo, fato ou história.

Na atual configuração tecnológica proporcionada pela Internet, estruturada pelo intermédio do aumento de velocidade de transmissão, pela evolução das máquinas computacionais com grande capacidade de processamento e armazenamento de dados, com o desenvolvimento de linguagens de programação cada vez mais amplas e que negociam de várias formas com robustos bancos de dados, a atuação profissional do Jornalismo também deve possuir outras configurações (LIMA JR., 2012, p. 210).

No whitepaper escrito por Bergman, com o título The Deep Web: Surfacing

Hidden Value, informa que foi realizado um estudo quantitativo do volume e quantas

informações existem na camada menos explorada e mais volumosa de dados na web. O levantamento chegou nos seguintes números: a informação pública na rede profunda é de atualmente 400 a 550 vezes maior que o volume de dados na World

Wide Web79_{; lá também tem pelo menos 7.5TB (terabytes) de informação comparados}

aos 19 terabytes de informações na surface web ou web superficial; na deep web tem 550 bilhões de documentos individuais se comparado com um bilhão na surface web; há pelo menos 200 mil sites nas profundezas da web; 70 dos maiores sites da deep

web contém coletivamente cerca de 750TB de informação, ou seja, 40 vezes o

tamanho da web convencional; os sites profundos recebem 50% mais tráfego mensal que os sites indexados na web superficial e os sites na deep web são mais ativos que os sites na superfície; a qualidade da deep web é de 1 mil a 2 mil vezes superior que a da web na superfície; o conteúdo na web profunda é relevante para as necessidades de informação, mercado e de domínio; mais da metade do conteúdo da deep web está classificado em bancos de dados específicos; e 95% das informações vindas da web profunda é acessível e gratuita ao público, sem cobrança de taxas ou assinaturas (BERGMAN, 2001).

A deep web deve ser citada para se pensar como mais uma alternativa na reconstrução ou reconfiguração do jornalismo e quando se não é possível conseguir informações por meios oficiais, é necessário fazer uma investigação digital com meios

79_{A World Wide Web, conhecida como Web ou WWW, é um sistema de documentos em hipermídia}

que são interligados e executados na Internet. Os documentos podem estar na forma de vídeos, sons, hipertextos e figuras. Para consultar a informação, pode-se usar um programa de computador chamado navegador (browser) para descarregar informações chamadas "documentos" ou "páginas" de servidores web e são mostrá-los na tela do usuário. O usuário pode então seguir as hiperligações na página para outros documentos ou mesmo enviar informações de volta para o servidor para interagir com ele. O ato de seguir as hiperligações é chamado de 'navegar na web'.

tecnológicos apropriados para se chegar a verdade, a transparência, que tudo fique as claras, que é uma das premissas do jornalismo.

Com o grande aumento de banco de dados, a informação pode ser colhida e direcionada para várias finalidades, e claro, até mesmo para a prática do bom jornalismo numa sociedade complexa bombardeada com muita informação vinda de todas as camadas da web. Mesmo com a surface web ou web superficial, é possível conseguir algumas informações importantes para construir informações que possam ser propagadas pela mídia e que possam ajudar na tomada de decisão das pessoas. A mídia tradicional já trabalha para conseguir dados por meio de hacking journalism, para explorar novas habilidades para encontrar novas oportunidades de desenvolvimento de mídia e conteúdo que tenham relevância e valor social. Este trabalho acontece por meio de estratégia com apoio das máquinas.

A “Era do Big Data” fortalece o conceito de hacking journalist. Tal configuração profissional tem se consolidado devido à compreensão sobre as novas habilidades funcionais que o produtor de conteúdo informativo de relevância social deve ter para atuar em um novo ecossistema midiático, suportado por máquinas computacionais conectadas em redes telemáticas (LIMA JR., 2011, p. 51).

Além disso, já é possível conseguir informações antes restritas só aos governos

por meio Lei de Acesso à Informação – LAI (Lei 12.527, de 18 de novembro de 2011)80_,

como é o caso do Brasil e por aí é a porta de entrada da exploração da surface web, onde é possível entrar nas redes dos governos, para agilizar o acesso ao grande volume de dados públicos para que possam ser mensurados para determinada finalidade jornalística, como por exemplo, investigar os gastos públicos de políticos, como aconteceu no The Guardian, ou para rastrear o envio de verbas públicas federais aos municípios e se eles estão gastando o dinheiro conforme as diretrizes das leis federais, por exemplo.

E é claro, como contextualizado anteriormente, a deep web é uma grande protagonista, vide o caso da organização sueca Wikileaks, originada e consciente da

cultura da web profunda, recebeu vários documentos secretos vazados de governos

e empresas sobre assuntos delicados, como espionagem, telegramas secretos de governos, manual de instruções para tratamento dos presos na prisão norte-

80_{Lei de Acesso à Informação – LAI.}_{Disponível em: <http://www.planalto.gov.br/ccivil_03/_ato2011-}

americana de Guantánamo, em Cuba, que continham orientações sobre como torturar os prisioneiros e humilhá-los para extrair informações deles, arquivos ocultos do governo dos Estados Unidos sobre a guerra no Afeganistão, que reportou a morte de vários civis e a morte dois jornalistas da agência de notícias Reuters durante a ocupação do exército norte-americano no Iraque.

Essas informações que foram vazadas pelo site Wikileaks contou com o apoio de vários jornais de grande circulação na Europa e Américas como The Guardian, The

New York Times, Le Monde, El Pais, Der Spiegel, Folha de S. Paulo81_{e O Globo para}

divulgar os telegramas confidenciais e secretos do Departamento de Estado dos Estados Unidos. Os documentos foram localizados e separados de acordo com cada nacionalidade da publicação jornalística. No caso do Brasil, a Wikileaks conseguiu

mais de 2000 telegramas e documentos em que os Estados Unidos citavam o País82_.

Ainda em 2011, o site saiu do ar devido a brigas internas na organização, pressões políticas e a falta de financiamento para manter a página funcionado. Para complicar mais a situação da Wikileaks, que recebia doações por meio de sistemas de cartão de crédito ou de pagamento digital, foram pressionadas a bloquear o envio de dinheiro doado a organização. Instituições financeiras norte-americanas como

PayPal, Mastercard e Visa sofreram fortes pressões políticas, principalmente dos

Estados Unidos para que fosse realizado o bloqueio83_.

Em 2012, o criador Julian Assange, que recorria na justiça inglesa da decisão de extradição à Suécia devido a acusação de crimes sexuais, teve de ir para um asilo político na embaixada do Equador, em Londres, na Inglaterra. Assange alega que essa extradição seria uma consequência pela publicação dos documentos vazados dos governos e empresas que foram publicados pelo WikiLeaks, com apoio de parte da mídia mundial. Este caso foi uma estratégia editorial global que funcionou, pois foi possível a partir de uma boa articulação, habilidade de estruturação de informação

81_{WIKILEAKS: Segredos da Diplomacia. Folha de S. Paulo. Disponível em}

<http://www1.folha.uol.com.br/ especial/2010/wikileaks/>. Acesso em: 31 mar. 2016.

82_{RODRIGUES, Fernando. Folha e WikiLeaks: como se estabeleceu o contato. Folha de S. Paulo,} São Paulo, 06 fev. 2011. Disponível em: <http://www1.folha.uol.com.br/fsp/ilustrissima/il06022011 07.htm>. Acesso em: 31 mar. 2016.

83 _{SILVA, Rafael. WikiLeaks suspende publicação de documentos por falta de dinheiro. Tecnoblog.} Disponível em: <https://tecnoblog.net/80556/wikileaks-suspende-publicacao-documentos/>. Acesso em: 1 abr. 2016.

para que o conteúdo pudesse ter relevância social e assim criando valor para dar

transparência as evidencias84_.

Em maio de 2015, o Wikileaks voltou a aceitar documentos secretos de forma

anônima85_{. A organização lançou uma versão de submissão de vazamentos que é}

executada no navegador seguro The Onion Router ou Tor Project86_{, que é um}

navegador criptografado, seguro contra interferências ou invasores, apropriado para navegação no ambiente da deep web. O próprio Julian Assange alega que essa nova versão da página está mais segura e sofrerá menos ataques pelo ambiente que está instalado, a web profunda. O site ainda vai divulgar mais documentos que estão guardados e promete divulgar os novos que entrarem pelo sistema mais seguro. Um

outro exemplo mais recente é o caso do The Panama Papers8788_{. Esta investigação}

jornalística começou em 2015, com um contato de uma fonte anônima ao jornal

Süddeutsche Zeitung (SZ), da Alemanha. Esse contato conseguiu documentos da

empresa de advocacia panamenha Mossack Fonseca que cria empresas de fachada anônimas (offshore) em qualquer lugar do mundo. Estas empresas ajudam seus proprietários a esconder negócios e fortunas não declaradas aos governos. A redação da SZ passou a receber um volume de dados enorme, na ordem de 2,6 terabytes de dados. O caso Cablegate, recebido pela Wikileaks foi de 1,7 GB.

Nunca jornalistas no mundo receberam uma denúncia com tamanho volume de informação. Estes dados são 11,5 milhões de documentos com informações da Mossack Fonseca. Neles tem informações secretas de políticos influentes, presidentes de países, reis, ditadores, empresários, funcionários da FIFA, traficantes, atletas e celebridades.

Os dados fornecem insights raros em um mundo que só pode existir nas sombras. Isso prova como uma indústria global liderado por grandes bancos, escritórios de advocacia e empresas de gestão de ativos secretamente

84_{WHITTAKER, Zack. ‘WikiLeaks’ Julian Assange granted asylum in Ecuador. CNET, San Francisco,} August 16, 2012. Disponível em: <http://www.cnet.com/news/wikileaks-julian-assange-granted- asylum-in-ecuador/>. Acesso em: 1 abr. 2016.

85_{GREENBERG, Andy. Wikileaks finally brings back its submission system for your secrets. Wired,}

San Francisco, January 05, 2015. Disponível em: <http://www.wired.com/2015/05/wikileaks-finally- brings-back-submission-system-secrets/>. Acesso em: 1 abr. 2016.

86_{The Onion Router Project. Disponível em: < https://www.torproject.org/>. Acesso em: 1 abr. 2016.}

87_{OBERMAIR, F; OBERMAYER, B; WORMER, V; JASCHENSKY, W.}_{Panama Papers: The secrets}

of dirty money. Süddeutsche Zeitung. Munich, April 3, 2016. Disponível em: <http://panamapapers.

sueddeutsche.de/articles/56febff0a1bb8d3c3495adf4/>. Acesso em: 3 abr. 2016.

88_{THE PANAMA Papers. The International Consortium of Investigative Journalists. Disponível em:}

administra as propriedades do mundo rico e famoso: de políticos, funcionários da FIFA, fraudadores e contrabandistas de drogas, de celebridades e atletas profissionais (OBERMAIER et al, 2016).

Por causa do imenso volume de dados, o jornal alemão fez uma parceria com o Consórcio Internacional de Jornalistas Investigativos (ICIJ) e parcerias com 376 jornalistas de 109 veículos de comunicação de 76 países. Os parceiros brasileiros foram o portal UOL, o jornal O Estado de S. Paulo, que já tem um núcleo de dados, e a emissora de televisão RedeTV!. Os documentos analisados são do período de 1977 a 2015, envolvendo 14 mil clientes e 214.488 empresas. Além disso, entre os envolvidos estão 140 políticos de mais de 50 países. Dos 11,5 milhões de documentos, 4,8 milhões são e-mails, 3 milhões banco de dados, 2,1 milhões de documentos pdf, 1,1 milhão de imagens, 320 mil documentos de texto e outros 2,2 mil formatos de arquivos.

Entretanto, a quantidade espantosa de dados disponíveis não quer dizer muito se não puder ser relacionada, transformada em informação estruturada e, no caso do jornalismo, utilizada para construir conteúdo de relevância social, aproveitando a “Era do Big Data” para criar valor em diversos caminhos: criando transparência (órgãos públicos); habilitando descobertas experimentais, criando segmentações (exemplo: dados personalizados); substituindo/auxiliando processos de decisão (algoritmos) e inovando nos modelos de negócio (LIMA JR., 2011, p. 50).

Ou seja, de acordo com o estudo de conclusão de mestrado, Clash of The

Titans: Impact of Convergence and Divergence on Digital Media, de William Chee-

Leong Lee, do Massachusetts Institue of Tecnology (MIT), a tecnologia torna-se um dos motores da mudança nas sociedades, sendo protagonista do mecanismo de transferência de informação entre as pessoas, que não derivam apenas as capacidades de produzir e transmitir a informação, mas bem como montar, armazenar, gerenciar e recuperar informações. Se a tecnologia avança, a capacidade de produzir e divulgar informações melhora ao mesmo tempo (2003, p. 11).

Cabe ressaltar que explorar o uso de grandes volumes de informação tornam- se importantes para esclarecer informações ocultas e traz para o jornalismo um novo patamar na qualidade da cobertura jornalística. Também é perceptível que o jornalismo terá cada vez mais que contar com ajuda de tecnologia e outros especialistas, principalmente os de tecnologia da informação para vasculhar as profundezas dos bancos de dados para levantar a história que traz luz e lucidez para a sociedade. Se olhar no prisma do pesquisador Walter Lima (2011, p.48), tem que

ser considerado que isso acontece devido ao pensamento computacional, que se torna uma habilidade e pensar computacionalmente envolve resolver problemas que podem ser executados por sistemas computacionais e emular certos modelos de comportamento humanos, de forma reduzida, nas máquinas digitais. Com isso, o trabalho é otimizado e feito com maior assertividade e se chega nas respostas necessárias.

No documento Download/Open (páginas 163-169)