De onde vêm os dados? - BIG DATA E SUAS PARTICULARIDADES

PARTE I – O ENQUADRAMENTO TEÓRICO E TEMÁTICO

3.2 BIG DATA E SUAS PARTICULARIDADES

3.2.3 De onde vêm os dados?

Xexéo (2013) aponta que os dados estão presentes no comércio e na indústria. Segundo o autor, as informações são geradas a partir de cada venda em uma rede de supermercados, por exemplo. E se essas informações forem cruzadas com mensagens em

redes sociais sobre mercados, produtos, receitas e notícias na mídia ou com as regiões geográficas, em que acontecem, os sistemas que analisam toda essa informação permitem aos donos dessas lojas obterem tanto dados de perfis de consumo individualizado quanto da experiência de compra do cliente e seus gastos.

Já na indústria, Xexéo (2013) destaca que um dos fatores que aumenta a quantidade de dados é a multiplicação dos sensores de vários tipos, de câmeras de alta definição a simples contadores ou termômetros. O autor exemplifica, dizendo que uma empresa pode colocar sensores não só em sua fábrica para analisar o processo produtivo, mas também em seus produtos, que enviam ao fabricante, dados sobre sua localização geográfica, seu uso e desempenho.

Zeferino (2013) aponta a evolução histórica do big data, a partir de três níveis fundamentais de produção de dados:

 A produção de dados em regime de Input - Situação que retrata os primórdios dos primeiros computadores pessoais, sobre os quais existia a necessidade de armazenar dados diretamente em cada PC, e que marcou uma viragem determinante na vida tecnológica das empresas.

 A produção de dados em regime de User Generated Content (UGC) – Situação que abrange a realidade da chamada Web 2.0, na qual se evidencia o papel preponderante do próprio utilizador na criação e geração de conteúdos em regime colaborativo e de partilha.

 A produção de dados em regime de Machine-Generated Data (MGD) – Situação que retrata o processamento automatizado de dados sem intervenção humana e que se refere ao funcionamento de complexos sistemas integrados em ambiente de computação contínua.

Quadro 4: Origem dos dados

Pessoais Financeiros Trabalho Redes Sociais

Comportamento Pervasivos

RG/CPF Operações bancárias Bilhete único Facebook Compras Radar de

trânsito

Imposto de Renda Cartão de crédito Ponto Twitter Recomendações GPS

Previdência Serasa/SPC Login Pesquisa Bluetooth

Plano de Saúde Financiamento/Consórcio Vale

alimentação

Cookies WiFi

Canais RFID

Os dados para compor o big data podem vir de diversas fontes e formatos, desde dados de documentos pessoais até dados de radares de trânsito. A maioria das coisas hoje, até aqueles equipamentos residenciais, já oferecem informações e dados sobre seus estados. Geladeiras, por exemplo, ligadas à Internet oferecem dados sobre o estado e ritmo de consumo dos produtos que estão guardadas nelas. Esse fenômeno é identificado por muitos pesquisadores como a “Internet das coisas” (IoT) (LEMOS, 2013, p.239). A internet das coisas é um conjunto de redes, sensores, atuadores, objetos ligados por sistemas informatizados que ampliam a comunicação entre pessoas e objetos (o sensor no carro avisando a hora da revisão, por exemplo) e entre os objetos de forma autônoma, automática e sensível ao contexto (o sensor do carro alertando sobre acidentes no caminho).

Ainda sobre os dados, Xexéo (2013) observa que no Brasil, em especial, a indústria de petróleo é grande criadora de dados, que vão da pesquisa sísmica inicial e monitoração eletrônica de poços até a venda de combustível na bomba dos postos de abastecimento. Os dados dos bancos de dados da Agência Nacional do Petróleo (ANP) são usados por várias empresas de petróleo, que produzem ainda mais informações. A partir deles, são gerados imagens e filmes que são analisados e geram textos e relatórios, que, por sua vez, geram investimentos financeiros, movimentos da bolsa e notícias na mídia. Assim, entende-se que os dados gerados circulam por diversos ambientes e diversos formatos o tempo todo.

A geração dessa massa informacional está em todo lugar que vai desde as interações da web, na própria busca no Google até a compra da passagem aérea (ARRIGONI, 2013). No entanto, nem todos os dados são necessariamente úteis para análise de big data. Segundo as perspectivas dos analistas de dados David Reinsel e John Gantz (2012), do IDC Group

apresentadas no site do grupo34 somente alguns dados são tidos como maduros para as análises de big data.

Para esses analistas, destacam-se as imagens de vigilância, que fornecem metadados como data, hora, local, automaticamente ligados a um arquivo de vídeo. Hoje as câmeras podem fornecer imagens que são capturadas e analisadas em tempo real. Reinsel e Gantz (2012) observam que esse tipo de informação pode ajudar a agilizar investigações de crimes e melhorar a análise de varejo para os padrões de tráfego de consumo. Os dispositivos médicos

incorporados no corpo humano também contribuem para as análises de dados na área de saúde, podendo trazer muitos benefícios para a pesquisa e para o combate de doenças e vírus.

Imagens de consumo (fotografias de indivíduos) que são compartilhados em ambientes de redes sociais digitais, segundo os analistas podem ajudar a identificar tipos de consumidores e falar muito sobre as pessoas e suas características e por fim os dados da mídia social, que hoje é considerada uma grande fonte de grandes volumes de dados para trazer insights para o mercado ou mesmo para ajudar a prever uma eleição.

Isaca (2013) também aponta os tipos de dados pessoais que são coletados para o big data. São eles:

Dado voluntário: criado e explicitamente compartilhado por indivíduos. Por exemplo, perfis de redes sociais;

Dado observado: capturado ao gravar ações do indivíduo. Por exemplo, dados de localização no uso de telefones celulares;

Dado inferido: dado sobre indivíduos com base em informações voluntárias ou observadas. Por exemplo, classificação de crédito.

Outro autor também referencia os dados de acordo com os seus tipos. Ohl (2014) classifica os dados como implícitos e explícitos.

Os dados implícitos são aqueles coletados sem que necessariamente se tenha a anuência das pessoas durante um processo de análise. Esses dados podem ser desde a compra de um produto, até um compartilhamento ou comentário de postagem em blogs ou redes sociais entre amigos. Ohl (2014)35 observa que por esse fato pode carregar consigo uma conotação sombria e muitas vezes apelidada de “Big Brother”, “Big Oi” e “Big Government”. Segundo

34 Disponível em: http://www.emc.com/leadership/digital-universe/iview/index.htm. Acesso em: dezembro de 2014.

35 Informações retiradas do artigo “Big Data: como analisar informações com qualidade”. Disponível em:

http://corporate.canaltech.com.br/coluna/big-data/Big-Data-como-analisar-informacoes-com-qualidade/. Acesso em: Dezembro 2014.

Ohl (2014) com estes dados empresas, governos, organizações podem conhecer os hábitos de seus clientes/cidadãos e, desta forma, muitas vezes conseguem prever suas próximas ações.

Cada bloco de dado disponível está sendo destrinchado e esmiuçado para posterior análise. Os maiores varejistas, das cadeias de supermercados aos bancos de investimentos, têm uma área de “análise preditiva”, focada não apenas em entender os hábitos de compras dos consumidores, mas também seus hábitos pessoais, buscando assim uma forma mais eficiente de comunicar e vender para eles (OHL, 2014).

No entanto, Ohl (2014) ressalta que, apesar de a coleta de dados desse tipo ser a mais utilizada em se tratando de big data, o analista corre o risco de ter predições erradas, pelo fato de que as informações podem ser obtidas em grande escala. Isso porque eles são baseados na coleta passiva dos hábitos e comportamentos das pessoas. “E é exatamente por isso que não são 100% à prova de falhas” (OHL, 2014). E ele explica:

Com esse tipo de dados, não é possível para qualquer varejista saber se uma avó está comprando um presente de aniversário para seu neto ou para si própria. Da mesma forma, este varejista não consegue saber se você está comprando um livro para você ou como presente para um amigo. E, independentemente do quão genial seja o analista, ele nunca conseguirá sugerir uma música certa sem PERGUNTAR para a pessoa se determinado ritmo lhe agrada (OHL, 2014).

Então, para que as respostas sejam mais precisas o importante é fazer perguntas para o indivíduo. Quando se usa a pergunta para a coleta de dados isso é chamado de dado explícito. Segundo Ohl (2014) historicamente, dados explícitos custam caro e demandam muito tempo para serem apurados. Para ele estes são os motivos por que tradicionalmente esses dados acabam recebendo uma grande relevância nas análises de big data. Entretanto, Ohl (2014) chama a atenção que a tecnologia tem mudado isto. A internet permite que as empresas obtenham dados explícitos em grande escala, por meio de uma variedade de plataformas. Esses tipos de dados são obtidos através dos métodos de coleta mais tradicionais, como pesquisas de opinião/ satisfação; ou por meio de resenhas publicadas na internet, formulários de sugestões preenchidos on e off-line, curtidas em uma postagem ou em um perfil de rede social ou blog. Esses dados se configuram assim, porque a maioria das pessoas usuárias de ambientes da Internet tem conhecimento, mesmo de maneira superficial, de que suas ações podem estar sendo monitoradas e capturadas por empresas para diversas finalidades.

Assim, o importante em estratégias com o big data é sempre utilizar os dois tipos de dados (implícitos e explícitos), porque eles se complementam. Enquanto os dados implícitos querem saber “o quê?”, os dados explícitos querem saber o “por quê?” das ações e reações de uma pessoa, ou massa de pessoas. Fazendo a coleta desses dois tipos de dados, e interpretando-os em conjunto e com cuidado, é possível fazer boas previsões e ter um

conhecimento dos sentimentos do seu consumidor quanto à sua marca, ao seu produto ou a uma campanha específica. Assim, também é possível descobrir novas tendências e ter insights para novos nichos e negócios.

No entanto, independente do tipo de dado que se quer, para alguns especialistas o big data ainda passa por muitos desafios que devem ser levados em consideração. Na visão de Simon Szykman36, diretor de informática do Departamento de Comércio Norte-americano, esses desafios podem ser divididos em: como adquirir; armazenar; processar; transmitir e disseminar; gerenciar e manter; arquivar por longo prazo; garantir a segurança; treinar pessoas para usá-los; pagar por tudo isso. Além disso, a preocupação está em como entender os dados de forma isolada e como relacioná-los.

Para isso, a sociedade precisa de novas teorias e tecnologias. Uma das principais aplicações de ter à disposição uma grande quantidade de dados é descobrir algo novo. Isso, segundo Xexéo (2013), pode se dar por detecções de padrões, levantamento de regras ou aprendizagem de máquina. As detecções de padrões têm por objetivo encontrar em grandes volumes de dados padrões de comportamentos e isso é feito a partir da mineração de dados.

Já a aprendizagem de máquina, termo que vem do inglês Machine Learning, é a área de Inteligência Artificial que tem por objetivo o desenvolvimento de técnicas computacionais sobre processo de aprendizado (BISHOP, 2007). Em síntese, é uma área de sistemas inteligentes que trata do desenvolvimento de algoritmos e técnicas que permitem computadores “aprender”.

No documento Tese de Doutorado Agosto de 2015 BIG DATA EM CAMPANHAS ELEITORAIS USOS DO CLEIDE LUCIANE ANTONIUTTI (páginas 75-80)