• Nenhum resultado encontrado

PARTE I – O ENQUADRAMENTO TEÓRICO E TEMÁTICO

3.2 BIG DATA E SUAS PARTICULARIDADES

3.2.1 Conceitos e características

Como se viu anteriormente, big data é um conceito relativamente novo, portanto sua definição sofre constantes aperfeiçoamentos, pois a consolidação do termo se dá através da percepção no tempo do seu valor para qualquer tipo de uso. A ideia central ao conceito é a tomada de decisão em tempo real sobre uma corrente continua de dados (streaming computing), provenientes de diversas fontes.

Mesmo fora da literatura o conceito não segue uma única linha de pensamento. Dentre os especialistas entrevistados para este trabalho, ao se tirar um mínimo comum vimos que o big data, na sua raiz, fala em tratar um grande volume de dados com grande velocidade e a partir de uma variedade de informações (TAURION, 2014; BROWN, 2013). Outras definições para o termo são apresentadas na Tabela 1, porém sem rigidez conceitual.

28RECUERO, Raquel. big data: apontamentos e limitações. Postagem em 14.05.2013. Disponível em: < http://www.raquelrecuero.com/arquivos/2013/05/big-data-apontamentos-e-limitacoes.html>. Acesso em: 15 de junho de 2013.

29 Dispo

Tabela 1: Definições de big data

Autor Definição

Cavalcanti (2015)

As pessoas, equivocadamente, associam Big Data apenas à grande quantidade de dados digitais hoje disponíveis. Na verdade, a maior riqueza do Big Data vem da variedade (diversidade) de dados. São dados transacionais, das redes sociais, gps... e dos assuntos os mais variados. Costumamos dizer que Big Data está associado a 4 "V"´s: volume (quantidade), variedade (diversidade), veracidade (são dados coletados on line, na hora que estamos fazendo algo; não é uma "pesquisa" onde perguntamos coisas às pessoas) e velocidade (os dados estão imediatamente disponíveis na nuvem)

Brown (2014) Big data é volume, velocidade, variedade. Então significa que você tem uma ou

mais dessas três coisas.

Costa (2015)

Big data é um ecossistema, que se alimenta e retroalimenta de dados o tempo todo, de dados que estão digitalizados ou não e dos quais se têm a necessidade de tirar valor.

Taurion (2014)

Resumindo o que é big data em uma simples fórmula para conceitualizá- lo: Big Data = volume + variedade + velocidade + veracidade, tudo agregado + valor.

Moura (2015)

Teoricamente é aglutinar diversas informações em diversas fontes em um único depositório. Seria a manutenção, a orientação e o enriquecimento de um banco de dados de diversas fontes. Na prática isso é feito por meio de um depositório seja em nuvem, ou seja, de um depositório próprio que utiliza todas essas informações.

Guerreiro (2014)

Big Data se refere à necessidade de uma organização lidar com dados que, para serem analisados e gerarem resultados, demandam capacidade muito além daquela de que a empresa dispõe, seja com relação ao volume (mais comum), velocidade de tratamento ou variedade de formatos.

Lima Júnior

(2014)

Big data é conjunto de dados (dataset) cujo tamanho está além da habilidade de ferramentas típicas de banco de dados em capturar, gerenciar e analisar.

Fonte: Autora

As discussões apresentadas em termos conceituais, remete esta pesquisa ao entendimento que um dos maiores problemas em relação ao big data está em se retirar dessas definições teóricas ou não, aplicações práticas, que evidenciem a importância do seu uso em qualquer que seja a área. Big data não é sobre uma única tecnologia, uma única arquitetura, ou um único caso de uso (OLOFSON, 2011). Big data na verdade não é somente tecnologia

ou um conjunto de softwares de análise de dados, é um ecossistema como aponta o americano Peter Hirshberg em uma entrevista para revista brasileira Exame30 em 2013.

Estamos no início da era da “internet das coisas”. A internet está saindo do mundo virtual, das telas dos PCs, e tornando-se um elemento presente no mundo físico. Hoje os chips estão nos celulares, nos eletrodomésticos e nos carros, o que faz com que esses dispositivos possam ser conectados à internet. Essas conexões geram uma vasta quantidade de dados. A partir deles é possível analisar e entender, com mais precisão, o comportamento das pessoas (Trecho da entrevista de Peter Hirshberg para a revista Exame em 2013).

A partir disso, percebe-se entre as definições, que big data remete a três características principais, sendo referenciadas sempre como os 3Vs. Assim, de acordo com relatório da IBM (ZIKOPOULOS; EATON, 2012), as três características que definem o big data são volume, velocidade e variedade, pois juntas elas teriam criado a necessidade de novas habilidades e conhecimentos para melhorar a capacidade de lidar com as informações (Figura 7). Doug Laney foi o primeiro em 2011 a falar sobre os 3 Vs do big data, que serão vistos a seguir neste trabalho.

Figura 7: Três dimensões do big data

Fonte: Adaptada e traduzida de Zikopoulos e Eaton, 2012.

1.Volume: esta característica se refere à grande quantidade de dados digitais a serem analisados. Porém, não há uma definição precisa da medida, em bytes, da quantidade necessária para afirmar que alguma organização está lidando com um volume grande de dados. Para o analista e pesquisador da IDC (International Data Corporation), Carl W.

30 Big data não faz milagres. Disponível em: <dhttp://exame.abril.com.br/revista-exame/edicoes/1037/noticias/o-big-data-nao-faz-milagre>. Acesso em: março 2014.

Olofson (OLOFSON et al, 2013) essa questão do volume depende do caso e da natureza do dado. “Algumas centenas de gigabytes podem muito bem caracterizar big data por causa da terceira dimensão, que é a da velocidade ou tempo necessário para processamento”. Assim, pode-se verificar que a questão da “grande quantidade de dados” é um aspecto relativo; depende de outros fatores.

Outros exemplos ilustram essa característica do big data. Os experimentos no Large Hadron Colider no CERN (Laboratório de Física de Partículas na Europa) geram 40 terabytes de dados por segundo, mais informação do que pode ser armazenada ou analisada pelas tecnologias atuais (muitos destes dados são simplesmente descartados, dada a incapacidade de armazená-los). Esta informação foi extraída da revista semanal The Economist de 2013, na qual é afirmado que exemplos de manuseio de grandes quantidades de informação como este também são encontrados em outros cenários, como nos bancos de dados do Wallmart, de tamanho estimado em torno de 2,5 petabytes, o equivalente a 167 vezes o conteúdo dos livros na biblioteca do Congresso Americano. Diante de

sse cenário, Xexéo (2013) observa que muitas vezes somos obrigados a escolher que tipos de dados queremos guardar. “O restante acabamos descartando. Cabe aí saber o que guardar. E guardar cada vez mais rápido é o desafio de hoje” (XEXÉO, 2013, p.19).

2.Velocidade: de acordo com o Gartner (BIG, 2013), velocidade significa tanto o quão rápido os dados estão sendo produzidos quanto o quão rápido os dados devem ser tratados para atender à demanda. Como exemplo têm-se as etiquetas RFID31 (Radio-Frequency

IDentification) e contadores inteligentes que estão impulsionando uma necessidade crescente de lidar com torrentes de dados em tempo quase real. Reagir rápido o suficiente para lidar com a velocidade é um desafio para a maioria das organizações.Assim, de acordo com Carl W. Olofson32 (2011) realizar a análise de uma grande massa de dados consumia uma hora de

31 Identificação por radiofrequência ou RFID é um método de identificação automática através de sinais de rádio, recuperando e armazenando dados remotamente através de dispositivos denominados etiquetas RFID. Uma etiqueta ou tag RFID é um transponder, pequeno objeto que pode ser colocado em uma pessoa, animal, equipamento, embalagem ou produto, dentre outros. Contém chips de silício e antenas que lhe permite responder aos sinais de rádio enviados por uma base transmissora. RFID utiliza transponders (os quais podem ser apenas lidos ou lidos e escritos) nos produtos, como uma alternativa aos códigos de barras, de modo a permitir a identificação do produto de alguma distância do scanner ou independente, fora de posicionamento. Tecnologia que viabiliza a comunicação de dados através de etiquetas com chips ou transponders que transmitem a informação a partir da passagem por um campo de indução (ex: muito usado em pedágio "sem parar"). (Wikipedia, 2014)

32 Artigo Big data: what it is and why you shouldcar. Disponível

processamento e, com o aperfeiçoamento desse processo, foi possível realizar em um segundo. Dessa forma, altera-se muito a perspectiva do que se pode “fazer com os resultados gerados, agregando mais valor ao dado”. Entende-se que avaliar isoladamente essas características não satisfaz a compreensão do que seja big data. Nesse aspecto, a velocidade no processamento é um fator fundamental para possibilitar a análise de um grande volume de dados no menor intervalo de tempo que seja possível.

3.Variedade: O grande volume de dados que temos atualmente é resultante da diversidade de informações. Assim, a variedade precisa ser lidada como um todo, talvez um determinado dado não seja útil se não for associado a outro. Os sistemas tradicionais são otimizados para processar dados que podem ser facilmente descritos na forma de tabelas, como uma planilha eletrônica, onde cada coluna tem tamanho constante ou previsíveis, mesmo que a quantidade de linhas seja muito grande. Muitos dos novos tipos de dados têm formatos mais livres (textos, imagens etc) ou com estruturas específicas (redes, por exemplo). (XEXÉO, 2013, p. 19).

À medida que o tema ganha discussões teóricas e práticas, outras duas características foram sendo adicionadas ao conceito que tratam do valor e veracidade (DEMCHENKO, 2013) e que para alguns autores são consideradas características também fundamentais do big data (TAURION, 2013; SCHÖNBERGER-MAYER; CUKIER, 2013).

4. Veracidade: Os dados precisam ser confiáveis, lidar com os outros fatores, como volume, velocidade e variedade pouco adianta se não forem reais. Assim sendo, é necessário que haja o máximo possível de consistência dos dados (TAURION, 2013).

5. Valor: Schönberger-Mayer e Cukier (2013) também discutem essa característica do big data, dizendo que o valor dos dados, no mundo do big data, passa do uso primário para o uso potencial no futuro, o que gera profundas consequências: afeta a forma como os negócios valorizam seus dados e a quem conferem acesso a eles. Segundo os autores, “isso permite, e talvez até obrigue, as empresas a mudar seus modelos de negócios e altera a forma como elas enxergam e utilizam os dados” (SCHÖNBERGER-MAYER; CUKIER, 2013, p. 70).

Esses autores chamam a atenção particularmente para as empresas de informação, como a Farecast ou o Google – nas quais, segundo eles, os fatos brutos entram num lado da linha de produção e saem do outro como informação processada. Com isso, os dados estão começando a parecer um novo elemento de produção. O valor imediato da maioria dos dados

é evidente para os que o coletam. Por exemplo: as lojas registram dados de vendas para realizar um adequado balanço financeiro. As fábricas monitoram a produção para garantir que esteja adequada à demanda e a seus padrões de qualidade. Os sites registram cada clique dos usuários para analisar e otimizar o conteúdo que fornecem aos visitantes.

Ao contrário das coisas materiais, o valor dos dados não diminui com o uso; ele pode ser continuamente reprocessado, reagregando valor a cada novo uso. “Os dados são o que os economistas chamam de bem “sem concorrente”: seu uso por uma pessoa não impede o uso por outra, e a informação não se desgasta como as coisas materiais”. (SCHÖNBERGER- MAYER; CUKIER, 2013, p 71). Como os dados podem ser usados várias vezes com o mesmo objetivo, o mais importante é que podem ser utilizados com vários objetivos também. Da mesma forma, Cézar Taurion (2014) observa que, a maioria das empresas usa o dado para efetuar e gerenciar uma transação, mas não valoriza seu potencial de reutilização.

Uma imagem que podemos associar a esta visão é a de um iceberg, onde apenas vemos sua parte visível, muito pequena, que é o dado usado na transação, mas não vemos sua imensa parte submersa, que é a sua reutilização de diversas formas. O dados deve ser valorizado não apenas pelo seu valor imediato, transacional, mas pelo seu valor futuro, quando utilizado em análises preditivas, identificação de correlações etc. (TAURION, 2014)

Um exemplo citado pelo autor são os dados gerados pelas empresas telefônicas. Segundo Taurion (2014), cada ligação gera um ou mais registros que são usados basicamente para faturamento e análise de desempenho da rede, como reposicionar as estações radio-base dos celulares. Depois de cumprirem suas funções são descartados. “Mas, estes dados podem ter muito valor para outros usos, como análises preditivas de movimentações de clientes para varejistas, impactos de campanha de marketing e assim por diante” (TAURION, 2014). O autor observa que um caso que vale a pena ser estudado é a empresa criada pela operadora Telefonica, na Espanha, que criou uma empresa separada, Telefonica Dynamic Insights para vender dados de localização e seus assinantes (devidamente anonimizados) obtidos naturalmente pelos seus sistemas transacionais de gestão de redes. Taurion cita também exemplo de como o dado pode ser usado a partir das câmeras de vigilância. Os dados, segundo ele, podem ser usados de forma não prevista inicialmente.

Imaginemos, por exemplo, que um varejista colocou dezenas de câmeras de vigilância, em sua loja, preocupado com furtos de mercadorias. Mas, se além de se precaver contra furtos estas imagens puderem ser analisadas e usadas para avaliar a movimentação dos clientes pelos corredores da loja e em quais gôndolas elas param mais tempo? Poderiam checar se os locais de promoções realmente atraem os clientes. Não teria um valor significativo para o varejista? Assim, ao invés de apenas reduzir custos, diminuindo os furtos, o sistema levaria a um aumento de receitas, melhorando a disposição dos produtos pelos corredores. (TAURION, 2014)

Com esse exemplo é possível entender que a coleta de dados que tinha uma função primária passou para uma função secundária. Os dados foram reutilizados para outra finalidade prevista ou não. E nessa perspectiva que o big data se coloca como uma característica de valor.