3 NÚCLEO TEÓRICO-CONCEITUAL
3.6 Big data
3.6.2 Tecnologia para big data
A discussão acerca da tecnologia big data está pautada no aspecto prático e na novidade que esta tecnologia pode agregar à captação, à análise e ao processamento de dados (COHEN et al., 2009).
Com relação ao aspecto prático, questiona-se em que essa tecnologia difere das tecnologias denominadas tradicionais, levando os questionamentos para aspectos como: se essa tecnologia irá suplantar as ditas tradicionais; ou se essa tecnologia irá agregar às
organizações mais uma forma de captação; ou se a transformação dos dados será modificada em relação às tecnologias tradicionais.
Esses questionamentos carecem de esclarecimento, considerando que há um vácuo de informações relativas a quais tipos de tecnologia big data as organizações podem fazer uso. Em que pese Turban, Rainer e Potter (2005) assegurarem que um data warehouse é capaz de suportar dados estruturados e semiestruturados, além de comportar dados não estruturados quando modificados, sabe-se que um data warehouse trabalha conjuntos de dados (pool) necessários a cada setor de uma organização. Esse pormenor, na visão de Davenport (2014), torna a tecnologia data warehouse contraindicada para uso com dados cujo tratamento não se encaixe na abordagem de pool, como é o caso da tecnologia big data, cujo tratamento está associado ao fato de suportar uma grande quantidade de dados e de tratar dados de fontes diversas em tempo real (ZIRKOPOULOS et al., 2012).
A característica volume associa-se de imediato à característica velocidade, conforme colocação de Borkar, Carey e Li (2013), os quais afirmam que há um grande potencial de informações ainda inexploradas no mundo virtual e que essas tais informações são produzidas por pessoas através de mídias digitais. Barlow (2013) e Skoric (2013) sugerem que tais informações podem, inclusive, terem sido criadas por meio de sensores acoplados a grandes organizações, em espaços públicos ou por meio de dispositivos digitais, mas ainda não foram exploradas em toda sua totalidade.
Outro item que diferencia a forma de tratamento dessa torrente de dados disponíveis no meio digital, em relação àquela associada a tecnologias como a de um data warehouse, refere-se à inexatidão com que os dados podem ser apresentados, o quê pode até confundir decisores em seus processos de tomada de decisão (VIJAYAN, 2012). Além disso, as tecnologias para qualificar esses tipos de dados ainda são consideradas imperfeitas do ponto de vista prático (ZIRKOPOULOS et al., 2012).
Todavia, essa inexatidão presente no amontoado de informações, revela às organizações a possibilidade de visualizar o todo antes inexplorado e de se anteciparem aos concorrentes, obtendo vantagem competitiva, e buscando a inovação. Para atender a essas expectativas, muitas organizações criaram suas próprias soluções para analisar o grande volume de dados, visando a necessidade de processamento em grande escala (ZIRKOPOULOS et al., 2012).
A problemática aqui decorre do fato de que os bancos de dados em uso no mercado foram modelados pensando na redundância e não na precisão dos dados (BORKAR; CAREY; LI, 2013). Desta forma, no uso concreto, os usuários de bancos de dados esperam que haja
consistência e precisão nos dados; já os que utilizam as tecnologias modeladas para análise
big data devem entender que é a partir da inconsistência que as respostas são obtidas
(MAYER-SCRÖNBERGUER; CUKIER, 2013).
Uma solução bastante disseminada na atualidade é denominada de hadoop, uma plataforma open source baseada em um framework de processamento que se denomina
mapreduce. Segundo White (2009), essa plataforma constitui a base de uma infraestrutura de
computação distribuída para armazenar e processar dados de grande volume, dividindo os dados em quantidades menores e os distribuindo para outras máquinas.
O mapreduce permite que sejam repassadas instruções computacionais complexas formando um conjunto de respostas por meio dos nós presentes na plataforma big data (GROLINGER et al., 2014). Assim, utilizando uma linguagem adequada, pode-se fazer diversas operações de forma superior a tecnologias tradicionais para este fim, ao mesmo tempo em que ainda é possível usar linguagem usuais como a SQL (DAVENPORT, 2014).
Ratificando esta visão, enquanto que no tratamento usual dos dados, para bancos de dados, enfatizava-se a normalização e a análise típica para um data warehouse concentrava-se no processo de extração, transformação e carga (ETC), com a tecnologia hadoop esses passos são dispensáveis, visto que o propósito dessa tecnologia é analisar os dados na forma e formato onde estão localizados (MAYER-SCRÖNBERGER; CUKIER, 2013). Assim, presume-se um ambiente emaranhado de tecnologias tradicionais associadas à tecnologia big
data, tal que se pode visualizar um modelo para a tecnologia hadoop como apresentado na
figura 23.
Figura 23 (3): Tecnologias tradicionais em associação com tecnologia big data.
Não obstante, devido a grandes mudanças e considerando os investimentos realizados por grandes organizações, não é demasiado pensar que as mesmas estejam utilizando uma combinação de tecnologias comercializáveis, adquiridas de grandes fornecedores, com as tecnologias já existentes na organização, adicionando inteligência para tal (DAVENPORT, 2014).
A análise big data, contudo, não se dissocia da análise convencional de dados, exceto pela rapidez com que os dados passaram a ser processados utilizando as ferramentas adequadas (DAVENPORT, 2014; GROLINGER et al., 2014). Sob essa ótica, o aspecto da análise visual tem grande importância para os decisores, pois permite que se descubram as causas fundamentais de grandes problemas existentes na organização, em um tempo bem reduzido, ao mesmo tempo em que a análise usual oferece mecanismos de análise automatizada, os quais podem auxiliar a organização a montar planos de ação que influenciem o seu público-alvo a decidir pela aquisição de um produto ou serviço oferecido pela organização, como um dos casos aqui estudados.
Como muitas organizações investiram maciçamente durante anos nas tecnologias de
data warehouse e business inteligence, muito provavelmente irão demorar algum tempo para
aderir ao projeto big data (DAVENPORT, 2014). Da mesma forma, as organizações que ainda não montaram uma boa estrutura interna, baseada em business intelligence ou em data
warehouse, preferem esperar e consolidar a estrutura baseada em dados internos para
posteriormente implementar o projeto big data.
Não obstante, pode-se encontrar casos em que a estrutura organizacional comporta a tecnologia big data associada a uma tecnologia tradicional para agilizar o processo analítico e este fato também está simbolizado neste trabalho. Em casos assim, a tecnologia big data capta, armazena e analisa grandes volumes de dados não estruturados em grande velocidade ao passo que um data warehouse pode auxiliar a organização a obter insights analíticos dos dados já existentes com uma melhor precisão. Deste modo, em uma organização podem coexistir em um bom nível as duas alternativas tecnológicas (DAVENPORT, 2014).