CT02 Conjunto tecnológico de Big Data nas empresas

4 ANÁLISE E INTERPRETAÇÃO DOS RESULTADOS

4.4 Formação das Categorias e Inferência dos resultados

4.4.2 CT02 Conjunto tecnológico de Big Data nas empresas

A categoria CT02 - Conjunto tecnológico de Big Data nas empresas foi formada pelas unidades de significado indicadas na Figura 21 e tem por finalidade identificar o conjunto tecnológico que suporta o fluxo dos dados do Big Data utilizado nas etapas do ciclo da Inteligência Competitiva.

Figura 21: Unidades de Significado da CT02 - Conjunto tecnológico de Big Data nas empresas

Fonte: Dados da Pesquisa, obtidos com ATLAS-ti, 2018.

A Figura 15 demonstra a relação e a aderência entre a Coleta de dados da Inteligência Competitiva com a Coleta de dados do Big Data, as etapas de Armazenamento e Processamento do Big Data com a etapa de Análise da Inteligência Competitiva e, por fim, a etapa de Visualização do Big Data com a etapa de Disseminação da Inteligência Competitiva. Essa relação também foi confirmada pelos dados coletados nas entrevistas.

Todos os entrevistados descreveram o macrofluxo de dados do Big Data aderente ao ciclo da Inteligência Competitiva em suas organizações aderentes à macroestrutura apresentada na Figura 15. Na sequência, evidenciam-se os trechos das falas que sustentam esse entendimento.

E1: “[...] a gente tem um outro ambiente SAP HANA separado dos outros projetos que não são de Big Data. Nesse ambiente, armazenamos dados através de Data

Sources do ERP da SAP, esse banco HANA é voltado à análise de Big Data por ser

colunar e in-memory. Criamos as tabelas analíticas para armazenar e como base para os modelos de análise, então a partir dessas tabelas analíticas os dados são consumidos pela camada de visualização”

E2: “[...] temos um data warehouse no BigQuery do Google que fazemos de sistema de arquivos para armazenamento de grandes volumes de dados. Depois disso, coletamos os arquivos que estão em JSON para formar uma tabela no BigQuery e então realizar o processamento. Fazemos isso também para pegar streaming e registro de cliques. Depois dessa análise, a informação já fica disponível para consumo dos usuários”

E3: “Usando o Kafka para justamente fazer a coleta de dados, gravamos esses dados num banco de dados colunar e com o Spark fazemos o processamento, os dados processados gravamos em outro banco com o dado já agregado que é puxado para os relatórios e gráficos’

A Figura 10 apresenta os subprojetos e ferramentas geradas a partir da evolução do ecossistema Hadoop no decorrer dos anos de 2006 e 2015, no último ano do mapeamento foram apresentadas 13 ferramentas, das 13 ferramentas, os entrevistados citaram 8 (62% do total), conforme apresentado no Quadro 9.

Quadro 9: Ferramentas apresentadas no referencial teórico.

Ferramentas apresentadas Citação nas entrevistas

Spark Sim Impala Sim Kafka Sim Flume Sim Oozie Não Sqoop Sim Avro Não Hive Sim Pig Não Mahout Não Hbase Sim ZooKeeper Não HDFS, MR, YARN Sim

Fonte: Dados da Pesquisa, 2018.

Foi realizado também o mapeamento de todos os projetos e ferramentas que possuem relação com o Big Data citados pelos entrevistados em suas respostas. Essa relação é apresentada no Quadro 10, junto com uma breve descrição.

Quadro 10: Mapeamento das Ferramentas citadas pelos entrevistados Ferramentas mapeadas

nas entrevistas Descrição

Apache Software Foundation

A Apache Software Foundation, também conhecida apenas como Apache, é uma comunidade descentralizada de desenvolvedores de software, uma organização sem fins lucrativos criada para suportar os projetos de código aberto, principalmente os Apache.

Azure O Microsoft Azure é uma coleção de serviços de nuvem para criar, implantar e

gerenciar aplicativos.

BigQuery O BigQuery é um serviço de data warehouse empresarial de baixo custo e altamente

escalonável.

Blob Storage

O Blob Storage faz parte da coleção da Azure e serve para armazenar todos os tipos de arquivo. O armazenamento quente, frio e arquivo morto do Azure é um armazenamento de objeto em nuvem confiável para dados não estruturados.

BlueMix BlueMix é uma gama de produtos e serviços de nuvem. Permite que as organizações

e os desenvolvedores criem, implementem e gerenciem aplicativos na nuvem.

Cassandra

É um tipo de banco nosql (termo usado para descrever bancos de dados não relacionais de alto desempenho.) que originalmente foi criado pelo Facebook e que atualmente é mantido pela Apache e outras empresas. Ele é um sistema de banco de dados distribuído baseado no modelo BigTable do Google e no sistema de armazenamento Dynamo da Amazon.com.

Flume

O Apache Flume é um serviço distribuído, confiável e disponível para coletar, agregar e mover de modo eficiente grandes quantidades de dados de eventos de fluxo.

Hadoop

Hadoop é uma plataforma de software para computação distribuída voltada para clusters e processamento de grandes volumes de dados, com atenção à tolerância a

falhas. Foi inspirada no MapReduce e no GoogleFS (GFS).

Hbase O Apache HBase é um datastore de big data altamente escalável e distribuído no

ecossistema do Apache Hadoop.

HDFS

O HDFS é um projeto da Apache Software Foundation e um subprojeto do projeto

Apache Hadoop. É um sistema de armazenamento utilizado para armazenar

grandes quantidades de dados, do porte de terabytes e pentabytes.

Hive

O Apache Hive, criado no Facebook, é um sistema de armazenamento de dados para Hadoop que facilita a soma simples de dados, queries ad-hoc e a análise de grandes bancos de dados armazenados em sistemas de arquivos compatíveis com

Hadoop.

Kafka

O Apache Kafka é uma plataforma de transmissão de dados distribuída, semelhante a uma fila de mensagens ou um sistema de mensagens corporativo. Foi desenvolvido para providenciar em tempo real um fluxo de dados com baixa latência e uma alta taxa de transferência

Microsoft Power BI Utilizado para geração de relatórios dinâmicos e interativos no Desktop dos

Ferramentas mapeadas

nas entrevistas Descrição

MongoDB

O MongoDB é um banco de dados orientado a documentos de alta performance,

open source e schema-free, escrito em C++. Ele é uma mistura entre os repositórios

escaláveis baseados em chave/valor e a tradicional riqueza de funcionalidades dos bancos relacionais.

Python

Python é uma linguagem de programação de alto nível, interpretada, de script,

imperativa, orientada a objetos, funcional, de tipagem dinâmica e forte amplamente utilizada em algoritmos para grandes volumes de dados

Rstudio RStudio é um software livre de ambiente de desenvolvimento integrado para a

linguagem de programação R com foco em gráficos e cálculos estatísticos.

SAP HANA

O SAP HANA é uma plataforma de computação in-memory que pode ser implementada on-premise ou em nuvem e permite acelerar a criação de desenvolvimento de processos e fluxo de dados.

SAP Lumira

SAP Lumira é utilizado para criar infográficos e visualizações que permitam

analisar os dados rapidamente diretamente no Desktop do usuário combinando diferentes fontes de dados.

SAP Predictive Analytics Ferramenta para criar e implantar modelos preditivos que também roda diretamente

no Desktop do usuário.

Spark

O Apache Spark é um framework de Big Data construído para ser veloz, fácil de usar e com análises sofisticadas. Amplamente utilizado em arquiteturas de Big

Data.

Sqoop

O Apache Sqoop é uma ferramenta que tem o propósito de fazer ingestão de dados, seu foco é em transferir dados entre o Hadoop e bancos de dados relacionais ou mainframes.

Suite SAP Business Objects

O SAP Business Objects é um conjunto de ferramenta com foco em visualização de dados da empresa SAP.

Tableau O Tableau Desktop é um aplicativo de visualização e exploração de dados

amplamente difundido e utilizado para visualização de dados

Teradata

Produtos da empresa Teradata possuem como principal característica a capacidade de processar, trafegar e armazenar grandes volumes de dados de diferentes origens e disponibilizá-los para análises estratégicas.

Fonte: Dados da Pesquisa, 2018.

Em prosseguimento, um trecho de fala do entrevistado E4, descrevendo a utilização de algumas das ferramentas mencionadas no Quadro 10.

E4: “[...] para os dados online foram utilizados vários componentes, usamos o Flume e o Kafka para a ingestão dos dados, usamos o Spark para fazer enriquecimento dos dados e depois a gente disponibilizou os resultados dentro do Hbase. Para visualização dos dados os usuários estão usando o Power BI”

Nesse contexto, foi identificada a ampla utilização de plataformas e ferramentas de Cloud Computing como a Azure e o BlueMix, conforme declarou o entrevistado E2.

E2: “Ninguém mais está construindo ambientes locais de Big Data. É muito difícil você ter projeto feito desde a instalação do o cluster, comprar as máquinas, fazer a manutenção e gestão, e sempre que precisa de mais máquina é preciso realizar um projeto. Utilizar uma plataforma na nuvem faz o ambiente muito mais prático e escalável”

Segundo Marquesone (2017), por meio da oferta de recursos computacionais como capacidade de processamento, armazenamento e rede sob demanda, a computação em nuvem tem sido uma grande aliada para a criação de soluções de Big Data. Sua utilização oferece benefícios como elasticidade (aumento ou diminuição de recursos), qualidade de serviço, que somada à redução de custo leva ao aumento da eficiência. Diversas empresas estão aproveitando o potencial da computação em nuvem para hospedar suas soluções de Big Data.

Todos os entrevistados possuem pelo menos parte de seu ecossistema hospedado em plataformas que oferecem esse tipo de serviço.

4.4.3 CT03 - Relações entre o ciclo da Inteligência Competitiva e o fluxo de dados do Big

No documento http://tede.mackenzie.br/jspui/bitstream/tede/3822/5/MAYCON%20FRANCO%20LOUREN%C3%87O%20GIMENEZ (páginas 60-64)