• Nenhum resultado encontrado

3 0 ENCONTRO DE USUÁRIOS DE BI

N/A
N/A
Protected

Academic year: 2021

Share "3 0 ENCONTRO DE USUÁRIOS DE BI"

Copied!
6
0
0

Texto

(1)

3

0

ENCONTRO DE USUÁRIOS DE BI

!

!

Contextualizando  

!

Durante  o  segundo  encontro  de  usuários  de  BI,   o  tema  Big  Data  surgiu  várias  vezes  durante  as   discussões  e  prometemos  que  seria  assunto  de   um   próximo   evento.   No   terceiro   encontro   resolvemos  pagar  essa  promessa  e  discu>r  um   pouco   sobre   o   conceito,   a   tecnologia   por   trás   do   mesmo,   suas   possíveis   aplicações   e   impactos  nas  organizações.  

!

Como  se  trata  de  um  tema  novo  para  a  maioria   das   pessoas,   resolvemos   iniciar   o   evento   com  

uma  breve  discussão  sobre  o  estágio  de  maturidade  do  mercado  de  Big  Data  e  dos   fatores  que  levaram  ao  desenvolvimento  da  plataforma  Hadoop,  presente  na  grande   maioria  das  inicia>vas  de  Big  Data.    

!

Durante  a  apresentação  vimos  que  ainda  existe  muita  confusão  sobre  o  significado   do   termo   Big   Data   e   suas   diferenças   em   relação   a   outros   conceitos   como   Data   Warehouse  e  Business  Intelligence.  Apesar  da  maneira  agressiva  com  que  o  mercado   de  tecnologia  procurou  explorar  o  tema  nos  úl>mos  anos,  Big  Data  con>nua  sendo   um  projeto  futuro  para  a  grande  maioria  das  organizações  e  não  são  muitos  os  casos   de  sucesso  documentados  fora  do  segmento  de  internet.  

!

E  foi  no  segmento  de  internet  que  a  tecnologia  associada  a  Big  Data  começou  a  ser   desenvolvida.    

!

Em  2003  a  Google,  famosa  por  seu   mecanismo  de  buscas  na  internet,   publicou  um  ar>go  descrevendo   seu  sistema  de  arquivos   distribuído  (Google  File  System).   Logo  depois,  em  2004,  apresentou   o  MapReduce,  framework  que   permi>a  o  desenvolvimento  de   programas  de  processamento   paralelo  de  grandes  volumes  de  dados   e  que  serviu  de  base  para  a  criação  do  projeto  Hadoop,    que  inicia  oficialmente  em   2006,  na  comunidade  Apache.  

!

O  sucesso  da  plataforma  Hadoop  no  segmento  de  internet  foi  muito  grande  e  ajudou   a  firmar  de  vez  o  conceito  de  Big  Data  no  mercado.  

!

Mas  afinal,  o  que  significa  o  termo  Big  Data?  

!

Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone

thinks everyone else is doing it, so everyone claims “they are doing it.”

(2)

Segundo  o  Gartner  Group,  Big  Data  são  a>vos  de  informação  de  alto  volume,  alta   velocidade  e  alta  variedade  que  

demandam  formas  inovadoras  e   efe>vas  em  custo  de  

processamento  que  permitam   melhorar  a  visibilidade  e   tomada  de  decisão.  

!

A  par>r  desse  breve  resumo   sobre  o  significado  do  termo   Big  Data,  da  origem  de  sua   tecnologia  e  da  maturidade  do   mercado,  o  grupo  iniciou  sua   discussão  buscando  responder  

algumas  perguntas  que  foram  estabelecidas  ao  final  da  apresentação.    

!

Discussões  e  Conclusões  

!

A  seguir  apresentamos  as  perguntas  apresentadas  e  um  resumo  da  reflexão  feita  em   torno  de  cada  uma  delas.  

!

Qual  a  diferença  entre  Big  Data  e  Data  Warehouse?  

!

Inicialmente  o  grupo  explorou  a  possibilidade  da  diferença  estar  no  volume  de  dados   envolvido,   mas   vários   par>cipantes   lembraram   de   projetos   de   Data   Warehouse   envolvendo  dezenas  ou  centenas  de  terabytes  que  foram  implantados  há  vários  anos   com  sucesso.  

!

Alguns   par>cipantes   levantaram   a   possibilidade   da   diferenciação   estar   relacionada   com  o  armazenamento  de  dados  mais  consolidados,  orientados  ao  atendimento  de   relatórios  corpora>vos  ou  formação  de  indicadores,  versus  a  u>lização  de  dados  que   precisam   ser   analisados   de   forma   adhoc,   mas   o   grupo   entendeu   que   existem   vários   casos   de   sucesso   de   projetos   de   Data   Warehouse   que   armazenam   dados   de   forma   mais   detalhada   e   onde   consultas   adhoc   são   permi>das   e   até   mesmo  incen>vadas.  

!

Depois   de   algumas   discussões   interessantes,   a   conclusão  foi  de  que  as  grandes  diferenças  entre   Big   Data   e   Data   Warehouse   estariam   associadas   com   necessidade   de   lidar   com   dados   não   estruturados   ou   de   estrutura   flexível   como   vídeos,   imagens   textos   ou   logs   de   internet.  

!

“Big data is high-Volume, high-Velocity and

high-Variety information assets that demand

cost-effective, innovative forms of information

processing for enhanced insight and decision

making.”

!

(3)

grandes  volumes  de  dados  mas  elas  possuem  limitações  para  lidar  com  a  variedade   dos  dados.  

!

Apesar  das  diferenças  encontradas,  o  consenso  do  grupo  foi  de  que  Big  Data  e  Data   Warehouse  são  conceitos  com  alto  nível  de  superposição.  Alguém  chegou  a  sugerir   que  os  conceitos  deveriam  ser  usados  como  sinônimos,  já  que  ambos  se  referem  ao   processo   de   armazenar   e   processar   grandes   volumes   de   dados   com   o   obje>vo   de   auxiliar  no  processo  de  tomada  de  decisões.  

!

 

Para  que  serve  Big  Data?  O  que  traz  de   novidade?  

!

O   consenso   do   grupo   é   de   que   Big   Data   adiciona   mais   valor   quando   lidamos   com   dados   não   estruturados   como   textos,   imagens,   vídeos   e   áudios   ou   de   estrutura   muito   flexível   como   é   o   caso   de   e-­‐mails,   páginas  de  internet  ou  logs  de  visitação.  

!

A   tecnologia   de   Big   Data   também   se   aplica   nos   casos   em   que   se   deseja   explorar   uma   grande  quan>dade  e  variedade  de  dados  que   não  possuam  relacionamentos  bem  estabelecidos.  

!

Outro   fator   que   favorece   a   tecnologia   de   Big   Data   é   sua   capacidade   de   aplicar   algoritmos   predefinidos   a   dados   que   são   disponibilizados   de   forma   conenua   e   em   grande  volume.  

!

O   fato   da   plataforma   Hadoop   ser   disponível   a   custos   muito   baixos   e   u>lizar   equipamentos   rela>vamente   baratos   viabiliza   a   u>lização   mesmo   em   organizações   de  menor  porte.  

!

Por  outro  lado,  um  ponto  nega>vo  para  a  plataforma  Hadoop  atualmente  é  a  falta  de   profissionais   treinados   na   tecnologia.   É   muito   mais   fácil   encontrar   profissionais   treinados  em  gerenciadores  de  banco  de  dados  do  que  na  plataforma  Hadoop.  

!

!

Que  desafios  estão  associados  a  um  projeto  de  Big  Data?  

!

Alguns   par>cipantes   do   grupo   apontaram   o   fato   da   tecnologia   de   Big   Data   estar   baseada  em  comunidades  de  soiware  livre  com  sendo  um  desafio  para  o  conceito   por   conta   da   preocupação   com   o   nível   de   suporte   disponível.   Após   algumas   discussões  o  consenso  foi  de  que  o  domínio  da  tecnologia  de  Big  Data  é  realmente   um  desafio,  mas  que  a  disponibilidade  de  suporte  tende  a  ser  boa  com  a  entrada  dos   grandes   provedores   de   tecnologia   no   mercado   apresentando   sua   versões   da   plataforma  Hadoop.  

(4)

Um  ponto  interessante  levantado  por  um  dos  par>cipantes  foi  o  risco  de  se  chegar  a   conclusões   erradas   pelo   fato   das   análises   serem   feitas   sobre   dados   brutos,   sem   a   limpeza   e   preparação   normalmente   aplicada   no   processo   de   carga   de   um   Data   Warehouse.    

!

A  conclusão  do  grupo  foi  de  que  mesmo  em  um   ambiente   de   análise   u>lizando   tecnologia   >po   Hadoop,   algumas   análises   poderão   ser   feitas   com   os   dados   brutos   mas   outras   exigirão   a   aplicação  de  processos  de  limpeza  e  tratamento   prévios  antes  que  sejam  realizadas.  

!

A   necessidade   de   mão   de   obra   especializada   tanto   na   elaboração   e   manutenção   dos   algoritmos  de  análise  quanto  na  exploração  dos  

dados   de   forma   eficiente   pelas   organizações   também   foi   um   ponto   bastante   lembrado  durante  as  discussões.  

!

Por   fim,   as   questões   relacionadas   com   a   segurança   da   informação   e   com   as   limitações  legais  de  uso  de  dados  privados  nas  análises  foram  citadas  como  grandes   desafios  para  projetos  de  Big  Data.  

!

!

Quem  já  está  usando  e  de  que  forma?  

!

Os   casos   mais   relevantes   são   sem   dúvida   as   grandes   empresas   de   internet   como   Google,  Yahoo,  Facebook  e  Twiner.  Todos  eles  u>lizam  a  tecnologia  para  seleção  de   conteúdo   baseado   nas   áreas   de   interesse   dos   usuários,   processando   volumes   imensos  de  dados.  

!

O  grupo  iden>ficou  outros  casos  interessantes  de  u>lização  do  conceito.  Entre  eles   estão:  

!

1) Busca  de  padrões  de  diagnós>co  em  prontuários  médicos  digitalizados;  

2) Iden>ficação  de  palavras  chave  em  comunicações  por  e-­‐mail  para  a  prevenção  de   fraudes  ou  vazamento  de  informações  confidenciais;  

3) Oferta  de  produtos  e  serviços  a  par>r  da  análise  de  navegação  dos  clientes  em   sites  de  comércio  eletrônico;  

4) Recuperação  de  receita  a  par>r  da  iden>ficação  de  chamadas  realizadas  sem  o   correspondente  faturamento  em  empresas  de  telecomunicações;  

5) Triagem  de  problemas  de  prestação  de  serviços  com  a  iden>ficação  de  palavras   chave  em  gravações  de  atendimento  recep>vo.    

!

Qual  a  diferença  entre  Hadoop  e  Bancos  de  Dados?  Um  subsHtui  o  outro?  

!

Durante   as   discussões   do   grupo   chegou-­‐se   a   um   consenso   de   que   a   plataforma   Hadoop  tem  como  obje>vo  principal  o  armazenamento  e  processamento  de  forma  

(5)

!

Para   a   plataforma   Hadoop   pouco   importa   a   natureza   do   conjunto   de   dados   ou   o   volume  dos  mesmos.  Em  princípio,  com  a  simples  adição  de  novos  computadores  ao   cluster  e  com  o  algoritmo  adequado  de  processamento,  a  plataforma  é  capaz  de  lidar   com  quaisquer  volumes  ou  natureza  de  dados.  

!

Os  bancos  de  dados  até  podem  armazenar  informações  não  estruturadas,  mas  em   geral  possuem  limitações  na  forma  como  processam  essas  informações.  

!

A   questão   do   volume   foi   levantada   pelo   grupo   mas   a   conclusão   foi   de   que   atualmente   existem   gerenciadores   de   banco   de   dados   capazes   de   lidar   com   altos   volumes  de  forma  tão  eficiente  quanto  a  plataforma  Hadoop.  

!

Apesar  da  plataforma  Hadoop  poder  lidar  com  dados  estruturados,  a  conclusão  do   grupo   foi   de   que   os   bancos   de   dados   ainda   apresentam   vantagens   neste   >po   de   aplicação.  

!

A  visão  do  grupo  foi  de  que  atualmente  essas   plataformas  possuem  cada  uma  delas  seu   espaço,  mas  que  existe  uma  tendência  para   que  as  áreas  de  sobreposição  aumentem   cada  vez  mais  ao  longo  do  tempo.  A   expecta>va  é  de  que  vejamos  os   gerenciadores  de  banco  de  dados  

aumentando  suas  capacidades  de  lidar  com   dados  não  estruturados  e  a  plataforma   Hadoop  evoluindo  na  direção  contrária.  

!

Um  ponto  ressaltado  por  vários  membros  do  grupo  foi  o  fato  da  plataforma  Hadoop   ter   origem   em   uma   comunidade   de   soiware   livre   e   ser   baseada   em   hardware   padrão   de   mercado   e   de   baixo   custo,   o   que   torna   essa   plataforma   muito   atraente   especialmente  em  mercados  como  o  Brasil.  

!

Por  outro  lado,  alguns  par>cipantes  lembraram  que  a  plataforma  Hadoop  ainda  exige   um  alto  grau  de  especialização  para  ser  u>lizada  de  forma  eficiente  e  que  existem   muito  poucos  profissionais  do  mercado  que  saibam  trabalhar  com  a  mesma.  

!

!

Como  fica  o  invesHmento  que  já  fizemos  em  bancos  de  dados  e  ferramentas   de  BI?  

!

O   grupo   entende   que   as   tecnologias   de   banco   de   dados   e   Hadoop   são   complementares  e  provavelmente  con>nuarão  a  conviver  nas  organizações.  

!

A  plataforma  Hadoop  parece  ideal  para  a  recepção  dos  dados  não  estruturados  ou   cujas  relações  e  caracterís>cas  ainda  não  tenham  sido  totalmente  estruturadas.  Ela   também  se  apresenta  como  uma  opção  para  a  aplicação  imediata  de  algoritmos  de   tratamento  de  dados  que  chegam  em  grande  volume  e  de  forma  conenua.  

(6)

Já   os   gerenciadores   de   banco   de   dados   são   ideais   para   armazenar   os   dados   estruturados,   cujos   relacionamentos   sejam   bem   conhecidos   e   determinados   pois   permitem  análises  mais  estruturadas  sem  o  auxílio  de  algoritmos  mais  sofis>cados.    

Neste  sen>do,  o  entendimento  do  grupo  é   de  que  o  inves>mento  nos  bancos  de  dados   e  nas  prá>cas  de  Data  Warehousing  devem   con>nuar  nas  organizações.  

!

Quanto  às  ferramentas  de  análise  e  geração   de  relatórios  e  dashboards  (ferramentas  de   BI)  a  expecta>va  do  grupo  é  de  que  todas   as  ferramentas  passem  a  tratar  a  

plataforma  Hadoop  como  mais  uma  fonte   de  dados  a  ser  u>lizada  nas  análises  e  na   preparação  de  relatórios  e  dashboards.  

!

!

!

!

!

!

Referências

Documentos relacionados

No artigo Etnomatemática como uma Perspectiva Metodológica para o Ambiente Virtual de Aprendizagem a Distância nos Cursos de Formação de Professores, os autores Milton Rosa e

No Quadro 4 demonstra-se os insumos de produção variáveis e os custos e despesas fixos para a fabricação do produto, de acordo com o preço- meta de venda, após a utilização da

No biotrauma, estratégias ventilatórias não-protetivas levariam a uma hiperativação do sistema imune e à liberação de mediadores inflamatórios, resultando em lesão

Desse modo, ainda que o salário (crédito trabalhista) goze de proteção constitucional, deve ser considerado o crime praticado pelos réus contra o patrimônio do autor e em

No entanto, as redes RBF treinadas com o PLS-DA, utilizando os espectros tratados com MSC e 2 a derivada conjuntamente, podem ser consideradas como melhor opção para

No suspender para Ushuaia, mais uma vez, o navio mostrou a importância do seu apoio logístico para a EACF, quando embarcou e transportou, para ser reparado em Ushuaia, um trator

Para adequar os conceitos de qualidade à segurança e saúde do trabalho, é preciso que as ações sejam planejadas e desenvolvidas no âmbito global das empresas, de forma dinâmica e

Objeto: Credenciamento de pessoas físicas ou jurídicas para contratação de pessoas físicas ou jurídicas para a prestação de serviços de transporte escolar do tipo terrestre