Governança e Big Data
Celso Poderoso
Formação Acadêmica:
Economista
Especialista em Sistemas de Informação
Mestre em Tecnologia (Grid Computing/Cloud Computing)
Livros Publicados:
Guias de Referência: Oracle PL/SQL 8i, 9i e 10g Livro: SQL Curso Prático
Atividades Profissionais:
Professor e Coordenador de pós-graduação na FIAP
Diretor de Serviços para América Latina na MicroStrategy
Falhas em Projetos com Big Data
Falta de apoio e liderança dos executivos
Lideranças departamentais são menos propensas ao sucesso
Falta de uma Arquitetura adequada
Ferramentas de Big Data para solucionar problemas de Big Data
Ausência de Governança Corporativa e de Dados
Agilidade, segurança e qualidade
Falta de Cultura de Dados na Organização
O que é Big Data?
Big Data – Definição
"Big Data" é um dado cuja escala, distribuição, diversidade e/ou atualidade exigem o uso de novas arquiteturas técnicas e análises para permitir insights para agregar novas fontes de valor do negócio.
Requer novas arquiteturas de dados (caixas de areia analíticas); Novas ferramentas;
Novos métodos analíticos;
Integração de múltiplas habilidades: Cientista de Dados.
IoT
Definição:
Rede de objetos físicos que contém tecnologia embutida para comunicar, sentir ou interagir com seus estados
internos ou ambiente externo. Gartner.
Convergência:
Social e mobile: interações
Cloud: infra para entrega e distribuição
Antecedentes:
Por que Big Data?
A Evolução da Análise de Dados
Tomada de Decisão
Dados
Sentimento
Experiência
Estrutura dos Dados Corporativos
Fonte: EMC, 2012 - Adaptado
Structured
Semi-Structured
“Quasi” Structured
Unstructured
Dados que possuem um tipo, formato e estrutura definida Exemplo: Dados transacionais e OLAP
Dados que não possuem estrutura e normalmente são armazenados em formatos diferentes
Exemplo: documentos texto, PDF, imagens e vídeos
Dados textuais com formatos parcialmente passíveis de formatação com esforço, ferramentas e tempo.
Exemplo: Clickstream
Arquivo de dados textuais padronizados que permite realizar buscas
Exemplo: XML
More
Struct
Onde Estão os Dados
Planilhas e BDs para uso departamental (limitado) Extração dependente do analista Ilhas de Dados “Spreadmarts”Data Marts isolados
Data Warehouses
Dados para tomada de decisão centralizados
Analytic Sandbox
Ativos de Dados recuperados por diversos analistas e tecnologias
• Suporta relatórios e BI, depende da estruturação prévia das necessidades • Dependente do analista, TI e
DBA para criação de relatórios e dashboards
• Tempo para gerar novas análises é grande
• Permite análises complexas (processamento “in-db”)
• Trabalha com o dado e depois cria métricas, relatórios e dashboards estruturados
• “Analyst-owned” ao invés de “TI-DBA owned”
Business Intelligence Tech
Descritivo
O que aconteceu?
Diagnóstico
Por que aconteceu?
Preditivo
O que irá acontecer?
Prescritivo
O que deveria acontecer?
Funções analíticas Matemáticas, OLAP & Financeiras, Operadores &
Estatísticas Modelos descritivos Agrupamento & Associação, Análises de fatores Modelos preditivos Regressão & Série Temporal, Previsão &
Classificação
Otimização
Simulação de Programação Linear
Data Mining
Business Intelligence & Analytics
Tipos:
Decisão: apoio aos gestores*
Descritivo: insight de dados históricos* Preditivo: estatística e machine learning
Prescritivo: simulação e recomendações (decisões)
Descritivo
Preditivo
Inquisitivo
Prescritivo
Solução
Visão Corporativa dos Dados
Single Version of the Truth
“Soluções” departamentais estão longe de ser “a” solução
Usuário com Poder de Análise
Data Discovery & Self-Service BI
Arquitetura de Big Data
Big Data
Integração Armazenamento
Arquitetura de Big Data
Integração e Governança
Ciclo de Vida & Governança Dataflow Sqoop Flume Kafka Spark Streaming
Ferramentas de Gestão Segurança
Administração Autenticação Auditoria Proteção Dados Operações Provisionamento, Gestão e Monitoramento Agendamento Oozie Acesso aos Dados - Armazenamento
Batch (MapReduce/Spark) Script SQL NoSQL Busca In-Memory YARN x Mesos HDFS Gestão do Dado Zookeper Cloudbreak
All Together
Aquisição e Ingestão Gestão de Metadados Catálogo Preparação e Limpeza Hadoop Workflow Acesso Data Wrangling / Blending / CurationGrandes Questões de Arquitetura
Forma de Entrega
Cloud x On-Premises
Características para serviços Enterprise-class
Segue padrão Apache ou agrega serviços adicionais?
Segurança e Proteção
Autenticação, Controle baseado em regras, políticas de segurança, etc.
Solução
Arquitetura adequada para problemas de Big Data
Pessoas preparadas para usar Arquitetura
A Governança de Dados e Big Data
Pilares da Governança de Dados
Dados Centralizados e Integrados
Metadados
Privacidade e Segurança
Data Quality
Maturidade
29
Framework Big Data
Pessoas
Usuários Ana lista s TIProcessos
To mada D ecisã o A na lyt ics Infrae str ut ur aTecnologia
Tran sacional BI A na lyt ics DWSolução
Políticas claras para Uso do Dados Corporativo
Processos claros para os pilares da Governança
Cultura Organizacional voltada aos Dados
Agilidade, Segurança e qualidade de dados
Visão Corporativa dos Dados
Liberdade para Usuário criar as Análises
Responsabilidade de TI em garantir confiabilidade
http://www.facebook.com/GovernancaDados
http://br.linkedin.com/in/cpoderoso/ Big Data – Brazil
Governança de Dados - BR