A INFRAESTRUTURA
DO FUTURO, HOJE
Integrando Greenplum DCA e SAS
para permitir estudos analíticos em
big data
Rafael Aielo
O que é Greenplum?
Adquirida pela EMC em julho de 2010
–
Parte do quadrante de líderes do Gartner DW Magic Quadrant, Jan/2011 e
Fev/2012
–
Líder Forrester Wave em Hadoop, fevereiro de 2012
Missão: Fornecer produtos e serviços que ajudem as empresas
e provedores de serviços a obter os benefícios de negócios com
análises em big data
Mais de 400 clientes globais em todos os setores
SAS: Software líder em análise de negócios
Desempenho
–
N° 1 em análise de negócios
–
Mais de 50.000 clientes
–
12.000 funcionários em todo
o mundo
Cultura
–
Empresa n° 1 para trabalhar
nos EUA (2010, 2011)
–
Parceiro confiável de grandes
empresas e governos
Experiência
–
50.000 locais com SAS em
127 países
–
Implementado em 93 das
100 maiores empresas
–
35 anos, líder em soluções
analíticas
Líder inovador
–
Laboratório de análises
avançada da SAS
–
Cultura de inovação: 24%
de reinvestimento em P&D
Uma parceria estratégica para computação
de alto desempenho em ambientes
QUE PROBLEMAS
LEVARÃO SEUS
CLIENTES A
REPENSAR A SUA
PLATAFORMA
ANALÍTICA?
•
Não têm capacidade de
expansão para os volumes de big
data
•
Não conseguem dar suporte
completo ao processo de
modelagem de análises
estatísticas
•
O carregamento de dados é
muito lento
•
A plataforma atual só é compatível
com OLAP e eles precisam de
análises avançadas
A Plataforma Analítica Integrada GREENPLUM
Dispositivos físicos ou infraestrutura em nuvem privada/híbrida
Camada de acesso e consulta aos dados
Ferramentas e serviços de terceiro
s
/parceiros
Greenplum Chorus – camada de produtividade analítica
Greenplum Hadoop
Cientista
de dados
Engenheiro
de dados
Analista
de dados
Analista
de BI
Usuário
de LOB
Greenplum Database
Admin. da plataforma de dadosEQ
UI
PE D
E C
IÊN
C
IA
D
E D
A
D
O
S
Greenplum Database
Desempenho por meio do paralelismo
•
Arquitetura Scale-Out em hardware “commodity”
•
Paralelização automática
–
Carregue e consulte como qualquer banco de dados
–
Distribua tabelas por todos os nós automaticamente
–
Sem necessidade de particionamento nem
de ajuste manual
•
Arquitetura MPP sem compartilhamento
e extremamente escalável
–
Todos os nós executam as rotinas paralelamente
–
Capacidade de expansão linear por meio da adição de nós
–
Expansão on-line ao adicionar novos nós de processamento
Carregamento Interconexão
Greenplum HD
Solução Hadoop pronta para uso corporativo
Apache Hadoop
–
Baseado na versão estável mais recente
Suporte corporativo
–
Suporte mundial da EMC, 24h x 7d
Comprovação em escala
–
Certificado em escala pela EMC
Opção de armazenamento Isilon
–
Aproveite o que há de melhor sem alterações
nos aplicativos
GPDB compartilhamento de dados
do GPHD
GPDB
External Tables
GPHD
Arquivo no
HDFS
Entrada/saída
de dados do GPHD
em consultas do GPDB
Greenplum Chorus
Agilidade em Big Data
Primeira Plataforma de Produtividade Analítica do
Mundo
–
Busque, explore, visualize e importe dados
de toda a corporação
–
Provisionamento self-service de áreas de
trabalho para estudos analíticos
–
Crie, compartilhe e publique descobertas
Soluções de Software
Greenplum
Greenplum Database,
Hadoop, & Chorus em
seu hardware x86
Flexibilidade para
qualquer ambiente
Licenças de uso
permanente
EMC Greenplum
Permite a escolha de formas de implementação
Greenplum Data
Computing Appliance
Escolha a composição
dos módulos em
incrementos de ¼ de
rack
Cresça adicionando
novos módulos
Uso imediato dos
Greenplum
Data Computing Appliance
Greenplum Data Computing Appliance
Arquitetura Modular Única
Módulo Greenplum
Database Standard
9TB capacidade (sem
compressão)/36TB (com
compressão)
Cada servidor contém:
•
2 sockets/12 cores
•
48GB de memória
•
12 discos x 600GB
Módulo Greenplum
Database High Capacity
31TB capacidade (sem
compressão)/124TB (com
compressão)
Cada servidor contém:
•
2 sockets/12 cores
•
48GB de memória
•
12 discos x 2TB
Módulo Greenplum HD
28TB capacidade (3 cópias,
sem compressão)
Cada servidor contém:
•
2 sockets/12 cores
•
48GB de memória
•
12 discos x 2TB
Módulo Greenplum Data
Integration Accelerator
(DIA)
70TB capacidade
Cada servidor contém:
•
2 sockets/12 cores
•
48GB de memória
•
12 discos x 2TB
HD
DIA
GPDB
GPDB
Inicie com uma interconexão de alta velocidade...
2 servidores master do GPDB
2 switches 10 GE
Switch administrativo
Módulo
funcional
Módulo
funcional
Módulo
funcional
Módulo
funcional
Adicione módulos de 1/4 de rack e expanda até doze racks
1º rack
+
Rack de Agregação e Expansão
+ …
Módulo
funcional
Módulo
funcional
Módulo
funcional
DIA
GP DB
ou
ou
GP HD
DIA
GP DB
ou
ou
GP HD
Módulo
funcional
Módulo
funcional
Módulo
funcional
Módulo
funcional
GP DB
Especificações do Greenplum Database Module
Tipo de módulo
Greenplum DB Módulo
padrão
Greenplum DB Módulo de
alta capacidade
Número de servidores
4
Número total de núcleos
48 núcleos
Memória total
192 GB
Tipo de armazenamento
600 GB
2 TB
Número total de drives de armazenamento
48
Capacidade utilizável (sem compactação)
9 TB
31 TB
Capacidade utilizável (com compactação)
36 TB
124 TB
Taxa de varredura (Full Rack)
24 GB/s
14 GB/s
Taxa de carregamento de dados (Full Rack)
10 TB/hora
10 TB/hora
Greenplum DIA
Data Integration Accelerator Module
Desenvolvido especificamente para fornecer integração
rápida com o Greenplum DB e hospedar aplicativos de
parceiros
Alta disponibilidade – em todas as camadas
Redundância em todos os componentes de
hardware
Espelhamento no banco de dados Greenplum
Redistribuição automática do workload
Failover automático dos nodes Greenplum DB
Opções de implementeção de Disaster Recovery
Configuração de espelhamento do GPDB
P1
P2
P3
M6
M8
M10
P4
P5
P6
M1
M9
M11
P7
P8
P9
M2
M4
M12
P10
P11
P12
M3
M5
M7
Servidor de
segmento 1
Servidor de
segmento 2
Servidor de
segmento 3
Servidor de
segmento 4
Conjunto de instâncias
de segmentos ativos
GP DB
GP DB
GP DB
GP DB
O DCA pode sustentar até quatro falhas de
servidor por rack, uma por módulo
P1
P2
P3
M6
M8
M10
P4
P5
P6
M1
M9
M11
P7
P8
P9
M2
M4
M12
P10
P11
P12
M3
M5
M7
Conjunto de instâncias
de segmentos ativos
GP DB
GP DB
GP DB
GP DB
Servidor de
segmento 1
Servidor de
segmento 2
Servidor de
segmento 3
Servidor de
segmento 4
Failover automático do Master Node - DCA
Servidor
master
Servidor
master em
standby
Interconexão
de redes
Replicação das transações
Endereço IP
virtual
Greenplum Data Computing Appliance
Plataforma unificada de análise de dados
Trabalhe com dados estruturados e não estruturados
Perfeito fluxo de dados entre o GPDB e o GPHD
Execute SAS e outras soluções no DIA
Liderança em desempenho e capacidade
Execução rápida de consulta de dados
Carregamento de dados de alta capacidade
Capacidade de vários petabytes em um único cluster
Gerenciamento e suporte integrados
Suporte e serviço 100% EMC
Integração fácil com datacenters corporativos
O Command Center fornece uma visão eficiente
Arquitetura integrada UAP Greenplum e SAS
Cientista
de dados
Engenheiro
de dados
Analista
de dados
Analista
de BI
Usuário
de LOB
Admin.
da
E
Q
UI
P
E
DE
CI
Ê
NCI
A
DE
DA
DO
S
Greenplum Chorus – camada de produtividade analítica
Análise Estatística SAS
Infraestrutura Física de Servidores ou em nuvem privada/híbrida
Business Intelligence SAS
Greenplum Database
Greenplum Hadoop
ANÁLISE
LÓGICA DE ALTO
DESEMPENHO
DA SAS
®
ANÁLISE
LÓGICA DE ALTO
DESEMPENHO
DA SAS
®
ANÁLISE
LÓGICA DE ALTO
DESEMPENHO
DA SAS
®
ANÁLISE
LÓGICA DE ALTO
DESEMPENHO
DA SAS
®
Ponto inicial central
Integração
Visualizações baseadas em função
BI MÓVEL
GERENCIADOR
DE AMBIENTES
EXPLORADOR
VISUAL DE
ANÁLISES
DESIGNER
VISUAL
•
Relatórios nativos
interativos
•
iOS, Android
•
Plataforma
In-Memory de análises
•
Segurança
•
Monitoramento
•
Análise específica
•
Detecção de dados
•
Relatórios para a Web
ou celular
Melhorando o
desempenho
e a facilidade
de gerenciamento
do ambiente SAS
Componentes básicos da solução integrada
Etapa 1: Nova visão da arquitetura analítica
EMC Greenplum UAP
Análise estatística corporativa da SAS
S
ol
uç
ões
SAS
BI
SAS
• Solução totalmente integrada
• MPP em todo repositório
• Resultados analíticos mais
rápidos e mais precisos sobre
todos os dados
• Flexibilidade com
balanceamento dinâmico de
cargas de trabalho
• Continuidade dos aplicativos
atuais SAS
G
er
e
nc
ia
m
e
nt
o
d
e
in
fo
rm
a
ç
õe
s
In
-me
mo
ry
SAS
In
-Databas
e S
A
S
C
om
pu
taç
ã
o
e
m
G
RI
D
SAS
Soluções SAS
Gerenciador de grid
SAS (x86/Linux)
In-Memory SAS
In-Database SAS
BI SAS
informações da SAS
Gerenciamento de
SAS
So
ft
w
are
SAS Fraud Framework
SAS Grid Manager for
Linux
SAS HPA (High
Performance
Analytics)
SAS Access for
Greenplum
(Processos básicos)
SAS Visual Analytics
(SA VA)
SAS Data Integration
Studio
SAS Metadata
Manager
SAS HPMO (High
Performance
Marketing
Optimization)
SAS EDI (Enterprise
Data Integration)
SAS HP Risk (High
Performance Risk)
SAS SA (Scoring
Accelerator) for
Greenplum
SAS Dataflux
SAS Model Manager
Foco no problema de negócios
Etapa 3: A Greenplum entrega a infraestrutura
do ambiente analítico
Ger. de
grid da SAS
no GP DIA
Ger. de
grid da SAS
no GP DIA
Ger. de
grid da SAS
no GP DIA
Ger. de
grid da SAS
no GP DIA
192 núcleos de
CPU Grid SAS
SAS HPA
no GP DCA
SAS HPA
no GP DCA
SAS HPA
no GP DCA
SAS HPA
no GP DCA
Rack completo para
HPA – des. de modelo
Armazena
mento NAS
Isilon
Armazena
mento NAS
Isilon
Armazena
mento NAS
Isilon
Armazena
mento NAS
Isilon
Armazena
mento NAS
Isilon
Armazena
mento NAS
Isilon
Armazena
mento NAS
Isilon
Armazena
mento NAS
Isilon
Isilon de 300 TB para conjuntos de
dados SAS e Greenplum HD
Nós GP
Hadoop
Nós GP
Hadoop
SAS VA no
GP DIA
SAS VA no
GP DIA
Nós do GP Hadoop c/
SAS VA
SAS Grid e outras soluções no GP DIA Isilon para programas SAS