Copyright 2012 EMC Corporation. Todos os direitos reservados.

Texto

(1)
(2)

A INFRAESTRUTURA

DO FUTURO, HOJE

Integrando Greenplum DCA e SAS

para permitir estudos analíticos em

big data

Rafael Aielo

(3)

O que é Greenplum?

Adquirida pela EMC em julho de 2010

Parte do quadrante de líderes do Gartner DW Magic Quadrant, Jan/2011 e

Fev/2012

Líder Forrester Wave em Hadoop, fevereiro de 2012

Missão: Fornecer produtos e serviços que ajudem as empresas

e provedores de serviços a obter os benefícios de negócios com

análises em big data

Mais de 400 clientes globais em todos os setores

(4)

SAS: Software líder em análise de negócios

Desempenho

N° 1 em análise de negócios

Mais de 50.000 clientes

12.000 funcionários em todo

o mundo

Cultura

Empresa n° 1 para trabalhar

nos EUA (2010, 2011)

Parceiro confiável de grandes

empresas e governos

Experiência

50.000 locais com SAS em

127 países

Implementado em 93 das

100 maiores empresas

35 anos, líder em soluções

analíticas

Líder inovador

Laboratório de análises

avançada da SAS

Cultura de inovação: 24%

de reinvestimento em P&D

(5)

Uma parceria estratégica para computação

de alto desempenho em ambientes

(6)

QUE PROBLEMAS

LEVARÃO SEUS

CLIENTES A

REPENSAR A SUA

PLATAFORMA

ANALÍTICA?

Não têm capacidade de

expansão para os volumes de big

data

Não conseguem dar suporte

completo ao processo de

modelagem de análises

estatísticas

O carregamento de dados é

muito lento

A plataforma atual só é compatível

com OLAP e eles precisam de

análises avançadas

(7)

A Plataforma Analítica Integrada GREENPLUM

Dispositivos físicos ou infraestrutura em nuvem privada/híbrida

Camada de acesso e consulta aos dados

Ferramentas e serviços de terceiro

s

/parceiros

Greenplum Chorus – camada de produtividade analítica

Greenplum Hadoop

Cientista

de dados

Engenheiro

de dados

Analista

de dados

Analista

de BI

Usuário

de LOB

Greenplum Database

Admin. da plataforma de dados

EQ

UI

PE D

E C

IÊN

C

IA

D

E D

A

D

O

S

(8)

Greenplum Database

Desempenho por meio do paralelismo

Arquitetura Scale-Out em hardware “commodity”

Paralelização automática

Carregue e consulte como qualquer banco de dados

Distribua tabelas por todos os nós automaticamente

Sem necessidade de particionamento nem

de ajuste manual

Arquitetura MPP sem compartilhamento

e extremamente escalável

Todos os nós executam as rotinas paralelamente

Capacidade de expansão linear por meio da adição de nós

Expansão on-line ao adicionar novos nós de processamento

Carregamento Interconexão

(9)

Greenplum HD

Solução Hadoop pronta para uso corporativo

Apache Hadoop

Baseado na versão estável mais recente

Suporte corporativo

Suporte mundial da EMC, 24h x 7d

Comprovação em escala

Certificado em escala pela EMC

Opção de armazenamento Isilon

Aproveite o que há de melhor sem alterações

nos aplicativos

(10)

GPDB  compartilhamento de dados

do GPHD

GPDB

External Tables

GPHD

Arquivo no

HDFS

Entrada/saída

de dados do GPHD

em consultas do GPDB

(11)

Greenplum Chorus

Agilidade em Big Data

Primeira Plataforma de Produtividade Analítica do

Mundo

Busque, explore, visualize e importe dados

de toda a corporação

Provisionamento self-service de áreas de

trabalho para estudos analíticos

Crie, compartilhe e publique descobertas

(12)

Soluções de Software

Greenplum

Greenplum Database,

Hadoop, & Chorus em

seu hardware x86

Flexibilidade para

qualquer ambiente

Licenças de uso

permanente

EMC Greenplum

Permite a escolha de formas de implementação

Greenplum Data

Computing Appliance

Escolha a composição

dos módulos em

incrementos de ¼ de

rack

Cresça adicionando

novos módulos

Uso imediato dos

(13)

Greenplum

Data Computing Appliance

(14)

Greenplum Data Computing Appliance

Arquitetura Modular Única

Módulo Greenplum

Database Standard

9TB capacidade (sem

compressão)/36TB (com

compressão)

Cada servidor contém:

2 sockets/12 cores

48GB de memória

12 discos x 600GB

Módulo Greenplum

Database High Capacity

31TB capacidade (sem

compressão)/124TB (com

compressão)

Cada servidor contém:

2 sockets/12 cores

48GB de memória

12 discos x 2TB

Módulo Greenplum HD

28TB capacidade (3 cópias,

sem compressão)

Cada servidor contém:

2 sockets/12 cores

48GB de memória

12 discos x 2TB

Módulo Greenplum Data

Integration Accelerator

(DIA)

70TB capacidade

Cada servidor contém:

2 sockets/12 cores

48GB de memória

12 discos x 2TB

HD

DIA

GPDB

GPDB

(15)

Inicie com uma interconexão de alta velocidade...

2 servidores master do GPDB

2 switches 10 GE

Switch administrativo

Módulo

funcional

Módulo

funcional

Módulo

funcional

Módulo

funcional

(16)

Adicione módulos de 1/4 de rack e expanda até doze racks

1º rack

+

Rack de Agregação e Expansão

+ …

Módulo

funcional

Módulo

funcional

Módulo

funcional

DIA

GP DB

ou

ou

GP HD

DIA

GP DB

ou

ou

GP HD

Módulo

funcional

Módulo

funcional

Módulo

funcional

Módulo

funcional

GP DB

(17)

Especificações do Greenplum Database Module

Tipo de módulo

Greenplum DB Módulo

padrão

Greenplum DB Módulo de

alta capacidade

Número de servidores

4

Número total de núcleos

48 núcleos

Memória total

192 GB

Tipo de armazenamento

600 GB

2 TB

Número total de drives de armazenamento

48

Capacidade utilizável (sem compactação)

9 TB

31 TB

Capacidade utilizável (com compactação)

36 TB

124 TB

Taxa de varredura (Full Rack)

24 GB/s

14 GB/s

Taxa de carregamento de dados (Full Rack)

10 TB/hora

10 TB/hora

(18)

Greenplum DIA

Data Integration Accelerator Module

Desenvolvido especificamente para fornecer integração

rápida com o Greenplum DB e hospedar aplicativos de

parceiros

(19)

Alta disponibilidade – em todas as camadas

Redundância em todos os componentes de

hardware

Espelhamento no banco de dados Greenplum

Redistribuição automática do workload

Failover automático dos nodes Greenplum DB

Opções de implementeção de Disaster Recovery

(20)
(21)

Configuração de espelhamento do GPDB

P1

P2

P3

M6

M8

M10

P4

P5

P6

M1

M9

M11

P7

P8

P9

M2

M4

M12

P10

P11

P12

M3

M5

M7

Servidor de

segmento 1

Servidor de

segmento 2

Servidor de

segmento 3

Servidor de

segmento 4

Conjunto de instâncias

de segmentos ativos

GP DB

GP DB

GP DB

GP DB

(22)

O DCA pode sustentar até quatro falhas de

servidor por rack, uma por módulo

P1

P2

P3

M6

M8

M10

P4

P5

P6

M1

M9

M11

P7

P8

P9

M2

M4

M12

P10

P11

P12

M3

M5

M7

Conjunto de instâncias

de segmentos ativos

GP DB

GP DB

GP DB

GP DB

Servidor de

segmento 1

Servidor de

segmento 2

Servidor de

segmento 3

Servidor de

segmento 4

(23)

Failover automático do Master Node - DCA

Servidor

master

Servidor

master em

standby

Interconexão

de redes

Replicação das transações

Endereço IP

virtual

(24)

Greenplum Data Computing Appliance

Plataforma unificada de análise de dados

Trabalhe com dados estruturados e não estruturados

Perfeito fluxo de dados entre o GPDB e o GPHD

Execute SAS e outras soluções no DIA

Liderança em desempenho e capacidade

Execução rápida de consulta de dados

Carregamento de dados de alta capacidade

Capacidade de vários petabytes em um único cluster

Gerenciamento e suporte integrados

Suporte e serviço 100% EMC

Integração fácil com datacenters corporativos

O Command Center fornece uma visão eficiente

(25)

Arquitetura integrada UAP Greenplum e SAS

Cientista

de dados

Engenheiro

de dados

Analista

de dados

Analista

de BI

Usuário

de LOB

Admin.

da

E

Q

UI

P

E

DE

CI

Ê

NCI

A

DE

DA

DO

S

Greenplum Chorus – camada de produtividade analítica

Análise Estatística SAS

Infraestrutura Física de Servidores ou em nuvem privada/híbrida

Business Intelligence SAS

Greenplum Database

Greenplum Hadoop

(26)

ANÁLISE

LÓGICA DE ALTO

DESEMPENHO

DA SAS

®

(27)

ANÁLISE

LÓGICA DE ALTO

DESEMPENHO

DA SAS

®

(28)

ANÁLISE

LÓGICA DE ALTO

DESEMPENHO

DA SAS

®

(29)

ANÁLISE

LÓGICA DE ALTO

DESEMPENHO

DA SAS

®

(30)

Ponto inicial central

Integração

Visualizações baseadas em função

BI MÓVEL

GERENCIADOR

DE AMBIENTES

EXPLORADOR

VISUAL DE

ANÁLISES

DESIGNER

VISUAL

Relatórios nativos

interativos

iOS, Android

Plataforma

In-Memory de análises

Segurança

Monitoramento

Análise específica

Detecção de dados

Relatórios para a Web

ou celular

(31)

Melhorando o

desempenho

e a facilidade

de gerenciamento

do ambiente SAS

(32)

Componentes básicos da solução integrada

Etapa 1: Nova visão da arquitetura analítica

EMC Greenplum UAP

Análise estatística corporativa da SAS

S

ol

ões

SAS

BI

SAS

• Solução totalmente integrada

• MPP em todo repositório

• Resultados analíticos mais

rápidos e mais precisos sobre

todos os dados

• Flexibilidade com

balanceamento dinâmico de

cargas de trabalho

• Continuidade dos aplicativos

atuais SAS

G

er

e

nc

ia

m

e

nt

o

d

e

in

fo

rm

a

ç

õe

s

In

-me

mo

ry

SAS

In

-Databas

e S

A

S

C

om

pu

taç

ã

o

e

m

G

RI

D

SAS

(33)

Soluções SAS

Gerenciador de grid

SAS (x86/Linux)

In-Memory SAS

In-Database SAS

BI SAS

informações da SAS

Gerenciamento de

SAS

So

ft

w

are

SAS Fraud Framework

SAS Grid Manager for

Linux

SAS HPA (High

Performance

Analytics)

SAS Access for

Greenplum

(Processos básicos)

SAS Visual Analytics

(SA VA)

SAS Data Integration

Studio

SAS Metadata

Manager

SAS HPMO (High

Performance

Marketing

Optimization)

SAS EDI (Enterprise

Data Integration)

SAS HP Risk (High

Performance Risk)

SAS SA (Scoring

Accelerator) for

Greenplum

SAS Dataflux

SAS Model Manager

Foco no problema de negócios

(34)

Etapa 3: A Greenplum entrega a infraestrutura

do ambiente analítico

Ger. de

grid da SAS

no GP DIA

Ger. de

grid da SAS

no GP DIA

Ger. de

grid da SAS

no GP DIA

Ger. de

grid da SAS

no GP DIA

192 núcleos de

CPU Grid SAS

SAS HPA

no GP DCA

SAS HPA

no GP DCA

SAS HPA

no GP DCA

SAS HPA

no GP DCA

Rack completo para

HPA – des. de modelo

Armazena

mento NAS

Isilon

Armazena

mento NAS

Isilon

Armazena

mento NAS

Isilon

Armazena

mento NAS

Isilon

Armazena

mento NAS

Isilon

Armazena

mento NAS

Isilon

Armazena

mento NAS

Isilon

Armazena

mento NAS

Isilon

Isilon de 300 TB para conjuntos de

dados SAS e Greenplum HD

Nós GP

Hadoop

Nós GP

Hadoop

SAS VA no

GP DIA

SAS VA no

GP DIA

Nós do GP Hadoop c/

SAS VA

(35)

SAS Grid e outras soluções no GP DIA Isilon para programas SAS

(36)

Resumo

A SAS e a EMC Greenplum têm estratégias de

soluções altamente alinhadas e complementares

A integração atual dos produtos permite que as

empresas comecem sua jornada rumo à análises de

big data

hoje

A integração futura dos produtos aumentará o valor

que pode ser extraído da Plataforma Analítica

Integrada

(37)

Twite por uma chance de ganhar um

Iomega Desktop Hard Drive 1TB!

As respostas corretas participarão do sorteio acima.

O ganhador será anunciado no fim do evento.

(38)
(39)

Imagem

Referências

temas relacionados :