Allan Oliveira | allan@chaordic.com.br
Sai Hadoop, entra Spark
tópico 1
Campanha
Redução
de Preço
Campanha
O Desafio dos Emails
Personalizados
+600
milhões
Usuários
+42
Evolução de uma arquitetura
de emails personalizados
Evolução da arquitetura
A base de tudo
Evolução da arquitetura
A base de tudo
Evolução da arquitetura
A base de tudo
Evolução da arquitetura
Evolução da arquitetura
Evolução da arquitetura
Evolução da arquitetura
Evolução da arquitetura
Evolução da arquitetura
Evolução da arquitetura
Evolução da arquitetura
Evolução da arquitetura
Evolução da arquitetura
Evolução da arquitetura
Evolução da arquitetura
Evolução da arquitetura
Evolução da arquitetura
Evolução da arquitetura
Evolução da arquitetura
gasm
Sparkgasm!
Sparkgasm!
Sparkgasm!
Sparkgasm!
Sparkgasm!
Sparkgasm!
Como Spark é mais rápido que Hadoop
1 6.75
11
As dificuldades ao se
usar o Spark
Hadoop-client
O presente de grego
para o Spark
operação necessita
Ignition-Template
Job Runner: Advanced Cluster Control Job/Setup Organization ExamplesIgnition-Core
Cluster Management & Job Execution Multi-Setup Runner Utilitary FunctionsProjetos open-source da Chaordic
github.com/chaordic/
ignition-template
montando um
Algoritmo
● Escolher a melhor máquina na melhor AZ cujo preço spot não é muito volátil; ● Levantar o cluster;
● Fazer um teste de sanidade no cluster; ● Rodar o Job (1 ou infinitas vezes);
● Quando falhar, refazer teste de sanidade;
organizando
Puro I/O Setups Mail Builder Setup Non-realtime Setup Realtime Setup
Sem efeitos colaterais! Puro I/O Setups Jobs Mail Builder Setup Non-realtime Setup Realtime Setup Mail Builder Job User History Job Entities Update Job Campaign A Job
Sem efeitos colaterais! Puro I/O Setups Jobs Reusable Libraries Mail Builder Setup Non-realtime Setup Realtime Setup Mail Builder Job User History Job Entities Update Job Campaign A Job
Mail-team library Chaordic library Realtime Setup Ignition-core
como a
não-saída
é tão importante quanto
Success!
(Email)
Validated
Rec Products
Validated
Base
Products
Success Product Success Product Failed Product Reason Failed Product Reason Success Product Success Product Success Product Failed Product ReasonFailure
(Email Reason)
Validated Rec
Products
Reference
Validated
Base Products
Reference
Failed Product Reason Failed Product Reason Failed Product Reason Failed Product Reason Success Product Success Product Failed Product Reason Failed Product Reason Reason: numberOfValidRecommendationsIsLessThanMinimumlidando com dados
Tratando outliers
Tratando outliers
Tratando outliers
rdd.groupByKey()
Batches near-realtime
com Secor, Kafka e S3
S3
Venha aprender junto com a gente!
monkeys.chaordic.com.br
github.com/chaordic
allan@chaordic.com.br