INTRODUÇÃO: O que são os eventos "Cisne Negro" e o que eles têm a ver com seu data center?
CAPÍTULO 1: Espere o inesperado
CAPÍTULO 2: Comece com uma base inteligente e virtual
CAPÍTULO 3: Mitos e verdades sobre a recuperação de desastres
CAPÍTULO 4: As dez principais práticas recomendadas da recuperação de desastres
CONCLUSÃO: Um guia de início rápido para recuperação de desastres
APÊNDICE: Recuperação de desastres 101: Os conceitos básicos
ÍN
DIC
E
:
Como se preparar para os eventos "Cisne
Negro" e reduzi-los em seu data center
Um guia para modernizar
a recuperação de
INTRODUÇÃO
Você conhece a VMware como a empresa
de virtualização líder de mercado dos
últimos 11 anos. Na prática, de acordo com o
Gartner, atualmente mais de 80% de todos os
aplicativos virtualizados no mundo inteiro são
executados em produtos VMware. Este ebook
destaca a perspectiva da VMware quanto à
recuperação de desastres no data center. Mas
vamos colocar a TI de lado por um momento.
A
teoria dos eventos "Cisne Negro"
é
uma metáfora que engloba o conceito de
eventos surpresa que causam um grande
impacto. Ela se refere a eventos inesperados
de grandes magnitudes e consequências
e seus papéis dominantes na história. Tais
eventos, considerados atípicos ao extremo,
desempenham papéis amplamente maiores
do que as ocorrências regulares.
O Cisne Negro, um livro escrito por Nassim
Nicholas Taleb, explica que embora os eventos
Cisne Negro sejam imprevisíveis, uma pessoa
ou organização pode se programar para os
eventos negativos e, fazendo isso, fortalece
sua capacidade de reagir, bem como de
explorar os eventos positivos. Taleb afirma
que as pessoas em geral — e, especificamente,
empresas — são bastante vulneráveis aos
perigosos eventos Cisne Negro e são expostas
a altas perdas se não estiverem preparadas.
Existe um paralelismo óbvio entre a Teoria
dos eventos Cisne Negro e a necessidade de
preparação contra desastres para seus ativos
essenciais de TI.
A implantação da DR (Disaster Recovery,
recuperação de desastres) automatizada
é a maneira de proteger a TI e a empresa
contras eventos imprevisíveis — mesmo dos
eventos Cisne Negro. Os capítulos que se
seguem explicam os conceitos básicos da DR
e a infraestrutura necessária. Eles também
apresentam as realidades ocultas e práticas
recomendadas de DR com dicas do mundo real.
1
O que são os eventos "Cisne Negro" e o que eles têm
O DATA CENTER É SUA FORTALEZA.É onde todos os componentes essenciais de TI (hardware, dados e software) residem. Você o protege com as soluções mais recentes à prova de falhas e o torna confiável por meio de multiprocessamento redundante, plataformas altamente dimensionáveis e redes ópticas superrápidas. E ainda assim, ele não fica totalmente protegido contra as forças que estão além do seu controle, como desastres naturais, eventos provocados pelo homem e procedimentos de segurança ou interrupção dos serviços do parceiro em um site específico.
O tempo de inatividade e a perda de dados, mesmo que temporários, podem ter impactos de longa duração nos negócios e contribuir para o fim do que poderia ser um negócio bem-sucedido:
Perda de receita resultante da impossibilidade de seus clientes fazerem negócios com você Diminuição da credibilidade no mercado e da
confiança do cliente, gerando rotatividade Multas por SLAs violados com parceiros,
fornecedores, distribuidores e franqueadores Custos pela recuperação e reparação de dados
perdidos
Custos legais para atender aos requisitos internos e externos de conformidade
Como você equilibra a equação entre risco e investimento da recuperação de desastres? O risco potencial é maior do que o investimento? Vamos decompor esse risco para entender melhor:
43% das empresas que enfrentam desastres nunca reabriram, e 29% fecharam em dois anos.1
93% das empresas que perderam os respectivos data centers por 10 dias faliram no período de um ano.2
40% de todas as empresas que passam por um grande desastre sairão do mercado se não conseguirem ter acesso aos seus dados em até 24 horas.3
“CIOs e organizações de TI devem considerar situações nas quais operações normais podem ser interrompidas e assim adotar/adaptar práticas e tecnologias que os permitam lidar com essa interrupção potencial proveniente de ações hostis e externas, bem como de falhas internas do sistema."
— Top Predictions for IT Organizations and Users, 2011 and Beyond (Principais previsões para organizações de TI e usuários em 2011 e nos próximos anos)
Esses riscos são tão altos quanto toda a sua empresa, e está em suas mãos reduzi-los.
1 McGladrey and Pullen
2 Administração Nacional de Arquivos e Registros dos EUA 3 Gartner, dezembro de 2009
Espere o inesperado
Esperamos que você nunca precise ativar um plano de recuperação de desastres de TI.
Nosso trabalho é fornecer proteção automatizada se você precisar.
CAPÍTULO 1
2
"A DR é a maneira usada pelo setor de TI para se preparar e combater os
eventos
Cisne Negro
."
Processo de recuperação física: 40 horas
3
ATÉ QUE AS SOLUÇÕES DE GERENCIAMENTO DE VIRTUALIZAÇÃO CONFIÁVEISforam disponibilizadas vários anos atrás, as soluções de DR não atendiam totalmente aos requisitos de negócios devido aos seguintes fatores:
Alto custo Complexidade
Falta de confiabilidade
Com as tradicionais soluções manuais de DR, o alto custo veio com a necessidade de implantar um segundo site de failover com infraestrutura dedicada, licenças de software e equipe humana. A complexidade era alta, pois para garantir a recuperação de todos os serviços de negócios, os planos de recuperação tinham que lidar com muitos componentes individuais e partes móveis: aplicativos, hosts, rede e armazenamento. A Falta de confiabilidade nesses procedimentos aumentou em consequência da pouca automação e da inaptidão de testar qualquer procedimento de recuperação.
A certeza de muitas empresas de atender aos respectivos RPO (Recovery Point Objective, objetivo de ponto de recuperação) e RTO (Recovery Time Objective, objetivo de tempo de recuperação) era limitada no caso de um desastre. Os departamentos de TI hesitavam em expandir a proteção contra desastres, pois não tinham certeza se a qualidade da segurança valia realmente o que custava. A virtualização é fundamental e essencial para o sucesso do planejamento de DR. A virtualização abstrai a complexidade de hardware e software, além de permitir a padronização de processos, tornando a tarefa de planejamento e automação dos procedimentos de recuperação muito mais confiável e suscetível à repetição.
Configuração
de hardware Instalação de SO Instalar o agente de backup Início da "recuperação automática em um única etapa" Configuração do SO
Na verdade, em uma recente pesquisa da IDG, 70% dos clientes entrevistados melhoraram o processo de BC/ DR com a virtualização.1
Uma infraestrutura virtual inteligente baseada em produtos VMware é a base certa para a moderna solução de DR. Altamente adaptável e dimensionável, ela é otimizada para cargas de trabalho essenciais aos negócios com inteligência integrada.
A solução de DR da VMware fornece: A maneira mais simples de replicar aplicativos em um site secundário
A maneira mais simples de configurar planos de recuperação e migração
Recuperação e migração totalmente automatizadas e mais confiáveis de sites
Comece com uma base
INTELIGENTE
e
VIRTUAL
Confiável
g
Repetível
g
Recuperável
CAPÍTULO 2
Processo de recuperação virtual: 4 horas
Restauração
da VM Ativação da VM
1 IDG Research, Benefits of Virtualizing Business Critical Applications
(Benefícios de virtualizar aplicativos essenciais aos negócios), Março de 2011
4
DR econômica: com a rápida adoção da virtualização e a evolução da tecnologia de replicação, a DR está se tornando mais econômica. A virtualização permite a consolidação da infraestrutura no site de failover. Opções mais baratas de replicação foram disponibilizadas mais amplamente, usando dispositivos de armazenamento menos sofisticados ou soluções de software independentes. Com esses avanços, a DR pode proteger ativos de TI essenciais em grande escala, bem como sites menores e aplicativos de camada 2.
DR automatizada: em ambientes virtuais, os usuários finais são poupados da complexidade de gerenciar cada etapa no processo de recuperação. Agora, uma solução de DR pode executar e coordenar automaticamente todas as etapas necessárias para garantir o nível desejado de proteção. Os manuais de administração tradicionais não são mais "bons o suficiente" para gerenciar planos de recuperação e foram substituídos por planos de recuperação orientados por software.
A configuração de um plano de recuperação em um ambiente virtual é tão simples quanto selecionar RPOs e RTOs para cada serviço de negócios.
Recuperação e migração confiáveis de sites: com a virtualização, as organizações têm muito mais garantia de que podem atender aos respectivos RPOs e RTOs. A virtualização permite que elas testem planos de recuperação frequentemente de uma maneira não interruptiva. Os processos manuais de recuperação foram substituídos pela recuperação automatizada, o que elimina o risco associado aos erros do usuário e garante a recuperação previsível.
O gráfico abaixo mostra como as organizações com infraestruturas virtualizadas utilizam os recursos de DR juntamente com outros benefícios da virtualização.
CAPÍTULO 2
continuação
Como você descreveria a utilização dos seguintes recursos/funções de virtualização pela sua
organização com máquinas virtuais baseadas no ambiente de produção?
(Porcentagem de entrevistados, N=119)0 20 40 60 80 100 65% 22% 12% 14% 14% 11% 11% 11% 15% 21% 28% 8% 5% 3% 3% 3% 2% 4% 4% 5% 24% 24% 31% 31% 34% 37% 35% 29% 60% 57% 54% 54% 51% 45% 39% 35%
Reinicialização automatizada de máquinas virtuais em caso de falha no hardware do servidor físico Soluções de backup e recuperação integradas
à plataforma de virtualização Soluções de recuperação do site das máquinas virtuais Migração em tempo real de máquinas virtuais com base
nas políticas de utilização de CPU, memória e rede Migração em tempo real de máquinas virtuais Migração em tempo real do armazenamento
associado a máquinas virtuais Implantação automatizada de servidores virtualizados com base nas políticas de utilização de CPU, memória e rede Aplicação automatizada de políticas de ciclo de vida e recuperação de recursos de máquinas virtuais expiradas Implantação automatizada de máquinas virtuais com base em políticas de consumo de energia Atualmente, usamos este recurso/função
Não temos planos de utilizar este recurso/função Não sabe/Não aplicável
Planejamos usar este recurso nos próximos 12/24 meses
Fonte: White paper da ESG: Enterprise Strategy Group, 2011: Virtualization Management Critical to Achieving Scale and Efficiency (O gerenciamento da virtualização é essencial para a obtenção de dimensionamento e eficiência)
5
MITO 1: a recuperação de desastres é um recurso de luxo; é cara e consome recursos.
VERDADE: o VMware vCenter ™ SRM (Site Recovery Manager) fornece a flexibilidade para definir cenários de failover que atendem à sua escolha de cobertura, velocidade e custo de recuperação. Por exemplo, embora um site de recuperação dedicado seja uma solução robusta (e sim, mais cara), muitas vezes, é suficiente ter uma abordagem bidirecional ativa na qual dois ou mais data centers sejam complementares, com capacidade suficiente para selecionar aplicativos essenciais. Portanto, nenhum recurso é desperdiçado e a continuidade de negócios é mantida.
Em geral, os clientes do SRM relatam consistentemente economias consideráveis de dinheiro, recursos e tempo.
Como isso é feito na …Challenger Limited
A Challenger Limited gera contratos de anuidade e fornece produtos e serviços de investimento. A organização executa dois data centers colocalizados, oferecendo suporte a cerca de 500 equipes na Austrália. Para atender aos requisitos de negócios de recuperação rápida e mínima perda de dados, a Challenger
Limited implementou uma infraestrutura de cluster duplo da VMware que foi vinculada a dispositivos de armazenamento em rede em seus dois data centers colocalizados, a aproximadamente um terço do custo de um ambiente físico de recuperação de desastre. O SRM permitiu que a organização dispensasse a maioria das
50 fitas anteriormente usadas para o backup de dados, poupando a uma pessoa um dia por semana. Além disso, a Challenger Limited automatizou centenas de etapas em seus processos de recuperação de desastres.
Resultados para os negócios:
Melhoria do RPO, de 24 horas para 90 minutos, e do RTO, de 24 horas para menos de quatro horas Redução do número de pessoas necessárias
(agora somente uma) para realizar a restauração de sistemas
Redução de investimentos de capital para recuperação de desastres para um terço do custo de um ambiente físico
Eliminação da necessidade de adquirir 15 servidores físicos em standby a um custo de US$ 200.000
MITO 2: o planejamento e o gerenciamento adequados de uma solução de DR é uma tarefa complexa que exige habilidades especiais e recursos caros.
VERDADE: não com a VMware. A DR física pode ser complexa devido às infraestruturas em silo e à sua duplicação, bem como aos problemas na sincronização de configuração entre sites. A virtualização encapsula servidores, sistema operacional e aplicativos, incluindo todos os dados de configuração, de modo que a complexidade é consideravelmente reduzida. A virtualização e a automação garantem que os planos de recuperação sejam simples, completos e possam ser executados de modo confiável pela equipe, sem a necessidade de habilidades especiais.
Mitos e verdades sobre a recuperação de desastres
A recuperação de desastres é como uma apólice de seguro que você pode testar
sem ter um acidente.
MITO 3: Após todo o planejamento, você nunca sabe se a recuperação será bem-sucedida em um desastre real.
VERDADE: um plano de recuperação não é um plano completo sem testes. Na verdade, o plano de recuperação pode e deve ser testado com falhas suficientes, e testado novamente para garantir a validade. O SRM permite testes frequentes não interruptivos dos planos de recuperação.
Como isso é feito na …Adventist Health System
A AHS (Adventist Health System), uma organização de assistência médica dos EUA, oferece suporte a 37 hospitais e casas de saúde para aproximadamente quatro milhões de pacientes anualmente. O AHS-IS (AHS Information Services) atende a hospitais em nove Estados e emprega mais de 500 pessoas.
Para garantir que o AHS-IS forneça uma excelente assistência, a iniciativa "Missão Zero" visa fornecer os níveis mais altos de serviço e mínimo tempo de inatividade para sistemas essenciais de assistência médica, como os aplicativos de registro médico eletrônico e de gráficos da Cerner.
A adição do SRM à sua infraestrutura da VMware permitiu que o AHS-IS simplificasse ainda mais as operações automatizando o planejamento e os testes de DR. "O VMware SRM torna o gerenciamento e os testes dos nossos planos de recuperação tão fáceis
CAPÍTULO 3
continuação
Com o SRM, a configuração de um plano de
recuperação automatizado é fácil e pode ser feita em questão de minutos, e não em semanas, como exige a configuração de manuais de administração.
Como isso é feito na …Swedbank
A Swedbank é uma das maiores instituições financeiras na Escandinávia e no Báltico, com 362 agências na Suécia e 222 agências na Estônia, Letônia e Lituânia. O banco atende a 9,5 milhões de clientes privados e 534.000 clientes corporativos, com 18.000 funcionários. Evitar a interrupção de serviços é essencial para a Swedbank. A Swedbank teve que atender aos objetivos de recuperação para seus aplicativos legados por meios tradicionais de backup e recuperação, que eram complexos e consumiam muito tempo. A Swedbank implantou o SRM para simplificar e automatizar o processo de recuperação, gerenciamento e teste dos planos de recuperação. Desde a implementação do SRM, a Swedbank testa seus recursos de DR pelo menos duas vezes por ano. Ela desliga um data center por completo, transferindo as cargas de trabalho para o data center ativo. Ela executa tudo no data center de backup por 24 horas e depois faz failover no data center original.
Mart Nael, chefe de Infraestrutura de núcleo do grupo de TI da Swedbank declara "Nosso tempo de recuperação é inferior a 30 minutos para cargas de trabalho essenciais e de menos de quatro horas para todo o data center".
Resultados para os negócios:
ROI positivo em um ano, resultado da contenção de custos com hardware
Custos operacionais de TI reduzidos em 14%, anualmente
1.000 máquinas virtuais gerenciadas por dois funcionários equivalentes a tempo integral Provisionamento de servidor 30 vezes mais rápido
6
“O VMware Site Recovery
Manager torna o gerenciamento
e os testes dos nossos planos
de recuperação tão fáceis
quanto pressionar um botão."
— KENNETH NEWBALL ADMINISTRADOR SÊNIOR DE RECUPERAÇÃO DE DESASTRES AHS-IS
7
"Além dos nossos dez centros de desenvolvimento, também somos responsáveis por garantir que os provedores em todo o Estado obtenham o suporte de que precisam para receber financiamento do governo federal", afirma Brian Brothers, gerente-administrador da rede. "Se nossos serviços fossem interrompidos e não pudéssemos garantir o reembolso dos fundos Medicaid, isso teria um severo impacto nos provedores e nas pessoas com deficiências de desenvolvimento a quem eles atendem. Alguns provedores teriam que fechar as portas.
Na DODD, o SRM é responsável por uma ativação de DR confiável e verificável que pode ser testada e auditada. A agência testou sua solução de recuperação de desastres duas vezes. O segundo teste envolveu 50 servidores de produção, cujos failovers foram bem-sucedidos no site remoto em aproximadamente 90 minutos. "Se algum dia enfrentarmos um desastre de verdade, nosso site de DR se tornará nosso site de produção. Esperamos estar com tudo funcionando em menos de duas horas", observa Kipp Bertke, gerente de TI da área de Infraestrutura e operações da Ohio Department of Developmental Disabilities.
O site de recuperação de desastres da DODD não é "inativo". Em vez disso, diariamente, o site de backup oferece suporte ativamente à equipe de desenvolvimento de aplicativos.
Resultados para os negócios:
Um site de recuperação de desastres confiável que pode ser colocado em funcionamento em menos de duas horas
Solução de recuperação de desastres totalmente testada e ativa implementada para uma
infraestrutura em nuvem ágil e privada
Sistemas on-line que fornecem serviços de modo mais rápido e confiável
CAPÍTULO 3
continuação
quanto pressionar um botão. O fato de que podemos fazer testes quantas vezes desejarmos nos dá um alto grau de confiança na capacidade de recuperação dos nossos sistemas", afirma Kenneth Newball, administrador sênior de recuperação de desastres da AHS-IS.
Resultados para os negócios:
RTO reduzido em 75%, de 48 horas para menos de uma hora
Eliminação do custo de transporte aéreo de uma equipe de sete pessoas para testar a DR remota Redução de compras de hardware em 84,5%, de
manutenção em 93,1% e de consumo de energia em 90%.
MITO 4: a despesa com a DR é um custo já incorrido, como um plano de proteção que provavelmente nunca será usado.
VERDADE: mesmo que o maior desastre nunca aconteça, o plano de recuperação pode ser usado como um plano de migração com etapas semelhantes, ajudando você durante os tempos de inatividade planejados, como as migrações de site. Além disso, o planejamento de DR ajuda a atender à conformidade onde os planos de recuperação de desastres são exigidos. O resultado dos testes de recuperação prova a preparação contra desastres e a capacidade de atender aos RTOs.
Como isso é feito na …Ohio Department of Developmental Disabilities
A DODD (Ohio Department of Developmental
Disabilities) executa um sistema de serviços de suporte em todo o Estado para cerca de 80 mil pessoas com deficiências de desenvolvimento. Um desastre que causasse uma falha em todo o sistema teria um impacto humano bastante real.
1.
Virtualize.
Ambientes virtuais são muito mais ágeis e fáceis de migrar. A virtualização oculta a complexidade protegendo os componentes individuais e as partes móveis, simplificando assim o planejamento e oaumento da visibilidade no processo de DR. Ela também permite usar a replicação baseada em hypervisor, que é muito mais flexível e econômica que a replicação baseada em armazenamento.
2.
Automatize.
Não deixe que erros humanos se coloquem no seu caminho. Use planos de recuperação automatizados, e não uma pilha de anotações em um caderno. Com a automação adequada, um plano de recuperação pode ser executado em questão de minutos, e não em semanas. A automação poupa os usuários de terem que gerenciar muitas das etapas de recuperação e coordena automaticamente atividades, como pré-configuração de redes e máquinas virtuais, configuração da infraestrutura de recuperação e reinicialização de aplicativos.3.
Verifique e teste.
Teste seus planos de DRfrequentemente. Use testes não interruptivos de seus planos de recuperação e failback. Analise o relatório detalhado com os resultados do teste, incluindo o RTO atingido. Com essas informações, você pode conseguir a garantia de que seu plano de proteção contra desastres atende aos objetivos da empresa. Ele também fornece o treinamento necessário para a equipe e mostra todos os possíveis problemas antecipadamente para que eles possam ser resolvidos.