• Nenhum resultado encontrado

Os benefícios do investimento na capacitação profissional da equipe de manutenção e operação de Data Center

N/A
N/A
Protected

Academic year: 2021

Share "Os benefícios do investimento na capacitação profissional da equipe de manutenção e operação de Data Center"

Copied!
14
0
0

Texto

(1)

OS BENEFÍCIOS DO INVESTIMENTO NA CAPACITAÇÃO PROFISSIONAL DA EQUIPE DE MANUTENÇÃO E OPERAÇÃO DE DATA CENTER1

Eduardo da Costa Sousa

Resumo: Neste artigo, serão apresentados os benefícios do investimento na capacitação

da equipe de manutenção e operação, visando garantir o atendimento aos requisitos de sustentabilidade operacional de um data center. A infraestrutura por si só não pode garantir a viabilidade de longo prazo de um site, a menos que os comportamentos da equipe de manutenção e operação sejam considerados.

Conforme pesquisas realizadas, a maior parte das interrupções de data centers está diretamente ligada ao erro humano. Dessa forma, o número certo de profissionais qualificados é crucial para cumprir os objetivos de desempenho de longo prazo de um site. Além disso, um programa de treinamento abrangente garante procedimentos de operação e manutenção consistentes, sem prejudicar a disponibilidade do data center. Diante do exposto, devido à complexidade da infraestrutura dos data centers atuais, torna-se necessária a formação de uma equipe com profissionais qualificados para gestão, manutenção e operação do data center.

Palavras-chave: data center, manutenção, capacitação, sustentabilidade operacional.

1. INTRODUÇÃO

Data centers são ambientes de missão crítica, ou seja, que abrigam equipamentos e sistemas responsáveis pelo processamento e armazenamento de informações cruciais para a continuidade da operação dos mais diversos tipos de negócios.

Um data center é classificado, primordialmente, por suas características de disponibilidade, confiabilidade e redundância. Por se tratar de ambientes de missão crítica, os data centers devem estar aptos a operar ininterruptamente. [1]

Para a garantia desses níveis de disponibilidade, os data centers devem contar com sistemas redundantes, capazes de suprir a falta de seus sistemas principais em casos de

1Artigo apresentado como Trabalho de Conclusão do Curso de Especialização em Datacenter: Projeto,

Operação e Serviços, da Universidade do Sul de Santa Catarina, como requisito parcial para a obtenção do título de Especialista em Datacenter: Projeto, Operação e Serviços.

(2)

falha ou parada por motivos conhecidos (manutenção preventiva ou testes programados) ou desconhecidos (erros humanos ou falhas de operação ou de equipamentos e sistemas). Ressalta-se que, na medida em que as atividades das empresas e da sociedade em geral passam a depender em escala crescente dos sistemas de informação, as questões de desempenho e continuidade dos serviços de TI se tornam essenciais. Esta evolução também se reflete no aumento contínuo dos dispêndios com a infraestrutura física e operações de TI dos data centers, o que coloca para os gestores sérios desafios de eficiência e alocação dos recursos. [2]

Num ambiente de rápida evolução tecnológica, o contínuo aumento da dimensão e complexidade da infraestrutura física impõe requisitos de interoperabilidade e escalabilidade importantes, visando garantir a disponibilidade do data center.

Os data centers, plataformas de petróleo, navios e aviões podem parecer muito diferentes, mas todos são sistemas robustos e complexos que podem ser sujeitos a grandes falhas. Sistemas complexos, como data centers, têm muitas salvaguardas contra falhas, além de várias camadas de proteção. Assim, quando eles falham, é devido a muito mais do que um único elemento ou erro. No entanto, muitas vezes a culpa é atribuída apenas ao "erro humano", não mencionando a falta de procedimentos e recursos adequados ou estruturas comprometidas que resultam de decisões de gerenciamento precárias. [3]

Assim, nenhum investimento realizado na infraestrutura física de um data center terá retorno se o fator humano for tratado sem a devida relevância, com processos e procedimentos mal definidos e precariamente documentados. Quanto mais preparada estiver a equipe de manutenção e operação do data center, menor será o risco de indisponibilidade dos serviços de TI.

A melhor forma de prevenir o mau uso da infraestrutura física de uma organização e prevenir a ocorrência de erros humanos é através dos processos de treinamento, capacitação, conscientização e reciclagem dos recursos humanos envolvidos. Para garantir o nível de disponibilidade exigido dos data centers atuais, todos os empregados e, onde pertinente, fornecedores e prestadores de serviços, antes de iniciarem suas

(3)

funções, devem receber treinamento sobre comportamento em ambientes de missão crítica. [4]

O Uptime Institute é mundialmente reconhecido pela criação e administração dos rigorosos Tier Standards & Certifications [5] [6], que permitem que data centers alcancem sua disponibilidade máxima enquanto atenuam o risco de manutenção e operação de suas instalações. Além disso, o Uptime Institute disponibiliza para os membros de sua rede, o Abnormal Incident Reports (AIR). Trata-se de um banco de dados com informações sobre mais de 5.000 incidentes e erros ocorridos nas últimas duas décadas em data centers de todo o mundo. [7]

A análise do banco de dados do Uptime Insitute revela que a maior parte das interrupções de data centers está diretamente ligada ao erro humano. Erro humano inclui erros do operador, mas, o mais importante, reflete decisões de gestão em relação a pessoal, formação, manutenção e rigor geral da operação. O número certo de profissionais qualificados é crucial para cumprir os objetivos de desempenho de longo prazo. Sem o número adequado de funcionários qualificados, organizados corretamente, um data center não possui os recursos para ser bem-sucedido. [8]

Depois de obter o pessoal correto, uma abordagem abrangente para manutenção de um data center é um requisito indispensável para cumprir o objetivo de tempo operante. Um programa de manutenção eficaz engloba um plano de manutenção preventiva, cada vez mais rigoroso, políticas de gestão do ambiente, sistema de gestão de manutenção para monitorar serviços e acordos de nível de serviço, além de um um programa de treinamento abrangente. À medida que o objetivo de desempenho aumenta, os requisitos de documentação, complexidade e detalhe para cada um desses itens também aumentam.

Não obstante, como todo funcionário, os profissionais de data center têm necessidade de manter sua empregabilidade, assim, as empresas de TI têm que oferecer instrumentos para os indivíduos gerirem suas carreiras e o autodesenvolvimento. Isso obriga os gestores de TI a se adaptarem a novas condições de relacionamento, uma vez que os profissionais de manutenção e operação estão conscientes de seu valor profissional. O desenvolvimento profissional passa a ser mais do que o atendimento a

(4)

necessidades de curto prazo, mas uma forma de manter o data center pronto para novos desafios.

Diante do exposto, os data centers podem apresentar falhas complexas. Basicamente, este tipo de falha ocorre em sistemas complexos, tais como data centers, sendo caracterizada por um movimento súbito, inesperado, irreversível e não periódico que pode causar uma alteração drástica e até a indisponibilidade de todo o sistema.

Dessa forma, por serem ambientes de missão crítica e com baixa tolerância ao risco, deve-se atentar para os requisitos de sustentabilidade operacional, visando garantir a disponibilidade do data center por meio da formação de uma equipe de manutenção e operação de alto desempenho, capaz de identificar riscos e impulsionar a melhoria contínua contra a exposição a falhas complexas e erros humanos.

2. DESENVOLVIMENTO

2.1. Avaliação do Cenário Atual

Conforme pesquisa realizada, com base em artigos e estudos de casos sobre o tema manutenção e operação de data centers, verificou-se que a maior parte das interrupções de sites está diretamente ligada ao erro humano. Erro humano inclui, além das falhas de operação, decisões equivocadas de gestão em relação à composição da equipe de manutenção e operação de data centers. Ressalta-se que a quantidade correta de profissionais qualificados é crucial para cumprir os objetivos de disponibilidade do site, pois sem uma equipe de alto desempenho, organizada corretamente, um data center não possui os recursos para ser bem-sucedido.

Basicamente, o erro humano é identificado como a causa-raiz em 60% a 80% dos eventos de indisponibilidade em data centers [9]. Dessa forma, falhas em sistemas ou componentes da infraestrutura física de um data center ainda merecem atenção, mas os rigorosos requisitos de projeto e construção, bem como um adequado comissionamento das instalações, garantem uma expectativa de operação tranquila do site. Assim, considerando os rigorosos requisitos de redundância e confiabilidade exigidos pelo mercado, deve-se focar nas melhores práticas de manutenção e operação, visando minimizar a ocorrência de erro humano e garantir a disponibilidade do data center.

(5)

Existe uma grande quantidade de dados públicos disponíveis sobre as causas das interrupções e incidentes de data centers. Conforme pesquisa realizada pela Emerson e representada pela figura 1, a maioria dos incidentes de data centers, aproximadamente 88%, são causados por falhas humanas e mecânicas [10]. Os dados da rede do Uptime Institute fornecem resultados semelhantes [11]. Isso significa que o treinamento e a qualificação da equipe de manutenção e operação desempenham um papel importante no gerenciamento das instalações de um data center.

Figura 1: Identificação da Causa-Raiz dos Eventos de Indisponibilidade de Data Centers.

*Adaptado pelo autor a partir da referência [10].

De acordo com o Uptime Institute e conforme demonstrado na figura 2, a formação da equipe de manutenção e operação (número apropriado de pessoal) é insuficiente em apenas 7% dos data centers avaliados no mundo. No entanto, as qualificações destes profissionais são insuficientes no dobro do número de sites e a forma como o data center está organizado é ainda mais ineficaz [12]. Embora esses percentuais não sejam elevados, a composição e qualificação da equipe de manutenção e operação afeta todo o gerenciamento do data center. As deficiências de pessoal afetam as atividades de manutenção, planejamento, coordenação e gerenciamento de capacidade da infraestrutura física de um data center.

(6)

Figura 2: Percentual de Data Centers com Problemas Operacionais (Pessoal, Qualificação e Organização).

*Adaptado pelo autor a partir da referência [12].

Ressalta-se que os resultados apresentados são baseados no banco de dados do Uptime Institute. Dessa forma, considerando que essa base de dados é composta por questionários respondidos pelos membros da rede do Uptime Institute, estes resultados baseiam-se por sua vez em suposições.

No entanto, trata-se de uma referência importante no mercado, pois conta com informações sobre mais de 5.000 incidentes e erros ocorridos nas últimas duas décadas em data centers de todo o mundo.

De acordo com o banco de dados do Uptime Institute, os efeitos das deficiências de pessoal aparecem mais frequentemente nas operações do data center. Conforme apresentado na figura 3, a causa-raiz de 39% dos incidentes de data centers refere-se a problemas operacionais [12]. As causas podem ser atribuídas ao erro humano decorrente da fadiga, falta de conhecimento sobre um sistema ou falta de procedimento adequado. A composição da equipe de manutenção e operação com pessoal correto e qualificado pode potencialmente impedir muitos desses tipos de incidentes.

(7)

Figura 3: Causa-Raiz de Incidentes em Data Centers.

*Adaptado pelo autor a partir da referência [12].

Conforme refletido na figura 4, que mostra o percentual de incidentes evitados em data centers, com base no banco de dados do Uptime Institute, o valor de ter pessoal qualificado no site é muito importante. [12]

Figura 4: Percentual de Incidentes Evitados por Categoria.

(8)

Assim, a redundância de equipamentos é a categoria com maior relevância individual, correspondendo a 38%. No entanto, a existência de uma equipe de manutenção adequada e a presença de técnicos qualificados no local, que detectaram problemas antes de se tornarem incidentes, totalizaram 42%. [12]

2.2. Análise Crítica dos Dados Coletados

Muitas empresas estimam suas necessidades de pessoal para composição da equipe de manutenção e operação do data center com base em critérios típicos de gerenciamento de edifícios comerciais. Em um ambiente de missão crítica, como um data center, subestimar suas necessidades de pessoal é um risco que leva à escassez de cobertura em casos de emergência. As necessidades de pessoal devem ser baseadas no perfil de tolerância ao risco e no orçamento da empresa. Assim, deve-se criar um cronograma que implante a força de trabalho em uma configuração ideal para execução da manutenção dos componentes da infraestrutura física e para atuação em situações de emergência, visando garantir a disponibilidade do data center. [13]

Da mesma forma, a retenção de profissionais qualificados é essencial. Recrutar indivíduos talentosos com conhecimentos técnicos e específicos é extremamente desafiador. Os membros de uma equipe de manutenção e operação de alto desempenho devem ser cuidadosamente selecionados, não apenas com a tradicional análise curricular, mas também mediante avaliação de suas habilidades técnicas, administrativas e de comunicação. Todas essas habilidades são cruciais nas operações críticas das instalações. No entanto, identificar e selecionar pessoal qualificado é apenas o primeiro passo. [14]

Depois de encontrar pessoas qualificadas para contratar, é importante fornecer-lhes oportunidades adequadas de suporte, treinamento e desenvolvimento de carreira. Criar um ambiente positivo melhora significativamente as taxas de retenção dos funcionários.

Uma equipe devidamente treinada entende como funciona toda a infraestrutura de um data center, como operar e mantê-lo com segurança, bem como o que fazer quando as coisas não funcionam como esperado. [15]

(9)

Diante do exposto, torna-se necessário um programa de capacitação que efetivamente forneça um treinamento adequado, visando aumentar o nível de especialização de todos os membros da equipe de manutenção e operação.

• Nível 1: Qualificação para operações básicas supervisionadas; • Nível 2: Qualificação para operações de rotina de manutenção; • Nível 3: Qualificação para operações avançadas de manutenção; • Nível 4: Conhecimentos especializados.

A razão mais comum para existência de programas de treinamento ineficientes refere-se ao baixo ou nenhum investimento destinado para desenvolvimento deste tipo de programa na maioria das empresas. O que a maioria dos gerentes não percebe, porém, é que o custo e o esforço gastos no desenvolvimento de um programa de capacitação adequado são mais do que compensados pelo menor custo de manutenção e maior tempo de disponibilidade do data center. [16]

2.3. Contribuição para o Mercado de Data Center

Muitos gestores de data centers não entendem o que é preciso para desenvolver um programa adequado para capacitação da equipe de manutenção e operação.

Basicamente, uma empresa de data center deve estar preparada para fazer um investimento significativo nas seguintes áreas:

• Pessoal: uma equipe de manutenção e operação de alto desempenho deve ser composta por técnicos qualificados e profissionais com conhecimentos especializados em sistemas mecânicos, elétricos e de controle.

• Treinamento: é imperativo que se invista na capacitação dos profissionais para mantê-los trabalhando com o máximo de eficiência.

• Sistemas de Gerenciamento: um software de gerenciamento da infraestrutura física de um data center (DCIM, BMS, SCADA, etc.), corretamente implementado e mantido, pode, ao longo do tempo, fornecer um valioso banco de dados de informações para os procedimentos de manutenção e operação.

(10)

• Desenvolvimento de Procedimentos Padronizados: deve-se documentar os procedimentos para todas as atividades críticas, visando garantir um desempenho consistente da equipe de manutenção e operação do site. • Processo de Melhoria Contínua: deve-se aproveitar continuamente os

pontos fortes de todos esses componentes para obter os resultados esperados e estabelecer as melhores práticas.

Diante do exposto, um programa de capacitação adequado para equipes de manutenção e operação de data centers deve envolver, no mínimo, os seguintes itens:

I. Gerenciamento de Pessoal

a. Composição da Equipe: Quantitativo x Requisitos

b. Recrutamento: Análise Curricular x Qualificação Técnica c. Contratação e Retenção

d. Progressão de Carreira

II. Programa de Treinamento

a. Certificação Profissional b. Testes e Simulações

c. Sistemas de Gerenciamento

III. Documentação

a. Projeto Conforme Construído b. Banco de Dados de Ativos Físicos c. Plano de Manutenção Preventiva d. Cronograma de Manutenção e. Regras de Trabalho

f. Segurança do Trabalho e Saúde Ocupacional g. Listas de Verificação de Rotina

(11)

IV. Procedimentos Padronizados

a. Requisições de Mudança b. Instruções Operacionais

c. Procedimentos de Operação Padrão d. Procedimentos de Emergência

V. Plano de Contingência

a. Plano de Comunicação b. Plano de Escalonamento

c. Registro e Tratamento de Incidentes d. Lições Aprendidas

VI. Gerenciamento da Manutenção

a. Ordens de Serviço b. Manutenção Preventiva c. Manutenção Corretiva d. Manutenção Preditiva e. Lista de Sobressalentes

VII. Gestão da Infrarestrutura

a. Gestão de Energia b. Gestão de Ativos c. Gestão da Capacidade d. Previsão de Crescimento

(12)

3. CONCLUSÕES

A disponibilidade de longo prazo de um data center não é garantida somente pela complexidade, robustez e redundância de sua infraestrutura física. O comportamento da equipe de manutenção e operação tem impacto sobre a capacidade de um data center de cumprir seus objetivos de tempo operante em longo prazo.

Assim, o tempo operante de um data center é a combinação resultante da topologia da sua infraestrutura física e dos comportamentos da sua equipe de manutenção e operação.

A gestão de um data center compreende uma grande variedade de atividades, incluindo a manutenção de todos os equipamentos e sistemas, o treinamento da equipe de manutenção e operação, além do gerenciamento da capacidade da infraestrutura física (energia, climatização e espaço). Essas atividades têm um requisito em comum: a necessidade de profissionais qualificados.

Portanto, a capacitação dos profissionais, que atuam na manutenção e operação, serve de ferramenta para ajudar os proprietários a maximizarem o investimento na infraestrutura física do data center.

Diante do exposto, devido à complexidade da infraestrutura dos data centers atuais, torna-se necessária a formação de uma equipe de alto desempenho com profissionais qualificados para gestão, manutenção e operação do data center, visando garantir a sua disponibilidade por meio da sustentabilidade operacional do site.

(13)

REFERÊNCIAS

[1] MARIN, Paulo Sergio. Data Centers Engenharia: Infraestrutura Física. São Paulo: PM Books, 2016.

[2] VERAS, Manoel. Datacenter: Componente Central da Infraestrutura de TI. Rio de Janeiro: BRASPORT, 2009.

[3] KUDRITZKI, J; CORNING, A. Examining and Learning from Complex Systems

Failures. Disponível em: https://journal.uptimeinstitute.com/examining-and-learning-from-complex-systems-failures/. Acesso em: 18/06/2017.

[4] LUZ, Clarissa P. Centro de Certificação Digital – Construção, Administração e

Manutenção. Rio de Janeiro: Editora Ciência Moderna, 2008.

[5] Data Center Site Infrastructure Tier Standard: Topology. Uptime Institute, 2014.

[6] Data Center Site Infrastructure Tier Standard: Operational Sustainability. Uptime Institute, 2014.

[7] VAN LOO, R. Failure Doesn't Keep Business Hours: 24x7 Coverage. Disponível em: https://journal.uptimeinstitute.com/24x7-coverage/. Acesso em: 18/06/2017.

[8] KIRBY, R. Sustaining Operational Effectiveness for the Long Term. Disponível em: https://uptimeinstitute.com/research-publications/asset/sustaining-operational-effectiveness-white-paper. Acesso em: 18/06/2017.

[9] BOSTON, D. How to Minimize Human Error, Prevent Data Center Downtime. Disponível em: http://www.facilitiesnet.com/datacenters/article/How-to-Minimize- Human-Error-Prevent-Data-Center-Downtime-Facilities-Management-Data-Centers-Feature--14223. Acesso em: 18/06/2017.

[10] Cost of Data Center Outages. EMERSON NETWORK, 2016. Disponível em:

http://www.emersonnetworkpower.com/en-US/Resources/Market/Data-Center/Latest-Thinking/Ponemon/Pages/2016-Cost-of-Data-Center-Outages-Report.aspx. Acesso em:

(14)

[11] WECKWORTH, J. Data Center Outages, Incidents, and Industry Transparency. Disponível em: https://journal.uptimeinstitute.com/data-center-outages-incidents-industry-transparency/. Acesso em: 18/06/2017.

[12] VAN LOO, R. Proper Data Center Staffing is Key to Reliable Operations. Disponível em: https://journal.uptimeinstitute.com/data-center-staffing/. Acesso em: 18/06/2017.

[13] WOOLLEY, B. Top 10 Mistakes in Data Center Operations. Disponível em:

http://www.schneider-electric.us/en/download/document/APC_VAVR-8RNGFT_EN/.

Acesso em: 18/06/2017.

[14] BURGESS, S. Top 14 Considerations for Addressing Data Center Facilities

Management Risks. Disponível em: https://uptimeinstitute.com/top-considerations-for-addressing-data-center-facilities-management-risks. Acesso em: 18/06/2017.

[15] DAVIS, R. Data-Driven Approach to Reduces Failures. Disponível em:

https://journal.uptimeinstitute.com/data-driven-approach-reduce-failures/. Acesso em: 18/06/2017.

[16] CLARK, J. Staffing Your Data Center. Disponível em:

Referências

Documentos relacionados

Esta realidade exige uma abordagem baseada mais numa engenharia de segu- rança do que na regulamentação prescritiva existente para estes CUA [7], pelo que as medidas de segurança

No código abaixo, foi atribuída a string “power” à variável do tipo string my_probe, que será usada como sonda para busca na string atribuída à variável my_string.. O

dois gestores, pelo fato deles serem os mais indicados para avaliarem administrativamente a articulação entre o ensino médio e a educação profissional, bem como a estruturação

Ressalta-se que mesmo que haja uma padronização (determinada por lei) e unidades com estrutura física ideal (física, material e humana), com base nos resultados da

Neste capítulo foram descritas: a composição e a abrangência da Rede Estadual de Ensino do Estado do Rio de Janeiro; o Programa Estadual de Educação e em especial as

de professores, contudo, os resultados encontrados dão conta de que este aspecto constitui-se em preocupação para gestores de escola e da sede da SEduc/AM, em

(2009) sobre motivação e reconhecimento do trabalho docente. A fim de tratarmos de todas as questões que surgiram ao longo do trabalho, sintetizamos, a seguir, os objetivos de cada

Na apropriação do PROEB em três anos consecutivos na Escola Estadual JF, foi possível notar que o trabalho ora realizado naquele local foi mais voltado à