Estudo de analises e soluções de problemas em sistemas de cloud para computação de alto desempenho

(1)

Estudo de analises e soluc¸˜oes de problemas em sistemas de

cloud para computac¸˜ao de alto desempenho

Rodrigo da Silva Barboza Lima1

1_{UNESP - Universidade Estadual Paulista}

Instituto de Biociências, Letras e Ciências Exatas (IBILCE) Câmpus de São José do Rio Preto

Resumo. Este trabalho tem como objetivo descrever e analisar estudos rela-cionados à computação de alto desempenho em ambientes de cloud com o foco no uso de rede que é um dos principais problemas existentes nesse tipo de aplicação.

1. Introduc¸˜ao

Computação na nuvem ou cloud computing é um tema popular nos dias de hoje, devido à redução do custo que normalmente é focado no estilo conhecido como pay-per-use na qual os usuários ou inquilinos pagam apenas de acordo com o uso no ambiente. Todo o dinamismo existente traz alguns problemas no sistema como um todo, especialmente em momentos de congestionamentos ou de alta demanda. Os trabalhos, estudos e experi-mentos apresentados apontam esses problemas e apresentam diferentes soluções para os mesmos.

2. Estudos e experimentos analisados

Inicialmente é apresentado o problema por meio dos experimentos realizados por [Roloff et al. 2017], na qual realiza benchmarks e observa os pr´ıncipais gargalos em um sistema de cloud. Logo após uma solução para a melhoria de envio de mensagens no MPI publicado por [Sudhakar et al. 2018] e por [Esp´ınola et al. 2017] alem de uma al-terativa para tentar reduzir o congestionamento da rede com agendamentos dinâmicos em [Vicentini et al. 2019]. Para finalizar é apresentado um conceito para redes se auto-adaptarem [Zahid et al. 2018] .

2.1. HPC Desempenho de Aplicações e Eficiência de Custos na Nuvem

A computação em nuvem chama a atenção da comunidade de computação em alto de-sempenho e o trabalho de [Roloff et al. 2017] avalia a performace e efiência de custo em diferentes ambientes clusters e clouds. Os experimentos foram executados em dois sistemas tradicionais de cluster, econome da GRID5000, e dois provedores de nuvem, Microsoft Azure e Amazon EC2, na qual possuem 256 cores, são processadores intel de uma geração semelhante, utilizam Ubuntu Server 14.04 LTS e Open MPI mantendo um padrão para a comparação, mesmo assim existe uma variação no tamanho de memória que não é relevante para estes testes pois a menor quantidade é mais que suficiente para a aplicação conforme a Tabela 1. É importante lembra que existem algumas excessões para essa padronização, A9 utiliza SUSE Linux e Intel MPI. Os benchmarks utilizados foram o High Performance Linpack (HPL) benchmark para avaliar a performace computacional bruta, STREAM benchmark para medir a largura da banda de memória e para medir a velocidade da rede o teste Exchange do benchmark da Intel MPI.

(2)

Tabela 1. Configurac¸ ˜oes utilizadas nos ambientes

Iniciando pela performace da aplicação em geral pelos três benchmarks utilizados foi rankeada da seguinte maneira, do mais veloz para o menos veloz: A9, Cluster-I, D5, G4, G5, A11, C3.8X, X1.32X, Cluster-2, A4. No geral foi observado que o maior gargalo encontrado nos testes e aplicações testadas foi com relação à performace da rede e que a degradação de performace ocasionados por virtualização ou outras aplicações pela nuvem são insignificantes segundo os autores. Já o ambiente de melhor custo efiência avaliado foi o A9, é importante citar que EC2 entrega mais performace por dolar que Azure. 2.2. MCM: Um novo gerenciador de comunicação MPI para sistemas em nuvem O trabalho de [Esp´ınola et al. 2017] é avaliado uma forma de melhoria de latencia na comunicação MPI em momentos de congestionamento. Para isso é proposto um método que tenta melhorar o desempenho do tempo de latência da comunicação para aplicações MPI que são executadas em nuvens públicas. O método é dividido e considerado em duas partes: online e offline. A parte offline executa antes da aplicação e busca definir a caracterização da topologia de rede construindo as informações armazenadas em uma Ma-triz de Distâncias de Latência e uma MaMa-triz de Sensibilidade, analisando a comunicação MPI entre todos os pares de máquinas virtuais na nuvem e assim criando uma Tabela de Criação de Caminhos Alternativos. Por outro lado, a parte online captura todas as mensa-gens da aplicação MPI antes de alcançarem a biblioteca selecionando o melhor caminho sem congestionamento sempre verificando a latência de cada caminho, o processo é di-vido em: monitoramento das mensagens, notificação por meio de ACK para atualizar a tabela de caminhos alternativos, detecção de congestionamento, configuração de caminho e seleção de caminho alternativo.

Os experimentos com NAS-CG classe B e C foram realizados em 16 nós, uti-lizando t2.medium na Amazon EC2 cloud. Os testes tentam expor ambientes em que congestionamentos ocorrem nas quais o MCM pode melhorar o desempenho. O cenário A demonstra um ambiente ideal para o uso do MCM enquanto o cenário B tenta construir um ambiente no pior caso para o MCM, assim é poss´ıvel observar o desempenho obtido em ambos os cenários pela Figura 2.

2.3. Otimização baseada em caminho das operações de comunicação coletivas do MPI em nuvem

Comunicações baseadas em algoritmos com conhecimento da topologia de rede são ine-fientes em ambientes de nuvem devido ao uso de virtualização, com isso o trabalho de

(3)

Figura 1. Tempo de execuç ão do MCM e da aplicaç ão em diferentes cen ários.

[Sudhakar et al. 2018] consiste na melhoria de efiencia do das operações de comunicação coletivas do MPI, especialmente para o MPI Broadcast além de explorarar custos de otimização para o MPI criando assim uma uma nova abordagem. Os algoritmos propostos se baseiam em analisar os caminhos das mensagens trocadas e construir um ranqueamento baseado no desempenho, encontrando assim os menores caminhos independentemente da topologia. Os experimentos foram executados em um cluster com 1+8 nós, o servidor possui dois processadores Intel Xeon E5-264 enquanto os outros nós um processador In-tel Xeon E5-2640, utilizando uma rede InfiniBand, Rocks Cluster 6.1.1 e CentOS 6.5. Os resultados como encontrados na Figura 2, é poss´ıvel observar uma melhoria do MPI, mais precisamente MPICH2, com o MPI melhorado pelo trabalho, variando de acordo com o tamanho das mensagens trocadas.

2.4. Provisionamento de recursos com base em SDN e com reconhecimento de v´arios usu´arios para Big Data Streaming baseado em nuvem

Sistemas de nuvem compartilhado possuem multiplas vantagens assim como alguns pro-blemas como perda de desempenho em certos momentos como por exemplo em momen-tos de utilização intensiva dos diferentes usuários que compartilham a nuvem. Assim o trabalho de [Vicentini et al. 2019] tenta solucionar esse tipo de problema desenvolvendo um mecanismo que analisa os recursos e sua disponibilização automaticamente sem a necessidade de um supervisor. O sistema avalia por meio de microbenchmarks o estado dos recursos f´ısicos do ambiente da nuvem que são ligadas à decisão das pol´ıticas de agendamento e reagendamento. A análise obtida revela que o proposto Dynamic Sche-duler obtem uma melhoria de performace em relação ao EvenScheSche-duler, que distribui igualmente os recursos entre os usuários. A melhoria de desempenho alcança 50.1% para CPU, 62.3% para disco r´ıgido e 43.8% em rede.

2.5. Uma Rede Auto-Adaptável para Nuvens HPC: Arquitetura, Estrutura e Implementação

Infiniband se tornou a mais popular rede de interconexão padrão para sistemas de computação de alto desempenho. No trabalho de [Zahid et al. 2018] é proposta uma estru-tura de rede auto-adaptável utilizando infiniband como tecnologia de protótipo, para isso é utilizado um software externo que consiste em um loop de controle de feedback para se auto otimizar. O principal aspecto da estratégia é utilizar um motor de adaptação que uti-liza métricas da rede e nuvem obtidas pelo monitoramento do serviço. O protótipo criado utiliza OpenSM e linguagem C, enquanto a monitoração dos recursos foi armazenado no

(4)

Figura 2. Comparaç ão de performace entre o MPI e o MPI melhorado, baseado no tamanho de mensagem e n úmero de processos no eixo Y e o tempo m édio em segundos no eixo X

MariaDB. A abordagem se baseia em estrat´egias utilizadas pelo rainbow framework e foi apresentada como proof-of-concept, assim os resultados obtidos ainda n˜ao foram consis-tentes de maneira geral, mesmo que em casos espec´ıficos se obtem uma pequena melhora de desempenho na rede.

3. Conclus˜ao

Como apresentado em [Roloff et al. 2017] é poss´ıvel observar que o maior gargalo encon-trado em sistemas de nuvem é a rede, congestionamentos podem ser solucionados com melhorias nos protocolos de comunicação [Sudhakar et al. 2018][Esp´ınola et al. 2017]

(5)

assim como em sistemas de multi-usuários o agendamento dos recursos pode trazer mui-tos benef´ıcios tentando evitar os congestionamenmui-tos [Vicentini et al. 2019]. Portanto o uso de computação em nuvem não é só viável para computação em alto desempenho como soluções para melhoria de desempenho focando em suas dificuldades estão sendo desenvolvidas em abordagem diferentes que podem ser implementadas em conjunto.

Referˆencias

Esp´ınola, L., Franco, D., and Luque, E. (2017). Mcm: A new mpi communication mana-gement for cloud environments. Procedia Computer Science, 108:2303 – 2307. Inter-national Conference on Computational Science, ICCS 2017, 12-14 June 2017, Zurich, Switzerland.

Roloff, E., Diener, M., Gaspary, L. P., and Navaux, P. O. A. (2017). Hpc application performance and cost efficiency in the cloud. In 2017 25th Euromicro International Conference on Parallel, Distributed and Network-based Processing (PDP), pages 473– 477.

Sudhakar, C., Ramesh, T., and Waghmare, K. (2018). Path based optimization of mpi collective communication operation in cloud. In 2018 International Conference on Computing, Power and Communication Technologies (GUCON), pages 595–599. Vicentini, C., Santin, A., Viegas, E., and Abreu, V. (2019). Sdn-based and

multitenant-aware resource provisioning mechanism for cloud-based big data streaming. Journal of Network and Computer Applications, 126:133 – 149.

Zahid, F., Taherkordi, A., Gran, E. G., Skeie, T., and Johnsen, B. D. (2018). A self-adaptive network for hpc clouds: Architecture, framework, and implementation. IEEE Transactions on Parallel and Distributed Systems, 29(12):2658–2671.