Usando o benchmark Rodinia para comparação de OpenCL e OpenMP em aplicações paralelas no coprocessador Intel Xeon Phi

(1)

Usando o benchmark Rodinia para comparac¸˜ao de

OpenCL e OpenMP em aplicac¸˜oes paralelas

no coprocessador Intel Xeon Phi

Leonardo Tavares Oliveira1_{, Ricardo Menotti}1

1_{Departamento de Computação – Universidade Federal de São Carlos (UFSCar)}

Caixa Postal 676 – 13.565-905 – S˜ao Carlos – SP – Brazil

{628174@comp, menotti@dc}.ufscar.br

Abstract. The use of accelerators has become popular in HPC, being present in several of the computers in the Top 500. Among them, the Intel Xeon Phi copro-cessor stands out due to its large number of cores and use of x86 architecture, allowing an easier writing and adaptation of codes for use with the coproces-sor. This paper uses the Rodinia benchmark to compare 3 different ways of pro-gramming parallel, two using the OpenMP library and one using the OpenCL language. By testing different number and types of thread affinity, one can see the non-uniformity of scalability, as well as the influence of overhead on codes with a small number of iterations.

Resumo. O uso de aceleradores vem se popularizando em HPC, estando pre-sentes em diversos dos computadores prepre-sentes na Top 500. Dentre eles o copro-cessador Intel Xeon Phi se destaca devido à sua grande quantidade de núcleos e arquitetura x86, permitindo maior facilidade para escrita e adaptação de códigos para uso com o coprocessador. Esse trabalho utiliza o benchmark Rodi-nia para comparar 3 formas diferentes de utilizar programação paralela, sendo duas usando a biblioteca OpenMP e uma utilizando a linguagem OpenCL. Por meio do teste de diferente número e tipo de afinidade de threads, é poss´ıvel ver a não uniformidade de escalabilidade, assim como a influência do overhead em códigos com um número pequeno de iterações.

1. Introduc¸˜ao

Com o avanço da Computação de Alto Desempenho (HPC1_{) surgiram diversas bibliotecas}

e linguagens para a otimização e aumento de produtividade para a programação paralela. Dentro desse contexto, destacam-se a biblioteca OpenMP e a linguagem OpenCL, pos-suindo diferentes formas e modelos de programação. O OpenMP é focado na criação e uso de threads em CPUs, já o OpenCL no uso de hierarquia de memória em GPUs e aceleradores por meio de kernels.

A partir dessa realidade, este trabalho busca realizar a comparação de três algo-ritmos com caracter´ısticas diferentes em três modelos distintos de execução, sendo os dois primeiros usando OpenMP: Somente CPU, Offload para acelerador e OpenCL. A organização do restante deste artigo é descrita a seguir.

(2)

Na Seção 2 são apresentados trabalhos relacionados da área. Na Seção 3 é des-crito o benchmark utilizado nesse artigo, assim como o procedimento para escolha dos algoritmos a serem testados. Na Seção 4 são expostos os resultados experimentais obti-dos por meio do benchmark. Na Seção 5 são apresentadas as conclusões desse trabalho, juntamente com propostas para futuros trabalhos.

2. Trabalhos Relacionados

[Misra et al. 2013] realizam uma análise de dois algoritmos presentes no benchmark Ro-dinia, ambos implementados em OpenMP, rodando-os e comparando o resultado em três formas diferentes: Somente CPU, Nativo e Offload. Chegando à conclusão que para nem todas as aplicações o uso de offload é viável, devido principalmente ao overhead causado pela transferência de dados pela PCIe.

Em [Ramachandran et al. 2013] os autores utilizam o coprocessador para acelerar códigos da NASA Advanced Supercomputing Division. O código é executado somente em modo nativo, removendo o problema do overhead causado pela passagem de dados pelo barramento PCIe, permitindo o foco em aspectos diferentes para otimização.

Não pudemos, entretanto, encontrar artigos que utilizassem o coprocessador In-tel Xeon Phi para um benchmark com OpenCL. O mais próximo a essa situação é em [Memeti et al. 2017], onde dois computadores, um deles utilizando a GPU GTX Titan X e o outro com um coprocessador Intel Xeon Phi, rodam versões em OpenCL e CUDA (no primeiro) e versões em OpenMP (no segundo), não possuindo assim dados do desempe-nho dos algoritmos em OpenCL com o coprocessador.

Esta carˆencia de artigos que utilizam OpenCL com a Intel Xeon Phi pode ser atribu´ıda principalmente ao enfoque do OpenCL ser para uso em GPUs e aceleradores (como FPGAs). Este fato demonstra uma carˆencia e necessidade de analisar a viabilidade do uso de OpenCL em uma arquitetura como a x86 (presente no coprocessador Intel Xeon Phi).

3. Benchmark Rodinia

O Rodinia Benchmark Suite foi criado pela University of Virginia com o intuito de ajudar arquitetos de sistemas e programadores a testar e comparar hardware paralelo com diver-sos tipos de algoritmos computacionalmente intensivos [Che et al. 2009]. Atualmente o Rodinia est´a na sua vers˜ao 3.1 possuindo 23 algoritmos implementados em CUDA, sendo 22 desses algoritmos implementados em OpenCL e 19 em OpenMP.

Devido à não uniformidade de versões dispon´ıveis, foi necessária uma análise prévia dos algoritmos, selecionando os que possuiam implementação em ambos OpenMP e OpenCL. Posteriormente, foram escolhidas as implementações em OpenMP que pos-suiam versões com a opção de offload para o coprocesssador, e por fim, implementações que utilizam arquivos externos como fonte de dados, de forma a garantir a uniformidade dos cálculos.

4. Resultados experimentais

Escolhidos os algoritmos CFD, NW e HotSpot, foi realizado o teste de afinidade de th-reads em cada um dos benchmarks, buscando encontrar o melhor tipo de afinidade jun-tamente com o melhor n´umero de threads por n´ucleo. Foi utilizado um computador com

(3)

Processador IntelR XeonR E5-1607 v3 (4 cores, 3.1 GHz, 10 Mb Cache), Linux

Cen-tOS 7.1.1503 x86 64, 8 GB DDR4 2133 MHz, HD 500GB SATA (7200 RPM) e um Coprocessador IntelR Xeon PhiTM3210A.

A biblioteca IntelR OpenMP* permite a variac¸˜ao do numero de threads e tipo

de afinidade por meio da alteração de variáveis de ambiente. O Intel Xeon Phi possui 3 tipos de afinidade de threads, sendo eles balanced, compact e scatter. Cada método distribui os threads de forma diferente, permitindo que haja a concentração de threads consecutivos em um mesmo núcleo (compact) ou espalhando-os entre os núcleos (scat-ter) [Reinders 2013].

Para compilação dos programas em todas as formas (CPU, Offload e OpenCL) fo-ram adaptados os arquivos de Makefile de forma a utilizarem o compilador da Intel (ICC). Utilizando as configurações padrões do arquivo ./run dos benchmarks foram realizados 10 testes para cada tipo de afinidade e número de threads por núcleo, utilizando um intervalo de confiança de 99.5%. 1 2 3 4 0.25 0.5 0.75 1 Número de Threads Tempo (s) Scatter Compact Balanced

(a) Afinidade de threads no NW

1 2 3 4 0 0.2 0.4 0.6 N´umero de Threads Tempo (s) Scatter Compact Balanced

(b) Afinidade de threads no HotSpot

1 2 3 4 0 20 40 60 80 N´umero de Threads Tempo (s) Scatter Compact Balanced (c) Afinidade de threads no CFD Figura 1: Teste de afinidade de threads

(4)

A Figura 1 ilustra o resultado da execução dos três algor´ıtmos. É poss´ıvel perceber que nas Figuras 1a e 1b, referentes respectivamente aos algoritmos Needleman-Wunsch (do dom´ınio da bioinformática e que utiliza de conceitos de programação dinâmica) e HotSpot (do dom´ınio das simulações f´ısicas e que utiliza de structured grids), não houve boa escalabilidade do código devido ao número baixo de iterações no algoritmo, gerando resultados piores para quanto mais threads por núcleo, causados pelo tempo e recursos gastos com a criação e gerenciamento de threads.

Por outro lado, a Figura 1c, referente ao algoritmo CFD Solver (pertencente ao dom´ınio da dinâmica de flu´ıdos e que utiliza de unstructured grids para resolução de equações de Euler) possuiu alto grau de escalabilidade, resultando em uma relação de aumento de performance no aumento do número de threads.

Tendo como base os dados conseguidos por meio dos benchmarks utilizados e fazendo uso do mesmo número de iterações e dos mesmos arquivos para entrada de dados, foi gerada a Figura 2 com o eixo de Tempo (s) representado de forma lo-gar´ıtmica. Para a execução de códigos em OpenCL com o Xeon Phi foi necessária a alteração de todas as ocorrências de CL DEVICE TYPE GPU nos códigos para CL DEVICE TYPE ACCELERATOR, permitindo assim a utilização do coprocessador.

NW HotSpot CFD 10 2 10 1 100 101 Tempo (s) CPU Offload OpenCL

Figura 2: Melhores tempos de execuc¸˜ao dos algoritmos

As barras azuis representam os tempos gastos para a execução dos algoritmos utilizando a versão OpenMP, porém executando apenas na CPU. As barras vermelhas uti-lizam a mesma metodologia descrita anteriormente, contudo fazem uso do coprocessador por meio de offload. As barras verdes representam a utilização do coprocessador por meio da linguagem OpenCL.

É poss´ıvel notar que para algoritmos com baixa escalabilidade para número pe-queno de iterações, como o NW e HotSpot, somente o uso da CPU se mostrou bastante favorável, obtendo bons resultados em ambos os casos, enquanto que houveram

(5)

resulta-dos inst´aveis para OpenCL e resultaresulta-dos ruins para Offload. Por outro lado, no algoritmo com maior escalabilidade (CFD) o uso de OpenCL e offload mostraram-se favor´aveis, chegando a uma melhoria de desempenho de aproximadamente 300% e 237%, respecti-vamente.

Por fim, devido à má escalabilidade e facilidade em alterar o número de iterações (por meio da alteração do arquivo ./run), foi realizada a comparação do tempo de execução por iterações no HotSpot, utilizando o número de threads e tipo de afinidade ótimo de-terminado empiricamente na Figura 1b, foi gerado o gráfico da Figura 3. O valor padrão de iterações para este algoritmo é de duas iterações (dessa forma, o primeiro ponto no gráfico possui os mesmos valores de tempo da Figura 1b para o HotSpot), aumentando exponencialmente esse valor por um fator de 10.

100 ₁₀1 ₁₀2 ₁₀3 ₁₀4 ₁₀5 10 2 10 1 100 101 102 Número de iterações Tempo(s) CPU Offload OpenCL

Figura 3: Tempo por iterac¸ ˜oes no HotSpot

É poss´ıvel notar a melhoria de desempenho da técnica de offload utilizando OpenMP para um número alto de iterações, causando a redução do overhead derivado do uso da porta PCIe para a passagem de dados. Para valores altos de iterações o tempo de execução do método de offload torna-se linear, obtendo melhores resultados que o uso de OpenCL ou somente CPU.

5. Conclus˜ao

Com base nos resultados é poss´ıvel notar a viabilidade de utilizar códigos escritos em OpenCL com o Xeon Phi, necessitando de poucas alterações para adaptar o programa. Apesar de ser uma linguagem que utiliza de conceitos e recursos de baixo n´ıvel, os al-goritmos testados em OpenCL não obtiveram resultados suficientemente bons quando comparados com OpenMP, principalmente dado um número de iterações alto, como visto na Figura 1b, de forma a justificar uma reescrita de códigos em C e C++ com uso de OpenMP para OpenCL.

(6)

Além disso, a utilização de três algoritmos de dom´ınios diferentes se mostrou im-portante de forma a demonstrar que não há uma correlação direta entre maior número de threads e melhor desempenho, conforme visto nas Figuras 1a e 1b. Contudo, em algo-ritmos com alta escalabilidade (Figura 1c), o alto número de cores (e consequentemente threads) do Xeon Phi gera resultados ótimos, com aceleração de aproximadamente 300% em tempo de execução. Em todos os casos, a afinidade balanced se provou a melhor opção, obtendo na média o melhor desempenho.

Por fim, conforme exposto na Figura 1b, é poss´ıvel notar que há um overhead causado pelo uso do barramento PCIe para transferência de dados para o coprocessador. O tempo de execução se mantém praticamente estável entre 2 e 2000 iterações, somente obtendo crescimento linear a partir de 20000 iterações, chegando assim à superação do tempo de overhead. Desta forma, pode-se concluir que o uso da técnica de offload utili-zando o coprocessador só é viável para um número suficientemente grande de iterações, dando preferência para o uso de somente a CPU nos outros casos.

Os resultados obtidos neste artigo abrem espaço para a realização de futuros tra-balhos buscando maior paralelização, escalabilidade e redução de overhead nos códigos em OpenMP que utilizam do offload para o coprocessador, assim como otimização de kernels e de parâmetros nos códigos em OpenCL.

Referˆencias

Che, S., Boyer, M., Meng, J., Tarjan, D., Sheaffer, J. W., Lee, S.-H., and Skadron, K. (2009). Rodinia: A benchmark suite for heterogeneous computing. In Workload Cha-racterization, 2009. IISWC 2009. IEEE International Symposium on, pages 44–54. Ieee.

Memeti, S., Li, L., Pllana, S., Kolodziej, J., and Kessler, C. (2017). Benchmarking opencl, openacc, openmp, and cuda: programming productivity, performance, and energy con-sumption. arXiv preprint arXiv:1704.05316.

Misra, G., Kurkure, N., Das, A., Valmiki, M., Das, S., and Gupta, A. (2013). Evaluation of rodinia codes on intel xeon phi. In Intelligent Systems Modelling & Simulation (ISMS), 2013 4th International Conference on, pages 415–419. IEEE.

Ramachandran, A., Vienne, J., Wijngaart, R. V. D., Koesterke, L., and Sharapov, I. (2013). Performance evaluation of nas parallel benchmarks on intel xeon phi. In 2013 42nd International Conference on Parallel Processing, pages 736–743.

Reinders, J. J. . J. (2013). Intel Xeon Phi Coprocessor High Performance Programming. Morgan Kaufmann Publishers Inc., Boston, MA, USA.