• Nenhum resultado encontrado

Energético de uma Aplicação

N/A
N/A
Protected

Academic year: 2022

Share "Energético de uma Aplicação"

Copied!
21
0
0

Texto

(1)

XV E SCOLA R EGIONAL DE A LTO D ESEMPENHO ERAD 2015

Impacto das Interfaces de Programação Paralela e do Grau de Paralelismo no Consumo

Energético de uma Aplicação

Thayson R. Karlinski, Arthur F. Lorenzon, Antonio C. Beck, Márcia C. Cera.

(2)

R OTEIRO

• Motivação e Objetivo

• Interfaces de Programação Paralela (IPP): OpenMP, Pthreads, MPI

• Aplicação Alvo: Cálculo do PI

• Metodologia de Trabalho

• Resultados

• Conclusão e Trabalhos futuros

(3)

Motivação

• Processamento Paralelo

• Aumento de Desempenho

• Impacto das Interfaces de Programação Paralela

• Observando Ambiente de Memória Compartilhada

• Acessos Concorrentes a memória

• Consumo de Energia

Maior número de Threads, Menor Tempo

• Acessar a Memória Interfere?

2

(4)

O BJETIVO

• Avaliar o desempenho e o consumo energético da paralelização

• Variando IPP e Distribuições de Cargas de Trabalho

• Variando número de threads/processos

• Aplicação CPU-Bound

(5)

I NTERFACES DE P ROGRAMAÇÃO P ARALELA (IPP)

• Interface de programação paralela (IPP)

• OpenMP

• Posix threads

• Message Passing Interface (MPI)

IPP: Cria-se: Baseado Em:

Controle de Acessos a

Dados

OpenMP Threads Diretivas Busy-Waiting Pthreads Threads Funções de

Biblioteca Mutex MPI - 1 Processos Funções de

Biblioteca Send/Receive

(6)

A PLICAÇÃO : C ÁLCULO DO PI

• Algoritmo CPU-Bound

• Método de Leibnetz :

Cód. Sequencial

(7)

Ferramenta de Coleta de Eventos

• PAPI (Perfomance Application Programming Interface)

• Desenvolvida no Innovative Computing Laboratory (ICL)

• Universidade do Tenessi

• Estrutura de contadores de Hardware

• Eventos utilizados:

• PAPI_TOT_INS Total de Instruções Executadas

• PAPI_CYC_INS Total de Ciclos de Clock

• PAPI_LD_INS Total de Load a cache L1

• PAPI_SR_INS Total de Store a cache L1

• PAPI_L1_ICM Total de Misses de Instruções a cache L1

• PAPI_L1_DCM Total de Misses de Dados a cache L1

(8)

Estimativa do consumo energético

• = Consumo total das instruções executadas

• = Consumo de energia de acessos a memória

• = Energia estática do processador e do sistema de memória

estática m em ória

instrução

total

E E E

E   

instrução

E

memória

E

estática

E

(9)

A MBIENTE E M ETODOLOGIA DE E XECUÇÃO

•Distribuição de cargas de trabalho

• Static

• Guided

• Nº Iterações / Nº Threads

• Total de execuções: 16 vezes

• Eliminou-se os 3 melhores e 3 piores

• 1 Multiprocessadores – 2 X Intel(R) Xeon(R) CPU E5-2650 2.80 GHz, 8 cores com Tecnologia Hyper-Threading.

• Número de Threads

• 2 4 8 16 32 64

(10)

Resultados: Tempo de Execução

• Maior número de threads, menor tempo de execução

• Distribuição da carga de trabalho entre as threads

30 40 50 60 70 80 90

po de Execução (segundos)

Sequencial Omp-S Omp-G

Pthr MPI-1

(11)

0 10 20 30 40 50 60 70 80 90

1 2 4 8 16 32 64

Tempo de Execução (s)

Número de Threads

Sequencial Omp-S Omp-G

Pthr MPI-1

2

4

Resultados: Speedup

• até 16 threads, speedup similar ou próximo do ideal

• Tipo de aplicação não possui troca de dados

8 15 22 44

(12)

60 80 100 120 140 160 180 200

ões Executadas (Bilhões)

Sequencial Omp-S Omp-G

Pthr MPI-1

Resultados: Nº de Instruções Executadas

• Cada IPP tem sua particularidade de execução

• OpenMP teve 2% menor número de instruções, devido otimização da flag -fopenmp

(13)

0 20 40 60 80 100 120 140 160 180 200

1 2 4 8 16 32 64

Acessos a Memória (Bilhões)

Número de Threads

Sequencial Omp-S Omp-G Pthr MPI-1

Resultados: Acessos a cache L1

• Gerenciamento de threads/processos

• Tipo da aplicação

(14)

1 10 100 1000 10000 100000 1000000 10000000 100000000 1000000000

Misses a Cache L1

Instruções Dados

Resultados: Misses a cache L1

OpenMP faz espera ativa (Busy-Waiting)

• MPI_Init desencadeia maior taxa de misses

(15)

0 200 400 600 800 1000 1200 1400 1600

1 2 4 8 16 32 64

Consumo de Energia (Joules)

Número de Threads

Sequencial Omp-S Omp-G

Pthr MPI-1

Resultados: Consumo de Energia

• Paralelização obteve menor consumo de energia.

• Melhor Resultado = Pthreads (59%)

(16)

400 600 800 1000 1200 1400 1600

umo de Energia (Joules)

Sequencial Omp-S Omp-G

Pthr MPI-1

Resultados: Consumo de Energia

• Paralelização obteve menor consumo de energia.

• Melhor Resultado = Pthreads (59%)

59 %

(17)

Conclusão

• A utilização de IPPs melhorou tempo de execução da aplicação

• Com a utilização de 16 threads, utilizando Pthreads, obteve-se um consumo de energia 59% menor em relação ao sequencial

• Utilizando 32 e 64 threads o tempo de execução foi menor, porem o consumo de energia aumentou.

• Misses da cache L1 aumentam de acordo com o número de threads

• OpenMP e MPI tiveram um maior número de misses de dados em relação ao sequencial

(18)

Trabalhos Futuros

• Executar outros benchmarks do tipo CPU-Bound e IO-Bound

• Expandir o escopo das IPP, utilizando MPI-2

• Expandir o escopo de acessos a memória e misses com a coleta de dados da cache L2 e L3.

(19)

Referências

Intel (2014). IntelR xeonR processor (e5-product family) datasheet – volume 2.

http://www.intel.com/content/www/us/en/processors/xeon/xeon-e5-1600-2600-vol- 2-datasheet.html.

•The Innovative Computing Laboratory (2014). Papi - overview.

http://icl.cs.utk.edu/papi/overview/index.html.

• Karlinski, T. R., Lorenzon, A., F., A. C. B., and Cera, M. (2014). Análise de desempenho e consumo energético de uma aplicação openmp. In Workshop de Iniciação Científica do WSCAD 2014, São Jóse dos Campo/SP.

• Lorenzon, A., Cera, M., and Schneider Beck, A. (2014). Performance and energy evaluation of dif. multi-threading interf. in embedded and general purpose syst. Journal of Signal Processing Systems.

• Korthikanti, V. A. and Agha, G. (2010). Towards optimizing energy costs of algorithms for shared memory architectures. In auf der Heide, F. M. and Phillips, C. A., editors,SPAA, ACM.

(20)

Agradecimentos

Universidade Federal do Pampa – Campus Alegrete.

• Apoio no desenvolvimento das atividades de pesquisa.

• Apoio Infraestrutura do Campus Alegrete – Grupo LEA.

• Bolsa de Iniciação a Pesquisa - Edital PBDA/UNIPAMPA 2014.

(21)

Análise de Desempenho e Consumo Energético de uma Aplicação OpenMP

Muito Obrigado!

Perguntas

Thayson R. Karlinski, Arthur F. Lorenzon, Antonio C. Beck, Márcia C. Cera.

thaysonr.karlinski@gmail.com, aflorenzon@inf.ufrgs.br, caco@inf.ufrgs.br, marciacera@unipampa.edu.br

Referências

Documentos relacionados

O TBC surge como uma das muitas alternativas pensadas para as populações locais, se constituindo como uma atividade econômica solidária que concatena a comunidade com os

Indicada para o assentamento diferenciado de revestimentos cerâmicos, grês (fachadas até 6 pavimentos/peças até 60 x 60 cm), porcelanato técnico/esmaltado (fachadas até

Nas larvas mantidas sem alimento, as mesmas características foram observadas: o epitélio do mesêntero tornou-se mais achatado e células normais circundadas por células

Local de realização da avaliação: Centro de Aperfeiçoamento dos Profissionais da Educação - EAPE , endereço : SGAS 907 - Brasília/DF. Estamos à disposição

O projeto de intervenção visa também aproximar o paciente da equipe de saúde da família e fortalecer o vínculo entre a equipe e os diabéticos sobre seus cuidados, para que

Políticas e Práticas de Educação, Saúde e Enfermagem Processo de Cuidar em Saúde e Enfermagem Qualitativo Saúde da Família Saúde da Criança mazzas@ufpr.br 1 início

Se você vai para o mundo da fantasia e não está consciente de que está lá, você está se alienando da realidade (fugindo da realidade), você não está no aqui e

Para instalar o porteiro AM-PPR com apenas uma tecla reservada para central AM-C100 é necessário colocar o “JUMPER” J1 e retirar o “JUMPER” J2 existente na placa