• Nenhum resultado encontrado

Como trabalho futuro, pretende-se aprimorar os métodos implementados, aplicando-os efe-tivamente ao contexto dos programas reais, proporcionando a redução do tempo de execução dos mesmos. Como alternativa para a melhoria dos resultados com o CUDA, pretende-se apli-car otimizações, por meio de outras estratégias de paralelização ou através do uso de bibliotecas específicas para álgebra linear, como por exemplo a CuBLAS (NVIDIA, 2013).

Como trabalho futuro relacionado ao rCUDA, pretende-se analisar o comportamento do desempenho ao usar um número maior de GPUs, a fim de investigar os limites de escalabilidade da técnica apresentada.

Um outro trabalho futuro possível consiste em efetuar uma comparação dos resultados obti-dos no presente estudo com outras técnicas de computação multiGPU, como o uso de sistemas com múltiplas placas ou implementações utilizando MPI.

REFERÊNCIAS

ABDELKHALEK, R. et al. Fast seismic modeling and reverse time migration on a gpu cluster. In: HPCS, 2009.Anais. . . IEEE, 2009. p. 36–43.

ARAUJO, J. d. S.Desenvolvimento de metodologias para a localização de intruso em ambientes indoor. 2010. Tese (Doutorado em Ciência da Computação) — Universidade Federal do Pará, Programa de Pós-Graduação em Engenharia Elétrica, 2010. Tese

(Doutorado).

BARBOSA, J. Noções sobre matrizes e sistemas de equações lineares. 2a edição. ed. [S.l.]: FEUP Edições, 2011.

BÉNYÁSZ, G.; CSER, L. Clustering financial time series on cuda. In: CONFERENCE OF PHD STUDENTS IN COMPUTER SCIENCE INSTITUTE OF INFORMATICS OF THE UNIVERSITY OF SZEGED, 2010, Hungary.Anais. . . [S.l.: s.n.], 2010.

CASANOVA, H.; LEGRAND, A.; ROBERT, Y.Parallel algorithms. [S.l.]: CRC Press, 2008. (Chapman & Hall/CRC Numerical Analysis and Scientific Computing Series).

CECILIA, J. M.; GARCÍA, J. M.; UJALDÓN, M. Cuda 2d stencil computations for the jacobi method. In: INTERNATIONAL CONFERENCE ON APPLIED PARALLEL AND

SCIENTIFIC COMPUTING - VOLUME PART I, 10., 2012, Berlin, Heidelberg. Proceedings. . . Springer-Verlag, 2012. p. 173–183. (PARA’10).

CHANDRA, R. et al. Parallel programming in openmp. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2001.

CHAPRA, S.; CANALE, R.Métodos numéricos para engenharia - 7aedição:. [S.l.]: McGraw Hill Brasil, 2016.

CHENG, J.; GROSSMAN, M.; MCKERCHER, T. Professional cuda c programming. [S.l.]: Wiley, 2014. (EBL-Schweitzer).

COOK, S.Cuda programming: a developer’s guide to parallel computing with gpus. [S.l.]: Morgan Kaufmann, 2013. (Applications of GPU Computing Series).

DIRK, S.; ATLE, V.; S., M. M. Evaluating openmp performance on thousands of cores on the numascale architecture.Advances in Parallel Computing, [S.l.], v. 27, n. Parallel

Computing: On the Road to Exascale, p. 83–92, 2016.

DONGARRA, J. et al.High performance computing: technology, methods and applications: technology, methods and applications. [S.l.]: Elsevier Science, 1995. (Advances in Parallel Computing).

DUBOIS, M.; ANNAVARAM, M.; STENSTRÖM, P.Parallel computer organization and design. [S.l.]: Cambridge University Press, 2012. (Parallel Computer Organization and Design).

ERLANGGA, Y. A.A robust and efficient iterative method for the numerical solution of the helmholtz equation. Delft University: fl.126, 2005. Tese (Doutorado).

FARBER, R.The openacc execution model. Disponível em:

http://www.drdobbs.com/parallel/the-openacc-execution-model/240006334. Acesso em setembro de 2016.

GEIST, A.Pvm: parallel virtual machine :a users’ guide and tutorial for networked parallel computing. [S.l.]: MIT Press, 1994. (Scientific and engineering computation).

GILAT, A.; SUBRAMANIAM, V.Metodos numéricos para engenheiros e cientistas: uma introdução com aplicações usando o matlab. [S.l.]: Bookman, 2008.

GRIFFITHS, D.Introduction to electrodynamics. [S.l.]: Pearson, 2013. (Always learning). GROPP, W. et al.Using advanced mpi: modern features of the message-passing interface. [S.l.]: MIT Press, 2014. (Computer science & intelligent systems).

HEROUX, M.; RAGHAVAN, P.; SIMON, H.Parallel processing for scientific computing. [S.l.]: Society for Industrial and Applied Mathematics (SIAM, 3600 Market Street, Floor 6, Philadelphia, PA 19104), 2006. (SIAM e-books).

HISTENCILS.Histencils. Disponível em: http://www.exastencils.org/histencils/2016/. Acesso em setembro de 2016.

HWU, W.Heterogeneous system architecture: a new compute platform infrastructure. [S.l.]: Elsevier Science, 2015.

JAMSHED, S.Using hpc for computational fluid dynamics: a guide to high performance computing for cfd engineers. [S.l.]: Elsevier Science, 2015.

KIRK, D. B.; HWU, W.-m. W. Programming massively parallel processors: a hands-on approach. 2st. ed. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2013. LENOSKI, D.; WEBER, W.Scalable shared-memory multiprocessing. [S.l.]: Elsevier Science, 2014.

MANAVSKI, S.; VALLE, G. Cuda compatible gpu cards as efficient hardware accelerators for smith-waterman sequence alignment.BMC Bioinformatics, [S.l.], v. 9, p. S10, 2008.

MANFROI, L. L. F. et al. Avaliação de arquiteturas manycore e do uso da virtualização de gpus. In: XXXIV CONGRESSO DA SOCIEDADE BRASILEIRA DE COMPUTAÇÃO, 2014.Anais. . . [S.l.: s.n.], 2014. p. 1837–1850.

NVIDIA.Cuda toolkit documentation. Disponível em: http://http://docs.nvidia.com/cuda/. Acesso em novembro de 2016.

OPENACC.Openacc. Disponível em: http://www.openacc-standard.org/. Acesso em novembro de 2016.

OPENMP.Openmp. Disponível em:

http://www.openmp.org/mp-documents/OpenMP4.0.0.pdf. Acesso em novembro de 2016.

PAN, L.; GU, L.; XU, J. Implementation of medical image segmentation in cuda. In:

INFORMATION TECHNOLOGY AND APPLICATIONS IN BIOMEDICINE, 2008. ITAB 2008. INTERNATIONAL CONFERENCE ON, 2008.Anais. . . [S.l.: s.n.], 2008. p. 82–85. PITAKSIRIANAN, N.; NOURI, Z.; TU, Y. C. Efficient 2-body statistics computation on gpus: parallelization amp;amp; beyond. In: INTERNATIONAL CONFERENCE ON PARALLEL PROCESSING (ICPP), 2016., 2016.Anais. . . [S.l.: s.n.], 2016. p. 380–385.

RAHMAN, R.Intel xeon phi coprocessor architecture and tools: the guide for application developers. [S.l.]: Apress, 2013. (The expert’s voice in microprocessors).

RAUBER, T.; RÜNGER, G. Parallel programming: for multicore and cluster systems. [S.l.]: Springer Berlin Heidelberg, 2013.

RCUDA, T. rcuda. Disponível em: http://www.rcuda.net. Acesso em novembro de 2016.

REAÑO, C. et al. Improving the user experience of the rcuda remote gpu virtualization framework.Concurrency and Computation: Practice and Experience, [S.l.], v. 27, n. 14, p. 3746–3770, 2015.

REYES, R. et al. accull: an openacc implementation with cuda and opencl support. In: EURO-PAR, 2012.Anais. . . Springer, 2012. p. 871–882. (Lecture Notes in Computer Science, v. 7484).

SADIKU, M.Numerical techniques in electromagnetics, second edition. [S.l.]: Taylor & Francis, 2000.

SALSA, S.Partial differential equations in action: from modelling to theory. [S.l.]: Springer International Publishing, 2015. (UNITEXT).

SANDERS, J.; KANDROT, E.Cuda by example: an introduction to general-purpose gpu programming. 1st. ed. [S.l.]: Addison-Wesley Professional, 2010.

SOUZA, D. L. et al. Pso-gpu: accelerating particle swarm optimization in cuda-based graphics processing units. In: GECCO (COMPANION), 2011.Anais. . . ACM, 2011. p. 837–838. SOUZA, D. L. et al. A novel competitive quantum-behaviour evolutionary multi-swarm optimizer algorithm based on CUDA architecture applied to constrained engineering design. In: SWARM INTELLIGENCE - 9TH INTERNATIONAL CONFERENCE, ANTS 2014, BRUSSELS, BELGIUM, SEPTEMBER 10-12, 2014. PROCEEDINGS, 2014.Anais. . . [S.l.: s.n.], 2014. p. 206–213.

WANG, G. et al.Algorithms and architectures for parallel processing: 15th international conference, ica3pp 2015, zhangjiajie, china, november 18-20, 2015, proceedings. [S.l.]: Springer International Publishing, 2015. n. pt. 3. (Lecture Notes in Computer Science).

WANG, Z. J. High-order computational fluid dynamics tools for aircraft design.Philosophical Transactions of the Royal Society of London A: Mathematical, Physical and Engineering Sciences, [S.l.], v. 372, n. 2022, 2014.

XIE, P.; WU, Y.; CHENG, K. The implementation of a network traffic detection model based on gpu and cpu heterogeneous platform. In: INTERNATIONAL CONFERENCE ON

INFORMATION SCIENCES, MACHINERY, MATERIALS AND ENERGY (ICISMME 2015), 2015.Anais. . . [S.l.: s.n.], 2015.

YANG, L.; GUO, M.High-performance computing: paradigm and infrastructure. [S.l.]: Wiley, 2005. (Wiley Series on Parallel and Distributed Computing).

YEE, K. Numerical solution of initial boundary value problems involving maxwell’s equations in isotropic media.IEEE Trans. Antennas and Propagation, [S.l.], v. 14, p. 302–307, 1966.

APÊNDICE A – MÉTODO DA ELIMINAÇÃO GAUSSIANA

A forma generalizada de um sistema linear é apresentada na Equação (A.1).

E1 : a11x1+ a12x2 +· · · + a1nxn = b1,

E2 : a21x1+ a22x2 +· · · + a2nxn = b2, (A.1)

... ...

En : an1x1+ an2x2 +· · · + annxn = bn,

Para resolver sistemas lineares, pode-se usar tanto métodos iterativos como métodos diretos (GILAT; SUBRAMANIAM, 2008). Métodos diretos são baseados na Eliminação Gaussiana (ERLANGGA, 2005) e calculam a solução exata de um sistema linear, (exceto por erros de arredondamento), com um número finito e bem determinado de operações aritméticas. São adequados para resolver sistemas lineares densos.

Métodos iterativos calculam a solução aproximada de um sistema linear e se beneficiam da esparsidade da matriz, exigindo pouca memória alocada, porém têm baixa velocidade de convergência para encontrar a solução do sistema linear, dependendo do condicionamento da matriz, e em alguns casos podem divergir. Desse modo, a solução por métodos baseados na Eliminação Gaussiana, apesar de demandar maior esforço computacional, é mais adequada nos casos em que as características do problema permitirem sua aplicação (CHAPRA; CANALE, 2016). A paralelização do método de Eliminação Gaussiana permite a diminuição do seu tempo de execução, tornando viável o seu uso na obtenção da solução exata de sistemas de grande porte, como os utilizados no processamento sísmico e outras áreas da computação científica.

Documentos relacionados