Conclus˜ oes - Dissertação

Esta disserta¸cão abordou três estratégias de implementa¸cão paralela do algoritmo PSO em arquiteturas paralelas de alto desempenho. A primeira estratégia considera o fato de que as computa¸cões realizadas pelas part´ıculas são quase independentes e portanto, podem ser realizadas em paralelo. A segunda estratégia considera o fato de que as opera¸cões internas aos processos que implementam as part´ıculas também podem ser paralelizadas, proporcionando uma decomposi¸cão das opera¸cões realizadas em cada dimensão do problema que esta sendo otimizado. A terceira estratégia é baseada no algoritmo serial CPSO-Sk, de-

senvolvido por Van den Bergh em (BERGH et al., 2002), cuja ideia principal é subdividir o vetor de dimensões do problema original em vários subproblemas que serão otimizados por vários subenxames atuando em paralelo. Os subenxames colaboram entre si na solu¸cão do problema original.

Este estudo foi motivado pelo baixo desempenho do algoritmo PSO sequencial quando aplicado na solu¸cão de problemas complexos que envolvam um grande número de dimensões e part´ıculas. Seu objetivo foi investigar e desenvolver estratégias paralelas para o PSO visando à redu¸cão do tempo de execu¸cão, assim como a manuten¸cão ou melhoria da eficiência na otimiza¸cão.

7.1 Conclusões 117 Inicialmente, o algoritmo PPSO foi implementado diretamente em hardware utilizando uma Xilinx Virtex 6 FPGA (xcvlx75t). A arquitetura explora o paralelismo atualizando as posi¸cões e as velocidades e calculando a fun¸cão objetivo de modo indepen- dente, considerando as part´ıculas do enxame. Os resultados de s´ıntese demonstram que a escalabilidade do hardware depende do número de part´ıculas usadas e da complexidade da fun¸cão objetivo. A arquitetura do HPSO foi validada usando até 10 part´ıculas operando em paralelo na solu¸cão de problemas de otimiza¸cão de 2 dimensões. O melhor desempenho alcan¸cado foi de 135 vezes e o menor de 20 vezes comparado ao processador MicroBlaze.

Devido à limita¸cão de área da FPGA, os resultados obtidos pelo HPSO não puderam ser comparados com as outras arquiteturas paralelas.

Em seguida, as três estratégias paralelas do PSO foram transformadas nos algoritmos PPSO, PDPSO e CPPSO e implementadas em três diferentes arquiteturas de alto desempenho: multiprocessador, multicomputador e GPU. Os algoritmos foram avaliados utilizando diferentes arranjos de part´ıculas e dimensões, proporcionando diferentes custos e complexidades, na otimiza¸cão de 4 fun¸cões de benchmark. O hardware utilizado para executar as implementa¸cões em OpenMP e MPICH foi o SGI Octane III, composto de 4 nós conectados via uma rede Gigabit-Ethernet. Cada nó contêm 2 processadores Intel Xeon de 2,4 GHz, sendo dotados de 4 núcleos HT cada. A implementa¸cão em GPU ex- plorou a GPU NVIDIA GTX 460, que proporciona 7 SM, onde cada SM inclui 48 núcleos de 1,3 GHz.

Implementados em OpenMP, os algoritmos PPSO e CPPSO obtiveram os melhores desempenhos nos casos que envolveram um grande número de part´ıculas e dimensões, alcan¸cando até 1,43 e 2,6 vezes respectivamente, em rela¸cão à implementa¸cão sequencial. Portanto, para a arquitetura de multiprocessador, os melhores resultados foram obtidos utilizando um particionamento com uma granularidade mais grossa.

Implementados em MPICH, o algoritmo PPSO obteve o melhor desempenho nos casos que apresentaram um grande número de part´ıculas e dimensões, alcan¸cando até 39,67 vezes em rela¸cão à implementa¸cão sequencial. A utiliza¸cão de um arranjo otimizado de part´ıculas por processo e número de processos levou a um aumento significativo no desempenho. Portanto, como a arquitetura de multiprocessadores, a arquitetura de multicomputadores obteve os melhores resultados utilizando um particionamento com uma granularidade mais grossa.

7.1 Conclusões 118 Implementados em OpenMP com MPICH, o algoritmo CPPSO obteve o melhor desempenho nos casos com grande número de part´ıculas e dimensões, alcan¸cando até 14,75 vezes em rela¸cão à implementa¸cão sequencial. Logo, os melhores resultados foram obtidos utilizando um particionamento com uma granularidade mais grossa.

Implementados em CUDA, os algoritmo CPPSO e PDPSO obtiveram os melhores desempenhos nos casos com grande número de part´ıculas e dimensões, alcan¸cando até 61,97 e 53,81 vezes respectivamente, em rela¸cão à implementa¸cão sequencial.

Conforme esperado, devido principalmente as caracter´ısticas de cada arquitetura, a GPU obteve os melhores resultados com os algoritmos que utilizaram uma granularidade mais fina, enquanto as outras arquiteturas tiveram bons desempenhos utilizando um particionamento com uma granularidade mais grossa.

As estratégias de paraleliza¸cão do algoritmo PSO utilizaram basicamente a decomposi¸cão de dom´ınio. Esta caracter´ıstica foi uma das causas para que a arquitetura de GPU superasse em aproximadamente 60% o desempenho da implementa¸cão em MPICH, que obteve o segundo melhor desempenho utilizando um hardware que é cerca 9 vezes mais caro. De outra forma, uma aplica¸cão que utilize decomposi¸cão funcional, ou seja, threads ou processos realizando diferentes tarefas, certamente obteria melhor desempenho implementada na arquitetura de multiprocessadores e/ou multicomputadores. De um modo geral, a ado¸cão da verifica¸cão da condi¸cão de parada a cada 20 itera¸cões contribuiu para reduzir o sincronismo e a comunica¸cão entre os processos ou threads, incrementando o desempenho das aplica¸cões em todas as arquiteturas em aproximadamente 90%. Nos casos de enxames com poucas part´ıculas e dimensões, a implementa¸cão serial apresentou o melhor desempenho.

Em rela¸cão à eficiência na otimiza¸cão, os três algoritmos propostos apresentaram eficiência na maioria das otimiza¸cões de modo semelhante e até melhor que o algoritmo sequencial. Esta eficiência fica bem evidenciada nos casos em que foram obtidos supers- peedups positivos em fun¸cão da redu¸cão do número de itera¸cões pelas implementa¸cões paralelas, especialmente pelo CPPSO. Apesar disso, a probabilidade de localizar o ótimo global decresce significantemente com o aumento do número de dimensões do problema (ENGELBRECHT, 2006), uma vez que o número de pontos do espa¸co de busca cresce expo- nencialmente. Assim, pode ser observado que para todas as implementa¸cões da fun¸cão f2

7.2 Trabalhos Futuros 119

No documento Dissertação (páginas 118-121)