• Nenhum resultado encontrado

12.4 Criação de uma extensão MASA

12.6.5 Resultados dos alinhamentos

Nesta seção, mostramos alguns resultados de alinhamentos obtidos com a arquitetura MASA.

10M - Amycolaptosis mediterranei

A Figura 12.12(a) mostra o alinhamento ótimo local entre a estirpe S699 (NC_017186.1) e U32 (NC_014318.1) da espécie Amycotopsis mediterranei. O Amycotopsis mediterranei produz um importante antibiótico (ricamycin) e é extensamente estudado na literatura [148] [149]. Na Figura 12.12(a), as regiões verde e laranja representam as células da matriz que foram calculadas e a região preta representa as células pruned. Como pode ser visto, o resultado é praticamente um match perfeito. O percentual de matches, mismatches e gaps são, respectivamente, 99,996%, 0,003% e 0,001%. Estes resultados estão consistentes com o reportado em [148]. O escore local ótimo obtido foi 10.235.188.

(a) 10M - A. mediterranei (b) chr21 - human x chimpanzee

Figura 12.12: Alinhamento local ótimo de algumas comparações. A área verde (cinza claro) apresenta baixo escore, a área laranja (cinza escuro) apresenta escore alto e área preta indica área com blocos pruned.

Cromossomo 21 - Homem × Chimpanzé

A análise entre os cromossomos 21 do homem e do chimpanzé é um tópico bastante ativo de pesquisa e novos genes estão sendo descobertos de maneira cada vez mais rápida [150]. Recentemente, uma pesquisa [151] efetuou uma nova análise genética deste cromossomo em relação ao estudo da síndrome de Down.

A Figura 12.12(b) apresenta o gráfico do alinhamento local ótimo entre os cromosso- mos 21 e a Figura 12.13 mostra uma pequena parte do arquivo texto contendo o alinha- mento. Na Figura 12.12(b), o cromossomo 21 humano (NC_000021.7) está no eixo x e o cromossomo 21 do chimpanzé (BA000046.3) está no eixo y. O alinhamento ótimo está apresentado como uma linha azul e ele se inicia na posição 13,841,681 (NC_000021.7) e 1 (BA000046.3). O percentual de matches, mismatches e gaps são, respectivamente,

Figura 12.13: Início do alinhamento textual entre os cromossomos 21 do homem e chim- panzé.

Estendo a análise, os percentuais de N, A+T e C+G de ambas as sequências foram calculados. O resultado está mostrado na Figura 12.14. Podemos notar que o cromossomo humano possui uma alta concentração de caracteres “N” no início da sequência, indicando uma área ainda não sequenciada do cromossomo. Esta região causou um deslocamento do alinhamento local para fora da diagonal principal.

gi|51511750|ref|NC_000021.7|NC_000021 Homo sapiens chromosome 21, reference assembly, complete sequence

0 20 40 60 80 100 0 20MBP 40MBP freq.(%) A+T C+G N -30 -20 -10 0 10 20 30 0 20MBP 40MBP skew (%) Position AT-Skew CG-Skew (a) Cromossomo 21 humano

BA000046.3 0 20 40 60 80 100 0 20MBP freq.(%) A+T C+G N -30 -20 -10 0 10 20 30 0 20MBP skew (%) Position AT-Skew CG-Skew (b) Cromossomo 21 do chimpanzé

Figura 12.14: Frequências de N, A+T e C+G nos cromossomos 21

Através do alinhamento ótimo, foram identificadas as regiões que apresentam uma alta taxa de mismatches e gaps. Para obter estas regiões, utilizamos uma janela deslizante (tamanho = 50000) ao longo do alinhamento e marcamos as áreas com menos de 70% de matches. Em cada uma dessas áreas, as regiões com o menor escore foram seleciona- das como uma região unmatched e estas regiões foram sobrepostas em regiões maiores,

quando possível (Figura 12.15). O tamanho das dez maiores regiões e as suas localizações dentro do alinhamento ótimo estão apresentadas na Tabela 12.5. Estas regiões podem ser utilizadas por biólogos como regiões de interesse para análise biológicas mais detalhadas.

Largest Unmatched Regions

Name Align. Length Trim S0 Trim S1 match mismt. gaps score U01 A01 59072 10630194! 10631376 24654791! 24713863 1.99% 0.01% 98.00% -115272 U02 A01 56421 10280845! 10288485 24240387! 24296799 13.21% 0.32% 86.47% -93697 U03 A01 55857 27853079! 27908936 42082089! 42129406 3.28% 81.43% 15.29% -151706 U04 A01 46315 9515853! 9518073 23422491! 23468803 4.69% 0.10% 95.21% -86173 U05 A01 39683 337151! 376789 14172065! 14193379 51.43% 2.17% 46.40% -19161 U06 A01 26872 8777783! 8777920 22640592! 22667464 0.51% 0.00% 99.49% -53402 U07 A01 25757 16668297! 16668303 30834341! 30860098 0.02% 0.00% 99.98% -51502 U08 A01 24390 16569464! 16569473 30703011! 30727401 0.04% 0.00% 99.96% -48759 U09 A01 24251 408670 · 408670 14224960! 14249211 0.00% 0.00% 100.00% -48505 U10 A01 18456 27632628! 27651084 41875088! 41879528 6.50% 17.56% 75.94% -36555 Table 3: Largest Unmatched Regions of the alignments. These regions were detected by sliding a window (size = 50000) throughout the alignments and marking the areas with less than 70% matches. In each of these areas, the regions with the lowest score are selected as an unmatched region. The regions that overlap are joined together. BA000046.3 gi|51511750|ref|NC_000021.7|NC_000021 1 32718231 13841681 46919080 U05 U09 U06 U04 U02 U01 U08 U07 U10 U03

Figure 4: Plot with the largest regions with unmatched bases.

Figura 12.15: Maiores regiões unmatched entre os cromossomos 21 do homem e chimpanzé.

12.7

Conclusão do Capítulo

A arquitetura MASA (Multi-platform Architecture for Sequence Aligners) permitiu a por- tabilidade do CUDAlign para diferentes arquiteturas de hardware e software. Para avaliar a capacidade de portabilidade, quatro extensões foram criadas para diferentes plataformas de hardware e ambientes de software: MASA-CUDAlign, MASA-OmpSs/CPU, MASA- OpenMP/CPU and MASA-OpenMP/Phi. As três últimas extensões foram portadas com a criação de menos de 200 linhas de código, fornecendo um indicativo sobre o esforço de se portar o CUDAlign para outras plataformas. Além das extensões apresentadas nesta tese, a extensão MASA-OpenCL foi desenvolvida ao longo do Mestrado do aluno Marco Antônio C. de Figueiredo Jr. [41], do mesmo grupo de trabalho do autor desta tese. Neste trabalho, foi possível obter um desempenho de 179,2 GCUPS em uma placa AMD Radeon R9 280X [42]. Outro projeto também está iniciando para a criação de uma extensão para FPGA. Por meio da arquitetura MASA, pretende-se criar uma infraestrutura comum para alinhamento de sequências, permitindo agregar várias implementações em plataformas dis-

Tabela 12.5: Tamanhos e localização das maiores regiões unmatched Nome Tamanho Loc. S0 Loc. S1

U01 59072 10630194-10631376 24654791-24713863 U02 56421 10280845-10288485 24240387-24296799 U03 55857 27853079-27908936 42082089-42129406 U04 46315 9515853-9518073 23422491-23468803 U05 39683 337151-376789 14172065-14193379 U06 26872 8777783-8777920 22640592-22667464 U07 25757 16668297-16668303 30834341-30860098 U08 24390 16569464-16569473 30703011-30727401 U09 24251 408670-408670 14224960-14249211 U10 18456 27632628-27651084 41875088-41879528

principal benefício da arquitetura MASA é que a grande maioria das funcionalidades foram criadas de maneira portável a todas as extensões, permitindo que essas funcionalidades sejam aplicadas a diversas plataformas com pouco ou nenhum esforço adicional.

Parte III

Conclusão

Capítulo 13

Conclusões e Trabalhos Futuros

Nesta tese de doutorado, foram propostos e avaliados métodos para permitir o alinhamento ótimo de duas sequências longas de DNA utilizando plataformas de alto desempenho. A principal plataforma investigada foi a Unidade de Processamento Gráfico (GPU) da NVIDIA, o que resultou no desenvolvimento da ferramenta CUDAlign. A primeira versão desta ferramenta (CUDAlign 1.0 [122]) foi produzida durante o mestrado do autor desta tese, sendo que esta primeira versão era capaz de utilizar apenas uma única GPU e somente informava o escore ótimo local.

13.1

Resultados Obtidos

No escopo desta tese, propusemos estratégias paralelas e otimizações que permitiram que as funcionalidades do CUDAlign 1.0 fossem expandidas, criando as versões 2.0 [34], 2.1 [35], 3.0 [36][37] e 4.0 [38], o que permitiu que múltiplas GPUs fossem utilizadas em conjunto para produzir escores e alinhamentos ótimos. A Tabela 13.1 apresenta um resumo com o desempenho máximo obtido nos testes de cada uma das versões.

Tabela 13.1: Desempenho das versões do CUDAlign propostas nesta tese Versão Saída Desempenho Ambiente Tam. Máx. CUDAlign 2.0 Alinhamento 23,1 GCUPS 1 × GTX 285 47 MBP CUDAlign 2.1 Alinhamento 50,7 GCUPS 1 × GTX 560 59 MBP CUDAlign 3.0 Escore 1,73 TCUPS 64 × M2090 249 MBP CUDAlign 4.0 Alinhamento 10,37 TCUPS 384 × M2090 249 MBP

No CUDAlign 2.0 [34], o alinhamento completo pode ser obtido com uma única GPU utilizando 6 estágios. O primeiro estágio foi feito com base no CUDAlign 1.0, com a dife- rença de que algumas linhas especiais são salvas em disco. Os estágios 2 e 3 processam a matriz em sentidos alternados, de forma a encontrar pontos (crosspoints) onde o alinha- mento ótimo cruza as linhas especiais. O estágio 4 executa o algoritmo de Myers-Miller para reduzir o espaço entre os crosspoints, até que o tamanho das partições formadas por estes pontos seja suficientemente pequeno. O estágio 5 alinha cada uma dessas pequenas partições e o estágio 6 permite a visualização do alinhamento completo. Os resultados experimentais do CUDAlign 2.0 foram obtidos em uma placa NVIDIA GeForce GTX 285,

Documentos relacionados