2.2 Aspectos Computacionais
2.2.7 T´ ecnicas de Alinhamento
Desde meados do s´eculo XIX, pesquisadores dedicam-se ao problema do alinhamento de sequˆencias genˆomicas. Um dos primeiros algoritmos de alinhamento desenvolvidos e com ampla aplica¸c˜ao foi o algoritmo de Needleman–Wunsch sendo uma das primeiras
aplica¸c˜oes da computa¸c˜ao dinˆamica para comparar sequˆencias (SETUBAL; MEIDANIS, 1997).
Esse algoritmo recebe duas sequˆencias genˆomicas, podendo elas ser apresentadas em n´ıvel de base nitrogenada ou amino´acido, e encontra o alinhamento ideal entre ambas, ou seja, o alinhamento que possui maior similaridade. Para tal, uma malha ´e constru´ıda com as poss´ıveis combina¸c˜oes das bases nitrogenadas das sequˆencias. Seguindo o caminho com a maior pontua¸c˜ao na malha ´e poss´ıvel obter o alinhamento ideal das sequˆencias. Esse processo ´e ilustrado pela figura 14.
Figura 14: Algoritmo de Needleman–Wunsch
3
TRABALHOS RELACIONADOS
O cap´ıtulo apresenta algumas ferramentas mais utilizadas pela comunidade cient´ıfica para promover a corre¸c˜ao e/ou montagem das sequˆencias genˆomicas.
3.1
Trimmomatic
Trimmomatic (BOLGER; LOHSE; USADEL, 2014) ´e uma ferramenta para melhorar a qualidade geral do arquivo de sequˆencias Illumina. Mesmo as sequˆencias possuindo boa qualidade, o sequenciamento Illumina ainda ´e pass´ıvel de erros, podendo gerar bases e/ou fragmentos com baixa qualidade.
Ela recebe como entrada um arquivo fastq contendo um conjunto de sequˆencias Il- lumina juntamente com uma s´erie de parˆametros opcionais para auxiliar o processo de corte das regi˜oes de pior qualidade. Sua sa´ıda ´e tamb´em um arquivo fastq por´em apenas com sequˆencias de boa qualidade. Um ponto negativo no aspecto computacional desta ferramenta ´e que enquanto o arquivo original possui sequˆencias de mesmo tamanho de- vido `a tecnologia utilizada, o arquivo de sa´ıda possui sequˆencias de tamanho vari´avel, por consequˆencia do corte.
3.2
SPAdes
SPAdes (BANKEVICH et al., 2012) ´e uma ferramenta para montagem de sequˆencias Illumina. Essa ferramenta ´e a oficial da Illumina, sendo utilizada amplamente em di- versos projetos envolvendo a montagem desse tipo de sequˆencias. Atualiza¸c˜oes tˆem sido realizadas desde sua cria¸c˜ao. A vers˜ao atual ´e a 3.9.0.
O SPAdes realiza a montagem atrav´es da quebra das sequˆencias em k-mers e monta- gem dos grafos De Brujin, levando um tempo maior do que as ferramentas que realizam a montagem PacBio, por´em, sem a necessidade de corre¸c˜ao.
3.3
Canu
Canu (KOREN et al., 2017) ´e uma ferramenta para montagem de sequˆencias PacBio que realiza corre¸c˜ao do tipo auto. Seu processo de montagem ´e dividido em trˆes etapas.
1. Corre¸c˜ao - Na etapa de corre¸c˜ao um arquivo fastq ´e utilizado como entrada, e um arquivo fasta ´e gerado, ou seja, o arquivo de sa´ıda n˜ao possui mais as qualidades das bases. Nela, as sequˆencias s˜ao alinhadas integralmente, visando a obten¸c˜ao do consenso, por isso ´e a etapa com maior custo computacional.
2. Corte - Na etapa de corte s˜ao verificadas as sequˆencias que s˜ao destoantes das de- mais, ou seja, n˜ao s˜ao semelhantes a nenhuma outra. Essas sequˆencias s˜ao retiradas do arquivo, de forma que a entrada ´e um arquivo fasta e a sa´ıda tamb´em ´e um arquivo fasta, por´em de menor tamanho. Esta ´e a etapa com menor custo compu- tacional.
3. Montagem - Na etapa de montagem ´e realizada a montagem do genoma, conforme apresentado no cap´ıtulo 2. Sua entrada ´e um arquivo fasta e a sa´ıda ´e o genoma montado do organismo. Esta etapa possui custo computacional intermedi´ario entre as etapas anteriores.
O Canu permite que cada etapa seja executada individualmente, de forma que ´e poss´ıvel utiliz´a-lo apenas para a montagem, complementando a ferramenta desenvolvida neste projeto.
3.4
Marvel
O Marvel (GROHME et al., 2018), (NOWOSHILOW et al., 2018) ´e uma ferramenta para montagem de sequˆencias PacBio que realiza corre¸c˜ao do tipo h´ıbrida. Ele foi desen- volvido em 2018, e sua documenta¸c˜ao para uso ainda est´a incompleta, portanto, ele n˜ao foi utilizado comparativamente neste trabalho.
3.5
Smartdenovo
Smartdenovo (RUAN, ) ´e uma ferramenta para montagem de sequˆencias PacBio que n˜ao realiza corre¸c˜ao. Sua entrada ´e um arquivo fasta j´a corrigido, caso contr´ario, o
genoma resultante da montagem ter´a grande diferen¸ca do genoma de referˆencia ou ent˜ao a montagem n˜ao ser´a feita.
A ferramenta utiliza um processo otimizado para a montagem, onde as sequˆencias s˜ao quebradas em k-mers, e os k-mers s˜ao comparados com uma tabela hash para verificar a similaridade e realizar a montagem.
3.6
LorDEC
LorDEC (SALMELA; RIVALS, 2014) ´e uma ferramenta para corre¸c˜ao de sequˆencias PacBio. Para realizar a corre¸c˜ao, a ferramenta utiliza as sequˆencias Illumina montadas em um grafo De Brujin, onde o grafo ´e montado atrav´es da compara¸c˜ao entre as sequˆencias e o genoma de referˆencia do organismo.
A ferramenta apresenta desempenho superior quando comparado `as outras que pos- suem o mesmo prop´osito (SALMELA; RIVALS, 2014). Isso ´e consequˆencia do fato que ela utiliza o genoma de referˆencia e apenas uma parte do arquivo de sequˆencia Illumina, onde ´e necess´aria uma cobertura aproximada de 50x.
4
FERRAMENTA DE MONTAGEM DE
GENOMA
O cap´ıtulo apresenta a ferramenta projetada e desenvolvida durante o projeto de formatura. Inicialmente foram levantados e especificados os requisitos do sistema, para depois ocorrer a defini¸c˜ao de sua arquitetura.
4.1
Especifica¸c˜ao de Requisitos
Foram levantados os seguintes requisitos para o sistema, divididos em funcionais e n˜ao funcionais.
Requisitos Funcionais:
• Manusear conjuntos de amostras de dados (fragmentos de genoma)
Os arquivos texto utilizados s˜ao compostos por uma s´erie de sequˆencias que devem ser devidamente organizadas e alinhadas, para que o processo seja adequado.
• Atender `as m´etricas de alinhamento
As m´etricas estabelecidas de alinhamento com sequˆencias de referˆencia devem ser seguidas, para ser poss´ıvel estabelecer compara¸c˜oes adequadas com as ferramentas j´a existentes.
• Formato de entrada e sa´ıda semelhante com os utilizados por outras ferramentas
As entradas e sa´ıdas devem ser semelhantes para o processo de valida¸c˜ao da ferra- menta.
• Apresenta¸c˜ao de resultados intermedi´arios importantes para pesquisadores da ´area
Durante o processo de corre¸c˜ao, algumas informa¸c˜oes podem ser extra´ıdas a respeito de como o sequenciamento foi feito. Essas informa¸c˜oes devem ser armazenadas em um log para poderem ser utilizadas por pesquisadores da ´area.
Requisitos N˜ao Funcionais:
• Alto desempenho
Principal justificativa do trabalho.
• Adequa¸c˜ao da solu¸c˜ao com o tamanho de mem´oria da FPGA
O sistema necessita possuir arquitetura compat´ıvel com a mem´oria interna da placa FPGA.
• Possibilidade de integra¸c˜ao com outras ferramentas de montagem
A ferramenta desenvolvida deve poder ser integrada com outras ferramentas, para finalizar o processo de montagem do genoma.