Mapeamento e Alinhamento - Software de Análise de Dados Genómicos

2.3 Software de Análise de Dados Genómicos

2.3.2 Mapeamento e Alinhamento

Bowtie

O Bowtie8 é uma ferramenta ultra-rápida de alinhamento de short-reads com um genoma de referência desenvolvida pela Johns Hopkins University. É bastante eficaz quando utilizada em alinhamentos de genomas com grandes quantidades de dados e, ao usar o algoritmo Burrows-Wheeler transformobtém uma baixa taxa de utilização de memória. Este algoritmo usa transformações de strings para as comprimir, facilitando assim a sua pesquisa [BL09].

O módulo mais comum do Bowtie é o bowtie aligner que recebe um índice e um conjunto de readspara gerar uma lista de alinhamentos. Um dos pontos fortes desta ferramenta é a grande variedade de argumentos que podem ser usados para personalizar o comando e consequentemente o resultado obtido.

Na Listagem2.2podemos ver dois comandos: o primeiro indexa as reads e gera dois ficheiros, um com as sequências mapeadas, outro com as sequências não mapeadas; enquanto que o segundo comando cria um ficheiro SAM com toda a informação sobre do mapeamento.

1 bowtie2 -x <index> -U <reads> --un unmapped.fq --al mapped.fq

2 bowtie2 -x <index> -U <reads> -S hits.sam

Listagem 2.2: Exemplo dos comandos bowtie para alinhamento e mapeamento de ficheiros

6_{https://github.com/nunofonseca/irap} 7_{www.dcc.fc.up.pt/ nf/resources.html} 8_{http://bowtie-bio.sourceforge.net/}

Conceitos Básicos de Biologia Molecular e Tecnologias Usadas

Para além de alinhar sequências biológicas, o Bowtie possui também um módulo de indexação de ficheiros. Este módulo, bowtie-build indexer recebe um ficheiro de input do formato FASTA e gera um ficheiro índice. Os ficheiros índice servem tanto para referência para alinhamentos de elevado peso computacional como para a pesquisa rápida de reads em qualquer parte do ficheiro original.

Na Listagem2.3 encontramos o comando para criar um índice. Para tal, é necessário que o ficheiro de input esteja no formato FASTA, e resulta na criação de seis ficheiros BT2 (formato dos ficheiros índice) que servem como um único índice.

1 bowtie2-build <input_fasta_file> <index_name>

Listagem 2.3: Exemplo do comando bowtie para criar um índice

BLAST

O BLAST9, Basic Local Alignment Search Tool, é um algoritmo que permite a identificação de regiões de semelhança entre sequências biológicas primárias tais como aminoácidos, proteínas ou nucleotídeos, calculando estatísticas de significância dos alinhamentos.

O BLAST utiliza um método heurístico, tal como o FASTA, mas consegue ser mais rápido e igualmente sensível na deteção de similaridades. Recorre à consulta de bibliotecas ou base de dados para comparar sequências identificando as que estão acima de um determinado grau de se- melhança, o que pode não resultar numa solução ótima ao contrário de algoritmos de programação dinâmica.

O algoritmo FASTA encontra curtos padrões comuns em sequências e tenta consultar a base de dados para os associar a um alinhamento. O BLAST é semelhante ao FASTA, mas torna-se mais rápido pois procura apenas os padrões mais raros e mais significativos nas sequências de aminoácidos, nucleotídeos e proteínas.

Este algoritmo tornou-se muito popular devido à sua disponibilidade na Internet através do Centro Nacional de Informações sobre Biotecnologia (NCBI) entre outros locais, tendo evoluído bastante para fornecer aos biólogos moleculares um conjunto de ferramentas de pesquisa podero- sas que estão disponíveis de forma gratuita [Mou07].

TopHat

O TopHat10 é outra ferramenta proveniente da Johns Hopkins University, bastante similar ao Bowtiemas diferencia-se especialmente por ter bastante sucesso na identificação de splice11[CT09] em cadeias de ARN na análise dos resultados de mapeamento de sequências. Esta ferramenta de

9_{https://blast.ncbi.nlm.nih.gov/Blast.cgi} 10_{https://ccb.jhu.edu/software/tophat/}

11_{processo que remove os intrões e junta os exões depois da transcrição do ARN}

Conceitos Básicos de Biologia Molecular e Tecnologias Usadas

alinhamento de short-reads é bastante configurável e é normalmente usada em conjunto com o Bowtiepois são complementares.

Cufflinks

O Cufflinks12 é uma ferramenta que monta transcrições, estima a sua abundância e testa ex- pressões e regulações diferenciais em amostras de RNA-seq. Tendo como input sequências alinhadas, o Cufflinks monta os alinhamentos num conjunto parcimonioso de transcrições, estimando a abundância relativa destas baseado na quantidade de reads que as suportam, tendo em conta os preconceitos nos protocolos de preparação da biblioteca.

STAR

Muitos dos alinhadores de RNA-seq previamente descritos foram desenvolvidos como exten- sões de mapeadores de short-reads contíguas (ADN) que são usados para alinhar short-reads a uma base de dados de junções de splice ou alinhar porções de reads divididas de forma contígua a um genoma de referência ou uma combinação destas. Em contraste com essas abordagens, o STAR13foi projetado para alinhar as sequências não contíguas diretamente ao genoma de referên- cia. O algoritmo STAR consiste em duas etapas principais: etapa de pesquisa de seeds e etapa de agrupamento/costura/pontuação.

Na primeira etapa é feita uma pesquisa sequencial de um Prefixo Máximo Mapeável (MMP), isto é, dada uma read ’L’ com uma determinada localização ’m’ e um genoma de referência ’G’, o ’MMP (L,m,G)’ é definido como a maior subsequência de ’(Lm,Lm+1,..., Lm+MML-1)’ que cor- responde exatamente a uma ou mais substrings de ’G’, em que ’MML’ é o Comprimento Máximo Mapeável, como é visível na Figura2.4.

Na segunda etapa são construídos alinhamentos de toda a sequência lida, unindo todas as se- edsque foram alinhadas ao genoma na primeira fase. Primeiramente as seeds são agrupadas pela proximidade de um conjunto selecionado de seeds, após o qual todas as seeds que foram mapeadas dentro da zona genómica das selecionadas são costuradas juntas, assumindo um modelo de trans- crição linear local. Por fim, é atribuída uma pontuação a partir de um esquema de alinhamento local com pontuações definidas pelo utilizador para correspondências, desemparelhamentos, inser- ções, exclusões e lacunas de junções de splice, permitindo uma avaliação quantitativa da qualidade e classificação do alinhamento [AD13].

SortMeRNA

O SortMeRNA14é uma ferramenta de alinhamento de sequências para filtragem, mapeamento e

12_{http://cole-trapnell-lab.github.io/cufflinks/} 13_{https://github.com/alexdobin/STAR} 14_{http://bioinfo.lifl.fr/RNA/sortmerna/}

Conceitos Básicos de Biologia Molecular e Tecnologias Usadas

Figura 2.4: Representação esquemática da pesquisa do Prefixo Máximo Mapeável no algoritmo STARpara detetar (a) junções de splice,(b) incompatibilidades e (c) caudas [AD13]

armazenamento em cluster. Tal como o STAR o algoritmo principal é baseado na aproximação de seedspermitindo a análise detalhada de reads NGS.

A principal aplicação do SortMeRNA é a filtragem de ARN ribossômico a partir de dados metatranscriptómicos. Para tal a ferramenta recebe como input sequências no formato FASTA ou FASTQ e um ou vários ficheiros de dados de ARN ribossómico, classificando as reads alinhadas e rejeitadas em dois ficheiros diferentes.

No documento Identificação Patogénica em Células Humanas Cancerígenas (páginas 31-34)