RELATÓRIO TÉCNICO - CIENTÍFICO

(1)

1 UNIVERSIDADE FEDERAL DO PARÁ

PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO DIRETORIA DE PESQUISA

PROGRAMA INSTITUCIONAL DE BOLSAS DE INICIAÇÃO CIENTÍFICA – PIBIC : CNPq, CNPq/AF, UFPA, UFPA/AF, PIBIC/INTERIOR, PARD, PIAD, PIBIT, PADRC E FAPESPA

RELATÓRIO TÉCNICO - CIENTÍFICO Período: Agosto/2014 a Julho/2015

( ) PARCIAL (X) FINAL

Título do Projeto de Pesquisa: Análise da genômica funcional de Corynebacterium pseudotuberculosis

biotipos ovis e equi sob diferentes condições de estresse biologicamente relevantes.

Nome do Orientador: Rommel Thiago Jucá Ramos Titulação do Orientador: Doutor

Faculdade: Faculdade de Biotecnologia

Instituto/Núcleo: Instituto de Ciências Biológicas Laboratório: Centro de

Título do Plano de Trabalho : Desenvolver um algoritmo para a montagem de genomas sequenciados pela plataforma Ion Torrent PGM.

Nome do Bolsista: Diego Magalhães de Melo Tipo de Bolsa : (X) PIBIC/ CNPq

(2)

2 1. Introdução

Um genoma consiste no conjunto de informações presentes no DNA de um determinado organismo (PROSDOCIMI, 2007). O estudo do genoma visa o conhecimento amplo da estrutura e função de genes, tornando possível a realização de pesquisas sobre diversos organismos: eucariotos, arqueias e procariotos, como a bactérias patogênicas Corynebacterium pseudotuberculosis, esta espécie é um patógeno intracelular facultativo que causa a linfadenite caseosa (LCA) em caprinos e ovinos, linfangite ulcerativa em equinos, abscessos superficiais em bovinos, suínos, cervos e animais de laboratório, artrites e bursites em ovinos, abscessos de peito em equinos e mais raramente em camelos, caprinos e cervos (KURIA et al., 2001). Apesar da sua importância na saúde animal, seus mecanismos patogênicos são pouco caracterizados tornando um alvo para o sequenciamento genômico (CEBIO, 2014).

Os primeiros métodos de sequenciamento foram desenvolvidos na década de 1970, sendo os pioneiros: “mais e menos” (SANGER; COULSON, 1975), método por degradação química (MAXAM; GILBERT, 1977) e o de terminação de cadeia ou Dideoxi (SANGER et al., 1977), revolucionando as ciências biológicas, pois possibilitaram a decodificação de genes e posteriormente de genomas completos (SCHUSTER, 2008). Estas plataformas são caracterizadas por apresentar um elevado custo e limitada capacidade de sequenciamento, diversas limitações foram superadas com o surgimento de plataformas de sequenciamento de segunda geração. Tais plataformas não necessitam da etapa de clonagem gênica, conseguem efetuar o sequenciamento completo de genomas procariotos, gerando grande quantidade de dados com redução de custos e tempo de sequenciamento, quando comparados ao método de Sanger. (SCHUSTER, 2008; LAM et al., 2012).

Como evolução dos sequenciadores de segunda geração, surgiram os sequenciadores de terceira geração, tais como PacBio RS System e Oxford Nanopore, que realizam o sequenciamento da molécula de DNA e RNA e a plataforma Ion Torrent PGM que o faz sem a utilização de fluorescência (THOMPSON et al., 2011; HENSON et al., 2012; EISENSTEIN, 2012), esta deu início ao sequenciamento pós-luz. O sequenciamento de genomas é o primeiro passo para obter uma caracterização de organismo, seguido pela montagem dos fragmentos de DNA obtidos neste processo.

(3)

3 2. Justificativa

A adoção dos sequenciadores high-throughput proporcionou o aumento de projetos de sequenciamento de genomas e transcriptomas completos e devido as características dos dados produzidos por estas plataformas novos algoritmos de montagem tiveram que ser desenvolvidos para manusear essa grande quantidade de dados em sua maioria compostos de leituras curtas. As plataformas de sequenciamento Ion Torrent apresentam características especificas que dificultam o processo de montagem, assim, desenvolver um algoritmo para atuar especificamente em dados produzidos por esta plataforma representa uma importância relevante a comunidade científica e ao projeto de sequenciamento de genomas de Corynebacterium pseudotuberculosis, considerando que ainda há a previsão do sequenciamento de cerca de 20 genomas desta espécie no ano de 2015, e que o Ion Torrent PGM é um dos que apresenta os menores custos de sequenciamento.

3. Objetivo Geral

Desenvolver um algoritmo capaz de realizar a montagem de genomas sequenciados pela plataforma Ion Torrent PGM.

4. Objetivos Específicos

Revisar a bibliografia quanto as principais metodologias de montagem de genomas a partir de leituras longas;

Avaliar os métodos de montagem e identificar o que apresenta melhores resultados; Desenvolver o algoritmo para a montagem;

Realizar a montagem de um genoma utilizando o software desenvolvido neste trabalho.

5. Material e Métodos

5.1 Sequências de teste

Os dados de teste foram obtidos a partir do banco de dados SRA (http://www.ncbi.nlm.nih.gov/sra), onde selecionou-se apenas sequências oriundas da plataforma Ion Torrent PGM ou Ion Torrent Proton em formato FastQ.

5.2 Ambiente Computacional

(4)

4 5.3 Algoritmo de Montagem

A ferramenta utiliza um algoritmo para realizar o tratamento das leituras obtidas através do banco de dados SRA, antes de serem repassadas ao algoritmo de montagem, estas leituras são divididas em conjuntos de tamanhos menores denominados k-mer’s, o sistema permite ao usuário decidir qual o tamanho de k-mer deseja utilizar. O algoritmo de tratamento realiza um pré-processamento destes dados analisando cada k-mer, afim de determinar informações importantes acerca destes, tais como, frequência, conteúdo GC e cobertura, gerando uma pontuação para cada k-mer, baseada nessas informações. Estes dados serão armazenados no banco de dados NoSQL Apache Cassandra (http://cassandra.apache.org/), criado para dar auxilio ao sistema no momento da montagem do grafo.

O Grafo de DeBruijn foi utilizado na implementação do algoritmo devido a sua eficiência e baixa complexidade na construção do grafo. A linguagem de programação Java (https://www.oracle.com/java) em conjunto com biblioteca JUNG Graph (http://jung.sourceforge.net/) foi utilizada para a implementação do grafo de montagem. O banco de dados NoSQL Apache Cassandra (http://cassandra.apache.org/), foi utilizado com o objetivo de armazenar os dados necessários para realizar a montagem, pois provem métodos de acesso aos dados de forma mais rápida, reduzindo o tempo de execução do algoritmo e auxiliando na montagem do grafo.

5.3.1 Montagem do Grafo

Com as informações já depositadas no banco de dados NoSQL Apache Cassandra, o algoritmo montará o grafo baseando-se na sobreposição entre os k-mer’s, transformando o valor de cada k-mer em um vértice do grafo, a sobreposição entre dois k-mer’s em uma aresta entre estes e armazenando o vértice inicial de cada caminho do grafo. Após a montagem do grafo, é realizado a verificação dos caminhos contendo regiões repetitivas (Figura 1), durante esta verificação o algoritmo tem o objetivo de identificar e corrigir estas regiões.

(5)

5 5.3.2 Geração de Contig’s.

Após a eliminação das regiões repetitivas, o software realiza a leitura completa do grafo partindo dos vértices iniciais de cada caminho e somando o valor da sobreposição do k-mer contido em cada vértice, ao chegar no vértice final de um caminho, o sistema gera um contig baseado nas informações coletadas no decorrer do caminho, esta ação pode ser observada através da figura 2.

Figura 2 – Contig gerado a partir de um caminho do grafo.

Ao final da leitura de todos os caminhos contidos no grafo, o sistema gera um arquivo contendo todos os contig’s montados a partir das informações presentes no arquivo de leituras provenientes de um sequenciamento.

5.4 Avaliação dos resultados

(6)

6 6. Resultados

O algoritmo desenvolvido é capaz de reconhecer e utilizar em seu processamento, arquivos de leituras no formato FastQ e Fasta.

Identificou-se durante a realização de testes utilizando um arquivo reduzido de leituras, que o algoritmo conseguiu identificar todas as sobreposições possíveis entre os k-mer’s gerados a partir das leituras.

O arquivo gerado pelo algoritmo, contendo a estrutura já montada do grafo, permitiu a visualização de regiões de repetição e regiões de múltiplos caminhos, através do software CytoScape (http://cytoscape.org), sendo de grande importância no desenvolvimento de métodos para a correção destas regiões.

Após a finalização da montagem do grafo, o algoritmo identificou e corrigiu todas as regiões consideradas repetitivas, gerando um grafo mais simples e aproveitando ao máximo as informações obtidas das leituras, permitindo que a varredura do grafo pudesse ser feita em um espaço de tempo mais curto e gerando informações mais confiáveis.

7. Conclusão

(7)

7 Referências Bibliográficas

1. EISENSTEIN M. 2012 Oxford Nanopore announcement sets sequencing sector abuzz. Nature biotechnology 30: 295– 296.

2. HENSON J, TISCHLER G & NING Z. 2012. Next-generation sequencing and large genome assemblies. Pharmacogenomics 901–915.

3. KURIA, J.K., MBUTHIA, P.G., KANG’ETHE, E.K., WAHOME, R.G. Caseous lymphadenitis in goats: the pathogenesis, incubation periods and serological response after experimental infection. Veterinary Research Communications, v.25, p.89-97, 2001.

4. LOMAN, N.J., et al., 2012. Performance comparison of benchtop high-throughput sequencing platforms. Nature Biotechnology. 30, 434-9

5. MAXAM, A.M., GILBERT, W., 1977. A new method for sequencing DNA. Proc. Natl. Acad. Sci. USA 74, 560-564. 6. MILLER JR, KOREN S & SUTTON G. 2010. Assembly algorithms for next-generation sequencing data. Genomics

95: 315– 327.

7. PROSDOCIMI, F. Introdução à Bioinformática. Curso Online, Brasília-DF. 2007. Disponível em: < http://www2.bioqmed.ufrj.br/prosdocimi/FProsdocimi07_CursoBioinfo.pdf> Acesso em: 25 de dez. 2014.

8. SANGER, F., COULSON, A.R., 1975. A rapid method for determining sequences in DNA by primed synthesis with DNA polymerase. J. Mol. Biology. 94, 441-448

9. SANGER, F., et al.1977. DNA sequencing with chain-terminating inhibitors. PNAS. 74, 5463-5467.

10. Schuster, Stephan C, 2008. Next-generation sequencing transforms today’s biology. Nature Methods. 5, 16-18. 11. THOMPSON JF & MILOS PM. 2011. The properties and applications of single molecule DNA sequencing. Genome

biology 12: 217.

(8)

8 PARECER DO ORIENTADOR: DATA : ______/_________/________ _________________________________________ ASSINATURA DO ORIENTADOR ____________________________________________ ASSINATURA DO ALUNO

INFORMAÇÕES ADICIONAIS: Em caso de aluno concluinte, informar o destino do mesmo após a