Universidade de Brasília

(1)

Universidade de Bras´ılia

Instituto de Ciências Exatas Departamento de Ciência da Computa¸cão

Pipelines para transcritomas obtidos por sequenciadores de alto desempenho

Paulo Antonio Alvarez

Monografia apresentada como requisito parcial para conclus ão do Bacharelado em Ciência da Computaç ão

Orientadora

Prof.^aMaria Em´ılia Machado Telles Walter

Bras´ılia

2009

(2)

Universidade de Bras´ılia — UnB Instituto de Ciˆencias Exatas

Departamento de Ciência da Computaç ão Bacharelado em Ciência da Computaç ão

Coordenador: Prof. Marcus Vinicius Lamar

Banca examinadora composta por:

Prof.âMaria Em´ılia Machado Telles Walter (Orientadora) — CIC/UnB Prof.âCélia Ghedini Ralha — CIC/UnB

Prof. Marcelo de Macedo Br´ıgido — IB/UnB

CIP — Catalogaç ão Internacional na Publicaç ão

Alvarez, Paulo Antonio.

Pipelines para transcritomas obtidos por sequenciadores de alto desempenho / Paulo Antonio Alvarez. Bras´ılia : UnB, 2009.

61 p. : il. ; 29,5 cm.

Monografia (Graduac¸ ˜ao) — Universidade de Bras´ılia, Bras´ılia, 2009.

1. Sequenciadores de alto desempenho, 2. Projetos Genoma, 3. M´etodos Computacionais, 4.pipeline

CDU 004

Enderec¸o: Universidade de Bras´ılia

Campus Universit ´ario Darcy Ribeiro — Asa Norte CEP 70910-900

Bras´ılia–DF — Brasil

(3)

Universidade de Bras´ılia

Instituto de Ciências Exatas Departamento de Ciência da Computa¸cão

Pipelines para transcritomas obtidos por sequenciadores de alto desempenho

Paulo Antonio Alvarez

Monografia apresentada como requisito parcial para conclus ão do Bacharelado em Ciência da Computaç ão

Prof.^a Maria Em´ılia Machado Telles Walter (Orientadora) CIC/UnB

Prof.^a C´elia Ghedini Ralha Prof. Marcelo de Macedo Br´ıgido

CIC/UnB IB/UnB

Prof. Marcus Vinicius Lamar

Coordenador do Bacharelado em Ciência da Computaç ão

Bras´ılia, 14 de dezembro de 2009

(4)

Dedicat ´ oria

Dedico este trabalho aos meus pais e a minha fam´ılia.

(5)

Agradecimentos

Agradec¸o a minha orientadora pelo apoio durante o desenvolvimento deste projeto.

(6)

Resumo

Neste trabalho propusemos e implementamos um protótipo depipelinede software para projetos transcritoma utilizando dados provenientes de sequenciadores de alto desempenho. O pipeline foi desenvolvido utilizando a linguagem Java e o sistema gerenciador de banco de dados PostgreSQL, sendo executado através da linha de comando e configurado por meio da ediç ão de arquivos de properties. O estudo de caso feito com o pipeline envolveu dados de Salmonella enterica obtidos por meio do sequenciador 454/Roche. Opipelinecompleto executou em menos de duas horas, com arquivos iniciais totalizando cerca de 400000 sequências. O filtro da montagem selecionou cerca de 92000 sequências agrupadas em cerca de 23000 grupos (contigs esinglets). Foram anotados cerca de 17000 grupos utilizando BLAST com o banco de dados KOG.

Palavras-chave: Sequenciadores de alto desempenho, Projetos Genoma, M´etodos Computacionais,pipeline

(7)

Abstract

In this work we propose and implement a software pipeline prototipe for transcrip- tome projects using data from high throughput DNA sequencers. The pipeline was developed using the Java programming language and the database management system PostgreSQL, it runs through the command line and is configured by means of editing properties files. The test case was developed with data fromSalmonella enterica obtained by the sequencer 454/Roche. The pipeline executed in less than two hours, with its inicial files providing about 400000 sequences. The assembly fil- ter select around 92000 sequences, which originated around 23000 groups(singlets and contigs). Around 17000 groups were annotated using BLAST against the KOG database.

Keywords: Next generation sequencers, Genome Projects, Computational Meth- ods, pipeline

(8)

Sum ´ ario

Lista de Figuras 10

Lista de Tabelas 11

1 Introduc¸ ˜ao 12

1.1 Contextualizac¸ ˜ao . . . 12

1.2 Problema . . . 14

1.3 Hip´oteses . . . 14

1.4 Objetivos . . . 14

1.5 Descric¸˜oes dos Cap´ıtulos . . . 15

2 Conceitos B ´asicos em Biologia Molecular 16 2.1 Vida . . . 16

2.2 Prote´ınas . . . 17

2.3 Acidos nucl´eicos . . . .´ 21

2.3.1 DNA . . . 21

2.3.2 RNA . . . 24

2.4 Genes e cromossomos . . . 24

2.5 Dogma central da Biologia Molecular . . . 25

2.6 Bioinform ´atica . . . 26

2.6.1 Pipelinede um projeto de sequenciamento . . . 27

2.6.2 Pipelinepara um projeto de sequenciamento Sanger . . . 28

2.6.3 Projetos transcritoma . . . 29

3 Sequenciadores Massivamente Paralelos 31 3.1 454-FLX Roche . . . 31

3.2 Illumina Solexa . . . 34

4 Softwares epipelinespara Sequenciadores Massivamente Paralelos 37 4.1 Softwares para submiss ˜ao . . . 37

4.1.1 Software para submiss ˜ao do sequenciador 454 . . . 37

4.1.2 Software para submiss ˜ao do sequenciador Illumina . . . 41

4.2 Softwares para mapeamento . . . 41

4.3 Softwares para montagem . . . 42

4.4 Softwares para anotac¸ ˜ao . . . 45

4.5 Pipelinespara sequenciadores de alto desempenho . . . 47

(9)

5 Proposta depipelinepara o Sequenciador 454 e Estudo de Caso 49

5.1 Estrutura geral dopipeline. . . 49

5.1.1 Subsistema de submiss ˜ao . . . 50

5.1.2 Subsistema de mapeamento . . . 51

5.1.3 Subsistema de montagem . . . 52

5.1.4 Subsistema de anotac¸ ˜ao . . . 52

5.2 Detalhes t´ecnicos . . . 53

5.2.1 A camada de persistˆencia . . . 53

5.2.2 Armazenamento de informac¸˜oes . . . 54

5.3 Aplicac¸ ˜ao dopipelinecom dados deSalmonella enterica . . . 55

6 Conclus ˜oes e Trabalhos Futuros 57

Refer ˆencias 59

(10)

Lista de Figuras

2.1 Estrutura geral dos amino ácidos . . . 17 2.2 Ligaç ão pept´ıdica entre dois amino ácidos. . . 18 2.3 Os diversos n´ıveis estruturais de uma prote´ına, sendo mostradas em

azul as seções correspondentes entre cada n´ıvel. . . 19 2.4 Estrutura dos 20 amino ácidos encontrados na natureza. . . 20 2.5 Representaç ão esquem ática da estrutura de um nucleot´ıdeo, mos-

trando seus principais componentes: aç úcar, fosfato e base. . . 21 2.6 Os aç úcares encontrados nos ácidos nucléicos. S ão mostradas as

numerações dos átomos de carbono e destacados os carbonos 3 e 5, através das quais uma orientaç ão dos ácidos nucléicos pode ser obtida. 22 2.7 Estrutura espacial das moléculas de DNA e RNA, em conjunto com a

estrutura qu´ımica das bases nitrogenadas . . . 23 2.8 Associaç ão entre trincas de bases (códons) e amino ácidos. Consulte

a Figura 2.4 para a ligaç ão entre o código de três letras e o nome e estrutura dos amino ácidos. . . 25 3.1 Processo de sequenciamento utilizado pelo sequenciador 454/Roche [19] 33 3.2 Vis ão esquem ática do processo de amplificaç ão do DNA utilizado pelo

sequenciador Illumina/Solexa [19]. . . 35 3.3 Processo de determinac¸ ˜ao de uma base do sequenciador Illumina/Solexa [19]. 36 4.1 Exemplo de grafos dede Bruijne o relacionamento entre eles. . . 46 4.2 Pipeline de software para novos sequenciadores com a fase de mape-

amento. . . 48 4.3 Pipeline de software para novos sequenciadores sem a fase de mape-

amento. . . 48 4.4 Pipeline de software para novos sequenciadores com as fases de sub-

miss ão, mapeamento e anotaç ão. . . 48 5.1 Diagrama esquem ático mostrando o fluxo das informações pelopipe-

linee os programas utilizados em cada fase. . . 50 5.2 Hierarquia das classes b ´asicas de comando utilizadas na camada de

persistˆencia . . . 54 5.3 Tabelas utilizadas no prot´otipo depipeline desenvolvido . . . 55

(11)

Lista de Tabelas

4.1 Lista de programas de mapeamento e respectivos endereços web onde mais informações podem ser obtidas (Adaptado de [29]). . . 42 4.2 Tabela com dados de montadores para sequenciadores massivamente

paralelos. . . 44 5.1 N ´umero de sequˆencias tratadas em cada etapa do pipeline e tempo

necess ário para execuç ão de cada etapa. . . 56

(12)

Cap´ıtulo 1 Introduc¸ ˜ ao

A descoberta da estrutura espacial da mol´ecula de DNA por Watson e Crick [32]

abriu novos horizontes para as ciˆencias da vida, em especial no que tange ao entendimento das diversas caracter´ısticas em n´ıvel molecular dos seres vivos no mundo.

Como um repositório das informações necess árias à construç ão de prote´ınas de um dado organismo, o DNA assumiu um papel central em pesquisas biológicas, e pro- piciou o surgimento de diversas novas disciplinas, entre elas a Biologia Molecular.

A Biologia Molecular busca explicar os fenˆomenos gen´eticos em termos das leis qu´ımicas e f´ısicas conhecidas [30].

1.1 Contextualizac¸ ˜ ao

A partir dos estudos feitos em Biologia Molecular, verificou-se que as informações necess árias à s´ıntese de prote´ınas em um dado organismo est ão armazenadas no seu DNA, e a passagem do DNA de geraç ão a geraç ão permite que as espécies se mantenham essencialmente inalteradas com o passar do tempo. Dessa forma, a determinaç ão da informaç ão contida no DNA tornou-se um importante meio no estudo das caracter´ısticas dos seres vivos.

Para descobrir a informaç ão armazenada no DNA deve-se identificar a sua sequência de bases, o que é feito por meio de técnicas de sequenciamento. No entanto, o trabalho envolvido na determinaç ão de tais bases é, em geral, muito grande. Assim, para a determinaç ão das bases do DNA de um organismo s ão constitu´ıdos os projetos genoma, formados por equipes de diversas áreas com o objetivo comum de decodificar e analisar a informaç ão presente no DNA. Atualmente, mais de 1000 projetos genoma foram conclu´ıdos e aproximadamente 6000 est ão em an- damento, o que mostra a grande import ância do estudo das informações contidas no DNA [12].

Entre os diversos projetos genoma j á conclu´ıdos, podemos destacar o Projeto Genoma Humano (PGH), uma iniciativa no sentido de determinar todos os pares de bases do DNA humano. Após nove anos de trabalho envolvendo diversas or- ganizações e pa´ıses, em 2001 foi publicado um rascunho do genoma humano pelo Consórcio Genoma Humano [3] [9]. Além de ter estimulado um grande desenvolvimento das técnicas de sequenciamento de DNA, o PGH impulsionou uma série de outros projetos genoma, com o objetivo de estudar organismos similares ao humano

(13)

e/ou com caracter´ısticas significativas dentro de uma determinada classificaç ão ta- xonômica.

No Brasil, o primeiro projeto genoma conclu´ıdo com sucesso foi o sequenciamen- to do genoma completo da bactériaXylella fastidiosa[8], causadora de uma doença em plantas conhecida como amarelinho com enormes preju´ızos na cultura de la- ranja, cerca de 30% dos laranjais paulistas s ão afetados por essa doença. No caso espec´ıfico da Regi ão Centro-Oeste, um grande impulso foi dado com a implantaç ão do projeto Rede Genoma Centro-Oeste. Este projeto foi submetido ao MCT/CNPq, tendo sido aprovado como uma das oito unidades regionais brasileiras para o sequenciamento de genomas. Foi iniciado em 2001 e conclu´ıdo em 2004, tanto em relaç ão aos experimentos realizados nos laboratórios de biologia molecular quanto no tocante ao desenvolvimento de um sistema computacional para armazenamento e tratamento das informações biológicas.

Até recentemente, os projetos genoma utilizavam principalmente a técnica de sequenciamento Sanger, assim nomeada em homenagem a Frederick Sanger, cria- dor da técnica [25]. Nesta técnica, a molécula de DNA é primeiramente fragmen- tada em diversos pedaços. Após isso, s ão feitas diversas cópias dos fragmentos de DNA, seja por meio de reações qu´ımicas envolvendo diversas enzimas ou inserindo o fragmento desejado de DNA em v´ırus ou bactérias e utilizando a capacidade re- produtiva dos mesmos para a realizaç ão das diversas cópias necess árias [26]. Após isso, uma técnica conhecida como gel eletroforese é utilizada para a determinaç ão das bases de DNA. Esta última técnica é automatizada, permitindo a determinaç ão das bases de maneira r ápida e menos sujeita a erros. Uma vantagem do sequenciamento Sanger é o tamanho dos fragmentos que podem ser sequenciados de cada vez, que pode chegar a até 1000 bases.

Durante décadas, esta foi praticamente a única técnica utilizada nestes projetos. Apesar de ser uma técnica relativamente barata, custando apenas US$ 0,001 para cada base sequenciada [28], este custo se torna proibitivo quando se tenta sequenciar genomas muito grandes, da ordem de bilhões de bases de DNA. Como em geral o sequenciamento de DNA é feito mais de uma vez, o custo desses projetos se torna muito alto para ser vi ável com sequenciamento Sanger. Assim, a comunidade cient´ıfica percebeu a necessidade de um novo método mais barato de sequenciamento.

Recentemente, novos sequenciadores de alto desempenho surgiram para aten- der a esta necessidade. Estes sequenciadores produzem uma quantidade imensa de dados, a uma fraç ão do custo dos sequenciadores Sanger, por exemplo, labo- ratórios cobram US$ 0,0002 para cada base obtida com o sequenciador 454. Elas obtém tal desempenho ao realizar o sequenciamento de milhões de sequências de DNA em paralelo, utilizando uma série diversas de técnicas, tais como pirosequenciamento e sequenciamento por s´ıntese. Como exemplos desses sequenciadores de alto desempenho podemos citar o 454-FLX da Roche, o Illumina da Solexa, e o So- lid. Atualmente, o Brasil dispõe de quatro sequenciadores de alto desempenho, sendo um 454 em S ão Paulo, outro em Bras´ılia e um último no LNCC(RJ), e um Illumina localizado em Bras´ılia.

Diversos projetos cient´ıficos est ˜ao sendo montados para fazer uso desta nova tecnologia e assim permitir o desenvolvimento de vacinas e rem´edios, aumento

(14)

da produtividade na agricultura e pecu ária e uma melhor compreens ão sobre as caracter´ısticas biológicas de diversos seres vivos de interesse.

Nesse contexto, a criaç ão de umpipelinepara realizar o processamento de dados dos novos sequenciadores ajudaria tais projetos a obter resultados mais confi áveis em um espaço de tempo menor, melhorando assim o uso dos recursos.

1.2 Problema

O uso dos novos sequenciadores abre diversas fronteiras para a pesquisa biológica derivada do sequenciamento de DNA. No entanto, os dados produzidos por tais sequenciadores possuem caracter´ısticas muito diversas dos dados oriundos dos sequenciadores Sanger, tornando muito dif´ıcil a adaptaç ão dos programas utilizados em an álise computacional de dados de sequenciadores Sanger. Mesmo assim, o baixo custo e a grande quantidades de dados s ão motivos suficientemente fortes para o desenvolvimento de novos métodos para processamento desses dados, e de fato, diversos programas para tratamento de sequências dos novos sequenciadores j á foram desenvolvidos.

1.3 Hip ´ oteses

Como os novos sequenciadores permitem um custo mais baixo de sequenciamento, espera-se um grande aumento na quantidade de dados a serem processados por sistemas de bioinform ´atica. Com o sequenciamento paralelo, a quantidade de dados de sequenciamento produzida por unidade de tempo tamb´em tende a aumentar.

Dadas essas considerações, é improv ável um processamento eficaz deste enorme volume de dados gerados em um tempo menor, por meio de programas seriais ou sistemas baseados em processamento serial. De fato, assumimos como hipótese que nas diferentes fases de processamento das sequências biológicas produzidas dever ão ser adotadas técnicas de processamento paralelo e/ou distribu´ıdo para a an álise dos dados em tempo h ábil. Além disso, o armazenamento e recuperaç ão de dados nesse novo contexto deve ser repensado.

1.4 Objetivos

Nesse contexto, nosso objetivo é a criaç ão de um protótipo de pipeline de software para an álise de transcritomas produzidos por sequenciadores de alto desempenho.

Tal pipeline ser á aplicado nos dados produzidos pelos sequenciadores 454 e Illu- mina, recentemente adquiridos pela Fundaç ão de Apoio à Pesquisa do Distrito Fe- deral (FAP-DF). Após a conclus ão de tal trabalho, objetivamos a escrita de um ar- tigo cientif´ıco junto aos biológos da Universidade de Bras´ılia (UnB) para estender o conhecimento cient´ıfico neste novo ramo de pesquisas.

(15)

1.5 Descric¸ ˜ oes dos Cap´ıtulos

No Cap´ıtulo 2 apresentamos os diversos conceitos de Biologia Molecular necess á- rios ao desenvolvimento do presente trabalho e expomos os principais aspectos da bioinform ática, a disciplina espec´ıfica onde este trabalho se encontra. Além disso detalhamos alguns tipos de projetos de sequenciamento onde este trabalho ser á aplicado.

A seguir o Cap´ıtulo 3 mostra de forma resumida o funcionamento de alguns dos novos sequenciadores, apontando caracter´ısticas espec´ıficas advindas do m´etodo utilizado por cada um.

Para realizar a montagem dopipeline, ´e necess ´ario utilizar ou adaptar softwares para realizar o processamento dos dados dos sequenciadores de alto desempenho.

No Cap´ıtulo 4 analisamos os diversos softwares dispon´ıveis na literatura. Al´em disso, apresentamos o m´etodo de pipeline a ser adotado no projeto de genomas baseado em sequenciadores de alto desempenho.

O Cap´ıtulo 5 apresenta a estrutura dopipelinee sua aplicaç ão em um estudo de caso feito a partir de sequências deSalmonella obtidas com o sequenciador 454.

Por fim no Cap´ıtulo 6 apresentamos as conclus˜oes e trabalhos futuros.

(16)

Cap´ıtulo 2

Conceitos B ´ asicos em Biologia Molecular

Neste cap´ıtulo ser ão definidos os conceitos b ásicos de biologia molecular necess ários ao entendimento deste trabalho. A Seç ão 2.1 discute de forma breve o conceito de vida e apresenta as motivações para o estudo dos conceitos expostos nas próximas seções. A Seç ão 2.2 apresenta os principais conceitos referentes às prote´ınas em um ser vivo, enfatizando o importante papel exercido pelas mesmas. Na Seç ão 2.3, s ão apresentados os conceitos importantes relativos a ácidos nucléicos e detalhados os dois principais ácidos encontrados nos seres vivos, o DNA e o RNA. A Seç ão 2.4, define genes e apresenta o código genético utilizado na traduç ão das bases do DNA em prote´ınas. Na Seç ão 2.5 é exposto o dogma central da biologia molecular, ou o processo através do qual as informações contidas no DNA s ão utilizadas para a s´ıntese de prote´ınas. Finalmente, a Seç ão 2.6 detalha os conceitos relativos à Bioinform ática, área onde este trabalho se insere.

2.1 Vida

De acordo com pesquisas, a vida na Terra comec¸ou a cerca de 3,5 bilh˜oes de anos.

Desde ent ão, os seres vivos vêm sofrendo constantes mutações devido a um processo chamado evoluç ão, onde os mesmos tentam se adaptar às condições do ambiente [5]. Mas o que é a vida, como podemos defin´ı-la? De maneira muito simplista, neste trabalho diremos que todo ser que troca constantemente matéria e energia com o ambiente est á vivo. Embora imperfeita, tal definiç ão servir á a todos os nos- sos propósitos.

Apesar das formas de vida variarem muito em tamanho e complexidade, todas possuem uma qu´ımica molecular b ásica, ou bioqu´ımica. Os principais componentes desta qu´ımica s ão as prote´ınas e os ácidos nucléicos. As prote´ınas realizam diversas funções necess árias à manutenç ão da vida, como catalisaç ão de reações e transporte de nutrientes, entre muitas outras. J á os ácidos nucléicos contém a informaç ão necess ária para a s´ıntese de prote´ınas e a passagem dessa informaç ão de geraç ão para geraç ão permite que as espécies permaneçam essencialmente inalteradas por longos per´ıodos de tempo.

A seguir discutiremos em mais detalhes esses componentes essenciais `a vida.

(17)

2.2 Prote´ınas

As prote´ınas s ão pol´ımeros (moléculas grandes formadas pelo encadeamento de moléculas mais simples) com uma gama muito vasta de funções nos seres vivos, variando desde o transporte de nutrientes e eliminaç ão de res´ıduos tóxicos, até a construç ão de estruturas complexas. Além disso, prote´ınas chamadas enzimas s ão respons áveis por catalisar, ou acelerar, a ocorrência de reações qu´ımicas necess árias à vida. Sem essas enzimas, diversas reações importantes a manutenç ão da vida ocorreriam muito lentamente, encerrando-a completamente. Como se vê, as funções das prote´ınas s ão essenciais a manutenç ão de um ser vivo, compreendê- las significa também compreender o funcionamento de um dado organismo que sintetiza essas prote´ınas. Para melhor entendê-las é necess ário, no entanto, um conhecimento b ásico sobre a estrutura das mesmas.

As prote´ınas s ão formadas a partir do encadeamento de moléculas mais simples chamadas amino ácidos. A estrutura geral de um amino ácido é mostrada na Figura 2.1. Nessa figura s ão mostrados os principais elementos de um amino ácido, a saber: um carbono central, ou carbono alfa(Cα) onde se ligam um grupo amina, um grupo carboxila e uma cadeia lateral (denotada na figura como R).

Figura 2.1: Estrutura geral dos amino ´acidos

Os amino ácidos diferem entre si pela estrutura da cadeia lateral, que varia desde um único átomo de hidrogênio até anéis carbônicos. Existem 20 amino ácidos diferentes na natureza e toda prote´ına, n ão importa sua complexidade, é formada a partir destes 20 amino ácidos b ásicos. A Figura 2.4 mostra a estrutura dos vinte amino ácidos, junto com os códigos de uma e três letras utilizados para designar os mesmos.

(18)

Para formar uma prote´ına, os amino ácidos encadeiam-se através de ligações qu´ımicas chamadas ligações pept´ıdicas. Nessa ligaç ão, o carbono do grupo carboxila de um amino ácido liga-se ao átomo de nitrogênio do grupo amina de um outro amino ácido, liberando uma molécula de água no processo. Após essa ligaç ão, o que resta é um res´ıduo dos amino ácidos originais, por causa disso falamos em uma prote´ına com 200 res´ıduos, e n ão 200 amino ácidos. A Figura 2.2 mostra esquematicamente a ligaç ão pept´ıdica entre dois amino ácidos quaisquer, os átomos em ver- melho s ão os átomos perdidos pelas moléculas após a ligaç ão, e em verde é mostrado o ponto onde a ligaç ão molecular entre os amino ácidos é estabelecida. Assim, uma dada prote´ına é formada pela ligaç ão pept´ıdica entre seus diversos amino ácidos, podendo ser composta por um n úmero muito grande desses. Dado que uma prote´ına é, sob certo ponto de vista, uma sequência de amino ácidos, toda prote´ına pode ser des- crita e identificada de forma única pela sequência de amino ácidos que a compõem.

Figura 2.2: Ligaç ão pept´ıdica entre dois amino ácidos.

Embora uma prote´ına possa ser identificada univocamente pela sequência de amino ácidos que a forma, as prote´ınas n ão s ão cadeias lineares de amino ácidos.

Forças moleculares atuando entre amino ácidos próximos e grupos de amino ácidos d ão à uma prote´ına uma forma espacial bem definida. Essa forma espacial pode ser visualizada em diferentes n´ıveis, assim falamos nos n´ıveis estruturais de uma dada prote´ına, a saber:

1. O n´ıvel prim ário, formado apenas pela sequência linear de amino ácidos.

2. O n´ıvel secund ário, onde existem arranjos espaciais de amino ácidos próximos na cadeia.

(19)

3. O n´ıvel terci ´ario, onde existem arranjos espaciais dos amino ´acidos fisicamente distantes na cadeia (estrutura tri-dimensional).

4. O n´ıvel quarten ário, a estrutura espacial formada pela uni ão e interaç ão entre diversas prote´ınas.

A Figura 2.3 d á um exemplo de cada um desses n´ıveis e mostra a relaç ão entre os mesmos em uma prote´ına hipotética.

Figura 2.3: Os diversos n´ıveis estruturais de uma prote´ına, sendo mostradas em azul as sec¸˜oes correspondentes entre cada n´ıvel.

A import ância do estudo do formato tridimensional das prote´ınas reside na observaç ão de uma ´ıntima conex ão entre o formato de uma prote´ına e a funç ão exercida pela mesma. De fato, as diversas hélices e dobras formam uma estrutura

´

unica capaz de se ligar a um grupo de moléculas, podendo essas serem componentes de uma reaç ão qu´ımica ou ainda outras prote´ınas que formam estruturas mais complexas [26]. Algumas ligações s ão t ão espec´ıficas que é utilizado o termo ligaç ão chave-fechadura para as mesmas.

Dada a sua imensa import ância, as prote´ınas s ão constantemente fabricadas pelos seres vivos, desde os procariotos mais simples até os eucariotos mais comple- xos. Entender o processo de s´ıntese das mesmas é, portanto, essencial no sentido de auxiliar na identificaç ão e descoberta das mesmas. Tal processo est á intimamente ligado a moléculas conhecidas como ácidos nucléicos, explicados a seguir.

(20)

Figura 2.4: Estrutura dos 20 amino ´acidos encontrados na natureza.

(21)

2.3 Acidos nucl ´eicos ´

Assim como as prote´ınas, os ácidos nucléicos também s ão pol´ımeros formados a partir de moléculas mais simples, os nucleot´ıdeos. Um nucleot´ıdeo é formado por um aç úcar composto por cinco átomos de carbono (pentose), ligado a um grupo fosfato e uma base nitrogenada. ( Figura 2.5).

Figura 2.5: Representaç ão esquem ática da estrutura de um nucleot´ıdeo, mostrando seus principais componentes: aç úcar, fosfato e base.

As ligações entre diferentes nucleot´ıdeos para a formaç ão de ácidos nucléicos se d á através dos grupos fosfatos, por meio de uma ligaç ão chamada ligaç ão fos- fodiéster. Nesse tipo de ligaç ão o átomo de fósforo do grupo fosfato estabelece fortes ligações covalentes com os átomos de carbono da pentose dos nucleot´ıdeos. Essa pentose tem os átomos numerados de 1 até 5, assim é poss´ıvel identificar os átomos de carbono participantes nas ligações fosfodiéster. A Figura 2.6 mostra as duas principais pentoses encontradas nos seres vivos.

2.3.1 DNA

O DNA é um ácido nucléico cuja principal funç ão biológica é o armazenamento das informações necess árias a s´ıntese das prote´ınas de um organismo. Esse ácido é formado por nucleot´ıdeos com a pentose 2-desoxirribose (Figura 2.6 (a)) e as bases s ão quatro, a saber: adenina (A), timina (T), citosina (C) e guanina (G).

A molécula de DNA tem o formato espacial de duas fitas (ou cadeias) de ácidos nucléicos unidos pelas bases nitrogenadas formando uma espiral que gira no sentido da m ão direita [32]. A Figura 2.7 apresenta uma vis ão desse formato espacial, em conjunto com a estrutura das bases nitrogenadas do DNA. As fitas do DNA s ão ditas complementares, pois a cada base presente em uma fita corresponde uma base complementar na fita oposta. As bases adenina e timina s ão complementares entre si, o mesmo valendo para a citosina e a guanina.

(22)

Figura 2.6: Os aç úcares encontrados nos ácidos nucléicos. S ão mostradas as numerações dos átomos de carbono e destacados os carbonos 3 e 5, através das quais uma orientaç ão dos ácidos nucléicos pode ser obtida.

(23)

Figura 2.7: Estrutura espacial das mol´eculas de DNA e RNA, em conjunto com a estrutura qu´ımica das bases nitrogenadas

(24)

2.3.2 RNA

O RNA é o outro ácido nucléico encontrado nos seres vivos. Em contraste com o DNA, a pentose presente em seus nucleot´ıdeos é a ribose (Figura 2.6 (b)), outra diferença significativa é a presença da base nitrogenada uracila (U) em substituiç ão

à timina. A molécula de RNA tem uma única cadeia (fita) de nucleot´ıdeos e n ão assume uma forma espacial bem definida, tendo diversos formatos de acordo com a funç ão exercida por ela. Dessa forma, diversas classes de RNA s ão encontradas nas células dos seres vivos. A Figura 2.7 mostra uma poss´ıvel disposiç ão espacial de uma molécula de RNA.

O RNA ribossômico (rRNA) é respons ável pela constituiç ão de ribossomos, or- ganelas celulares cujo propósito é a construç ão de prote´ınas. O RNA mensageiro (mRNA) carrega as informações para a s´ıntese de prote´ınas do DNA para os ribossomos. Finalmente, o RNA transportador (tRNA) é respons ável por trazer ao ribossomo os amino ácidos necess ários para formar uma prote´ına.

2.4 Genes e cromossomos

Como visto, toda a informaç ão necess ária a produç ão das prote´ınas de um dado ser vivo est á presente em seu DNA. Mais especificamente, essa informaç ão est á dis- persa pela sequência de bases presentes nas fitas do DNA. Embora o DNA arma- zene as informações necess árias à produç ão de prote´ınas, nem todas as sequências de nucleot´ıdeos do DNA codificam essa informaç ão. Para cada prote´ına sintetizada por um organismo, existe uma porç ão de DNA correspondente onde est ão presentes os dados para sua fabricaç ão. A esta porç ão de DNA contendo a informaç ão de uma prote´ına damos o nome de gene. Os genes s ão distribu´ıdos através das grandes moléculas de DNA, chamadas de cromossomos. O n úmero e o tamanho dos cromossomos varia de espécie para espécie, e n ão est á diretamente ligado a complexidade da mesma.

Ent ão, os genes armazenam a informaç ão necess ária para s´ıntese de uma prote´ına. Conforme visto na Seç ão 2.2, uma dada sequência de amino ácidos permite a identificaç ão precisa de uma prote´ına. No caso dos genes, os amino ácidos s ão codificados por meio de trincas de nucleot´ıdeos, conhecidas como códons. Cada trinca corresponde a um amino ácido. Como existem 4 bases nitrogenadas no DNA,

é poss´ıvel formar 64 trincas diferentes, no entanto existem apenas 20 amino ácidos na natureza. A consequência disso é que diversos amino ácidos s ão codificados por mais de um códon. Essa redund ância permite diminuir o impacto das mutações, que s ão alterações na sequência de nucleot´ıdeos do DNA. Assim a informaç ão presente no DNA é conservada por um per´ıodo maior de tempo. A Figura 2.8 mostra a associaç ão entre códons e amino ácidos, na tabela do Código Genético. O STOP é um sinal especial utilizado para indicar o final do processo de s´ıntese de uma prote´ına.

Nessa figura, as bases mostradas n ˜ao s ˜ao bases do DNA, mas sim as bases do RNA.

Isso ocorre pois o RNA transporta a informaç ão contida num gene para o local onde as prote´ınas ser ão sintetizadas, processo que ser á detalhado a seguir.

(25)

Figura 2.8: Associaç ão entre trincas de bases (códons) e amino ácidos. Consulte a Figura 2.4 para a ligaç ão entre o código de três letras e o nome e estrutura dos amino ácidos.

2.5 Dogma central da Biologia Molecular

Nesta seç ão explicaremos como as informações presentes em uma dada molécula de DNA s ão utilizadas na célula para a s´ıntese de uma prote´ına.

O processo de s´ıntese de uma prote´ına começa através do reconhecimento do in´ıcio de um gene graças a uma pequena regi ão do DNA sinalizando o in´ıcio de um gene, chamada promotor. Tendo localizado o gene, a célula copia a informaç ão do gene criando uma molécula de RNA complementar a uma das fitas de DNA. Esta molécula de RNA é chamada de RNA mensageiro ou mRNA. Assim o mRNA possui a mesma sequência de uma das fitas de DNA, mas tendo a base U no lugar da T.

Este processo é chamado de transcriç ão.

O processo de transcriç ão descrito acima é v álido para seres chamados de procariotos, organismos sem n úcleo celular e com o DNA flutuando livremente na célula.

J á em organismos chamados eucariotos, seres onde o DNA est á armazenado em um n úcleo celular, o processo de transcriç ão é um pouco mais complexo. Os genes dos seres eucariotos s ão compostos de duas partes, os ´ıntros e os éxons. Após a transcriç ão, os ´ıntrons s ão removidos do mRNA. Sendo assim, em um organismo eucarioto, nem todas as bases de um gene s ão utilizadas na transcriç ão. Ao DNA contendo todas as bases do gene denominamos DNA genômico , e às bases do DNA presentes no mRNA após a remoç ão dos ´ıntrons chamamos DNA codificador (cDNA).

Feita a transcriç ão, a prote´ına ser á sintetizada em estruturas celulares chamadas de ribossomos. Os ribossomos s ão estruturas compostas de prote´ınas e um tipo especial de RNA, chamado de RNA ribossômico e abreviado como rRNA. Os ribos-

(26)

somos funcionam como linhas de montagem de prote´ınas, lendo a informaç ão para s´ıntese do mRNA e utilizando moléculas conhecidas como RNA transportadores (tRNA) para realizar a traduç ão dos códons para os amino ácidos correspondentes.

Mecanismos celulares realizam a junç ão dos diversos amino ácidos.

Mais detalhadamente, os RNAs s ão as moléculas respons áveis por efetuar a conex ão entre os códons e os amino ácidos correspondentes, em um processo chamado traduç ão. Cada tRNA é composto de duas partes, uma delas possui afinidade qu´ımica à um dado códon, enquanto a outra liga-se com facilidade ao amino ácido correspondente ao códon. Conforme a fita de mRNA passa pelo ribossomo, um tRNA correspondente ao códon sendo lido pelo ribossomo liga-se ao códon em ques- t ão, trazendo consigo o amino ácido correspondente. Uma enzima ent ão catalisa a ligaç ão pept´ıdica para adicionar o amino ácido em quest ão à prote´ına. A s´ıntese prossegue assim, um amino ácido de cada vez, parando apenas quando um códon do tipo STOP é encontrado. Quando isso ocorre, a prote´ına desliga-se do ribossomo e é liberada na célula. O mRNA é degradado para posterior reaproveitamento dos seus componentes.

2.6 Bioinform ´ atica

A Bioinform ática é um campo interdisciplinar envolvendo as áreas de Biologia Mo- lecular, Estat´ıstica, Matem ática e Ciência da Computaç ão com o objetivo de realizar a an álise de dados biológicos, entre eles sequências de bases de DNA e genes, e predizer a estrutura e funç ão de diversas macromoléculas [22].

Apesar de ampla, esta definiç ão n ão deve ser confundida com Biologia Compu- tacional. A Biologia Computacional preocupa-se com o desenvolvimento de algoritmos r ápidos e eficientes para a resoluç ão de diversos problemas biológicos poss´ıveis de serem tratados por meio de técnicas computacionais. Um exemplo é problema do alinhamento de sequências de DNA, que tem entre suas diversas soluções o conhe- cido algoritmo de Smith-Waterman [27], em homenagem aos criadores do mesmo.

J á a Bioinform ática tem como foco principal o desenvolvimento de ferramentas para realizar o armazenamento e manipulaç ão dos dados biológicos gerados durante um projeto de sequenciamento. Com o atual volume de dados produzidos pelos projetos de sequenciamento, a utilizaç ão de ferramentas computacionais traz grandes aux´ılios aos biólogos, ao permitir a recuperaç ão r ápida dos dados armazenados de um projeto genoma e apresentar os resultados de maneira a facilitar a an álise dos mesmos e assim auxiliar na descoberta de funções para as sequências obtidas.

Cabe notar que, apesar de serem disciplinas com objetivos distintos, ambas se complementam. Os algoritmos desenvolvidos pela Biologia Computacional s ão pos- teriormente incorporados pelas ferramentas de Bioinform ática, sendo utilizados pelas últimas para realizar a an álise dos dados de um projeto. Assim, Biologia Computacional e Bioinform ática est ão intimamente relacionadas, sendo dif´ıcil, as vezes, distingu´ı-las.

Como vimos, at´e recentemente os principais projetos genomas utilizam quase exclusivamente a t´ecnica de sequenciamento Sanger. Desta forma, muitas ferra-

(27)

mentas de bioinform ática dispon´ıveis eram otimizadas para o trabalho com estes dados. Embora os dados produzidos pelos novos sequenciadores de alto desempenho tenham caracter´ısticas diferentes dos dados obtidos com sequenciadores San- ger, o pipeline utilizado para processamento dos mesmos é conceitualmente muito parecido com o pipeline de projetos com sequenciamento Sanger. Dessa forma, o estudo de um pipeline conceitual é importante no sentido de fornecer uma base teórica em relaç ão ao trabalho realizado.

2.6.1 Pipeline de um projeto de sequenciamento

Em um projeto de sequenciament, temos em geral três fases importantes: submiss ão, montagem e anotaç ão. A submiss ão consiste no recebimento dos dados re- sultantes do processo de sequenciamento e no armazenamento de tais dados em um formato adequado para posterior processamento computacional. Entre os v ários dados obtidos nesta fase, destacam-se a sequência de bases obtidas, em geral armazenada como um arquivo texto contendo uma sequência de letras, e os valores de qualidade para cada base das sequências, utilizados em posteriores an álises para discriminar o qu ão prov ável é o fato de a base obtida ser a verdadeira base do DNA do organismo.

Após o recebimento de todas as sequências na fase de submiss ão, segue-se para a etapa de montagem. A montagem consiste no uso de um ou mais programas para tentar unir os diversos fragmentos de DNA obtidos durante o sequenciamento e assim tentar recriar as sequências de DNA originais. Em geral, tal processo n ão consegue remontar perfeitamente o DNA fragmentado. Sequências de DNA (consenso) obtidas pela uni ão de dois ou mais fragmentos (chamadas contigs), e sequências n ão agrupadas com outras (chamadas singlets). Feita a montagem do DNA sequenciado, segue-se para a etapa de anotaç ão.

A fase de anotaç ão constitui a última fase de um pipeline de sequenciamento.

Nesta fase, o objetivo é descobrir as diversas funções biológicas do DNA sequenciado, bem como identificar genes ainda n ão descobertos, entre outras importantes funções. Para realizar essas tarefas, em geral dividimos a anotaç ão em duas etapas distintas. A anotaç ão autom ática é executada primeiro e consiste em tentar inferir as funções biológicas das sequências de DNA através de métodos computacionais. N ão obstante, a técnica mais comumente empregada neste passo consiste no uso de programas para comparaç ão das sequências obtidas com bancos de dados contendo sequências cujas funções j á s ão conhecidas, tais como o BLAST [1]. Ape- sar do primeiro genoma completo só ter sido completado em 1976 [11], atualmente esses bancos de dados contém um n úmero imenso de sequências, e crescem diaria- mente. Feita a anotaç ão autom ática, procede-se à anotaç ão manual. Nesta etapa, os biológos verificam as inferências feitas durante a anotaç ão autom ática e as utilizam como um guia para a an álise das sequências. Os biológos podem confirmar, mudar ou recusar as sugestões das anotações autom áticas. As sugestões também podem ser utilizadas para a realizaç ão de experimentos significativos ao trabalho de pesquisa do organismo.

Embora opipelinedescrito aqui seja genérico e adapt ável a uma série de projetos com diferentes objetivos e técnicas, cabe notar que em geral, o processamento

(28)

realizado em cada etapa é dividido em uma série de programas de Biologia Com- putacional. A correta integraç ão desses programas no pipeline e a exposiç ão dos resultados significativos s ão uma preocupaç ão da Bioinform ática. A seguir, apresentamos um exemplo de pipeline aplic ável em um projeto de sequenciamento baseado na técnica Sanger, apresentando exemplos de programas a serem utilizados em cada uma das fases do pipeline.

2.6.2 Pipeline para um projeto de sequenciamento Sanger

Na fase de submiss ão de um projeto genoma utilizando sequenciadores Sanger, após a recepç ão dos arquivos contendo o resultado do sequenciamento, os mesmos s ão processados pelo programa Phred [10]. Este programa traduz os dados presentes no arquivo em uma sequência de letras contendo as bases identificadas e a probalidade de erro associada a determinaç ão de cada fase. Após isso, o programa Phd2Fastacria para cada arquivo processado peloPhreddois arquivos texto no formato FASTA, um contendo a sequência de bases nitrogenadas e outro contendo os valores das probabilidades de erro. As probabilidades de erro constituem valiosa informaç ão pois permitem a remoç ão de sequências cujas bases contêm uma alta probabilidade de erro, podendo gerar resultados incorretos durante as próximas fases. Assim, embora v árias sequências sejam recebidas durante a fase de submiss ão, nem todas s ão utilizadas nos próximos passos. Para tanto, a sequência deve pos- suir uma probabilidade de erro suficientemente baixa, determinada de acordo com cada projeto. Quanto menor essa probabilidade de erro, em geral menos sequências ser ão aceitas e maior o custo e confiabilidade dos dados do projeto.

Como o sequenciamento Sanger envolve a cópia do DNA a ser sequenciado, muitas vezes, antes do sequenciamento propriamente dito, o DNA sequenciado pode conter sequências n ão pertencentes ao organismo sendo estudado. O programa Cross match identifica e retira vetores e contaminantes das sequências. Por fim, uma an álise de redund ância das sequências submetidas pode ser feita através do programaCAP3[14], e os agrupamentos identificados por esse programa consistem em geral sequências redundantes.

A montagem das sequências pode ser feita através de programas como oCAP3 ou o Phrap. Estes programas geram arquivos FASTA contendo as sequências de todos ossingletsidentificados, arquivos com dados sobre a composiç ão e sequências doscontigs, e informações gerais sobre a montagem dos fragmentos de DNA.

Por fim, o programaGlimmer[24] pode ser utilizado com o objetivo de identificar os poss´ıveis genes presentes nos contigs e singlets obtidos durante a montagem.

Este último passo nem sempre é feito, pois alguns projetos trabalham com cDNAs de um dado organismo. Nesse caso, como as sequências de DNA j á se constituem em genes, n ão h á a necessidade de se utilizar o Glimmerpara identific á-los.

Por último, utiliza-se o programa BLAST para comparar as sequências identificadas com bancos de dados de sequências cujas funções j á s ão conhecidas na fase de anotaç ão autom ática. Os bancos utilizados variam de acordo com o projeto e o organismo sendo estudado. Feito isso, os biológos podem proceder a anotaç ão manual das sequências de acordo com seus conhecimentos.

(29)

Durante todas as etapas anteriormente descritas, s ão armazenadas estat´ısticas sobre o projeto em quest ão, tais como n úmero de sequências aceitas e rejeitadas, n úmero de contigs e singlets encontrados, entre muitos outras. Também s ão armazenadas as anotações manuais e autom áticas feitas durante o processo, e em alguns projetos, as mesmas s ão armazenadas com o objetivo de verificar poss´ıveis erros cometidos durante o processamento dopipeline.

2.6.3 Projetos transcritoma

Como visto na Seç ão 2.5, a s´ıntese de uma prote´ına ocorre através da transcriç ão das informações contidas no DNA em um RNA mensageiro e posterior traduç ão desta informaç ão em amino ácidos. Dizemos ent ão que o gene codificando a prote´ına em quest ão éexpresso. O conjunto dos RNAs mensageiros de uma célula é chamado de transcritoma, e projetos de sequenciamento visando a obtenç ão desses RNAs mensageiros s ão conhecidos como projetos transcritoma.

A obtenç ão de todos os transcritomas de todas as células de um dado organismo

é uma tarefa complexa, pois nem todos os genes s ão expressos a todo momento. De fato, durante diferentes fases da vida de um organismo, diferentes genes s ão expressos em diferentes intensidades. Dessa forma, grande parte dos projetos transcritoma envolvem o sequenciamento dos RNAs mensageiros em um dado estado da vida do organismo de interesse, podendo este ser durante o desenvolvimento de uma planta, a metamorfose de um inseto ou mesmo a ocorrência de um c âncer.

Para a obtenç ão dos transcritomas, uma técnica muito utilizada consiste em capturar os RNAs mensageiros de uma célula exposta à dadas condições, e a partir da mesma gerar a sequência de DNA cuja transcriç ão originou o mRNA. Conforme exposto na Seç ão 2.5, essa fita de mRNA é complementar à sequência de DNA que a originou. Portanto, para obter a sequência de nucleot´ıdeos efetivamente expressos durante a produç ão da prote´ına em quest ão, basta obter o complemento desta fita de RNA. A sequência de DNA obtida desta maneira, é conhecida como DNA codificador ou cDNA. Para determinar os transcritomas, procede-se ao sequenciamento dos cDNAs, seja através do método Sanger, ou por meio dos novos sequenciadores de alto desempenho.

Uma das principais informações obtidas através dos transcritomas é o conjunto de prote´ınas expressas durante uma dada condiç ão de um organismo, por exemplo, durante uma infecç ão. Estas sequências s ão chamadas deExpressed Sequence Tags(ESTs). Os ESTs tem um importante papel na anotaç ão de genomas, pois expõem dados sobre as regiões codificadoras de um genoma e provêm uma primeira evidência experimental da existência de um gene predito por alguma ferramenta computacional.

No entanto, como os ESTs contém as sequências de DNA efetivamente expressas em um dado momento, uma informaç ão de interesse é a posiç ão na molécula de DNA de onde os ESTs provêm. Em outras palavras, é interessante identificar a regi ão do DNA cuja transcriç ão d á origem a um dado EST. Isso é feito por meio de uma fase chamada de mapeamento, na qual se busca alinhar os ESTs obtidos durante um projeto transcritoma a um genoma de referência, às vezes, o genoma do próprio organismo de onde os ESTs derivaram. No entanto, outros organismos

(30)

podem ser utilizados. Um exemplo seria o mapeamento utilizando uma espécie próxima do organismo de interesse, com o objetivo de detectar quais prote´ınas s ão expressas por ambos os seres vivos, e quais prote´ınas s ão potencialmente exclusi- vas à somente um deles.

Em um projeto transcritoma, a anotaç ão apresenta certas diferenças em relaç ão a projetos de sequenciamento de DNA. Um dos principais objetivos da fase de anotaç ão de um projeto transcritoma é a identificaç ão de RNAs n ão codificadores (ncRNAs). Embora toda prote´ına seja obtida por meio da traduç ão de um RNA mensageiro, e em última inst ância por um RNA, nem todo RNA est á diretamente ligado à produç ão de uma prote´ına. RNAs n ão diretamente ligados a s´ıntese de prote´ınas s ão os ncRNAS, e est ão ligados à uma série de processos celulares importantes, como a degradaç ão do mRNA, replicaç ão do DNA e inibiç ão do processo de traduç ão entre outros.

Para a identificaç ão de ncRNAs podem ser utilizadas, além da comparaç ão de sequências, técnicas de Inteligência Artificial, em especial o aprendizado por m á- quina. Tal técnica consiste no processamento de uma massa de dados espec´ıfica por um programa de computador, com o objetivo de fornecer par âmetros pelos quais o programa poder á buscar informações de interesse nos dados a serem analisa- dos. Por exemplo, a busca de ncRNAs em projetos transcritoma. Dois exemplos de técnicas utilizadas com esse propósito s ão o naive Bayese o Support Vector Machi- nes. Tais abordagens s ão utilizadas pois n ão só permitem uma nova perspectiva de an álise, como também efetuam an álises mais r ápidas em comparaç ão com ferramentas existentes, sem perda significativa de acur ácia.

A anotaç ão de projetos transcritoma também usa métodos para comparaç ão de sequências. Nesse caso, os bancos de dados de sequências s ão ESTs providas de outros projetos transcritoma depositadas em bancos de dados p úblicos. Alguns desses bancos podem ser obtidos gratuitamente através da internet, em geral através do uso doFile Transfer Protocol(FTP). Além das diferentes bases de dados utilizadas na fase de anotaç ão de projetos transcritoma, diferentes ferramentas s ão utilizadas para a comparaç ão de sequências. Apesar de ferramentas como o BLAST em geral estarem presentes nestes projetos, ferramentas especializadas projetadas para a comparaç ão de RNAs mensageiros e sequências genômicas também s ão muito utilizadas. Um exemplo deste último tipo é o comparador de sequências BLAT [16].

(31)

Cap´ıtulo 3

Sequenciadores Massivamente Paralelos

Embora o sequenciamento Sanger tenha sido a técnica de sequenciamento domi- nante durante os últimos anos, novas técnicas de sequenciamento massivamente paralelas atingiram o mercado e est ão revolucionando a forma como se realiza o sequenciamento de DNA no mundo. Ao permitirem o sequenciamento de milhões de sequências a um custo muito baixo em comparaç ão com o método Sanger, esses métodos tiveram um grande impacto nas áreas de pesquisa onde se realizam se- quenciamentos de DNA, e abriram novas frentes de pesquisa, tais como o estudo de DNAs antigos, como mamutes, e a caracterizaç ão da diversidade ecológica por meio do sequenciamento de DNA de amostras ambientais [19].

A fim de propor umpipeline para processamento das sequências geradas pelos sequenciadores massivos, devemos entender melhor o seu funcionamento, e quais os desafios enfrentados devido as técnicas de sequenciamento utilizadas por cada um. Na Seç ão 3.1 estudaremos o funcionamento do sequenciador 454-FLX da Ro- che. A Seç ão 3.2 expõe a técnica de sequenciamento utilizado pelo sequenciador Illumina da empresa Solexa.

3.1 454-FLX Roche

Este sequenciador foi o primeiro a aparecer no mercado, em 2004, e utiliza uma técnica de sequenciamento conhecida como pirosequenciamento. No pirosequenciamento a incorporaç ão de cada nucleot´ıdeo a uma fita de DNA por meio da enzima DNA polimerase acarreta a liberaç ão de pirofosfato. Esta molécula por sua vez, inicia uma série de reações qu´ımicas cujo produto final é a liberaç ão de luz. A detecç ão da luz por um sensor permite a determinaç ão das bases de uma sequência de DNA. Uma caracter´ıstica importante desta técnica é que, a cada vez que um mesmo nucleot´ıdeo é incorporado a sequência, a intensidade da luz liberada au- menta. Se essa intensidade ultrapassar a capacidade do detector de luz, a leitura do n úmero de bases iguais ser á incorreta. Este é o principal tipo de erro enfrentado por este tipo de sequenciador, a incorreta determinaç ão do n úmero de bases em um monômero (molécula formada pela repetiç ão de uma mesma estrutura), tal como CCCCCCC.

(32)

Agora descreveremos como o sequenciador 454/Roche efetua o sequenciamento.

O primeiro passo no processo de sequenciamento consiste na amplificaç ão do DNA a ser sequenciado. Isso é feito misturando-se os fragmentos de DNA com estruturas de agarose¹ contendo sequências de DNA complementares às sequências adaptadoras do 454 presentes nos fragmentos a serem sequenciados. Desta forma cada estrutura de agarose fica ligada a um único fragmento de DNA. A seguir, cada uma dessas estruturas contendo um fragmento de DNA é isolada em micélios óleo: água contendo reagentes para a enzima DNA polimerase. Através de um ciclo térmico, produzem-se um milh ão de cópias do fragmento de DNA contidos na superf´ıcie da estrutura de agarose.

Após a amplificaç ão do DNA, realiza-se o sequenciamento propriamente dito.

Cada estrutura de agarose é colocada em um recipiente de estrutura de silica ca- pilar, contendo centenas de milhares de locais para inserç ão de uma estrutura de agarose. O objetivo destes recipientes é fornecer uma localizaç ão fixa para monito- ramento das reações de sequenciamento. Em cada recipiente, enzimas que catali- zam a reaç ão de pirosequenciamento s ão adicionadas a cada recipiente e a mistura

´e centrifugada com o objetivo de cobrir as agaroses com as enzimas.

A incorporaç ão de cada nucleot´ıdeo é feita em um passo de cada vez, e em cada passo um sensor CCD registra a luz emitida em cada recipiente, assim determi- nando a sequência de DNA, uma base por vez. No entanto, tal sensor n ão consegue interpretar corretamente a incorporaç ão de um mesmo nucleot´ıdeo v árias vezes (mais de 6), o que significa que porções de DNA onde uma mesma base ocorre v árias vezes podem acarretar erros. Caso o n úmero de bases determinados pelo sequenciador, temos um erro de inserç ão, se for menor teremos um erro de remoç ão.

O sequenciador 454 provê sequências de cerca de 250 bases de comprimento durante um processamento de 8 horas. Após um processamento para a remoç ão de sequências com baixa qualidade, obtemos cerca de 100 milhões de bases com boa qualidade em média. Apesar do tamanho das sequências obtidas com o sequenciador 454 ser muito menor em comparaç ão com os sequenciadores Sanger, o mesmo foi utilizado com sucesso no sequenciamento de genomas virais e bacteriais com alta qualidade. A Figura 3.1 mostra esquematicamente o processo descrito nesta seç ão.

1A agarose é um pol´ımero composto de subunidades de galactose. Quando dissolvida em água quente e seguidamente arrefecida, a agarose toma uma consistência gelatinosa, este gel é muito utilizado em biologia molecular para atividades como sequenciamento.

(33)

(34)

3.2 Illumina Solexa

O sequenciador Illumina utiliza a técnica de sequenciamento por s´ıntese, onde um nucleot´ıdeo é incorporado por vez à sequência sendo determinada e cada incorpora- ç ão determina uma base da sequência desejada. A amplificaç ão do DNA utilizada por este sequenciador é feita incorporando-se adaptadores ao in´ıcio e fim de cada um dos fragmentos de DNA e anexando-os a uma superf´ıcie. Após isso a DNA polimerase é utilizada para a produç ão de grupos de sequências, cada grupo contendo aproximadamente 1 milh ão de cópias do fragmento de DNA original. A Figura 3.2 mostra esquematicamente como este processo de amplificaç ão é realizado.

Após a amplificaç ão do DNA, realiza-se o processo de sequenciamento em si.

Nesse processo, nucleot´ıdeos fosforecentes s ão adicionados às moléculas de DNA amplificadas pelo sequenciador. Como o grupo OH ligado ao carbono 3’ dos mesmos

é quimicamente bloqueado, a DNA polimerase é capaz de incorporar somente um fragmento de cada vez às sequências amplificadas. Feita a incorporaç ão, processa- se a imagem contendo as luzes oriundas dos nucleot´ıdeos fosforecentes. Após o processamento da imagem, o grupo OH ligado ao carbono 3’ de cada nucleot´ıdeo incorporado é quimicamente removido e os passos descritos anteriormente s ão re- petidos. Este processo continua por um n úmero de ciclos determinados pelo ope- rador do sequenciador, e permite a determinaç ão de sequências com 25 a 35 bases de comprimento, podendo atingir mais de um bilh ão de bases sequenciadas [7].

O processo de determinaç ão das bases remove bases com qualidade ruim e determina a qualidade das sequências de bases. A Figura 3.3 mostra a forma como a determinaç ão de uma base é feita pelo sequenciador Illumina.

(35)

Figura 3.2: Vis ão esquem ática do processo de amplificaç ão do DNA utilizado pelo sequenciador Illumina/Solexa [19].

(36)

Figura 3.3: Processo de determinac¸ ˜ao de uma base do sequenciador Illu- mina/Solexa [19].

(37)

Cap´ıtulo 4

Softwares e pipelines para Sequenciadores Massivamente

Paralelos

Neste cap´ıtulo ser ão apresentados diversos softwares para tratamento dos dados gerados por sequenciadores de alto desempenho nas diversas fases do pipeline descrito no cap´ıtulo 2. A Seç ão 4.1 apresenta softwares para processamento da submiss ão das sequências dos sequenciadores massivamente paralelos. A seguir, a Seç ão 4.2 apresenta programas para realizar o mapeamento das pequenas sequên- cias dos novos sequenciadores a genomas de referência. Após isso programas para montagem dos fragmentos de sequências obtidos com novos sequenciadores s ão apresentados na Seç ão 4.3. A Seç ão 4.4 lista alguns programas para anotaç ão das sequências destes sequenciadores. Por último, a Seç ão 4.5 mostra ospipelines que podem ser adotados em projetos de sequenciamento envolvendo sequenciadores de alto desempenho.

4.1 Softwares para submiss ˜ ao

Esta seç ão apresenta alguns programas poss´ıveis de serem utilizados para processamento da submiss ão de arquivos de sequências de sequenciadores massivamente paralelos.

Como pode ser visto no Cap´ıtulo 3, as técnicas de sequenciamento utilizadas pelos novos sequenciadores s ão muito diferentes entre si. Assim, n ão existe um programa capaz de tratar dados de todos os novos sequenciadores, mas sim programas espec´ıficos para o tratamento dos dados de um sequenciador em especial.

A Subsec¸ ˜ao 4.1.1 detalha o formato dos arquivos gerados pelo sequenciador 454 e apresenta um programa capaz de ler esse dados.

4.1.1 Software para submiss ˜ ao do sequenciador 454

Nesta subseç ão apresentamos o formato do arquivo bin ário gerado pelo sequenciador 454 e apresentamos um programa capaz de ler as informações do mesmo e gerar diversos formatos de sa´ıda com diferentes informações.

(38)

O National Center for Biotechnology Information (NCBI) [23] é um centro cri- ado em 1988 para servir como um repositório de informações de biologia molecular.

Entre outras coisas, o NCBI cria e disponibiliza bancos de dados p úblicos, como o GenBank, conduz pesquisas em Biologia Computacional, desenvolve programas para an álise de dados e dissemina informações biomédicas.

O Trace Archive é um dos repositórios mantidos pelo NCBI contendo arquivos bin ários de sequenciamento gerados por grandes projetos de sequenciamento. É poss´ıvel obter tanto os arquivos de sequências quanto os dados relacionados nos arquivos l á mantidos. Para facilitar a imensa tarefa de organizar milhões de arquivos de sequências criados por diversos projetos de sequenciamento de todos os lugares do mundo, o NCBI estipula formatos de arquivos para a deposiç ão de sequências no Trace Archive. Além de auxiliar na verificaç ão e tratamento dos arquivos, o uso de um formato padr ão permite o desenvolvimento de softwares para a extraç ão dos dados das sequências de arquivos no Trace Archive, bem como diversos outros tratamentos que venham a ser necess ários.

Até recentemente, o único formato padronizado dizia respeito a sequências obtidas com a técnica de sequenciamento Sanger. No entanto, devido ao grande uso do sequenciador 454 e a cooperaç ão da Roche com o NCBI, um formato padr ão para submiss ão de dados obtidos com o 454 aoTrace Archivefoi desenvolvido. O objetivo

é disponibilizar as milhões de sequências obtidas com o 454 ao dom´ınio p úblico, permitindo assim um r ápido desenvolvimento das pesquisas de diversos organismos, incluindo seres extintos, como os mamutes.

O formato padr ão desenvolvido foi nomeado Standard Flowgram File (SFF), e pode conter dados de uma ou v árias sequências. Ao contr ário dos dados de sequenciadores tradicionais, o sequenciador 454 n ão provê dados por meio dos quais bases individuais podem ser determinadas. Ao invés disso, estima-se o comprimento de cada homopol´ımero na sequência. Por exemplo, a sequência “AAATGGC” seria armazenada como constitu´ıda de uma sequência de 3 A’s, seguida de uma sequência de 1 T, logo após uma sequência de 2 G’s e por fim uma sequência de um único C.

Estes valores s ão na verdade estimados pois, como explicado na Seç ão 3.1, o sequenciador 454 possui dificuldades para determinar o comprimento de sequências constitu´ıdas por um único nucleot´ıdeo, caso este ocorra mais de cinco vezes. A determinaç ão da sequência a partir do arquivo SFF consiste em simplesmente analisar as estimativas do sequenciador e concatenar os diversos homopol´ımeros determinados.

Os arquivos SFF possuem um cabeçalho inicial contendo informações gerais sobre o arquivo, tais como n úmero de vers ão e códigos de formato, entre outras. Em seguida, para cada sequência presente no arquivo, aparece uma seç ão de cabeçalho e uma seç ão de dados da sequência. Todas as seções têm um tamanho m últiplo de 8 bytes, para isso s ão inseridos bytes de preenchimento conforme necess ário. Além disso, os bytes s ão armazenados em ordem big endian, ou seja, com o byte mais significativo ocorrendo em primeiro lugar. Os tipos padrões Unix uint8 t, uint16 t, uint32 t and uint64 t e todos os campos do tipo char s ão armazenados utilizando valores ASCII. A seguir detalhamos cada uma das diferentes seções do formato de arquivos SFF.

(39)

Todo arquivo SFF possui um cabeçalho onde s ão armazenadas informações gerais sobre o arquivo, como se segue:

• magic number (uint32 t), deve ter o valor 0x2E736666, este representa a codificaç ão da string “.sff ” em codificaç ão ASCII.

• version (char[4]), indica o n úmero de vers ão do arquivo. Atualmente só a vers ão 0001 est á documentada.

• index offset (uint64 t), é o valor do deslocamento de um ´ındice opcional das sequências no arquivo. Caso esse ´ındice n ão exista, tem o valor 0.

• index length (uint32 t), armazena o tamanho do ´ındice opcioanal dasreadsno arquivo sff. Se o ´ındice n ˜ao estiver presente no arquivo, o valor deste campo deve ser 0.

• number of reads (uint32 t), é o n úmero de sequências cujos dados est ão armazenados no arquivo.

• header length (uint16 t), contém o tamanho em bytes dos campos do cabeça- lho, seu valor é calculado da seguinte forma:

31 + key length + number of flows per read arredondado para o pr´oximo in- teiro divis´ıvel por 8.

• key length (uint16 t), indica o tamanho da sequˆencia chave utilizada pelas reads.

• number of flows per read (uint16 t), armazena o n ´umero de fluxos para cada read do arquivo.

• flowgram format code (uint8 t), representa o formato utilizado para codificar cada valor dos fluxos de cada read.

• flow chars (char[number of flows per read]), é um vetor representando as bases utilizadas em cada fluxo para cadaread. N ão é terminado em 0.

• key sequence (char[key length]), cont´em as bases utilizadas na sequˆencia chave para cadaread.

• eight byte padding (uint8 t[*]), contém até 7 bytes com valor 0. Esses bytes s ão utilizados para que o tamanho do cabeçalho seja m últiplo de oito bytes.

Caso um ´ındice seja inclu´ıdo no arquivo, os camposindex offset e index length devem apontar para a seç ão do arquivo contendo o ´ındice. Para dar suporte a diferentes métodos de indexaç ão, todo ´ındice deve começar com um n úmero m ágico (uint32 t) e um n úmero de vers ão (char[4]).

Para cada sequência presente no arquivo, temos um campo de cabeçalho e um campo de dados. Os campos presentes nos cabeçalhos das sequências s ão:

• read header length (uint16 t), armazena o tamanho do cabeçalho, seu valor é 16 + name length arredondado para o próximo valor divis´ıvel por 8.

• name length (uint16 t), indica o tamanho em bytes do nome da sequˆencia.

(40)

• number of bases (uint32 t), contém o n úmero de bases determinadas para esta sequência.

• clip qual left (uint16 t), é a posiç ão da primeira base após o ponto de junç ão, para sequências de qualidade, no começo daread.

• clip qual right (uint16 t), indica a posiç ão da primeira base antes do ponto de junç ão, para sequências de qualidade, no final da sequência.

• clip adapter left (uint16 t), é a posiç ão da primeira base após o ponto de junç ão, para sequências adaptadoras, no começo da sequência.

• clip adapter right (uint16 t), indica a posiç ão da primeira base antes do ponto de junç ão, para sequências adaptadoras, no final da sequência.

• name (char[name length]), contém o nome da sequência, utilizando caracte- res ASCII. N ão é terminado em 0.

Logo após o cabeçalho, temos os dados da sequência em quest ão, que s ão:

• flowgram values (uint* t[number of flows]), contém a estimativa de tamanho dos homopol´ımeros para cada fluxo da sequência. O n úmero de bytes utilizado para cada valor depende do campo flowgram format code presente no cabeçalho de informações gerais do arquivo.

• flow index per base (uint8 t[number of bases]), armazena as posições dos fluxos para cada base na sequência determinada.

• bases (char[number of bases]), contém as bases da sequência em quest ão.

• quality scores (uint8 t[number of bases]), contém os valores de qualidades das bases. Esse valores s ão calculados segundo a express ão −10∗log₁₀(p), ondep é a probabilidade de erro.

Esses dados podem ser lidos com os programas providos na compra de um sequenciador 454. No entanto, como se trata de um formato padr ão, diversas outras implementações est ão dispon´ıveis. Como exemplo, o software matlab pode ser utilizado para realizar a leitura dos dados presentes em arquivos .sff e de- senhar gr áficos baseados nestes dados, a URL http://www.mathworks.com/

matlabcentral/fx_files/22864/2/content/sffdemo.htmlexplica como utilizar o matlab para extrair diversos dados e realizar a plotagem de alguns gr áficos a partir das informações presentes nos arquivos .sff.

Parapipelines automatizados, no entanto, é conveniente o uso de programas o- perados através da linha de comando, pois isso permite chamar os mesmos quando necess ário, sem a intervenç ão de um ser humano. Um exemplo de programa desse

(41)

tipo é o programa flower, uma interface para uma biblioteca de bioinform ática im- plementada em haskell. O programa flower funciona por linha de comando e é capaz de produzir diversos tipos de sa´ıda, incluindo arquivos de sequências no formato fasta e arquivos de qualidade, entre outros. Mais informações podem ser obtidas na p ágina http://blog.malde.org/index.php/flower/.

4.1.2 Software para submiss ˜ ao do sequenciador Illumina

Até o momento da escrita deste trabalho, o único software capaz de ler os dados produzidos pelo sequenciador Illumina era provido pela empresa Solexa quando da aquisiç ão deste sequenciador. N ão obstante, os dados produzidos pelo sequenciador s ão armazenados em pastas, onde cada pasta armazena um tipo espec´ıfico de informaç ão. As pastas de dados do sequenciador Illumina s ão:

• FIRECREST - armazena os arquivos de imagens gerados durante o processo de sequenciamento do Illumina. Segundo estimativas, s ˜ao gerados aproximadamente 100 GB de dados nesta pasta para cada sequenciamento executado.

• BUSTARD - contém os arquivos de qualidade e bases das sequências determinadas, além de quaisquer outros arquivos derivados diretamente do processo de sequenciamento. A cada sequenciamento, cerca de 80 GB de dados s ão armazenados aqui.

• GERALD - contém dados gerados a partir do diretório BUSTARD, tais como alinhamento a genomas de referência, c álculos mais precisos de qualidades, entre outros. S ão gerados aproximadamente 35 GB de dados a partir do di- retório BUSTARD, e esses dados s ão armazenados na pasta GERALD.

4.2 Softwares para mapeamento

Uma vez que as sequências obtidas pelos novos sequenciadores s ão relativamente curtas em relaç ão ao sequenciamento tradicional, isso torna imposs´ıvel o uso das técnicas tradicionais para reagrupar os fragmentos sequenciados no DNA original. N ão obstante essa dificuldade, é desej ável a possiblidade de se aplicar as técnicas antigas aos novos dados, mesmo sendo necess ário efetuar adaptações.

Uma poss´ıvel abordagem seria usar um genoma de referência, normalmente um organismo próximo ao organismo sendo sequenciado cujo genoma j á fosse conhe- cido com grande precis ão. Dado esse genoma de referência, poder-se-ia mapear as pequenas sequências obtidas pelos novos sequenciadores e agrup á-las conforme a posiç ão das mesmas no mapeamento. Uma vez que as sequências agrupadas constituem um n úmero muito menor a ser analisado e visto possu´ırem poucas diferenças entre si, pois est ão mapeadas aproximadamente na mesma regi ão do genoma, seria poss´ıvel aplicar técnicas de montagem tradicional a esses grupos de sequências.

Além de um genoma de referência, seria poss´ıvel também utilizar bibliotecas de exons como sequências de referências para a verificaç ão de splicing alternativo a partir do sequenciamento de RNAs pequenos (35 a 80 bases de comprimento).