• Nenhum resultado encontrado

Universidade de Brasília

N/A
N/A
Protected

Academic year: 2022

Share "Universidade de Brasília"

Copied!
61
0
0

Texto

(1)

Universidade de Bras´ılia

Instituto de Ciˆencias Exatas Departamento de Ciˆencia da Computa¸ao

Pipelines para transcritomas obtidos por sequenciadores de alto desempenho

Paulo Antonio Alvarez

Monografia apresentada como requisito parcial para conclus ˜ao do Bacharelado em Ciˆencia da Computac¸ ˜ao

Orientadora

Prof.aMaria Em´ılia Machado Telles Walter

Bras´ılia

2009

(2)

Universidade de Bras´ılia — UnB Instituto de Ciˆencias Exatas

Departamento de Ciˆencia da Computac¸ ˜ao Bacharelado em Ciˆencia da Computac¸ ˜ao

Coordenador: Prof. Marcus Vinicius Lamar

Banca examinadora composta por:

Prof.aMaria Em´ılia Machado Telles Walter (Orientadora) — CIC/UnB Prof.aC´elia Ghedini Ralha — CIC/UnB

Prof. Marcelo de Macedo Br´ıgido — IB/UnB

CIP — Catalogac¸ ˜ao Internacional na Publicac¸ ˜ao

Alvarez, Paulo Antonio.

Pipelines para transcritomas obtidos por sequenciadores de alto desempenho / Paulo Antonio Alvarez. Bras´ılia : UnB, 2009.

61 p. : il. ; 29,5 cm.

Monografia (Graduac¸ ˜ao) — Universidade de Bras´ılia, Bras´ılia, 2009.

1. Sequenciadores de alto desempenho, 2. Projetos Genoma, 3. M´etodos Computacionais, 4.pipeline

CDU 004

Enderec¸o: Universidade de Bras´ılia

Campus Universit ´ario Darcy Ribeiro — Asa Norte CEP 70910-900

Bras´ılia–DF — Brasil

(3)

Universidade de Bras´ılia

Instituto de Ciˆencias Exatas Departamento de Ciˆencia da Computa¸ao

Pipelines para transcritomas obtidos por sequenciadores de alto desempenho

Paulo Antonio Alvarez

Monografia apresentada como requisito parcial para conclus ˜ao do Bacharelado em Ciˆencia da Computac¸ ˜ao

Prof.a Maria Em´ılia Machado Telles Walter (Orientadora) CIC/UnB

Prof.a C´elia Ghedini Ralha Prof. Marcelo de Macedo Br´ıgido

CIC/UnB IB/UnB

Prof. Marcus Vinicius Lamar

Coordenador do Bacharelado em Ciˆencia da Computac¸ ˜ao

Bras´ılia, 14 de dezembro de 2009

(4)

Dedicat ´ oria

Dedico este trabalho aos meus pais e a minha fam´ılia.

(5)

Agradecimentos

Agradec¸o a minha orientadora pelo apoio durante o desenvolvimento deste projeto.

(6)

Resumo

Neste trabalho propusemos e implementamos um prot´otipo depipelinede software para projetos transcritoma utilizando dados provenientes de sequenciadores de alto desempenho. O pipeline foi desenvolvido utilizando a linguagem Java e o sistema gerenciador de banco de dados PostgreSQL, sendo executado atrav´es da linha de comando e configurado por meio da edic¸ ˜ao de arquivos de properties. O estudo de caso feito com o pipeline envolveu dados de Salmonella enterica obtidos por meio do sequenciador 454/Roche. Opipelinecompleto executou em menos de duas horas, com arquivos iniciais totalizando cerca de 400000 sequˆencias. O filtro da montagem selecionou cerca de 92000 sequˆencias agrupadas em cerca de 23000 grupos (contigs esinglets). Foram anotados cerca de 17000 grupos utilizando BLAST com o banco de dados KOG.

Palavras-chave: Sequenciadores de alto desempenho, Projetos Genoma, M´etodos Computacionais,pipeline

(7)

Abstract

In this work we propose and implement a software pipeline prototipe for transcrip- tome projects using data from high throughput DNA sequencers. The pipeline was developed using the Java programming language and the database management system PostgreSQL, it runs through the command line and is configured by means of editing properties files. The test case was developed with data fromSalmonella enterica obtained by the sequencer 454/Roche. The pipeline executed in less than two hours, with its inicial files providing about 400000 sequences. The assembly fil- ter select around 92000 sequences, which originated around 23000 groups(singlets and contigs). Around 17000 groups were annotated using BLAST against the KOG database.

Keywords: Next generation sequencers, Genome Projects, Computational Meth- ods, pipeline

(8)

Sum ´ ario

Lista de Figuras 10

Lista de Tabelas 11

1 Introduc¸ ˜ao 12

1.1 Contextualizac¸ ˜ao . . . 12

1.2 Problema . . . 14

1.3 Hip´oteses . . . 14

1.4 Objetivos . . . 14

1.5 Descric¸˜oes dos Cap´ıtulos . . . 15

2 Conceitos B ´asicos em Biologia Molecular 16 2.1 Vida . . . 16

2.2 Prote´ınas . . . 17

2.3 Acidos nucl´eicos . . . .´ 21

2.3.1 DNA . . . 21

2.3.2 RNA . . . 24

2.4 Genes e cromossomos . . . 24

2.5 Dogma central da Biologia Molecular . . . 25

2.6 Bioinform ´atica . . . 26

2.6.1 Pipelinede um projeto de sequenciamento . . . 27

2.6.2 Pipelinepara um projeto de sequenciamento Sanger . . . 28

2.6.3 Projetos transcritoma . . . 29

3 Sequenciadores Massivamente Paralelos 31 3.1 454-FLX Roche . . . 31

3.2 Illumina Solexa . . . 34

4 Softwares epipelinespara Sequenciadores Massivamente Paralelos 37 4.1 Softwares para submiss ˜ao . . . 37

4.1.1 Software para submiss ˜ao do sequenciador 454 . . . 37

4.1.2 Software para submiss ˜ao do sequenciador Illumina . . . 41

4.2 Softwares para mapeamento . . . 41

4.3 Softwares para montagem . . . 42

4.4 Softwares para anotac¸ ˜ao . . . 45

4.5 Pipelinespara sequenciadores de alto desempenho . . . 47

(9)

5 Proposta depipelinepara o Sequenciador 454 e Estudo de Caso 49

5.1 Estrutura geral dopipeline. . . 49

5.1.1 Subsistema de submiss ˜ao . . . 50

5.1.2 Subsistema de mapeamento . . . 51

5.1.3 Subsistema de montagem . . . 52

5.1.4 Subsistema de anotac¸ ˜ao . . . 52

5.2 Detalhes t´ecnicos . . . 53

5.2.1 A camada de persistˆencia . . . 53

5.2.2 Armazenamento de informac¸˜oes . . . 54

5.3 Aplicac¸ ˜ao dopipelinecom dados deSalmonella enterica . . . 55

6 Conclus ˜oes e Trabalhos Futuros 57

Refer ˆencias 59

(10)

Lista de Figuras

2.1 Estrutura geral dos amino ´acidos . . . 17 2.2 Ligac¸ ˜ao pept´ıdica entre dois amino ´acidos. . . 18 2.3 Os diversos n´ıveis estruturais de uma prote´ına, sendo mostradas em

azul as sec¸˜oes correspondentes entre cada n´ıvel. . . 19 2.4 Estrutura dos 20 amino ´acidos encontrados na natureza. . . 20 2.5 Representac¸ ˜ao esquem ´atica da estrutura de um nucleot´ıdeo, mos-

trando seus principais componentes: ac¸ ´ucar, fosfato e base. . . 21 2.6 Os ac¸ ´ucares encontrados nos ´acidos nucl´eicos. S ˜ao mostradas as

numerac¸˜oes dos ´atomos de carbono e destacados os carbonos 3 e 5, atrav´es das quais uma orientac¸ ˜ao dos ´acidos nucl´eicos pode ser obtida. 22 2.7 Estrutura espacial das mol´eculas de DNA e RNA, em conjunto com a

estrutura qu´ımica das bases nitrogenadas . . . 23 2.8 Associac¸ ˜ao entre trincas de bases (c´odons) e amino ´acidos. Consulte

a Figura 2.4 para a ligac¸ ˜ao entre o c´odigo de trˆes letras e o nome e estrutura dos amino ´acidos. . . 25 3.1 Processo de sequenciamento utilizado pelo sequenciador 454/Roche [19] 33 3.2 Vis ˜ao esquem ´atica do processo de amplificac¸ ˜ao do DNA utilizado pelo

sequenciador Illumina/Solexa [19]. . . 35 3.3 Processo de determinac¸ ˜ao de uma base do sequenciador Illumina/Solexa [19]. 36 4.1 Exemplo de grafos dede Bruijne o relacionamento entre eles. . . 46 4.2 Pipeline de software para novos sequenciadores com a fase de mape-

amento. . . 48 4.3 Pipeline de software para novos sequenciadores sem a fase de mape-

amento. . . 48 4.4 Pipeline de software para novos sequenciadores com as fases de sub-

miss ˜ao, mapeamento e anotac¸ ˜ao. . . 48 5.1 Diagrama esquem ´atico mostrando o fluxo das informac¸˜oes pelopipe-

linee os programas utilizados em cada fase. . . 50 5.2 Hierarquia das classes b ´asicas de comando utilizadas na camada de

persistˆencia . . . 54 5.3 Tabelas utilizadas no prot´otipo depipeline desenvolvido . . . 55

(11)

Lista de Tabelas

4.1 Lista de programas de mapeamento e respectivos enderec¸os web onde mais informac¸˜oes podem ser obtidas (Adaptado de [29]). . . 42 4.2 Tabela com dados de montadores para sequenciadores massivamente

paralelos. . . 44 5.1 N ´umero de sequˆencias tratadas em cada etapa do pipeline e tempo

necess ´ario para execuc¸ ˜ao de cada etapa. . . 56

(12)

Cap´ıtulo 1 Introduc¸ ˜ ao

A descoberta da estrutura espacial da mol´ecula de DNA por Watson e Crick [32]

abriu novos horizontes para as ciˆencias da vida, em especial no que tange ao enten- dimento das diversas caracter´ısticas em n´ıvel molecular dos seres vivos no mundo.

Como um reposit´orio das informac¸˜oes necess ´arias `a construc¸ ˜ao de prote´ınas de um dado organismo, o DNA assumiu um papel central em pesquisas biol´ogicas, e pro- piciou o surgimento de diversas novas disciplinas, entre elas a Biologia Molecular.

A Biologia Molecular busca explicar os fenˆomenos gen´eticos em termos das leis qu´ımicas e f´ısicas conhecidas [30].

1.1 Contextualizac¸ ˜ ao

A partir dos estudos feitos em Biologia Molecular, verificou-se que as informac¸˜oes necess ´arias `a s´ıntese de prote´ınas em um dado organismo est ˜ao armazenadas no seu DNA, e a passagem do DNA de gerac¸ ˜ao a gerac¸ ˜ao permite que as esp´ecies se mantenham essencialmente inalteradas com o passar do tempo. Dessa forma, a determinac¸ ˜ao da informac¸ ˜ao contida no DNA tornou-se um importante meio no estudo das caracter´ısticas dos seres vivos.

Para descobrir a informac¸ ˜ao armazenada no DNA deve-se identificar a sua sequˆencia de bases, o que ´e feito por meio de t´ecnicas de sequenciamento. No entanto, o trabalho envolvido na determinac¸ ˜ao de tais bases ´e, em geral, muito grande. Assim, para a determinac¸ ˜ao das bases do DNA de um organismo s ˜ao cons- titu´ıdos os projetos genoma, formados por equipes de diversas ´areas com o objetivo comum de decodificar e analisar a informac¸ ˜ao presente no DNA. Atualmente, mais de 1000 projetos genoma foram conclu´ıdos e aproximadamente 6000 est ˜ao em an- damento, o que mostra a grande import ˆancia do estudo das informac¸˜oes contidas no DNA [12].

Entre os diversos projetos genoma j ´a conclu´ıdos, podemos destacar o Projeto Genoma Humano (PGH), uma iniciativa no sentido de determinar todos os pares de bases do DNA humano. Ap´os nove anos de trabalho envolvendo diversas or- ganizac¸˜oes e pa´ıses, em 2001 foi publicado um rascunho do genoma humano pelo Cons´orcio Genoma Humano [3] [9]. Al´em de ter estimulado um grande desenvolvi- mento das t´ecnicas de sequenciamento de DNA, o PGH impulsionou uma s´erie de outros projetos genoma, com o objetivo de estudar organismos similares ao humano

(13)

e/ou com caracter´ısticas significativas dentro de uma determinada classificac¸ ˜ao ta- xonˆomica.

No Brasil, o primeiro projeto genoma conclu´ıdo com sucesso foi o sequenciamen- to do genoma completo da bact´eriaXylella fastidiosa[8], causadora de uma doenc¸a em plantas conhecida como amarelinho com enormes preju´ızos na cultura de la- ranja, cerca de 30% dos laranjais paulistas s ˜ao afetados por essa doenc¸a. No caso espec´ıfico da Regi ˜ao Centro-Oeste, um grande impulso foi dado com a implantac¸ ˜ao do projeto Rede Genoma Centro-Oeste. Este projeto foi submetido ao MCT/CNPq, tendo sido aprovado como uma das oito unidades regionais brasileiras para o se- quenciamento de genomas. Foi iniciado em 2001 e conclu´ıdo em 2004, tanto em relac¸ ˜ao aos experimentos realizados nos laborat´orios de biologia molecular quanto no tocante ao desenvolvimento de um sistema computacional para armazenamento e tratamento das informac¸˜oes biol´ogicas.

At´e recentemente, os projetos genoma utilizavam principalmente a t´ecnica de sequenciamento Sanger, assim nomeada em homenagem a Frederick Sanger, cria- dor da t´ecnica [25]. Nesta t´ecnica, a mol´ecula de DNA ´e primeiramente fragmen- tada em diversos pedac¸os. Ap´os isso, s ˜ao feitas diversas c´opias dos fragmentos de DNA, seja por meio de reac¸˜oes qu´ımicas envolvendo diversas enzimas ou inserindo o fragmento desejado de DNA em v´ırus ou bact´erias e utilizando a capacidade re- produtiva dos mesmos para a realizac¸ ˜ao das diversas c´opias necess ´arias [26]. Ap´os isso, uma t´ecnica conhecida como gel eletroforese ´e utilizada para a determinac¸ ˜ao das bases de DNA. Esta ´ultima t´ecnica ´e automatizada, permitindo a determinac¸ ˜ao das bases de maneira r ´apida e menos sujeita a erros. Uma vantagem do sequen- ciamento Sanger ´e o tamanho dos fragmentos que podem ser sequenciados de cada vez, que pode chegar a at´e 1000 bases.

Durante d´ecadas, esta foi praticamente a ´unica t´ecnica utilizada nestes proje- tos. Apesar de ser uma t´ecnica relativamente barata, custando apenas US$ 0,001 para cada base sequenciada [28], este custo se torna proibitivo quando se tenta sequenciar genomas muito grandes, da ordem de bilh˜oes de bases de DNA. Como em geral o sequenciamento de DNA ´e feito mais de uma vez, o custo desses pro- jetos se torna muito alto para ser vi ´avel com sequenciamento Sanger. Assim, a comunidade cient´ıfica percebeu a necessidade de um novo m´etodo mais barato de sequenciamento.

Recentemente, novos sequenciadores de alto desempenho surgiram para aten- der a esta necessidade. Estes sequenciadores produzem uma quantidade imensa de dados, a uma frac¸ ˜ao do custo dos sequenciadores Sanger, por exemplo, labo- rat´orios cobram US$ 0,0002 para cada base obtida com o sequenciador 454. Elas obt´em tal desempenho ao realizar o sequenciamento de milh˜oes de sequˆencias de DNA em paralelo, utilizando uma s´erie diversas de t´ecnicas, tais como pirosequen- ciamento e sequenciamento por s´ıntese. Como exemplos desses sequenciadores de alto desempenho podemos citar o 454-FLX da Roche, o Illumina da Solexa, e o So- lid. Atualmente, o Brasil disp˜oe de quatro sequenciadores de alto desempenho, sendo um 454 em S ˜ao Paulo, outro em Bras´ılia e um ´ultimo no LNCC(RJ), e um Illumina localizado em Bras´ılia.

Diversos projetos cient´ıficos est ˜ao sendo montados para fazer uso desta nova tecnologia e assim permitir o desenvolvimento de vacinas e rem´edios, aumento

(14)

da produtividade na agricultura e pecu ´aria e uma melhor compreens ˜ao sobre as caracter´ısticas biol´ogicas de diversos seres vivos de interesse.

Nesse contexto, a criac¸ ˜ao de umpipelinepara realizar o processamento de dados dos novos sequenciadores ajudaria tais projetos a obter resultados mais confi ´aveis em um espac¸o de tempo menor, melhorando assim o uso dos recursos.

1.2 Problema

O uso dos novos sequenciadores abre diversas fronteiras para a pesquisa biol´ogica derivada do sequenciamento de DNA. No entanto, os dados produzidos por tais sequenciadores possuem caracter´ısticas muito diversas dos dados oriundos dos se- quenciadores Sanger, tornando muito dif´ıcil a adaptac¸ ˜ao dos programas utilizados em an ´alise computacional de dados de sequenciadores Sanger. Mesmo assim, o baixo custo e a grande quantidades de dados s ˜ao motivos suficientemente fortes para o desenvolvimento de novos m´etodos para processamento desses dados, e de fato, diversos programas para tratamento de sequˆencias dos novos sequenciadores j ´a foram desenvolvidos.

1.3 Hip ´ oteses

Como os novos sequenciadores permitem um custo mais baixo de sequenciamento, espera-se um grande aumento na quantidade de dados a serem processados por sis- temas de bioinform ´atica. Com o sequenciamento paralelo, a quantidade de dados de sequenciamento produzida por unidade de tempo tamb´em tende a aumentar.

Dadas essas considerac¸˜oes, ´e improv ´avel um processamento eficaz deste enorme volume de dados gerados em um tempo menor, por meio de programas seriais ou sistemas baseados em processamento serial. De fato, assumimos como hip´otese que nas diferentes fases de processamento das sequˆencias biol´ogicas produzidas dever ˜ao ser adotadas t´ecnicas de processamento paralelo e/ou distribu´ıdo para a an ´alise dos dados em tempo h ´abil. Al´em disso, o armazenamento e recuperac¸ ˜ao de dados nesse novo contexto deve ser repensado.

1.4 Objetivos

Nesse contexto, nosso objetivo ´e a criac¸ ˜ao de um prot´otipo de pipeline de software para an ´alise de transcritomas produzidos por sequenciadores de alto desempenho.

Tal pipeline ser ´a aplicado nos dados produzidos pelos sequenciadores 454 e Illu- mina, recentemente adquiridos pela Fundac¸ ˜ao de Apoio `a Pesquisa do Distrito Fe- deral (FAP-DF). Ap´os a conclus ˜ao de tal trabalho, objetivamos a escrita de um ar- tigo cientif´ıco junto aos biol´ogos da Universidade de Bras´ılia (UnB) para estender o conhecimento cient´ıfico neste novo ramo de pesquisas.

(15)

1.5 Descric¸ ˜ oes dos Cap´ıtulos

No Cap´ıtulo 2 apresentamos os diversos conceitos de Biologia Molecular necess ´a- rios ao desenvolvimento do presente trabalho e expomos os principais aspectos da bioinform ´atica, a disciplina espec´ıfica onde este trabalho se encontra. Al´em disso detalhamos alguns tipos de projetos de sequenciamento onde este trabalho ser ´a aplicado.

A seguir o Cap´ıtulo 3 mostra de forma resumida o funcionamento de alguns dos novos sequenciadores, apontando caracter´ısticas espec´ıficas advindas do m´etodo utilizado por cada um.

Para realizar a montagem dopipeline, ´e necess ´ario utilizar ou adaptar softwares para realizar o processamento dos dados dos sequenciadores de alto desempenho.

No Cap´ıtulo 4 analisamos os diversos softwares dispon´ıveis na literatura. Al´em disso, apresentamos o m´etodo de pipeline a ser adotado no projeto de genomas baseado em sequenciadores de alto desempenho.

O Cap´ıtulo 5 apresenta a estrutura dopipelinee sua aplicac¸ ˜ao em um estudo de caso feito a partir de sequˆencias deSalmonella obtidas com o sequenciador 454.

Por fim no Cap´ıtulo 6 apresentamos as conclus˜oes e trabalhos futuros.

(16)

Cap´ıtulo 2

Conceitos B ´ asicos em Biologia Molecular

Neste cap´ıtulo ser ˜ao definidos os conceitos b ´asicos de biologia molecular necess ´arios ao entendimento deste trabalho. A Sec¸ ˜ao 2.1 discute de forma breve o conceito de vida e apresenta as motivac¸˜oes para o estudo dos conceitos expostos nas pr´oximas sec¸˜oes. A Sec¸ ˜ao 2.2 apresenta os principais conceitos referentes `as prote´ınas em um ser vivo, enfatizando o importante papel exercido pelas mesmas. Na Sec¸ ˜ao 2.3, s ˜ao apresentados os conceitos importantes relativos a ´acidos nucl´eicos e detalhados os dois principais ´acidos encontrados nos seres vivos, o DNA e o RNA. A Sec¸ ˜ao 2.4, define genes e apresenta o c´odigo gen´etico utilizado na traduc¸ ˜ao das bases do DNA em prote´ınas. Na Sec¸ ˜ao 2.5 ´e exposto o dogma central da biologia molecular, ou o processo atrav´es do qual as informac¸˜oes contidas no DNA s ˜ao utilizadas para a s´ıntese de prote´ınas. Finalmente, a Sec¸ ˜ao 2.6 detalha os conceitos relativos `a Bioinform ´atica, ´area onde este trabalho se insere.

2.1 Vida

De acordo com pesquisas, a vida na Terra comec¸ou a cerca de 3,5 bilh˜oes de anos.

Desde ent ˜ao, os seres vivos vˆem sofrendo constantes mutac¸˜oes devido a um pro- cesso chamado evoluc¸ ˜ao, onde os mesmos tentam se adaptar `as condic¸˜oes do ambi- ente [5]. Mas o que ´e a vida, como podemos defin´ı-la? De maneira muito simplista, neste trabalho diremos que todo ser que troca constantemente mat´eria e energia com o ambiente est ´a vivo. Embora imperfeita, tal definic¸ ˜ao servir ´a a todos os nos- sos prop´ositos.

Apesar das formas de vida variarem muito em tamanho e complexidade, todas possuem uma qu´ımica molecular b ´asica, ou bioqu´ımica. Os principais componen- tes desta qu´ımica s ˜ao as prote´ınas e os ´acidos nucl´eicos. As prote´ınas realizam diversas func¸˜oes necess ´arias `a manutenc¸ ˜ao da vida, como catalisac¸ ˜ao de reac¸˜oes e transporte de nutrientes, entre muitas outras. J ´a os ´acidos nucl´eicos cont´em a informac¸ ˜ao necess ´aria para a s´ıntese de prote´ınas e a passagem dessa informac¸ ˜ao de gerac¸ ˜ao para gerac¸ ˜ao permite que as esp´ecies permanec¸am essencialmente inal- teradas por longos per´ıodos de tempo.

A seguir discutiremos em mais detalhes esses componentes essenciais `a vida.

(17)

2.2 Prote´ınas

As prote´ınas s ˜ao pol´ımeros (mol´eculas grandes formadas pelo encadeamento de mol´eculas mais simples) com uma gama muito vasta de func¸˜oes nos seres vivos, variando desde o transporte de nutrientes e eliminac¸ ˜ao de res´ıduos t´oxicos, at´e a construc¸ ˜ao de estruturas complexas. Al´em disso, prote´ınas chamadas enzimas s ˜ao respons ´aveis por catalisar, ou acelerar, a ocorrˆencia de reac¸˜oes qu´ımicas ne- cess ´arias `a vida. Sem essas enzimas, diversas reac¸˜oes importantes a manutenc¸ ˜ao da vida ocorreriam muito lentamente, encerrando-a completamente. Como se vˆe, as func¸˜oes das prote´ınas s ˜ao essenciais a manutenc¸ ˜ao de um ser vivo, compreendˆe- las significa tamb´em compreender o funcionamento de um dado organismo que sintetiza essas prote´ınas. Para melhor entendˆe-las ´e necess ´ario, no entanto, um conhecimento b ´asico sobre a estrutura das mesmas.

As prote´ınas s ˜ao formadas a partir do encadeamento de mol´eculas mais sim- ples chamadas amino ´acidos. A estrutura geral de um amino ´acido ´e mostrada na Figura 2.1. Nessa figura s ˜ao mostrados os principais elementos de um amino ´acido, a saber: um carbono central, ou carbono alfa(Cα) onde se ligam um grupo amina, um grupo carboxila e uma cadeia lateral (denotada na figura como R).

Figura 2.1: Estrutura geral dos amino ´acidos

Os amino ´acidos diferem entre si pela estrutura da cadeia lateral, que varia desde um ´unico ´atomo de hidrogˆenio at´e an´eis carbˆonicos. Existem 20 amino ´acidos diferentes na natureza e toda prote´ına, n ˜ao importa sua complexidade, ´e formada a partir destes 20 amino ´acidos b ´asicos. A Figura 2.4 mostra a estrutura dos vinte amino ´acidos, junto com os c´odigos de uma e trˆes letras utilizados para designar os mesmos.

(18)

Para formar uma prote´ına, os amino ´acidos encadeiam-se atrav´es de ligac¸˜oes qu´ımicas chamadas ligac¸˜oes pept´ıdicas. Nessa ligac¸ ˜ao, o carbono do grupo carbo- xila de um amino ´acido liga-se ao ´atomo de nitrogˆenio do grupo amina de um outro amino ´acido, liberando uma mol´ecula de ´agua no processo. Ap´os essa ligac¸ ˜ao, o que resta ´e um res´ıduo dos amino ´acidos originais, por causa disso falamos em uma prote´ına com 200 res´ıduos, e n ˜ao 200 amino ´acidos. A Figura 2.2 mostra esquema- ticamente a ligac¸ ˜ao pept´ıdica entre dois amino ´acidos quaisquer, os ´atomos em ver- melho s ˜ao os ´atomos perdidos pelas mol´eculas ap´os a ligac¸ ˜ao, e em verde ´e mostrado o ponto onde a ligac¸ ˜ao molecular entre os amino ´acidos ´e estabelecida. Assim, uma dada prote´ına ´e formada pela ligac¸ ˜ao pept´ıdica entre seus diversos amino ´acidos, po- dendo ser composta por um n ´umero muito grande desses. Dado que uma prote´ına ´e, sob certo ponto de vista, uma sequˆencia de amino ´acidos, toda prote´ına pode ser des- crita e identificada de forma ´unica pela sequˆencia de amino ´acidos que a comp˜oem.

Figura 2.2: Ligac¸ ˜ao pept´ıdica entre dois amino ´acidos.

Embora uma prote´ına possa ser identificada univocamente pela sequˆencia de amino ´acidos que a forma, as prote´ınas n ˜ao s ˜ao cadeias lineares de amino ´acidos.

Forc¸as moleculares atuando entre amino ´acidos pr´oximos e grupos de amino ´acidos d ˜ao `a uma prote´ına uma forma espacial bem definida. Essa forma espacial pode ser visualizada em diferentes n´ıveis, assim falamos nos n´ıveis estruturais de uma dada prote´ına, a saber:

1. O n´ıvel prim ´ario, formado apenas pela sequˆencia linear de amino ´acidos.

2. O n´ıvel secund ´ario, onde existem arranjos espaciais de amino ´acidos pr´oximos na cadeia.

(19)

3. O n´ıvel terci ´ario, onde existem arranjos espaciais dos amino ´acidos fisicamente distantes na cadeia (estrutura tri-dimensional).

4. O n´ıvel quarten ´ario, a estrutura espacial formada pela uni ˜ao e interac¸ ˜ao entre diversas prote´ınas.

A Figura 2.3 d ´a um exemplo de cada um desses n´ıveis e mostra a relac¸ ˜ao entre os mesmos em uma prote´ına hipot´etica.

Figura 2.3: Os diversos n´ıveis estruturais de uma prote´ına, sendo mostradas em azul as sec¸˜oes correspondentes entre cada n´ıvel.

A import ˆancia do estudo do formato tridimensional das prote´ınas reside na observac¸ ˜ao de uma ´ıntima conex ˜ao entre o formato de uma prote´ına e a func¸ ˜ao exercida pela mesma. De fato, as diversas h´elices e dobras formam uma estrutura

´

unica capaz de se ligar a um grupo de mol´eculas, podendo essas serem componen- tes de uma reac¸ ˜ao qu´ımica ou ainda outras prote´ınas que formam estruturas mais complexas [26]. Algumas ligac¸˜oes s ˜ao t ˜ao espec´ıficas que ´e utilizado o termo ligac¸ ˜ao chave-fechadura para as mesmas.

Dada a sua imensa import ˆancia, as prote´ınas s ˜ao constantemente fabricadas pelos seres vivos, desde os procariotos mais simples at´e os eucariotos mais comple- xos. Entender o processo de s´ıntese das mesmas ´e, portanto, essencial no sentido de auxiliar na identificac¸ ˜ao e descoberta das mesmas. Tal processo est ´a intimamente ligado a mol´eculas conhecidas como ´acidos nucl´eicos, explicados a seguir.

(20)

Figura 2.4: Estrutura dos 20 amino ´acidos encontrados na natureza.

(21)

2.3 Acidos nucl ´eicos ´

Assim como as prote´ınas, os ´acidos nucl´eicos tamb´em s ˜ao pol´ımeros formados a partir de mol´eculas mais simples, os nucleot´ıdeos. Um nucleot´ıdeo ´e formado por um ac¸ ´ucar composto por cinco ´atomos de carbono (pentose), ligado a um grupo fosfato e uma base nitrogenada. ( Figura 2.5).

Figura 2.5: Representac¸ ˜ao esquem ´atica da estrutura de um nucleot´ıdeo, mostrando seus principais componentes: ac¸ ´ucar, fosfato e base.

As ligac¸˜oes entre diferentes nucleot´ıdeos para a formac¸ ˜ao de ´acidos nucl´eicos se d ´a atrav´es dos grupos fosfatos, por meio de uma ligac¸ ˜ao chamada ligac¸ ˜ao fos- fodi´ester. Nesse tipo de ligac¸ ˜ao o ´atomo de f´osforo do grupo fosfato estabelece fortes ligac¸˜oes covalentes com os ´atomos de carbono da pentose dos nucleot´ıdeos. Essa pentose tem os ´atomos numerados de 1 at´e 5, assim ´e poss´ıvel identificar os ´atomos de carbono participantes nas ligac¸˜oes fosfodi´ester. A Figura 2.6 mostra as duas principais pentoses encontradas nos seres vivos.

2.3.1 DNA

O DNA ´e um ´acido nucl´eico cuja principal func¸ ˜ao biol´ogica ´e o armazenamento das informac¸˜oes necess ´arias a s´ıntese das prote´ınas de um organismo. Esse ´acido ´e formado por nucleot´ıdeos com a pentose 2-desoxirribose (Figura 2.6 (a)) e as bases s ˜ao quatro, a saber: adenina (A), timina (T), citosina (C) e guanina (G).

A mol´ecula de DNA tem o formato espacial de duas fitas (ou cadeias) de ´acidos nucl´eicos unidos pelas bases nitrogenadas formando uma espiral que gira no sen- tido da m ˜ao direita [32]. A Figura 2.7 apresenta uma vis ˜ao desse formato espacial, em conjunto com a estrutura das bases nitrogenadas do DNA. As fitas do DNA s ˜ao ditas complementares, pois a cada base presente em uma fita corresponde uma base complementar na fita oposta. As bases adenina e timina s ˜ao complementares entre si, o mesmo valendo para a citosina e a guanina.

(22)

Figura 2.6: Os ac¸ ´ucares encontrados nos ´acidos nucl´eicos. S ˜ao mostradas as numerac¸˜oes dos ´atomos de carbono e destacados os carbonos 3 e 5, atrav´es das quais uma orientac¸ ˜ao dos ´acidos nucl´eicos pode ser obtida.

(23)

Figura 2.7: Estrutura espacial das mol´eculas de DNA e RNA, em conjunto com a estrutura qu´ımica das bases nitrogenadas

(24)

2.3.2 RNA

O RNA ´e o outro ´acido nucl´eico encontrado nos seres vivos. Em contraste com o DNA, a pentose presente em seus nucleot´ıdeos ´e a ribose (Figura 2.6 (b)), outra diferenc¸a significativa ´e a presenc¸a da base nitrogenada uracila (U) em substituic¸ ˜ao

`a timina. A mol´ecula de RNA tem uma ´unica cadeia (fita) de nucleot´ıdeos e n ˜ao assume uma forma espacial bem definida, tendo diversos formatos de acordo com a func¸ ˜ao exercida por ela. Dessa forma, diversas classes de RNA s ˜ao encontradas nas c´elulas dos seres vivos. A Figura 2.7 mostra uma poss´ıvel disposic¸ ˜ao espacial de uma mol´ecula de RNA.

O RNA ribossˆomico (rRNA) ´e respons ´avel pela constituic¸ ˜ao de ribossomos, or- ganelas celulares cujo prop´osito ´e a construc¸ ˜ao de prote´ınas. O RNA mensageiro (mRNA) carrega as informac¸˜oes para a s´ıntese de prote´ınas do DNA para os ri- bossomos. Finalmente, o RNA transportador (tRNA) ´e respons ´avel por trazer ao ribossomo os amino ´acidos necess ´arios para formar uma prote´ına.

2.4 Genes e cromossomos

Como visto, toda a informac¸ ˜ao necess ´aria a produc¸ ˜ao das prote´ınas de um dado ser vivo est ´a presente em seu DNA. Mais especificamente, essa informac¸ ˜ao est ´a dis- persa pela sequˆencia de bases presentes nas fitas do DNA. Embora o DNA arma- zene as informac¸˜oes necess ´arias `a produc¸ ˜ao de prote´ınas, nem todas as sequˆencias de nucleot´ıdeos do DNA codificam essa informac¸ ˜ao. Para cada prote´ına sintetizada por um organismo, existe uma porc¸ ˜ao de DNA correspondente onde est ˜ao presentes os dados para sua fabricac¸ ˜ao. A esta porc¸ ˜ao de DNA contendo a informac¸ ˜ao de uma prote´ına damos o nome de gene. Os genes s ˜ao distribu´ıdos atrav´es das grandes mol´eculas de DNA, chamadas de cromossomos. O n ´umero e o tamanho dos cromos- somos varia de esp´ecie para esp´ecie, e n ˜ao est ´a diretamente ligado a complexidade da mesma.

Ent ˜ao, os genes armazenam a informac¸ ˜ao necess ´aria para s´ıntese de uma pro- te´ına. Conforme visto na Sec¸ ˜ao 2.2, uma dada sequˆencia de amino ´acidos permite a identificac¸ ˜ao precisa de uma prote´ına. No caso dos genes, os amino ´acidos s ˜ao codificados por meio de trincas de nucleot´ıdeos, conhecidas como c´odons. Cada trinca corresponde a um amino ´acido. Como existem 4 bases nitrogenadas no DNA,

´e poss´ıvel formar 64 trincas diferentes, no entanto existem apenas 20 amino ´acidos na natureza. A consequˆencia disso ´e que diversos amino ´acidos s ˜ao codificados por mais de um c´odon. Essa redund ˆancia permite diminuir o impacto das mutac¸˜oes, que s ˜ao alterac¸˜oes na sequˆencia de nucleot´ıdeos do DNA. Assim a informac¸ ˜ao pre- sente no DNA ´e conservada por um per´ıodo maior de tempo. A Figura 2.8 mostra a associac¸ ˜ao entre c´odons e amino ´acidos, na tabela do C´odigo Gen´etico. O STOP ´e um sinal especial utilizado para indicar o final do processo de s´ıntese de uma prote´ına.

Nessa figura, as bases mostradas n ˜ao s ˜ao bases do DNA, mas sim as bases do RNA.

Isso ocorre pois o RNA transporta a informac¸ ˜ao contida num gene para o local onde as prote´ınas ser ˜ao sintetizadas, processo que ser ´a detalhado a seguir.

(25)

Figura 2.8: Associac¸ ˜ao entre trincas de bases (c´odons) e amino ´acidos. Consulte a Figura 2.4 para a ligac¸ ˜ao entre o c´odigo de trˆes letras e o nome e estrutura dos amino ´acidos.

2.5 Dogma central da Biologia Molecular

Nesta sec¸ ˜ao explicaremos como as informac¸˜oes presentes em uma dada mol´ecula de DNA s ˜ao utilizadas na c´elula para a s´ıntese de uma prote´ına.

O processo de s´ıntese de uma prote´ına comec¸a atrav´es do reconhecimento do in´ıcio de um gene grac¸as a uma pequena regi ˜ao do DNA sinalizando o in´ıcio de um gene, chamada promotor. Tendo localizado o gene, a c´elula copia a informac¸ ˜ao do gene criando uma mol´ecula de RNA complementar a uma das fitas de DNA. Esta mol´ecula de RNA ´e chamada de RNA mensageiro ou mRNA. Assim o mRNA possui a mesma sequˆencia de uma das fitas de DNA, mas tendo a base U no lugar da T.

Este processo ´e chamado de transcric¸ ˜ao.

O processo de transcric¸ ˜ao descrito acima ´e v ´alido para seres chamados de proca- riotos, organismos sem n ´ucleo celular e com o DNA flutuando livremente na c´elula.

J ´a em organismos chamados eucariotos, seres onde o DNA est ´a armazenado em um n ´ucleo celular, o processo de transcric¸ ˜ao ´e um pouco mais complexo. Os ge- nes dos seres eucariotos s ˜ao compostos de duas partes, os ´ıntros e os ´exons. Ap´os a transcric¸ ˜ao, os ´ıntrons s ˜ao removidos do mRNA. Sendo assim, em um organis- mo eucarioto, nem todas as bases de um gene s ˜ao utilizadas na transcric¸ ˜ao. Ao DNA contendo todas as bases do gene denominamos DNA genˆomico , e `as bases do DNA presentes no mRNA ap´os a remoc¸ ˜ao dos ´ıntrons chamamos DNA codificador (cDNA).

Feita a transcric¸ ˜ao, a prote´ına ser ´a sintetizada em estruturas celulares chama- das de ribossomos. Os ribossomos s ˜ao estruturas compostas de prote´ınas e um tipo especial de RNA, chamado de RNA ribossˆomico e abreviado como rRNA. Os ribos-

(26)

somos funcionam como linhas de montagem de prote´ınas, lendo a informac¸ ˜ao para s´ıntese do mRNA e utilizando mol´eculas conhecidas como RNA transportadores (tRNA) para realizar a traduc¸ ˜ao dos c´odons para os amino ´acidos correspondentes.

Mecanismos celulares realizam a junc¸ ˜ao dos diversos amino ´acidos.

Mais detalhadamente, os RNAs s ˜ao as mol´eculas respons ´aveis por efetuar a conex ˜ao entre os c´odons e os amino ´acidos correspondentes, em um processo cha- mado traduc¸ ˜ao. Cada tRNA ´e composto de duas partes, uma delas possui afinidade qu´ımica `a um dado c´odon, enquanto a outra liga-se com facilidade ao amino ´acido correspondente ao c´odon. Conforme a fita de mRNA passa pelo ribossomo, um tRNA correspondente ao c´odon sendo lido pelo ribossomo liga-se ao c´odon em ques- t ˜ao, trazendo consigo o amino ´acido correspondente. Uma enzima ent ˜ao catalisa a ligac¸ ˜ao pept´ıdica para adicionar o amino ´acido em quest ˜ao `a prote´ına. A s´ıntese prossegue assim, um amino ´acido de cada vez, parando apenas quando um c´odon do tipo STOP ´e encontrado. Quando isso ocorre, a prote´ına desliga-se do ribossomo e ´e liberada na c´elula. O mRNA ´e degradado para posterior reaproveitamento dos seus componentes.

2.6 Bioinform ´ atica

A Bioinform ´atica ´e um campo interdisciplinar envolvendo as ´areas de Biologia Mo- lecular, Estat´ıstica, Matem ´atica e Ciˆencia da Computac¸ ˜ao com o objetivo de reali- zar a an ´alise de dados biol´ogicos, entre eles sequˆencias de bases de DNA e genes, e predizer a estrutura e func¸ ˜ao de diversas macromol´eculas [22].

Apesar de ampla, esta definic¸ ˜ao n ˜ao deve ser confundida com Biologia Compu- tacional. A Biologia Computacional preocupa-se com o desenvolvimento de algorit- mos r ´apidos e eficientes para a resoluc¸ ˜ao de diversos problemas biol´ogicos poss´ıveis de serem tratados por meio de t´ecnicas computacionais. Um exemplo ´e problema do alinhamento de sequˆencias de DNA, que tem entre suas diversas soluc¸˜oes o conhe- cido algoritmo de Smith-Waterman [27], em homenagem aos criadores do mesmo.

J ´a a Bioinform ´atica tem como foco principal o desenvolvimento de ferramentas para realizar o armazenamento e manipulac¸ ˜ao dos dados biol´ogicos gerados du- rante um projeto de sequenciamento. Com o atual volume de dados produzidos pelos projetos de sequenciamento, a utilizac¸ ˜ao de ferramentas computacionais traz grandes aux´ılios aos bi´ologos, ao permitir a recuperac¸ ˜ao r ´apida dos dados armaze- nados de um projeto genoma e apresentar os resultados de maneira a facilitar a an ´alise dos mesmos e assim auxiliar na descoberta de func¸˜oes para as sequˆencias obtidas.

Cabe notar que, apesar de serem disciplinas com objetivos distintos, ambas se complementam. Os algoritmos desenvolvidos pela Biologia Computacional s ˜ao pos- teriormente incorporados pelas ferramentas de Bioinform ´atica, sendo utilizados pelas ´ultimas para realizar a an ´alise dos dados de um projeto. Assim, Biologia Computacional e Bioinform ´atica est ˜ao intimamente relacionadas, sendo dif´ıcil, as vezes, distingu´ı-las.

Como vimos, at´e recentemente os principais projetos genomas utilizam quase exclusivamente a t´ecnica de sequenciamento Sanger. Desta forma, muitas ferra-

(27)

mentas de bioinform ´atica dispon´ıveis eram otimizadas para o trabalho com estes dados. Embora os dados produzidos pelos novos sequenciadores de alto desempe- nho tenham caracter´ısticas diferentes dos dados obtidos com sequenciadores San- ger, o pipeline utilizado para processamento dos mesmos ´e conceitualmente muito parecido com o pipeline de projetos com sequenciamento Sanger. Dessa forma, o estudo de um pipeline conceitual ´e importante no sentido de fornecer uma base te´orica em relac¸ ˜ao ao trabalho realizado.

2.6.1 Pipeline de um projeto de sequenciamento

Em um projeto de sequenciament, temos em geral trˆes fases importantes: sub- miss ˜ao, montagem e anotac¸ ˜ao. A submiss ˜ao consiste no recebimento dos dados re- sultantes do processo de sequenciamento e no armazenamento de tais dados em um formato adequado para posterior processamento computacional. Entre os v ´arios dados obtidos nesta fase, destacam-se a sequˆencia de bases obtidas, em geral ar- mazenada como um arquivo texto contendo uma sequˆencia de letras, e os valores de qualidade para cada base das sequˆencias, utilizados em posteriores an ´alises para discriminar o qu ˜ao prov ´avel ´e o fato de a base obtida ser a verdadeira base do DNA do organismo.

Ap´os o recebimento de todas as sequˆencias na fase de submiss ˜ao, segue-se para a etapa de montagem. A montagem consiste no uso de um ou mais programas para tentar unir os diversos fragmentos de DNA obtidos durante o sequenciamento e assim tentar recriar as sequˆencias de DNA originais. Em geral, tal processo n ˜ao consegue remontar perfeitamente o DNA fragmentado. Sequˆencias de DNA (consenso) obtidas pela uni ˜ao de dois ou mais fragmentos (chamadas contigs), e sequˆencias n ˜ao agrupadas com outras (chamadas singlets). Feita a montagem do DNA sequenciado, segue-se para a etapa de anotac¸ ˜ao.

A fase de anotac¸ ˜ao constitui a ´ultima fase de um pipeline de sequenciamento.

Nesta fase, o objetivo ´e descobrir as diversas func¸˜oes biol´ogicas do DNA sequenci- ado, bem como identificar genes ainda n ˜ao descobertos, entre outras importantes func¸˜oes. Para realizar essas tarefas, em geral dividimos a anotac¸ ˜ao em duas eta- pas distintas. A anotac¸ ˜ao autom ´atica ´e executada primeiro e consiste em tentar inferir as func¸˜oes biol´ogicas das sequˆencias de DNA atrav´es de m´etodos computa- cionais. N ˜ao obstante, a t´ecnica mais comumente empregada neste passo consiste no uso de programas para comparac¸ ˜ao das sequˆencias obtidas com bancos de dados contendo sequˆencias cujas func¸˜oes j ´a s ˜ao conhecidas, tais como o BLAST [1]. Ape- sar do primeiro genoma completo s´o ter sido completado em 1976 [11], atualmente esses bancos de dados cont´em um n ´umero imenso de sequˆencias, e crescem diaria- mente. Feita a anotac¸ ˜ao autom ´atica, procede-se `a anotac¸ ˜ao manual. Nesta etapa, os biol´ogos verificam as inferˆencias feitas durante a anotac¸ ˜ao autom ´atica e as uti- lizam como um guia para a an ´alise das sequˆencias. Os biol´ogos podem confirmar, mudar ou recusar as sugest˜oes das anotac¸˜oes autom ´aticas. As sugest˜oes tamb´em podem ser utilizadas para a realizac¸ ˜ao de experimentos significativos ao trabalho de pesquisa do organismo.

Embora opipelinedescrito aqui seja gen´erico e adapt ´avel a uma s´erie de proje- tos com diferentes objetivos e t´ecnicas, cabe notar que em geral, o processamento

(28)

realizado em cada etapa ´e dividido em uma s´erie de programas de Biologia Com- putacional. A correta integrac¸ ˜ao desses programas no pipeline e a exposic¸ ˜ao dos resultados significativos s ˜ao uma preocupac¸ ˜ao da Bioinform ´atica. A seguir, apre- sentamos um exemplo de pipeline aplic ´avel em um projeto de sequenciamento ba- seado na t´ecnica Sanger, apresentando exemplos de programas a serem utilizados em cada uma das fases do pipeline.

2.6.2 Pipeline para um projeto de sequenciamento Sanger

Na fase de submiss ˜ao de um projeto genoma utilizando sequenciadores Sanger, ap´os a recepc¸ ˜ao dos arquivos contendo o resultado do sequenciamento, os mesmos s ˜ao processados pelo programa Phred [10]. Este programa traduz os dados pre- sentes no arquivo em uma sequˆencia de letras contendo as bases identificadas e a probalidade de erro associada a determinac¸ ˜ao de cada fase. Ap´os isso, o programa Phd2Fastacria para cada arquivo processado peloPhreddois arquivos texto no for- mato FASTA, um contendo a sequˆencia de bases nitrogenadas e outro contendo os valores das probabilidades de erro. As probabilidades de erro constituem valiosa informac¸ ˜ao pois permitem a remoc¸ ˜ao de sequˆencias cujas bases contˆem uma alta probabilidade de erro, podendo gerar resultados incorretos durante as pr´oximas fa- ses. Assim, embora v ´arias sequˆencias sejam recebidas durante a fase de submiss ˜ao, nem todas s ˜ao utilizadas nos pr´oximos passos. Para tanto, a sequˆencia deve pos- suir uma probabilidade de erro suficientemente baixa, determinada de acordo com cada projeto. Quanto menor essa probabilidade de erro, em geral menos sequˆencias ser ˜ao aceitas e maior o custo e confiabilidade dos dados do projeto.

Como o sequenciamento Sanger envolve a c´opia do DNA a ser sequenciado, mui- tas vezes, antes do sequenciamento propriamente dito, o DNA sequenciado pode conter sequˆencias n ˜ao pertencentes ao organismo sendo estudado. O programa Cross match identifica e retira vetores e contaminantes das sequˆencias. Por fim, uma an ´alise de redund ˆancia das sequˆencias submetidas pode ser feita atrav´es do programaCAP3[14], e os agrupamentos identificados por esse programa consistem em geral sequˆencias redundantes.

A montagem das sequˆencias pode ser feita atrav´es de programas como oCAP3 ou o Phrap. Estes programas geram arquivos FASTA contendo as sequˆencias de todos ossingletsidentificados, arquivos com dados sobre a composic¸ ˜ao e sequˆencias doscontigs, e informac¸˜oes gerais sobre a montagem dos fragmentos de DNA.

Por fim, o programaGlimmer[24] pode ser utilizado com o objetivo de identificar os poss´ıveis genes presentes nos contigs e singlets obtidos durante a montagem.

Este ´ultimo passo nem sempre ´e feito, pois alguns projetos trabalham com cDNAs de um dado organismo. Nesse caso, como as sequˆencias de DNA j ´a se constituem em genes, n ˜ao h ´a a necessidade de se utilizar o Glimmerpara identific ´a-los.

Por ´ultimo, utiliza-se o programa BLAST para comparar as sequˆencias identifi- cadas com bancos de dados de sequˆencias cujas func¸˜oes j ´a s ˜ao conhecidas na fase de anotac¸ ˜ao autom ´atica. Os bancos utilizados variam de acordo com o projeto e o or- ganismo sendo estudado. Feito isso, os biol´ogos podem proceder a anotac¸ ˜ao manual das sequˆencias de acordo com seus conhecimentos.

(29)

Durante todas as etapas anteriormente descritas, s ˜ao armazenadas estat´ısticas sobre o projeto em quest ˜ao, tais como n ´umero de sequˆencias aceitas e rejeitadas, n ´umero de contigs e singlets encontrados, entre muitos outras. Tamb´em s ˜ao ar- mazenadas as anotac¸˜oes manuais e autom ´aticas feitas durante o processo, e em alguns projetos, as mesmas s ˜ao armazenadas com o objetivo de verificar poss´ıveis erros cometidos durante o processamento dopipeline.

2.6.3 Projetos transcritoma

Como visto na Sec¸ ˜ao 2.5, a s´ıntese de uma prote´ına ocorre atrav´es da transcric¸ ˜ao das informac¸˜oes contidas no DNA em um RNA mensageiro e posterior traduc¸ ˜ao desta informac¸ ˜ao em amino ´acidos. Dizemos ent ˜ao que o gene codificando a prote´ına em quest ˜ao ´eexpresso. O conjunto dos RNAs mensageiros de uma c´elula ´e chamado de transcritoma, e projetos de sequenciamento visando a obtenc¸ ˜ao desses RNAs mensageiros s ˜ao conhecidos como projetos transcritoma.

A obtenc¸ ˜ao de todos os transcritomas de todas as c´elulas de um dado organismo

´e uma tarefa complexa, pois nem todos os genes s ˜ao expressos a todo momento. De fato, durante diferentes fases da vida de um organismo, diferentes genes s ˜ao ex- pressos em diferentes intensidades. Dessa forma, grande parte dos projetos trans- critoma envolvem o sequenciamento dos RNAs mensageiros em um dado estado da vida do organismo de interesse, podendo este ser durante o desenvolvimento de uma planta, a metamorfose de um inseto ou mesmo a ocorrˆencia de um c ˆancer.

Para a obtenc¸ ˜ao dos transcritomas, uma t´ecnica muito utilizada consiste em capturar os RNAs mensageiros de uma c´elula exposta `a dadas condic¸˜oes, e a partir da mesma gerar a sequˆencia de DNA cuja transcric¸ ˜ao originou o mRNA. Conforme exposto na Sec¸ ˜ao 2.5, essa fita de mRNA ´e complementar `a sequˆencia de DNA que a originou. Portanto, para obter a sequˆencia de nucleot´ıdeos efetivamente expressos durante a produc¸ ˜ao da prote´ına em quest ˜ao, basta obter o complemento desta fita de RNA. A sequˆencia de DNA obtida desta maneira, ´e conhecida como DNA codifi- cador ou cDNA. Para determinar os transcritomas, procede-se ao sequenciamento dos cDNAs, seja atrav´es do m´etodo Sanger, ou por meio dos novos sequenciadores de alto desempenho.

Uma das principais informac¸˜oes obtidas atrav´es dos transcritomas ´e o conjunto de prote´ınas expressas durante uma dada condic¸ ˜ao de um organismo, por exem- plo, durante uma infecc¸ ˜ao. Estas sequˆencias s ˜ao chamadas deExpressed Sequence Tags(ESTs). Os ESTs tem um importante papel na anotac¸ ˜ao de genomas, pois exp˜oem dados sobre as regi˜oes codificadoras de um genoma e provˆem uma primeira evidˆencia experimental da existˆencia de um gene predito por alguma ferramenta computacional.

No entanto, como os ESTs cont´em as sequˆencias de DNA efetivamente expres- sas em um dado momento, uma informac¸ ˜ao de interesse ´e a posic¸ ˜ao na mol´ecula de DNA de onde os ESTs provˆem. Em outras palavras, ´e interessante identificar a regi ˜ao do DNA cuja transcric¸ ˜ao d ´a origem a um dado EST. Isso ´e feito por meio de uma fase chamada de mapeamento, na qual se busca alinhar os ESTs obtidos durante um projeto transcritoma a um genoma de referˆencia, `as vezes, o genoma do pr´oprio organismo de onde os ESTs derivaram. No entanto, outros organismos

(30)

podem ser utilizados. Um exemplo seria o mapeamento utilizando uma esp´ecie pr´oxima do organismo de interesse, com o objetivo de detectar quais prote´ınas s ˜ao expressas por ambos os seres vivos, e quais prote´ınas s ˜ao potencialmente exclusi- vas `a somente um deles.

Em um projeto transcritoma, a anotac¸ ˜ao apresenta certas diferenc¸as em relac¸ ˜ao a projetos de sequenciamento de DNA. Um dos principais objetivos da fase de anotac¸ ˜ao de um projeto transcritoma ´e a identificac¸ ˜ao de RNAs n ˜ao codificadores (ncRNAs). Embora toda prote´ına seja obtida por meio da traduc¸ ˜ao de um RNA mensageiro, e em ´ultima inst ˆancia por um RNA, nem todo RNA est ´a diretamente ligado `a produc¸ ˜ao de uma prote´ına. RNAs n ˜ao diretamente ligados a s´ıntese de prote´ınas s ˜ao os ncRNAS, e est ˜ao ligados `a uma s´erie de processos celulares impor- tantes, como a degradac¸ ˜ao do mRNA, replicac¸ ˜ao do DNA e inibic¸ ˜ao do processo de traduc¸ ˜ao entre outros.

Para a identificac¸ ˜ao de ncRNAs podem ser utilizadas, al´em da comparac¸ ˜ao de sequˆencias, t´ecnicas de Inteligˆencia Artificial, em especial o aprendizado por m ´a- quina. Tal t´ecnica consiste no processamento de uma massa de dados espec´ıfica por um programa de computador, com o objetivo de fornecer par ˆametros pelos quais o programa poder ´a buscar informac¸˜oes de interesse nos dados a serem analisa- dos. Por exemplo, a busca de ncRNAs em projetos transcritoma. Dois exemplos de t´ecnicas utilizadas com esse prop´osito s ˜ao o naive Bayese o Support Vector Machi- nes. Tais abordagens s ˜ao utilizadas pois n ˜ao s´o permitem uma nova perspectiva de an ´alise, como tamb´em efetuam an ´alises mais r ´apidas em comparac¸ ˜ao com ferra- mentas existentes, sem perda significativa de acur ´acia.

A anotac¸ ˜ao de projetos transcritoma tamb´em usa m´etodos para comparac¸ ˜ao de sequˆencias. Nesse caso, os bancos de dados de sequˆencias s ˜ao ESTs providas de ou- tros projetos transcritoma depositadas em bancos de dados p ´ublicos. Alguns desses bancos podem ser obtidos gratuitamente atrav´es da internet, em geral atrav´es do uso doFile Transfer Protocol(FTP). Al´em das diferentes bases de dados utilizadas na fase de anotac¸ ˜ao de projetos transcritoma, diferentes ferramentas s ˜ao utilizadas para a comparac¸ ˜ao de sequˆencias. Apesar de ferramentas como o BLAST em geral estarem presentes nestes projetos, ferramentas especializadas projetadas para a comparac¸ ˜ao de RNAs mensageiros e sequˆencias genˆomicas tamb´em s ˜ao muito uti- lizadas. Um exemplo deste ´ultimo tipo ´e o comparador de sequˆencias BLAT [16].

(31)

Cap´ıtulo 3

Sequenciadores Massivamente Paralelos

Embora o sequenciamento Sanger tenha sido a t´ecnica de sequenciamento domi- nante durante os ´ultimos anos, novas t´ecnicas de sequenciamento massivamente paralelas atingiram o mercado e est ˜ao revolucionando a forma como se realiza o sequenciamento de DNA no mundo. Ao permitirem o sequenciamento de milh˜oes de sequˆencias a um custo muito baixo em comparac¸ ˜ao com o m´etodo Sanger, esses m´etodos tiveram um grande impacto nas ´areas de pesquisa onde se realizam se- quenciamentos de DNA, e abriram novas frentes de pesquisa, tais como o estudo de DNAs antigos, como mamutes, e a caracterizac¸ ˜ao da diversidade ecol´ogica por meio do sequenciamento de DNA de amostras ambientais [19].

A fim de propor umpipeline para processamento das sequˆencias geradas pelos sequenciadores massivos, devemos entender melhor o seu funcionamento, e quais os desafios enfrentados devido as t´ecnicas de sequenciamento utilizadas por cada um. Na Sec¸ ˜ao 3.1 estudaremos o funcionamento do sequenciador 454-FLX da Ro- che. A Sec¸ ˜ao 3.2 exp˜oe a t´ecnica de sequenciamento utilizado pelo sequenciador Illumina da empresa Solexa.

3.1 454-FLX Roche

Este sequenciador foi o primeiro a aparecer no mercado, em 2004, e utiliza uma t´ecnica de sequenciamento conhecida como pirosequenciamento. No pirosequen- ciamento a incorporac¸ ˜ao de cada nucleot´ıdeo a uma fita de DNA por meio da en- zima DNA polimerase acarreta a liberac¸ ˜ao de pirofosfato. Esta mol´ecula por sua vez, inicia uma s´erie de reac¸˜oes qu´ımicas cujo produto final ´e a liberac¸ ˜ao de luz. A detecc¸ ˜ao da luz por um sensor permite a determinac¸ ˜ao das bases de uma sequˆencia de DNA. Uma caracter´ıstica importante desta t´ecnica ´e que, a cada vez que um mesmo nucleot´ıdeo ´e incorporado a sequˆencia, a intensidade da luz liberada au- menta. Se essa intensidade ultrapassar a capacidade do detector de luz, a leitura do n ´umero de bases iguais ser ´a incorreta. Este ´e o principal tipo de erro enfrentado por este tipo de sequenciador, a incorreta determinac¸ ˜ao do n ´umero de bases em um monˆomero (mol´ecula formada pela repetic¸ ˜ao de uma mesma estrutura), tal como CCCCCCC.

(32)

Agora descreveremos como o sequenciador 454/Roche efetua o sequenciamento.

O primeiro passo no processo de sequenciamento consiste na amplificac¸ ˜ao do DNA a ser sequenciado. Isso ´e feito misturando-se os fragmentos de DNA com estruturas de agarose1 contendo sequˆencias de DNA complementares `as sequˆencias adapta- doras do 454 presentes nos fragmentos a serem sequenciados. Desta forma cada estrutura de agarose fica ligada a um ´unico fragmento de DNA. A seguir, cada uma dessas estruturas contendo um fragmento de DNA ´e isolada em mic´elios ´oleo: ´agua contendo reagentes para a enzima DNA polimerase. Atrav´es de um ciclo t´ermico, produzem-se um milh ˜ao de c´opias do fragmento de DNA contidos na superf´ıcie da estrutura de agarose.

Ap´os a amplificac¸ ˜ao do DNA, realiza-se o sequenciamento propriamente dito.

Cada estrutura de agarose ´e colocada em um recipiente de estrutura de silica ca- pilar, contendo centenas de milhares de locais para inserc¸ ˜ao de uma estrutura de agarose. O objetivo destes recipientes ´e fornecer uma localizac¸ ˜ao fixa para monito- ramento das reac¸˜oes de sequenciamento. Em cada recipiente, enzimas que catali- zam a reac¸ ˜ao de pirosequenciamento s ˜ao adicionadas a cada recipiente e a mistura

´e centrifugada com o objetivo de cobrir as agaroses com as enzimas.

A incorporac¸ ˜ao de cada nucleot´ıdeo ´e feita em um passo de cada vez, e em cada passo um sensor CCD registra a luz emitida em cada recipiente, assim determi- nando a sequˆencia de DNA, uma base por vez. No entanto, tal sensor n ˜ao consegue interpretar corretamente a incorporac¸ ˜ao de um mesmo nucleot´ıdeo v ´arias vezes (mais de 6), o que significa que porc¸˜oes de DNA onde uma mesma base ocorre v ´arias vezes podem acarretar erros. Caso o n ´umero de bases determinados pelo se- quenciador, temos um erro de inserc¸ ˜ao, se for menor teremos um erro de remoc¸ ˜ao.

O sequenciador 454 provˆe sequˆencias de cerca de 250 bases de comprimento durante um processamento de 8 horas. Ap´os um processamento para a remoc¸ ˜ao de sequˆencias com baixa qualidade, obtemos cerca de 100 milh˜oes de bases com boa qualidade em m´edia. Apesar do tamanho das sequˆencias obtidas com o sequencia- dor 454 ser muito menor em comparac¸ ˜ao com os sequenciadores Sanger, o mesmo foi utilizado com sucesso no sequenciamento de genomas virais e bacteriais com alta qualidade. A Figura 3.1 mostra esquematicamente o processo descrito nesta sec¸ ˜ao.

1A agarose ´e um pol´ımero composto de subunidades de galactose. Quando dissolvida em ´agua quente e seguidamente arrefecida, a agarose toma uma consistˆencia gelatinosa, este gel ´e muito utilizado em biologia molecular para atividades como sequenciamento.

(33)
(34)

3.2 Illumina Solexa

O sequenciador Illumina utiliza a t´ecnica de sequenciamento por s´ıntese, onde um nucleot´ıdeo ´e incorporado por vez `a sequˆencia sendo determinada e cada incorpora- c¸ ˜ao determina uma base da sequˆencia desejada. A amplificac¸ ˜ao do DNA utilizada por este sequenciador ´e feita incorporando-se adaptadores ao in´ıcio e fim de cada um dos fragmentos de DNA e anexando-os a uma superf´ıcie. Ap´os isso a DNA poli- merase ´e utilizada para a produc¸ ˜ao de grupos de sequˆencias, cada grupo contendo aproximadamente 1 milh ˜ao de c´opias do fragmento de DNA original. A Figura 3.2 mostra esquematicamente como este processo de amplificac¸ ˜ao ´e realizado.

Ap´os a amplificac¸ ˜ao do DNA, realiza-se o processo de sequenciamento em si.

Nesse processo, nucleot´ıdeos fosforecentes s ˜ao adicionados `as mol´eculas de DNA amplificadas pelo sequenciador. Como o grupo OH ligado ao carbono 3’ dos mesmos

´e quimicamente bloqueado, a DNA polimerase ´e capaz de incorporar somente um fragmento de cada vez `as sequˆencias amplificadas. Feita a incorporac¸ ˜ao, processa- se a imagem contendo as luzes oriundas dos nucleot´ıdeos fosforecentes. Ap´os o processamento da imagem, o grupo OH ligado ao carbono 3’ de cada nucleot´ıdeo incorporado ´e quimicamente removido e os passos descritos anteriormente s ˜ao re- petidos. Este processo continua por um n ´umero de ciclos determinados pelo ope- rador do sequenciador, e permite a determinac¸ ˜ao de sequˆencias com 25 a 35 bases de comprimento, podendo atingir mais de um bilh ˜ao de bases sequenciadas [7].

O processo de determinac¸ ˜ao das bases remove bases com qualidade ruim e deter- mina a qualidade das sequˆencias de bases. A Figura 3.3 mostra a forma como a determinac¸ ˜ao de uma base ´e feita pelo sequenciador Illumina.

(35)

Figura 3.2: Vis ˜ao esquem ´atica do processo de amplificac¸ ˜ao do DNA utilizado pelo sequenciador Illumina/Solexa [19].

(36)

Figura 3.3: Processo de determinac¸ ˜ao de uma base do sequenciador Illu- mina/Solexa [19].

(37)

Cap´ıtulo 4

Softwares e pipelines para Sequenciadores Massivamente

Paralelos

Neste cap´ıtulo ser ˜ao apresentados diversos softwares para tratamento dos dados gerados por sequenciadores de alto desempenho nas diversas fases do pipeline des- crito no cap´ıtulo 2. A Sec¸ ˜ao 4.1 apresenta softwares para processamento da sub- miss ˜ao das sequˆencias dos sequenciadores massivamente paralelos. A seguir, a Sec¸ ˜ao 4.2 apresenta programas para realizar o mapeamento das pequenas sequˆen- cias dos novos sequenciadores a genomas de referˆencia. Ap´os isso programas para montagem dos fragmentos de sequˆencias obtidos com novos sequenciadores s ˜ao apresentados na Sec¸ ˜ao 4.3. A Sec¸ ˜ao 4.4 lista alguns programas para anotac¸ ˜ao das sequˆencias destes sequenciadores. Por ´ultimo, a Sec¸ ˜ao 4.5 mostra ospipelines que podem ser adotados em projetos de sequenciamento envolvendo sequenciadores de alto desempenho.

4.1 Softwares para submiss ˜ ao

Esta sec¸ ˜ao apresenta alguns programas poss´ıveis de serem utilizados para proces- samento da submiss ˜ao de arquivos de sequˆencias de sequenciadores massivamente paralelos.

Como pode ser visto no Cap´ıtulo 3, as t´ecnicas de sequenciamento utilizadas pelos novos sequenciadores s ˜ao muito diferentes entre si. Assim, n ˜ao existe um programa capaz de tratar dados de todos os novos sequenciadores, mas sim progra- mas espec´ıficos para o tratamento dos dados de um sequenciador em especial.

A Subsec¸ ˜ao 4.1.1 detalha o formato dos arquivos gerados pelo sequenciador 454 e apresenta um programa capaz de ler esse dados.

4.1.1 Software para submiss ˜ ao do sequenciador 454

Nesta subsec¸ ˜ao apresentamos o formato do arquivo bin ´ario gerado pelo sequen- ciador 454 e apresentamos um programa capaz de ler as informac¸˜oes do mesmo e gerar diversos formatos de sa´ıda com diferentes informac¸˜oes.

(38)

O National Center for Biotechnology Information (NCBI) [23] ´e um centro cri- ado em 1988 para servir como um reposit´orio de informac¸˜oes de biologia molecular.

Entre outras coisas, o NCBI cria e disponibiliza bancos de dados p ´ublicos, como o GenBank, conduz pesquisas em Biologia Computacional, desenvolve programas para an ´alise de dados e dissemina informac¸˜oes biom´edicas.

O Trace Archive ´e um dos reposit´orios mantidos pelo NCBI contendo arquivos bin ´arios de sequenciamento gerados por grandes projetos de sequenciamento. ´E poss´ıvel obter tanto os arquivos de sequˆencias quanto os dados relacionados nos ar- quivos l ´a mantidos. Para facilitar a imensa tarefa de organizar milh˜oes de arquivos de sequˆencias criados por diversos projetos de sequenciamento de todos os lugares do mundo, o NCBI estipula formatos de arquivos para a deposic¸ ˜ao de sequˆencias no Trace Archive. Al´em de auxiliar na verificac¸ ˜ao e tratamento dos arquivos, o uso de um formato padr ˜ao permite o desenvolvimento de softwares para a extrac¸ ˜ao dos dados das sequˆencias de arquivos no Trace Archive, bem como diversos outros tratamentos que venham a ser necess ´arios.

At´e recentemente, o ´unico formato padronizado dizia respeito a sequˆencias ob- tidas com a t´ecnica de sequenciamento Sanger. No entanto, devido ao grande uso do sequenciador 454 e a cooperac¸ ˜ao da Roche com o NCBI, um formato padr ˜ao para submiss ˜ao de dados obtidos com o 454 aoTrace Archivefoi desenvolvido. O objetivo

´e disponibilizar as milh˜oes de sequˆencias obtidas com o 454 ao dom´ınio p ´ublico, per- mitindo assim um r ´apido desenvolvimento das pesquisas de diversos organismos, incluindo seres extintos, como os mamutes.

O formato padr ˜ao desenvolvido foi nomeado Standard Flowgram File (SFF), e pode conter dados de uma ou v ´arias sequˆencias. Ao contr ´ario dos dados de sequen- ciadores tradicionais, o sequenciador 454 n ˜ao provˆe dados por meio dos quais bases individuais podem ser determinadas. Ao inv´es disso, estima-se o comprimento de cada homopol´ımero na sequˆencia. Por exemplo, a sequˆencia “AAATGGC” seria ar- mazenada como constitu´ıda de uma sequˆencia de 3 A’s, seguida de uma sequˆencia de 1 T, logo ap´os uma sequˆencia de 2 G’s e por fim uma sequˆencia de um ´unico C.

Estes valores s ˜ao na verdade estimados pois, como explicado na Sec¸ ˜ao 3.1, o se- quenciador 454 possui dificuldades para determinar o comprimento de sequˆencias constitu´ıdas por um ´unico nucleot´ıdeo, caso este ocorra mais de cinco vezes. A determinac¸ ˜ao da sequˆencia a partir do arquivo SFF consiste em simplesmente analisar as estimativas do sequenciador e concatenar os diversos homopol´ımeros determinados.

Os arquivos SFF possuem um cabec¸alho inicial contendo informac¸˜oes gerais sobre o arquivo, tais como n ´umero de vers ˜ao e c´odigos de formato, entre outras. Em seguida, para cada sequˆencia presente no arquivo, aparece uma sec¸ ˜ao de cabec¸alho e uma sec¸ ˜ao de dados da sequˆencia. Todas as sec¸˜oes tˆem um tamanho m ´ultiplo de 8 bytes, para isso s ˜ao inseridos bytes de preenchimento conforme necess ´ario. Al´em disso, os bytes s ˜ao armazenados em ordem big endian, ou seja, com o byte mais significativo ocorrendo em primeiro lugar. Os tipos padr˜oes Unix uint8 t, uint16 t, uint32 t and uint64 t e todos os campos do tipo char s ˜ao armazenados utilizando valores ASCII. A seguir detalhamos cada uma das diferentes sec¸˜oes do formato de arquivos SFF.

(39)

Todo arquivo SFF possui um cabec¸alho onde s ˜ao armazenadas informac¸˜oes ge- rais sobre o arquivo, como se segue:

• magic number (uint32 t), deve ter o valor 0x2E736666, este representa a codificac¸ ˜ao da string “.sff ” em codificac¸ ˜ao ASCII.

• version (char[4]), indica o n ´umero de vers ˜ao do arquivo. Atualmente s´o a vers ˜ao 0001 est ´a documentada.

• index offset (uint64 t), ´e o valor do deslocamento de um ´ındice opcional das sequˆencias no arquivo. Caso esse ´ındice n ˜ao exista, tem o valor 0.

• index length (uint32 t), armazena o tamanho do ´ındice opcioanal dasreadsno arquivo sff. Se o ´ındice n ˜ao estiver presente no arquivo, o valor deste campo deve ser 0.

• number of reads (uint32 t), ´e o n ´umero de sequˆencias cujos dados est ˜ao ar- mazenados no arquivo.

• header length (uint16 t), cont´em o tamanho em bytes dos campos do cabec¸a- lho, seu valor ´e calculado da seguinte forma:

31 + key length + number of flows per read arredondado para o pr´oximo in- teiro divis´ıvel por 8.

• key length (uint16 t), indica o tamanho da sequˆencia chave utilizada pelas reads.

• number of flows per read (uint16 t), armazena o n ´umero de fluxos para cada read do arquivo.

• flowgram format code (uint8 t), representa o formato utilizado para codificar cada valor dos fluxos de cada read.

• flow chars (char[number of flows per read]), ´e um vetor representando as ba- ses utilizadas em cada fluxo para cadaread. N ˜ao ´e terminado em 0.

• key sequence (char[key length]), cont´em as bases utilizadas na sequˆencia cha- ve para cadaread.

• eight byte padding (uint8 t[*]), cont´em at´e 7 bytes com valor 0. Esses bytes s ˜ao utilizados para que o tamanho do cabec¸alho seja m ´ultiplo de oito bytes.

Caso um ´ındice seja inclu´ıdo no arquivo, os camposindex offset e index length devem apontar para a sec¸ ˜ao do arquivo contendo o ´ındice. Para dar suporte a diferentes m´etodos de indexac¸ ˜ao, todo ´ındice deve comec¸ar com um n ´umero m ´agico (uint32 t) e um n ´umero de vers ˜ao (char[4]).

Para cada sequˆencia presente no arquivo, temos um campo de cabec¸alho e um campo de dados. Os campos presentes nos cabec¸alhos das sequˆencias s ˜ao:

• read header length (uint16 t), armazena o tamanho do cabec¸alho, seu valor ´e 16 + name length arredondado para o pr´oximo valor divis´ıvel por 8.

• name length (uint16 t), indica o tamanho em bytes do nome da sequˆencia.

(40)

• number of bases (uint32 t), cont´em o n ´umero de bases determinadas para esta sequˆencia.

• clip qual left (uint16 t), ´e a posic¸ ˜ao da primeira base ap´os o ponto de junc¸ ˜ao, para sequˆencias de qualidade, no comec¸o daread.

• clip qual right (uint16 t), indica a posic¸ ˜ao da primeira base antes do ponto de junc¸ ˜ao, para sequˆencias de qualidade, no final da sequˆencia.

• clip adapter left (uint16 t), ´e a posic¸ ˜ao da primeira base ap´os o ponto de junc¸ ˜ao, para sequˆencias adaptadoras, no comec¸o da sequˆencia.

• clip adapter right (uint16 t), indica a posic¸ ˜ao da primeira base antes do ponto de junc¸ ˜ao, para sequˆencias adaptadoras, no final da sequˆencia.

• name (char[name length]), cont´em o nome da sequˆencia, utilizando caracte- res ASCII. N ˜ao ´e terminado em 0.

• eight byte padding (uint8 t[*]), cont´em at´e 7 bytes com valor 0. Esses bytes s ˜ao utilizados para que o tamanho do cabec¸alho seja m ´ultiplo de oito bytes.

Logo ap´os o cabec¸alho, temos os dados da sequˆencia em quest ˜ao, que s ˜ao:

• flowgram values (uint* t[number of flows]), cont´em a estimativa de tamanho dos homopol´ımeros para cada fluxo da sequˆencia. O n ´umero de bytes utili- zado para cada valor depende do campo flowgram format code presente no cabec¸alho de informac¸˜oes gerais do arquivo.

• flow index per base (uint8 t[number of bases]), armazena as posic¸˜oes dos flu- xos para cada base na sequˆencia determinada.

• bases (char[number of bases]), cont´em as bases da sequˆencia em quest ˜ao.

• quality scores (uint8 t[number of bases]), cont´em os valores de qualidades das bases. Esse valores s ˜ao calculados segundo a express ˜ao −10∗log10(p), ondep ´e a probabilidade de erro.

• eight byte padding (uint8 t[*]), cont´em at´e 7 bytes com valor 0. Esses bytes s ˜ao utilizados para que o tamanho do cabec¸alho seja m ´ultiplo de oito bytes.

Esses dados podem ser lidos com os programas providos na compra de um se- quenciador 454. No entanto, como se trata de um formato padr ˜ao, diversas ou- tras implementac¸˜oes est ˜ao dispon´ıveis. Como exemplo, o software matlab pode ser utilizado para realizar a leitura dos dados presentes em arquivos .sff e de- senhar gr ´aficos baseados nestes dados, a URL http://www.mathworks.com/

matlabcentral/fx_files/22864/2/content/sffdemo.htmlexplica como uti- lizar o matlab para extrair diversos dados e realizar a plotagem de alguns gr ´aficos a partir das informac¸˜oes presentes nos arquivos .sff.

Parapipelines automatizados, no entanto, ´e conveniente o uso de programas o- perados atrav´es da linha de comando, pois isso permite chamar os mesmos quando necess ´ario, sem a intervenc¸ ˜ao de um ser humano. Um exemplo de programa desse

(41)

tipo ´e o programa flower, uma interface para uma biblioteca de bioinform ´atica im- plementada em haskell. O programa flower funciona por linha de comando e ´e capaz de produzir diversos tipos de sa´ıda, incluindo arquivos de sequˆencias no for- mato fasta e arquivos de qualidade, entre outros. Mais informac¸˜oes podem ser obtidas na p ´agina http://blog.malde.org/index.php/flower/.

4.1.2 Software para submiss ˜ ao do sequenciador Illumina

At´e o momento da escrita deste trabalho, o ´unico software capaz de ler os dados produzidos pelo sequenciador Illumina era provido pela empresa Solexa quando da aquisic¸ ˜ao deste sequenciador. N ˜ao obstante, os dados produzidos pelo sequencia- dor s ˜ao armazenados em pastas, onde cada pasta armazena um tipo espec´ıfico de informac¸ ˜ao. As pastas de dados do sequenciador Illumina s ˜ao:

• FIRECREST - armazena os arquivos de imagens gerados durante o processo de sequenciamento do Illumina. Segundo estimativas, s ˜ao gerados aproxima- damente 100 GB de dados nesta pasta para cada sequenciamento executado.

• BUSTARD - cont´em os arquivos de qualidade e bases das sequˆencias determi- nadas, al´em de quaisquer outros arquivos derivados diretamente do processo de sequenciamento. A cada sequenciamento, cerca de 80 GB de dados s ˜ao armazenados aqui.

• GERALD - cont´em dados gerados a partir do diret´orio BUSTARD, tais como alinhamento a genomas de referˆencia, c ´alculos mais precisos de qualidades, entre outros. S ˜ao gerados aproximadamente 35 GB de dados a partir do di- ret´orio BUSTARD, e esses dados s ˜ao armazenados na pasta GERALD.

4.2 Softwares para mapeamento

Uma vez que as sequˆencias obtidas pelos novos sequenciadores s ˜ao relativamente curtas em relac¸ ˜ao ao sequenciamento tradicional, isso torna imposs´ıvel o uso das t´ecnicas tradicionais para reagrupar os fragmentos sequenciados no DNA origi- nal. N ˜ao obstante essa dificuldade, ´e desej ´avel a possiblidade de se aplicar as t´ecnicas antigas aos novos dados, mesmo sendo necess ´ario efetuar adaptac¸˜oes.

Uma poss´ıvel abordagem seria usar um genoma de referˆencia, normalmente um organismo pr´oximo ao organismo sendo sequenciado cujo genoma j ´a fosse conhe- cido com grande precis ˜ao. Dado esse genoma de referˆencia, poder-se-ia mapear as pequenas sequˆencias obtidas pelos novos sequenciadores e agrup ´a-las conforme a posic¸ ˜ao das mesmas no mapeamento. Uma vez que as sequˆencias agrupadas consti- tuem um n ´umero muito menor a ser analisado e visto possu´ırem poucas diferenc¸as entre si, pois est ˜ao mapeadas aproximadamente na mesma regi ˜ao do genoma, se- ria poss´ıvel aplicar t´ecnicas de montagem tradicional a esses grupos de sequˆencias.

Al´em de um genoma de referˆencia, seria poss´ıvel tamb´em utilizar bibliotecas de exons como sequˆencias de referˆencias para a verificac¸ ˜ao de splicing alternativo a partir do sequenciamento de RNAs pequenos (35 a 80 bases de comprimento).

Referências

Documentos relacionados

Para disciplinar o processo de desenvolvimento, a Engenharia de Usabilidade, também conceituada e descrita neste capítulo, descreve os métodos estruturados, a

It can be concluded from the results obtained for the indoor air temperature and velocity distribution that the heat pump technology is a good option to promote thermal comfort

Para avaliar a toxicidade dos compostos in vitro utilizou-se testes colorimétricos (MTT) em formas tripomastigotas (cepa Y) e em macrófagos J774A.1, além de ensaios

Nesse contexto, quando o indivíduo age de acordo com o princípio da utilidade, ele cuida de si mesmo através do cultivo da sua natureza humana esse cultivo é a expressão do amor

Os testes de desequilíbrio de resistência DC dentro de um par e de desequilíbrio de resistência DC entre pares se tornarão uma preocupação ainda maior à medida que mais

e l final de Una Política Pública : análisis del ciclo Político del Proyecto destinos indUctores Para el desarrollo tUristico regional (didtr) – b rasil ...496 María Belén

3 O presente artigo tem como objetivo expor as melhorias nas praticas e ferramentas de recrutamento e seleção, visando explorar o capital intelectual para

–   da pressão estática em orifícios laterais, perpendiculares ao escoamento,. •   pressão dinâmica, detectada por um sensor de