• Nenhum resultado encontrado

Seqüenciamento e Bioinformática de

N/A
N/A
Protected

Academic year: 2019

Share "Seqüenciamento e Bioinformática de"

Copied!
5
0
0

Texto

(1)

Seqüenciamento e Bioinformática de

Genomas Bacterianos

Pesquisa

Dirce Maria Carraro, PhD Instituto Ludwig de Pesquisa sobre o Câncer

São Paulo – SP dcarraro@ludwig.org.br

João Paulo Kitajima, PhD Alellyx Applied Genomics Campinas – SP joao.kitajima@alellyx.com

primeiro organismo a ter seu genoma completa-mente seqüenciado foi a bactéria Haemophilus influenzae, cujo traba-lho foi concluído em 1995 por um grupo do TIGR (The Institute for Ge-nomic Research) nos Estados Unidos. Foi utilizada a estratégia de seqüenci-amento genômico completo por frag-mentos aleatórios de DNA, eliminando assim a necessidade de abordagens de mapeamento genômico (Fleischmann et al. 1995). A capacidade de

seqüen-ciar genomas bacterianos completos usando essa estratégia, acoplada a mé-todos computacionais de algoritmos que auxiliam a montagem, incremen-tou o número de genomas bacterianos seqüenciados nos bancos de dados. Hoje, sete anos depois da publicação do primeiro genoma completo, temos pelo menos 60 genomas microbianos concluídos (http://www.tigr.org/tdb/ mdb/mdbco-mplete.html) e mais de uma centena em andamento (http:// www.tigr.org/tdb/mdb/mdbinprogress. html). Os programas de predição gêni-ca, utilizados com muita eficiência em genomas bacterianos, associados à ano-tação funcional, têm trazido informa-ções importantes do ponto de vista biológico. Além disso, a análise compa-rativa de genomas bacterianos tem contribuído para a identificação de me-canismos adaptativos e tem permitido inferências nos aspectos evolutivos dessas formas de vida.

Estima-se que as seqüências conti-das nos bancos de dados representem 250.000 genes preditos (Fraser & Dan-do, 2001), os quais devem contribuir nos estudos de doenças infecciosas e também na compreensão dos meca-nismos de instalação de doenças em vegetais. Em 2001, o Brasil incorporou-se à era genômica com a publicação da seqüência completa do genoma da bactéria Xylella fastidiosa, causadora do amarelinho em culturas de citros (CVC – Citrus Variegated Chlorosis) (Simpson et al. 2000). Esse foi o pri-meiro fitopatógeno no mundo a ser seqüenciado completamente. Depois disso, pelo fato de o Brasil movimentar uma grande parcela de sua economia em produtos agrícolas, foi colocado grande interesse na elucidação de ou-tros genomas de patógenos de culturas de interesse nacional como cana-de-açúcar, citros e outros. Dessa forma, outras bactérias tiveram seus genomas seqüenciados completamente por gru-pos de cientistas brasileiros, como

dife-Figura 1:A) Representação simplificada de reação de seqüenciamento. dNTPs: representados em verde, ddNTP: representados em vermelho, amarelo, azul e verde limão B) Representação da separação por tama-nho dos supostos fragmentos gerados pela adição de ddNTP na reação de polimerização

(2)

rentes cepas de Xanthomonas citri, bactéria causadora do cancro cítrico (da Silva et al. 2002), outras cepas de Xylella fastidiosaque infectam especi-ficamente outras culturas (finalizado; artigo submetido a publicação) e Leif-sonia xyli subsp. xyli, causadora do carvão da cana-de-açúcar (finalizado; artigo em preparação). Todos esses projetos foram total ou parcialmente financiados pela FAPESP (Fundação de Amparo a Pesquisa do Estado de São Paulo) em parceria com outros grupos da iniciativa privada, especialmente empresas de interesse agrícola. A aná-lise comparativa dos diferentes geno-mas de patógenos de plantas trará informações importantes na elucida-ção de mecanismos de instalaelucida-ção da doença em vegetais e também na identificação de novos agentes envol-vidos nesse processo. Além disso, in-formações importantes estão sendo atribuídas a mecanismos específicos de interação entre patógeno-hospe-deiro.

O sucesso desse empreendimen-to por parte da FAPESP lançou interes-se de outras instituições a financiar projetos desse tipo. O primeiro proje-to de âmbiproje-to nacional financiado pelo CNPq (Conselho Nacional de Desen-volvimento Científico e Tecnológico) e pelo MCT (Ministério da Ciência e Tecnologia) foi o seqüenciamento da bactéria Chromobacterium violaceum, que possui compostos com proprieda-des terapêuticas e antitumorais (Duran et al. 2001).

Nesta revisão nós abordaremos uma estratégia utilizada para seqüenciamen-to compleseqüenciamen-to de microrganismos proca-riotos, tanto no que concerne à técnica de seqüenciamento e elaboração de bibliotecas de fragmentos aleatórios de DNA, quanto aos recursos bioinfor-máticos necessários, a saber: progra-mas especiais de montagem, de predi-ção de genes e de anotapredi-ção funcional.

Seqüenciamento de DNA

Desde a primeira evidência, em 1944, em estudos com Pneumococ-cus, obtida por Avery, McLoad e Mc-Carty, de que a molécula de DNA era a responsável pela transferência da informação genética de uma geração para outra, muitos estudos foram con-duzidos para compreender sua com-posição e estrutura. Várias evidências obtidas naquela época levaram à con-clusão de que o DNA é uma molécula

longa e fina, composta de 4 diferentes tipos de moléculas chamadas nucleotí-deos. Cada nucleotídeo contém um grupo fosfato, uma desoxiribose (açú-car) e uma base nitrogenada, a saber: adenina, timina, citosina e guanina. Os resultados obtidos pelos estudos de raio-X realizados por Rosalind Franklin e Maurice Wikins levaram Watson e Crick, em 1953, a decifrarem a estrutu-ra de dupla hélice dessa molécula. A determinação de sua estrutura e da complementaridade de suas fitas lan-çou bases para que se compreendesse como essa molécula poderia ser dupli-cada e, dessa forma, como a informa-ção genética poderia ser transferida de uma geração para outra, mantendo, portanto, a característica semiconser-vativa. A partir dessas descobertas, a comunidade científica concentrou muitos esforços a fim de desvendar a informação genética contida na molé-cula da vida.

O método mais utilizado para iden-tificação das bases do DNA é o método de terminação da cadeia, também co-nhecido como método de Sanger (San-ger et al. 1977). Esse método é base-ado na capacidade da enzima DNA Polimerase estender a cadeia polinu-cleotídica a partir de um iniciador anco-rado por complementaridade em uma das fitas (fita molde). Como as fitas de DNA são complementares (A:T e C:G), a partir do molde, a enzima vai adicio-nando o nucleotídeo complementar necessitando do grupo hidroxila livre (OH) na posição 3’, componente do

desoxinucleotídeo anterior (dNTP). Para identificar a seqüência de uma molécula de DNA, é necessário adicio-nar a essa reação altas concentrações de nucleotídeos que interrompam a polimerização da cadeia, que são de-nominados didesoxinucleotídeo (ddN-TP) – que são nucleotídeos em que a pentose perdeu o grupo hidroxila da posição 3’ (OH) necessário à continui-dade da polimerização da cadeia. Du-rante os ciclos de polimerização, os ddNTPs vão sendo incorporados alea-toriamente, produzindo fragmentos de tamanhos diferentes. A mistura de fragmentos é submetida a uma eletro-forese para separação por tamanho. Os diferentes ddNTPs apresentam marcas passíveis de reconhecimento. Em seqüenciadores automáticos, os diferentes ddNTPs são ligados a molé-culas fluorescentes denominadas cro-móforos, que quando estimuladas por raio laser, emitem diferentes compri-mentos de ondas, sendo reconhecidas por programas apropriados e converti-das a determinada base nitrogenada (A, T, G ou C) (Figura 1).

Com a automatização da técnica de seqüenciamento e com o advento da Bioinformática (disciplina que funde a biologia com a informática), foi possí-vel automatizar a fase de geração de seqüências, produzindo-as em larga escala e digitalizando-as para o com-putador. Programas apropriados, capa-zes de processar os dados e de montar e anotar os genomas, foram desenvol-vidos para facilitar o acesso e a

(3)

nibilização de todas as informações durante o processo.

Etapas básicas para seqüencia-mento de genomas bacterianos

Para seqüenciar completamente um genoma microbiano, primeiramente é necessário isolar o DNA do organismo em questão e elaborar bibliotecas de DNA genômico para servirem como molde para o posterior seqüenciamen-to. O fato de genomas bacterianos apresentarem um percentual relativa-mente baixo de seqüências repetitivas (em torno de 3%), torna possível frag-mentar totalmente o DNA do organis-mo de interesse em pedaços de tama-nhos variados, dispensando assim a necessidade de mapeamento físico prévio. Esse tipo de abordagem é denominado “seqüenciamento genô-mico completo por fragmentos aleató-rios” (Whole Genome Shotgun Sequen-cing). Essa estratégia é empregada para seqüenciar pedaços de DNA que são longos demais para o

seqüencia-mento direto. A teoria shotgun está baseada na possibilidade de as seqüên-cias aleatórias se sobreporem, forman-do seqüências contíguas. O número de clones a serem seqüenciados depende do tamanho do genoma em questão. Vários modelos matemáticos e estatís-ticos foram desenvolvidos e estima-se que uma cobertura de 10 vezes o tamanho do genoma consiga repre-sentar 99% da seqüência completa (Weber e Myers, 1997). Esses valores dependem de vários fatores, como a qualidade da biblioteca, no que con-cerne ao tamanho e à arbitrariedade dos insertos.

Elaboração de bibliotecas de fragmentos aleatórios de DNA

genômico

Depois de isolado o DNA genômi-co, este é submetido à fragmentação por métodos preferencialmente me-cânicos, a saber: sonicação ou nebuli-zação. Esses métodos são vantajosos em relação à fragmentação por

restri-ção enzimática, por apresentarem um caráter mais randômico. O produto obti-do pela fragmentação deve ser separa-do por tamanho para evitar a clonagem de fragmentos pequenos, conforme es-quema apresentado na Figura 2. Essa separação pode ser feita através de gel de agarose para extração e purificação dos fragmentos de DNA no tamanho desejado, que podem variar de 1 a 4 Kbp (1 Kpb = 1.000 pares de bases), a depender da estratégia adotada. O pro-duto da fragmentação deve ser subme-tido ao reparo das extremidades com utilização de enzimas de modificação apropriadas, que têm o objetivo de tornar as extremidades abruptas e passí-veis de serem clonadas em vetores especiais (plasmídeos). Os fragmentos devem ser ligados enzimaticamente em um sítio de ligação conhecido do plasmí-deo. O produto de ligação é então introduzido em linhagens apropriadas de bactérias por um processo denomi-nado de transformação. Nessa etapa, teremos uma mistura de bactérias trans-formadas (que receberam o plasmídeo)

Figura 3:O diagrama representa esquematicamente um exemplo depipelinede montagem e de anotação de um genoma bacteriano. Diferentes laboratórios de seqüenciamento enviam seqüências para a bioinformática. Montagens

são realizadas e um acompanhamento da evolução doscontigspode ser acompanhada via Web. Oscontigspodem

(4)

e não transformadas (que não recebe-ram o plasmídeo), que devem ser separadas. Esses plasmídeos carregam genes marcadores (normalmente ge-nes que conferem resistência a antibi-ótico) que têm a função de selecionar as bactérias transformantes. Assim, pelo crescimento em meio de cultura sólido com antibiótico, somente as bactérias transformantes serão capazes de cres-cer e formarão colônias. As colônias transformantes são então inoculadas individualmente em meio de cultura líquido para sofrerem multiplicação. Cada transformante traz um fragmento aleatório do DNA genômico do orga-nismo em questão. Nessa etapa, os fragmentos podem ter sua seqüência decifrada por estarem clonados em plasmídeos de seqüências conhecidas. Assim, a cultura de colônia individuali-zada de transformante é submetida à extração de plasmídeo e este é sub-metido à reação de seqüenciamento (Figura 2). O número de seqüências a ser obtida depende da estratégia utili-zada, da qualidade das bibliotecas e das próprias características do genoma. Essa fase é chamada de seqüenciamento em grande escala.

Montagem em seqüências contíguas

As inovações relativas à automati-zação do processo de seqüenciamento permitiram a produção em larga escala de um número muito grande de se-qüências de DNA. Na área de Bioinfor-mática, os avanços também foram sig-nificativos no que tange à disponibili-zação de novos softwares adequados para a manipulação dessa vasta quan-tidade de dados genômicos.

Opipelinede tratamento de dados de genomas de bactérias pode ser organizado como um sistema (Figura 3). As entradas mais importantes são as leituras (reads) do seqüenciador de DNA. Concretamente, essas leituras são arquivos que contêm informações analógicas, que caracterizam as dife-rentes bases lidas pelo equipamento seqüenciador. É importante ressaltar que esses arquivos não contêm as bases explicitamente e, sim, medidas analógicas. Será necessário um primei-ro pprimei-rograma, fundamental nopipeline, para converter estas medidas em ba-ses ACGT propriamente ditas. Um pro-grama bastante utilizado é o PHRED [PhredPhrap]. Esse programa pode ser encarado como um digitalizador de

leituras de DNA. Utiliza algoritmos com-plexos de tratamento de sinais e atribui o que chamamos de ¨qualidade¨ da base. A qualidade PHRED correspon-de a um inteiro entre 0 e 99 e está associada à probabilidade de erro de leitura. Uma base com qualidade 40 indica que o erro é de 1 base em 104(a

qualidade é o expoente multiplicado por 10). Empiricamente, considera-se uma base como aceitável se tiver qua-lidade no mínimo 20 (1 base incorreta em 100).

Digitalizadas as seqüências recebi-das, elas são consideradas prontas para o tratamento por outros programas. O PHRED gera arquivos que, estes sim, contêm explicitamente as bases lidas pelo seqüenciador, junto com suas qualidades. O programa PHRED pode gerar seqüências em diferentes forma-tos, sendo o formato FASTA o mais utilizado.

Como descrito acima nos métodos inovadores de seqüenciamento, um genoma não é lido de uma vez só: ele é, na verdade, estilhaçado em milhares de fragmentos. Esses fragmentos são lidos por equipamentos de seqüencia-mento e digitalizados em computado-res (por exemplo, usando PHRED). O segundo passo do pipeline consiste naturalmente em regerar a seqüência genômica completa, a partir dos frag-mentos lidos. Esse processo é conheci-do como montagem conheci-do genoma, e depende de outros programas, como, por exemplo, PHRAP [PhredPhrap] e CAP3 [Cap3]. Alguns projetos desen-volvem seus próprios montadores do-mésticos, mais adaptados aos geno-mas seqüenciados. O PHRAP, progra-ma bastante utilizado em projetos ge-nomas de bactérias, é baseado em algoritmos eficientes de alinhamento de seqüências textuais. Esse progra-ma, [1] lê os fragmentos já digitaliza-dos, [2] procura encontrar redundânci-as entre os mesmos e [3] aglutina os fragmentos, ancorados na parte co-mum que as liga, formando seqüências maiores chamadas de consensos. A montagem só é eficaz graças ao méto-do aleatório de clonagem, que garante, estatisticamente, que sempre haverá redundância entre os fragmentos. Isso garante também a reconstituição da seqüência genômica original. Sem a redundância, o genoma não é possível de ser reconstituído.

Comumente, não se espera montar o genoma após a chegada de uma quantidade suficiente de seqüências

para reconstituir o genoma integral-mente. Em um pipeline típico, são acionadas montagens regularmente, mesmo que nem todas as seqüências estejam disponíveis. Os consensos ge-rados durante esse processo intermedi-ário são conhecidos porcontigs. Ideal-mente, a montagem termina quando ela produz tantoscontigsquanto repli-cons do genoma. Infelizmente, exis-tem situações que complicam bastante o processo da montagem. O mais evi-dente é a existência de repetições no genoma, que confundem o programa montador.

Essa primeira fase do tratamento bioinformático dos fragmentos de DNA é bastante trabalhosa, porém pode ser também muito automatizada. Tanto para genomas de procariotos, como de eucariotos, esse processo está bem dominado e a pesquisa nessa área se baseia em procurar novos algoritmos mais rápidos para montagem, mais confiáveis (por exemplo, que tratem automaticamente o problema de repe-tições) e que manipulem números cada vez maiores de fragmentos.

Finalização do seqüenciamento completo

(5)

Anotação do genoma

O próximo grande passo do pipeli-ne bioinformático (após a primeira etapa de montagem), consiste então em procurar dar significado biológico ao genoma montado, em outras pala-vras, significa identificar as regiões onde estão localizados os genes (regiões codificadoras) e identificar a sua fun-ção putativa. O princípio de base con-siste em comparar a seqüência que se tem em mãos com outras, cujas fun-ções são previamente conhecidas: se-qüências estruturalmente similares devem ter funções também similares. É esse princípio que norteia a identifi-cação biológica funcional gênica in silico.

Antes de comparar seqüências gê-nicas desconhecidas com outras de função conhecida, é necessário identi-ficar propriamente os genes do geno-ma. No caso de bactérias, esse proces-so é menos complexo do que no caproces-so de genomas de eucariotos, onde os genes são interrompidos, apresentan-do íntrons e exons. Existem vários programas que realizam essa tarefa. Dois programas bastante utilizados são Glimmer (Delcher et al, 1999) e Ge-nemark (Borodovsky e McIninch, 1993). Uma definição resumida do programa Glimmer é a procura na seqüência genômica de grandes ORFs

(Open Reading Frame – região de

leitura aberta), ou seja, subseqüências iniciando por um códon de início e terminando com um códon terminal. O programa Genemark é mais preciso, pois considera também um modelo da região intergênica (que é diferente do modelo da distribuição estatística das bases dentro de um gene). A identifi-cação gênica é um passo do pipeline que, em geral, envolve interferência manual grande, pois os preditores de genes incorrem em erros, seja supe-restimando o número de ORFs ou subestimando esse valor.

Com um conjunto final de ORFs putativas, cada seqüência desse con-junto é então alinhada, ou seja, compa-rada com outras seqüências de função conhecida. Existem alguns bancos pú-blicos de proteínas, como o banco do

Genbank [Genbank] e o Swiss Prot [Swiss Prot], que são comumente uti-lizados como base de comparação. Os programas usados nessa fase possu-em a mesma função dos programas de montagem: comparar seqüências. Porém, dado o crescente número de seqüências públicas de proteínas de-positadas, os programas que compa-ram ORFs com bases de seqüências devem ser rápidos sem perder a pre-cisão.

É de praxe vasculhar manualmen-te ORF a ORF, por meio de um programa de edição pela Web, que permite aos anotadores humanos modificarem as escolhas feitas pelo computador, seja alterando informa-ções estruturais, como funcionais. O serviço é considerado completo quan-do o genoma está decodificaquan-do e minimamente anotado, com seus ge-nes identificados e conferidos.

É indiscutível a contribuição das informações obtidas em um projeto genoma. No caso da bactéria Xylella fastidiosa, antes da elucidação da se-qüência completa, muito pouco era conhecido do mecanismo molecular de patogenicidade da bactéria. Hoje, além dos genes relacionados com o metabolismo básico, vários genes re-lacionados com a patogenicidade fo-ram identificados, alguns deles nunca anteriormente identificados em pató-genos de plantas, trazendo novas in-ferências ao processo de patogenici-dade bactéria-planta (Simpson et al. 2000).

Conclusão

A vasta quantidade de dados gera-dos por projetos na área genômica está ocasionando uma verdadeira re-volução, com grande potencial para o desenvolvimento da biologia básica e aplicada. A comunidade científica está concentrada principalmente em deci-frar a informação genética contida na molécula de DNA, com o objetivo de compreender a fisiologia dessas dife-rentes formas de vida, criando condi-ções para interferir nos processos bio-lógicos em prol da agricultura e da medicina.

Agradecimentos

Os autores fazem um agradecimento especial a Andrew Simpson (Instituto Ludwig de Pesquisa sobre o Câncer), que foi um dos responsáveis pela introdução da genômica no Brasil, e também a Ricardo Brentani (Instituto Ludwig de Pesquisa sobre o Câncer), a João Carlos Setubal (Laboratório de Bioinformática/ Instituto de Computação da Unicamp) e a João Meidanis (Laboratório de Bioinfor-mática/Instituto de Computação da Uni-camp). Agradecem também a leitura crítica de Anamaria Aranha Camargo e também a André Luiz Vettore de Oliveira (Instituto Ludwig de Pesquisa sobre o Câncer) e a Felipe Rodrigues da Silva (Cenargen - Embrapa) pela elaboração da Figura 1 desse artigo.

Referências

Borodovsky, M., McIninch, J. D. (1993).

GeneMark: parallel gene recog-nition for both DNA strands.

Comp. Chem. 17:123-133.

da Silva, A . C. R.et al. (2002). Compa-rison of the genomes of two

Xan-thomonas pathogens with

diffe-ring host specificities. Nature417 (6887), 459-463.

Delcher, A . L. e al. (1999). Improved microbial gene identification with Glimmer. Nucleic Acids Rese-arch 27 (23):4636-4641

Duran, N., Rettori, D., Menck, C. F. M. (2001). Quem é a

Chromobacte-rium violaceum? Biotecnologia

Ci-ência e Desenvolvimento 20, 38-43. Fleischmann, R. D. et al. (1995). Whole-genome random sequencing and assembly of Haemophilus

influ-enzae Rd. Science 269 (5223),

496-512.

Fraser, C. M., Dando, M. R. (2001). Ge-nomics and future biological we-apons: the need for preventive action by the biomedical com-munity. Nature Genetics 29: 253-256.

Sanger F, Nicklen S, Coulson AR. (1977).

DNA sequencing with chain-ter-minating inhibitors.Proc Natl Acad Sci U S A 74(12):5463-7.

Simpson, A. J. G., et al. (2000). The genome sequence of the plant pathogen Xylella fastidiosa. Na-ture 406 (6792):151-157.

Weber, J. L., Myers, E. W. (1997). Hu-man whole-genome shotgun se-quencing. Genome Research 7:401-409.

Endereços eletrônicos

CAP3. http://genome.cs.mtu.edu/sas.html

Genbank. http://www.ncbi.nlm.nih.gov/Genbank/GenbankOverview.html PhredPhrap. http: //www.phrap.org

Referências

Documentos relacionados

Crisóstomo (2001) apresenta elementos que devem ser considerados em relação a esta decisão. Ao adquirir soluções externas, usualmente, a equipe da empresa ainda tem um árduo

Ainda nos Estados Unidos, Robinson e colaboradores (2012) reportaram melhoras nas habilidades de locomoção e controle de objeto após um programa de intervenção baseado no clima de

Este estudo tem o intuito de apresentar resultados de um inquérito epidemiológico sobre o traumatismo dento- alveolar em crianças e adolescentes de uma Organização Não

6.1.5 Qualquer alteração efetuada pelo fabricante em reator cujo protótipo já tenha sido aprovado pela Prefeitura/CEIP deverá ser informada, com antecedência, pelo

Informed consent/leguislation & jurisprudence Liver transplantation: informed consent value in relation to liver donnor's affective aspects during pre- operative period,

O objetivo deste trabalho foi realizar o inventário florestal em floresta em restauração no município de São Sebastião da Vargem Alegre, para posterior

Realizar esse trabalho possibilita desencadear um processo de reflexão na ação (formação continuada), durante a qual o professor vivencia um novo jeito de

A lógica “nós” versus “eles”, tem origem na modernidade, com a construção do Estado Nacional, atuando como sustentáculo de uma ideologia excludente que