• Nenhum resultado encontrado

Uma investigação: ESTs (expressed sequence tags) podem ser usados no desenvolvimento de marcadores moleculares baseados em introns?

N/A
N/A
Protected

Academic year: 2017

Share "Uma investigação: ESTs (expressed sequence tags) podem ser usados no desenvolvimento de marcadores moleculares baseados em introns?"

Copied!
98
0
0

Texto

(1)

Universidade Católica de Brasília Pró-Reitoria de Pós-Graduação e Pesquisa

Programa de Pós-Graduação “Stricto Sensu” em Ciências Genômicas e Biotecnologia

“Uma investigação: ESTs (Expressed Sequence Tags) podem ser usados no desenvolvimento de marcadores moleculares baseados em introns?”

Simone de Sá Vasconcelos

Dissertação apresentada ao Programa de Pós-Graduação

Stricto Sensu” em Ciências Genômicas e Biotecnologia, da Universidade Católica de Brasília, como requisito parcial

para obtenção do grau de Mestre.

Orientador: David John Bertioli Co-orientador:Wellington Santos Martins

(2)

“Uma investigação: ESTs (

Expressed Sequence Tags

) podem ser usados no

desenvolvimento de marcadores moleculares baseados em introns?”

Banca examinadora

Orientador: Prof. Dr. David John Bertioli

Co-orientador:Wellington Santos Martins

Prof. Dr. Marcos Mota Costa

Profa. Dra. Maria Sueli Soares Felipe

(3)

“As pessoas que acham que sabem tudo aquilo que necessitam saber, pararam de aprender.”

Philip B. Crosby

(4)

AGRADECIMENTOS

• Aos meus pais e irmãos que sempre me apoiaram em toda a minha caminhada.

• Ao Nícolas pela paciência nesses últimos anos.

• Ao meu orientador Dr. David Bertioli pela orientação.

• Ao meu co-orientador Dr. Wellington Martins pela orientação.

• Ao Prof. Dr. Ruy de Araújo Caldas e à Prof.ª Dra. Sueli Felipe pela ajuda, principalmente nos momentos difíceis.

• Aos colegas e amigos que fiz na Universidade Católica de Brasília, em especial, a Vanice, Maria dos Reis, Alexandre que sempre estiveram ao meu lado.

• A amiga Clarissa, que nos últimos dias foi muito mais que uma amiga e sim uma co-orientadora.

• Aos estagiários da Bioinformática, Gabriel e Hélio Kenta.

• Aos funcionários da Universidade Católica de Brasília, em especial, ao André, Fábio, William e Márcia.

• A Msc. Karina Proite e Dra. Patrícia Guimarães pelo auxilio na construção da biblioteca de cDNA.

(5)

Índice

Dedicatória ... 3

Agradecimentos ... 4

Resumo ... 8

Abstract ... 9

1.Introdução... 10

1.1 Expresssed Sequence Tags (ESTs) ... 12

1.2 Marcadores Moleculares ... 15

1.3 Modelo Biológico: Gênero Arachis ... 18

1.4 A Bioinformática 1.4.1 – Definição ... 20

1.4.2 – Sistemas Operacionais ... 20

1.4.3 – Ferramentas para Bioinformática... 21

1.4.4 – Linguagens de Programação ... 24

1.4.5 – Desenvolvimento de Marcadores Moleculares com o uso da Bioinformática ... 25

2. Justificativa ... 26

3.Objetivos... 27

4. Material e Métodos ... 28

4.1- Extração do RNA... 28

4.2 - Construção do banco de cDNA ... 28

4.3 - Sequenciamento ... 31

4.4 – Análise computacional das ESTs ... 32

5.Resultados... 38

6. Discussão... 45

7. Conclusões... 49

8. Referências Bibliográficas... 50

(6)

Índice de Figuras

Figura 1: Esquema da construção de ESTs ... 12

Figura 2: Processo de transcrição monstrando a posição dos introns em uma molécula de DNA... 17

Figura 3: Fluxograma representando o pipeline 1 ... 34

Figura 4: Fluxograma representando o pipeline 2 ... 35

Figura 5: Fluxograma representando o pipeline 3 ... 36

Figura 6: Fluxograma representando o pipeline 4 ... 37

Figura 7: Gel de quantificação referente a extração de RNA total ... 38

Figura 8: Gel referente as frações obtidas da cromatografia de gel de filtração ... 38

Figura 9: Esquema mostrando como foi feito o desenho de primers ... 39

Figura 10: Análise em gel dos produtos da reação de PCR,utilizando-se os primers PT2F2 e PT2R2 ... 40

Figura 11: Exemplo de arquivo do tipo Genbank (.gb) ... 42

(7)

Índice de Tabelas

Tabela 1: Oligonucleotídeos do kit de construção de biblioteca de cDNA SMART

IV ... 29

Tabela 2: ESTs geradas de Arachis stenosperma ... 41

Tabela 3: Agrupamento de ESTs após CAP3 ... 41

Tabela 4: Desenho do primer flanqueando introns – A. stenosperma ... 47

(8)

Resumo

Os recentes avanços tecnológicos na biologia molecular têm possibilitado o desenvolvimento de técnicas poderosas na análise de diversidade genética. O surgimento da técnica baseada na Reação de Polimerase em Cadeia (PCR) levou ao desenvolvimento de marcadores moleculares, que podem ser usados na construção de mapas genéticos, no mapeamento de características de interesses econômicose e no mapeamento comparativo entre diversas espécies. O presente estudo teve como objetivo investigar a possibilidade de desenvolver marcadores moleculares baseados em introns a partir de ESTs (Expressed Sequence Tags) de Arachis stenosperma e de Arachis hypogaea. É sabido que as ESTs têm sido o meio mais rápido de se obter informações das seqüências codificantes a partir dos bancos de DNA complementar (cDNA), podendo ser utilizadas para o desenvolvimento de marcadores moleculares. Ressalta-se que este trabalho constitui uma das etapas do projeto geral de “Busca de genes de resistência contra pragas e patógenos em germoplasma selvagem de Arachis do Brasil”, o qual tem como um dos objetivos identificar, em espécies selvagens de amendoim, fontes de resistência contra pragas e doenças da América do Sul. Uma espécie selvagem que tem se mostrado resistente a fungos e nematóides é A. stenosperma. Sendo assim, no presente trabalho através da produção, sequenciamento e análise computacional das ESTs obtidas em bancos de cDNA de folhas dessa espécie selvagem, desenvolveu-se uma metodologia objetivando a busca de candidatos a marcadores moleculares baseados em introns. Seqüências de ESTs de raiz de A.stenosperma não inoculada e inoculada por Bradiryzobium, assim como seqüências de ESTs de A. hypogaea depositadas no banco de dados dbEST foram usadas nesse estudo. Visando a automatização do processo de busca de marcadores, desenvolveu-se uma ferramenta computacional com a finalidade de encontrar seqüências homólogas contendo introns, assim como o alinhamento dessas sequências com as ESTs correspondentes. De um total de 330 ESTs de A.stenosperma, foi possível a obtenção de 4 candidatos a marcadores baseados em introns, enquanto que para 1.346 ESTs de A. hypogaea foram obtidos 9 possíveis marcadores. Tais informações foram então utilizados para desenhar primers flanqueando introns, que poderão ser testados posteriormente dentro do projeto geral. Sendo assim, através dos resultados preliminares obtidos nessa investigação, há indícios para a possibilidade de se desenvolver marcadores moleculares baseados em introns.

(9)

Abstract

(10)

1. Introdução

No início do século XXI, a ênfase da biologia molecular passou do estudo de genes individuais para o estudo de genomas inteiros. Essa mudança foi possível graças ao desenvolvimento, durante a década de 1990, de métodos para o sequenciamento de grandes genomas. O sequenciamento de genomas começou antes da última década do século XX, com o primeiro genoma do fago φX174, que foi completado em 1975; mas o primeiro genoma de um organismo de vida livre, o da bactéria Haemophilus influenzae, teve seu sequenciamento concluído apenas 20 anos depois, em 1995. Os cinco anos seguintes constituíram-se em um divisor de águas, com a publicação das seqüências dos genomas de quase 50 outras bactérias, juntamente com as seqüências completas de genomas maiores, tais como o da levedura, o da mosca-das-frutas, o de Caenorhabditis elegans, o da Arabidopsis thaliana e o humano (Brown, 2003).

Grandes projetos genomas que foram desenvolvidos ou que ainda estão em desenvolvimento no mundo inteiro têm como objetivos a descoberta e a descrição de genes; os principais, referem-se aos genomas microbianos, de plantas e humano. Existem vários centros governamentais e privados especializados no sequenciamento desses genomas. Como exemplo, o TIGR (The Institute for Genoma Research – O Instituto para Pesquisa de Genomas) (http://www.tigr.org), que mantém muitos bancos de dados específicos de genoma, enfatizando as ESTs (Expressed Sequence Tags) em vez dos dados genômicos completos. Há outros centros de genomas, como TAIR (The Arabidopsis Information Resource), MGI (Medicago Genome Initiative), Sanger Center, dentre outros tantos. Uma lista completa de sequenciamento dos genomas que estão sendo estudados ou já foram completados pode ser encontrada no banco de dados GOLD (Genomes Online Database – Banco de Dados On-Line de Genomas), um site mantido pela Integrated Genomics, Inc. (Bernal et al, 2001).

(11)

O primeiro projeto genoma no Brasil levado a conhecimento público foi desenvolvido em São Paulo com o apoio da Fundação de Amparo às Pesquisas do Estado de São Paulo (FAPESP). No ano de 1997, essa fundação criou uma rede virtual responsável pelo sequenciamento e análise de nucleotídeos denominado ONSA ( Organization for Nucleotide Sequencing and Analysis), que inclusive tem financiado projetos científicos na área genômica.

Entre os projetos financiado pela FAPESP está o da Xylella fastidiosa (Simpson et al.,2000), patógeno responsável pela “praga do amarelinho” nas lavouras de laranja. Com este projeto o País entrou para a história pelo primeiro sequenciamento de um fitopatógeno. A partir deste projeto, outros mais ambiciosos surgiram, como o Genoma da Cana-de-açúcar, o Genoma do Câncer Humano (HCGP) - em colaboração com o Instituto Ludwig e o Genoma do Eucalipto (Genolyptus), dentre outros.

(12)

1.1 Expressed Sequence Tags (ESTs)

Nos últimos anos, o desenvolvimento de materiais e técnicas para o sequenciamento rápido e preciso de um grande número de amostras de DNA tem possibilitado o sequenciamento sistemático de genoma completo (Cooke et al., 1996). O meio mais rápido para se obter informações das seqüências codificantes é realizar o sequenciamento parcial de DNA complementar (cDNA). As etiquetas de seqüências expressas, ou ESTs (Expressed sequence tags), são seqüências geradas da construção de bibliotecas de cDNA que corresponde a um mRNA (Figura 1) (Adams et al., 1991). As seqüências são de tamanhos pequenos, variando em média de 200 – 800 pares de bases.

Figura 1: Esquema da construção de ESTs (Adaptação do site:

(13)

Como os ESTs geralmente são seqüenciados uma única vez, as seqüências podem apresentar freqüência maior de erros, do tipo deleções, substituições e inserções de bases, quando comparadas às seqüências de cDNA determinada por múltiplas leituras em ambas as fitas (Wolfsberg & Landsman, 1997). O sequenciamento pode ser realizado pela extremidade 5’, 3’, ou ambas. A maioria das seqüências ESTs disponíveis hoje têm sido derivadas da extremidade 5’. Obter seqüências de cDNA de boa qualidade da extremidade 3’ em larga escala tem apresentado bastante dificuldade em função do deslizamento da enzima DNA polimerase usado no PCR e no sequenciamento no tracto poliA:poliT. Quando se opta por apenas uma das extremidades, é dada preferência à extremidade 5’ devido à menor extensão da região não traduzida (Rodrigues, 2001).

Outro problema tem sido o risco de contaminação por outros organismos (bactérias ou fungos) de materiais de plantas usados para preparar bibliotecas de cDNA (Cooke et al., 1996), o qual precisa ser analisado e descartado para que se possa dar continuidade com a análise das seqüências. Um cuidado especial é também necessário durante a preparação do tecido que irá ser feito à biblioteca para se evitar esse tipo de contaminação, embora nesse trabalho não tenha sido prioridade, pois um dos objetivos do projeto geral “Busca de genes de resistência contra pragas e patógenos em germoplasma selvagem de Arachis do Brasil” é comparar raiz não inoculada com raiz inoculada por uma bactéria nitrificante Bradyrhizobium.

(14)

Nos últimos anos, um grande número de ESTs de leguminosas tem sido depositado em banco de dados públicos. Até setembro de 2003, existiam 341.573 ESTs de Glycine max (soja), 187.763 ESTs de Medicago truncatula, 36.262 ESTs de Lotus japonicus e 1346 de Arachis hypogaea no GenBank do NCBI. O Medicago Genome Initiative (MGI) é um banco de dados de EST de Medicago truncatula, um organismo que pode servir como modelo para soja e outras leguminosas economicamente importantes (Bell et al, 2001).

A disponibilidade de uma extensiva informação de ESTs para muitas espécies, em conjunto com as seqüências completas de Arabidopsis thaliana e Oriza sativa, e que se encontram disponíveis no banco de dados do NCBI, permitirá melhor compreensão sobre a questão de quão similar são os genomas de plantas superiores (Somerville & Somerville, 1999). A comparação de seqüências de ESTs com seqüências conhecidas de A. thaliana e O. sativa, em determinados casos, permite a identificação de pequenas regiões altamente conservadas e que podem ser usadas para definir primers únicos ou degenerados para a amplificação de seqüências homólogas em outros organismos (Cooke et al., 1996).

(15)

1.2. Marcadores Moleculares

Há anos atrás, devido à baixa quantidade de marcadores genéticos de plantas, a capacidade de realizar mapeamento genético detalhado era extremamente limitada. Segundo Rafalski e colaboradores (1996), marcadores fenotípicos clássicos eram abundantes em poucas espécies bem caracterizadas como em milho e ervilha, e suas utilidades eram restritas pela baixa resolução dos mapas produzidos e pela grande quantidade de tarefas requeridas para gerar e usar esses marcadores.

Com o advento das técnicas modernas de biologia molecular, marcadores moleculares que detectam polimorfismo genético diretamente ao nível de DNA (ácido desoxirribonucleico) foram desenvolvidos. Marcadores moleculares podem ser definidos como uma “marca”, ou um meio de se visualizar a presença ou ausência de uma seqüência específica de DNA dentro do genoma.

Os marcadores de DNA têm aplicação direta em estudos de genética de populações, mapeamento e análise de similaridade e distância genética. Também, as marcas de DNA podem ser usadas para impressão digital de DNA (DNA fingerprinting), isto é, visando à identificação de acessos de plantas ou de isolados de um microorganismo, ou para completar estudos de sistemática (Lopes, 2002).

Os distintos tipos de marcadores moleculares hoje disponíveis diferenciam-se pela tecnologia utilizada para revelar variabilidade em nível de DNA, e assim mudam quanto à habilidade de detectar diferenças entre indivíduos, custo, facilidade de uso, consistência e repetibilidade. Os principais tipos de marcadores moleculares podem ser classificados em dois grupos, conforme a metodologia utilizada para identificá-los: hibridização ou amplificação. Entre os identificados por hibridização estão os marcadores RFLP (Restriction Fragment Length Polymorphism) e minisatélites ou locos VNTR (Variable Number of Tandem Repeats). Já aqueles revelados por amplificação incluem os marcadores do tipo RAPD (Random Amplified Polymorphic DNA); SCAR (Sequence Characterized Amplified Regions); STS (Sequence Tagged Sites); Microssatélite (SSR - Single Sequence Repeats) e AFLP (Amplified Fragment Length Polymorphism).

(16)

Polymorphism – Polimorfismo de Seqüência Expressa Marcada). Segundo Milach e colaboradores (2002) o desenvolvimento desses consiste no desenho de primers específicos para cada seqüência e no teste em diversos genótipos para determinação da utilidade das seqüências obtidas. Matthews e colaboradores (2001), no estudo com Glycine max (soja), consideraram os ESTs como marcadores valiosos para traçar e isolar genes que controlam características fenotípicas importantes economicamente. O sequenciamento genômico em larga escala e o sequenciamento de ESTs proporcionam também a oportunidade de avaliar a distribuição relativa e abundante de microssatélite em regiões transcritas e não transcritas (Morgante et al., 2002; Thiel et al, 2003).

Uma forma de explorar mais informações das seqüências de DNA genômico é desenvolver primers de reações de PCR (iniciadores de reações de amplificação) que objetivam regiões específicas do gene, com vista a determinar que regiões possuem variação suficiente do comprimento do produto de amplificação para serem usadas como marcadores moleculares. Seqüências de DNA genômico (em contraste com o cDNA) de bancos de dados públicos, freqüentemente indicam as posições de exons, introns e regiões promotoras. Conseqüentemente, essas informações podem ser usadas para desenvolver primers que flanqueam exons, introns ou regiões promotoras de genes conhecidos com elevada especificidade. Com essas informações, Holland e colaboradores (2001) desenvolveram marcadores moleculares baseados em exons, introns, regiões promotoras e microssatélites em milho e introns e seqüências repetitivas em aveia, que permitiram a detecção de polimorfismo quando usaram primers flanqueando essas regiões específicas.

(17)

Figura 2: Processo de transcrição monstrando a posição dos introns em uma molécula

de DNA (Adaptada de Brown, 2003).

(18)

1.3 Modelo Biológico: Gênero Arachis

O gênero Arachis (família Leguminosae, subfamília Papilionidae) é originário da América do Sul, provavelmente do sudoeste do Mato Grosso do Sul, no Brasil ou nordeste do Paraguai, onde ainda também se encontram as espécies com maior divergência basal dentro da árvore filogenética Arachis guaranitica e Arachis tuberosa (Simpson et al, 2001). Esse gênero se distingue claramente de outros representantes da família por possuir uma estrutura particular de frutificação (o ginóforo ou “peg”) com desenvolvimento geocárpico - formação subterrânea das vagens (Godoy et al., 1989).

Em nível citológico, todas as espécies selvagens situam-se em apenas dois níveis de ploidia, o diplóide (2n=20) e o tetraplóide (2n=40). Baseados na morfologia e nos cruzamentos interespecíficos, o gênero Arachis encontra-se dividido nas seguintes seções: Trierectoides, Erectoides, Extranervosae, Triseminatae, Heteranthae, Caulorrhizae, Procumbentes, Rhizomatosae e Arachis (Krapovickas & Gregory, 1994). Destas seções, a Arachis mostra maior interesse econômico por abrigar o amendoim comum (Arachis hypogaea) (Veiga et al, 2001).

As espécies selvagens da seção Arachis, em sua maioria, são diplóides (2n=20) e se caracterizam por apresentarem alto polimorfismo genético (Kochert et al., 1991; Halward et al., 1992; Stalker et al, 1994). O maior interesse pela prospecção, resgate e caracterização de germoplasma das espécies silvestres de Arachis reside em seu potencial de fornecimento de genes úteis para o melhoramento do amendoim cultivado (Stalker, 1992). Do ponto de vista de utilização em programas de melhoramento genético, as espécies selvagens possuem características desejáveis não encontradas nos cultivares comerciais. Santos (1999) aponta como características principais à alta resistência ao estresse hídrico e a algumas doenças de importância econômica, bem como a rica qualidade da proteína encontrada nas sementes de algumas espécies.

(19)

No Brasil, doenças foliares do amendoim causadas pelos fungos Cercospora arachidicola, (mancha castanha), Cercosporidium personatum (mancha preta) e Puccinia arachidis (ferrugem), permanecem sendo fatores limitantes importantes no rendimento da produção do amendoim. Elas reduzem a área das folhas disponíveis para a fotossíntese, resultando em um decréscimo na habilidade para produzir e converter os produtos da fotossíntese, o que pode reduzir a produção das sementes (Nutter & Shokes, 1995).

A espécie selvagem A. stenosperma apresenta resistência ao nematóide das galhas Meloidogyne arenaria raças 1 e 2 (Nelson et al., 1989; Garcia et al.,1996 ; Leal-Bertioli et al., 1999) e aos fungos Cercospora arachidicola, Cercosporidium personatum (Wyne et al., 1991) e Puccinia arachidis (Subrahmanyam et al., 1983) candidatanto-se, então, a ser uma espécie adequada para a busca de genes de resistência e a introgressão de resistência em A.hypogaea. Lembra-se que a introgressão é feita mais eficientemente com o uso de marcadores moleculares.

(20)

a. A Bioinformática

1.4.1 Definição

O termo bioinformática foi criado por Hwa Lim no final da década de 80, e popularizado na década de 90, através da sua relação com o projeto genoma humano (Goodman, 2002). A bioinformática pode ser definida como a área da ciência que envolve todos os aspectos da aquisição, processamento, armazenamento, distribuição, análise e interpretação de informação biológica. Os estudos em bioinformática combinam diferentes técnicas e ferramentas da matemática, computação e biologia, e têm como objetivo agilizar e facilitar a análise e compreensão da imensa quantidade e variedade de dados biológicos experimentais e mesmo clínicos (Sousa et al., 2001).

Segundo Luscombe e colaboradores (2001), os objetivos da bioinformática são três. O primeiro consiste na organização dos dados de forma que permita o pesquisador acessar as informações existentes e submeter novas entradas que são produzidas. O segundo objetivo é desenvolver ferramentas e recursos que auxiliem a análise dos dados. O terceiro é o uso dessas ferramentas para analisar dados e interpretar os resultados de uma maneira biologicamente significante.

1.4.2 Sistemas Operacionais

O sistema operacional (SO) é o principal programa de um computador. É o que atua como intermediário entre o usuário e os componentes físicos da máquina (hardware), fornecendo ao usuário um ambiente na qual ele possa executar e desenvolver programas.

Os SOs mais conhecidos e utilizados são aqueles baseados no Windows, Unix e MacOS. Muitas das aplicações utilizadas em bioinformática são compiladas e distribuídas para a execução em plataformas derivadas do Unix.

(21)

1.4.3 Ferramentas para a Bioinformática

Os métodos computacionais para a busca de genes transformaram-se em uma ferramenta cada vez mais importante nos últimos anos. Enquanto o ritmo de sequenciamento do genoma cresceu com o surgimento dos seqüenciadores automáticos de DNA, a necessidade para métodos rápidos da descoberta do gene tornou-se maior. A seqüência do genoma é justamente o começo de um grande esforço para compreender as funções de um organismo, e o primeiro e mais crítico passo desse processo é a identificação acurada de todos os genes e de suas proteínas associadas (Pertea e Salzberg, 2002).

1.4.3.1 Nomeação de bases (base calling)

Um dos primeiros desafios computacionais no processo de sequenciamento é a interpretação do padrão de fragmentos em um gel de sequenciamento. Esse processo de interpretação dos dados brutos provenientes do sequenciador automático é conhecido como nomeação de bases, ou base calling. Se esta etapa não produzir uma seqüência de DNA correta, qualquer análise subseqüente da seqüência será afetada. A maioria das seqüências depositadas em um banco de dados públicos é afetada por erros de base calling devido a ambigüidades no resultado do seqüenciador ou ao mau funcionamento do equipamento (Gibas & Jambeck, 2001).

(22)

1.4.3.2. Mascaramento de vetores

As seqüências obtidas após o sequenciamento podem apresentar contaminações com regiões correspondentes aos vetores de clonagem (fagos, plasmídeos e outros utilizados na construção de bibliotecas de cDNA) que devem ser descartadas antes de se dar continuidade às análises. O Cross_Match é um software utilizado para comparações entre seqüências de DNA e que permite o mascaramento de vetores nessas seqüências (Green, 1999). O Cross_Match compara a seqüência de DNA com um arquivo de seqüência de vetores, onde o programa encontra similaridade entre as seqüências, ele mascara (substituindo pela letra X) a seqüência de entrada, evitando que essa região mascarada afete os processos posteriores de análise computacional.

1.4.3.3. Montagem de seqüências

(23)

1.4.3.4 Consulta de seqüência em banco de dados biológicos

Hoje, um método adequado para inferir a função biológica de um gene (ou a proteína que ele codifica) é pela procura de similaridade em banco de dados de DNA e proteínas. A procura por similaridade é uma das principais técnicas usadas pelos biólogos. As ferramentas mais conhecidas para esses propósitos são o BLAST (Basic Local Alignment Search Tool) (Altschul, 1990) e o FASTA (Pearson, 1998), que efetuam comparações entre pares de seqüências, procurando por regiões de similaridade local. O BLAST tem sido mais usado na análise de similaridade devido ao tempo de execução ser menor quando comparado ao FASTA.

O BLAST consiste em um conjunto de programas de busca de similaridade criado para explorar todos os bancos de dados de seqüências disponíveis em relação a proteína e o DNA Ele executa comparações de seqüências em pares, procurando regiões de similaridade local, ao invés de alinhamentos globais ótimos entre as seqüências inteiras. Uma pesquisa do BLAST em um banco de dados de seqüências dá como resultado uma lista de candidatos similares à seqüência submetida juntamente com os alinhamentos dos segmentos correspondentes. O BLAST fornece três informações que permitem a interpretação dos resultados: pontuações brutas, pontuações de bits e valores E (‘e-value’) (Astchul et al., 1990; http:// www.ncbi.hlm.nih.gov).

A pontuação bruta para um alinhamento de seqüência local é a soma das pontuações de pares de segmentos de pontuação máxima (MSPs) que compõem o alinhamento. Devido a diferenças entre matrizes de pontuação, as pontuações brutas nem sempre são comparáveis diretamente. As pontuações de bit são pontuações brutas convertidas a partir da base de registro 2. Este novo escalonamento permite que as pontuações de bit sejam comparadas entre os alinhamentos (Gibas & Jambeck, 2001).

(24)

O BLAST disponível no NCBI apresenta cinco subtipos de programas desenvolvidos para buscar similaridades entre seqüências de nucleotídeos e proteínas nos bancos de dados biológicos. O BLASTn analisa a seqüência de nucleotídeo gerada, comparando-a com seqüências de nucleotídeos depositadas no banco de dados; já no BLASTx, a seqüência de nucleotídeo é traduzida nas seis possíveis fases de leitura e a análise é feita contra banco de proteínas; o BLASTp compara a seqüência de proteína submetendo-a a outras seqüências de proteínas dos bancos; o TBLASTx, traduz a seqüência de nucleotídeos nas seis possíveis fases de leitura e faz a análise contra um banco de nucleotídeos também traduzidos nas seis fases de leitura; e por fim, o TBLASTn, compara a seqüência da proteína contra bancos de nucleotídeos traduzido nas seis fases de leitura.

O alinhamento simultâneo de muitos nucleotídeos ou seqüências de aminoácidos é hoje uma ferramenta essencial em biologia molecular. Alinhamentos múltiplos são usados para caracterizar famílias de proteínas, detectar ou demonstrar homologia entre novas seqüências e famílias existentes de seqüências, desenhar primers para PCR (Reação em Cadeia de Polimerase), como um prelúdio essencial para análises moleculares evolucionárias. Um programa utilizado para este propósito é o CLUSTALW (Thompson et al., 1994) que está gratuitamente disponível para uma grande variedade de computadores e sistemas operacionais.

1.4.4 Linguagens de programação

(25)

PERL (Practical Extraction and Report Language – Linguagem Prática para Extração e Relatórios) é uma linguagem de programação criada por Larry Wall em 1987, muito usada em áreas como a bioinformática e programação de web. Muitos dos programas de bioinformática desenvolvidos em PERL são específicos para um laboratório ou instituição em particular e são escritos para uso imediato. Porém em 1995, surgiu um projeto denominado BIOPERL que reúne programas rotineiramente usados em bioinformática na análise e anotação de dados biológicos e que estão disponíveis gratuitamente na WEB. Para Stajich e colaboradores (2002) os módulos do BIOPERL têm sido usados com sucesso por reduzir tarefas complexas a códigos com poucas linhas.

1.4.5 Desenvolvimento de Marcadores Moleculares com o uso da

Bioinformática

(26)

2. Justificativa

(27)

3. Objetivos

• Propor uma metodologia para o desenvolvimento de marcadores moleculares baseados em introns utilizando ESTs de Arachis stenosperma não inoculado e inoculado por Bradyrhizobium sp. e de A. hypogaea.

(28)

4. Material e Métodos

A planta utilizada nas construções das bibliotecas de cDNA de folhas e raízes foi Arachis stenosperma acesso V10309. A semente fazia parte da coleção mantida na Embrapa Recursos Genéticos e Biotecnologia. Os procedimentos para a germinação da semente incluíram lavagem em uma solução fungicida (Thiran 0,05%) e, em seguida lavagem com Ethrel 1% para quebra da dormência e indução da germinação. A semente foi colocada em papel filtro umedecido com água destilada e levada para uma câmara com 100% de umidade e temperatura 25o.C. Após 10 dias, a plântula recém germinada foi transferida para um vaso definitivo.

4.1 Construção de biblioteca de cDNA de folhas de Arachis stenosperma

Embrapa Recursos Genéticos e Biotecnologia

Extração do RNA

O RNA total de folhas (100 mg) foi extraído com a utilização do Rneasy Plant Mini kit (Qiagen/USA). O RNA foi analisado em sua qualidade pela eletroforese em gel de agarose 1% em TAE (Tris-acetato 40mM e EDTA pH 8,0 1mM) corado com brometo de etídeo (1%). Como foi observada a presença de uma banda de DNA no gel, foi feita uma limpeza com DNAse (Pharmacia).

Banco de cDNA

A construção do banco de cDNA foi feito com SMART cDNA Library Construction Kit (Clontech/UK), desenvolvido para a construção de bibliotecas a partir de pequena quantidade de RNA. O kit SMART (Switching Mechanism At 5’ end of RNA Transcript) apresenta dois protocolos para obtenção da biblioteca dependendo do material a ser usado ( RNA total ou mRNA) : Long-Distance PCR (LD-PCR) e Primer Extension . Para esse trabalho foi escolhido o LD-PCR, pois foi utilizado RNA total (1 µg).

(29)

leukemia virus) alcança a extremidade 5’ do mRNA, é adicionado uma pequena quantidade de citosinas a fita complementar ao mRNA. Então, o oligonucleotídeo SMART IV contendo guanina na extremidade 3’ pareia com a extensão contendo citosina, criando um novo molde para a enzima RT. Essa enzima liga os moldes e continua sintetizando até o final do oligonucleotídeo. A fita simples de cDNA contém a extremidade 5’ completa do mRNA, assim como a seqüência complementar ao oligonucleotídeo SMART IV, que então serve um adaptador, o qual possui um sítio para anelamento do primer 5’ na amplificação por LD- PCR. Somente esses cDNAs contendo adaptadores na extremidade 5’ podem servir como molde e podem ser amplificados.

Por meio dos oligonucleotídeos 3’CDS III PCR primer e do SMART IV, o cDNA fita dupla tem incorporado sítios de restrição assimétricos ( A e B) para a enzima de restrição Sfi I nas extremidades 3’ e 5’.

Tabela 2: Oligonucleotídeos do kit de construção de biblioteca de cDNA SMART IV

Oligonucleotídeo SMART IV

5’ AAGCAGTGGTATCAACGCAGAGTGGCCATTACGGCCGGG 3’

CDS III/3’ PCR primer

5’ ATTCTAGAGGCCGAGGCGGACATG –d(T)30 N-1N 3’

5’ PCR primer

5’ AAGCAGTGGTATCAACGCAGAGT 3’

A reação de LD-PCR inicia-se com a desnaturação a 95 ºC por 2 minutos, seguido de um número de ciclos por 10 segundos a 95 ºC (desnaturação) e 6 minutos a 68 ºC (anelamento). O número de ciclos variou de 18 a 26 ciclos. Amostras dos produtos desses ciclos foram retiradas e observadas em gel de agarose (1%) com brometo de etídio em tampão TAE 1X, para visualizar qual era o menor número de ciclo capaz de produzir um produto para ser visualizado, evitando assim, amplificação excessiva dos transcritos mais expressos.

(30)

isoamílico por uma coluna de purificação da Amicon – Millipore. Com o produto purificado foi feita a digestão enzimática com Sfi I.

O fracionamento do cDNA foi feito em cromatografia de gel de filtração (CHROMA SPIN – 400, Clontech). Dezessete frações da cromatografia foram coletadas e analisadas em gel de agarose (1%)/brometo de etídio em tampão TAE 1X. As frações selecionadas foram reunidas. Com 1.5 µl de cDNA concentrado, foi feita a ligação deste ao vetor λTriplEx2 que contém as extremidades assimétricas para ligação dos fragmentos gerados pela digestão com Sfi I. Para o empacotamento do fago lambda recombinante, foi adicionado 5 µl da ligação ao extrato de empacotamento (Gigapack III Gold Packaging Extract – Stratagene) seguindo a orientação do fabricante.

Para a titulação e amplificação dos bancos de cDNA, foram utilizadas células de Escherichia coli XL – 1 Blue, cultivadas em meio LB sólido com tetraciclina (15 µg/ml). A partir dessa cultura, uma colônia isolada foi transferida para 15 ml de LB líquido com MgSO4 10 mM e maltose 0,2% em shaker a 37oC durante à noite. As células foram centrifugadas a 5000 rpm por 5 minutos e o pellet ressuspendido em 6 ml de MgSO4 10 mM. Antes do uso, as células foram diluídas para uma concentração determinada por uma leitura em 600 nm, OD600 = 0,5 em MgSO4 10 mM.

Em tampão SM foram feitas diluições 1:10 as bibliotecas de cDNA. Foram adicionados 1µl, 5µl e 10µl da diluição a 200 µl de células a uma OD600 = 0,5 e a 3 ml de top ágar a 45oC. Essas amostras foram vertidas em placas de petri com LB + MgSO4 , deixadas durante 10 minutos em temperatura ambiente, e incubadas a 37oC por 7 horas, para visualização das placas de lise isoladas.

O título obtido na construção do banco de cDNA ficou em torno de 109 pfu/ml. As placas de lise isoladas foram coletadas aleatoriamente utilizando-se ponteiras de micropipeta de 200 µl cortadas. Os clones foram colocados em 50 µl de SM em microplaca de policarbonato de 96 poços acrescidos de 3 µl de clorofórmio. Os fagos foram eluídos durante a noite a 4 oC.

(31)

4.2 Sequenciamento

Laboratório de Biotecnologia Genômica - UCB

A partir da solução de eluição dos fagos em tampão SM foi feita uma reação em cadeia de polimerase (PCR), a qual será utilizada para a reação de sequenciamento. Os primers utilizados na reação de PCR foram primers específicos que flanqueiam a região de inserção do cDNA no vetor, são eles: PT2F2 (5’ GCGCCATTGTGTTGGTACCC 3’) e PT2R2 (5’ CCGCATGCATAAGCTTGCTC 3’). Para a reação, foi utilizado: 1,5 µl da suspensão de fagos eluídos a partir de uma placa de lise; 0,5 µl do primer PT2F2 (10µm) (Invitrogen); 0,5 µl do primer PT2R2(10µm) (Invitrogen); 0,25 µl de dNTP (20mM); 1U Taq Polimerase Recombinante (Pht); 1,5 µl Tampão 10X IB (Pht) em 25 µl volume final da reação. A reação foi feita no formato de microplacas de 96 poços nos termocicladores Mastercycler Gradient e GeneAmp com o seguinte programa: 3 minutos a 75oC, denaturação inicial a 94oC por 3 minutos, seguidos de 32 ciclos de 1 minuto a 94oC, 1 minuto a 49oC, 3 minutos a 72oC, e após os ciclos, 2 minutos a 72oC.

Após a reação de amplificação, a porcentagem de clones amplificados foi verificada em gel de agarose (1%) corado com brometo de etídio em tampão TBE 1X.

(32)

4.3 Análise computacional de ESTs

Laboratório de Bioinformática - UCB

As seqüências de ESTs resultantes do sequenciamento foram analisadas no Laboratório de Bioinformática da Universidade Católica de Brasília, o qual está equipado com computadores operando em sistema Linux, o qual é uma versão gratuita e de código aberto do Unix. Para a análise dessas foi desenvolvida uma ferramenta computacional para automatizar o processo de busca por seqüências genômicas homólogas às de ESTs contendo introns em banco de dados públicos. Para a montagem dessa ferramenta foram instalados no computador os seguintes programas: PHRED, CROSS_MATCH, CAP3, CLUSTALW, GDE e módulos do BIOPERL, os quais estão disponíveis gratuitamente na web.

A ferramenta computacional foi desenvolvida em PERL e consiste de quatro etapas denominadas pipeline1, pipeline2, pipeline3 e pipeline 4 (ANEXO). Nessas etapas, o usuário pode alterar alguns parâmetros de acordo com o resultado que ele quer obter, como por exemplo, o “e value” (extreme value distribution), o qual é um parâmetro do BLAST, que tem importância na análise de similaridade entre seqüências.

Na primeira etapa (pipeline 1), os cromatogramas resultantes do sequenciamento são processados com o programa PHRED. As seqüências com boa qualidade (pelo menos 250 bases com pontuação acima ou igual 20) são então processadas pelo programa CROSS_MATCH para retirada de possíveis vetores. Então, as seqüências mascaradas são montadas pelo programa CAP3 que gera agrupamentos baseados na similaridade das seqüências, e obtém como resultado arquivos com seqüências consenso (contigs) e seqüências únicas (singlets) em formato FASTA (Figura 3).

O resultado do pipeline 1 é a entrada para o pipeline2, o qual roda o BLASTn remoto contra DNA genômico e obtém arquivos do tipo gb (Genbank) e gff ('Gene-Finding Format' ou 'General Feature Format') correspondente as seqüências homólogas (Figura 4). Nessa etapa, para cada seqüência homóloga com boa pontuação (e-value <= 1e-10), seu registro Genbank correspondente é buscado e armazenado localmente. É feita então a conversão do formato genbank para o formato gff, para facilitar a busca por característica de cada seqüência, como por exemplo, a localização de introns.

(33)

com pontuação máxima (HSP’s – High-scoring Segment Pair) são analisados. Quando um hit é analisado, o arquivo gff da seqüência em questão também é analisado para verificar se existe região anotada como codificadora (CDS) nas vizinhanças do HSP. Caso seja, é verificado se existe intron anotado também. Caso positivo, os HSPs subseqüentes são analisados quanto a sua posição relativa ao HSP anterior. O programa procura por HSPs flanqueando introns. Como resultado desta fase, a ferramenta produz arquivos, formato FASTA, com seqüências homólogas às do ESTs (contigs e singletons), e arquivos contendo seqüências formadas por fragmentos (correspondentes aos HSPs) de ESTs concatenadas com introns obtidos das seqüências genômicas homólogas.

Com os arquivos gerados no pipeline3 foram utilizados os programas ClustalW, Primer3 e Mview, para a produção de alinhamento múltiplo e desenho de primers, flanqueando a região intrônica, respectivamente. Nesta etapa também é produzido um arquivo auxiliar com a posição dos introns obtidos das seqüências genômicas homólogas (Figura 6).

Na etapa descrita acima, houve uma intervenção manual no ajuste dos parâmetros para que os primers adequados fossem obtidos. Antes de fazer o alinhamento múltiplo, as seqüências geradas foram traduzidas nas seis leituras no programa EMBOSS Transeq (http://www.ebi.ac.uk/emboss/transeq/). Então, todas as seis leituras foram alinhadas com as seqüências homológas. A leitura com melhor alinhamento foi escolhida para o desenho de primers.

Com as ESTs da biblioteca de folhas, considerando PHRED > 20 e número de bases >= 250, foram inferidas as funções dessas ESTs executando BLASTX contra os bancos de proteínas nr (não redundante) do NCBI.

(34)
(35)

Contigs + Singlets

Blastn vs DNA genômico

e < 1e-10

Arquivos do tipo .gb

Converte arquivo .gb em .gff Descatada

Armazena em um único arquivo

(36)

Não Sim Sim

Sim Não

Enquanto existir resultados blast

Lê próximo resultado blast

Enquanto existir ocorrências (hits)

Lê próximo hit

Lê arquivo gff correspondente ao hit e armazena características

Seleciona somente características vizinhas ao hit

Existe sequência codificadora (CDS)

na região?

Existe intron na região delimitada

pelo CDS?

Armazena proteína correspondente e cria máscara para visualizar introns no alinhamentos

Não

HSP é oposto ao primeiro HSP com um intron no meio?

Verdadeiro Verdadeiro Verdadeiro Falso

Fim

Falso

Enquanto existir HSP faça

(37)

Arquivo multi-fasta com sequências de

proteínas

Roda CLUSTALW

Arquivo resultado do blast para

contigs e singletons

Roda MVIEW

Arquivo fasta com contig/singleton acrescido de intron

Roda PRIMER3

(38)

5. Resultados

5.1 Construção da biblioteca de cDNA de folha

Na extração da amostra de RNA total pelo protocolo da Qiagen, houve contaminação com DNA (Figura 8), o qual foi retirado com DNase (Pharmacia). As bandas mais fortes representam o RNA ribossomal.

DNA

Figura 7: Gel de agarose (1%/brometo de etídio) de quantificação referente à extração de RNA total. Poço 01 marcador 1Kb ladder e Poço 02 amostra de RNA total.

Na realização do LD-PCR o número de ciclos variou de 18 a 26. Apenas os produtos das reações de 26 ciclos apresentaram uma boa visualização em gel de agarose 1%./brometo de etídio, o mesmo foi utilizado para dar continuidade ao procedimento da construção da biblioteca de cDNA.

Foram obtidas 17 frações da cromatografia de gel de filtração (Chroma Spin 400) e analisadas em gel de agarose 1%/brometo de etídio. As frações maiores visualizadas no gel nos poços de 8-10 foram reunidas para a construção da biblioteca (Figura 9).

Figura 8: Gel de agarose 1% referente as frações obtidas da

cromatografia de gel de filtração. Poço 01: marcador 1 kb

ladder, Poços 08, 09 e 10 : frações da cromatografia de gel

(39)

5.2. Sequenciamento

Para fazer o PCR a partir da solução de eluição dos fagos obtidos dos bancos de cDNA, foram construídos 2 primers que flanqueavam o sítio de clonagem do cDNA : PT2F2 e PT2R2 (Figura 9).

PT2R2 PT2F2

Figura 9: Esquema mostrando como foi feito o desenho de primers.

(40)

Folha

Figura 10: Análise em gel de agarose 1% dos produtos da reação de

PCR,utilizando-se os primers PT2F2 e PT2R2. Poços 16, 45,71 e 90:

marcador Low DNA Mass Ladder.

5.3 Análise Computacional das ESTs

A ferramenta computacional desenvolvida para a análise das ESTs de raízes e folha possibilitou automatizar o processo de busca de marcadores moleculares baseados em introns, reduzindo com isso o tempo de análise.

Para a análise das ESTs, os cromatogramas foram reunidos em três arquivos de acordo com o tecido : PlacaML (folha), PlacaRI (raiz inoculada) e PlacaRN (raiz não inoculada).

(41)

Tabela 2: ESTs geradas de Arachis stenosperma

No. de fragmentos de ESTs

Seqüenciadas Após PHRED

Placa ML 161 81

Placa RN 318 154

Placa RI 192 95

TOTAL 671 330

Após a verificação da qualidade de cada base, e retirada das seqüências de baixa qualidade, foi realizado o mascaramento do vetor pelo programa Cross_Match. Poucas seqüências continham vetor, pois os primers desenhados flanqueavam os sítios de clonagem e evitaram a contaminação com o vetor.

No passo seguinte foi feita a montagem pelo programa CAP3 que produziu agrupamento (cluster) baseados na similaridade das seqüências. Dois resultados foram produzidos: contigs e singlets (Tabela 3).

Tabela 3: Agrupamento de ESTs após CAP3

No. de fragmentos de ESTs

No. de

ESTs Seqüenciadas Após PHRED

Placa ML 81 161 81

Placa RN 95 318 154

Placa RI 154 192 95

TOTAL 330 671 330

(42)

Os arquivos no formato FASTA dos contigs e singlets foram utilizados como entrada para o pipeline3. Neste pipeline, houve a busca de seqüências homólogas aos contigs e singlets. Os parâmetros escolhidos para essa busca foram: e-value = 1e-10; Banco de dados não redundante (nr) contra DNA genômico e BLASTn.

As seqüências homólogas obtidas tiveram seu registro Genbank correspondente (Figura 11), armazenado localmente, e logo em seguida, convertido para arquivo do tipo gff (Figura 12) que armazena características, como posição de introns.

Figura 11: Exemplo de arquivo do tipo Genbank (.gb)

LOCUS GTU39858 1084 bp DNA linear PLN 29-NOV-1995

DEFINITION Glycine tabacina ribulose 1,5-bisphosphate carboxylase/oxygenase small subunit precursor (rbcS) gene, nuclear gene encoding chloroplast protein, complete cds.

ACCESSION U39858

VERSION U39858.1 GI:1079739

KEYWORDS ribulose 1,5-bisphosphate carboxylase/oxygenase small subunit; rbcS.

SOURCE Glycine tabacina ORGANISM Glycine tabacina

Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;

Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots; rosids; eurosids I; Fabales; Fabaceae; Papilionoideae; Phaseoleae;

Glycine.

REFERENCE 1 (bases 1 to 1084) AUTHORS Cao,K., Ji,J. and Gu,Q.

TITLE Cloning and Structure Analysis of rbcS Gene from Two Wild Soybean

(G.tabacina & G.tomenella) JOURNAL Unpublished (1995)

REFERENCE 2 (bases 1 to 1084) AUTHORS Xiao,C.

TITLE Direct Submission

JOURNAL Submitted (02-NOV-1995) Chuan Xiao, Fudan University, Biochemistry, Handan Road 220#, Shanghai, 200433, People's Republic of China

FEATURES Location/Qualifiers source 1..1084

/tissue_type="leaf" /clone="pBG43" /strain="pw0043" /organism="Glycine tabacina" /db_xref="taxon:44016" /mol_type="genomic DNA" gene 17..1084

/gene="rbcS"

mRNA join(17..235,425..559,838..>1084) /gene="rbcS"

exon 17..235 /gene="rbcS" 5'UTR 17..64 /gene="rbcS"

CDS join(65..235,425..559,853..1083)

/product="ribulose 1,5-bisphosphate carboxylase/oxygenase small subunit precursor"

/gene="rbcS"

/EC_number="4.1.1.39" /protein_id="AAA82071.1" /codon_start=1

(43)

SIASNGGRVQCMQVWPTTGKKKFETLSYLPDLDDAQLAKEVEYLLRKGWIPCLEFELE

HGFVYREHHRSPGYYDGRYWTMWKLPMFGCTDASQVLKELQEAKTAYPNAFIRIIGFD

NVRQVQCISFIAYKPPSF" /db_xref="GI:1079740" transit_peptide 65..229

/gene="rbcS"

mat_peptide join(230..235,425..559,853..1080)

/product="ribulose 1,5-bisphosphate carboxylase/oxygenase small subunit"

/gene="rbcS"

/EC_number="4.1.1.39" intron 236..424

/gene="rbcS" exon 425..559 /gene="rbcS" intron 560..852 /gene="rbcS" exon 853..>1084 /gene="rbcS"

BASE COUNT 308 a 240 c 218 g 318 t ORIGIN

1 gagcagaagc ttggatatct ggcagcagaa aaacaagaag ttgcgaacta agaaggagaa 61 ggaaatggct tcctcaatga tctcctcccc agctgttacc accgtcaacc gtgccggtgc 121 cggcacggtt gctccattca ctggcctcaa atccatggct ggcttcccca ccaggaagac 181 caacaatgac attgcctcca ttgctagcaa cggtggaaga gtgcaatgca tgcaggtaag 241 acaactctac acatatacac acatgaggca ccaaaacgtt taaaattcac tattcacatt 301 tatttagctc ctaaatgtta cttaaattca catgattgca tatggttaaa ttaaaatgat 361 tgcatatgga aaatgtgcac atgtgcatgt ttgttaactc acttttcttc atgcaaatta 421 ctaggtgtgg ccaacaactg gcaagaagaa gttcgagact ctttcctact tgccagacct 481 cgatgatgcc caattggcaa aggaagtcga ataccttcta aggaagggat ggattccttg 541 cttggaattc gagttggagg tcaatttctt gtaacccctt ttggtttaat catagatttt 601 cttagtctta gtttgtttca acttaatttc aagaaataat cgcttctctt gctaccgtgc 661 taaaagtact tttggaaaca aaacaaaaaa tggttttgtt ccaaaatcta agtttattta 721 acagattttt ctatctgaga gttatcaata tgtatcaaat ctattcctat ctccgaccaa 781 atgctattct tccaaaacaa gcacttggtt ttgaggtttg atggttgatc tgtttgttgt 841 gtttgtttac agcacggttt tgtgtaccgt gagcaccaca ggtcaccagg atactatgat 901 ggacgctact ggaccatgtg gaagctgcct atgtttggct gcactgatgc ttctcaggtg 961 ttgaaggagc ttcaagaggc taagactgca taccccaacg ccttcatccg tatcatcgga 1021 ttcgacaacg ttcgccaagt gcaatgcatc agcttcatcg cctacaagcc cccaagcttc 1081 taag

//

(44)

Figura 12: Exemplo de arquivo Gene Finding Format (.gff)

SEQ EMBL/GenBank/SwissProt source 1 1084 . + . tissue_type leaf

; clone pBG43 ; strain pw0043 ; organism "Glycine tabacina" ; db_xref "taxon:44016" ; mo

l_type "genomic DNA"

SEQ EMBL/GenBank/SwissProt gene 17 1084 . + . gene rbcS

SEQ EMBL/GenBank/SwissProt mRNA 17 1084 . + . gene rbcS

SEQ EMBL/GenBank/SwissProt exon 17 235 . + . gene rbcS

SEQ EMBL/GenBank/SwissProt 5'UTR 17 64 . + . gene rbcS

SEQ EMBL/GenBank/SwissProt CDS 65 1083 . + . product "ribulos

e 1,5-bisphosphate carboxylase/oxygenase small subunit precursor" ; gene rbcS ; EC_number "4.

1.1.39" ; protein_id "AAA82071.1" ; codon_start 1 ; translation MASSMISSPAVTTVNRAGAGTVAPFTG

LKSMAGFPTRKTNNDIASIASNGGRVQCMQVWPTTGKKKFETLSYLPDLDDAQLAKEVEYLLRKGWIPCLEFELEH GFVYREHHRSPGYYDGRYWTMWKLPMFGCTDASQVLKELQEAKTAYPNAFIRIIGFDNVRQVQCISFIAYKPPSF ; db_xref "GI:1079740"

SEQ EMBL/GenBank/SwissProt transit_peptide 65 229 . + . gene rbc

SEQ EMBL/GenBank/SwissProt mat_peptide 230 1080 . + . product

"ribulose 1,5-bisphosphate carboxylase/oxygenase small subunit" ; gene rbcS ; EC_number "4.1.

1.39"

SEQ EMBL/GenBank/SwissProt intron 236 424 . + . gene rbcS

SEQ EMBL/GenBank/SwissProt exon 425 559 . + . gene rbcS

SEQ EMBL/GenBank/SwissProt intron 560 852 . + . gene rbcS

SEQ EMBL/GenBank/SwissProt exon 853 1084 . + . gene rbcS

O resultado do Blastn da PlacaML mostrou que 32 singlets e 4 contigs não apresentaram similaridade com outras seqüências depositadas no banco de dados nr. Pôde-se observar que mais de 60% das seqüências homólogas é da mesma família do Arachis stenosperma, a família das leguminosas; e se referem a informações genéticas contidas no cloroplasto (ANEXO).

O programa utilizado para busca de proteínas similares foi o BLASTx e o banco de dados não redundantes considerando o valor do e-value 1e-10. As seqüências submetidas a esta análise apresentaram similares a outras seqüências depositadas nestes bancos de dados. Das 53 seqüências únicas (singlets), 34 apresentaram similaridade; e dos 10 contigs, 7 apresentaram similaridade. A maioria das seqüências apresentou similaridade com informações genéticas relacionadas a fotossíntese (ANEXO).

A partir das seqüências de ESTs de A. hypogaea foram obtidas nove candidatos a marcadores moleculares baseados em introns.

(45)

6. Discussão

O protocolo LD-PCR do kit SMART IV utilizado na construção da biblioteca de cDNA permite a utilização de RNA total, o que pode gerar clones com seqüências de RNA ribossomal, como pôde ser observado no resultado do BLASTx – nr da Placa ML. A contaminação pode ser evitada utilizando RNA mensageiro na construção da biblioteca.

O resultado do BLASTx pode ter sido influenciado pelo número de ciclos do LD-PCR, pois pelo protocolo acima citado, com a quantidade de RNA total obtida, o número de ciclos sugerido seria entre 18 – 20, mas como não foi visualizado nenhum produto no gel de agarose, aumentou-se o número de ciclos até 26 ciclos, podendo assim, visualizar o produto. O aumento no número de ciclos do LD-PCR muda a proporção de diferentes cDNAs, por exemplo, seqüências menores são mais representadas.

Este estudo investigou 161 ESTs de folha, 192 ESTs de raiz inoculada com Bradyrhizobium sp. e 318 de raiz não inoculada, porém em torno de 50 % das seqüências de cada tecido, foram rejeitadas na primeira etapa de análise quando usados os parâmetros PHRED>20 e tamanho de seqüência de pelo menos 250 bases. Este fato pode ser devido as ESTs serem geradas diretamente dos produtos de PCR, sem fazer uma purificação antes do sequenciamento.

Na busca de seqüências homólogas as ESTs de folha no BLASTx, foi observado que as funções dessas seqüências homólogas, em sua maioria, estão relacionadas com fotossíntese, a qual ocorre no cloroplasto. Cada célula vegetal tem em média, de 10 a 100 cloroplastos, que reflete a importância da fotossíntese nas folhas.

Cada cloroplasto contém um genoma de DNA, uma molécula circular que contém genes para a fotossíntese, transporte de elétrons e síntese de proteínas do cloroplasto. O cpDNA é transmitido maternalmente na maioria das plantas, exceto nas gimnosperma onde a herança é paterna (Suzuki et al,1992). Embora, a maioria das proteínas é codificada no núcleo e tem herança Mendeliana. Isso demonstra que marcadores para mapeamento genético devem ser derivados de DNA nuclear.

(46)

cloroplastos após síntese pré-protéica nos ribossomos do citoplasma. Dos genes codificados no plastídio, em torno de 50 estão envolvidos na transcrição dos genes plastidiais como rRNA, tRNA, genes de proteínas ribossomais e gene da RNA polimerase. Os genes relacionados com o metabolismo vegetal são aproximadamente 40 e formam complexos com genes nucleares, codificando componentes do sistema fotossintético.

Dos ESTs encontrados neste trabalho com funções relacionadas com fotossíntese podemos destacar as seguintes ESTs com similaridade a: rubisco, fotossistema I e II, plastocianina e ubiquitina.

Nos últimos anos, o uso de ESTs para desenvolver marcadores moleculares tem sido descrito em vários trabalhos ( Harushima et al., 1998; Morgante et al., 2002; Broughton et al., 2003). Em alguns trabalhos ( Powell et al., 1995;Doyle et al, 1998) os autores descrevem a busca de marcadores baseados em microssatélites do DNA do cloroplasto (cpDNA) para estudos de variação genética, para entender padrões de diferenciações entre populações de plantas. O RFLP também tem sido usado na análise de cpDNA, Parducci & Szmidt (1999) estudaram esse método para detectar variação interespecífica no gênero Abies e para estudar como a variação foi distribuída em diferentes regiões do genoma.

Marcadores moleculares baseados em introns não são muito estudados, e isto foi visto quando foi feita a revisão bibliográfica sobre esse assunto e somente foi encontrado um trabalho com milho e aveia feito por Holland e colaboradores (2001), no qual eles utilizaram banco de dados de seqüências para a construção de marcadores moleculares baseados em introns, exons e regiões promotoras.

Os procedimentos de construção de bibliotecas de cDNAs e análise destas utilizando ferramentas da bioinformática para automatizar o processo, permitiram investigar a possibilidade de usar ESTs para buscar marcadores moleculares baseados em introns. Para essa investigação foi escolhida a espécie Arachis stenosperma, uma espécie selvagem do gênero Arachis que apresenta resistência a pragas e patógenos. Além disso, foi desenvolvido um programa para análise dos dados.

(47)

Para o desenvolvimento do programa, nesse estudo foi escolhida a linguagem PERL, pois tem uma sintaxe flexível (Gibas & Jambeck, 2001), necessitaria de um tempo menor de programação e programas já escritos poderiam ser utilizados, como módulos do BIOPERL (Stajich et al, 2002).

Outro parâmetro discutido foi a escolha do tipo de BLAST a ser usado na busca de similaridade no pipeline 2. O BLASTn foi escolhido devido a possibilidade de restringir a busca somente para DNA genômico, o que facilitou encontrar as seqüências homólogas que apresentavam regiões intrônicas.

O resultado da busca de seqüências homólogas que continham introns monstrou que quatro ESTs de A. stenosperma e nove ESTs de A. hypogaea possuíam seqüências homólogas, que puderam ser utilizadas na busca de marcadores moleculares baseados em introns (Tabelas 4 e 5).

Nos resultados do pipeline 3 e 4, ajustes manuais tiveram que ser feitos a fim de minimizar falhas na edição do programa no alinhamento múltiplo da seqüência de EST com as seqüências homólogas para assim, poder inferir o local de retirada de um intron na seqüência de mRNA, e com isso desenhar primers que flanqueiam essa região para testá-los em DNA genômico.

Tabela 4: Desenho do primer flanqueando introns – A. stenosperma

TCTGTTCTTGATCTGT GTTCTTTCA

GCGAGCACATGACTG ATCTC

Contig22 – Placa RN

AGCCATCAAAGAAGG CTCAA

AGGAAGGAATCCCAC CTGAT

AS1RI2P1D02 – Placa RI

TCGTTCAGGTCTGGC AAGTA

TGGAAGAGTCCAATG CATGA

Contig 4 – Placa ML

TCATCTTATCCTGATT GTAT

ACTCGCCGATTACAA CATCC

As1ML1P1D12 – Placa ML

Reverse Primer Forward Primer

(48)

Tabela 5: Desenho do primer flanqueando introns – A. Hypogaea

ACACCACCTCCCAGA TTTCTTCTCCCTCGTC

CD038575

AATTCACAGTGCTCC CATCC

TCACTGTTGGTGATG GTGCT

CD 038835

ACCTTGCAATCGTAC CCAAG

GCTCGATGCTCAACC TGAGT

CD038568

TGACCATCATCCATC ACAAGA

CTGTGCAGCAAAGGC TGATA

CD038536

GTGTGGTTGAGGTTG GCAGGAGCTAAGGCA

CD038473

GGAACCCATCCCTTC CTTAG

CAACGGTGGAAGAGT CCAAT

Contig 168

GTAACCAAGGATGCC CTTCA

CCTGCCACCTATGAC GAAAT

Contig 38

CGAAAAGTTTTGGCT GCTGT

TTGTTGGTGATGCTG GTGTT

CD038517

GGGGCTTTTCTGGGT AGTCT

TGGAATGGATGATGG AGATG

CD038286

Reverse Primer Forward Primer

(49)

7. Conclusão

Os singlets e contigs, relativos a biblioteca de cDNA de folhas, foram submetidos à análise de similaridade em bancos de dados (BLASTx –nr) e 38 apresentaram similaridade com outras proteínas já depositadas, e dessas cerca de 50% tiveram similaridade com proteínas envolvidas na fotossíntese.

Embora o número de seqüências geradas (81 ESTs) obtido foi baixo, este estudo pode fornecer informações que ainda não consta no banco de dados do dbEST para a espécies A. stenosperma, uma vez que no dbEST só há seqüências depositadas para a espécie A. hypogaea (1346 ESTs – outubro de 2003).

Nesse estudo, a bioinformática possibilitou a automatização de tarefas exaustivas, como comparar seqüências de DNA e gerar resultados potencialmente significativos. A interação entre pesquisadores da área da ciência da computação e da ciência biológica auxiliou no desenvolvimento de uma ferramenta computacional para a análise dos dados, visto que a intervenção de um especialista em uma das áreas, em certos momentos, foi necessário no ajuste de alguns parâmetros para se obter um bom resultado.

(50)

8. Referências Bibliográficas

ABJIAN, C. (1994) Sputinik. http: //abajian.net/sputnik/.

ADAMS, M. D., et al. (1991). Complementary DNA Sequencing: Expressed Sequence Tags and Human Genome Project. Science 252: 1651-1656.

ALTSCHUL, S. F., et al. (1990) Basic Local Alignment Search Tool. J. Mol Biol 215: 403-410.

BELL, C. J., et al. (2001). The Medicago Genome Initiative: a model legume database. Nucleic Acids Research 29: 114 – 117.

BENSON, D.A., et al. (2000). GenBank. Nucleic Acids Research 28 (1): 15-18. BERNAL, A.; EAR, U.; NIKOS, K. (2001). Genomes OnLine Database (GOLD): a monitor of genome projects world-wide. Nucleic Acids Research 29: 126-127.

BOGUSKI, M.S.; LOWE, T.M.J.; TOLSTOSHEV, C.M.(1993) dbEST – database for “expressed sequence tags” Nature Genetics 4: 332-333.

BROUGHTON, W.J., et al. (2003). Beans (Phaseolus spp.) – model legumes. Plant and Soil 252: 55-128.

BROWN, T.A. (2003). Clonagem Gênica e Análise de DNA : Uma Introdução.

Artmed Editora S.A. Porto Alegre, RS. 375p.

BUROW, M. D., et al. (1996). Identification of peanut (Arachis hypogaea L.) RAPD markers diagnostic of root-knot nematode (Meloidogyne arenaria (Neal) Chitwood) resistance. Molecular Breeding 2: 369-379.

CARRER, H. (1998). Transformação de Cloroplastos. Revista Biotecnologia Ciência e Desenvolvimento. Ano1, número 5 – Março/Abril.

CASTELO, A. T.; MARTINS, W.; Gao, G.R.(2002). TROLL - Tandem Repeat Occurence Locator. Bioinformatics Applications Note 18 : 634-636.

COOKE, R., et al. (1996). Further progress towards a catalogue of all

Arabidopsis genes: analysis of a set of 5000 non-redundant ESTs. The Plant Journal 9(1): 101-124.

DOYLE, J.J., et al. (1998). Size Homology in Chloroplast Microsatellites of Wild Perennial Relatives of Soybean (Glycine Subgenus Glycine). Mol. Biol. Evol. 15(2): 215-218.

EWING, B., et al (1998). Base-Calling of Automated Sequencer Traces Using

(51)

EWING, B.; GREEN, P. (1998) Base-Calling of Automated Sequencer Traces Using Phred .II. Error Probabilities. Genome Research 8 : 186-194.

EWING, R.B., et al. (1999) Large-Scale Statistical Analyses of Rice ESTs Reveal Correlated Patterns of Gene Expression. Genome Research 9: 950-959.

FERREIRA, M.E., GRATTAPAGLIA, D.(1998). Introdução ao uso de marcadores moleculares em análise genética. Embrapa Produção de Informação. Brasília,DF.220p.

GARCIA, G.M.; STALKER, H.T.; KOCHART, G. (1995). Introgression analysis of an interespecific hybrid population in peanuts (Arachis hypogaea) using RFLP and RAPD marker. Genome 38(1): 166-76.

GARCIA, G. M., et al. (1996). Identification of RAPD, SCAR, and RFLP markers tightly linked to nematode resistance genes introgressed from Arachis cardenasii into Arachis hypogea. Genome 39: 836-845.

GIBAS, C.; JAMBECK, P. (2001). Desenvolvendo Bioinformática: ferramentas de software para aplicações em Biologia. Editora Campus. Rio de Janeiro, RJ. 440p.

GILBERT,W. (1978). Why genes in pieces? Nature 271(9): 501.

GODOY, I.J.; SANTOS, R.C. (1999) Melhoramento do amendoim. p. 51-94. In: BORÉM, Melhoramento de espécies cultivadas. Viçosa: UFV. 817p.

GOODMAN, N. (2002) Biological data becomes computer literature: new advances in bioinformatics. Current Opinion in Biotechnology 13: 68-71.

GREEN, P. (1999). Documentation for PHRAP and Cross_match (version 0.990319). http://www.phrap.org/phrap.docs/phrap.html

GROSSO, N. R.; NEPOTE, V.; GUZMÁN C. A. (2000). Chemical Composition of Some Wild Peanut species (Arachis L.) Seeds. J. Agric. Food Chem. 48: 806-809.

Halward, T., et al. (1992). Use of single-primer DNA amplification in genetic studies of peanut (Arachis hypogaea L.) Plant Molecular Biology 18: 315-325. HARUSHIMA, Y., et al. (1998). A high-density rice genetic linkage map with 2275 markers using a single F2 population. Genetics. 1998 Jan;148(1):479-94

HE, G., et al. (2003). Microsatellites as DNA markers in cultivated peanut (Arachis hypogaea L.). BMC Plant Biology 3:3.

(52)

HOLLAND, J.B., et al. (2001). Polymorphism of PCR-based markers targeting exons, introns, promoter regions, and SSRs in maize and introns and repeat sequences in oat. Genome 44: 1065-1076.

HUANG, X.; MADAN, A. (1999). CAP3: A DNA Sequence Assembly Program.

Genome Research 9: 868-877.

INGHAM, E.R.; HOLTSFORD, T.P.; WALKER, J. (2000). Bioinformatics: using phylogenetics and database to investigate plant protein phosphorylation.

Advances in Botanical Research 32:45-65.

KOCHERT, G., et al. RFLP variability in peanut (Arachis hypogaea) cultivars and wild species. (1991) Theor. Appl. Genetic. 81:565-570

KRAPOVICKAS,A.; GREGORY, W. C. (1994) Taxonomia del género Arachis

(Leguminosae). Bonplandia (1-4): 1-186.

LANHAM, P.G., et al. (1992). Detection of polymorphic loci in Arachis

germplasm using random amplified polymorphic DNA. Genome 35(5) : 885-889.

LEAL-BERTIOLI, S. C. M., et al. (1999) Busca de resitência ao nematóide das galhas Melodoygine spp. e seqüências análogas a genes de resitência em acessos silvestres de Arachis. Boletim de Pesquisa – série EMBRAPA. No. 20.

LIANG, F., et al. (2000). An Optimized Protocol for Analysis of EST sequences.

Nucleic Acids Research Vol. 28 (18): 3657-3665.

LUSCOMBE, N. M. ; GREENBAUM, D.; GERSTEIN, M. (2001). What is bioinformatics? An introduction and overview. For IMIA 2001 Yearbook. New Haven, USA.

MATTHEWS, B.F., et al. (2001). Incorporation of Sequenced cDNA and Genomic Markers into the Soybean Genetic Map. Crop Science 41: 516-521.

MILACH, S.C.K. (1998). Marcadores de DNA. Revista Biotecnologia Ciência e Desenvolvimento. Ano1, número 5 – Março/Abril.

MILACH, S.C.K.; SILVA, P.R.; SERAFIM, D. (2002). Novos Marcadores Moleculares na Era do Sequenciamento de DNA. In: Brommer, S. P & Iorczeski, E. J. ed. Atualização em Técnicas Celulares Moleculares Aplicadas ao Melhoramento Genético Vegetal. Embrapa Trigo. Passo Fundo, RS. Disponível via World Wide Web: http://www.cnpt.embrapa.br/livros/biotecnologia/

MILLER, C.J. ; ATTWOD, T.K. (2003). Bioinformatics goes back to the future.

Nature Reviews Molecular Cell Biology 4: 157-162.

(53)

MORGANTE, M.; HANAFEY, M.; POWELL, W. (2002). Microsatellites are prefentially associated with nonrepetitive DNA in plant genomes. Nature Genetics 30: 194-200.

NELSON, C. S.; SIMPSON, C. E.; STARR, J. L. (1989). Resistance to

Melodogyne arenaria in Arachis spp. Germplasm. Supplement to Journal of Nematology 21 No. 45: 654-660.

NCBI [http://www.ncbi.nlm.nih.gov] (último acesso: setembro de 2003).

NUTTER, F. W., Jr., SHOKES, F. M. (1995). Management of Foliar Diseases Caused by Fungi. in: Peanut Health Management, eds. H. A. Melouk and F. M. Shokes. APS Press, St. Paul, MN. p 65-73.

OLIVEIRA, T., et al. (2003) An integrated genetic data environment (GDE)-based LINUX interface for analysis of HIV-1 and other microbial sequences.

Bioinformatics 19: 153-154.

PARDUCCI, L.; SZMIDT, A. E. (1999). PCR-RFLP analysis of cpDNA in the genus Abies.Theor. Appl. Genet. 98: 802-808.

PATANJALI, S.R.; PARIMOO, S.; WEISSMAN, S.M. (1991). Construction of a uniform-abundance (normalized) cDNA library. Proc. Natl. Acad. Sci. (88): 1943-1947.

PEARSON, W. R. (1998). Flexible Sequence similarity searching with the FASTA 3 program package. Departament of Biochemistry, University of Virginia, Charlottesville, VA.

PERTEA, M. ; SALZBERG, S.L. (2002). Computacional gene finding in plants.

Plant Mol Biol. Jan: 48(1-2): 39-48.

POULSEN, C. ; PODENPHANT, L. (2002). Expressed Sequence Tags from Roots and Nodule Primordia of Lotus japonicus Infected with Mesorhizobium loti. Molecular Plant-Microbe Interactions 4: 376-379.

POWELL, W., et al. (1995). Polymorphic simple sequence repeat regions in chloroplast genomes: Applications to the population genetics of pines. Proc. Natl. Acad. Sci. USA Vol. 92 : 7759-7763.

RAFALSKI, J.A., et al. (1996). Generating and Using DNA Markers in Plants.

In: Analysis of Non-nomalian genomes – A pratical guide. Birren,B. & Lou, E. (eds) Academic Press, New York. p. 75-134

Imagem

Figura 1: Esquema da construção de ESTs  (Adaptação do site:
Figura 2: Processo de transcrição monstrando a posição dos introns em uma molécula  de DNA (Adaptada de Brown, 2003)
Figura 3: Fluxograma representando o pipeline 1.
Figura 4: Fluxograma representando o pipeline 2.
+7

Referências

Documentos relacionados

Uma vez apresentada a direção que norteia a pesquisa, este trabalho busca responder aos seguintes objetivos específicos: descrever as características biopsicossociais de crianças em

As the conceptual model of this study depicted in Figure 1 shows, this research thus analyzed the possible effects of the previously studied contextual variables

Como anteriormcnte hemos indicado, fuc Jef fe ric s (1961) quicn originalmentc propu so en Australia la utili zac ion de una csca la de cinco puntas para evaluar la

(2000) used this new approach in grapes, and described 10 SSRs derived from a grape EST database containing 5,000 ESTs, 2.5% of the total popula- tion of cDNA clones were

A basic local alignment search tool T-Blast-n search (Altschul et al. , 1997) was performed using the deduced protein sequence of enzymes involved in the lignin biosyn- thesis

In this study, we report on the development of 46 olive simple sequence repeat (SSR) markers, obtained from 577,025 expressed sequence tags (ESTs) in developing olive fruits

Dado um segmento orientado AB, o “vetor AB” denotado por −→ AB, ´ e o conjunto de todos os segmentos orientados equipolentes a AB. Cada um dos segmentos orientados equipolentes a

Where recent information was unavailable (about 5 percent of the total mangrove area), the extrapolation to 2000 was based on the overall forest change rate as reported in FRA