(SSR) em sequˆ
encias de DNA
Daniel Xavier de Sousa1, Wellington Santos Martins1, and David Bertioli2
1 Universidade Cat´olica de Goi´as, Goiˆania, Brasil, 2
Universidade Cat´olica de Bras´ılia e Cenagem/Embrapa Bras´ılia, Brasil
Resumo This work presents a computational tool to aid in the de-velopment of molecular markers by locating simple tandem repeats (mi-crosat´elites) in DNA sequences. The tool is based on the TROLL (http:// finder.sourcefoge.net/) program and allows for fast report of microsat´elites and sequence quality control. Is has been integrated to the well know Staden Package which provides an easy and intuitive graphical interface.
1
Introdu¸
c˜
ao
A contribui¸c˜ao deste trabalho ´e o desenvolvimento de um m´odulo para o pro-grama Pregap do pacote Staden. Tal m´odulo permite a localiza¸c˜ao r´apida de mi-crosat´elites em seq¨uˆencias genˆomicas e serve, assim, aos pesquisadores interessa-dos em estuinteressa-dos envolvendo marcadores moleculares baseainteressa-dos em microsat´elites. Como o m´odulo ´e integrado ao pacote Staden, permite aos usu´arios visualizar de forma f´acil microsat´elites encontrados nos arquivos cromatogramas.
2
Marcadores Moleculares, SSR’s
Marcadores moleculares s˜ao definidos como regi˜oes localiz´aveis nos cromossomos (ex. s´ıtio de clivagem de enzimas de restri¸c˜ao, gene, minisat´elite, microsat´elite) cuja heran¸ca pode ser monitorada. Estas regi˜oes podem corresponder a regi˜oes expressas do DNA ou a algum segmento de DNA sem fun¸c˜ao codificadora con-hecida, mas cujo padr˜ao de heran¸ca pode ser estudado. Os marcadores molec-ulares s˜ao hoje foco de estudo nos programas de melhoramento animal e vege-tal [6]. Marcadores moleculares s˜ao tamb´em utilizados, por exemplo, para con-stru¸c˜ao de mapas gen´eticos, que representa uma base de conhecimento para aux-iliar a transferˆencia das caracter´ısticas de interesse para plantas de importˆancia agronˆomica atrav´es de melhoramento tradicional.
Marcadores moleculares do tipo microsat´elites, tamb´em conhecidos como SSR (Simple Sequence Repeats) tˆem sido amplamente utilizados. Os SSR’s s˜ao simples palavras chaves, formadas por uma ou at´e seis bases repetidas en-cadeadas, por um n´umero indefinido de vezes. Estas seq¨uˆencias est˜ao distribu´ıdas
ao acaso ao longo de todo o genoma e o polimorfismo de seu comprimento in-dica a variabilidade dentro da mesma esp´ecie. Tais repeti¸c˜oes s˜ao freq¨ uente-mente encontradas nos genomas e principaluente-mente nos eucariotos. Em genomas de plantas, por exemplo, as mesmas s˜ao encontradas em ocorrˆencia de 1 em 6 mil pares de base [4]. Em algumas bact´erias, altera¸c˜oes no n´umero de repeti¸c˜oes de microsat´elites provocam a produ¸c˜ao de prote´ınas ligeiramente diferentes[8]. Nas plantas ou animais, os microsat´elites contribuem para marcar genes que exer¸cam a mesma fun¸c˜ao. Sendo estes genes de indiv´ıduos diferentes, os quais podem pertencer `a mesma esp´ecie ou n˜ao.
3
Programas para encontrar SSR
Basicamente existem dois m´etodos para encontrar SSR’s. Um deles ´e definir um modelo para a repeti¸c˜ao e encontrar regi˜oes que o satisfa¸cam, n˜ao sendo necess´ario 100% de exatid˜ao, mas um alto grau de similaridade j´a ´e suficiente. Esta implementa¸c˜ao ´e encontrada em programas como, Tandem Repeats Finder [3] e Sputnik [1]. No segundo m´etodo as repeti¸c˜oes (motifs) s˜ao definidas antes (num dicion´ario) e chamadas para verifica¸c˜ao de similaridade com a seq¨uˆencia. Este m´etodo fornece uma r´apida solu¸c˜ao do problema e pode ser encontrado nos programas Repeat Masker [7] e Tandem Repeat Occurence Locator (TROLL)[5]. Este trabalho optou pelo programa TROLL, pois al´em de ser um projeto de c´odigo aberto `a comunidade, apresentou o melhor desempenho comparado com v´arios outros programas dispon´ıveis, veja os dados comparativos em [5]. O programa ´e baseado no Algoritmo Aho Corasick (ACA) [2] e possui complexidade linear O(n). Seu funcionamento se inicia, basicamente, a partir da constru¸c˜ao de uma ´arvore de palavras chaves utilizando a lista de repeti¸c˜oes (motifs) indicada previamente. As seq¨uˆencias de busca s˜ao comparadas a esta ´arvore e todas as repeti¸c˜oes encontradas s˜ao armazenadas numa estrutura conhecida como Repeat Buffer. Para cada igualdade encontrada, ´e verificado se a mesma ´e o in´ıcio ou a continua¸c˜ao de uma repeti¸c˜ao.
4
O Pacote Staden
O Pacote Staden ´e uma ferramenta que reune v´arios programas que, possibilita ao bi´ologo facilidade na an´alise de seq¨uˆencias genˆomicas. O mesmo tem sido am-plamente atualizado pela comunidade cient´ıfica (http://staden.sourceforge.net/). Dentro do pacote existem v´arios programas, dentre eles o Pregap e o Gap. O Pregap ´e respons´avel pela prepara¸c˜ao dos arquivos de cromatogramas para que sejam analisados por v´arios m´odulos de execu¸c˜ao. O usu´ario, de forma gr´afica escolhe quais desses m´odulos dever˜ao agir nos arquivos cromatogramas, preparando-os para an´alise. O programa Gap mostra de forma gr´afica os resul-tados do processamento dos m´odulos executados no Pregap.
Embora o pacote Staden possibilite a procura por microsat´elites, atrav´es do programa RepeatMasker, este n˜ao ´e mais distribu´ıdo gratuitamente. Para sanar
este problema, desenvolvemos um m´odulo apresentado neste trabalho, que ´e espec´ıfico para a localiza¸c˜ao r´apida dos SSRs.
5
Implementa¸
c˜
ao
O m´odulo constru´ıdo neste trabalho permite que, dado um conjunto de seq¨uˆencias, a partir do programa Pregap, as mesmas sejam capturadas, filtradas (mas-carando contaminantes e bases de m´a qualidade) e analisadas quanto `a ex-istˆencia de microsat´elites. O TROLL ´e executado somente uma vez para todas as seq¨uˆencias, e para todos os SSR’s encontrados de cada seq¨uˆencia, ´e gravado um respectivo arquivo Experiment File (a base de informa¸c˜oes para an´alise das seq¨uˆencias). Este arquivo ´e utilizado para constru¸c˜ao do reposit´orio de dados do programa GAP, que ir´a mostrar as caracter´ısticas da seq¨uˆencia de forma gr´afica, inclusive os microsat´elites encontrados pelo m´odulo.
Os m´odulos do Pregap s˜ao escritos na linguagem interpretada Tcl/Tk, seguindo um padr˜ao do Pacote Staden de rotinas destinadas `a interface com usu´ario e execu¸c˜ao do m´odulo. Os m´odulos criados s˜ao salvos no diret´orio $STANDEN-ROOT/lib/pregap4/modules e com nomes terminados com extens˜ao .p4m.
O m´odulo desenvolvido neste trabalho obedece ao seguinte fluxograma:
Seq¨uˆencias: Nesta fase o m´odulo utiliza a vari´avel global file do Pregap que cont´em o endere¸co de acesso ao arquivo Experiment File referente a cada seq¨uˆencia, que cont´em o nome, os nucleot´ıdeos e as qualidades;
Filtrar Contamina¸c˜ao: Aqui o m´odulo acessa os arquivos Experiment File a procura de campos que indiquem a posi¸c˜ao na seq¨uˆencia da existˆencia de con-taminantes, isto ´e, regi˜oes de plasm´ıdios utilizadas para duplica¸c˜ao da mol´ecula de DNA. Caso encontre, os nucleot´ıdeos contaminados ser˜ao mascarados;
Filtro de Qualidade: Nesta fase, de acordo com os parˆametros passados pelo usu´ario, o filtro ir´a aceitar um n´umero m´aximo de bases consecutivas com qual-idade inferior a um dado valor. Por exemplo, dada a seguinte seq¨uˆencia com a qualidade expressa entre chaves:
G{18}T{18}G{18}A{20}C{30}A{19}C{18}A{22}C{21}
Para que a mesma possa ser filtrada, considerando que o usu´ario tenha definido como aceite o m´aximo de 2 bases consecutivas com qualidade menor que 20 para toda a seq¨uˆencia, o filtro fornecer´a o seguinte resultado: YYYA-CACAC. O caractere Y mascara os nucleot´ıdeos que n˜ao passam no filtro, pela baixa qualidade.O microsat´elite encontrado neste caso ´e: ACACAC. Repare que a sexta e a s´etima base possuem qualidade inferior `a indicada pelo usu´ario, mas de forma encadeada n˜ao ultrapassam o aceite m´aximo do usu´ario de 2 bases, logo n˜ao foram mascaradas.
Intercalar Seq¨uˆencias: Todas as seq¨uˆencias s˜ao concatenadas, acrescentando um s´ımbolo curinga no final de cada seq¨uˆencia para que o programa TROLL n˜ao as interprete como uma ´unica seq¨uˆencia.
Executar TROLL : O TROLL ´e executado somente uma vez, para o arquivo montado, independente do n´umero de seq¨uˆencias. A possibilidade de executar o TROLL uma ´unica vez permite maior rapidez, evitando o custo de acesso a disco para v´arias seq¨uˆencias. A complexidade do m´odulo ´e de O(n+m), sendo n o n´umero de seq¨uˆencias e m o n´umero de microsat´elites encontrados, mantendo portanto, a complexidade linear do programa TROLL.
Analisar Resultado : Analisa o resultado reportado pelo TROLL e, para cada SSR encontrado, ´e identificado o arquivo Experiment File da seq¨uˆencia. Esta identifica¸c˜ao ´e feita comparando o tamanho de cada seq¨uˆencia e o valor registrado do in´ıcio do microsat´elite.
Gravar Tag: O programa Gap4 precisa identificar as regi˜oes que dever˜ao ser mascaradas com microsat´elites. Para isso, a repeti¸c˜ao ´e gravada com uma eti-queta (tag) no arquivo Experiement File, informando o nucleot´ıdeo in´ıcio e fim do microsat´elite. Tamb´em s˜ao gravadas informa¸c˜oes como: n´umero de nucleot´ıdeos restante para o final da seq¨uˆencia, os nucleot´ıdeos que se repetem (motifs), o n´umero de vezes que os motifs aparecem e o nome da seq¨uˆencia.
Gerar Arquivos: Caso o usu´ario queira, o m´odulo pode gerar um arquivo com todas as seq¨uˆencias que possu´ırem SSR’s (*.SSR.passed) e outro arquivo com todas as seq¨uˆencias que n˜ao possu´ırem SSR’s (*.no SSR.passed).
6
Resultados
O m´odulo implementado possui uma interface amig´avel ao usu´ario, seguindo o mesmo padr˜ao do Pacote Staden, como mostra a Figura 2.
Figura 2. Interface do m´odulo TROLL acrescentado ao Pacote Staden, para localizar microsat´elites. Nela o usu´ario pode escolher o tamanho m´ınimo da motif: mono, di, tri, tetra ou penta; o n´umero m´ınimo de repeti¸c˜oes aceitas; a localiza¸c˜ao do arquivo mo-tif.dat, exigido pelo TROLL. Ainda pode escolher entre gravar arquivos com seq¨uˆencia que possuem ou n˜ao SSR; e o n´umero m´aximo de nucleot´ıdeos aceitos com qualidade abaixo do valor indicado pelo pr´oprio usu´ario.
Ap´os fazer filtros e encontrar os microsat´elites, o resultado ´e mostrado na tela Textual Output do Pregap, a qual funciona como registro de processamento, ver Figura 3.
Figura 3. Ap´os o m´odulo TROLL ser executado, o Pregap mostra o resultado para cada seq¨uˆencia, informando se houve ou n˜ao microsat´elite.
Com os resultados encontrados e gravados nos arquivos Experiment File, os mesmos podem ser vistos de forma gr´afica pelo aplicativo Gap. Desta forma, n˜ao s´o os microsat´elites s˜ao facilmente reconhecidos, como tamb´em ´e poss´ıvel observar suas caracter´ısticas, ver Figura 4. O usu´ario pode, ainda, visualizar todas as seq¨uˆencias com seus respectivos microsat´elites, ver Figura 5.
7
Conclus˜
ao
Neste trabalho desenvolvemos uma ferramenta computacional que de forma r´apida, permite encontrar, visualizar e anotar repeti¸c˜oes encadeadas (microsat´elites) em seq¨uˆencias de DNA. Neste sentido, integramos duas ferramentas de c´odigo
Figura 4. Os microsat´elites e suas descri¸c˜oes podem ser vistos pelo programa Gap.
Figura 5. Seq¨uˆencias e os microsat´elites (em pontos verdes) encontrados para cada sequˆencia.
aberto dispon´ıvel `a comunidade cient´ıfica (TROLL e Staden), alteramos os c´odigos fonte e disponibilizamos de forma gratuita. A ferramenta criada j´a vem sendo uti-lizada por v´arios laborat´orios no desenvolvimento in silico de marcadores molec-ulares em larga escala. O software pode ser baixado a partir do site http:// ws-martins.net/bioinfoucg/, no link de servi¸cos. S˜ao disponibilizadas vers˜oes, tanto para o sistema operacional Linux, quanto para o Windows.
8
Agradecimentos
`
A Pr´o-Reitoria de P´os-gradua¸c˜ao e Pesquisa (PROPE)/UCG - projeto de pesquisa 551 - e ao Conselho Nacional de Desenvolvimento Cient´ıfico e Tecnol´ogico (CNPq)-processo N. 400617-03.
Referˆ
encias
[1] Abajian, C. Sputnik.(1994) http://abajian.net/sputnik/
[2] Aho, A.V. and Corasick, M.J. Efficient string matching: an aid to bibliographic seach.(1975) Communication of the ACM, 18, 333-340,
[3] Benson, G. Tandem repeats finder: a program to analyze dna sequences.(1999) Nucleic Acids Res., 27, 573-580.
[4] Cardle, L., Ramsay, L., Milbourne, D., Macaulay, M., Marshall, D. and Wough, R. Computacional and experimental characterization of physically clustered simple sequence repeats in plants.(2000) Genetics, 156, 847-854.
[5] Castelo, T., Martins, S. and Gao, R.; Trandem Repeat Occurrence Locator. (2002) Bioinformatics. Oxford University Press, USA: , v.18, n.4, p.634 - 636
[6] Kumar, L. S. DNA markers in plant improvement: an overview.(1999) Biotechnol-ogy Advances, v.17, p. 143-182.
[7] Smit, AFA and Green, P., Repeat Masker. (1997)
http://ftp.genome.washington.edu/RM/RepeatMasker.html
[8] Van Belkun, A. The role of short sequence repeats in epidemiologic typing.(1999) Current Opinion in Microbiology. 1999. Vol. 2:306-311