Software para detecção de repetições encadeadas (SSR) em sequências de DNA

(1)

(SSR) em sequˆ

encias de DNA

Daniel Xavier de Sousa1_{, Wellington Santos Martins}1_{, and David Bertioli}2

1 _{Universidade Cat´}_{olica de Goi´}_{as, Goiˆ}_{ania, Brasil,} 2

Universidade Cat´olica de Bras´ılia e Cenagem/Embrapa Bras´ılia, Brasil

Resumo This work presents a computational tool to aid in the de-velopment of molecular markers by locating simple tandem repeats (mi-crosat´elites) in DNA sequences. The tool is based on the TROLL (http:// finder.sourcefoge.net/) program and allows for fast report of microsat´elites and sequence quality control. Is has been integrated to the well know Staden Package which provides an easy and intuitive graphical interface.

1 Introdu¸

c˜

ao

A contribui¸cão deste trabalho é o desenvolvimento de um módulo para o pro-grama Pregap do pacote Staden. Tal módulo permite a localiza¸cão rápida de mi-crosatélites em seqüências genômicas e serve, assim, aos pesquisadores interessa-dos em estuinteressa-dos envolvendo marcadores moleculares baseainteressa-dos em microsatélites. Como o módulo é integrado ao pacote Staden, permite aos usuários visualizar de forma fácil microsatélites encontrados nos arquivos cromatogramas.

2 Marcadores Moleculares, SSR’s

Marcadores moleculares são definidos como regiões localizáveis nos cromossomos (ex. s´ıtio de clivagem de enzimas de restri¸cão, gene, minisatélite, microsatélite) cuja heran¸ca pode ser monitorada. Estas regiões podem corresponder a regiões expressas do DNA ou a algum segmento de DNA sem fun¸cão codificadora con-hecida, mas cujo padrão de heran¸ca pode ser estudado. Os marcadores molec-ulares são hoje foco de estudo nos programas de melhoramento animal e vege-tal [6]. Marcadores moleculares são também utilizados, por exemplo, para con-stru¸cão de mapas genéticos, que representa uma base de conhecimento para aux-iliar a transferência das caracter´ısticas de interesse para plantas de importância agronômica através de melhoramento tradicional.

Marcadores moleculares do tipo microsatélites, também conhecidos como SSR (Simple Sequence Repeats) têm sido amplamente utilizados. Os SSR’s são simples palavras chaves, formadas por uma ou até seis bases repetidas en-cadeadas, por um número indefinido de vezes. Estas seqüências estão distribu´ıdas

(2)

ao acaso ao longo de todo o genoma e o polimorfismo de seu comprimento in-dica a variabilidade dentro da mesma espécie. Tais repeti¸cões são freq¨ uente-mente encontradas nos genomas e principaluente-mente nos eucariotos. Em genomas de plantas, por exemplo, as mesmas são encontradas em ocorrência de 1 em 6 mil pares de base [4]. Em algumas bactérias, altera¸cões no número de repeti¸cões de microsatélites provocam a produ¸cão de prote´ınas ligeiramente diferentes[8]. Nas plantas ou animais, os microsatélites contribuem para marcar genes que exer¸cam a mesma fun¸cão. Sendo estes genes de indiv´ıduos diferentes, os quais podem pertencer à mesma espécie ou não.

3 Programas para encontrar SSR

Basicamente existem dois métodos para encontrar SSR’s. Um deles é definir um modelo para a repeti¸cão e encontrar regiões que o satisfa¸cam, não sendo necessário 100% de exatidão, mas um alto grau de similaridade já é suficiente. Esta implementa¸cão é encontrada em programas como, Tandem Repeats Finder [3] e Sputnik [1]. No segundo método as repeti¸cões (motifs) são definidas antes (num dicionário) e chamadas para verifica¸cão de similaridade com a seqüência. Este método fornece uma rápida solu¸cão do problema e pode ser encontrado nos programas Repeat Masker [7] e Tandem Repeat Occurence Locator (TROLL)[5]. Este trabalho optou pelo programa TROLL, pois além de ser um projeto de código aberto à comunidade, apresentou o melhor desempenho comparado com vários outros programas dispon´ıveis, veja os dados comparativos em [5]. O programa é baseado no Algoritmo Aho Corasick (ACA) [2] e possui complexidade linear O(n). Seu funcionamento se inicia, basicamente, a partir da constru¸cão de uma árvore de palavras chaves utilizando a lista de repeti¸cões (motifs) indicada previamente. As seqüências de busca são comparadas a esta árvore e todas as repeti¸cões encontradas são armazenadas numa estrutura conhecida como Repeat Buffer. Para cada igualdade encontrada, é verificado se a mesma é o in´ıcio ou a continua¸cão de uma repeti¸cão.

4 O Pacote Staden

O Pacote Staden é uma ferramenta que reune vários programas que, possibilita ao biólogo facilidade na análise de seqüências genômicas. O mesmo tem sido am-plamente atualizado pela comunidade cient´ıfica (http://staden.sourceforge.net/). Dentro do pacote existem vários programas, dentre eles o Pregap e o Gap. O Pregap é responsável pela prepara¸cão dos arquivos de cromatogramas para que sejam analisados por vários módulos de execu¸cão. O usuário, de forma gráfica escolhe quais desses módulos deverão agir nos arquivos cromatogramas, preparando-os para análise. O programa Gap mostra de forma gráfica os resul-tados do processamento dos módulos executados no Pregap.

Embora o pacote Staden possibilite a procura por microsatélites, através do programa RepeatMasker, este não é mais distribu´ıdo gratuitamente. Para sanar

(3)

este problema, desenvolvemos um módulo apresentado neste trabalho, que é espec´ıfico para a localiza¸cão rápida dos SSRs.

5 Implementa¸

c˜

ao

O módulo constru´ıdo neste trabalho permite que, dado um conjunto de seqüências, a partir do programa Pregap, as mesmas sejam capturadas, filtradas (mas-carando contaminantes e bases de má qualidade) e analisadas quanto à ex-istência de microsatélites. O TROLL é executado somente uma vez para todas as seqüências, e para todos os SSR’s encontrados de cada seqüência, é gravado um respectivo arquivo Experiment File (a base de informa¸cões para análise das seqüências). Este arquivo é utilizado para constru¸cão do repositório de dados do programa GAP, que irá mostrar as caracter´ısticas da seqüência de forma gráfica, inclusive os microsatélites encontrados pelo módulo.

Os módulos do Pregap são escritos na linguagem interpretada Tcl/Tk, seguindo um padrão do Pacote Staden de rotinas destinadas à interface com usuário e execu¸cão do módulo. Os módulos criados são salvos no diretório $STANDEN-ROOT/lib/pregap4/modules e com nomes terminados com extensão .p4m.

O m´odulo desenvolvido neste trabalho obedece ao seguinte fluxograma:

(4)

Seqüências: Nesta fase o módulo utiliza a variável global file do Pregap que contém o endere¸co de acesso ao arquivo Experiment File referente a cada seqüência, que contém o nome, os nucleot´ıdeos e as qualidades;

Filtrar Contamina¸cão: Aqui o módulo acessa os arquivos Experiment File a procura de campos que indiquem a posi¸cão na seqüência da existência de con-taminantes, isto é, regiões de plasm´ıdios utilizadas para duplica¸cão da molécula de DNA. Caso encontre, os nucleot´ıdeos contaminados serão mascarados;

Filtro de Qualidade: Nesta fase, de acordo com os parâmetros passados pelo usuário, o filtro irá aceitar um número máximo de bases consecutivas com qual-idade inferior a um dado valor. Por exemplo, dada a seguinte seqüência com a qualidade expressa entre chaves:

G{18}T{18}G{18}A{20}C{30}A{19}C{18}A{22}C{21}

Para que a mesma possa ser filtrada, considerando que o usuário tenha definido como aceite o máximo de 2 bases consecutivas com qualidade menor que 20 para toda a seqüência, o filtro fornecerá o seguinte resultado: YYYA-CACAC. O caractere Y mascara os nucleot´ıdeos que não passam no filtro, pela baixa qualidade.O microsatélite encontrado neste caso é: ACACAC. Repare que a sexta e a sétima base possuem qualidade inferior à indicada pelo usuário, mas de forma encadeada não ultrapassam o aceite máximo do usuário de 2 bases, logo não foram mascaradas.

Intercalar Seqüências: Todas as seqüências são concatenadas, acrescentando um s´ımbolo curinga no final de cada seqüência para que o programa TROLL não as interprete como uma única seqüência.

Executar TROLL : O TROLL é executado somente uma vez, para o arquivo montado, independente do número de seqüências. A possibilidade de executar o TROLL uma única vez permite maior rapidez, evitando o custo de acesso a disco para várias seqüências. A complexidade do módulo é de O(n+m), sendo n o número de seqüências e m o número de microsatélites encontrados, mantendo portanto, a complexidade linear do programa TROLL.

Analisar Resultado : Analisa o resultado reportado pelo TROLL e, para cada SSR encontrado, é identificado o arquivo Experiment File da seqüência. Esta identifica¸cão é feita comparando o tamanho de cada seqüência e o valor registrado do in´ıcio do microsatélite.

Gravar Tag: O programa Gap4 precisa identificar as regiões que deverão ser mascaradas com microsatélites. Para isso, a repeti¸cão é gravada com uma eti-queta (tag) no arquivo Experiement File, informando o nucleot´ıdeo in´ıcio e fim do microsatélite. Também são gravadas informa¸cões como: número de nucleot´ıdeos restante para o final da seqüência, os nucleot´ıdeos que se repetem (motifs), o número de vezes que os motifs aparecem e o nome da seqüência.

(5)

Gerar Arquivos: Caso o usuário queira, o módulo pode gerar um arquivo com todas as seqüências que possu´ırem SSR’s (*.SSR.passed) e outro arquivo com todas as seqüências que não possu´ırem SSR’s (*.no SSR.passed).

6 Resultados

O módulo implementado possui uma interface amigável ao usuário, seguindo o mesmo padrão do Pacote Staden, como mostra a Figura 2.

Figura 2. Interface do módulo TROLL acrescentado ao Pacote Staden, para localizar microsatélites. Nela o usuário pode escolher o tamanho m´ınimo da motif: mono, di, tri, tetra ou penta; o número m´ınimo de repeti¸cões aceitas; a localiza¸cão do arquivo mo-tif.dat, exigido pelo TROLL. Ainda pode escolher entre gravar arquivos com seqüência que possuem ou não SSR; e o número máximo de nucleot´ıdeos aceitos com qualidade abaixo do valor indicado pelo próprio usuário.

(6)

Após fazer filtros e encontrar os microsatélites, o resultado é mostrado na tela Textual Output do Pregap, a qual funciona como registro de processamento, ver Figura 3.

Figura 3. Após o módulo TROLL ser executado, o Pregap mostra o resultado para cada seqüência, informando se houve ou não microsatélite.

Com os resultados encontrados e gravados nos arquivos Experiment File, os mesmos podem ser vistos de forma gráfica pelo aplicativo Gap. Desta forma, não só os microsatélites são facilmente reconhecidos, como também é poss´ıvel observar suas caracter´ısticas, ver Figura 4. O usuário pode, ainda, visualizar todas as seqüências com seus respectivos microsatélites, ver Figura 5.

7 Conclus˜

ao

Neste trabalho desenvolvemos uma ferramenta computacional que de forma rápida, permite encontrar, visualizar e anotar repeti¸cões encadeadas (microsatélites) em seqüências de DNA. Neste sentido, integramos duas ferramentas de código

(7)

Figura 4. Os microsat´elites e suas descri¸c˜oes podem ser vistos pelo programa Gap.

Figura 5. Seqüências e os microsatélites (em pontos verdes) encontrados para cada sequência.

aberto dispon´ıvel à comunidade cient´ıfica (TROLL e Staden), alteramos os códigos fonte e disponibilizamos de forma gratuita. A ferramenta criada já vem sendo uti-lizada por vários laboratórios no desenvolvimento in silico de marcadores molec-ulares em larga escala. O software pode ser baixado a partir do site http:// ws-martins.net/bioinfoucg/, no link de servi¸cos. São disponibilizadas versões, tanto para o sistema operacional Linux, quanto para o Windows.

8 Agradecimentos

`

A Pró-Reitoria de Pós-gradua¸cão e Pesquisa (PROPE)/UCG - projeto de pesquisa 551 - e ao Conselho Nacional de Desenvolvimento Cient´ıfico e Tecnológico (CNPq)-processo N. 400617-03.

Referˆ

encias

[1] Abajian, C. Sputnik.(1994) http://abajian.net/sputnik/

[2] Aho, A.V. and Corasick, M.J. Efficient string matching: an aid to bibliographic seach.(1975) Communication of the ACM, 18, 333-340,

[3] Benson, G. Tandem repeats finder: a program to analyze dna sequences.(1999) Nucleic Acids Res., 27, 573-580.

[4] Cardle, L., Ramsay, L., Milbourne, D., Macaulay, M., Marshall, D. and Wough, R. Computacional and experimental characterization of physically clustered simple sequence repeats in plants.(2000) Genetics, 156, 847-854.

(8)

[5] Castelo, T., Martins, S. and Gao, R.; Trandem Repeat Occurrence Locator. (2002) Bioinformatics. Oxford University Press, USA: , v.18, n.4, p.634 - 636

[6] Kumar, L. S. DNA markers in plant improvement: an overview.(1999) Biotechnol-ogy Advances, v.17, p. 143-182.

[7] Smit, AFA and Green, P., Repeat Masker. (1997)

http://ftp.genome.washington.edu/RM/RepeatMasker.html

[8] Van Belkun, A. The role of short sequence repeats in epidemiologic typing.(1999) Current Opinion in Microbiology. 1999. Vol. 2:306-311