• Nenhum resultado encontrado

Software para detecção de repetições encadeadas (SSR) em sequências de DNA

N/A
N/A
Protected

Academic year: 2021

Share "Software para detecção de repetições encadeadas (SSR) em sequências de DNA"

Copied!
8
0
0

Texto

(1)

(SSR) em sequˆ

encias de DNA

Daniel Xavier de Sousa1, Wellington Santos Martins1, and David Bertioli2

1 Universidade Cat´olica de Goi´as, Goiˆania, Brasil, 2

Universidade Cat´olica de Bras´ılia e Cenagem/Embrapa Bras´ılia, Brasil

Resumo This work presents a computational tool to aid in the de-velopment of molecular markers by locating simple tandem repeats (mi-crosat´elites) in DNA sequences. The tool is based on the TROLL (http:// finder.sourcefoge.net/) program and allows for fast report of microsat´elites and sequence quality control. Is has been integrated to the well know Staden Package which provides an easy and intuitive graphical interface.

1

Introdu¸

ao

A contribui¸c˜ao deste trabalho ´e o desenvolvimento de um m´odulo para o pro-grama Pregap do pacote Staden. Tal m´odulo permite a localiza¸c˜ao r´apida de mi-crosat´elites em seq¨uˆencias genˆomicas e serve, assim, aos pesquisadores interessa-dos em estuinteressa-dos envolvendo marcadores moleculares baseainteressa-dos em microsat´elites. Como o m´odulo ´e integrado ao pacote Staden, permite aos usu´arios visualizar de forma f´acil microsat´elites encontrados nos arquivos cromatogramas.

2

Marcadores Moleculares, SSR’s

Marcadores moleculares s˜ao definidos como regi˜oes localiz´aveis nos cromossomos (ex. s´ıtio de clivagem de enzimas de restri¸c˜ao, gene, minisat´elite, microsat´elite) cuja heran¸ca pode ser monitorada. Estas regi˜oes podem corresponder a regi˜oes expressas do DNA ou a algum segmento de DNA sem fun¸c˜ao codificadora con-hecida, mas cujo padr˜ao de heran¸ca pode ser estudado. Os marcadores molec-ulares s˜ao hoje foco de estudo nos programas de melhoramento animal e vege-tal [6]. Marcadores moleculares s˜ao tamb´em utilizados, por exemplo, para con-stru¸c˜ao de mapas gen´eticos, que representa uma base de conhecimento para aux-iliar a transferˆencia das caracter´ısticas de interesse para plantas de importˆancia agronˆomica atrav´es de melhoramento tradicional.

Marcadores moleculares do tipo microsat´elites, tamb´em conhecidos como SSR (Simple Sequence Repeats) tˆem sido amplamente utilizados. Os SSR’s s˜ao simples palavras chaves, formadas por uma ou at´e seis bases repetidas en-cadeadas, por um n´umero indefinido de vezes. Estas seq¨uˆencias est˜ao distribu´ıdas

(2)

ao acaso ao longo de todo o genoma e o polimorfismo de seu comprimento in-dica a variabilidade dentro da mesma esp´ecie. Tais repeti¸c˜oes s˜ao freq¨ uente-mente encontradas nos genomas e principaluente-mente nos eucariotos. Em genomas de plantas, por exemplo, as mesmas s˜ao encontradas em ocorrˆencia de 1 em 6 mil pares de base [4]. Em algumas bact´erias, altera¸c˜oes no n´umero de repeti¸c˜oes de microsat´elites provocam a produ¸c˜ao de prote´ınas ligeiramente diferentes[8]. Nas plantas ou animais, os microsat´elites contribuem para marcar genes que exer¸cam a mesma fun¸c˜ao. Sendo estes genes de indiv´ıduos diferentes, os quais podem pertencer `a mesma esp´ecie ou n˜ao.

3

Programas para encontrar SSR

Basicamente existem dois m´etodos para encontrar SSR’s. Um deles ´e definir um modelo para a repeti¸c˜ao e encontrar regi˜oes que o satisfa¸cam, n˜ao sendo necess´ario 100% de exatid˜ao, mas um alto grau de similaridade j´a ´e suficiente. Esta implementa¸c˜ao ´e encontrada em programas como, Tandem Repeats Finder [3] e Sputnik [1]. No segundo m´etodo as repeti¸c˜oes (motifs) s˜ao definidas antes (num dicion´ario) e chamadas para verifica¸c˜ao de similaridade com a seq¨uˆencia. Este m´etodo fornece uma r´apida solu¸c˜ao do problema e pode ser encontrado nos programas Repeat Masker [7] e Tandem Repeat Occurence Locator (TROLL)[5]. Este trabalho optou pelo programa TROLL, pois al´em de ser um projeto de c´odigo aberto `a comunidade, apresentou o melhor desempenho comparado com v´arios outros programas dispon´ıveis, veja os dados comparativos em [5]. O programa ´e baseado no Algoritmo Aho Corasick (ACA) [2] e possui complexidade linear O(n). Seu funcionamento se inicia, basicamente, a partir da constru¸c˜ao de uma ´arvore de palavras chaves utilizando a lista de repeti¸c˜oes (motifs) indicada previamente. As seq¨uˆencias de busca s˜ao comparadas a esta ´arvore e todas as repeti¸c˜oes encontradas s˜ao armazenadas numa estrutura conhecida como Repeat Buffer. Para cada igualdade encontrada, ´e verificado se a mesma ´e o in´ıcio ou a continua¸c˜ao de uma repeti¸c˜ao.

4

O Pacote Staden

O Pacote Staden ´e uma ferramenta que reune v´arios programas que, possibilita ao bi´ologo facilidade na an´alise de seq¨uˆencias genˆomicas. O mesmo tem sido am-plamente atualizado pela comunidade cient´ıfica (http://staden.sourceforge.net/). Dentro do pacote existem v´arios programas, dentre eles o Pregap e o Gap. O Pregap ´e respons´avel pela prepara¸c˜ao dos arquivos de cromatogramas para que sejam analisados por v´arios m´odulos de execu¸c˜ao. O usu´ario, de forma gr´afica escolhe quais desses m´odulos dever˜ao agir nos arquivos cromatogramas, preparando-os para an´alise. O programa Gap mostra de forma gr´afica os resul-tados do processamento dos m´odulos executados no Pregap.

Embora o pacote Staden possibilite a procura por microsat´elites, atrav´es do programa RepeatMasker, este n˜ao ´e mais distribu´ıdo gratuitamente. Para sanar

(3)

este problema, desenvolvemos um m´odulo apresentado neste trabalho, que ´e espec´ıfico para a localiza¸c˜ao r´apida dos SSRs.

5

Implementa¸

ao

O m´odulo constru´ıdo neste trabalho permite que, dado um conjunto de seq¨uˆencias, a partir do programa Pregap, as mesmas sejam capturadas, filtradas (mas-carando contaminantes e bases de m´a qualidade) e analisadas quanto `a ex-istˆencia de microsat´elites. O TROLL ´e executado somente uma vez para todas as seq¨uˆencias, e para todos os SSR’s encontrados de cada seq¨uˆencia, ´e gravado um respectivo arquivo Experiment File (a base de informa¸c˜oes para an´alise das seq¨uˆencias). Este arquivo ´e utilizado para constru¸c˜ao do reposit´orio de dados do programa GAP, que ir´a mostrar as caracter´ısticas da seq¨uˆencia de forma gr´afica, inclusive os microsat´elites encontrados pelo m´odulo.

Os m´odulos do Pregap s˜ao escritos na linguagem interpretada Tcl/Tk, seguindo um padr˜ao do Pacote Staden de rotinas destinadas `a interface com usu´ario e execu¸c˜ao do m´odulo. Os m´odulos criados s˜ao salvos no diret´orio $STANDEN-ROOT/lib/pregap4/modules e com nomes terminados com extens˜ao .p4m.

O m´odulo desenvolvido neste trabalho obedece ao seguinte fluxograma:

(4)

Seq¨uˆencias: Nesta fase o m´odulo utiliza a vari´avel global file do Pregap que cont´em o endere¸co de acesso ao arquivo Experiment File referente a cada seq¨uˆencia, que cont´em o nome, os nucleot´ıdeos e as qualidades;

Filtrar Contamina¸c˜ao: Aqui o m´odulo acessa os arquivos Experiment File a procura de campos que indiquem a posi¸c˜ao na seq¨uˆencia da existˆencia de con-taminantes, isto ´e, regi˜oes de plasm´ıdios utilizadas para duplica¸c˜ao da mol´ecula de DNA. Caso encontre, os nucleot´ıdeos contaminados ser˜ao mascarados;

Filtro de Qualidade: Nesta fase, de acordo com os parˆametros passados pelo usu´ario, o filtro ir´a aceitar um n´umero m´aximo de bases consecutivas com qual-idade inferior a um dado valor. Por exemplo, dada a seguinte seq¨uˆencia com a qualidade expressa entre chaves:

G{18}T{18}G{18}A{20}C{30}A{19}C{18}A{22}C{21}

Para que a mesma possa ser filtrada, considerando que o usu´ario tenha definido como aceite o m´aximo de 2 bases consecutivas com qualidade menor que 20 para toda a seq¨uˆencia, o filtro fornecer´a o seguinte resultado: YYYA-CACAC. O caractere Y mascara os nucleot´ıdeos que n˜ao passam no filtro, pela baixa qualidade.O microsat´elite encontrado neste caso ´e: ACACAC. Repare que a sexta e a s´etima base possuem qualidade inferior `a indicada pelo usu´ario, mas de forma encadeada n˜ao ultrapassam o aceite m´aximo do usu´ario de 2 bases, logo n˜ao foram mascaradas.

Intercalar Seq¨uˆencias: Todas as seq¨uˆencias s˜ao concatenadas, acrescentando um s´ımbolo curinga no final de cada seq¨uˆencia para que o programa TROLL n˜ao as interprete como uma ´unica seq¨uˆencia.

Executar TROLL : O TROLL ´e executado somente uma vez, para o arquivo montado, independente do n´umero de seq¨uˆencias. A possibilidade de executar o TROLL uma ´unica vez permite maior rapidez, evitando o custo de acesso a disco para v´arias seq¨uˆencias. A complexidade do m´odulo ´e de O(n+m), sendo n o n´umero de seq¨uˆencias e m o n´umero de microsat´elites encontrados, mantendo portanto, a complexidade linear do programa TROLL.

Analisar Resultado : Analisa o resultado reportado pelo TROLL e, para cada SSR encontrado, ´e identificado o arquivo Experiment File da seq¨uˆencia. Esta identifica¸c˜ao ´e feita comparando o tamanho de cada seq¨uˆencia e o valor registrado do in´ıcio do microsat´elite.

Gravar Tag: O programa Gap4 precisa identificar as regi˜oes que dever˜ao ser mascaradas com microsat´elites. Para isso, a repeti¸c˜ao ´e gravada com uma eti-queta (tag) no arquivo Experiement File, informando o nucleot´ıdeo in´ıcio e fim do microsat´elite. Tamb´em s˜ao gravadas informa¸c˜oes como: n´umero de nucleot´ıdeos restante para o final da seq¨uˆencia, os nucleot´ıdeos que se repetem (motifs), o n´umero de vezes que os motifs aparecem e o nome da seq¨uˆencia.

(5)

Gerar Arquivos: Caso o usu´ario queira, o m´odulo pode gerar um arquivo com todas as seq¨uˆencias que possu´ırem SSR’s (*.SSR.passed) e outro arquivo com todas as seq¨uˆencias que n˜ao possu´ırem SSR’s (*.no SSR.passed).

6

Resultados

O m´odulo implementado possui uma interface amig´avel ao usu´ario, seguindo o mesmo padr˜ao do Pacote Staden, como mostra a Figura 2.

Figura 2. Interface do m´odulo TROLL acrescentado ao Pacote Staden, para localizar microsat´elites. Nela o usu´ario pode escolher o tamanho m´ınimo da motif: mono, di, tri, tetra ou penta; o n´umero m´ınimo de repeti¸c˜oes aceitas; a localiza¸c˜ao do arquivo mo-tif.dat, exigido pelo TROLL. Ainda pode escolher entre gravar arquivos com seq¨uˆencia que possuem ou n˜ao SSR; e o n´umero m´aximo de nucleot´ıdeos aceitos com qualidade abaixo do valor indicado pelo pr´oprio usu´ario.

(6)

Ap´os fazer filtros e encontrar os microsat´elites, o resultado ´e mostrado na tela Textual Output do Pregap, a qual funciona como registro de processamento, ver Figura 3.

Figura 3. Ap´os o m´odulo TROLL ser executado, o Pregap mostra o resultado para cada seq¨uˆencia, informando se houve ou n˜ao microsat´elite.

Com os resultados encontrados e gravados nos arquivos Experiment File, os mesmos podem ser vistos de forma gr´afica pelo aplicativo Gap. Desta forma, n˜ao s´o os microsat´elites s˜ao facilmente reconhecidos, como tamb´em ´e poss´ıvel observar suas caracter´ısticas, ver Figura 4. O usu´ario pode, ainda, visualizar todas as seq¨uˆencias com seus respectivos microsat´elites, ver Figura 5.

7

Conclus˜

ao

Neste trabalho desenvolvemos uma ferramenta computacional que de forma r´apida, permite encontrar, visualizar e anotar repeti¸c˜oes encadeadas (microsat´elites) em seq¨uˆencias de DNA. Neste sentido, integramos duas ferramentas de c´odigo

(7)

Figura 4. Os microsat´elites e suas descri¸c˜oes podem ser vistos pelo programa Gap.

Figura 5. Seq¨uˆencias e os microsat´elites (em pontos verdes) encontrados para cada sequˆencia.

aberto dispon´ıvel `a comunidade cient´ıfica (TROLL e Staden), alteramos os c´odigos fonte e disponibilizamos de forma gratuita. A ferramenta criada j´a vem sendo uti-lizada por v´arios laborat´orios no desenvolvimento in silico de marcadores molec-ulares em larga escala. O software pode ser baixado a partir do site http:// ws-martins.net/bioinfoucg/, no link de servi¸cos. S˜ao disponibilizadas vers˜oes, tanto para o sistema operacional Linux, quanto para o Windows.

8

Agradecimentos

`

A Pr´o-Reitoria de P´os-gradua¸c˜ao e Pesquisa (PROPE)/UCG - projeto de pesquisa 551 - e ao Conselho Nacional de Desenvolvimento Cient´ıfico e Tecnol´ogico (CNPq)-processo N. 400617-03.

Referˆ

encias

[1] Abajian, C. Sputnik.(1994) http://abajian.net/sputnik/

[2] Aho, A.V. and Corasick, M.J. Efficient string matching: an aid to bibliographic seach.(1975) Communication of the ACM, 18, 333-340,

[3] Benson, G. Tandem repeats finder: a program to analyze dna sequences.(1999) Nucleic Acids Res., 27, 573-580.

[4] Cardle, L., Ramsay, L., Milbourne, D., Macaulay, M., Marshall, D. and Wough, R. Computacional and experimental characterization of physically clustered simple sequence repeats in plants.(2000) Genetics, 156, 847-854.

(8)

[5] Castelo, T., Martins, S. and Gao, R.; Trandem Repeat Occurrence Locator. (2002) Bioinformatics. Oxford University Press, USA: , v.18, n.4, p.634 - 636

[6] Kumar, L. S. DNA markers in plant improvement: an overview.(1999) Biotechnol-ogy Advances, v.17, p. 143-182.

[7] Smit, AFA and Green, P., Repeat Masker. (1997)

http://ftp.genome.washington.edu/RM/RepeatMasker.html

[8] Van Belkun, A. The role of short sequence repeats in epidemiologic typing.(1999) Current Opinion in Microbiology. 1999. Vol. 2:306-311

Referências

Documentos relacionados

Schneider Electric Brasil - Customer Care Center - Suporte Técnico Power - 04/2010 - Elaborado por: Fábio Arnaldo Ribeiro 52. Customer

Em síntese, a presente pesquisa revelou algumas importantes informações: (a) os ganhos obtidos no teste de desempenho acadêmico e o aumento no percentil médio do Raven do GE

O Relatório Anual da Câmara de Contas de 2019 aponta os principais resultados decorrentes da atuação da instituição no período a que se refere, através das modalidades de

Desta forma, o HIIT promove alterações na atividade das enzimas NTPDase, ADA e AChE em linfócitos e nos níveis de citocinas sugerindo uma ação pro-inflamatória do

Corporate Control and Policies Page 12 UNIVERSIDAD DE PIURA UNIVERSIDAD DEL PACÍFICO UNIVERSIDAD ESAN UNIVERSIDAD NACIONAL AGRARIA LA MOLINA UNIVERSIDAD NACIONAL

citri foi estudada em folhas de videira Vitis vinifera, cultivares Cabernet Sauvignon e Itália, e de Vitis labrusca, cultivar Isabel; em bagas da cultivar Itália e em raízes

17 - A alteração deste Contrato de Transferência, no caso da necessidade de ajustamento da sua programação de execução física e financeira, inclusive a alteração do

Animador e funcionários e voluntários Material de desgaste --- “cantinho das habilidades” Sala de convívio Diariamente, durante todo o ano “O cantinho da leitura”