Performance de Tempo do Programa - Um sistema computacional para diagnosticar viroses de planta

140 37 293 163 157 120 105 94 74 60 43 30 14 0 300 600 900 1200 0 4 8 12 16 20 24 28 32 36 40

Núm ero de bases da seqüê ncia nucleotídica e m Kb (1000 bases)

Tempo (segundos)

Algoritmo de Força Bruta Algoritmo de Força Bruta Modificado

Gráfico 5.1: Gráfico de performance da última versão do algoritmo de Força Bruta

✞

Dois cenários de experimentos com viroses de planta foram executados para verificar se o programa implementado atende ao objetivo proposto. A situação é descobrir uma virose de planta de um determinado cultivar, através da técnica de PCR, usando os primers projetados pelo programa proposto, sem ter conhecimento dos sintomas da planta doente. A limitação é que as opções de primers para diagnóstico é de acordo com os genomas disponíveis nos bancos de dados de genomas de vírus de planta. Tanto na Bioinformática quanto na Biologia Molecular, os experimentos validaram o programa proposto.

✥

A simulação é para diagnosticar viroses de batata (Solanum tuberosum). Os genomas completos de viroses de Solanum tuberosum disponíveis no banco de dados de domínio público NCBI são sete, até 16 de setembro de 2004, como mostra na figura 5.3. Em seguida, obteve-se o formato Fasta de cada genoma de vírus da batata. Todos os sete genomas foram processados pelo programa proposto com o cuidado de manter as configurações padronizadas para todos. O alinhamento foi feito com uma string de tamanho 10, e em 25 segundos obteve-se o resultado usando o processador AMD Athlon 2,4 GHz, 256 MB de memória RAM. O programa usa o primeiro genoma da lista como alvo para alinhar os subseqüentes.

Para cada genoma, obteve-se um par de primers com características iguais (tamanho, Tm e conteúdo G+C) configuradas na tabela 5.1. Estas características estão otimizadas segundo Innis e Gelfand [05]. O tamanho do primer foi de 21 bases por ser mais específico e menos provável de formar problemas de complementaridade (vide figura 3.1). Quanto maior o primer mais específico ao alvo, porém também se considera que primers muito longos podem formar frisos com a intra-complementaridade. Tendo em vista isso, as extremidades dos primers foram escolhidas procurando não formar dímeros entre o par de primers nem frisos intra-primer. A temperatura de desnaturação (Tm em ºC) escolhida foi 54,36 por ser um valor experimentalmente eficiente na reação. A porcentagem de guanina e citosina (% G+C) foi de 52.38% também estável experimentalmente no anelamento da reação de PCR. O tamanho do fragmento do genoma do vírus amplificado por PCR foi entre 150 à 1200 pares de bases por ser um tamanho de extensão viável para a enzima polimerase expandir na reação. Este tamanho é limitado pelo par de primers escolhido.

Figura 5.1: Tela de resultados do Entrez no NCBI mostrando 7 genomas de vírus da batata.

Os pares de primers específicos obtidos de cada espécie de vírus também foram testados usando o Blast-n do NCBI e comprova-se que são específicos em nível de espécie, em 16 de dezembro de 2004. E em todos os primers 5`-3` de viroses de batata, constata-se a especificidade com o vírus respectivo, porque o Blast-N alinhou no banco de dados com várias seqüências de genomas parciais e com o genoma completo de cada vírus analisado. Além disso, as outras seqüências alinhadas que não são de vírus têm um E-value alto, indicando que foram alinhadas ao acaso (vide figuras 5.4 a 5.10). E-value (Expectation value) é um número, resultado de cálculos estatísticos, que indica o grau de "validade" de um alinhamento. Quanto menor o E- value mais significativo é o alinhamento. O BLAST mostra os E-values do alinhamento colocando-os em ordem decrescente de significância.

✥

O Rio Grande do Norte é o maior exportador de melão do Brasil. Neste cenário simula-se um experimento para diagnosticar viroses do meloeiro (Cucumis melo L). Os genomas completos de viroses de Cucumis melo L disponíveis no banco de dados de domínio público NCBI são quatro, até 16 de setembro de 2004, como mostra na figura 5.11. Em seguida, obtive-se o formato Fasta de cada genoma de vírus do meloeiro. Todos os quatro genomas foram processados pelo programa proposto com o cuidado de manter as configurações padronizadas para todos. O alinhamento foi feito com uma string de tamanho 10, e em 13 segundos obteve-se o resultado usando um processador AMD Athlon 2,4 GHz, 256 MB de memória RAM. O programa usa o primeiro genoma da lista como alvo para alinhar os subseqüentes.

Para cada genoma obteve-se um par de primers com características iguais (tamanho, Tm e conteúdo G+C) configuradas na tabela 5.2. Estas características estão otimizadas segundo Innis e Gelfand [05]. O tamanho do primer foi de 21 bases por ser mais específico e menos provável de formar problemas de complementaridade (vide figura 3.1). Quanto maior o primer mais específico ao alvo, porém também se considera que primers muito longos podem formar frisos com a intra-complementaridade. Tendo em vista isso, as extremidades dos primers foram escolhidas procurando não formar dímeros entre o par de primers nem friso intra-primer. A temperatura de desnaturação (Tm em ºC) escolhida foi 54,36 por ser um valor experimentalmente eficiente na reação. A porcentagem de guanina e citosina (% G+C) foi de 52.38% também estável experimentalmente no anelamento da reação de PCR. O tamanho do fragmento do genoma do vírus amplificado por PCR foi entre 150 à 1200 pares de bases por ser um tamanho de extensão viável para a enzima polimerase expandir na reação. Este tamanho é limitado pelo par de primers escolhido.

Figura 5.9: Tela de resultados do Entrez no NCBI com 4 genomas de vírus de meloeiro.

Capítulo 6

Conclusão e Perspectivas

Eu obtive um diferencial em relação aos softwares existentes em domínio público e em domínio privado. O diferencial do sistema proposto está na estratégia para realizar um diagnóstico em nível de espécie de modo eficiente. A estratégia é procurar similaridades e não- similaridades nas regiões do genoma do vírus. Regiões onde ocorrem não-similaridades são regiões espécie-específicas, ou seja, os primers projetados a partir desta região serão específicos para apenas uma espécie suspeita. O sistema também possibilita ao usuário configurar a estringência do alinhamento, bem como os parâmetros de primers ótimos para o diagnóstico. Estringência é o número de bases da string ou palavra de busca (tamanho da subseqüência). A priori, o sistema tem uma configuração padrão baseada em medidas otimizadas da literatura pesquisada.

A estratégia de escolher regiões específicas de uma espécie antes da construção de primers é eficiente para diagnosticar uma virose suspeita. A resposta avança então a metodologia de diagnóstico molecular em nível de espécie de vírus e de outros patógenos facilitando no processo de tratamento. Além de beneficiar o controle de pragas na agricultura de importação e exportação, pode-se fazer um estudo de polimorfismo entre espécie e estudar a filogenia entre espécies de microorganismos.

O programa proposto para diagnóstico de vírus de planta pode ser aplicado para outros patógenos com uma simples adaptação de sua interface e algoritmo. A base principal é o módulo de alinhamento que pode ser tão simples quanto usar o algoritmo de força bruta. O alinhamento de seqüências de vírus também pode ser útil para identificar marcadores moleculares. As modificações implementadas no Algoritmo de Bruta melhoraram consideravelmente sua performance de tempo. Justifica-se o uso deste algoritmo porque em geral o tamanho de uma seqüência de um vírus de planta não é maior do que 40.000 bases, e o processamento foi realizado em 2 minutos e 43 segundos, sendo satisfatório em comparação ao tempo de demora

Ao longo dos últimos anos, a pesquisa na área de genômica e de bioinformática vem obtendo crescente importância no país. Projetos bem sucedidos, como os da Xylella fastidiosa, da cana- de-açúcar, do câncer e outros apenas comprovam essa afirmação. Nesse contexto, a criação de um programa para identificar viroses em plantas torna-se mais um passo na aquisição de excelência por pesquisadores brasileiros nessa área.

O estudo desenvolvido é importante também devido à escassez de pesquisas realizadas no Brasil que proponham técnicas qualitativas de diagnóstico da Biologia Molecular. De um modo geral, o trabalho alcançou o objetivo proposto, entretanto resta resolver a escolha do par de primers limitando a seqüência a ser amplificada. Alem disso, pretende-se criar o banco de dados de genoma de vírus de planta e o banco de primers.

Para versões posteriores do programa sugere-se o uso do Algoritmo de Needleman-Wunsch [48] para alinhamento global de seqüências nucleotídicas, indicado para alinhamento de genomas de outros patógenos com genoma superior a 40000 pares de bases [49]. Tendo em vista que a metodologia adotada pode ser utilizada e adaptada para outros trabalhos com diferentes patógenos.

Referências Bibliográficas

[01] Thomson K. at al., Identification of Zucchini yellow mosaic potyvirus by RT-PCR and analysis of sequence variability, Journal of Virological Methods, 55, p. 83-96. ed. Addison-Wesley, 1995.

[02] Gitton F. at al., A two-step multiplex RT-PCR method for simultaneous detection of soil- borne wheat mosaic virus and wheat spindle streak mosaic virus from France, Plant Pathology, 48, p. 635-641, 1999.

[03] Antoniw, J., A new method for designing PCR primers specific for groups of sequences and its application to plant viruses, Molecular Biotechnology, 4, 111- 119, 1995.

[04] Compton T., Degenerate primers for DNA amplification. pp. 39-45 in: PCR Pro tocols (Innis, Gelfand, Sninsky and White, eds.); Academic Press, New York, 1990.

[05] Innis M. A. and Gelfand D. H., Optimization of PCRs. pp. 3-12 in: PCR Protocols (Innis, Gelfand, Sninsky and White, eds.); Academic Press, New York, 1990.

[06] Rybicki E.P. and Hughes F.L., Detection and typing of maize streak virus and other distantly related geminiviruses of grasses by polymerase chain reaction amplification of a conserved viral sequence. Journal of General Virology 71:2519-2526, 1990.

[07] Rybicki E. P., PCR primer design and reaction optimization. Department of Molecular and Cell Biology, University of Cape Town, 2001.

[08] Rychlik W., Spencer W.J. and Rhoads R.E., Optimization of the annealing tempera- ture for DNA amplification in vitro. Nucleic Acids Research 18 (21):6409-6412, 1990.

[09] Thweatt R., Goldstein S. and Reis R.J.S., A universal primer mixture for sequence determination at the 3' ends of cDNAs. Analytical Biochemistry 190:314-316, 1990.

[10] Yap E.P.H. and McGee JO'D, Short PCR product yields improved by lower denaturation temperatures. Nucleic Acids Research 19 (7):1713, 1991.

[11] Exposito at al. PCR Strategy for Identification and Differentiation of Smallpox and Other Orthopoxviruses. Journal of Clinic Microbiology, 95, p. 2069-2076. American Society for Microbiology, 1995.

[12] Cormen, T. H., Leiserson, C. E., Rivest, R.L., Introduction to Algorithms. MIT Press, 1990.

[13] Elmasri, R., Navathe, S. B., Fundamentals of Database Systems. Addison-Wesley. 3rd ed. 2000.

[14] Hammond, J., Calef, C., Larder, B., Schinazi, R., Mellors, J. W., Mutations in Retroviral Genes Associated with Drug Resistance, 1999.

[15] National Center for Biotechnology Information. URL http://www.ncbi.nlm.nih.gov. Acessado em junho de 2004.

[16] Setubal, J., Meidanis, J., Introduction to Computational Molecular Biology. Boston: PWS, p. 1-103, 1997.

[17] Silberschatz, A., Korth, H. F., Sudarshan, S., Sistema de Banco de Dados. Makron Books, São Paulo, 3ª ed. 1999.

[18] Stanford HIV RT and Protease Sequence Database. URL http://hivdb.stanford.edu/hiv. Acessado em junho de 2004.

[19] Baxevanis, A. D., Ouellette, B. F. F., Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins. John Wiley & Sons, 1998.

[20] Hillier L. and Green P., OSP: a Computer Program for Choosing PCR and DNA Sequencing Primers, PCR Methods and Applications, 1, pp. 124-128, 1991.

[21] Lowe T., Sharefkin J., Yang S. Q., and Dieffenbach, A Computer Program for selection of oligonucleotide primers for polymerase chain reactions, Nuc. Acids Res., 18, pp. 1757-1761, 1990.

[22] Lucas K., Busch M., Mossinger S., and Thompson J. A., An Improved Microcomputer Program for finding Gene- or Gene Family-Specific Oligonucleotides Suitable as Primers for Polymerase Chain Reactions or as Probes, Comp. Appl. Biosci., 7, pp. 525-9, 1991.

[23] Mullis, K.B., Ferré, F., and Gibbs, R.A. The Polymerase Chain Reaction. Birkhäuser, 1994.

[24] Nascimento A., Espreafico E.M., Larson M.L., Monesi N., Rossi N..M., Rodrigues V. Tecnologia do DNA Recombinante. USP, 2003.

[25] Saiki R.K., Gelfand D.H., Stoffel S., Scharf S.J., Higuchi R., Horn G.T., Mullis K.B., Erlich H.A. Primer-directed enzymatic amplification of DNA with a thermostable DNA-

polymerase. Science 239: 487-491, 1988.

[26] Pádua A., Santana A.J., Bonfim P.S., Algoritmos de Busca em texto. URL http://www.buscaemtexto.hpg.com.br. Acessado em junho de 2004.

[27] Lima, R.C.A., Lima, J.A.A., Souza Jr., M.T., Pio-Ribeiro, G. & Andrade, G.P., Etiologia e estratégias de controle de viroses do mamoeiro no Brasil. Fitopatologia Brasileira. 26:689-702, 2001.

[28] Cuticchia A.J., Arnold J., Timberlake W.E.; RT "PCAP: probe choice and analysis package - set of programs to RT aid in choosing synthetic oligomers for contig mapping."; RL Comput. Appl. Biosci. 9:201-203, 1993.

[29] Engels W.R.; RT "Contributing software to the Internet: the Amplify program."; RL Trends Biochem. Sci. 18:448-450, 1993.

[30] Proutski V.Y., Sokur O.V.; RT "New original software for optimized design of RT PCR primers."; RL (In) Abstracts of the IX International Conference RL "Progress in Clinical Virology",(August 1994, Stockholm).

[31] Usdin K.; RT "Hypercard-based data management tools for molecular biologists."; RL Comput. Appl. Biosci. 8:107-111, 1992.

[32] Napiwotzki J., Becker A., Damian M.; RT "Primer Design - a new program to choose PCR primers RT and oligonucleotide probes."; RL Medizinische Genetic, Programme and Abstracts, Vol. 2, 1995.

[33] RA Resnick, R.; RT "Primers! for the WWW"; URL http://www.williamstone.com. Acessado em julho 2004.

[34] Rozen,S. and Skaletsky,H. Primer3 on the WWW for general users and for biologist programmers. Methods Mol. Biol., 132, 365–386, 2000.

[35] Haas,S., Vingron,M., Poustka,A. and Wiemann,S. Primer design for large scale sequencing. Nucleic Acids Res., 26, 3006–3012, 1998.

[36] Proutski,V. and Holmes,E.C. Primer Master: a new program for the design and analysis of PCR primers. Comput. Appl. Biosci., 12, 253–255, 1996

[37] Li,P., Kupfer,K.C., Davies,C.J., Burbee,D., Evans,G.A. and Garner,H.R. PRIMO: a primer design program that applies base quality statistics for automated large-scale DNA sequencing. Genomics, 40, 476–485, 1997.

[38] Raddatz,G., Dehio,M., Meyer,T.F. and Dehio,C. PrimeArray: genome-scale primer design for DNA-microarray construction. Bioinformatics, 17, 98–99, 2001.

[39] Eberhardt,N.L. A shell program for the design of PCR primers using genetics computer group (GCG) software (7.1) on VAX/VMS systems. Biotechniques, 13, 914–917, 1992.

[40] Meyer,F., Schleiermacher,C. and Giegerich,R. Gene-Fisher software support for the detection of postulated genes, 1995.

[41] Andy Vierstraete Homepage. URLhttp://allserv.rug.ac.be/~avierstr/index.html. Acessado em maio de 2004.

[42] BLAST. URLhttp://www.genbank.org/blast. Acessado em maio de 2004.

[43] NCBI GenBank Statistics. http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html. Acessado em fevereiro de 2005.

[44] Rocha K. K. F., Medeiros C., Monteiro M., Gonçalves L. M., Marinho P. Primer Design

for Automated Virus Diagnosis in Plants. SIBGRAPI 2003, p036. URL

[45] Rocha K. K. F., Medeiros C., Monteiro M., Gonçalves L. M., Marinho P. Design of

Specie-Specific Primers for Virus Diagnosis in Plants with PCR. BIBE 2004: 149-158.

URL http://csdl.computer.org/comp/proceedings/bibe/2004/2173/00/21730149abs.htm.

Acessado em fevereiro de 2005.

[46] Gibas, C., Jambeck, P. Trad. Cristina de Amorim Machado. Desenvolvendo bioinformática. Rio de Janeiro: Campus, 2001. 440p.

[47] Furlan, J. D. Modelagem de Objetos Através da UML - The Unified Modeling Language, Makron Books,São Paulo, 1998.

[48] Rumbaugh, J.; Blaha, M.; Premerlani, W.; Eddy, F.; Lorensen, W.; Object-Oriented Modeling and Design, Prentice-Hall International, New Jersey, 1991.

[49] Needleman, S. B. and Wunsch, C. D. (1970) J. Mol. Biol. 48, 443-453.

[50] Ye, Liang, Huang, Xiaoqiu. MAP2: multiple alignment of syntenic genomic sequences; Nucl. Acids Res. 2005 33: 162-170

No documento Um sistema computacional para diagnosticar viroses de plantas usando a técnica de PCR com construção de primers espécie-específicos (páginas 52-73)