• Nenhum resultado encontrado

II. Proteínas: definição, funções e estrutura

3.2 COMPARAÇÃO DE SEQÜÊNCIAS E BUSCA EM BANCO DE DADOS

3.2.1 Tipos de comparação e a importância da busca em bancos de dados

Os problemas solucionados pela Biologia Molecular Computacional podem ser divididos em duas áreas gerais: a)comparação exata de seqüências e descoberta de padrões; e b)comparação inexata ou aproximada, que inclui a busca de similaridade por meio de alinhamento de seqüências.

Na comparação exata, [Meidanis e Setubal, 1997] dadas duas seqüências s (|s| = n) e t (|t| = m), o que se quer é encontrar todas as ocorrências de t em s, isto é, determinar se t é uma subsérie36 contígua (substring) de s, como seria o caso de s=xaybzc e t=ybz. Diversos algoritmos têm sido empregados para atender essa demanda, sendo o mais proeminente a árvore de sufixos37 (suffix tree). De maneira bastante versátil, essa estrutura tem possibilitado resolver problemas da vida real, tais como: encontrar subséries

repetidas em uma seqüência de DNA; encontrar o primer38 em seqüências a serem

multiplicadas usando PCR39; e encontrar todos os palíndromos 40de tamanho máximo em uma seqüência de DNA.

Apesar da aplicabilidade da comparação exata, é certamente a comparação inexata o caso para o qual está direcionada a grande maioria dos problemas da Biologia Molecular, dentre eles distância de edição e comparação ou alinhamento de seqüências, a chamada busca de similaridade. E será esse último ponto o foco deste Trabalho. Diferentemente da área anterior, nesta são permitidos alguns erros nas seqüências e o propósito é encontrar subseqüências41, contíguas ou não, como por exemplo s=xaybzc e t=xyc, ou t=ayb. Ou mais especificamente, encontrar caracteres coincidentes, mesmo que esses estejam intercalados por outros divergentes ou espaços em uma seqüência combinados com caracteres na outra, o que fará com que as seqüências resultantes possuam o mesmo tamanho, uma conseqüência típica do alinhamento.

Embora esse conceito possa parecer simples, [Gusfield, 1997] a busca de

similaridade42 usando seqüências de DNA ou de proteínas está sendo considerada

atualmente o mais poderoso método para inferir as funções biológicas de um gene (ou a proteína que ele codifica), pois uma alta similaridade da seqüência pode implicar uma

significativa similaridade estrutural ou funcional (first fact), embora o contrário não se aplique. Além disso, pode-se usar esse método, por exemplo, para reconstruir longas seqüências de DNA a partir de seus fragmentos (fragment assembly); explorar elementos informativos em DNA ou proteína; determinar o grau de mutações sofridas por uma seqüência no processo evolutivo; ou estabelecer a existência de um ancestral comum entre duas ou mais seqüências, o que é também chamado de busca de homologia 43 e será discutido mais adiante neste tutorial.

Assim, [Meidanis e Setubal, 1997] com o advento de tecnologias rápidas e confiáveis - como algoritmos heurísticos e computação paralela - para seqüenciamento de ácidos nucléicos e proteínas, bancos de dados centralizados foram criados para armazenar e sistematicamente organizar a larga quantidade de dados produzidos por laboratórios em todo o mundo, permitindo buscas por comparação exata ou aproximada. E, como resultado, houve uma mudança dramática no enfoque da Biologia Molecular e também da Bioquímica, pois enquanto, há vinte anos, a determinação da seqüência era geralmente um dos últimos passos na caracterização da proteína, hoje isso se reverteu. Realmente, já não se concebe a idéia de publicar uma seqüência de DNA recém-clonada sem que tenha sido feita uma busca nos principais bancos de dados.

No livro de [Gusfield, 1997], são apresentadas diversas histórias de sucesso, dentre elas o primeiro relato, que ocorreu ainda no ano de 1970 e foi a descoberta da correlação entre oncogenes (genes do câncer) e proteínas relacionadas ao fator de crescimento da célula; e uma outra mais recente, publicada no New York Times (03/05/1995), sobre a esclerose múltipla, na qual as imunocélulas-T utilizam as proteínas da superfície da mielina44 para erradamente identificar as células no interior dessa como intrusas, interrompendo a transmissão normal de sinais ao longo do nervo. Por trabalhos laboratoriais e busca em bancos de dados de proteínas, concretizou-se a conjectura de que o erro acontecia porque o sistema imunológico talvez confundisse essas proteínas com outras de vírus e bactérias que teriam previamente infectado o indivíduo: usando seqüências de proteínas da superfície da mielina, realizaram-se buscas e foram encontradas aproximadamente 100 (cem) proteínas de vírus e bactérias que apresentavam alta similaridade e que também eram atacadas por células-T.

Não é sem motivo, portanto, que a indústria dos bancos de dados dessa área vem crescendo ano a ano, tanto em tamanho das bases quanto em proliferação de novos bancos. Dentre esses bancos de dados, destacam-se:

a) Entrez – mantido pelo Centro Nacional de Informação Biotecnológica (NCBI)

nos EUA, é um sistema de busca e recuperação que integra informações de todos os bancos de dados citados abaixo (GenBank, DDBJ, EMBL, PIR, PDB e Swiss-Prot), dentre outros. Suas principais bases são: seqüências de nucleotídeos e de proteínas, estruturas macromoleculares tridimensionais, genomas completos, literatura médica (MEDLINE) etc. Todos os serviços, informações e tutoriais estão disponíveis no endereço http://www.ncbi.nlm.nih.gov/Entrez/.

b) GenBank (Genetic Sequence Database ou Banco de Dados de Seqüências

Genéticas) – é um banco de dados de seqüências de DNA também mantido pelo NCBI. Faz parte da Colaboração Internacional dos Bancos de Dados de Seqüências de Nucleotídeos e pode ser acessado pelo site http://www.ncbi.nlm.nih.gov.

c) DDBJ (DNA Data Bank of Japan ou Banco de Dados Japonês de DNA) –

mantido pelo Instituto Nacional de Genética (NIG) no Japão, é também um dos mais importantes banco de dados de seqüências de DNA. Faz parte da Colaboração Internacional dos Bancos de Dados de Seqüências de Nucleotídeos. Sua página principal é http://www.ddbj.nig.ac.jp.

d) EMBL (European Molecular Biology Laboratory ou Laboratório Europeu de

Biologia Molecular) – é uma instituição que mantém vários repositórios, inclusive um banco de dados de DNA chamado Banco de Dados de Seqüências de Nucleotídeos mantido pelo Instituto Europeu de Bioinformática (EBI) em Cambridge, UK. Também faz parte da Colaboração Internacional dos Bancos de Dados de Seqüências de Nucleotídeos. Seus serviços estão disponíveis no site http://www.ebi.ac.uk/.

e) PIR (Protein Identification Resource ou Fonte de Indentificação de Proteína) – é

um banco de dados de seqüências de proteínas cooperativamente mantido e distribuído pela Fundação Nacional de Pesquisa Biomédica (USA), pelo Instituto Martinsried de Seqüências de Proteína (Europa) e pelo Banco de Dados

Internacional de Informação de Proteína (Japão). Seus serviços estão disponíveis na página http://www.gdb.org/.

f) PDB (Protein Data Bank ou Banco de Dados de Proteína) – é um repositório de

estruturas tridimensionais de proteínas. Faz parte da Pesquisa Colaborativa para o Consórcio de Bioinformática Estrutural (RCSB) mantida pela Universidade Rutgers de Nova Jersey, pelo Centro de Supercomputadores de San Diego (SDSC) e pelo Instituto Nacional de Padrões e Tecnologia (NIST). Sua página principal é http://www.rcsb.org/pdb/.

g) SWISS-PROT - é um repositório de seqüências de proteínas mantido sob

colaboração do Departamento de Bioquímica Médica de Genebra e pela Biblioteca de Dados do EMBL. Informações e serviços estão disponíveis no site http://ca.expasy.org/sprot/sprot_details.html.

A característica comum entre esses bancos de dados é que eles funcionam como repositórios, permitindo a recuperação de qualquer seqüência pela descrição ou pelo número de acesso. Os registros costumam conter, dentre outras informações, uma descrição, a seqüência propriamente dita, o nome científicio do organismo-fonte, comentários gerais e literatura associada. No entanto, há um aspecto ainda mais importante que o armazenamento e a transferência de dados, [Gusfield, 1997] que é a geração de novos conhecimentos que esses bancos proporcionam pela busca baseada em similaridade. Além disso, muitos desses bancos de dados são acessíveis pela Internet e existem pacotes que possibilitam ao usuário pesquisar, ver e manipular os dados das seqüências armazenadas. Dois dos mais utilizados desses pacotes são o GCG (Genetics Computer Group) e o Standen, sendo o primeiro um serviço tarifado oferecido pela iniciativa privada e o segundo, de acesso gratuito.

Embora todos sejam basicamente repositórios de seqüências, os bancos de dados diferem bastante em suas linhas de atuação. Alguns se especializam em um tipo particular de organismo ou célula, outros se concentram em funções biológicas particulares, há os que seguem uma terminologia especializada e estilo taxonômico particulares de um subcampo da biologia, também há aqueles que tentam registrar todas as mutações e diferenças (polimorfismos) que têm sido descobertas em um dado gene ou em um conjunto de genes, e alguns diferem no modo como os dados das seqüências são

armazenados e integrados com outras informações biológicas, bem como os tipos de serviços de consulta e recuperação oferecidos.