Análise dos fatores determinantes para a qualidade da anotação genômica automática.

(1)

ANÁLISE DOS FATORES DETERMINANTES PARA A

QUALIDADE DA ANOTAÇÃO GENÔMICA AUTOMÁTICA

Dissertação apresentada ao Programa de Pós-Graduação “Strictu Sensu” em Biotecnologia e Ciências Genômicas da Universidade Católica de Brasília como requisito para a obtenção do Título de Mestre em Biotecnologia e Ciências Genômicas

Orientador: Prof. Dr. Georgios J. Pappas Jr.

(2)

TERMO DE APROVAÇÃO

Dissertação defendida e aprovada como requisito parcial para obtenção do Título de

Mestre em Ciências Genômicas e Biotecnologia, defendida e aprovada em 03 de setembro de

2004 pela banca examinadora constituída por:

________________________________________ Prof. Dr. Georgios J. Pappas Jr. (Orientador)

_________________________________________ Prof. Dr. Marcos Mota do Carmo Costa

(3)

A meus pais,

Pelo apoio e incentivo em todas as horas e por terem despertado em mim desde cedo a curiosidade e vontade de aprender.

À Keila,

Simplesmente pela pessoa maravilhosa que é.

Ao meu orientador Georgios,

Pela motivação e pelas importantes e decisivas sugestões.

A todos professores,

Pelo exemplo de persistência e coragem ao fazer pesquisa no Brasil.

Aos amigos e colegas,

Por entenderem esses tempos de reclusão e continuarem a ser amigos.

Aos funcionários pela competência e dedicação.

(4)

“Porque ele está lá”

(5)

Resumo

A genômica é uma disciplina recente da Biologia que diz respeito à caracterização

molecular de genomas na sua totalidade. A bioinformática é uma área interdisciplinar

envolvendo biologia, informática, matemática e estatística, que utiliza métodos

computacionais para analisar os dados de seqüências biológicas gerados pela genômica e

predizer a função e estrutura de macromoléculas.

A anotação genômica é um processo que consiste em adicionar análises de

bioinformática para gerar interpretações biológicas sobre as seqüências brutas de DNA. A

determinação ou predição da função de seqüências de aminoácidos, chamada de anotação

funcional, é uma das sub divisões da anotação genômica. A predição da função de uma

proteína é, via de regra, feita com base na comparação com seqüências de proteínas

previamente caracterizadas e armazenadas em bancos de dados biológicos. Essa comparação

é, quase sempre, feita com programas computacionais de alinhamento de seqüências, entre os

quais, o BLAST é um dos mais conhecidos. A anotação funcional é uma tarefa bastante

complexa e sujeita a erros por vários motivos. Um deles, diz respeito à falta de padronização

na interpretação dos resultados do BLAST. Outro problema é a propagação de erros, que é a

predição da função de proteínas baseada em proteínas que também foram preditas mas que

podem estar com a anotação imprecisa ou até incorreta.

A genômica gera uma grande quantidade de dados os quais são armazenados em

bancos de dados biológicos. Para a anotação funcional de proteínas, os bancos de dados de

seqüências de aminoácidos são obviamente fundamentais, pois conforme mencionado, são

usados na busca por seqüências similares. Atualmente, a taxa de crescimento desses bancos

de dados é exponencial, tornando a atividade de anotação funcional dinâmica. Por esse

motivo, a reanotação genômica - o processo no qual anota-se novamente uma proteína usando

um banco de dados mais recente - é uma atividade cada vez mais necessária e explorada em

(6)

A maioria dos trabalhos que abordam a reanotação genômica preocupa-se apenas em

reanotar as proteínas de um organismo e comparar os resultados obtidos com os resultados

originais, apontando as evoluções e os erros encontrados. Na primeira parte desse trabalho,

abordou-se a anotação genômica através de um enfoque temporal. Buscou-se entender de que

forma o crescimento constante dos bancos de dados biológicos afeta a anotação genômica

através de análises quantitativas e qualitativas a respeito dessa relação direta entre os dois. A

principal conclusão dessa primeira parte é a confirmação de que a medida que os bancos de

dados aumentam de tamanho (por isso, o enfoque temporal), os alinhamentos entre seqüências

alvo (seqüências de entrada do BLAST) com as seqüências depositadas nos bancos aumentam

em similaridade. Isso foi medido através do bit-escore dos alinhamentos. Porém, duas

constatações foram encontradas. Primeiro, a taxa de aumento na similaridade é muito inferior

à taxa de aumento no tamanho dos bancos de dados, tendendo a uma saturação. Segundo, o

aumento da quantidade de seqüências e conseqüentemente o aumento na similaridade entre

seqüências não garantem automaticamente uma melhora na qualidade da anotação funcional.

Na segunda parte do trabalho, foram feitos estudos acerca de fontes de erro na

anotação genômica. São sugeridos procedimentos para melhor interpretar os resultados do

BLAST, incluindo um estudo do comportamento do parâmetro do BLAST conhecido como

bit-escore, o qual pode ser usado preferencialmente ao invés do E-Value.

(7)

Abstract

Genomics is a recent discipline that refers to the molecular characterization of entire

genomes. Bioinformatics is an interdisciplinary field that uses computational methods to

analyze biological sequence data generated from genomics with the aim to predict their

function and structure.

Genomic annotation is a process that consists in the addition of bioinformatics

analyses to generate biological interpretations concerning raw DNA sequences. The

determination or prediction of an amino acid sequence function, called functional annotation,

is one of the fields of genomic annotation. The prediction of protein function is generally

done based on confrontation with protein sequences already characterized and stored in

biological databases, which is often done with the aid of similarity search programs, such as

BLAST

Genomics generates a huge amount of data that is stored in biological databases,

which provide the comparative pillar for functional annotation. Nowadays, the growth rate of

these databases is exponential, making the functional annotation activity very dynamic. For

this reason, the genomic re-annotation (the task that consists to annotate again a protein using

a more recent database) is an increasingly important procedure that has been exploited in

many studies.

In this study we try to identify and evaluate factors affecting the quality of genomic

annotation. In the first half of this work, we made a temporal approach to analyze how the

constant growth of biological databases affects the genomic annotation. The main conclusion

of this part is the observation that the database growth seemed to reach a saturation level in

terms of providing sequences suitable for annotation. Therefore the increase in database size

(8)

Finally, we evaluated the quality of an automatic re-annotation of Chlamydia

trachomatis genome, assessing its protocols, performance, sources of errors, and studying

BLAST parameters in order to optimize the procedure.

(9)

Sumário

RESUMO ... v

ABSTRACT ... vii

1. INTRODUÇÃO... 14

1.1. GENÔMICA... 14

1.2. BIOINFORMÁTICA... 15

1.2.1. O Caráter multidisciplinar da bioinformática... 18

1.2.2. Genômica e bioinformática no Brasil... 19

1.2.3. Bioinformática na industria farmacêutica e agricultura ... 20

1.3. BANCOS DE DADOS BIOLÓGICOS... 21

1.3.1. Bancos de dados de nucleotídeos ... 21

1.3.2. Bancos de dados de proteínas ... 22

1.4. COMPARAÇÃO DE PROTEÍNAS POR SIMILARIDADE DE SEQÜÊNCIA X ESTRUTURA... 28

1.4.1. Termos usados para comparar seqüências e estruturas de proteínas ... 29

1.5. EVOLUÇÃO DIVERGENTE E CONVERGENTE... 33

1.5.1. A evolução produziu um número relativamente limitado de dobramentos de proteínas e mecanismos catalíticos ... 33

1.5.2. Proteínas que diferem na seqüência e estrutura podem ter convergido para sítios ativos, mecanismos catalíticos e funções bioquímicas similares ... 34

1.5.3. Proteínas com baixa similaridade de seqüência mas estrutura e sítios ativos similares são provavelmente homólogos ... 34

1.5.4. Casos de evolução convergente e divergente são, às vezes, difíceis de distinguir ... 35

1.5.5. Evolução divergente pode produzir proteínas com similaridade de seqüência e estrutura mas com diferenças nas funções ... 36

1.6. ALINHAMENTO E COMPARAÇÃO DE SEQÜÊNCIAS... 37

1.6.1. Alinhamento global e local... 39

1.7. FERRAMENTAS DE BIOINFORMÁTICA PARA BUSCA EM BANCO DE DADOS... 40

1.7.1. FASTA e BLAST ... 40

1.7.2. PSI-BLAST e RPS-BLAST ... 44

1.7.3. Arquivos no formato FASTA... 45

1.7.4. Problemas e armadilhas do BLAST... 45

1.7.5. HMMER... 49

1.8. ANOTAÇÃO GENÔMICA... 49

1.8.1. Anotação em nível de nucleotídeos... 49

1.8.2. Anotação em nível de proteínas... 52

1.8.3. Anotação em nível de processo... 56

1.8.4. Reanotação genômica... 57

1.9. ERROS E LIMITAÇÕES EM ANOTAÇÃO FUNCIONAL DE PROTEÍNAS... 58

1.10. ONTOLOGIA... 60

(10)

1.10.2. Nomenclatura de enzimas ... 63

1.11. A FAMÍLIA CHLAMYDIAE... 64

1.11.1. Chlamydia trachomatis... 65

1.11.2. Anotação manual da Chlamydia trachomatis... 66

2. OBJETIVOS DO TRABALHO... 68

3. MÉTODOS... 69

3.1. OBTENÇÃO DOS DADOS DA CHLAMYDIA TRACHOMATIS... 69

3.2. MÉTODOS PARA OBTENÇÃO DOS DADOS PARA A ANÁLISE TEMPORAL DA ANOTAÇÃO GENÔMICA... 69

3.2.1. Obtenção das versões antigas do Swiss-Prot ... 70

3.2.2. Seleção das 8 versões do Swiss-Prot e procedimentos para preparar os arquivos para serem usados pelo BLAST ... 71

3.2.3. Execução do BLAST ... 72

3.3. COMPARAÇÃO ENTRE ANOTAÇÃO FINAL E “MELHORES HITS” DO BLAST ... 73

3.4. PESQUISA POR DOMÍNIOS DE PROTEÍNAS... 73

4. RESULTADOS ... 75

4.1. ANÁLISE DA EVOLUÇÃO DA ANOTAÇÃO GENÔMICA USANDO BANCOS DE DADOS ANTIGOS... 75

4.1.1. Análise quantitativa da evolução da anotação genômica ... 76

4.1.2. Análise qualitativa da evolução da anotação genômica ... 84

4.1.3. Contribuição de organismos para os “hits” do BLAST ... 87

4.2. ANÁLISE ESTÁTICA DE FONTES DE ERRO NA ANOTAÇÃO GENÔMICA... 91

4.2.1. Hits com E-Value não conclusivo mas com anotação correta ... 94

4.2.2. Hits com E-Value significativo mas com anotação incorreta... 99

4.2.3. Funcionalidade x função de proteínas... 104

4.2.4. Estimativa de limiar para uso do bit-escore... 105

4.2.5. Reanotação das ORFs da categoria “sem anotação final” ... 107

4.2.6. Valores de bit-escore na zona de incerteza ... 111

4.2.7. Outros problemas de ontologia ... 116

4.3. OUTROS RESULTADOS... 117

4.3.1. O uso de banco de dados não curados ... 117

4.3.2. Erros de atualização de anotação entre versões do Swiss-Prot ... 118

5. CONCLUSÃO E DIRECIONAMENTOS FUTUROS... 120

5.1. EVOLUÇÃO DA ANOTAÇÃO GENÔMICA... 120

5.2. BLAST COMO FERRAMENTA AUXILIAR NA ANOTAÇÃO... 122

5.3. PROBLEMAS E ERROS NA ANOTAÇÃO FUNCIONAL COMPUTACIONAL... 123

5.3.1. Ontologia... 123

5.3.2. Pequena quantidade de proteínas anotadas experimentalmente... 123

5.3.3. Alternativas para uma anotação genômica mais precisa ... 124

(11)

Figuras

Figura 1: Crescimento exponencial do GenBank... 18

Figura 2: Exemplo de formato de um registro do Swiss-Prot ... 25

Figura 3: Representação de domínios no Pfam ... 26

Figura 4: Homologia ... 32

Figura 5: Diagrama de fita da estrutura de um monômero de benzoilformate descarboxilase (BFD) e piruvato descarboxilase (PDC)... 35

Figura 6: Superposição das estruturas tridimensionais das moléculas: steroid-delta-isomerase, fator de transporte nuclear-2 e scytalone desidratase... 37

Figura 7: Exemplo de alinhamento global entre duas seqüências ... 39

Figura 8: Exemplo de alinhamento local entre duas seqüências ... 40

Figura 9: Algoritmo do BLAST ... 43

Figura 10: Exemplo de arquivo no formato FASTA com 2 registros ... 45

Figura 11: Percentual de similaridade de função de acordo com o E-Value... 48

Figura 12: Relação entre similaridade de seqüência e similaridade de função. ... 53

Figura 13: Análise das funções de seqüências codantes do genoma da levedura.... 54

Figura 14: Relacionamentos evolucionários nas Chlamydiales. ... 65

Figura 15: Filogenia baseada no TTSS ... 66

Figura 16: Método principal utilizado para a análise temporal da anotação genômica ... 70

Figura 17: Histograma dos bit-escores dos bancos de dados representativos ... 78

Figura 18: Enquadramento das proteínas geradoras de alinhamento com bit-escore em torno de 50 e acima de 150 nos bancos de dados DB1 e DB4. ... 80

Figura 19: Análise de componentes principais das séries compostas pelos 893 bit-escores do BLAST contra os bancos DB1 a DB8... 84

Figura 20: Comparação qualitativa da evolução da anotação ao longo do tempo ... 86

Figura 21: Evolução dos 5 organismos que mais contribuíram para os “melhores hits” do BLAST.... 89

Figura 22 a) Comparação entre os “hits” de BLAST de seqüências dos genomas de B. subtilis e E. coli contra seqüências de C. trachomatis. b) Comparação de seqüências dos genomas de C. muridarum e C. pneumoniae contra seqüências de C. trachomatis. ... 90

Figura 23: Distribuição dos resultados em 4 categorias... 93

Figura 24: Resultados do programa CD-Search mostrando a similaridade da ORF 3328739 de C. trachomatis com a família SecE (Preprotein translocase subunit SecE) no banco COG... 98

Figura 25: Resultados do programa CD-Search mostrando a similaridade da ORF 3329239de C. trachomatis com o domínio Acyltransferase no banco PFAM. ... 98

Figura 26: Representação dos domínios encontrados pelo CD-Search para a cadeia A da proteína em análise. ... 104

(12)

Figura 28: Histograma dos bit-escores das categorias “conferem” e “não conferem”... 107

Figura 29: Relação entre E-Value e quantidade de proteínas hipotéticas. Verifica-se que proteínas com E-Value >10e-4 possuem alto percentual de proteínas não hipotéticas... 111

Figura 30 : Pesquisa por uma proteína no sítio do NCBI... 113

Figura 31: Resultado do BLAST para a seqüência gi=3328865 ... 113

Figura 32: Resultado do alinhamento local usando o programa “blast2seq” ... 114

Figura 33: Resultado da busca por domínios conservados para a ORF 3328865 ... 115

(13)

Tabelas

Tabela 1: Dados e tópicos de bioinformática (2004) ... 16

Tabela 2: Família de programas BLAST-NCBI... 44

Tabela 3: Lista dos banco de dados selecionados ... 72

Tabela 4 : Contribuição, por espécie, para o “melhor hit” do BLAST em cada banco de dados (em quantidade de “melhores hits”)... 87

Tabela 5: “Melhores hits” com E-Value acima do limiar mas com anotação correta... 95

Tabela 6: “Melhores hits” com E-Value significativo mas com anotação incorreta... 99

Tabela 7: Estatística das 4 categorias (valores de bit-escore) ... 106

Tabela 8: Resultado parcial do BLAST contra o TrEmbl. Os registros marcados com ► são os registros nos quais a anotação pode ser aproveitada para as ORFs que não tinham anotação final. ... 108

Tabela 9: Resultado BLAST contra o TrEmbl (seqüências com bit-escore entre 70 e 100). Os candidatos para investigação detalhada tem a marca “►“ ... 111

Tabela 10: Exemplos de problema de ontologia ... 116

(14)

1. Introdução

1.1. Genômica

A genômica é uma disciplina recente da Biologia que diz respeito à caracterização

molecular de genomas na sua totalidade. Para isso, técnicas experimentais especiais foram

desenvolvidas para tratar a difícil tarefa de manipular e caracterizar a grande quantidade de

dados. A genômica pode dividida em duas vertentes principais: genômica estrutural,

caracterizando a natureza física de genomas completos e genômica funcional, caracterizando

as regiões codificadoras e padrões globais de expressão de genes (Griffiths et al., 1999). A

caracterização de genomas completos é importante por duas razões. Primeiro, proporciona

uma maneira de se obter uma visão global da arquitetura genética de um organismo e,

segundo, provê todos os dados para a descoberta de novos genes, como por exemplo, os que

estão envolvidos em doenças. Por outro lado, a caracterização somente de seqüências

expressas fornece uma representação dos componentes funcionais que são determinantes para

a fisiologia celular em um determinado instante (Brown, 2002).

Durante a década passada, mais de 800 organismos foram objeto de projetos de

seqüenciamento de genoma. Hoje, tem-se disponível as seqüências completas de DNA do

genoma de mais de 100 espécies de bactérias e árqueo bactérias, incluindo alguns patógenos

importantes e três leveduras, entre elas a Saccharomyces cerevisiae. Também existem seqüências de genomas parciais ou completos de parasitas protozoários como o Plasmodium

falciparum, causador da malária. Entre os organismos multicelulares, os genomas da

Caenorhabditis elegans (nematóide), da Drosophila melanogaster (mosca de fruta) e as

plantas Arabidopsis thaliana e o arroz também já foram totalmente sequenciados. O genoma

Humano está atualmente completamente terminado, bem como o de Mus musculus

(15)

A genômica também está gerando uma crescente contribuição ao estudo da estrutura e

função de proteínas. Os programas de seqüenciamento de genoma estão gerando grande

quantidade de seqüências inferidas de aminoácidos de função desconhecida. Ao mesmo

tempo, muitas ferramentas experimentais e computacionais estão disponíveis para comparar

essas seqüências com outras de função conhecida. Também existem esforços para predizer a

estrutura tridimensional dessas estruturas, suas localizações sub celulares, seus parceiros de

interação. Entretanto, a comparação de seqüência e estrutura, geralmente fornece informações

limitadas. A caracterização completa de uma proteína na célula ou organismo sempre

requererá investigações experimentais adicionais nas proteínas purificadas in vitro assim

como estudos in vivo (Petsko e Ringe, 2003).

1.2. Bioinformática

A bioinformática tem várias definições. De forma geral mas não ampla, a

bioinformática é uma área interdisciplinar envolvendo biologia, informática, matemática e

estatística com o objetivo de analisar dados de seqüências biológicas e predizer a função e

estrutura de macromoléculas biológicas. Uma das formas de definir bioinformática é explicar

os seus objetivos. Primeiramente visa organizar dados de uma maneira que permita aos

pesquisadores acessar as informações existentes e submeter novos dados assim que são

produzidos. Essa quantidade de dados é cada vez maior, tanto de proteínas quanto de ácidos

nucléicos (vide figura 1 na página 18). Entretanto, as informações armazenadas em banco de

dados por si só não são muito úteis se não forem analisadas. Portanto, um segundo objetivo da

bioinformática é desenvolver ferramentas e recursos que ajudem na análise dos dados. Desse

modo, os biólogos moleculares podem passar a utilizar ferramentas computacionais capazes

de analisar grandes quantidades de dados biológicos, de predizer funções dos genes e de

demonstrar relações entre genes e proteínas. O terceiro objetivo é usar essas ferramentas para

(16)

Tradicionalmente, estudos biológicos examinavam sistemas individuais em detalhes e

comparavam os estudos com poucos outros relacionados. Com a bioinformática, podemos

conduzir análises globais de todos os dados disponíveis com o objetivo de desvendar

princípios comuns que se aplicam em vários sistemas e destacar novas características. A tabela

1 lista os tipos de dados que são analisados em bioinformática e o espectro de tópicos que

fazem parte do campo (Luscombe et al., 2001).

Tabela 1: Dados e tópicos de bioinformática (2004)

Fonte de dados Tamanho dos dados Tópicos da bioinformática

Seqüências brutas de DNA ~30 milhões de seqüências, 36 bilhões de bases

• Separação de regiões codantes e não codantes

• Identificação de íntrons e éxons

• Predição de produtos gênicos

• Análises forenses

Seqüência de proteínas ~900000 seqüências (~300

aminoácidos cada)

• Algoritmos de comparação de

seqüências

• Anotação funcional de proteínas

• Alinhamento múltiplo de

seqüências

• Identificação de seqüências de

motivos conservadas

Estrutura de macromoléculas ~26000 estruturas (~1000

coordenadas atômicas cada)

• Predição de estrutura secundaria, terciária

• Algoritmos de alinhamento de

estrutura 3D

• Medições de geometria de

proteínas

• Cálculo de volume e forma da

superfície

• Interações inter moleculares

• Simulações moleculares (cálculo

de campos de força, movimentos moleculares e predição de “docking”)

Genomas 100 genomas completos (1,6

milhão a 3 bilhões de bases cada)

• Caracterização de repetições

• Designação estrutural aos genes

• Análises filogenéticas

• Caracterização de vias metabólicas

• Análise de relação de genes

específicos com doenças

Expressão gênica • Correlação de padrões de

expressão

• Mapeamento de dados de

expressão para dados bioquímicos, de seqüência, e de estrutura. Literatura

Vias metabólicas

11 milhões de citações • Bibliotecas digitais para busca

automatizada de bibliografia

(17)

O auxílio no seqüenciamento de genomas foi uma das primeiras áreas em que a

bioinformática foi utilizada. Os seqüenciadores automáticos de DNA têm limitações técnicas

que os impedem de seqüenciar regiões maiores que 1000 bases por vez. Desta forma, para

viabilizar o seqüenciamento completo do genoma, deve-se, primeiramente, tratar o DNA das

células de forma a criar inúmeros fragmentos. Esses fragmentos devem ser individualmente

seqüenciados e, posteriormente, montados com o auxílio da bioinformática, como verdadeiras

peças de um quebra-cabeça (Luscombe et al., 2001).

O papel da bioinformática no auxílio para a decodificação de um gene é de suma

importância devido à velocidade com que a tarefa pode ser realizada. O Genoma Humano,

inicialmente previsto para ser desenvolvido e concluído em 15 anos, acabou sendo antecipado

em cerca de 5 anos, tendo sido dado por decifrado, em seus aspectos essenciais, em 2000. Um

novo gene, com cerca de 12 mil pares de bases, pode ter sua seqüência decifrada em 1 minuto,

quando há 4 anos atrás a mesma tarefa levaria 20 minutos e há 20 anos, em torno de 1 ano

(Vogt, 2003).

O resultado final foi o imenso acúmulo de seqüências sem a contrapartida funcional. A

disponibilidade das seqüências é um avanço significativo, mas por si só não é garantia que se

possa entender o funcionamento do organismo, mesmo no caso dos genomas completos. Isto

se deve, primariamente, ao fato dos sistemas biológicos serem extremamente complexos,

onde cada gene participa de uma rede intrincada de interações. Atributos como

não-linearidade, contextualidade e plasticidade caracterizam o papel dos genes na célula. A

conseqüência mais importante é o fato que para se determinar a função de um gene se fazem

necessários uma série de procedimentos experimentais, que, em sua maioria, requerem uma

grande parcela de tempo. Por isso, e também pelo fato de que seqüências acumuladas sem

interpretação não terem muito valor, a anotação genômica ganhou importância nos últimos

(18)

A figura 1 fornece uma amostra do ritmo de crescimento da deposição de dados no

banco de dados GenBank, um dos principais bancos de dados de seqüências de nucleotídeos

(Benson et al., 2004).

Figura 1: Crescimento exponencial do GenBank

(fonte: <http://www.ncbi.nlm.nih.gov/Genbank/genebankstats.html>)

1.2.1. O Caráter multidisciplinar da bioinformática

Assim, como outras áreas emergentes de trabalho, a bioinformática se enquadra em

um contexto onde o problema não é hardware, nem software, mas peopleware, ou seja,

formação de pessoal qualificado na área. Um profissional de bioinformática bem colocado

precisa ter um bom conhecimento em ciência da computação e conhecer os princípios da

biologia molecular e as diferentes técnicas de bancada nos diferentes domínios onde a

bioinformática se faz necessária. Algumas das áreas da computação mais utilizadas pela

bioinformática são: banco de dados, inteligência artificial e computação paralela. Da biologia,

são usados principalmente conhecimentos de biologia molecular, biofísica, bioquímica e

(19)

1.2.2. Genômica e bioinformática no Brasil

No Brasil, a área iniciou a partir dos diversos projetos do Programa Genoma

patrocinados pela Fapesp (Fundação de Amparo à Pesquisa de São Paulo), reunidos desde

maio de 1997 na Rede Onsa (sigla, em inglês, para “Organization for Nucleotide Sequencing

and Analysis”). Com a Rede Onsa, foram estabelecidas as bases para o funcionamento de um

instituto virtual e dinâmico que congregou, inicialmente, cerca de 30 laboratórios de

diferentes instituições do estado de São Paulo, e que hoje, com uma participação cada vez

maior de novos grupos de pesquisa em novos projetos, acabou por consolidar uma nova

concepção do desenho institucional da pesquisa no país.

A bioinformática esteve presente como instrumento indispensável nos projetos do

genoma da Xylella fastidiosa, da Cana, do Genoma Humano do Câncer, do genoma Clínico

do Câncer, do genoma Xanthomonas, do Eucalipto, do Schistomona Mansoni, da bactéria

Leifsonia Xyli. Esses projetos fazem parte de um projeto abrangente dos Genomas

Agronômicos e Ambientais (AEG, sigla para o inglês Agronomical and Environmental

Genomics), criado em 2000, a partir do projeto feito em conjunto com o Departamento de

Agricultura dos EUA para o seqüenciamento de uma variante da Xylella fastidiosa. O

Genoma Bovino, anunciado mais recentemente, também marca as etapas dessas progressivas

conquistas científicas e tecnológicas da genômica no Brasil.

Desde o lançamento da Rede Onsa, vários centros de pesquisa e desenvolvimento em

bioinformática foram se constituindo e se consolidando em São Paulo, acompanhando a

espiral de crescimento da cultura genômica no país. Assim foi na Unicamp, na USP, na

Unesp, no Instituto Ludwig, no Laboratório Nacional de Computação Científica, no Rio de

Janeiro, na Universidade Federal de Pernambuco, na Federal de Minas Gerais, na Federal do

Rio Grande do Sul, na Universidade de Brasília e na Universidade Católica de Brasília. (Vogt,

(20)

Em particular, tem se verificado um grande crescimento científico na área genômica

no centro-oeste do Brasil. Instituições da região coordenam e participam de diversos projetos

genoma de alcance nacional ou regional, tais como os genomas do eucalipto (genolyptus), café, banana (promusa) e do fungo Paracoccidioidesbrasiliensis.

Quem aparece em primeiro lugar, em pesquisa, tecnologia e ensino em biotecnologia

são os Estados Unidos, representados pelo Centro Nacional de Informação Biotecnológica

(NCBI), seguido pela Inglaterra, através do Instituto Sanger, que faz parte do Instituto

Europeu de Bioinformática. Em seguida, no mesmo nível, vem a França (Instituto Pasteur), a

Alemanha (Heilderberg), a Suíça com seu Instituto Suíço de Bioinformática e o Japão com o

Banco de Dados de DNA (DDBJ). O Brasil, Cingapura e Índia, são os representantes mais

importantes de países em desenvolvimento que desenvolvem e investem em bioinformática.

1.2.3. Bioinformática na industria farmacêutica e agricultura

O setor farmacêutico foi o grande motor do desenvolvimento da bioinformática e

ainda hoje é o maior consumidor de bioinformática no mundo, respondendo por mais de 95%

dos recursos aí investidos. O processo de desenvolvimento de um medicamento inicia-se com

uma grande quantidade de moléculas potenciais. A cada fase, muitas delas são descartadas por

não atenderem às especificações necessárias. Ao final, apenas algumas terão restado, das

quais a mais adequada servirá de base para o medicamento. Às vezes não se identifica

nenhum candidato. Em qualquer caso, fica claro que grande parte dos gastos é empregada em

avaliar e testar substâncias que no final das contas serão descartadas. Estima-se que 75% do

custo de desenvolver um novo remédio é usado para pagar por todas as potenciais moléculas

descartadas. Se as empresas conseguirem eliminar precocemente uma molécula inadequada,

poderão então melhorar significativamente seu retorno comercial. É aí que a bioinformática se

faz presente. Permitindo a detecção de moléculas fadadas ao descarte, a bioinformática pode

guiar os pesquisadores na direção das mais promissoras. No Brasil, esse cenário ainda não

(21)

Embora a indústria farmacêutica seja a maior demandante de bioinformática, o setor

da agricultura e pecuária está ganhando forte impulso como utilizador de técnicas

moleculares, especialmente para melhoramento genético. Nesta arena, o Brasil saiu na frente,

pois enquanto os países mais ricos empregavam grande parte dos seus investimentos no setor

de saúde humana, deixando à margem os desenvolvimentos na área agrícola, aqui foram

lançados programas com o objetivo inicial de desvendar a seqüência genética de organismos

de interesse para as culturas nas quais o Brasil é líder mundial (Meidanis, 2003).

1.3. Bancos de dados biológicos

Bancos de dados biológicos podem conter, entre outras, informações sobre a

seqüência, estrutura, e função de biomoléculas. Além dos organismos modelos citados

anteriormente, milhares de outros tiveram regiões seqüenciadas e depositadas em bancos de

dados públicos. Os bancos de dados estão crescendo continuamente (vide figura 1) e

armazenam informações muito úteis para os pesquisadores.

1.3.1. Bancos de dados de nucleotídeos

O banco de dados GenBank (Benson, et al., 2004) contém seqüências de DNA

disponíveis publicamente de mais de 140.000 organismos diferentes. Essas seqüências são

obtidas principalmente através de submissões de dados de seqüência de laboratórios

individuais e submissões em lotes de projetos de seqüenciamento de grande escala. O

GenBank é mantido pelo “National Center for Biotechnology Information” (NCBI), uma

divisão do “National Library of Medicine” (NLM), localizado no campus do “US National

Institutes of Health” (NIH) em Bethesda (EUA). Este banco mantém uma colaboração

internacional com outros dois bancos de dados: EMBL na Inglaterra (Stoesser et al., 2002) e

DDBJ (DNA Data Bank of Japan), a qual inclui uma troca diária de dados entre os três bancos

para que se mantenham sincronizados. Em agosto de 2003, o GenBank continha mais de 33.9

(22)

espécies estão representadas e novas são adicionadas a uma taxa de mais 1.700 por mês.

Aproximadamente 26% das seqüências são de origem humana. Depois do Homosapiens, as

espécies que mais aparecem são: Mus musculus, Rattus norvegicus, Danio rerio, Oryza sativa, Drosophilamelanogaster, Zeamays, Arabidopsisthaliana e Gallusgallus.

O banco de dados não-redundante “nr” de nucleotídeos contém todos os registros do

próprio GenBank adicionados aos registros dos bancos de dados: EMBL, DDBJ e PDB

(Protein Data Bank) (Berman et al., 2000). Não contém, porém, seqüências de EST

(“Expressed Sequence Tags”), STS (“Sequence Tagged Site”), GSS (“Genome Survey

Sequence”) e HTGS (“High Throughput Genomic Sequences”). O banco EST (Boguski et al.,

1993) contém “expressed sequence tags”. O GSS contém leituras aleatórias de fragmentos

genômicos e seqüências de cosmídeos, BAC e YAC.

1.3.2. Bancos de dados de proteínas

Projetos de seqüenciamento de genoma levaram a um rápido aumento na quantidade

de informação acerca de seqüência de proteínas. Dentre os vários bancos de dados de

proteínas, são listados, a seguir, os bancos de dados que foram usados nesse trabalho.

1.3.2.1. Swiss-Prot e TrEmbl

O banco de dados Swiss-Prot (Boeckmann et al., 2003) contém seqüências de

aminoácidos em conexão com o conhecimento atual das ciências naturais. O SwissProt é

curado por um grande número de especialistas e, por isso, torna-se um banco com

informações mais confiáveis. Cada registro de proteína provê uma visão geral interdisciplinar

de importantes informações trazendo, junto com o registro, resultados experimentais,

características computadas e, algumas vezes, até conclusões contraditórias. Outras

informações detalhadas que estão além do escopo do Swiss-Prot ficam disponíveis através de

ligações para banco de dados especializados. O Swiss-Prot provê registros anotados para

(23)

outros organismos modelos, a fim de assegurar a presença de anotações de alta qualidade de

membros representativos de todas as famílias de proteínas. Famílias e grupos de proteínas são

regularmente revisados para que se mantenham atualizados com os atuais descobrimentos

científicos. Complementarmente, o TrEMBL esforça-se em abranger todas seqüências de

proteínas que não estão ainda representadas no Swiss-Prot. Ao mesmo tempo em que é

necessário manter uma alta qualidade de anotação no Swiss-Prot, é também vital tornar as

seqüências disponíveis o mais rápido possível. Essa é a função do TrEMBL, que é formado

por registros anotados computacionalmente derivados da tradução de todas as seqüências

codantes (CDS) no banco de dados EMBL.

A figura 2 contém um exemplo do formato de um registro do Swiss-Prot. Cada linha

do registro tem um significado próprio. Dentre essas informações, as linhas que foram

extraídas e usadas nesse trabalho são:

• Linha ”ID” (Identificação): A linha “ID” é sempre a primeira linha no registro. Essa

linha contém três informações separadas por ponto-e-vírgula: O nome do registro, o tipo

de molécula (nesse caso o valor é sempre “PRT”; proteína) e o tamanho da proteína

(quantidade de aminoácidos).

• Linha “AC” (Número de acesso): O objetivo do número de acesso é prever uma maneira

estável de identificar os registros de versão para versão. A linha AC pode ter mais de

um número de acesso se os registros foram unidos ou separados. Por exemplo, quando

dois registros são unidos em um único, os números de acesso de ambos são mantidos

nessa linha. Se um registro é dividido em dois (uma ocorrência rara), os números de

acesso originais são mantidos nos novos registros criados e um novo número de acesso

é criado para ambos novos registros. Um número de acesso é eliminado somente

quando os dados aos quais ele designa forem completamente removidos do banco de

(24)

• Linha “DE” (descrição): Contém informações descritivas gerais sobre a seqüência

armazenada. Essa informação é geralmente suficiente para identificar a proteína com

precisão. A descrição tem formato livre e sempre começa com o nome proposto oficial.

Sinônimos são colocados entre parênteses (vide figura 2). Quando é sabido que uma

proteína é clivada em componentes multifuncionais, a descrição começa com o nome da

proteína precursora, seguida por uma seção delimitada por “[Contains:...]”. Todos os

componentes individuais são listados nessa seção. Quando é sabido que uma proteína

inclui domínios com múltiplas funções, com cada um deles descrito por um nome

diferente, a descrição começa com o nome da proteína total, seguido por uma seção

delimitada por “[Includes:]”. Todos os domínios são listados nessa seção. Em casos

raros, os domínios funcionais de uma proteína são clivados, mas a atividade catalítica só

pode ser observada quando as cadeias individuais reorganizam-se em um complexo.

Essas proteínas são descritas na linha “DE” por uma combinação de “[Includes:...]” e

“[Contains:...]”.

• Linha “OS” (espécie do organismo): especifica o(s) organismo(s) que foi (foram) a

fonte da seqüência armazenada. A designação da espécie consiste, na maioria dos casos,

pela designação em latim da espécie seguida do nome em Inglês entre parênteses. No

caso de vírus, somente o nome em Inglês é fornecido.

O registro é sempre terminado por uma linha com “//”.

ID KPYK_CHLMU STANDARD; PRT; 481 AA. AC Q9PK61;

DT 16-OCT-2001 (Rel. 40, Created)

DT 16-OCT-2001 (Rel. 40, Last sequence update) DT 15-MAR-2004 (Rel. 43, Last annotation update) DE Pyruvate kinase (EC 2.7.1.40) (PK).

GN PYK OR TC0609. OS Chlamydia muridarum.

OC Bacteria; Chlamydiae; Chlamydiales; Chlamydiaceae; Chlamydia. OX NCBI_TaxID=83560;

RN [1]

RP SEQUENCE FROM N.A. RC STRAIN=MoPn / Nigg;

RX MEDLINE=20150255; PubMed=10684935;

RA Read T.D., Brunham R.C., Shen C., Gill S.R., Heidelberg J.F.,

RA White O., Hickey E.K., Peterson J., Utterback T., Berry K., Bass S., RA Linher K., Weidman J., Khouri H., Craven B., Bowman C., Dodson R., RA Gwinn M., Nelson W., DeBoy R., Kolonay J., McClarty G., Salzberg S.L., RA Eisen J.A., Fraser C.M.;

(25)

RT pneumoniae AR39.";

RL Nucleic Acids Res. 28:1397-1406(2000).

CC -!- CATALYTIC ACTIVITY: ATP + pyruvate = ADP + phosphoenolpyruvate. CC -!- COFACTOR: Requires magnesium and potassium.

CC -!- PATHWAY: Glycolysis; final step. CC -!- SUBUNIT: Homotetramer (By similarity).

CC --- CC This SWISS-PROT entry is copyright. It is produced through a collaboration CC between the Swiss Institute of Bioinformatics and the EMBL outstation - CC the European Bioinformatics Institute. There are no restrictions on its CC use by non-profit institutions as long as its content is in no way CC modified and this statement is not removed. Usage by and for commercial CC entities requires a license agreement (See http://www.isb-sib.ch/announce/ CC or send an email to license@isb-sib.ch).

CC --- DR EMBL; AE002329; AAF39440.1; -.

DR PIR; F81684; F81684. DR HSSP; P14178; 1E0T. DR TIGR; TC0609; -.

DR InterPro; IPR001697; Pyruvate_kinase. DR Pfam; PF00224; PK; 1.

DR PRINTS; PR01050; PYRUVTKNASE.

DR ProDom; PD001009; Pyruvate_kinase; 1. DR TIGRFAMs; TIGR01064; pyruv_kin; 1.

DR PROSITE; PS00110; PYRUVATE_KINASE; FALSE_NEG.

KW Transferase; Kinase; Glycolysis; Magnesium; Complete proteome. FT ACT_SITE 219 219 By similarity.

FT METAL 221 221 Magnesium (By similarity). FT METAL 242 242 Magnesium (By similarity). FT METAL 243 243 Magnesium (By similarity). SQ SEQUENCE 481 AA; 53175 MW; 9222E5DAED557B51 CRC64; MIARTKIICT IGPATNTPEM LEKLLDAGMN VARLNFSHGT HESHGRTIAI LKELREKRQV PLAIMLDTKG PEIRLGQVES PIKVKPGDRL TLTSKEILGS KEAGVTLYPS CVFPFVRERA PVLIDDGYIQ AVVVNAQEHL IEIEFQNSGE IKSNKSLSIK DIDVALPFMT EKDITDLKFG VEQELDLIAA SFVRCNEDID SMRKVLENFG RPNMPIIAKI ENHLGVQNFQ EIAKASDGIM IARGDLGIEL SIVEVPALQK FMARVSRETG RFCITATQML ESMIRNPLPT RAEVSDVANA IHDGTSAVML SGETASGTYP IEAVKTMRSI IQETEKSFDY QAFFQLNDKN SALKVSPYLE AIGASGIQIA EKASAKAIIV YTQTGGSPMF LSKYRPYLPI IAVTPNRNVY YRLAVEWGVY PMLTSESNRT VWRHQACVYG VEKGILSNYD KILVFSRGAG MQDTNNLTLT TVNDVLSPSL E

//

Figura 2: Exemplo de formato de um registro do Swiss-Prot

O Swiss-Prot e o TrEMBL são complementares e, juntos, formam um banco de dados

não redundante. O Swiss-Prot aumenta de tamanho continuamente quando novas seqüências

anotadas são adicionadas. O banco de dados TrEMBL diminui de tamanho assim que algumas

de suas seqüências são anotadas e movidas para o Swiss-Prot. Entretanto, uma característica

marcante do Swiss-Prot é que a sua taxa de crescimento é a menor entre os demais bancos

biológicos em função da necessidade de intervenção de diversos especialistas humanos para

construir uma entrada. Quatro vezes por ano, uma nova versão do TrEMBL é construída no

EBI. Nesse momento, o TrEMBL aumenta de tamanho pois ele passa a incluir todos os novos

registros que estavam acumulados desde a última versão. Swiss-Prot e TrEMBL

compartilham o mesmo sistema de números de acesso. Dessa forma, não existirá duplicação

(26)

mantém disponível na Internet, além da versão atual, as suas versões antigas. Essas versões

antigas foram muito úteis e foram usadas intensamente nesse trabalho.

1.3.2.2. PFAM

O Pfam (Protein families database of alignments and HMMs) é uma grande coleção de

alinhamentos múltiplos de seqüências e “Hidden Markov Models” cobrindo as mais comuns

famílias e domínios de proteínas (Beteman et al.,2002). HMM são modelos estatísticos que

capturam informações específicas da posição de quanto cada coluna do alinhamento é

conservada e quais os resíduos contidos. Para cada família em Pfam, pode-se consultar

alinhamentos múltiplos, ver a arquitetura de domínios de proteínas, examinar a distribuição de

espécies, olhar estruturas de proteínas conhecidas. Pfam pode ser usado para ver a

organização de domínios de proteínas. Um exemplo típico é mostrado na figura 3. Note que

uma única proteína pode pertencer a várias famílias do Pfam.

Figura 3: Representação de domínios no Pfam

Aproximadamente 74% das seqüências de proteínas conhecidas têm ao menos uma

entrada no Pfam. O Pfam tem duas partes: a primeira (Pfam-A) é a parte curada do banco de

dados contendo aproximadamente 7316 famílias de proteínas. A segunda parte (Pfam-B) é um

suplemento que contém um grande número de pequenas famílias adquiridas do banco de

dados PRODOM (Servant et al., 2002) as quais não têm sobreposição com Pfam-A. Embora

tenha menos qualidade, B pode ser útil quando nenhuma família é encontrada em

Pfam-A.

1.3.2.3. NR (Banco de dados não-redundante de proteínas) do NCBI

O banco de dados “nr” (non-redundant database) do NCBI reúne todas as traduções

(27)

(Berman et al., 2000), Swiss-Prot, PIR (Protein Information Resource, Wu et al., 2003) e PRF (Protein Research Foundation).

Cada seqüência protéica é identificada por um “protein id” no formato

“accession.version”, sistema esse que foi implementado pelo GenBank, EMBL, e DDBJ em

fevereiro de 1999. O “protein id” consiste de três letras seguidas por cinco dígitos, um ponto,

e o número da versão. Se ocorrer qualquer mudança na seqüência (mesmo em um único

aminoácido), o número da versão é incrementado, mas a porção de acesso (“accession”)

permanece estável (por exemplo, AAA98665.1 mudará para AAA98665.2).

Paralelamente, toda seqüência também é identificada por um “gi” (GenInfo Identifier).

O sistema GI de identificação de seqüências corre em paralelo com o sistema no formato

“protein id”. Portanto, se a seqüência protéica for modificada de qualquer modo, ela receberá

um novo numero GI e o sufixo do “protein id” será incrementado de um.

1.3.2.4. COG

O banco de dados COG (“Clusters of Orthologous Groups”) apresenta uma

classificação filogenética de proteínas de procariontes e eucariontes unicelulares. Os "COGs"

são derivados de comparação do tipo "todos contra todos" entre as seqüências das proteínas.

Cada COG consiste de proteínas individuais ou grupos de ortólogas de no mínimo três

linhagens e, portanto, é considerado como correspondente a um domínio ancestral

conservado. O banco de dados é projetado para dar suporte a pesquisa em evolução de

genomas assim como em anotação funcional. Também existe um banco chamado KOG que

consiste de “clusters” de ortólogos preditos de 7 genomas eucariontes.

A coleção COG consiste, atualmente, de 138.458 proteínas, as quais formam 4.873

COGs e compreendem 75% das 185.505 proteínas preditas codificadas em 66 genomas de

organismos unicelulares. Os grupos ortólogos de eucariontes (KOGs) incluem proteínas de 7

genomas eucariontes: Caenorhabditis elegans, Drosophila melanogaster e Homo sapiens,

(28)

Schizosaccharomyces pombe) e o parasita intracelular Encephalitozoon cuniculi. O KOG

atual consiste de 4.852 agrupamentos de ortólogos, os quais incluem 59.838 proteínas, ou

aproximadamente 54% dos 110.655 produtos gênicos de eucariontes analisados.

Exames nos padrões filéticos dos KOGs revelam um núcleo conservado representado

em todas as espécies analisadas e que consiste em ~20% do conjunto do KOG. Essa porção

conservada do KOG é muito maior do que a porção ubíqua do conjunto COG (~1% do COG).

Em parte, essa diferença é provavelmente devida a menor quantidade de genomas eucariontes

incluídos, mas também pode refletir a relativa compacidade e maior estabilidade

evolucionária dos genomas eucariontes (Tatusov et al., 2003).

1.3.2.5. Uniprot

O consórcio UniProt (Apweiler, 2004) é formado pelo EBI (“European Bioinformatics

Institute”), SIB (“Swiss Institute of Bioinformatics”) e PIR (“Protein Information Resource”).

Foi criado para unir as atividades dos bancos de dados Swiss-Prot, TrEMBL e PIR em um

novo recurso capaz de prover uma visão estável e compreensiva de seqüências e funções de

proteínas. Esse recurso é composto de três camadas: um arquivo de seqüências de proteínas,

uma base de conhecimentos e um banco de dados de referencias não redundante.

1.4. Comparação de proteínas por similaridade de seqüência x

estrutura

As proteínas podem ser comparadas com outras usando similaridade de seqüência ou

similaridade de estrutura. A primeira abordagem foi, historicamente, a primeira a ser usada. É

baseada em alinhamento de seqüências protéicas. Inicialmente, a busca por similaridade era

feita sobre toda a seqüência. Mais tarde, as proteínas começaram a ser analisadas na base de

ocorrências de padrões conservados de aminoácidos. Na comparação por similaridade de

(29)

conhecidas (Mount, 2001). Nesse trabalho, o enfoque é predominantemente baseado em

comparação por similaridade de seqüência.

1.4.1. Termos usados para comparar seqüências e estruturas de proteínas

Durante a comparação de seqüências, vários termos são usados para descrever relações

evolucionárias e estruturais entre proteínas. Nesse item, descrevemos os mais importantes.

Outros podem ser encontrados no sítio CATH (http://www.biochem.ucl.ac.uk

/bsm/cath/lex/glossary.html), no sítio SCOP (“Structural Classification of Proteins”)

encontrado em (http://pdb.wehi.edu.au/scop/gloss.html) e no tutorial situado no sítio do Swiss

Bioinformatics Institute (http://www.expasy.ch/swissmod/course/course-index.htm).

Principais termos:

• Sitio ativo: é uma combinação localizada de cadeias laterais de aminoácidos dentro

da estrutura terciária ou quaternária a qual pode interagir com um substrato químico

específico e que provê atividade biológica à proteína. Proteínas de diferentes

seqüências de aminoácidos podem formar estruturas que produzem sítios ativos

semelhantes.

• Blocos: (“blocks”) é um termo usado para descrever um padrão de seqüência de

aminoácidos conservado em uma família de proteínas. O padrão inclui uma série de

possíveis coincidências em cada posição nas seqüências representadas, mas não há

nenhuma posição inserida ou removida no padrão ou nas seqüências. Em contraste,

perfis de seqüência são um tipo de matriz de escores que representam um conjunto

similar de padrões que incluem inserções e remoções. Perfis HMMs são “Hidden

Markov Models” desse segundo tipo de padrão.

• Domínio (contexto de seqüência): Nesse contexto, o termo está associado à

homologia. Domínios homólogos referem-se a um padrão estendido de seqüência,

(30)

homólogo indica uma origem evolucionária comum dentre as seqüências alinhadas.

Um domínio é geralmente mais longo do que um motivo. O domínio pode incluir

uma porção ou a seqüência inteira da proteína. Alguns domínios são complexos e

feitos de diversos domínios homólogos menores que, durante a evolução, se ligam

formando domínios maiores.

• Domínio (contexto de estrutura): Refere-se a um segmento de uma cadeia

polipeptídica que pode formar uma estrutura tridimensional independente da

presença de outros segmentos da cadeia. Os domínios separados de uma proteína

podem interagir extensivamente ou podem estar conectados somente por uma

cadeia polipeptídica. Uma proteína com diversos domínios pode usá-los para

interações funcionais com diferentes moléculas.

• Família (contexto de seqüência): é um grupo de proteínas de função bioquímica

similar e que têm alta similaridade de seqüência. Uma família de proteínas engloba

proteínas com a mesma função em organismos diferentes (seqüências ortólogas)

mas também pode incluir proteínas do mesmo organismo derivadas de duplicação

de genes e rearranjos (seqüências parálogas). Famílias podem ser subdivididas em

subfamílias ou agrupadas em superfamílias em função do nível de alinhamento

obtido entre as seqüências. Quando seqüências de proteínas com a mesma função

são examinadas em detalhes, algumas compartilham alta similaridade de seqüência.

Elas são, obviamente, membros da mesma família de acordo com o critério acima.

Entretanto, outras têm pouca ou quase insignificante similaridade de seqüência com

os outros membros da família. Nesses casos, o relacionamento entre dois membros

distantes da família A e C pode ser demonstrado por um membro da família B que

compartilha similaridade significativa com ambos A e C. Assim, B provê uma

(31)

• Família (contexto de estrutura): refere-se a duas estruturas que em um nível

relevante de similaridade estrutural mas não necessariamente similaridade

significativa de seqüência.

• Motivo (“motif”; contexto de seqüência): refere-se a um padrão conservado de

uma seqüência pequena de aminoácidos que é encontrado em duas ou mais

proteínas. No catálogo do PROSITE (Hulo et al., 2004), um motivo é um padrão de

aminoácidos que é encontrado em um grupo de proteínas que têm uma atividade

bioquímica similar.

• Motivo (“motif”; contexto de estrutura): refere-se a uma combinação de diversos

elementos de estrutura secundária produzidos pelo dobramento de seções

adjacentes da cadeia do polipeptídio em uma configuração tridimensional

específica. Um exemplo é o motivo “helix-turn-helix”, encontrados em proteínas

que se ligam a DNA. Motivos de estrutura são também conhecidos como estruturas

supersecundárias.

• Perfil (“profile”; contexto de seqüência): É uma matriz de escores que representa

um alinhamento múltiplo de seqüências de uma família de proteínas. O perfil é

geralmente obtido de uma região bem conservada em um alinhamento múltiplo. O

perfil tem a forma de uma matriz em que cada coluna representa uma posição no

alinhamento e cada linha representa um aminoácido. Os valores da matriz dão a

probabilidade de cada aminoácido estar na posição correspondente no alinhamento.

Espaços (“gaps”) são permitidos durante o alinhamento e uma penalidade ao espaço

é incluída nesse caso como um escore negativo quando nenhum aminoácido

coincidente é encontrado. Um perfil de seqüência pode também ser representado

(32)

• Superfamília: é um grupo de famílias de proteínas que são relacionados por distante

mas ainda detectável similaridade de seqüência. Proteínas com poucas identidades

em um alinhamento de seqüências, mas com um convincente número de

características funcionais e estruturais em comum são colocadas na mesma

superfamília.

• Seqüências homólogas: São seqüências com similaridade atribuída devido à

descendência de um ancestral comum.

• Seqüências ortólogas: São seqüências homólogas em espécies diferentes que

advém de um gene ancestral comum durante a especiação. Podem ou não ser

responsável por uma função similar.

• Seqüências parálogas: São seqüências homólogas dentro da uma mesma espécie

que advém da duplicação de genes.

A figura 4 mostra um exemplo dessas últimas definições.

Gene ancestral da hemoglobina

Gene cadeia ß

Gene cadeia a

sapo a Chick a camun-_dongo_a camun-_dongo_ß Chick ß sapo ß

Duplicação gênica homólogos

parólogos

ortólogos ortólogos

Figura 4: Homologia

(33)

1.5. Evolução divergente e convergente

Evolução convergente é a evolução de estruturas, não relacionadas por antepassados,

para uma função em comum e que é refletida em uma estrutura semelhante. Evolução

divergente é evolução a partir de um ancestral comum.

1.5.1. A evolução produziu um número relativamente limitado de dobramentos

de proteínas e mecanismos catalíticos

Embora a quantidade total de atividades enzimáticas diferentes em qualquer célula

viva seja grande, elas envolvem um pequeno número de classes de transformações químicas.

Para cada uma dessas transformações, existe um número ainda menor de diferentes

mecanismos catalíticos através dos quais eles podem ser obtidos. Isso tudo sugere que a

maioria das enzimas deve estar relacionada na seqüência e estrutura com muitas outras de

mecanismos similares, mesmo que seus substratos sejam diferentes.

Duas proteínas com alta identidade de seqüência podem ser assumidas como terem

surgido através de evolução divergente de um ancestral em comum. Nesse caso, pode-se

predizer que terão estruturas muito parecidas ou até idênticas. Em geral, se a identidade entre

duas seqüências for maior do que aproximadamente 40% sem a necessidade de introduzir

muitos espaços no alinhamento e se essa identidade é espalhada ao longo das seqüências,

então a expectativa é de que elas codifiquem para proteínas com dobramento similar.

Entretanto, problemas em deduzir relações evolucionárias e em predizer função a partir da

seqüência e estrutura surgem quando a identidade é inferior a 40%. Além disso, mesmo

proteínas com identidade de seqüência maior que 90%, as quais devem ter estrutura e sítios

(34)

1.5.2. Proteínas que diferem na seqüência e estrutura podem ter convergido

para sítios ativos, mecanismos catalíticos e funções bioquímicas similares

A estrutura do sítio ativo determina a função bioquímica de uma enzima e, em muitas

proteínas homólogas, os resíduos do sítio ativo e a estrutura são conservados mesmo quando o

resto da seqüência divergiu a ponto de não ser mais reconhecida. Portanto, poderíamos supor

que todas proteínas com sítios ativos e mecanismos catalíticos similares fossem homólogas .

Entretanto, esse não é o caso. Se duas proteínas têm dobramentos muito diferentes e baixa

similaridade de seqüência, é provável que sejam exemplos de evolução convergente. Ou seja,

elas não divergiram de um ancestral comum mas apareceram independentemente e

convergiram na mesma configuração de sítio ativo como resultado de seleção natural de uma

função bioquímica particular. Exemplos claros de evolução convergente são encontrados entre

serino-proteases e aminotransferases.

1.5.3. Proteínas com baixa similaridade de seqüência mas estrutura e sítios

ativos similares são provavelmente homólogos

Pode ser difícil perceber homologia a partir da seqüência somente, porque seqüências

mudam mais rapidamente com a evolução do que a estrutura 3D (vide figura 5). De fato,

proteínas com nenhuma detecção de similaridade de seqüência, mas com as mesmas

estruturas e funções bioquímicas, já foram encontradas. Entre os numerosos exemplos estão

as glicosiltransferases, as quais transferem um monosacarídeo de um açúcar ativado doador

para um sacarídeo, proteína, lipídeo, DNA ou pequena molécula aceptora. Algumas

glicosiltransferases que operam em diferentes substratos e não têm similaridade de seqüência,

mas têm estruturas similares são tidos como terem um ancestral comum. Em alguns,

provavelmente a maioria, dos casos, baixa homologia de seqüência combinada com alta

similaridade de estrutura reflete conservação seletiva de resíduos funcionais importantes em

seqüências homólogas genuínos, mas altamente divergentes. Exemplos: mandelato racemase

(35)

similares. As reações que eles catalisam compartilham uma fase central. Essa fase é catalisada

da mesma forma pelas enzimas, implicando que elas provavelmente divergiram de um

ancestral comum.

1.5.4. Casos de evolução convergente e divergente são, às vezes, difíceis de

distinguir

Em alguns casos, existe equivalência espacial no sítio funcional, mas pouca ou

nenhuma conservação de seqüência dos resíduos de importância funcional. Nesses casos,

distinguir entre evolução convergente e divergente pode ser difícil. Por exemplo, as enzimas

benzoilformato descarboxilase (BFD) e piruvato descarboxilase (PDC) têm somente 21% de

identidade de seqüência mas têm, essencialmente, dobramentos idênticos (vide figura 5). As

cadeias laterais de aminoácidos catalíticos são conservadas na mesma posição espacial na

estrutura 3D, mas não na seqüência.

Figura 5: Diagrama de fita da estrutura de um monômero de benzoilformate descarboxilase (BFD) e piruvato descarboxilase (PDC).

(36)

É possível que as duas proteínas tenham evoluído independentemente e tenham

convergido para a mesma solução química para o problema de descarboxilar um

alfa-cetoácido. Mas, sua grande similaridade na estrutura seria vista como indicativo de terem

divergido de um ancestral comum. O nível de identidade de seqüência entre eles é, no entanto,

muito baixo para distinguir entre essas duas possibilidades com confiança (Petsko e Ringe,

2003).

1.5.5.Evolução divergente pode produzir proteínas com similaridade de seqüência

e estrutura mas com diferenças nas funções

Existem proteínas com funções bioquímicas muito diferentes mas que, apesar disso,

possuem muita similaridade tridimensional e suficiente identidade de seqüência para

pressupor homologia. Tais casos sugerem que a estrutura diverge mais lentamente do que a

função durante a evolução. Por exemplo, esteroid-delta-isomerase, fator de transporte

nuclear-2 e scitalone desidratase compartilham muitos detalhes estruturais (vide figura 6) e são

considerados homólogos, ainda que as duas enzimas, a isomerase e a desidratase, não tenham

resíduos catalíticos essenciais em comum. Isto sugere que são as características gerais da

cavidade do sítio ativo dessa proteína que têm a habilidade potencial de catalisar reações

químicas diferentes dados resíduos de sítios ativos diferentes. A terceira proteína desse

conjunto de homólogos, um fator de transporte nuclear-2, não é propriamente uma enzima,

mas sua cavidade contém resíduos que estão presentes nos sítios catalíticos de ambas

enzimas. Portanto, determinação de função, a partir da seqüência e estrutura, é complicado

pelo fato de proteínas com estrutura similar poderem não ter a mesma função mesmo quando

(37)

Figura 6: Superposição das estruturas tridimensionais das moléculas: steroid-delta-isomerase, fator de transporte nuclear-2 e scytalone desidratase.

A seta cinza indica o sítio ativo (pdb: 8cho, 1oun, 1std). Adaptado de Petsko e Ringe, 2003

1.6. Alinhamento e comparação de seqüências

A comparação de uma seqüência de nucleotídeos ou aminoácidos com outra a fim de

encontrar um grau de similaridade entre elas é uma técnica chave na biologia dos dias atuais.

Uma similaridade marcante entre duas seqüências de genes ou proteínas pode refletir o fato

delas serem derivadas por evolução da mesma seqüência ancestral. Seqüências relacionadas

dessa forma são chamadas de homólogas e a similaridade evolutiva entre elas é conhecida

como homologia (vide item “Termos usados para comparar seqüências e estruturas de

proteínas” na página 29). Seqüências da mesma proteína mas de espécies diferentes também

podem ser comparadas a fim de deduzir relações evolutivas. Dois genes que evoluíram

recentemente de um gene ancestral comum ainda terão relativa semelhança na seqüência.

Aqueles que têm um ancestral comum mais distante terão acumulado muito mais mutações, e

sua relação evolutiva será menos óbvia, ou até impossível de deduzir somente através da

(38)

Os casos práticos, abaixo listados, mostram a grande importância e utilidade da

comparação de seqüências para a biologia (Setúbal e Meidanis, 1997):

1. Temos duas seqüências do mesmo alfabeto e ambas têm aproximadamente o

mesmo comprimento (dezenas de milhares de caracteres). Sabemos que as duas

seqüências são praticamente iguais, com poucas e isoladas diferenças tais como

inserções, remoções e substituições de caracteres. A freqüência média dessas

diferenças é baixa, digamos, uma a cada cem caracteres. Queremos localizar os

lugares onde essas diferenças ocorrem. Problemas desse tipo ocorrem quando, por

exemplo, o mesmo gene é seqüenciado por dois laboratórios diferentes e queremos

comparar os resultados.

2. Temos duas seqüências com algumas centenas de caracteres cada uma. Queremos

saber se existe um prefixo de uma que seja similar a um sufixo de outra. Se a

resposta for sim, o prefixo e o sufixo envolvidos devem ser mostrados.

3. Temos o mesmo problema que na situação (2), mas dessa vez temos muitas

centenas de seqüências que devem ser comparadas, uma contra todas. Além disso,

sabemos a maioria desses pares de seqüências não estão relacionados, ou seja, têm

baixa similaridade. Problemas do tipo (2) e (3) surgem no contexto de montagem

de fragmentos em programas que auxiliam seqüenciamento de DNA em larga

escala.

4. Temos duas seqüências com poucas centenas de caracteres cada. Queremos saber

se existem duas sub-seqüências, uma de cada seqüência, que sejam similares.

5. Temos a mesma situação que em (4), mas, ao invés de duas seqüências, temos uma

seqüência e queremos compará-la com milhares de outras. Problemas do tipo (4) e

(5) ocorrem no contexto de busca por similaridades locais usando grandes bancos

(39)

Para todos esses casos, uma idéia única e básica de algoritmo pode ser usada para

resolver todos os problemas acima expostos. Algumas vezes, métodos menos generalistas,

porém mais rápidos, são melhores adaptados para cada caso.

1.6.1. Alinhamento global e local

Para se inferir o quanto duas seqüências são semelhantes utilizam-se métodos de

comparação de cadeias de símbolos, e que genericamente são conhecidos pela designação de

alinhamento de seqüência. O objetivo final é o de maximizar o número de coincidências entre

as duas seqüências de acordo com um sistema de pontuação (Setubal e Meidanis, 1997).

Existem dois tipos de alinhamento: global e local (Mount, 2001). No alinhamento global, é

feita uma tentativa de alinhar as seqüências completamente, usando o máximo de caracteres

possíveis em toda a extensão dessas. Seqüências que possuem alguma similaridade e

aproximadamente o mesmo tamanho são candidatas convenientes para alinhamento global.

Um dos algoritmos mais usados nesse caso é o algoritmo de Needleman e Wunsch

(Needleman e Wunsch, 1970), que é um algoritmo rigoroso utilizando a técnica de

programação dinâmica (Eddy, 2004), a qual tenta resolver problemas complexos através da

resolução de sub-conjuntos do problema inicial. A figura 7 mostra um pequeno exemplo de

um resultado desse alinhamento.

Figura 7: Exemplo de alinhamento global entre duas seqüências

Já em alinhamentos locais, trechos das seqüências com as mais altas densidades de

coincidências são alinhados, gerando uma ou mais ilhas de sub alinhamentos nas seqüências.

Alinhamentos locais são mais apropriados para alinhar seqüências que são similares ao longo

de um trecho de suas seqüências mas dissimilares em outros trechos, ou então, seqüências que

(40)

algoritmos mais conhecidos é o algoritmo de Smith-Waterman (Smith e Waterman, 1981).

Esse algoritmo também usa programação dinâmica e é matematicamente desenhado para

prover o melhor alinhamento local entre duas seqüências. A figura 8 ilustra um exemplo em

que o alinhamento local é mais apropriado. Na prática, muitas proteínas não apresentam um

padrão global de similaridade, mas apresentam-se como mosaicos de domínios modulares.

Alinhamentos globais não detectam esse aspecto. Em função desses aspectos, alinhamentos

locais são mais complexos que os globais e, portanto, seus algoritmos são mais lentos.

F2 E F1 E K Catalítico

F1 E K K Catalítico

F12

PLAT

F1, F2: Repetições de Fibronectin E:domínio similar EGF

K: domínio Kringle Catalitico: atividade de serine protease

F12: fator de coagulação XII PLAT: ativador de tecido plasminogen

Figura 8: Exemplo de alinhamento local entre duas seqüências

1.7. Ferramentas de bioinformática para busca em banco de dados

1.7.1. FASTA e BLAST

O programa FASTA (Pearson e Lipman, 1988) foi a primeira ferramenta usada

largamente para busca em banco de dados de nucleotídeos e proteínas. Já o programa BLAST

(“Basic Local Alignment Search Tool”) (Altschul et al., 1997) passou a ser mais utilizado

pois provê um método mais rápido de procura. BLAST é sem dúvida a ferramenta

computacional de referência para a busca de similaridade em bancos de dados de seqüências e

por conseqüência extensivamente utilizado na anotação genômica.

FASTA e BLAST também são algoritmos de alinhamento local. Pelo fato de usarem

heurísticas, eles são em torno de 50 a 100 vezes mais rápidos do que o algoritmo de