• Nenhum resultado encontrado

Bases de dados de informação biológica 24

3   Metodologias de Análise de Dados Biológicos 21

3.3   Bases de dados de informação biológica 24

Segundo um relatório anual publicado pela revista Nucleic Acid Research, no qual é efectuada uma compilação das bases de dados actuais relacionadas com a biologia celular e molecular, estavam disponíveis no final de 2009 1.230 bases de dados com essas características [58]. A mesma fonte refere que, para além do conjunto de dados existentes em cada base de dados, estes formam uma rede de partilha não só dos próprios dados mas também de ferramentas de processamento de dados, reforçando o objectivo de difusão de informação e de conhecimento.

25

Com um número tão alargado de bases de dados nesta área seria impossível descrever com pormenor cada uma delas, pelo que serão de seguida apresentadas apenas as que foram de alguma forma, a base do trabalho exposto no presente documento.

3.3.1 GenBank

A GenBank é uma base de dados que contém sequências de nucleótidos de mais de 300 mil organismos. Estes são obtidos principalmente através dos estudos e observações em larga escala. Diariamente é efectuada a sincronização de dados entre o GenBank, o EMBL-NSD (European Molecular Biology Laboratory Nucleotide Sequence Database) e o DDBJ, garantindo assim redundância em três centros mundiais [59]. O repositório GenBank é gerido e está acessível através do NCBI, conforme foi referido anteriormente. O volume de dados disponível no GenBank tem crescido exponencialmente (Figura 3.2), pelo que actualmente representará uma das maiores bases de dados de sequências de nucleótidos e de pares de bases de DNA em todo o mundo.

CRESCIMENTO DO GENBANK (1982-2008)

Figura 3.2: Crescimento da base de dados GenBank de 1982 a 2008 (Fonte de dados: http://www.ncbi.nlm.nih.gov/genbank/genbankstats.html)

De dois em dois meses são lançadas novas versões. No entanto, as actualizações são efectuadas diariamente e estão disponíveis por FTP e iniciando-se na página principal do NCBI [55].

26

3.3.2 OMIM

A base de dados OMIM (Online Mendelian Inheritance in Man), ao contrário do acontece com o GenBank, não contém dados biológicos. No entanto, a sua inclusão é essencial para os estudos efectuados sobre doenças genéticas no homem. Foi com base na documentação que sustenta a sua base de conhecimento, sobre genes humanos e doenças genéticas, que parte do trabalho descrito nesta dissertação, foi concretizado.

A OMIM é antes de mais uma base de dados documental, derivada da literatura biomédica e é suportada actualmente pelo NCBI conforme já foi referido, estando integrada com o sistema Entrez. Inicialmente começou por ser editada e impressa, tendo a sua primeira edição sido publicada em 1966 [60].

Cada registo no OMIM possui associado um resumo contendo informação sobre o fenótipo, gene(s), links para outras bases de dados genéticas, referências na PubMed, bases de dados de mutações gerais e locais, nomenclatura HUGO (Human Genome

Organisation), MapViewer, GeneTests, grupos de apoio a doentes entre muitas outras

referências [60-61].

3.3.3 KEGG

A KEGG (Kyoto Encyclopedia of Genes and Genomes) foi criada em 1995 e é a principal componente da GenomeNet, a maior rede japonesa de bases de dados e serviços relacionada como a investigação na área da genómica e ciências biomédicas, sendo gerida pelo centro de bioinformática da universidade de Kyoto. O sistema é um conjunto integrado de 16 bases de dados principais [62]. Estas encontram-se agrupadas em três grupos: informação sobre sistemas biológicos, informação genómica e informação química, conforme descrito Tabela 3.1 [63].

Do conjunto de bases de dados disponíveis no repositório KEGG, destacam-se a KEGG

Orthology e a KEGG Disease. A base de dados KEGG Orthology armazena, à data, os

genes ortólogos de 1402 organismos cujos genomas estão totalmente anotados (eukariotas: 139 + 17(draft), bactérias: 1152, arqueas : 94), contendo as relações que existem entre estes, nomeadamente a sua função metabólica. Quanto à KEGG Disease, é uma base de dados que armazena os dados relativos às doenças humanas, nos vários foros, que estão

27

relacionados com perturbações moleculares, independentemente da sua origem (vírus, bactérias, drogas, etc.), identificando os genes que estão envolvidos com essas patologias [62].

A KEGG possui uma extensa API para serviços Web. Esta permite, entre outros, o acesso aos dados de ortólogos, de doenças e vias metabólicas, através de aplicações desenvolvidas por terceiros, quer para a plataforma Web, quer para aplicações standalone.

Tabela 3.1: Bases de dados disponíveis na KEGG (fonte: adaptação de [63])

Categoria Base de Dados Conteúdo

Informação de Sistemas Biológicos

KEGG PATHWAY Vias metabólicas KEGG BRITE Hierarquias funcionais KEGG MODULE Módulos de vias metabólicas KEGG DISEASE Doenças humanas

KEGG DRUG Drogas e fármacos

Informação Genómica

KEGG ORTHOLOGY Grupos de Ortólogos (KO KEGG GENOME Organismos

KEGG GENES Genes em genomas de alta qualidade

KEGG SSDB Semelhança entre sequências e as suas relações KEGG DGENES Genes em genomas de baixa qualidade

KEGG EGENES Genes expressos em cDNA

Informação Química

KEGG COMPOUND Metabolitos e outras moléculas de pequena dimensão KEGG GLYCAN Mono e Poli-sacarídeos

KEGG REACTION Reacções bioquímicas

KEGG RPAIR Reagentes por transformação química KEGG ENZYME Nomenclatura de enzimas

Para além do acesso às bases de dados por programação usando os serviços Web, a KEGG

disponibiliza também o acesso via FTP1.

3.3.4 ENSEMBL

O ENSEMBL é um projecto que resulta da parceria entre o EMBL-EBI com o Wellcome

Trust Sanger Institute para desenvolver um sistema de software de forma a produzir e

manter uma base de dados de genes anotados relativos a genomas de organismos eucariotas. Este disponibiliza uma framework de bioinformática principalmente para

28

organizar e gerir genomas de grande dimensão. É uma das bases de dados que possui uma cópia actualizada e estável da anotação do genoma humano.

É um projecto de software opensource que disponibiliza para a comunidade científica um sistema versátil, capaz de lidar com genomas de grande dimensão. Por esse facto, tornou-se uma importante ferramenta ao nível da análise de sequências, do armazenamento de dados e visualização. Essa versatilidade permite que o ENSEMBL possa ser instalado em equipamentos que vão desde simples portáteis até super computadores [64].

Através do sítio da Internet do ENSEMBL é possível também aceder a diversas ferramentas, nomeadamente uma API para programação em Perl que permite aceder remotamente, aos dados armazenados.