• Nenhum resultado encontrado

A utilização de bancos de dados na biologia e na medicina surgiu como um requisito da análise de sequências, principalmente após as primeiras descrições de sequências de proteínas na década de 1950 (1). No início, esse tipo de dado era utilizado como uma fonte de estudos em biologia evolucionária, onde regiões conservadas de sequências de proteínas permitiam a identificação de resíduos conservados entre organismos de diferentes espécies (1).

Em uma sequência de proteína (por exemplo) para a proteína Methylenetetrahydrofolate reductase (Tabela17) em humano,s há uma sequência de letras em que cada uma representa um aminoácido específico. Por exemplo, o trecho MVNEARGNSS indica que há uma sequên- cia de aminoácidos Metionina-Valina-Asparagina-Ácido Glutâmico-Alanina-Arginina-Glicina- Asparagina-Serina-Serina, respectivamente. A tradução entre letras e proteínas é definida pela União Internacional de Química Pura e Aplicada (UIQPA)1.

Com o aumento no número de pesquisas sobre proteínas e aminoácidos para a comparação entre organismos, Eck (93) sugeriu a tabulação dos dados para facilitar a análise e leitura. Esse procedimento teve como finalidade facilitar a avaliação e comparação de dados, além de auxiliar na identificação de padrões de repetições entre sequências (1) para proteínas semelhantes em organismos diferentes, por exemplo. Essa ideia foi o principal motivo para a utilização de computadores, para guardar, tabular e imprimir conteúdo biomédico. Esse processo data de 1965 (94), em que foi criado o primeiroBDde sequências de proteínas, posteriormente publicado no Atlas of protein sequence and structure(1).

O acúmulo de dados sobre sequências provenientes de organismos, junto com os avanços da Ciência da Computação e o aumento no interesse sobre a automação do processo de análise de

Tabela 17 – Sequência para a proteína canônica Methylenetetrahydrofolate reductase em huma- nos.

10 20 30 40 50

MVNEARGNSS LNPCLEGSAS SGSESSKDSS RCSTPGLDPE RHERLREKMR

60 70 80 80 100

RRLESGDKWF SLEFFPPRTA EGAVNLISRF DRMAAGGPLY IDVTWHPAGD

110 120 130 140 150

PGSDKETSSM MIASTAVNYC GLETILHMTC CRQRLEEITG HLHKAKQLGL

160 170 180 190 200

KNIMALRGDP IGDQWEEEEG GFNYAVDLVK HIRSEFGDYF DICVAGYPKG

210 220 230 240 250

HPEAGSFEAD LKHLKEKVSA GADFIITQLF FEADTFFRFV KACTDMGITC

260 270 280 290 300

PIVPGIFPIQ GYHSLRQLVK LSKLEVPQEI KDVIEPIKDN DAAIRNYGIE

310 320 330 340 350

LAVSLCQELL ASGLVPGLHF YTLNREMATT EVLKRLGMWT EDPRRPLPWA

360 370 380 390 400

LSAHPKRREE DVRPIFWASR PKSYIYRTQE WDEFPNGRWG NSSSPAFGEL

410 420 430 440 450

KDYYLFYLKS KSPKEELLKM WGEELTSEES VFEVFVLYLS GEPNRNGHKV

460 470 480 490 500

TCLPWNDEPL AAETSLLKEE LLRVNRQGIL TINSQPNING KPSSDPIVGW

510 520 530 540 550

GPSGGYVFQK AYLEFFTSRE TAEALLQVLK KYELRVNYHL VNVKGENITN

560 570 580 590 600

APELQPNAVT WGIFPGREII QPTVVDPVSF MFWKDEAFAL WIERWGKLYE

610 620 630 640 650

EESPSRTIIQ YIHDNYFLVN LVDNDFPLDN CLWQVVEDTL ELLNRPTQNA

RETEAP

BDs biomédicos resultou na crescente disponibilidade de fontes. Para se ter uma ideia, no início do ano de 2016 foram contabilizados 1685 bancos de dados biológicos ativos (2). O conteúdo dessas fontes varia desde data warehouses conhecidos, como o GenBank (95) e ArrayExpress (96), até taxonomias e descrições de doenças. Um tipo de dado frequentemente incluído é a descrição de propriedades funcionais de moléculas, genes, proteínas, fenótipos, entre outros (97). Exemplos desses bancos de dados são oUniProt(subseção3.1.1), Ensembl (subseção3.1.2) e

NCBITaxonomy (subseção3.1.3, descritos com mais detalhes nas próximas subseções). Uma característica importante dos bancos de dados biomédicos é o uso frequente de anotações semânticas, que são (basicamente) classes de ontologias utilizadas como valores em campos deBDs biomédicos, para substituir a nomenclatura especializada e dar semântica aos dados (98). Por exemplo, oUniProtutiliza classes provenientes daGOpara descrever proteínas em termos de processos biológicos, funções moleculares e componentes celulares. NoUniProt, os registros são anotados automaticamente e (posteriormente) são revisados manualmente para

eventuais correções. No caso específico doUniProt, as anotações foram adicionadas a partir da iniciativa UniProt-GO Annotations (UniProt-GOA) (99).

Nesse âmbito, a anotação de dados biomédicos é uma importante aplicação para ontologias biomédicas, mesmo apenas disponibilizando termos desconectados de ontologias. O objetivo por trás do uso das anotações é permitir uma interpretação simplificada dos dados utilizando conceitos ontologicamente fundamentados. Na seção3.2serão apresentadas as abordagens mais utilizadas para interpretar dados biomédicos, além de contextualizar o papel das ontologias.

3.1.1

UniProt

OUniProté um acrônimo para Universal Protein Resource (UniProt) (em tradução livre, Referência Universal de Proteínas) e foi criado para que pesquisadores possam compreender, de uma forma rápida, o domínio biomédico da proteômica (e.g. que estuda a estrutura e a função de proteínas). Essa iniciativa é mantida pelo European Molecular Biology Laboratory (EMBL)- European Bioinformatics Institute (EBI), Swiss Institute of Bioinformatics (SIB) e pelo Protein Information Resource (PIR).

Em termos deBD, oUniProté dividido em 05 bases:

• UniProt Knowledge Base (UniProtKB) é uma base de dados mantida por especialistas sobre o domínio e é subdividida em duas partes:

– UniProtKB/SwissProt: dados mantidos, revisados e anotados por especialistas manu-

almente;

– UniProtKB/TrEMBL: dados mantidos de forma não revisada por especialistas.

• UniProt Archive (UniParc) tem como principal objetivo guardar dados sobre sequências de proteínas, como uma série história;

• UniProt Reference Clusters (UniRef) dedicado a unir sequências proteicas similares, de forma a otimizar a busca por tais tipos;

• Proteomes, criada para aglutinar proteínas de organismos os quais já apresentam seu código genético completamente sequenciado; e

• UniProt Metagenomic and Enviromental Sequence (UniMES) criada para dar suporte à área da metagenômica.

Cada um desses bancos é descrito em arquivos de texto e organizados em tabelas. Especificamente no UniProtKB, há dados relacionados a informações do tipo:

• Anotações (classes) daGOpara descrever processos biológicos, funções moleculares e componentes celulares;

• Mapeamentos a partir de identificadores para outros bancos de dados para descrever rotas metabólicas envolvidas, sequências, substâncias químicas, entre outros, como o Ensembl, por exemplo;

• Taxonomia de seres vivos, a partir doNCBITaxonomy;

entre diversas outras informações.

De forma a facilitar o desenvolvimento de aplicações as quais se utilizam do conheci- mento sobre as proteínas descritas no UniProtKB, tanto os dados em si, quanto o resultado de consultas podem ser recuperados diretamente pela interface de consulta, como uma planilha, programaticamente via requisições HTTP (REST), através de uma API Java (UniProtJAPI) ou de uma interface para consultas (endpoint) SPARQL.

Neste trabalho, será utilizado apenas o UniProtKB para exemplificação. A UniProtKB aglutina dados de diversas fontes, como o Ensembl e o NCBITaxonomy, além de empregar amplamente a utilização de anotações semânticas provenientes de ontologias como aPROe a

GO. No domínio da proteômica, é uma das fontes de proteínas mais conhecidas.

3.1.2

Ensembl

O projeto Ensembl2(21) foi iniciado em 1999. O objetivo inicial era anotar genomas e integrar esses dados com outros bancos de dados biomédicos, com o propósito de distribuí-los na web gratuitamente.

O Ensembl processa e sumariza dados genômicos de larga escala para cordados3 e organismos modelo4. O conteúdo é relacionado à anotação de genes e locais de transcrição, evolução de sequências de genes, evolução de genomas, sequências e variantes estruturais além de elementos regulatórios.

Dados do Ensembl são acessíveis diretamente pelo website como arquivos de texto ou planilhas, por meio de um banco de dados público, via Application Programming Interface (API) ou File Transfer Protocol (FTP). O conteúdo é mantido por uma equipe composta de 40-50 pessoas, divididas em grupos de trabalho que variam desde a criação de conjuntos de genes para uma dada espécie de organismo, ao time que prepara o conteúdo para disseminação online.

Do ponto de vista prático, o Ensembl inclui dados sobre:

2 http://www.ensembl.org/

3 Animais caracterizados pela presença de simetria bilateral, notocorda, tubo nervoso dorsal e cauda pós-anal em

pelo menos uma fase da vida. São incluídos nesse grupo os vertebrados, anfioxos e tunicados.

4 Organismos comumente utilizados na pesquisa científica como objeto de experimentação e descrição de fatos de

• Descrição, com nome, sinônimo e localização;

• Mapeamentos como identificadores de outros bancos de dados, como o UniProt;

• Sequências de Genes;

• Anotações para a GO;

• Genômica comparativa;

• Fenótipos;

entre outras.

Neste trabalho, o Ensembl é utilizado como um complemento ao UniProt, principalmente referente à descrição de fenótipos. No Ensembl, os fenótipos são listados em função das caracte- rísticas exibidas pelo organismo, a partir da proteína traduzida de uma determinada sequência de ADN. A listagem de fenótipos é manualmente revisada, o que fornece confiabilidade nos dados registrados. Além disso, há uma ligação direta entre os dados disponíveis no Ensembl com os dados do UniProtKB, e.g. proteínas doUniProtapresentam relações com os genes descritos no Ensembl. Na prática, essa associação é realizada a partir do mapeamento entre registros do

UniProte do Ensembl com o registro (em ambos osBDs) dos respectivos identificadores para cada par proteína-gene.

3.1.3

NCBI Taxonomy

O NCBI Taxonomy (5) tem como objetivo a disponibilização de descrições sobre os níveis taxonômicos (no sentido biológico) de diversos organismos vivos, desde os níveis mais abstratos como super-reinos até os mais específicos (subespécies). Do ponto de vista prático, o NCBI Taxonomy é organizado de forma que todas as entradas doBDsão um TAXON (também conhecido nós); e, o caminho realizado na hierarquia até um determinado TAXON é chamado de lineage(linhagem, em tradução livre). Cada TAXON apresenta um identificador unívoco (taxid) e sequencial com políticas definidas sobre as instituições (ou grupos) que definem as formas de nomeação de organismos.

Por exemplo, o organismo Mus musculus (rato branco de laboratório) apresenta toda a linhagem taxonômica, desde o nível de Reino até o gênero. Além disso, há mapeamentos para o genoma do organismo e o respectivo identificador. Neste trabalho, a NCBITaxonomy será utilizada pelo fato de ser incluída nos registros do UniProt e do Ensembl, como forma de identificar a qual organismo se refere um dado registro sobre uma proteína ou um gene, respectivamente.