• Nenhum resultado encontrado

Para a análise descrita nesta seção, foi selecionado um exemplo típico de umBDbiomé- dico (tabela23), gerado pela junção de dados doUniProt(3), Ensembl (21) eNCBITaxonomy (5). Os dados foram recuperados a partir de uma consulta padrão, contendo apenas o termo “homocysteine”, sobre a interface de cada um dos respectivos websites.

Processos biológicos, funções moleculares (ontologicamente, “atividades”, i.e. um tipo de processo (124)), componentes celulares, organismos, moléculas de baixo peso molecular, proteínas, genes e fenótipos são anotações. Especificamente sobre processos biológicos e funções moleculares (atividades), como ambos são processos de natureza similar (por simplificação), são descritos apenas processos biológicos provenientes daGO. Para anotações sobre moléculas de baixo peso molecular, anotações provenientes da ChEBI são utilizadas. Anotações sobre fenótipos são recuperadas do Ensembl como texto. Os fenótipos identificados são representados como classes da ontologia clínicaSNOMED CT, pois os termos são idênticos (Albuminuria no

4. Int er pr etação ont ológica de BDs biomédicos 92

Tabela 23 – Visão sobre os dados do UniProt, NCBI Taxonomy e do Ensembl

ID Proteína Gene Organismo GO (bp) GO (mf) GO (cc) Ensembl ID Fenótipo Ensembl

F1MEW4 CBS CBS Bos taurus blood vessel re-

modeling; . . . cystathionine β-synthase activity . . . cytoplasm . . . ENSBTAT00000000184; . . . No phenotype asso- ciated Q99707 MS MS Homo sa- piens cobalamin me- tabolic process; . . . cobalamin bin- ding; . . . cytoplasm . . . ENST00000366577; ENST00000535889

Neural tube defect; Megaloblastic ane- mia; . . .

Q9EQS4 CSE CSE Rattus nor-

vegicus hydrogen sulfide bi- osynthetic process; . . . pyridoxal phosphate binding; . . . nucleus; . . .

ENSRNOT00000067843 Cataract; Amino

Acid Metabolism errors; . . .

F1RF82 MTHFR MTHFR Sus scrofa homocysteine

metabolic process; . . .

modified

amino acid

binding; . . .

cytosol ENSSSCT00000003805 No phenotype asso- ciated Q93088 BHMT BHMT Homo sa- piens amino-acid be- taine catabolic process; . . .

zinc ion bin- ding; . . .

protein complex; . . .

ENST00000274353 Liver tumour; Co-

ronary Artery Dise- ase; . . .

As 6 colunas da esquerda contém entradas do UniProt; as duas colunas da direita o conteúdo do Ensembl. GO (bp), GO(mf) e GO(cc) representam as anotações sobre os registros doUniProtpara as classes daGObiological_process, molecular_function e cellular_component. Os IDs doUniProte Ensembl são utilizados para mapear os bancos.

Ensembl, e Albuminuria naSNOMED CT) em quase todos os casos.

Ao todo, foram recuperados 21.868 registros doUniProt, e (exatos) 1000 registros do Ensembl. Todos os dados foram recuperados em 22 de janeiro de 2015. Os dados do NCBI Taxonomy são identificados ao final, a partir dos mapeamentos existentes, pois colecionam a classificação taxonômica dos organismos referenciados nos dados da amostra final. Uma descrição mais detalhada sobre a amostragem é feita no capítulo5(página123).

A partir dos registros identificados, foi analisado como o conteúdo incluído nos registros é representado tanto nas ontologias (a que se referem as anotações) quanto nos bancos de dados. EssesBDs foram escolhidos pela grande quantidade de anotações com ontologias conhecidas e axiomatizadas. Ontologias como aGO(principalmente),PROeChEBIsão empregadas para representar componentes do domínio biológico.

A análise de interpretação tem como objetivo identificar como as anotações se referem a indivíduos ou a classes de ontologias. Além disso, é levado em consideração como cada classe/indivíduo identificado é descrito de forma a capturar a semântica das associações em nível de registro deBD, e.g. como anotações para aGOsão associadas a anotações para aPROou para aChEBI, quando os bancos de dados são analisados de forma conjunta.

A base para a análise são descrições formais disponíveis nas ontologias sob consideração, e o que pode ser interpretado com o auxílio da ontologia supradomínio biológico BTL2. A interpretação ontológica é construída a partir da identificação de classes que representam o conteúdo do cabeçalho de uma coluna (da tabela), e.g. Process, ‘Material object’ etc.) de acordo com aBTL2(referido na tabela24como Campo).

Tabela 24 – Conteúdo típico da união dosBDsUniProt, Ensembl eNCBITaxonomy.

Campo Fonte Conteúdo

Protein PRO Betaine–homocysteine S-methyltransferase 1

Organism NCBI Homo sapiens(Humano)

Biological GO reg. of homocysteine metabolic process;

process amino-acid betaine catabolic process;

L-methionine salvage; protein methylation;

choline catabolic process; . . .

Molecular GO BHMT activity;

function zinc ion binding; . . .

Cell components GO cytoplasm; cytosol; extracellular exosome Small molecules ChEBI Homocysteine; . . .

Phenotypes SNOMED intestine, decreased size; increased lean body mass; . . .

As classes mais básicas daGO,ChEBI ePRO são alinhados entre as ontologiasGO,

PROeChEBIutilizando a hierarquia e relações formais daBTL2. O processo de alinhamento foi construído de forma manual, com base nas definições de classes existentes e na organização das

GO,ChEBIePROa partir das restrições incluídas naBTL2. Em seguida, foram identificadas quais classes das ontologias alinhadas são utilizadas para mapear campos dos registros doUniProt

e Ensembl. Uma visão esquemática do alinhamento de ontologias e do mapeamento é apresentado na figura23.

Figura 23 – Alinhamento da GO, ChEBI, SNOMED CT e PR sob a BTL2.

Considerando que cada registro de umBDbiomédico anotado referencia classes daGO,

ChEBI,PRO,SNOMED CTeBTL2, alguns questionamentos acerca de como essas anotações se relacionam precisam ser respondidas:

• Se eu tenho um registro deBD(ou uma coleção deles) como na tabela24, em que os dados são anotações, como as entidades descritas no registro se relacionam (considerando as ontologias utilizadas)? Por exemplo, definir com qual relação Homo sapiens é associado à protein methylatione vice-versa (figura24).

Figura 24 – Indefinição da relação a ser utilizada entre as classes ‘Homo sapiens’ e ‘protein methylation’, referenciadas nos dados da tabela24.

‘Homo sapiens’

‘protein methylation’

?? ‘is participant in’ ??

• Desde que dados são registrados numBD, eles são indivíduos da classe btl2:’information object’. Entretanto, no presente cenário são utilizadas anotações, as quais, conforme a interpretação, denotam (representam) classes ou indivíduos no domínio. Por exemplo, um dado “GO:0006479” (“protein methylation”) dentro de UniProt pode ser interpretado como a classe de todos os processos protein methylation’, ou uma instância dessa classe (figura

25).

Figura 25 – Indecisão sobre a representação de uma anotação como indivíduo ou em termos das classes referenciadas.

• Nessa linha, se a interpretação for realizada a partir dos indivíduos, é necessário incluí-los na representação?

• O contexto de construção dos registros não é definido, mas do ponto de vista ontológico, a inclusão de disposições pode ser justificada, e.g. como a disposição de um ‘Homo sapiens’ em exibir um fenótipo disfuncional do tipo ‘intestine decreased size’. Quais entidades adicionais necessitam ser incluídas na ontologia?

• Ao identificar dados construídos sobre disposições, é necessário discernir claramente como representá-las e defini-las: quais proposições são disposicionais? Por exemplo, cada

proteína ‘Betaine–homocysteine S-methyltransferase 1’ pode ser interpretada a partir da disposição realizada pelo processo ‘protein methylation’. Ou pode ser interpretada como a subclasse de uma proteína ‘Betaine–homocysteine S-methyltransferase 1’ que participa de um processo ‘protein methylation’.

Para resolver essas questões, quatro ontologias de exemplo foram criadas emOWL2, utilizando o editor de ontologias Protégé v.5, com o auxílio do classificador HermiT (125) v.1.8.4.3. As ontologias criadas são derivadas dos dados descritos na tabela23.

Tabela 25 – Visão sobre os dados do UniProt, NCBI Taxonomy e do Ensembl utilizados para exemplificação.

Proteína Organismo GO (bp) GO (cc) Fenótipo Molécula

Prot1 Org1 BProc1; CComp1; Phen1; Mol1;

Bproc2; CComp2; Phen2; Mol2;

Bproc3 CComp3 Phen3 Mol3

No caso da interpretação por indivíduos (a ser descrito na próxima seção), foram criados indiví- duos arbitrários no formato bpxxxx, ccxxxx, pxxxxe assim por diante, para simular indivíduos de laboratório (tabela25). Esses dados simplificados são utilizados para gerar uma representação semelhante à estrutura dos dados, sumarizado na tabela24.

Nas tabelas23e24, não estão descritos genes e funções moleculares. Isso ocorre apenas como uma simplificação da abordagem, visto que genes são sequências especificadas naPRO

e representadas como subclasses, conforme um dos tipos de interpretação descritos a seguir (interpretação por subclasses, página100). NaPRO, genes são descritos como subclasses, e.g. MS_‘Homo sapiens’ para nomear uma subclasse do gene MS em um ‘Homo sapiens’. Já as funções moleculares, por serem processos, se comportam tal qual processos biológicos.

De forma simplificada e para demonstrar de maneira breve que os modelos de interpretação são factíveis, não apenas do ponto de vista lógico, mas também do ontológico, foram criadas quatro consultas simples em DL(tabela 26, adicionada da leitura em linguagem natural das consultas). Tais consultas são aplicadas de forma semelhante às ontologias derivadas do processo de avaliação, de maneira a verificar a capacidade de recuperar conteúdo com e sem o auxílio direto de raciocínio. O intuito é, basicamente, demonstrar que cada interpretação tem uma aplicação específica durante a utilização prática.

Todos os arquivos, códigos, dados e material complementar estão disponíveis no site do projeto integrativO (http://www.cin.ufpe.br/˜integrativo).