Interpretação ontológica de bancos de dados biomédicos: modelos de interpretação e enriquecimento axiomático

(1)

INTERPRETAÇÃO ONTOLÓGICA DE BANCOS DE DADOS BIOMÉDICOS: MODELOS DE INTERPRETAÇÃO E ENRIQUECIMENTO AXIOMÁTICO

Tese de doutorado

Universidade Federal de Pernambuco posgraduacao@cin.ufpe.br www.cin.ufpe.br/˜posgraduacao

Recife

(2)

“INTERPRETAÇÃO ONTOLÓGICA DE BANCOS DE DADOS BIOMÉDICOS: MODELOS DE INTERPRETAÇÃO E ENRIQUECIMENTO AXIOMÁTICO”

Tese apresentada ao Programa de Pós-graduação em Ciência da Computação da Universidade Fe-deral de Pernambuco, como requisito parcial para obtenção do título de Doutor em Ciência da Computação.

Orientador: Frederico Luiz Gonçalves de Freitas

Coorientador: Stefan P. Schulz

Recife

(3)

Catalogação na fonte

Bibliotecária Monick Raquel Silvestre da S. Portes, CRB4-1217

S586i Silva, Filipe Santana da

Interpretação ontológica de bancos de dados biomédicos: modelos de interpretação e enriquecimento axiomático / Filipe Santana da Silva. – 2016.

255 f.: il., fig., tab.

Orientador: Frederico Luiz Gonçalves de Freitas.

Tese (Doutorado) – Universidade Federal de Pernambuco. CIn, Ciência da Computação, Recife, 2016.

Inclui referências e apêndices.

1. Banco de dados. 2. Ontologia. I. Freitas, Frederico Luiz Gonçalves de (orientador). II. Título.

025.04 CDD (23. ed.) UFPE- MEI 2016-147

(4)

Interpretação ontológica de bancos de dados biomédicos: modelos de interpretação e enriquecimento axiomático

Tese apresentada ao Programa de Pós-graduação em Ciência da Computação da Universidade Fe-deral de Pernambuco, como requisito parcial para obtenção do título de Doutor em Ciência da Computação.

Aprovado em: 18/07/2016.

Prof. Frederico Luiz Gonçalves de Freitas

Orientador do trabalho de Tese

Profa. Bernadete Farias Lóscio

Centro de Informática/UFPE

Profa. Rosalie Barreto Belian

Departamento de Medicina Clínica/UFPE

Profa. Laís do Nascimento Salvador

Departamento de Ciência da Computação/UFBA

Prof. Evandro de Barros Costa

Instituto de Computação/UFAL

Profa. Renata Wassermann

(5)

(6)

Para o desenvolvimento desta tese, houveram contribuições substanciais de pessoas e instituições. Sem eles, este trabalho não teria sido construído e, por conta disso, sempre serei grato.

Assim, gostaria de agradecer:

• À minha esposa, Eliane Leal, pela paciência, palavras de carinho e companheirismo em todos os momentos do doutorado;

• À minha irmã, Mariana Santana da Silva, pelo apoio;

• Ao Silvio Santana (meu pai) por ter me proporcionado a base para meus estudos;

• Aos meus orientadores, Fred Freitas e Stefan Schulz. Além de serem figuras presentes no processo de estudo, considero amigos além da Universidade;

• Aos parceiros de pesquisa Adriel Café, Plácido Segundo e Antonio Eudes. Os três trouxeram contribuições para o desenvolvimento desta tese;

• Aos membros da banca de qualificação, i.e. as professoras Rosalie Belian, Lais Salvador, Renata Wassermann e (principalmente) Bernadette Farias. Por elas me foi concedido um voto de confiança para desenvolver esta tese;

• Às agências de fomento Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) e ao Conselho Nacional de Aperfeiçoamento de Nível Superior (CAPES) por me conceder o fomento necessário para o desenvolvimento deste trabalho, dentro e fora do país;

• À a Profa. Andrea Berghold (Institut für Medzinische Informatik, Statistik und Doku-mentationda Medzinische Universität Graz), fornecendo o meio para meus estudos em Graz;

• Aos amigos Jose A. Miñarro-Giménez e a Catalina Martinez-Costa (além da pequena Alicia), o Pablo López-Garcia (e a Gudrun), o Markus Kreuzthaler (e Carine), Marcus Bloice e Vendula Švendová, Sireina Herzog (e Gernot), e (não menos) Michel Oleynik e Thisby Khoury. Ajudaram consideravelmente durante minha estadia em Graz, também com contribuição no desenvolvimento deste trabalho;

• E, (in Memoriam) a minha querida mãe, Lucienne Mary; e, ao pequeno Miguel. Ambos foram a luz que ajudaram a guiar durante todo o período.

(7)

we wouldn’t need research.” (John Whelan – Yearbook of Procurement Articles, 1977)

(8)

Com o crescimento em quantidade e dimensão dos bancos de dados (BDs) biomédicos, onto-logias foram incorporadas para anotá-los semanticamente, facilitando a interpretação, acesso, recuperação e processamento dos dados. Entretanto, como ontologias eBDs são criados com propósitos diferentes, não é possível interpretar registros de BDs de forma clara e definida.

Ontologias supradomínio podem ser empregadas para fornecer classes e relações, de maneira que o conteúdo deBDs anotados seja representado e interpretado adequadamente. A representação das anotações evita ambiguidades, mantendo o engajamento ontológico e permitindo consultar os dados utilizando raciocínio.

Nossa hipótese é de que é possível interpretar ontologicamente o conteúdo de um ou maisBDs anotados, determinando como as entidades anotadas dosBDs se relacionam. O objetivo deste trabalho é avaliar e propor estratégias que auxiliem o usuário no processo de interpretação ontológica de registros deBDs biomédicos como indivíduos, classes e disposições, a partir de ontologias formais. A interpretação ontológica é construída ao empregar classes e relações da BioTopLite2 (BTL2), organizando e estendendo ontologias utilizadas como anotação, e.g. GO, ChEBI, SNOMED e PRO; provenientes dos BDs UniProt, Ensembl e NCBI Taxonomy.

São investigadas quatro formas de interpretação, viz. quando as anotações são: indivíduos, sub-classes, incluem disposições, e um híbrido entre subclasses e disposições. A interpretação como subclasses é a mais indicada ao comparar questões de desempenho, expressividade e capaci-dade de consultar, utilizando raciocínio e integração semântica. Demonstramos que esse tipo de interpretação é aplicável na prática, apresentando bom desempenho para consultas utilizando raciocínio.

Foi desenvolvido um protótipo integrativO CBR para automatizar a interpretação ontológica como subclasses. A ferramenta é responsável por reconstruir o processo de interpretação ontoló-gica, recuperando indivíduos, identificando classes e gerando uma ontologia como modelo de interpretação.

A interpretação ontológica de anotações apresenta benefícios: verificar a consistência do BD, e.g.se existem anotações contraditórias; representação formal e ontológica da organização dos dados; a análise do engajamento ontológico dos dados anotados; e, a criação de consultas que utilizam raciocínio para explorar os dados interpretados.

Palavras-chave: Ontologia. Interpretação. Banco de Dados Biológicos. Anotação.

(9)

Abstract

With the growth of data bases (DBs) in number and size, ontologies have been incorporated to annotate DBs semantically, facilitating the record interpretation, access, retrieval and methods for querying data. However, as ontologies and DBs are designed with different purposes, it is not possible to interpret DB annotated DB records in a clear and defined way.

Upper-domain ontologies can be used as provider of classes and relations whether the annotated content of annotated entities from DBs are adequately interpreted and represented. The represen-tation ensure that ambiguities are avoided by keeping the ontological commitment and allowing queries supported by reasoning.

Our hypothesis is that it is possible to interpret ontologically annotated content from one or more DBs, determining how annotated entities relate to each other. The aim of this work is to evaluate and propose strategies to assist the user in the ontological interpretation process of Biological DBs as individuals, classes and dispositions. The ontological interpretation of Biological DBs is created by reusing classes and relations from BTL2, organizing and extending ontologies used to annotate data, e.g. GO, ChEBI, SNOMED and PRO; from UniProt, Ensembl and NCBI Taxonomy DBs.

Four ways of interpreting annotated data are investigated, viz. as ontology individuals; subclasses; dispositions; and, a hybrid among classes and dispositions. Interpretation as subclasses was identified as the appropriate choice when considering: reasoning performance; expressiveness; and, querying with reasoning and ontology-based data integration approaches are taken into account. It has been shown that this type of interpretation is useful in practice, with a good performance for (both) reasoning and querying.

A prototype called integrativO CBR was created in order to automate interpretation as subclasses. This tool is responsible for recreating the process of applying the ontological interpretation, enabling the retrieval of individuals from data, referent classes identification, and generation of an interpretation model.

The ontological interpretation of annotations has several benefits, such as: DB consistency evaluation for conflicting annotations; formal and ontological representation of how data is organized; verifying the ontological commitment of annotated data; and, the ability to create queries to explore reasoning.

(10)

Figura 1 – Exemplificação do funcionamento do protótipo. . . 32

Figura 2 – Organização do Trabalho relacionando as seções com os objetivos específicos delineados. . . 36

Figura 3 – Exemplo de ontologia . . . 39

Figura 4 – Interpretação formal da figura 3 a partir da leitura das relações entre os indivíduos descritos. . . 40

Figura 5 – Hierarquia de ontologias, segundo Guarino (45). . . 42

Figura 6 – Hierarquia de Bibliotecas de Ontologias (25). . . 42

Figura 7 – Exemplo de ontologia incluindo classes, indivíduos e axioma. . . 44

Figura 8 – Exemplo de rede semântica. . . 45

Figura 9 – Exemplo de representação em Frames. Baseado em 59. . . . 45

Figura 10 – Exemplo de arquitetura de base de conhecimento para um sistema que utiliza DL (9). . . 47

Figura 11 – A estrutura da OWL2. Traduzido a partir de (61). . . 53

Figura 12 – Hierarquia de classes da BTL2. . . 58

Figura 13 – Relações na BTL2. . . 59

Figura 14 – Subontologias da GO. . . 60

Figura 15 – Hierarquia da SNOMED CT (7). . . 64

Figura 16 – Exemplo em que há a indefinição sobre possíveis associações entre as entida-des registradas no BD pelo usuário. . . 76

Figura 17 – Exemplo em que há a definição sobre possíveis associações entre as entidades registradas no BD pelo usuário. . . 76

Figura 18 – Exemplo de registro de banco de dados e a representação informal das entidades. 81 Figura 19 – Exemplo de interpretação de um registro do UniProt. . . 84

Figura 20 – Exemplo de interpretação por subclasses. . . 87

Figura 21 – Combinações de O, Pr e Bp1 para a geração de subclasses. . . . 88

Figura 22 – Metabolismo do Homocysteine (Hcy). . . 91

Figura 23 – Alinhamento da GO, ChEBI, SNOMED CT e PR sob a BTL2. . . 94

Figura 24 – Indefinição da relação a ser utilizada entre as classes ‘Homo sapiens’ e ‘protein methylation’, referenciadas nos dados da tabela 24. . . 94

Figura 25 – Indecisão sobre a representação de uma anotação como indivíduo ou em termos das classes referenciadas. . . 95

Figura 26 – Exemplo de tupla de um registro com campos anotados, com classes da GO e PRO. . . 97

(11)

organismo e fenótipos.. . . 99

Figura 29 – Relação entre proteína, processo biológico e organismo individual. . . 99

Figura 30 – Relação entre proteína, organismo, fenótipo e disposição individual. . . 100

Figura 31 – Interpretação de campos dos bancos de dados como classes genéricas, e das anotações (dados) como subclasses dos tipos definidos nos campos. . . 101

Figura 32 – Combinações de O, Pr e Bp1 para geração de subclasses. . . . 102

Figura 33 – Proteína disfuncional em organismos. . . 103

Figura 34 – Subespecialização de proteína disfuncional em organismo com um fenótipo definido. . . 104

Figura 35 – Subclasse de organismo com fenótipo e proteína disfuncional. . . 104

Figura 36 – Axiomas de subclasse sobre moléculas e as relações com organismos e proteínas.105 Figura 37 – Subcategorização de processos biológicos associados a proteínas e organismos.105 Figura 38 – Exemplo de tupla de um registro com campos anotados com classes da GO e PRO representado a partir de disposições. . . 107

Figura 39 – Representação esquemática do GCI descrito na tabela 39. . . 109

Figura 40 – Representação gráfica do GCI da tabela 40. . . 110

Figura 41 – Seleção de Dados. . . 123

Figura 42 – Modelo conceitual (diagrama entidade-relacionamento) (142) das entidades recuperadas do UniProt e Ensembl. . . 125

Figura 43 – Exemplo sobre a modularização de uma ontologia qualquer A em uma onto-logia A’. . . . 126

Figura 44 – Alinhamento da GO, ChEBI, SNOMED CT e PR sob a BTL2. . . 126

Figura 45 – Processo genérico da aplicação da estratégia de interpretação ontológica de BDs. . . 128

Figura 46 – Representação visual do axioma Bp_P_O. . . . 133

Figura 47 – Representação visual do axioma P_O . . . 134

Figura 48 – Representação visual do axioma P_O_C. . . . 134

Figura 49 – Representação visual dos axiomas P_O_Bp e P_O_Mf . . . 135

Figura 50 – Representação visual do axioma P_O_M . . . 135

Figura 51 – Representação visual do axioma P_Dysfunctional. . . . 136

Figura 52 – Representação visual do axioma P_Dysfunctional_O_Ph . . . 136

Figura 53 – Representação visual do axioma M_O . . . 137

Figura 54 – Representação visual do axioma M_O_P . . . 137

Figura 55 – Representação visual do axioma O_P . . . 137

Figura 56 – Representação visual dos axiomas O_P_Bp e O_P_Mf . . . 138

Figura 57 – Representação visual do axioma O_P_M . . . 139

Figura 58 – Representação visual do axioma O_P_dysfunctional . . . 139

(12)

Figura 61 – Representação visual do axioma Ph_O_P_dysfunctional . . . 140

Figura 62 – Estrutura de importação dos módulos da GO, PRO, SNOMED CT, ChEBI e a interpretação Ontológica sob a BTL2. . . 141

Figura 63 – Processo de RBC, por AAMODT (150). . . 153

Figura 64 – Ciclo de RBC-CI do integrativO CBR. . . 155

Figura 65 – Arquitetura do Gryphon Framework (152). . . 158

Figura 66 – Componentes da arquitetura de integração semântica (152). . . 159

Figura 67 – Fluxo do Gryphon Framework (152). . . 160

Figura 68 – Etapas para realizar uma integração com o Gryphon Framework (152). . . . 161

Figura 69 – Exemplo de listagem de resultados representativos para a consulta 6.2. . . . 164

Figura 70 – Arquitetura do integrativO CBR . . . 166

Figura 71 – Fatores que afetam a integração semântica (184). . . 216

Figura 72 – Abordagens para integração: a) GAV, b) LAV e c) GLAV (187). . . 218

Figura 73 – Representação de um alinhamento entre duas classes de ontologias distintas. 220 Figura 74 – Representação de um mapeamento entre uma coluna de um banco de dados e uma propriedade de uma ontologia. . . 220

Figura 75 – Resumo esquemático de uma aplicação que utiliza uma base de problemas e uma base de soluções para resolver problemas apresentados pelo usuário. . . 225

Figura 76 – Processo de RBC, por 150. . . 226

Figura 77 – Classificação de métodos de Raciocínio Baseado em Casos por natureza da aplicação. . . 239

Figura 78 – Arquitetura JCOLIBRI2 (20, 237). . . 241

Figura 79 – Parser em Java SPARQL—OWL2. . . 248

Figura 80 – Configuração Gryphon para o integrativO CBR. . . 248

Figura 81 – Requisição para aplicação de consulta e disponibilização dos resultados no formato JSON. . . 249

Figura 82 – Interface padrão do jCOLIBRI2 para aplicações CBR. . . 249

Figura 83 – Método de Similaridade MaxString ( ). . . 250

Figura 84 – Avaliação da similaridade pelo método de k-NN, recuperado a partir do Gryphon Framework. . . 250

(13)

Lista de tabelas

Tabela 1 – Extrado de algumas anotações provenientes da GO disponíveis no UniProt

KB (#P01308) para a Insulina Humana. . . 26

Tabela 2 – Axioma escrito com AL no nível de Tbox. . . . 49

Tabela 3 – Axioma escrito com AL no nível de Abox. . . . 49

Tabela 4 – Sintaxe e semântica de construtores da DL. . . 50

Tabela 5 – Construtores da EL + +. . . . 51

Tabela 6 – Exemplos de axiomas em que podem ser escritos no perfil OWL2 EL. . . . 54

Tabela 7 – Tipos de Construtos permitidos na OWL2 QL (74). . . 55

Tabela 8 – Axiomas de Exemplo escritos em OWL2 QL. . . 55

Tabela 9 – Tipos de Construtos permitidos na OWL2 RL (74). . . 55

Tabela 10 – Axiomas em OWL2 RL e regras em Lógica de Primeira Ordem. . . 55

Tabela 11 – Exemplo de axioma que pode ser escrito a partir da BTL2, utilizando a estrutura de classes e relações existentes. . . 57

Tabela 12 – Processo de oogênese descrito na go-plus. . . 60

Tabela 13 – Exemplo de axioma da ChEBI sobre o aminoácido fundamental cisteína. . . 61

Tabela 14 – Exemplo de axioma para descrição da insulina humana na PRO. . . 62

Tabela 15 – Lista de relações mais frequentes da SNOMED CT segundo 92. . . 65

Tabela 16 – Axioma de subclasse para ‘Neural tube defect (disorder)’ de acordo com a SNOMED CT. . . 65

Tabela 17 – Sequência para a proteína canônica Methylenetetrahydrofolate reductase em humanos. . . 67

Tabela 18 – Conteúdo típico da união dos BDs UniProt, Ensembl e NCBI Taxonomy. . . 82

Tabela 19 – Exemplos de relações de classe-subclasse . . . 83

Tabela 20 – Entrada em um registro de BD referencia uma ou mais classes definidas. . . 85

Tabela 21 – Definição da classe de exemplo ‘Sub_zinc ion binding’. . . . 86

Tabela 22 – Subclasses de exemplo. . . 88

Tabela 23 – Visão sobre os dados do UniProt, NCBI Taxonomy e do Ensembl . . . 92

Tabela 24 – Conteúdo típico da união dos BDs UniProt, Ensembl e NCBI Taxonomy. . . 93

Tabela 25 – Visão sobre os dados do UniProt, NCBI Taxonomy e do Ensembl utilizados para exemplificação. . . 96

Tabela 26 – Consultas DL. . . 97

Tabela 27 – Proteínas individuais incluídas em componentes celulares e organismos indi-viduais. . . 98

Tabela 28 – Axiomas entre indivíduos de identificadores para fenótipo, processo biológico, molécula de baixo peso e organismo. . . 98

(14)

pantes e incluídos em organismos. . . 99

Tabela 31 – Fenótipos disfuncionais de organismos com determinadas proteínas. . . 100

Tabela 32 – Subclasses de proteínas Proti. . . 103

Tabela 33 – Subespecialização de Proti. . . 103

Tabela 34 – Classes geradas sobre Orgi1. . . 104

Tabela 35 – Classes geradas sobre Moli1,...,in. . . 105

Tabela 36 – Classes geradas sobre BProci1,...,ik. . . 105

Tabela 37 – Classes geradas sobre Pheni1,...,ik. . . 106

Tabela 38 – Proposta de modelagem genérica sobre objetos portadores de disposições. . 107

Tabela 39 – Padrão de representação em GCI de proteínas organismo-específico, com processos biológicos e que têm como participantes moléculas de baixo peso molecular. . . 108

Tabela 40 – GCI para descrever Organism com disposition. . . . 109

Tabela 41 – Axioma para moléculas de baixo peso molecular com disposições. . . 110

Tabela 42 – GCI para descrever Organism com disposition. . . . 111

Tabela 43 – Axioma de equivalência sobre organismos que incluem proteínas disfuncionais.111 Tabela 44 – Organismos com proteínas disfuncionais que apresentam disposições em realizar fenótipos. . . 112

Tabela 46 – Consultas DL. . . 113

Tabela 47 – Consulta em segundo passo.. . . 113

Tabela 48 – Resultado das consultas, juntamente com as características das quatro imple-mentações ontológicas (sem importar a BTL2). . . 114

Tabela 49 – Vantagens, Desvantagens e Cenários de Uso das formas de interpretação ontológica de BDs biológicos anotados. . . 119

Tabela 51 – Bp incluído em O com a participação de P. . . . 133

Tabela 52 – P incluído em O. . . . 134

Tabela 53 – P_O incluído em C. . . . 134

Tabela 54 – P_O como participante de Bp e como participante de Mf. . . . 134

Tabela 55 – P_O participante de um processo com M . . . 135

Tabela 56 – P_O participante de um processo com M . . . 136

Tabela 57 – P_Dysfunctional_O_Ph como parte de O, que inclui um Ph.. . . 136

Tabela 58 – M_O como parte de O. . . . 136

Tabela 59 – M_O_P como parte de O. . . . 137

Tabela 60 – O com parte P. . . . 137

Tabela 61 – O como parte de P, participante de Bp, e participante de Mf.. . . 138

(15)

Tabela 64 – O com parte C. . . . 139

Tabela 65 – Mf com participante P em O. . . . 139

Tabela 66 – Ph em O com P_dysfunctional. . . . 140

Tabela 67 – Consulta em segundo passo.. . . 142

Tabela 68 – CQ1 em DL. . . 142 Tabela 69 – CQ2 em DL. . . 142 Tabela 70 – CQ3 em DL . . . 143 Tabela 71 – CQ4 em DL. . . 143 Tabela 72 – CQ 5 em DL. . . 144 Tabela 73 – CQ6 em DL. . . 144 Tabela 74 – CQ7 em DL. . . 145

Tabela 75 – Ontologias descritas segundo quantidade de classes, axiomas de subclasse e equivalência, e expressividade DL. . . 146

Tabela 76 – Desempenho do raciocínio em milissegundos (ms) nas ontologias geradas. . 146

Tabela 77 – Tradução de axiomas escritos em DL para Manchester Syntax e SPARQL. . 157

Tabela 78 – Exemplo de substituição realizada pelo IntegrativO CBR. . . 165

Tabela 79 – Axioma 1. . . 167

Tabela 80 – Axioma gerado a partir do axioma de interpretação 1. . . 168

Tabela 87 – Comparação entre duas ontologias para detectar problemas de heterogenei-dade dos dados. . . 216

Tabela 88 – Tipos de aplicações RBC suportados pelo JCOLIBRI2. . . 240

Tabela 89 – Axioma A . . . 244

Tabela 90 – Axioma ∃r.B . . . 244

Tabela 91 – Axioma B u ∃r.B . . . 244

Tabela 92 – Axioma A t B . . . 244

Tabela 93 – Axioma ∃r. {a} . . . 244

Tabela 94 – Axioma ∀r.B . . . 244

Tabela 95 – Axioma {b} t {a} . . . 245

Tabela 96 – Axioma ∃r. ({b} t {a}) . . . 245

Tabela 97 – Axioma A u (∃r.self) . . . 245

Tabela 98 – Axioma ¬B . . . 245

(16)

(17)

Lista de abreviaturas e siglas

ADN Ácido desoxirribonucleico

AL Attribute language

AML AgreementMakerLight

API Application Programming Interface

ARN Ácido ribonucleico

BC Base de Conhecimento

BD Banco de Dados

BFO Basic Formal Ontology

BGP Basic Graph Pattern

BLAST Basic Local Alignment Search Tool

BTL2 BioTopLite2

CBR Case-based reasoning

ChEBI Chemical Entities of Biological Interest

C-OWL Context OWL

CQ Competency Question

CSV Comma-separated values

CYRUS Computerised Yale Retrieval and Updating System

DAML Darpa Agent Markup Language

DCO DebugIt Core Ontology

DHGNA Doença Hepática Gordurosa Não Alcoólica

DL Description Logics

DOLCE Descriptive Ontology for Linguistic and Cognitive

Engineering

DTN Doenças Tropicais Negligenciadas

EBI European Bioinformatics Institute

EDOAL Expressive and Declarative Ontology Alignment Language

EMBL European Molecular Biology Laboratory

E-MOP Episodic Memory Organization Packets

(18)

GAV Global-as-View

GCI General Class Inclusion

GFO-Bio General Formal Ontology - Biology

GFO General Formal Ontology

GLAV Global-Local as View

GO Gene Ontology

GRDDL Gleaning Resource Descriptions from Dialects of Languages

HGNC HUGO Gene Nomenclature Comittee

HL7 Health Level 7

HTTP Hypertext Transfer Protocol

HUGO Human Genome Organization

IA Inteligência Artificial

IHTSDO International Health Terminology Standards Develpment

Organization

JSON JavaScript Object Notation

KB Knowledge Base

KEGG Kyoto Encyclopedia of Genes and Genomes

KI-CBR Knowledge-intensive Case-based Reasoning

kNN k-Nearest Neighbor

LAV Local-as-View

LED Light Emitting Diode

MIREOT Minimal Information to reference an external ontology term

NCBI National Center for Biotechnology Information

NCI National Cancer Institute

NTDO Neglected Tropical Disease Ontology

OBDA Ontology-Based Data Access

OBI Ontology for Biomedical Investigations

OBO Open Biomedical Ontologies

ODP Ontology Design Pattern

OIL Ontology Inference Layer

(19)

ORA Ontology for Robotics and Automation

OWL2 Ontology Web Language v.2

OWL Ontology Web Language v.1

PEP Prontuário Eletrônico do Paciente

PIR Protein Information Resource

PRO Protein Ontology

PSI-MOD Proteomics Standards Initiative Modification Ontology

RBC-CI Raciocínio Baseado em Casos de Conhecimento Intensivo

RBC Raciocínio Baseado em Casos

RDFS Resource Description Framework Schema

RDF Resource Description Framework

RES Registros Eletrônicos em Saúde

RO Relation Ontology

RT Referent tracking

SGBD Sistemas de Gerenciamento de Bancos de Dados

SIB Swiss Institute of Bioinformatics

SNOMED CT Systematized Nomenclature of Medicine Clinical Terms

SO Sequence Ontology

SPARQL SPARQL Query Language for RDF v.1.1

SQL Structured Query Language

SIS Sistemas de Informação em Saúde

SUMO Suggested Upper Merged Ontology

TURTLE Terse RDF Triple Language

UML Unified Modeling Language

UniProt Universal Protein Resource

UPML Universal Problem Solver Language

UIQPA União Internacional de Química Pura e Aplicada

URI Universal Resource Identifier

VBA Visual Basic for Applications

W3C World Wide Web Consortium

(20)

1 INTRODUÇÃO . . . . 24 1.1 Motivação . . . 24 1.2 Problema . . . 25 1.3 Hipótese . . . 27 1.4 Objetivos . . . 28 1.4.1 Objetivo Geral . . . 28 1.4.2 Objetivos específicos . . . 29 1.5 Proposta . . . 29 1.5.1 Interpretação . . . 30 1.5.2 Validação . . . 30 1.5.3 Protótipo . . . 31 1.6 Contribuições . . . 32 1.7 Organização do trabalho . . . 35

I

REFERENCIAL TEÓRICO

37

2 REPRESENTAÇÃO E ONTOS BIOLÓGICAS . . . . 38

2.1 Ontologias . . . 38

2.1.1 Níveis de Abstração . . . 41

2.2 Representação de Ontologias . . . 43

2.2.1 Description Logics - DL . . . 44

2.2.1.1 Sintaxe, semântica e sublinguagens DL . . . 48

2.2.1.1.1 EL++ . . . 50

2.2.1.2 Raciocínio em Description Logics (DL) . . . 52

2.2.2 Ontology Web Language v.2 (OWL2) . . . 52

2.2.2.1 OWL2 EL . . . 54 2.2.2.2 OWL2 QL . . . 54 2.2.2.3 OWL2 RL . . . 55 2.3 Ontologias Biomédicas . . . 56 2.3.1 BioTopLite2 - BTL2 . . . 57 2.3.2 Gene Ontology - GO . . . 58

2.3.3 Chemical Entities of Biological Interest - ChEBI . . . 60

2.3.4 Protein Ontology - PRO . . . 62

2.3.5 Systematized Nomenclature of Medicine Clinical Terms SNOMED CT . . . 63

(21)

3.1 Bancos de Dados Biológicos . . . 66

3.1.1 UniProt . . . 68

3.1.2 Ensembl . . . 69

3.1.3 NCBI Taxonomy . . . 70

3.2 Interpretação sobre dados biomédicos e suas estratégias . . . 71

3.2.0.1 Ferramentas de análise e suporte à interpretação . . . 72

3.2.0.1.1 GoMiner . . . 73

3.2.0.2 GO-Mapper . . . 73

3.2.0.3 DAVID . . . 74

3.2.1 Interpretação baseada em ontologias . . . 74

II

RESULTADOS

79

4 INTERPRETAÇÃO ONTOLÓGICA DE BDS BIOMÉDICOS. . . . 80

4.0.1 Critérios Ontológicos . . . 87

4.0.2 Contribuições . . . 89

4.0.3 Domínio de experimentação . . . 90

4.1 Materiais e Métodos . . . 91

4.2 Perspectivas representacionais . . . 96

4.2.1 Representação como indivíduos . . . 97

4.2.1.1 Avaliando a representação como indivíduos . . . 100

4.2.2 Representação com múltiplas subclasses . . . 100

4.2.2.1 Avaliando a representação com múltiplas subclasses . . . 106

4.2.3 Representação com disposições . . . 106

4.2.3.1 Avaliando a representação por disposições . . . 110

4.2.4 Representação híbrida em nível de classes . . . 111

4.2.4.1 Avaliando a representação híbrida . . . 112

4.2.5 Aplicando as abordagens de interpretação . . . 112

4.3 Discussão . . . 114

4.3.1 Cenários de Uso. . . 118

5 RE-INTERPRETAÇÃO DE BDS BIOMÉDICOS . . . 120

5.1 Procedimentos metodológicos . . . 123

5.1.1 Amostragem. . . 123

5.1.2 Representação e organização das ontologias . . . 125

5.1.3 Avaliação . . . 128

5.1.3.1 Teste de Escalabilidade . . . 130

(22)

5.2.1.1 Axiomas de interpretação . . . 133 5.2.2 Avaliando o conteúdo gerado . . . 141

5.2.2.1 Questões de desempenho . . . 145 5.3 Discussão . . . 147

6 APLICAÇÃO PRÁTICA E PROTÓTIPO . . . 151

6.1 Processo de KI-CBR . . . 154

6.1.1 Recuperação . . . 156

6.1.1.1 Integração semântica . . . 158

6.1.1.1.1 Arquitetura da integração . . . 158

6.1.1.1.2 Gryphon Framework . . . 159

6.1.1.1.3 Processo de Integração Otimizado . . . 160

6.1.2 Reuso . . . 162 6.1.2.1 Similaridade . . . 162 6.1.3 Retenção . . . 164 6.2 Arquitetura . . . 165 6.3 Experimento . . . 166 6.4 Discussão . . . 170

III

CONSIDERAÇÕES FINAIS

174

7 CONSIDERAÇÕES FINAIS. . . 175

7.1 Interpretação Ontológica . . . 175

7.1.1 Interpretação com indivíduos . . . 175

7.1.2 Interpretação como subclasses. . . 176

7.1.3 Interpretação com disposições . . . 177

7.1.4 Interpretação híbrida . . . 177

7.2 Validação do processo de interpretação . . . 178

7.3 IntegrativO CBR . . . 180 7.3.1 Funcionamento do integrativO CBR . . . 181 7.4 Contribuições . . . 181 7.5 Aplicabilidade. . . 183 7.6 Limitações . . . 183 7.7 Trabalhos Futuros . . . 185 7.8 Resultados indiretos . . . 186 REFERÊNCIAS . . . 188

(23)

A INTEGRAÇÃO DE BANCOS DE DADOS . . . 211

A.1 Integração semântica . . . 214

A.1.1 Problemas Relacionados . . . 215

A.1.2 Soluções Existentes . . . 217

A.1.2.1 GAV, LAV e GLAV . . . 217

A.1.2.2 OIS e OBDA . . . 218

A.1.2.3 Alinhamento e Mapeamento . . . 219

A.1.2.4 Mediação de Consultas . . . 221 A.1.3 Aplicações de Integração Semântica . . . 222

A.1.3.1 OnTop . . . 222

A.1.3.2 OntoGrate . . . 223

A.1.3.3 OntoFusion . . . 223

B RBC-CI . . . 224

B.1 Raciocínio Baseado em Casos - RBC . . . 224

B.1.1 Processo de RBC . . . 225

B.1.1.1 Recuperação . . . 228

B.1.1.2 Reuso e Revisão. . . 229

B.1.1.3 Retenção . . . 231 B.2 Casos e formas de representação . . . 233

B.2.1 Representação de Casos em RBC . . . 233

B.2.2 Representação de Casos em aplicações de RBC-CI . . . 234

B.3 Aplicações em RBC . . . 236

B.3.1 JCOLIBRI . . . 239

B.3.1.1 Arquitetura do JCOLIBRI2 . . . 241

B.3.1.2 Processo de CBR do JCOLIBRI2 . . . 242 B.4 Padrão de conversão OWL2SPARQL . . . 243

B.4.1 Consultas . . . 244

C CONFIGURAÇÃO DO GRYPHON FRAMEWORK NO INTEGRATIVO

CBR . . . 246

C.1 Alinhamento e Mapeamento no IntegrativO CBR . . . 246

C.2 Consultas no Gryphon Framework . . . 247

D IMPLEMENTAÇÃO DO INTEGRATIVO CBR. . . 248

D.1 Interface de Consulta e Recuperação . . . 248

D.1.1 Configuração . . . 248

D.2 Reuso e Seleção de Casos. . . 249

(24)

E.1 Código axioma 1 . . . 252

E.2 Código axioma 2 . . . 253

E.3 Código axioma 3 . . . 254

(25)

1 Introdução

Este capítulo apresenta a motivação, a definição do problema, os objetivos, a proposta e as contribuições desta tese de doutorado. Por fim, é apresentado como este trabalho foi organizado e estruturado.

1.1 Motivação

Banco de Dados (BDs) biológicos são utilizados desde a década de 1950 para guardar, desde (inicialmente) sequências de proteínas, até sequências de Ácido desoxirribonucleico (ADN) e interações moleculares (1). O crescimento e desenvolvimento de novosBDs biomédicos têm sido acompanhado pela comunidade científica, e.g. por 23 anos consecutivos a revista científica Nucleic Acids Researchfaz um sumário dosBDs biomédicos existentes. Atualmente, há um total de 1685BDs biomédicos ativos (2). Ao passo que novosBDs biomédicos foram desenvolvidos, houve a incorporação de incrementos, e.g. desde o mapeamento do conteúdo de umBD(e.g. por identificadores) até a inclusão de anotações semânticas.

Por exemplo, o Universal Protein Resource (UniProt) (3) é umBDque inclui relações (e.g. tabelas) formadas por atributos (e.g. campos) como proteínas, genes, organismos, processos biológicos, funções moleculares, componentes celulares, identificadores de mapeamento para outrosBDs biológicos e assim por diante. Na prática, as tuplas doUniProtarmazenam dados recuperados de uma ou mais publicações científicas, associando a cada um dos atributos uma ou mais anotações semânticas.

Diversos campos que formam as tuplas emBDs biomédicos incluem anotações semânticas provenientes de ontologias biomédicas, por exemplo:

• Protein Ontology (PRO) (4), para descrever proteínas e genes;

• National Center for Biotechnology Information (NCBI) Taxonomy (5), para descrever organismos celulares;

• Gene Ontology (GO) (6), para descrever processos biológicos, funções moleculares e componentes celulares; e,

• Systematized Nomenclature of Medicine Clinical Terms (SNOMED CT) (7), para descrever fenótipos disfuncionais de organismos vivos. Nesse caso, o termo disfuncional é empregado para qualificar o fenótipo visualizado como um fenômeno anormal no ciclo de vida de um organismo celular.

(26)

Ao utilizar uma ontologia como aGO,PROouSNOMED CTpara anotar semanticamente registros de BDs, é disponibilizada a estrutura ontológica (i.e. hierarquia, classes, relações, axiomas, entre outros) para consultar de forma inteligente os dados existentes, e.g. utilizando métodos de consulta à bancos de dados baseado em ontologias (8) ou o uso de raciocínio por subsunção (9).

Todavia, a utilização da estrutura ontológica para interpretarBDs anotados semantica-mente é bastante limitada. Frequentesemantica-mente, são geradas listas de classes que assumem o valor do campo de uma tabela de forma a descrever as diversas funções que (por exemplo) uma determi-nada proteína assume no corpo humano. Como resultado, são geradas redundâncias que limitam a leitura e a interpretação do registro pelo usuário.

Problemas derivados da ausência de interpretação adequada deBDs anotados semantica-mente com ontologias são relatado pela literatura (10,11,12). Há a necessidade em se desenvolver uma estratégia de interpretação mais uniforme (11) que (e.g.) permita explorar as ontologias e as estratégias existentes de raciocínio e recuperação de conteúdo em múltiplosBDs biomédicos.

1.2 Problema

Apesar de inseridas como um artefato representacional complexo e dotado de capacidades inferenciais, as ontologias são utilizadas junto comBDs como meros vocabulários para anotação ou recuperação de dados (13,8). Normalmente, ontologias eBDs são construídos e concebidos com propósitos diferentes, e o fato de existir uma ou mais anotações em uma tupla não garante completamente a semântica.

Um problema identificado com o uso das anotações semânticas, principalmente nos registros de BDs biomédicos, é a falta de clareza sobre como as classes das ontologias são utilizadas. Frequentemente, são utilizadas muitas classes de uma ontologia como valor de um único campo em uma tupla, e.g. como uma lista. Da forma como são listadas, as anotações não facilitam o entendimento do registro, pois as classes empregadas são descritas de forma desconectada.

Por exemplo, na tabela1há a descrição de um registro proveniente doUniProtsobre a proteína insulina. Para a tupla formada pela: insulina, processo biológico, função molecular e o componente celular a que estas se inserem, são listadas todas as classes daGOque são utilizadas como anotação.

O papel das anotações (que deveria ser de trazer semântica para o registro) acaba gerando mais confusão para o usuário. A confusão acontece pelo fato de não existir uma definição clara de como utilizar as classes para interpretar o conteúdo de uma tupla. O caminho natural seria explorar (diretamente) as classes e relações como disponíveis nas ontologias.

(27)

Tabela 1 – Extrado de algumas anotações provenientes da GO disponíveis no UniProt KB (#P01308) para a Insulina Humana.

go:biological_process go:molecular_function go:cellular_component

alpha-beta T cell activation; insulin receptor binding; endosome lumen;

cell-cell signaling; protease binding; extracellular space;

cellular protein metabolic process; protein binding; Golgi lumen;

endocrine pancreas development; Golgi membrane;

energy reserve metabolic process; secretory granule lumen;

ER to Golgi vesicle-mediated transport vesicle

transport;

não é possível garantir que as ontologias representem todo (ou parte) do conteúdo que está anotado em uma tupla. Por exemplo, aGOfoi concebida como uma representação para auxiliar na análise de genômica funcional. Já o UniProt é umBDque tem como propósito guardar dados sobre proteínas, recuperados a partir da literatura e de experimentos biomédicos. Não é de se esperar que o conteúdo anotado noUniProt(mesmo vindo de uma ontologia) esteja representado de forma que concorde com o que existe na GO (ou em outras ontologias).

Considerando que, do ponto de vista ontológico,BDs, relações, campos e tuplas são entidades de informação, o conteúdo registrado em umBDcorresponde sempre a indivíduos de uma ontologia. Ao utilizar classes para anotar registros, não há definição clara sobre se esta é realmente uma classe de ontologia, ou se é um indivíduo que (quando nomeado com o mesmo nome da classe) se refere à uma classe ontológica. Em outras palavras, ao utilizar a anotação Insulincomo valor do campo Proteína, o termo tanto pode ser interpretado diretamente como uma subclasse de proteína ou um indivíduo do tipo Insulin.

Essas limitações na utilização das ontologias na interpretação deBDs biomédicos trazem à tona outras de ordem representacional:

(i) Como determinar se as anotações em bancos de dados biológicos (por exemplo) são indivíduos, ou classes de ontologias?

(ii) Se interpretados como indivíduos, como representá-los?

(iii) Se interpretados como classes, como representá-los?

(iv) O conteúdo interpretado tem engajamento ontológico, i.e. correspondência com a realidade?

Sobre os pontos (i) e (ii),14,15descreveram uma abordagem para identificar indivíduos em bancos de dados biomédicos, especificamente Registros Eletrônicos em Saúde (RES) e determinar as relações ontológicas existentes. Entretanto, os autores não descreveram as entidades referenciadas pelos indivíduos (i.e. as classes), tampouco consideraram o contexto das anotações. Essa limitação não define as entidades anotadas, já que não são descritas apenas as relações entre indivíduos.

(28)

Em alguns trabalhos (16,17), registros anotados deBDsão representados diretamente como classes. Nesse caso, não há diferenciação entre classes ou indivíduos. Do ponto de vista ontológico, esse tipo de utilização, apesar de permitir a construção de consultas e recuperar conteúdo da ontologia, não é ideal.

Em outras palavras, no exemplo da Insulin, a anotação indica que existem indivíduos recuperados de uma ou mais pesquisas científicas que se comportam de acordo com a tabela1. Cada uma das possíveis associações entre indivíduos da classe Insulin que pertencem à tupla e às demais anotações para processo biológico, função molecular e componente celular ocorrem (na realidade) em nível de instâncias, e não diretamente em nível de classes. Como consequência, podem ser criadas definições genéricas para todas as instâncias existentes de insulina, mas que não ocorrem na realidade.

Outra questão que precisa ser avaliada é se o conteúdo representado (como indivíduos, ou como classes ou incluindo disposições) é factível do ponto de vista ontológico (iv), i.e. se as definições criadas apresentam engajamento ontológico e se é possível avaliá-las utilizando raciocínio. Formas de solucionar esse questionamento foram introduzidas por18,16e17. Esses trabalhos associam ontologias a tarefas como recuperação de classes de ontologias a partir de consultas complexas com a utilização de raciocínio, avaliando a representação ontológica criada a partir da checagem de consistência e recuperação de conteúdo tabular.

Em suma:

• Há diversos bancos de dados biomédicos anotados com classes provenientes de ontologias;

• Há ontologias biomédicas formalizadas que representam o conteúdo descrito como anota-ções;

• O propósito dosBDs e das ontologias é diferente, mas não exclui a complementariedade da informação entre fontes dessas naturezas;

• As anotações são utilizadas para conferir semântica aos registros deBDs;

• As relações entre classes anotadas em um registro não são claras, tampouco evidenciam o engajamento ontológico;

• É possível utilizar ontologias para consultar o conteúdo anotado a partir da descrição clara da interpretação ontológica dessas anotações.

1.3 Hipótese

(29)

• como é possível interpretar registros anotados com classes de forma clara e com engaja-mento ontológico, permitindo que o usuário utilize a formalização existente em ontologias do domínio para compreender de maneira uniforme como são as associações entre os indivíduos e as classes às quais as anotações se referem?

Responder esse questionamento é a chave para solucionar o problema existente de interpretação deBDs biomédicos anotados com classes de ontologias, intuito deste trabalho.

As abordagens existentes para auxiliar o usuário no processo de interpretação focam (exclusivamente) na identificação das anotações (11,19) a partir do processamento de textos, com o posterior registro emBDs. Dessa forma, é identificado um conjunto de “classes-chave”1 que (em tese) deveriam fornecer semântica para as tuplas.

Para responder à hipótese do trabalho, é necessário:

• Determinar como anotações de bancos de dados biológicos são interpretadas de forma clara do ponto de vista ontológico, evidenciando as diferentes formas de representação com indivíduos e classes, ponderando a complexidade e engajamento ontológico;

• Verificar a aplicação da estratégia de interpretação com classes em um cenário realista, utilizando consultas emDLpara testar o engajamento ontológico das respostas recuperadas a partir da interpretação criada;

• E, propor uma implementação capaz de auxiliar o usuário na interpretação ontológica de forma semiautomatizada.

1.4 Objetivos

1.4.1 Objetivo Geral

Nesse sentido, o objetivo deste trabalho é avaliar e propor estratégias que auxiliem o usuário no processo de interpretação de registros bancos de dados biomédicos como indivíduos e classes, a partir de ontologias formais.

São apresentados 04 (quatro) modelos de interpretação ontológica: com indivíduos, subclasses, disposições e um modelo híbrido. Entre esses, o modelo como subclasses apresenta melhor desempenho para raciocínio e construção de consultas, enquanto o modelo híbrido tem o melhor engajamento ontológico.

Para validar a escolha da interpretação adequada, o modelo como subclasses foi avaliado a partir de consultas criadas com dados reais sobre o domínio biomédico. Por fim, é apresentado um protótipo que utiliza um método de Raciocínio Baseado em Casos de Conhecimento Intensivo

(30)

(RBC-CI) para automatizar o processo de interpretação ontológico, facilitando a utilização pelo usuário final.

1.4.2 Objetivos específicos

Para alcançar o objetivo proposto para o trabalho, os seguintes objetivos específicos foram definidos:

1. Formular as possíveis interpretações que podem ser criadas utilizando ontologias formais e.g.representando anotações como indivíduos, classes ou a partir de disposições;

2. Determinar qual das formas de interpretação ontológica é a mais aplicável, considerando aspectos, como engajamento ontológico, clareza, desempenho e capacidade de recuperar conteúdo utilizando consultas;

3. Validar a estratégia de interpretação ontológica sob a ótica do domínio biomédico, com dados e consultas reais que respondam às demandas do usuário;

4. Descrever uma abordagem que permita semiautomatizar o processo de interpretação, recuperando indivíduos e identificando classes de registros anotados;

5. Prototipar uma solução que implemente a abordagem semiautomática de interpretação.

1.5 Proposta

Para alcançar os objetivos delimitados para esta tese, é necessário:

• Elucidar o processo de interpretação ontológica deBDs biomédicos anotados;

• Determinar a validade ontológica do modelo mais adequado de interpretação ontológica com dados reais do domínio biomédico; e,

• Propor uma solução capaz de automatizar o processo, ou seja, que a interpretação seja criada sem a necessidade de intervenção do usuário na manipulação dos dados e identificação de classes.

Em todos os passos deste trabalho são utilizadosBDs biomédicos reais, e.g. oUniProt

e o Ensembl (21). EssesBDs estão presentes, tanto na pesquisa científica, como no processo prático de interpretação por um técnico de laboratório de análise genética e de proteínas, por exemplo.

Anotações noUniProte Ensembl são provenientes das ontologiasGO,ChEBI,PROe

SNOMED CT. A essas ontologias é adicionada a taxonomia de organismosNCBITaxonomy (5). Essa é utilizada para identificar organismos e a organização taxonômica de cada um deles.

(31)

Cada uma dessas ontologias obedece uma estratégia representacional baseada na Basic Formal Ontology (BFO) (22). ABFOé uma ontologia de alto nível, que define classes genéricas. Exemplos de classes genéricas são ‘Dependent continuant’ (entidades que perduram e que sua existência depende de outras, como processos) e ‘Independent continuant’ (entidades que perduram, mas não dependem de outras para existir como entidades materiais).

Todavia, para a descrição e organização do domínio biomédico, aBFOapresenta um alto nível de abstração, tornando a especificação e a integração de ontologias de domínio mais complexas. Como forma de minimizar, será utilizada a ontologia BioTopLite2 (BTL2). ABTL2

fornece classes e relações genéricas em consonância com o referencial ontológico utilizado pela

GO,ChEBIePRO, a Basic Formal Ontology (BFO).

A seguir, são detalhados os passos necessários para alcançar os objetivos traçados.

1.5.1 Interpretação

Do ponto de vista prático, é necessário conhecer, descrever e ponderar como devem ser interpretados registros deBDs utilizando ontologias. Para isso, são definidas 4 formas diferentes de interpretar o conteúdo, considerando:

(i) Representação de dados anotados como indivíduos, e.g. registros deBDincluem indivíduos como methionine synthase e methylation que se relacionam a partir de uma relação formal ‘is participant in’;

(ii) Representação de dados anotados como classes, e.g. cada anotação Methylation (a classe utilizada para anotar um registro) indica a existência de uma subclasse (de Methylation) que se relaciona a uma subclasse de ‘Methionine synthase’ a partir de uma relação formal ‘is participant in’;

(iii) Representação de dados anotados como classes, mas incluindo a noção de disposições e.g. para evidenciar a tendência que todo organismo de um determinado tipo Homo sapiens apresenta para desenvolver um fenótipo disfuncional, como o ataque cardíaco; e

(iv) Um modelo híbrido capaz de aglutinar tanto a simplicidade representacional de (ii), quanto a expressividade de (iii), e.g. incluindo disposições e a noção de que anotações referenciam subclasses da que está anotada.

1.5.2 Validação

Em seguida, no capítulo5, a estratégia de interpretação com a geração de novas subclasses é validada. A validação do conteúdo, chamada aqui de reinterpretação, é construída a partir da aplicação da estratégia de geração de subclasses, identificando axiomas de interpretação e

(32)

aplicando a um conjunto de dados anotados com classes daGO,ChEBI,PROeSNOMED CT. Como resultado, é gerada uma nova ontologia com a interpretação ontológica criada pelo usuário. Em seguida, a ontologia gerada a partir da interpretação é alinhada (i.e. acoplada) às ontologias utilizadas no processo de anotação juntamente com aBTL2. À estrutura ontológica integrada são realizados testes com consultas escritas emDL, que exploram a capacidade de recuperar conteúdo e checagem de consistência e raciocínio por subsunção disponível. Finalmente, é realizado um teste de escalabilidade da abordagem de interpretação, amplificando artificialmente a quantidade de registros existentes (entre 1 e 1000 vezes) para avaliar questões de desempenho.

1.5.3 Protótipo

Como forma de determinar que o processo é reprodutível e automatizável, é apresentado um protótipo chamado integrativO CBR. Esse protótipo foi criado utilizando um método clássico deRBC-CI. E.g. o método deRBC-CIpermite as ontologias eBDs comoBase de Conhecimento (BC) e base de casos (i.e. um tipo deBDcom respostas para possíveis perguntas representadas naBC). Como parte do processo de interpretação é identificar quais classes das ontologias são referenciadas pelas anotações, e buscar essas classes nas ontologias de forma correta, o método deRBC-CIfoi escolhido por permitir realizar essa tarefa de forma simplificada.

Todavia, ainda é necessário evoluir o conceito deRBC-CI. Para tal, foi criada uma estraté-gia de acesso a múltiplosBDs e múltiplas ontologias. Considerando os axiomas de interpretação escritos emDLtambém como consultas, que são convertidas formalmente para uma linguagem de consulta aBDs utilizando ontologias, a SPARQL Query Language for RDF v.1.1 (SPARQL) (23).

O processo de conversão é incorporado de forma a permitir que oRBC-CIsepare os

BDs e as ontologias em duas camadas, mantendo a estrutura de ambos intacta. À evolução do método deRBC-CIdisponível no JCOLIBRI2 chamamos de integrativO CBR (Figura1). Assim, o protótipo incorpora uma estratégia para que o usuário crie axiomas de interpretação, os quais determinam como as ontologias serão consultadas e os dados que serão recuperados.

Na prática, é definida uma arquitetura utilizando e estendendo o framework deRBC-CI

JCOLIBRI2 (20) (uma ilustração do funcionamento do protótipo está descrito na Figura1. O JCOLIBRI2 é o framework mais comum deRBC-CIe inclui grande quantidade de estratégias predefinidas para realizar a verificação das classes registradas em campos deBDs biomédicos, e.g.chamado de métodos de similaridade. Todavia, o JCOLIBRI2 é limitado quanto à forma de acessar múltiplosBDs e quando precisa recuperar conteúdo deBDs anotados.

A recuperação é realizada a partir do integrativO CBR, que media os acessos aosBDs e às ontologias, bem como identifica as classes de ontologias a partir de anotações. Como resultado, é entregue ao usuário um arquivo de ontologia com a interpretação recuperada de forma automática e incorporável às ontologias que compõem a Base de Conhecimento (BC)

(33)

Figura 1 – Exemplificação do funcionamento do protótipo.

doRBC-CI. O funcionamento do protótipo é atestado a partir da reconstrução do processo de interpretação.

1.6 Contribuições

O desenvolvimento deste trabalho visa proporcionar 04 contribuições principais, sendo descritas a seguir.

Contribuição 1

A primeira contribuição deste trabalho é a identificação de que existe um problema de interpretação em bancos de dados biomédicos anotados com classes de ontologias. Ao utilizar classes de ontologias como anotações emBDs, não é claro como cada anotação é interpretada. Não é claro para o usuário como interpretar as anotações, e.g. se o fato de estarem incluídas em umBDdetermina que são indivíduos; ou, se esses registros referenciam a classes de ontologias. Em ambos os cenários, ao utilizar anotações não se define de forma clara sobre qual classe ou sobre qual indivíduo é a anotação, que funciona como um subconjunto da classe utilizada como anotação.

(34)

Ao interpretar a anotação como um indivíduo, não é possível determinar sua identidade, mas se sabe claramente como é constituído (pela classe utilizada). Ao interpretar como classe, cada anotação representa um subconjunto (ou subclasse). Essa classe (então) representa apenas os fenômenos biológicos identificados em trabalhos científicos que determinaram a criação do registro.

Para o domínio biomédico, essa contribuição determina que a maneira com que as interpretação são realizadas atualmente não condiz com o referencial ontológico utilizado. Para a Ciência da Computação, determina que os métodos de análise criados precisam ser melhor estudados, visto que as análises das anotações podem ser formalmente definidas; o que não ocorre.

Contribuição 2

A segunda contribuição é como interpretar de forma clara anotações de registros de bancos de dados de uma perspectiva ontológica. Para isso, são descritas 04 formas de interpretação sobre o conteúdo anotado, sendo as duas primeiras:

• Interpretação como indivíduos;

• Interpretação como subclasses;

e as demais incluindo disposições:

• Interpretação com disposições; e

• Interpretação híbrida (com subclasses e disposições).

A interpretação com disposições tem como princípio o fato de que dados do domínio biomédico são identificados a partir de tendências, e.g. a tendência de um rato em desenvolver leucemia a partir da destruição da medula óssea pela exposição à radiação ionizante.

Cada uma das formas ontológicas de interpretação descritas é avaliada a partir da ca-pacidade de incrementar o domínio com as interpretações, custo e desempenho do raciocínio, além da capacidade de utilizar a interpretação para recuperar conteúdo com base em integração semântica porOBDA.

O processo de identificação e representação do conteúdo semântico contido em bancos de dados biológicos é um tópico frequente de estudo. De um lado, as comunidades de biologia de sistemas e avaliação funcional de genes e proteínas (no domínio Biológico); e do outro, as comunidades de bancos de dados e Inteligência Artificial, especificamente representação do conhecimento.

(35)

Entretanto, ainda não foi descrita uma abordagem de interpretação sobreBDs biológicos que avalie o engajamento ontológico da utilização das anotações. Frequentemente, é assumido que as anotações (unicamente) determinam e facilitam a compreensão pelo usuário do conteúdo registrado, o que não é uma verdade.

Contribuição 3

A terceira contribuição desta tese é avaliar como a interpretação com classes permite a recuperação e a identificação de conhecimento implícito nas anotações utilizando raciocínio. A contribuição referente a esse ponto vem reforçar o papel das ontologias formais no processo de representação, incluindo a possibilidade de realizar raciocínio. O principal intuito de validar a interpretação é de checar se os axiomas criados são válidos do ponto de vista lógico.

Algumas abordagens já descrevem a possibilidade de aplicar ontologias e raciocínio para recuperar conteúdo implícito a partir de bases de dados (18,16). Entretanto, não descrevem claramente como o procedimento de interpretação é empregado para que seja possível representar e recuperar conteúdo.

A contribuição é concretizada com a determinação de que é possível interpretar uma porção de dados e aplicar raciocínio em uma abordagem dedutiva pela utilização de uma su-blinguagem EL++ (24) daDL. Para a área biomédica, a avaliação da interpretação ontológica permite criar subsídios e estratégias de validação automática das análises criadas em laboratório.

Contribuição 4

A última e quarta contribuição desta tese reside na evolução aos modelos existentes de Raciocínio Baseado em Casos de Conhecimento Intensivo (RBC-CI) como uma proposta de abordagem que auxilia o usuário no processo de interpretação e identificação de conteúdo ontológico em bancos de dados. As abordagens de RBC-CImais recentes focam no uso da ontologia como um vocabulário de consulta.

ORBC-CIé utilizado para, dada uma descrição (emDL) sobre a interpretação ontológica dos dados:

1. Recuperar os dados que instanciam a interpretação;

2. Identificar a quais classes os dados se referem;

3. Gerar uma representação que inclui definições formais sobre os dados interpretados;

sendo essa representação uma ontologia emDLque estende as ontologias utilizadas para criar a interpretação. Essa ontologia é constituída pelas classes e axiomas criados a partir da interpretação do usuário.

(36)

De maneira específica, a recuperação de dados existente é restrita à uma pequena quanti-dade de fontes, e.g. uma ontologia que descreve o domínio de maneira geral para um banco de dados que contém instâncias do que é representado na ontologia. Ainda, o método deRBC-CIé modificado no sentido de permitir identificar classes das ontologias a partir das anotações em registros deBDs, ao invés de analisar o dado bruto.

Finalmente, o desenvolvimento desta abordagem (mesmo como um protótipo) abre uma nova janela para o processamento e interpretação semiautomatizada deBDs. Além de auxiliar o usuário na identificação de conteúdo ontológico, auxilia e guia o processo de interpretação, sem precisar da intervenção do usuário. Aproveitando os axiomas existentes e estratégias de raciocínio, é possível avaliar a interpretação antes mesmo de ser aplicada sobre o domínio (como um novo estudo ou método), utilizando lógica para computar implicações e avaliar a consistência de uma afirmação criada.

1.7 Organização do trabalho

A estrutura desta tese reflete os objetivos específicos definidos na seção1.4.2. Os capítulos

2e3correspondem ao referencial teórico. Já os capítulos4,5e6correspondem às contribuições desta tese.

Por fim, são apresentadas as considerações finais sobre o trabalho (capítulo7). Um sumário da organização desta tese é descrito na figura2. A seguir, uma breve introdução sobre o conteúdo das seções e como cada objetivo específico será tratado.

Objetivo Específico 1

Formular as possíveis interpretações que podem ser criadas utilizando ontologias formais e.g. representando anotações como indivíduos, classes ou a partir de disposições.

Este objetivo específico é delineado no capítulo4. Neste capítulo são apresentadas as possíveis abordagens para a interpretação deBDs baseados em ontologias.

Determinar qual das formas de interpretação ontológica é a mais aplicável, conside-rando aspectos, como engajamento ontológico, clareza, desempenho e capacidade de recuperar conteúdo utilizando consultas.

Este objetivo específico é delineado no capítulo4, e utiliza a mesma fundamentação do objetivo específico 1.

(37)

Validar a estratégia de interpretação ontológica sob a ótica do domínio biológico, com dados e consultas reais que respondam às demandas do usuário.

A validação (capítulo5) é construída a partir da interpretação como subclasses (capítulo

4). São criadas consultas emDLpara explorar as classes e definições criadas. Adicionalmente, é apresentada uma avaliação de escalabilidade da abordagem, de forma a evidenciar o custo do raciocínio e a capacidade em resolver consultas utilizando este tipo de interpretação.

Descrever uma abordagem baseada em Raciocínio Baseado em Casos de Conhecimento Intensivo (RBC-CI) (20) que permita semiautomatizar o processo de interpretação, recuperando indivíduos e identificando classes de registros anotados.O objetivo específico 4 é tratado no capítuloB, em que é delineada a abordagem de auxílio ao usuário.

Prototipar uma solução que implemente a abordagem semiautomática de interpretação baseada emRBC-CI.

O objetivo específico 5 tem como foco a implementação da abordagem de interpretação semiautomatizada do objetivo específico 4. No capítulo 6 é apresentado um protótipo capaz de receber axiomas de interpretação, recuperando dados e identificando classes a partir das anotações. R ef er en ci al T eó ric o R es u lta d o s

Ontologias e Representação Capítulo 2

BDs Biológicos e Interpretação Capítulo 3

Introdução Capítulo 1

Interpretação Ontológica Capítulo 4

Re-interpretação de BDs

Biomédicos Capítulo 5

Estratégia de Auxílio ao Usuário Capítulo 6

Considerações finais Capítulo 7

Figura 2 – Organização do Trabalho relacionando as seções com os objetivos específicos deline-ados.

(38)

(39)

2 Representação de Ontologias e

Ontologias Biológicas

Para a descrição do que é a interpretação de bancos de dados biológicos anotados com classes de ontologias, é necessário esclarecer o que é uma ontologia, o tipo de conteúdo incluído, os níveis de abstração existentes e como representá-las de forma adequada. Neste capítulo são apresentados os principais conceitos sobre ontologias e representação, com foco nas ontologias biomédicas, objeto em estudo.

2.1 Ontologias

O que se entende por ontologia foi introduzido pelo filósofo grego Aristóteles, no século 4 A.C. Aristótele, que em seu estudo de Metafísica e Categorias, já tratava os primórdios da discussão sobre como descrever a natureza e a estrutura da realidade. Em Organon, Aristóteles tentou criar a primeira forma de lógica, apresentando categorias como uma taxonomia de objetos (25). Um dos pontos cruciais do trabalho de Aristóteles foi a utilização da lógica para descrever as coisas como elas são compreendidas pela mente humana, possibilitando o entendimento e a interpretação do conteúdo representado da mesma forma independente da linguagem natural. Entretanto, ele frisou que a lógica por si só não seria suficiente para representar tudo.

O termo ontologia (em si) foi criado em 1606 por Jacob Lorhard, em Ogdoas Scholastica, sendo melhor descrito em 1613 por Rudolf Göckel, em Lexicon philosophicum. Apesar disso, a popularização aconteceu por volta do ano 1930, por Christian Wolff em Philosophia prima sive ontologia(26). Segundo a definição, “ontologia” (para a filosofia) é utilizada para descrever uma investigação filosófica sobre a existência, englobando os conceitos de ser e o que existe (27).

De maneira geral, as Ontologias são tratadas como um ramo da filosofia que estuda como os objetos são interpretados e organizados levando em consideração o mundo real, os diferentes tipos e estruturas dos objetos, propriedades, eventos, processos e as relações que as coisas guardam entre si (28). Na prática, ontologias são descritas por meio de conceitos comuns, como composição, tempo, espaço, processos, além de vários outros (26).

Em tempos recentes, as ontologias vêm sendo estudadas pela Ciência da Computação, mais especificamente, a Inteligência Artificial, como meio simulador de teorias sobre como funciona o conhecimento, sendo auxiliado por mecanismos de raciocínio automatizado (29). Com a padronização dos mecanismos de raciocínio por meio da lógica formal, as ontologias (por vezes chamadas Base de Conhecimento –BC), passaram a ser descritas como uma coleção de termos (classes) descritos por sentenças escritas em algum tipo de lógica na forma de axiomas, que são